Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

7.3. Оценки на основе порядковых статистик

Оценки, предложенные Ж. А. Пуанкаре и Ч. П. Винзором, используют основные идеи, известные по оценкам П. Хьюбера 113, 41 ].

Пуанкаре рассматривал выборку, основные элементы которой распределены по нормальному закону, а некоторые ее элементы, доля которых в совокупности равна а, являются аномальными. Он предложил вместо средней арифметической выборки определять a-урезанную среднюю.

Для выборочной совокупности, представленной в виде вариационного ряда (7.1), α-урезанная средняя, 0 < α < 0,5, определяется выражением

(7.16)

где [αN] – целая часть от αN т.е. наибольшее целое число, не превосходящее αN.

Из формулы (7.16) очевидно, что для получения оценки параметра сдвига из вариационного ряда удаляются 100α% минимальных элементов и 100а% максимальных элементов выборки. По оставшимся элементам определяется среднее арифметическое значение. Новое распределение /(г) симметрично, а полученная оценка асимптотически нормальна.

Интересной для практических приложений является α-винзоризованная оценка, предложенная Ч. П. Винзором. По вариационному ряду (7.1) среднее значение для уровня α, где 0 < α < 0,5, определяется формулой

Данная процедура отличается от средней по Пуанкаре, так как [ '] значений не исключаются ни с левого, ни с правого конца вариационного ряда (7.1). Эти значения проецируются в ближайшую точку оставшейся части, упорядоченной в вариационный ряд выборки. Таким образом, при определении средней арифметической участвуют все N наблюдений.

При наложении некоторых условий на распределение /(г) полученная оценка асимптотически нормальна и ее асимптотическая дисперсия имеет следующий вид:

(7.17)

Статистики Т(а) и Ща) дают хорошее приближение, если засоряющее распределение симметрично. Асимптотическая дисперсия оценки Хыобера совпадает с асимптотической дисперсией оценки Т(а) при уровне урезания , зависящем от доли грубых ошибок в выборке а = а(е). Если распределение /(г) нормально, то имеем

При известных значениях е для определениядля оценки можно воспользоваться табл. 7.9. Если г неизвестно, то для е < 0,2 значение а рекомендуется выбирать в интервале 0,05–0,15.

Таблица 7.9

Значенияпри известном уровне засорения

0

0

0.05

0,081

0,40

0,291

0,001

0,004

0,10

0,127

0,50

0,332

0.002

0,008

0,15

0,164

0,65

0,386

0,005

0,015

0,20

0,194

0.80

0,436

0.01

0,026

0,25

0,222

1,0

0,500

0.02

0,043

0,30

0.247

-

-

Величину е можно также определить по выборке. Более того, можно найти оценки нижней и верхней доверительных границ. В некоторых работах значения определяются по каждому исходному показателю отдельно.

Существенную специфику имеет применение устойчивого оценивания при наличии асимметрии распределения. В экономических исследованиях построение уравнений линейной регрессии, проведение факторного или компонентного анализа, как правило, связывают с нормальным распределением. Если исходные статистические данные не подчиняются нормальному закону распределения, то расчеты существенно усложняются. При проведении анализа данных технических измерений в теории точности часто сталкиваются с хорошей сходимостью к нормальному закону распределения. В экономике же сходимость к нормальному распределению является скорее исключением, чем правилом.

Однако гипотеза нормальности часто принимается как некоторое свойство экономических данных. Подобная гипотеза приводит к неадекватным уравнениям линейной регрессии и, как следствие, неудовлетворительным прогнозам. Когда же исходные данные оказываются мультиколлинеарными, то получение уравнения линейной регрессии становится неэффективным.

В экономических исследованиях однородные группы объектов часто бывают относительно немногочисленны, а число используемых одновременно показателей является соизмеримым с числом объектов исследования. Кроме того, нарушение требований, предъявляемых к нормальности распределения, в ряде случаев кажущееся незначительным и трудно обнаруживаемым, может привести к существенным искажениям результатов обработки статистических данных.

Следовательно, в экономических задачах необходимо применять устойчивые правила, которые были бы малочувствительными к отступлениям от основных требований модели и наличию грубых ошибок.

В первую очередь к таким устойчивым оценкам следует отнести минимаксные оценки Хьюбера или оценки Пуанкаре (a-урезанные), Винзора (α-винзоризованные). Эти оценки по своим конечным результатам близки. Однако при построении уравнений регрессии по исходным показателям наиболее хорошо разработанными следует считать оценки Хьюбера.

При построении уравнения регрессии по главным компонентам, проведении факторного или компонентного анализа более предпочтительной является оценка Винзора, для которой средняя арифметическая рассчитывается с учетом всех объектов исследования.

Существуют следующие ограничения методов робастного оценивания:

  • • распределение должно быть симметричным;
  • • уровень засорения е должен быть известен.

При известном уровне засорения по таблице Хьюбера можно определить Ща). Однако на практике е в большинстве экономических задач бывает неизвестным.

Существует и другой подход, который определяет аопт при оценках, предложенных Пуанкаре. В научной литературе он известен как оценка Джакела. Л. Джакел также предлагает проводить оценку а по выборке. При этом следует считать, что искомой аопт будет значение, при котором выборочная дисперсия минимальна:

где za и Z[_a определяются как а • 100% и (1 – а) • 100% перцентили распределения с плотностью p(z).

Если же р(г) является не просто симметричным законом, а нормальным распределением, то для оценок Винзора и Пуанкаре aollT = p{-k). Значение к при е, стремящемся к нулю, стремится к бесконечности.

Хыобером построена таблица зависимостей между к и г. Если по выборке получено е, то может быть найдено и к.

Однако все рассуждения справедливы до тех пор, пока исходные экономические показатели подчиняются симметричному распределению или, в частном случае, нормальному закону распределения. При асимметричности распределения оценки Хьюбера, Пуанкаре и Винзора теряют свою эффективность, становятся несостоятельными и смещенными. Поэтому необходимы подходы, учитывающие асимметричность.

Альтернативным подходом к оцениванию является получение оценок методом "складного ножа" (jackknife) [58]. Этот метод предложил М. Кенуй в 1949 г., а активно работавший над его совершенствованием Д. Тьюки ввел в обращение название джекнайф, проводя аналогию со складным ножом бойскаута, который призван быть подручным средством, готовым решить многие проблемы более эффективно, чем специально предназначенные для этой цели инструменты.

Основная идея, лежащая в основе джекнайфа, заключается в систематическом перерасчете статистики с удалением очередного из п наблюдений и последующим возвращением его в выборку. Каждый раз при таких расчетах для формирования статистики используется подвыборка объемом п– 1, т.е. содержащая на одно наблюдение меньше, чем исходная выборка. Итоговая джекнайф-оценка формируется путем агрегирования оценок, рассчитанных по подвыборкам.

Пусть параметр 0 оценивается на основе п наблюдений, т.е имеем в(х1,Х2,...,х„). При исключении из этой выборки одного г-го наблюдения получаем аналогичную, но несколько отличающуюся оценку 0^(^,...,х,_1}

Усредняя все оценки по подвыборкам, получаем джекнайф-оценку в виде

Джекнайф-оценку используют для коррекции смещения оценкипараметрапо исходной выборке:

После расчета выборочной дисперсииоценки параметра по п его значениям, полученным по выборкам, каждая из которых содержитэле- ментов, определяется значение выборочной дисперсии для всей выборки из п элементов путем коррекции на число степеней свободы:

При несимметричном распределении наиболее удобным можно считать джекнайф-оценку Тьюки и Квенсулла. Суть ее заключается в том, что выборочные данные разбиваются на группы. Эффект каждой группы оценивается по результату, полученному при исключении данной группы из рассмотрения. Такая оценка позволяет уменьшить смещение параметра положения при асимметричных распределениях. При построении уравнения регрессии данный метод не оправдывает надежд исследователей, так как он не доведен до получения оценок с минимальным средним смещением.

Более эффективной оказывается взвешенная джекнайф-оценка, которая была предложена Хинкли. Весовые коэффициенты выбирают как расстояния, отражающие недостаток симметрии, и определяют вклад каждого наблюдения в дисперсию показателя. При оценке параметров вклад наблюдений с большими весами уменьшается.

Джекнайф-оценки и оценки взвешенного джекнайфа могут быть применены как к методу наименьших квадратов, так и к устойчивому (робастному) оцениванию. Мы вынуждены обращаться к оценкам Хьюбера, Пуанкаре и Винзора, так как при засорении метод наименьших квадратов теряет свои оптимальные свойства. Созданы программы для взвешенного джекнайф-оценивания, согласно которым в первую очередь выявляется наличие засорения. При его отсутствии используется метод наименьших квадратов. Если засорение обнаружено, то проводится устойчивое оценивание. При необходимости устойчивого оценивания включается тест на асимметрию. При отсутствии асимметрии применяются методы Хьюбера, Пуанкаре и Винзора. При наличии асимметрии используется взвешенная джекнайф-оценка. Данный подход применяется как в одномерном, так и в многомерном статистическом анализе.

 
<<   СОДЕРЖАНИЕ   >>