Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Робастное оценивание параметров и непараметрические модели генеральной совокупности

В результате изучения материала главы 7 обучающийся должен:

знать

  • • методы выявления аномальных значений в выборочных данных;
  • • методы устойчивого параметрического оценивания;
  • • основные подходы к оцениванию параметров в отсутствие информации о виде закона распределения признаков;

уметь

  • • диагностировать данные на наличие аномальных значений признаков;
  • • получать оценки параметров моделей на основе порядковых статистик;
  • • строить непараметрические модели распределений методами ядерного оценивания плотности;

владеть

  • • навыками выявления аномалий в анализируемых данных;
  • • методами получения робастных оценок параметров генеральной совокупности.

Аномальные значения. Методы обнаружения засорения выборки

В процессе спецификации моделей и оценки их параметров на основе данных результатов измерений наличие резко выделяющихся наблюдений или значений может привести как к неправильному определению вида модели, так и к ошибкам в оценке ее основных характеристик. Наличие аномальных наблюдений и грубых ошибок измерений часто порождает искаженное представление о структуре и взаимодействии исследуемых объектов. В свою очередь, неправильная спецификация модели обусловливает ее существенное несоответствие имеющимся данным, и некоторые результаты измерения могут быть восприняты как аномальные наблюдения. Именно поэтому моделирование требует постоянного внимания к изучению механизма, лежащего в основе моделируемого явления, его содержательного анализа.

При решении задач классификации даже одно аномальное значение может существенно исказить моделируемую структуру. Причинами "засорения" выборки могут служить ошибки в съеме или вводе данных, а также искажения при их передаче. Рассмотрим пример "засорения" нормально распределенных двумерных данных одним аномальным наблюдением.

На рис. 7.1 представлено эмпирическое распределение нормально распределенных групп объектов и аномального наблюдения в двумерном признаковом пространстве. Присутствие отличающихся друг от друга однородных групп далеко не очевидно вследствие чрезмерно крупного масштаба, необходимого для охвата всех исходных объектов.

Диаграмма рассеяния при наличии аномального наблюдения

Рис. 7.1. Диаграмма рассеяния при наличии аномального наблюдения

Решением задачи классификации для этого случая, очевидно, послужило бы разбиение объектов на две группы: группу, состоящую из аномального объекта, и группу из всех остальных объектов. Удаление аномалии объекта приводит к иной картине распределения. На рис. 7.2 видна более детальная картина эмпирического распределения, в которой, в отличие от ситуации с аномальным наблюдением, расстояния между объектами при классификации будут играть существенную роль.

Диаграмма рассеяния в отсутствие аномального наблюдения

Рис. 7.2. Диаграмма рассеяния в отсутствие аномального наблюдения

Примером влияния ошибочной спецификации на решение задачи классификации может служить неправильный выбор закона распределения. Чаще всего на практике предполагается нормальность распределения признаков. При отличии распределения признаков от нормального часть наблюдений образует группу явных "нарушителей" нормального закона. Рассмотрим пример логарифмически нормального распределения. Таким примером может служить распределение однородной группы населения по уровню дохода. Предположение нормальности в данном случае теоретически неоправданно, но встречается в работах исследователей. Ящичная диаграмма выборки из логарифмически нормальной совокупности представлена на рис. 7.3. На ней заметны свойственная логарифмически нормальному распределению асимметрия и наличие аномальных (для гипотетического случая нормального распределения) значений в виде звездочек с подписанными возле них номерами наблюдений.

Ящичная диаграмма логарифмически нормально распределенного признака х

Рис. 7.3. Ящичная диаграмма логарифмически нормально распределенного признака х

Ящичная диаграмма для тех же данных после логарифмирования признаках (у = ln х) показывает отсутствие у логарифмированных данных аномальных значений (рис. 7.4).

Статистическое оценивание параметров генеральной совокупности, приводящее к проблеме появления аномальных значений вследствие неправильной спецификации модели распределения, может наблюдаться и при правильном определении вида закона распределения, но наличии в модели объектов из нескольких совокупностей с различными параметрами. Эту проблему можно рассматривать как ошибку в описании модели, например считать наблюдения нормально распределенного признака аномальными, если в совокупности содержатся объекты из различных однородных групп объектов, даже если в каждой из них аномальные наблюдения отсутствуют. Распределение реальных совокупностей может представлять собой смесь нормального распределения с распределениями других видов, описывающих тяжелые "хвосты" эмпирического распределения. Примерами таких распределений могут служить распределение Парето, распределение Стьюдента с небольшим числом степеней свободы [4].

Ящичная диаграмма логарифмически нормально распределенного признака после логарифмирования

Рис. 7.4. Ящичная диаграмма логарифмически нормально распределенного признака после логарифмирования

Если содержательно недопустимо предположение о наличии нескольких групп объектов в генеральной совокупности, то чужеродные объекты могут рассматриваться как "засоряющие" однородную совокупность. Влияние эффекта "засорения" выборки на результат построения регрессионной модели может быть проиллюстрировано на примере его влияния на оценки коэффициентов. На рис. 7.5 приведена диаграмма рассеяния однородной группы объектов и одного аномального наблюдения с наложенными на нее линиями регрессии, одна из которых построена по всем имеющимся данным, а вторая – только по данным об однородной группе, т.е. без аномального наблюдения. Оценки получены обычным методом наименьших квадратов, обеспечивающим получение эффективных оценок при условии выполнения условий теоремы Гаусса – Маркова, но чувствительным к нарушению этих условий, в частности к наличию резко выделяющихся наблюдений. Как очевидно из рис. 7.5, эффект от присутствия только одного аномального значения может проявляться в существенном изменении угла наклона линии регрессии и даже в смене знака коэффициента при регрессоре на противоположный.

Линии регрессии в отсутствие (сплошная линия) и мри наличии (пунктирная линия) аномального наблюдения

Рис. 7.5. Линии регрессии в отсутствие (сплошная линия) и мри наличии (пунктирная линия) аномального наблюдения

Можно провести определенную аналогию между формированием статистической оценки и поведением живого организма. Если оценивание производится в соответствии с алгоритмами, мало чувствительными к ошибкам спецификации модели (неблагоприятным внешним условиям) и присутствию мешающих объектов (некоему подобию инфекционного заражения), то получаемые оценки являются робастными (от англ, robust – "здоровый", "крепкий", "стойкий").

Альтернативный подход к оцениванию базируется на выявлении аномальных наблюдений, их удалении и построении оценки по неполной выборке. В силу возникающего при этом ухудшения репрезентативности такой подход пригоден только при небольшом числе аномальных значений. Особенно существенным ухудшение репрезентативности может быть в случае данных большой размерности, так как по каждой координате признакового пространства аномальными могут быть признаны значения различных объектов, что обусловливает высокую засоренность всей выборки.

Распространенной причиной появления аномальных значений являются грубые ошибки. Они могут появиться при сборе исходной информации, а также в результате искажения информации в каналах ее передачи. Их причиной может также служить некорректный предварительный содержательный анализ исходных характеристик изучаемых объектов [58]. Известны различные методы выявления аномальных наблюдений. Они, как правило, требуют предварительного определения структуры совокупности, в общем случае неоднородной, ее разбиения на однородные группы, каждая из которых характеризуется своим набором параметров.

При оценивании параметров исследуемой совокупности используют методы непосредственного выявления грубых ошибок и методы, сводящие к минимуму искажения, создаваемые этими ошибками. Кроме того, существуют и комбинированные методы, которые позволяют и выделять грубые ошибки, и давать наиболее правдоподобные оценки параметров распределения.

В процессе реализации первого подхода выборка подвергается своего рода цензуре, и ее называют цензурированной. Примером цензурирования данных является удаление аномальных наблюдений в соответствии с правилом трех сигм. Согласно этому правилу практически все наблюдения нормально распределенного признаках отклоняются от своего математического ожидания р менее чем на три средних квадратических отклонения σ:

Наблюдения, не попадающие в интервал, признаются аномальными. Это правило является базовым для построения множества алгоритмов. Данные могут быть подвержены и более строгой "цензуре", когда задается более низкий порог ограничения, соответствующий большей вероятности отклонения наблюдения от математического ожидания.

Сложность непосредственного применения правила трех сигм и ему подобных состоит в том, что параметры µ и σ обычно неизвестны, а попытка получения их оценок непосредственно по имеющейся информации приведет к искажениям, обусловленным наличием аномальных значений. Учесть этот эффект можно путем предварительного удаления "подозрительных" наблюдений, оценивания параметров по "очищенной" выборке и применения базового правила (например, трех сигм) для выявления аномалий. Можно также использовать статистику в виде нормированного значения экстремального отклонения от среднего, оцененного по всей выборке. Примером алгоритма такого рода является метод Смирнова – Граббса для выявления грубых ошибок измерений [33, 54].

При проверке на аномальность максимального значения в имеющейся совокупности метод Смирнова – Граббса предусматривает упорядочение результатов N наблюденийрезультат которого можно представить в виде вариационного ряда

(7.1)

где в отличие от г,, представляет собой наблюдение со значением признака, большим или равным значениям признака у других не менее чем (г – 1) наблюдаемых объектов.

При неизвестных параметрах µ и σ необходимо определить нормированную величину модуля отклонения последнего члена вариационного ряда от среднего значения

(7.2)

где– оценки математического ожидания и дисперсии.

Рассчитанное согласно (7.2) значениенеобходимо сравнить с критическим значениемиз таблицы Граббса (табл. 7.1) при односторонней альтернативе для соответствующей вероятности ошибки первого рода а. Если, то гипотезао том, что проверяемое наблюдение является типичным для данной совокупности, отвергается на выбранном уровне значимости а, и это значение признается грубой ошибкой. Иногда в таблицах вместо а используется доверительная вероятность, где. Для критического значенияпри справедливости гипотезысправедливо выражение

Таблица 7.1

Таблица Граббса. Критические значения Сп для односторонней альтернативы

Число

наблюдений N

Число

наблюдений N

3

1,15

1,15

20

2,56

2,71

4

1,46

1,48

21

2,58

2,73

5

1.67

1,71

22

2,60

2,76

6

1,82

1,89

23

2,62

2,78

7

1,94

2,02

24

2,64

2,80

8

2,03

2,13

25

2,66

2,82

9

2,11

2,21

30

2,75

2,91

10

2.18

2,29

35

2,82

2,98

11

2,23

2,36

40

2.87

3,04

12

2.29

2,41

45

2,92

3,09

13

2,33

2,46

50

2.96

3,13

14

2,37

2,51

60

3,03

3,20

15

2,41

2,55

70

3,09

3,26

16

2,44

2,59

80

3,14

3,31

17

2,47

2,62

90

3.18

3,35

18

2,50

2,65

100

3,21

3,38

19

2,53

2,68

При проверке на аномальность наименьшей наблюдаемой величины целесообразно построение вариационного ряда в порядке уменьшения значений

(7.3)

При этом можно использовать статистику (7.2) и описанное выше правило проверки гипотезы.

В выборке из пяти значении (5, 7. 9, 11, 25) проверим, является ли наибольшее значение дг5 = 25 аномальным.

Решение

Рассчитаем средние значения по всей выборке и по первым четырем значениям:

Найдем значение исправленного выборочного среднего квадратического отклонения:

Рассчитанное значение критерия 7}5) составит

Оно превышает критическое значение Q.05 – 1 ,67, определенное но табл. 7.1 для N = 5. Следовательно, значение х5 = 25 является нетипичным для анализируемой совокупности.

Наряду с критерием Т для проверки предположения, что наибольшее (наименьшее) из наблюдаемых значений является нетипичным, может быть использован эквивалентный ему G-критерий в виде отношения суммы квадратов отклонений от средних. Статистика критерия представляет собой частное от деления суммы квадратов отклонений от своего среднего значения х(ЛМ) для выборки с исключенным проверяемым на аномальность значением x(N) на сумму квадратов отклонений от х, рассчитанную по всем имеющимся данным:

где

Легко показать, что статистикиисвязаны между собой соотношением

Критические значениядля критерия G можно определить по табл. 7.2. Наблюдение относят к нетипичным, если рассчитанное для него значение статистики G окажется меньше критического

Таблица 7.2

Критические значенияпри использовании критерия G

Число

наблюдений N

Число

наблюдений N

3

0,0109

0,0027

0,0007

15

0,6134

0,5559

0,5030

4

0,0975

0,0494

0,0248

16

0.6306

0,5755

0,5246

5

0,1984

0,1270

0,0808

17

0,6461

0,5933

0,5442

6

0,2826

0.2032

0,1453

18

0,6601

0,6095

0.5621

7

0.3503

0.2696

0,2066

19

0.6730

0,6243

0,5785

8

0,4050

0,3261

0,2616

20

0,6848

0,6379

0,5937

9

0.4502

0,3742

0,3101

21

0,6958

0,6504

0,6076

10

0.4881

0,4154

0,3526

22

0.7058

0,6621

0,6206

11

0,5204

0,4511

0,3901

23

0.7151

0,6728

0,6327

12

0,5483

0.4822

0,4232

24

0.7238

0,6829

0,6439

13

0.5727

0,5097

0,4528

25

0,7319

0,6923

0,6544

14

0,5942

0,5340

0,4792

По данным предыдущего примера (5,7,9,11,25) проверим на аномальность на! большее значение с помощью (7-критерия.

Решение

С учетом средних значений но всей выборке и по первым четырем значениям рассчитаем значение (7-критерия:

По табл. 7.2 находим критическое значение для числа наблюдений N = 5:

Сода = 0,127. Рассчитанное значение меньше критического, следовательно, и согласно

G-критерию значение дг5 = 25 следует признать аномальным.

Альтернативным критерием, привлекательным с точки зрения меньших вычислительных затрат, является критерий, предложенный в середине XX в. В. Диксоном [47]. Он основан на статистиках, рассчитываемых путем деления модуля разности экстремального и близкого к нему значения на размах, определяемый либо но всей совокупности, либо по совокупности, редуцированной путем удаления некоторых крайних значений. Для проверки на аномальность наибольшего значения, т.е. величины .т(Л?>, в вариационном ряду (7.1) эти статистики имеют вид

Каждая из этих статистик рекомендуется к использованию при определенном числе наблюдений, и в соответствии с этими рекомендациями можно определить общую статистику

Критические значения для этой статистики приведены в табл. 7.3.

Таблица 7.3

Критические значения для критерия Диксона K<,v> при односторонней альтернативе

Число

наблюдений N

Число

наблюдений N

3

0.98797

0,94125

17

0,58008

0,48903

4

0.88940

0,76548

18

0.56450

0,47458

5

0.78107

0,64231

19

0,55035

0,46167

6

0.69829

0,56246

20

0,53777

0,45006

7

0,63725

0,50734

21

0,52626

0,43957

8

0.68086

0,55401

22

0,51575

0,43000

9

0,63421

0,51116

23

0,50616

0,42125

10

0.59709

0.47793

24

0,49734

0.41324

11

0.67436

0,57493

25

0,48913

0,40581

12

0,64333

0,54563

26

0,48150

0.39891

13

0,61715

0,52123

27

0,47442

0,39257

14

0,64060

0,54550

28

0,46781

0,38658

15

0,61763

0,52403

29

0,46166

0,38101

16

0,59770

0.50533

30

0,45583

0,37575

Если рассчитанное аначение статистики превышает соответствующее критическое на выбранном уровне значимости а, то наблюдение признается аномальным. Чтобы проверить на аномальность наименьшее наблюдение, необходимо вместо ряда (7.1) использовать вариационный ряд (7.3), построенный в порядке уменьшения значений.

Пример 7.3

По данным выборки, состоящей из пяти наблюдений (5, 7, 9, 11, 25), проверим на аномальность наибольшее значение с помощью критерия Диксона.

Решение

Так как число наблюдений равно пяти, выбираем статистику. Ее значение составит

Эта величина превышает критическое значение 0,64231, определенное по табл. 7.3, Следовательно, критерий Диксона подтверждает аномальность значения .т5 = 25.

Последовательное многократное применение критерия для проверки на аномальность отдельного значения с целью исключения нескольких выбросов производить не следует. При наличии более одного выброса возникает смещение параметров выборки, препятствующее обнаружению всех выбросов. Проверяемое на аномальность второе значение входит в расчет средней величины и дисперсии и может таким образом себя маскировать, смещая в свою сторону среднее значение и увеличивая меру разброса значений признака. Это явление называют маскирующим эффектом, и для его предотвращения строят процедуры, изначально предназначенные для обнаружения нескольких выбросов. Обобщением критерия Граббса на случай проверки на аномальность нескольких экстремальных наблюдений является критерий Титьена – Мура.

В подходе, предложенном Г. Титьеном и Г. Муром [61], используется вариационный ряд (7.1) для проверки на типичность к наибольших наблюдений и (7.3) – для проверки к наименьших наблюдений. При этом формируется статистика

(7.4)

где.– средняя арифметическая первых (Nк) наблюдений ва

риационного ряда. Критические значения дляприведены в табл. 7.4.

Значениесравнивается с критическим значением. Если рассчитанное значение меньше критического, то к рассматриваемых наблюдений являются грубыми ошибками.

Таблица 7.4

Критические значения для

2

3

4

5

6

7

4

0,001

-

5

0,018

-

6

0,055

0,010

-

7

0.106

0.032

8

0,146

0,064

0,022

9

0,194

0,099

0,045

10

0,233

0.129

0,070

0,034

11

0,270

0,162

0,098

0,054

-

12

0,305

0,196

0,125

0,076

0,042

13

0.337

0.224

0.150

0,098

0,060

-

14

0,363

0,250

0,174

0,122

0,079

0,050

15

0,387

0,276

0,197

0,140

0,097

0,066

16

0,410

0,300

0,219

0,159

0,115

0,082

17

0,427

0,322

0,240

0,181

0,136

0,100

18

0,447

0,337

0,259

0,200

0,154

0,116

19

0,462

0,354

0,277

0,209

0,168

0,130

20

0,484

0.377

0,299

0,238

0,188

0,150

25

0,550

0,450

0,374

0.312

0,262

0.22

30

0,599

0,506

0,434

0,376

0,327

0.283

35

0,642

0,554

0,482

0.424

0,376

0,334

40

0.672

0.588

0.523

0,468

0,421

0,378

45

0,696

0,618

0,556

0,502

0,456

0,417

50

0.722

0,646

0,588

0,535

0,490

0,450

Пример 7.4

По данным выборки (5, 7, 9, 11. 25, 26) проверим на аномальность наибольшие значения.

Решение

Проверим на аномальность наибольшее значение* = 26 с помощью G-критерия. Для этого рассчитаем средние значения по всей выборке и но первым пяти значениям:

Рассчитаем значение G-критерия:

По табл. 7.2 находим критическое значение для числа наблюдений N = 6: G005 = 0,2032. Рассчитанное значение превышает критическое, что не даст оснований для отнесения анализируемого наблюдения к аномальным. Добавление к выборке дополнительного значения *6 = 26, превышающего признанное ранее нетипичным значение д'5 = 25, приводит к тому, что это значение не признается аномальным. Этот пример может служить иллюстрацией маскирующего эффекта.

Проверим на аномальность сразу два наибольших значения с помощью критерия Титьена Мура. Для этого используем общее среднее значение * = 13,833 и среднее значение после исключения этих двух наблюдений *(4) = 8, подставив их в формулу (7.4):

Эта величина меньше критической величины 0,055, определенной по табл. 7.3, что свидетельствует о нетипичности анализируемых значений для рассматриваемой совокупности.

Иначе обстоит дело с проверкой на типичность одновременно наибольших и наименьших значений. Для этого требуется предварительное преобразование исходных данных. Необходим расчет абсолютных отклонений от среднего

и построение по аналогии с рядом (7.1) вариационного ряда в порядке возрастания полученных значений с соответствующей переиндексацией величин z,

Для проверки на типичность k наблюдений, имеющих наибольшие по модулю отклонения от среднего значения, используется статистика

где – средняя арифметическая всей выборки; – средняя арифметическая из N-к наблюдений, оставшихся после исключения из выборки к элементов с наибольшими по модулю отклонениями от среднего. Критические значения дляприведены в табл. 7.5.

Таблица 7.5

Критические значения для

2

3

4

5

6

7

4

0.000

5

0.002

...

6

0.012

0,001

7

0.028

0,006

8

0.050

0.014

0,004

9

0.078

0,026

0,009

10

0,101

0,048

0,016

0,012

11

0,134

0,064

0,030

0,020

12

0,159

0,083

0,042

0,031

0,008

...

13

0,181

0,103

0,056

0,042

0,014

14

0,207

0,123

0,072

0,054

0,022

0,012

15

0,238

0,146

0,090

0,068

0,032

0,018

16

0,263

0,166

0,107

0,079

0,040

0,024

17

0.290

0.188

0,122

0.094

0,052

0,032

18

0.306

0.206

0,141

0,108

0,062

0,041

19

0,323

0,219

0,156

0.121

0,074

0,050

20

0,339

0.236

0,170

0.188

0,086

0,058

25

0,418

0.320

0,245

0,250

0,146

0,110

30

0.482

0.386

0,308

0,299

0,204

0.166

35

0,533

0,435

0,364

0,347

0,252

0,211

40

0.574

0,480

0,408

0,386

0,298

0.258

45

0.607

0,518

0,446

0,424

0,336

0.294

50

0.636

0.550

0,482

0,535

0.376

0,334

Пример 7.5

По данным выборки (5,7.9,11, -25.26) проверим на аномальность одновременно два значения: наибольшее и наименьшее.

Решение

Рассчитаем среднее значение по всей выборке:

Рассчитаем модули отклонений от среднего г, и запишем их в порядке возрастания Ztgy

Средняя арифметическая всех этих значений, а их средняя арифметическая после исключения двух последних значений

Значение статистики критерия

Это значение больше критического 0,012, определенного по табл. 7.5. Следовательно, нет достаточных оснований для отнесения анализируемых значений к нетипичным для данной совокупности.

К недостатку критерия Титьена – Мура можно отнести необходимость априорной информации о числе аномальных значений, при отсутствии которой определение этого числа производится но тем же данным, что и рассчитываемая статистика критерия. Это существенным образом сказывается на фактическом критическом значении. Кроме того, используемые статистики достаточно сильно искажаются при нарушении предположения о нормальности распределения исследуемого признака.

 
<<   СОДЕРЖАНИЕ   >>