Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

7.4. Непараметрические модели распределений

Для анализа данных, взятых из генеральной совокупности, необходимы сведения о виде закона ее распределения, который дает наиболее полную информацию о генеральной совокупности. В отсутствие обоснованных предположений о виде этого закона может быть использовано его асимптотическое приближение, основанное на теории больших выборок. Асимптотический подход в ряде случаев сопряжен с трудностями аналитического характера и не всегда обеспечивает необходимую точность.

Альтернативой параметрическому подходу к оцениванию и асимптотическому приближению является построение непараметрических моделей распределения. Может сложиться мнение о том, что в оценивании параметров совокупности на основе непараметрических моделей заложено некое внутреннее противоречие, однако оно разрешается при корректном восприятии смысла параметров. В параметрических моделях эти параметры определяются на этапе спецификации. В непараметрических моделях предполагается получение параметров в виде обобщенных характеристик, дающих некие универсальные сведения о генеральной совокупности.

Основная общая информация о генеральной совокупности концентрируется в наборе основных характеристик, или статистик, описывающих форму кривой распределения, а также ее положение, рассеяние данных, взаимосвязь признаков. Статистика как функция случайной наблюдаемой выборки является случайной величиной. В случае унимодального распределения примерами характеристик могут служить различные варианты оценки среднего значения, квантили распределения, дисперсия, стандартное отклонение, среднее отклонение, размах.

Различные непараметрические модели распределений используются как на предварительном, разведочном, так и на других этапах анализа данных, таких как построение классификационных и регрессионных моделей. На стадии предварительного анализа возможно применение непараметрических оценок плотности распределения в качестве вспомогательных, например для выбора наилучшей параметрической модели распределения из некоторого класса, определяемого содержательными соображениями. Прикладные модели, базирующиеся на непараметрических моделях распределений, по своей сущности являются непараметрическими и вследствие этого достаточно свободными от ошибок спецификации и влияния эффекта "засорения" выборки.

Непараметрический подход позволяет получить состоятельную аппроксимацию реального распределения на основе имеющихся данных. Наиболее просто, как это обычно и бывает, эта проблема решается для одномерных распределений и существенно усложняется с ростом размерности признакового пространства. Однако в сочетании с задачей снижения селекции или выделения переменных она может быть решена с необходимым для практических целей качеством.

Классическая непараметрическая оценка плотности восходит к решению проблемы группировки и табличного представления данных. Одна из первых гистограмм была построена Джоном Грантом в 1662 г. по возрасту умерших во время эпидемии чумы в Англии. К XIX в. гистограммы наряду с полигонами частот стали широко распространенными моделями эмпирических распределений.

Идея построения гистограммы для непрерывных количественных данных состоит в использовании дополнительного измерения для отображения плотности их распределения. Если расположить по оси абсцисс данные о значениях признаков у некоторой совокупности объектов, то определить плотность распределения непосредственно по этому графику будет затруднительно. Добавление дополнительного измерения позволяет отложить по оси ординат оценку плотности распределения в виде доли наблюдений, попавших в каждый из выбранных интервалов.

В табл. 7.10 представлены значения признака для 100 объектов наблюдения

Таблица 7.10

Значения признака для 100 объектов наблюдения

3,833

2.812

2,203

1.799

3,864

3,955

3,201

2,337

2.961

2,764

4.691

3,475

3,461

2.890

3.748

5,498

1,314

4,202

1,394

1.899

0,830

2,330

3,937

1.885

2,792

5,648

0,447

3,030

1,870

3,360

2,652

2,734

1.175

1,074

2,526

3,022

3,020

4,469

1,971

3,238

2,267

1,997

3,631

3,072

1,895

5.182

1,765

3,610

2,974

3,871

3,923

3,269

2,837

3,327

1,932

2,882

3,941

0,941

4,535

2,596

2,492

2,636

3,254

2,219

3,604

1,756

5,064

5,925

4,052

2,643

2,628

4,828

3,963

1,684

3.327

3,349

1,682

3,620

2,433

2,108

1,384

3,582

3,129

3,358

3,933

2,946

4,174

3,880

0,884

3,515

2,909

2,646

1,382

1.160

2,690

4,158

2.826

2,127

2,582

3,330

Данные табл. 7.10 отражены на рис. 7.9 под осью абсцисс, разбитой на равные интервалы шириной 0,5 начиная с нуля. Большей плотности скопления точек в интервале соответствует большая высота соответствующего ему столбца гистограммы.

Значения признака для 100 объектов наблюдения и гистограмма их распределения

Рис. 7.9. Значения признака для 100 объектов наблюдения и гистограмма их распределения

Как правило, в гистограмме все интервалы имеют одинаковую ширину h. Гистограмма является асимптотическим приближением произвольного распределения, в связи с чем она может быть использована как непараметрическая оценка его плотности. Значение оценки плотности распределения посредством гистограммы в каждом интервале постоянно и определяется выражением

для„ где– число наблюдений, попавших в интервал.

Первым систематизатором правил построения гистограмм принято считать Г. Стсрджеса (Н. Sturges), предложившего в 1926 г. правило выбора числа интервалов к по объему выборки. В соответствии с формулой происходит логарифмический рост к при экспоненциальном увеличении объема данных:

При этом ширина интервала определяется размахом значений признака х-.

(7.18)

Квадратные скобки в обоих случаях означают взятие целой части числа. Стерджес ориентировался на биномиальное распределение данных с параметром р = 1/2, для которого сумма всех возможных вариантов значений в к интервалах группировки составляет

Изначально правило Стерджеса применялось для распределений, близких к нормальным. Оно до сегодняшнего дня достаточно часто используется для проведения группировок данных и построения гистограмм. Однако с точки зрения использования гистограммы как оценки плотности распределения ширина интервала отличается от предложенной Стерджесом. На рис. 7.10 представлена гистограмма по данным табл. 7.10, построенная для числа интервалов, определенного по правилу Стерджеса

Гистограмма значений признака для 100 объектов наблюдения при к = 7

Рис. 7.10. Гистограмма значений признака для 100 объектов наблюдения при к = 7

При оценкеплотности распределения g(x) непрерывного признаках интегральный средний квадрат ошибки (IMSE – integrated mean square error) определяется выражением

(7.19)

Средний квадрат ошибки (MSE) может быть представлен в виде суммы дисперсиии квадрата смещения:

Доля наблюдений, попавших в к-й интервал, является переменной, распределенной по биномиальному закону с параметрами (), где вероятность определяется истинной плотностью распределения

где , – левая граница к-го интервала.

Точечная оценка дисперсии оценки плотности вероятности в к-м интервале с учетом формулы (7.17) определяется как

Интегральная дисперсия оценки плотности вероятности с учетом того, что будет определяться выражением

Согласно теореме о среднем

(7.20)

где

Таким образом, интегральная дисперсия плотности вероятности

Степень приближения определяется числом наблюдений и, их достаточным количеством в каждом интервале группировки.

Математическое ожидание плотности распределения для k-ro интервала равно

Следовательно, смещение оценки в k-м интервале

(7.21)

С учетом выражения (7.20) в предположении дифференцируемости плотности вероятности g(x) произведем се разложение в ряд Тейлора с точностью до линейного члена в окрестности точки х:

(7.22)

При этом, так как , точки их находятся в пределах одного интервала группировки. Квадрат смещения (7.21) с учетом формул (7.20) и (7.22) имеет порядок . В свою очередь, интегрированное смещение имеет порядок . Смещение определяется шириной интервала гистограммы, поэтому получение точной оценки требует, чтобы она стремилась к нулю по мере роста числа наблюдений п. В то же время это уменьшение должно происходить медленнее, чем рост п, чтобы обеспечить стремление при .

Выражение для интегрированного среднего квадрата ошибки (7.19) с учетом анализа разности между и для всех х в к-м интервале выведено Скоттом [60]:

Интегрированный средний квадрат ошибки будет асимптотически минимален и равен

при

(7.23)

Большая, чем заданная формулой (7.23), ширина интервала позволяет получить представление об общей структуре совокупности. Меньшая ширина интервала при достаточном числе наблюдений может быть полезной, когда истинная плотность представляет собой смесь распределений.

В случае нормального распределения выражение (7.23) определяет ширину интервала, наилучшую с точки зрения минимума интегрированного среднего квадрата ошибки:

(7.24)

Ширина интервала, определяемая формулой (7.24), отличается от предложенной Стерджесом (7.18).

Помимо ширины интервала на вид гистограммы влияет положение левой границы первого двухстороннего интервала xmin на оси значений признака х. Эту зависимость можно элиминировать последовательным сдвигом каждого интервала на h/m и усреднением числа наблюдений, попадающих в каждый из интервалов шириной h/m, по всем т сдвинутым гистограммам.

На рис. 7.11 представлены гистограммы, построенные по данным табл. 7.10 с левой границей первого интервала, последовательно сдвигаемой на 0,125. Заметно изменение формы диаграммы при таком сдвиге. Так как шаг сдвига и число гистограмм выбраны таким образом, чтобы охватить полный цикл изменений в пределах ширины интервала, разумно произвести усреднение всех четырех гистограмм. Результат усреднения представлен на нижней гистограмме рисунка.

При уменьшении шага, на который последовательно сдвигаются интервалы, уменьшаются искажения за счет дискретного представления плотности распределения данных. При устремлении шага дискретизации к нулю плотность распределения становится непрерывной.

По мере стремления числа сдвигов т в пределах одного интервала к бесконечности для получения усредненной посредством сдвига гистограммы приходим к так называемой ядерной оценке плотности, обеспечивающей еще более гладкое распределение, чем средняя по дискретному сдвигу гистограмма:

где ядерная функция

может иметь различную форму при выполнении условия нормировки

Использование ядерной функции прямоугольного вида ,

где

приводит к тому, что все наблюдения, попадающие в интервал сглаживания, в одинаковой мере участвуют в формировании оценки плотности распределения в данной точке.

Применяются и ядерные функции с ограниченным размером окна, но меньшим весом наблюдений, более удаленных от анализируемой точки. Примерами таких распределений могут служить треугольное ядро

и ядро Епаиечникова

(7.25)

Гистограммы, построенные для последовательно сдвинутой на четверть ширины интервала сетки, и результат их усреднения

Рис. 7.11. Гистограммы, построенные для последовательно сдвинутой на четверть ширины интервала сетки, и результат их усреднения

Сглаживание распределений с помощью ядра Епанечникова обеспечивает наименьшее значение среднего квадрата отклонения оценки плотности от истинного ее значения по сравнению с оценками, использующими другие виды ядер.

Широко распространенным является гауссово ядро с неограниченным размером

На рис. 7.12–7.15 представлены ядерные оценки плотности, построенные по данным табл. 7.10. Гауссово ядро позволяет получить более гладкие оценки плотности даже при меньшей ширине окна сглаживания А.

Ядерная оценка плотности с использованием прямоугольного ядра при h = 0,5

Рис. 7.12. Ядерная оценка плотности с использованием прямоугольного ядра при h = 0,5

Ядерная оценка плотности с использованием гауссова ядра при h = 0,25

Рис. 7.13. Ядерная оценка плотности с использованием гауссова ядра при h = 0,25

Чрезмерно гладкая ядерная оценка плотности с использованием гауссова ядра при h = 0,5

Рис. 7.14. Чрезмерно гладкая ядерная оценка плотности с использованием гауссова ядра при h = 0,5

Недостаточно гладкая ядерная оценка плотности с использованием гауссова ядра при h = 0,15

Рис. 7.15. Недостаточно гладкая ядерная оценка плотности с использованием гауссова ядра при h = 0,15

Выбор ширины окна сглаживания является важным аспектом получения оценки плотности. Оптимальный выбор возможен для известной истинной плотности распределения, что недостижимо при решении практических задач. В качестве ориентира для простых плотностей распределения в случае гауссова ядра можно использовать правило Сильвермена К = 1,066л1/5. Для данных табл. 7.10 эта величина составляет К =0,296, что подтверждает достаточно удачный выбор ширины окна сглаживания для оценки плотности, представленной на рис. 7.13.

В любом случае при выборе значения h следует избегать эффекта пере- сглаживания (см. рис. 7.14) и недосглаживания (см. рис. 7.15).

Если ширина окна сглаживания h чрезмерна, то для формирования значения оценки плотности распределения в каждой точке используется слишком много нерелевантной информации, что приводит к увеличению смещения. Если же значение h слишком мало, то в формировании оценки реально участвует недостаточное число наблюдений, что увеличивает дисперсию оценки.

 
<<   СОДЕРЖАНИЕ   >>