Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

7.5. Оценки методами бутстреп-анализа

Бутстрепирование, как и непараметрическое оценивание плотности, является альтернативой асимптотическому подходу [6, 48, 49]. Оно предусматривает многократный случайный отбор из имеющейся выборки, приводящий к получению выборки большего объема для приближения истинного закона распределения генеральной совокупности эмпирическим. Так, из выборки объемом п можно получить путем выбора с повторениями, или ресамплинга, Nmax = пп различных выборок того же объема. Такое искусственное увеличение объема данных без привлечения дополнительной информации сравнивают со стремлением достичь своей цели без посторонней помощи (англ, to bootstrap), что и определило название метода. Автором метода считается Б. Эфрон. Бутстрепирование обычно осуществляют путем формирования не всех возможных выборок, а необходимого их числа путем случайного извлечения из имеющихся данных с возвращением. Главное различие асимптотического подхода и бутстрепирования состоит в том, что классические выборки для получения асимптотического приближения извлекаются из генеральной совокупности, а бутстреповские псевдовыборки – из имеющихся элементов эмпирической выборки путем повторного выбора элементов (ресамплинга).

Формируемые путем выбора, или бутстрепирования, выборки обычно используются не для построения непосредственно приближения закона распределения данных, а для расчета требуемых статистик и построения законов распределения этих статистик. Общее число всех возможных выборок даже при не очень больших объемах данных может оказаться чрезмерным. Поэтому бутстрепирование обычно осуществляют путем образования не всех возможных выборок, а разумного их числа путем случайного извлечения из имеющихся данных с возвращением. Рекомендуемое число бутстреповских выборок при объеме исходной выборки п равно

Извлеченные выборки используют для построения моделей распределений, оценки доверительных интервалов и проверки гипотез о значениях параметров.

Параметр сдвига может быть рассчитан как среднее значение либо как медиана распределения. Бутстрепирование обеспечивает возможность нахождения доверительного интервала для среднего значения генеральной совокупности без использования предположения о виде генеральной совокупности. При этом распределение средних используется для того, чтобы оценить изменение выборочной характеристики при некоторой флуктуации исходных данных.

Среднее значение и медиана, вычисленные по массиву всех бутстрепированных выборок, равны среднему значению исходной выборки, аналогично тому, что при гипотетическом включении в выборку всех элементов генеральной совокупности были бы получены истинные оценки параметров.

По выборке () оценкапараметраможет быть рассчитана непосредственно. В то же время из элементов исходной выборки может быть составлена новая выборка () из элементов путем случайного извлечения с возвращением. По этой выборке может быт получена альтернативная оценка этого же параметра. Разность оценки параметра по первичной выборке и истинного значения параметра () асимптотически ведет себя гак же, как и разность оценок параметров (), построенных по данным псевдовыборки и первичной выборки, так как последняя для повторного отбора выступает в роли генеральной совокупности. Такой подход к получению оценок без использования предположения о виде закона распределения называют непараметрическим бутстрепом.

Бутстреповская (т.е. определенная по всем возможным повторным выборкам) дисперсия оценкипараметра 0 может быть определена как бутстреповское математическое ожидание разности бутстреповской оценки и ее истинного математического ожидания:

На практике бутстреповскую оценку параметра вычисляют как среднюю по N бутстреповским выборкам:

(7.26)

По этим же данным рассчитывают бутстреповскую оценку дисперсии:

Аналогом распределения среднего значения стандартизованной генеральной среднейявляется бутстреповское распределение величины

где– среднее значение признака по N бутстреповским выборкам (объем каждой из них равен п);– среднее значение признака по исходной выборке (или всем возможным выборкам из нее);– среднее квадратическое отклонение признака, рассчитанное по исходной выборке.

При неизвестной генеральной дисперсии аналогом распределения среднего значения стандартизованной генеральной среднейявляется бутстреповское распределение величины

где– среднее квадратическое отклонение признака по N бутстреповским выборкам.

На основе бутстреповского распределения выборочного среднего по N бутстреповским выборкам можно определить его а-100% и (1-а)100% бутстреповские квантилии, что обеспечивает возможность построения доверительного интервала для генеральной средней

Аналогично могут быть построены доверительные интервалы для других параметров генеральной совокупности.

Пример 7.8

По выборке из трех наблюдений 15, 21, 33 построим оценку генерального среднего.

Решение

Общее число всех возможных различных выборов из наборов значений с возвращением 3:' = 27. Сформируем эти выборки и рассчитаем но каждой из них среднее значение (табл. 7.11).

Точечная оценка генерального среднего по данным всех возможных выборок, получаемых путем ресамплинга,, равна среднему по исходной выборке

. График функции распределения среднего значения приведен на рис. 7.16.

Таблица 7.11

Все возможные выборки, сформированные путем извлечения с возвращением элементов исходной выборки 15, 21, 33

Выборка

Среднее

значение

Выборка

Среднее

значение

Выборка

Среднее

значение

15 21 15

17

21 21 15

19

33 21 15

23

1521 21

19

21 21 21

21

33 21 21

25

15 21 33

23

21 21 33

25

33 21 33

29

15 33 15

21

21 33 15

23

33 33 15

27

15 33 21

23

21 33 21

25

33 33 21

29

15 33 33

27

21 33 33

29

33 33 33

33

15 15 15

15

21 15 15

17

33 15 15

21

15 15 21

17

21 15 21

19

33 15 21

23

15 15 33

21

21 15 33

23

33 15 33

27

Функция распределения среднего значения, построенная по всем 27 возможным выборкам путем ресамплинга из трех наблюдаемых значений 15, 21, 33

Рис. 7.16. Функция распределения среднего значения, построенная по всем 27 возможным выборкам путем ресамплинга из трех наблюдаемых значений 15, 21, 33

Точечная оценка стандартного отклонения, рассчитанная по исходной выборке, т.е. , естественным образом совпадает со стандартным отклонением, рассчитанным по бутстрепированным данным:

Точечная оценка генерального среднего по бутстрепированным данным 10 случайных выборок (табл. 7.12), число которых приближенно соответствует (7.25), представляет собой среднее значение , которое не совпадает со средним по исходной выборке. Оценка бутстреповского стандартного отклонения будет равна

Таблица 7.12

Набор из 10 случайно взятых выборок, сформированных путем извлечения с возвращением элементов исходной выборки 15, 21, 33

Выборка

Среднее значение

1521 21

19

15 33 15

21

15 15 15

15

15 15 33

21

21 21 21

21

21 33 33

29

21 15 21

19

21 15 33

23

33 21 15

23

33 21 33

29

Результаты построения бутстреповской функции распределения стандартизованной генеральной средней приведены на рис. 7.17.

Бутстреповская функция распределения нормированного среднего значения по 10 бутстреповским выборкам из трех значений 15, 21, 33

Рис. 7.17. Бутстреповская функция распределения нормированного среднего значения по 10 бутстреповским выборкам из трех значений 15, 21, 33

Интервальная оценка генерального среднего, рассчитанная при значении доверительной вероятности>, в соответствии с формулой (7.26) после нахождения соответствующих бутстреповских квантилей будет иметь вид

Эта оценка построена в отсутствие информации о виде закона распределения признака.

 
<<   СОДЕРЖАНИЕ   >>