Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Статистическое оценивание параметров генеральных совокупностей

Статистическое оценивание параметров одномерных совокупностей

Статистическая методология анализа данных исходит из того, что выборочные характеристики (статистики) 0',(.г,, х2,..., х„) являются случайными величинами как функции от случайных величин Х, х2, ..., х„, а параметры генеральной совокупности 0 есть неслучайные, но неизвестные величины.

Законы распределения выборочных характеристик лежат в основе теории статистического оценивания, представляющей собой совокупность методов, позволяющих делать обоснованные выводы о числовых параметрах генеральной совокупности по случайной выборке из нее.

Предположим, что из генеральной совокупности X с известным законом распределения F(x, 0), взята случайная выборка х,, х2, х„, по результатам которой требуется оценить неизвестный вектор параметров распределения 0.

Для оценки параметра 0 обычно выбирают некоторую функцию от результатов наблюдения, с помощью которой судят о значении параметра 0. Основная задача теории оценивания состоит в выборе оценки 0* параметра 0, позволяющей получить наилучшее приближение к оцениваемому параметру [4, 13].

Точечнойоценкой называют некоторую функцию результатов наблюдений, значение которой принимают за наилучшее приближение в данных условиях к значению параметра 0 генеральной совокупности X.

Поскольку оценкаявляется случайной величиной, зависящей от закона распределения случайной величины X и числа наблюдений п, то выбор той или иной функции в качестве оценки параметра 0 производится с учетом выполнения требований несмещенности, эффективности и состоятельности, предъявляемым к точечным оценкам.

Несмещенной называют статистическую оценкупараметра 0, если при любой объеме выборки п ее математическое ожидание равно оцениваемому параметру, т.е.

Если оценка смещенная, то величина смещения определяется как

Эффективной называют статистическую оценкупараметра 0, если при заданном объеме выборки п она имеет наименьшую дисперсию среди всех возможных несмещенных оценок.

При этом согласно неравенству Рао – Крамера дисперсия любой несмещенной оценки параметра 0 ограничена снизу:

где– плотность распределения вероятностей случайной величины.

Состоятельной называют статистическую оценкупараметра 0, если она при п –> <*> сходится по вероятности к оцениваемому параметру:

Достаточными условиями состоятельности являются сходимость к нулю присмещения оценкии ее дисперсии

Выбор той или иной точечной оценки параметра генеральной совокупности осуществляется с учетом удовлетворения этих оценок свойствам несмещенности, эффективности и состоятельности.

Средняя арифметическая х, вычисленная по п независимым наблюдениям над случайной величиной х, являетсясостоятельной и несмещенной оценкой математического ожидания:. Если при этом случайная величина х распределена нормально с параметрами iV(p, а), то оценка х математического ожидания имеет минимально возможную дисперсию , т.е. является эффективной оценкой.

Оценка выборочной дисперсии является смещенной.

Если математическое ожидание неизвестно, то несмещенной оценкой дисперсии является исправленная выборочная дисперсия(дробь называют поправкой Бесселя).

Для нахождения "хороших" оценок используют метод моментов и метод наибольшего правдоподобия[1].

Метод моментов, предложенный К. Пирсоном, является одним из наиболее распространенных методов построения точечных оценок неизвестных параметров генеральной совокупности. Пусть из генеральной совокупности случайной величины X, вид закона распределения вероятностей которой известен и зависит от к параметров, извлечена случайная выборка х{, х2, ..., хп объемом п. Согласно методу моментов для нахождения точечных оценок параметров приравнивают к теоретических начальных моментов ', где / = 1, 2,..., к, случайной величины X, соответствующих выборочным начальным моментам. Оценки параметров закона распределения определяют как функции от выборочных начальных моментов.

Например, нормальный закон распределения зависит от двух параметров: математического ожидания и дисперсии. Для их оценки по выборке находим два начальных момента . Затем, за оценку математического ожидания принимаем среднюю арифметическую а оценку дисперсии, центрального момента второго порядка, определяют через начальные моменты. Достоинством метода моментов является его простота, при некоторых довольно общих условиях метод моментов позволяет найти оценки, которые при и –"являются состоятельными, асимптотически нормальными и смещенными не более чем на величину порядка 1/n, однако качество оценок, полученных с помощью этого метода, не всегда бывает высоким, особенно при небольших объемах выборки.

Метод наибольшего правдоподобия. Данный метод предложен в 1925 г. английским статистиком Р. Фишером. Пусть– случайная выборка из генеральной совокупности– функция вероятностей (для дискретной случайной величины) или плотность (для непрерывной случайной величины);– параметры закона распределения, подлежащие оцениванию по случайной выборке.

Метод наибольшего правдоподобия используется для нахождения точечных оценок. Он состоит в том, что в качестве оценки неизвестного параметра 0 генеральной совокупности X выбирается значение 0*, при котором достигает максимума функция правдоподобия, т.е. плотности совместного распределения п случайных величин xt, х2, ..., х„, образующих выборку (в случае непрерывной случайной величины), или вероятности их совместного наступления (в случае дискретной случайной величины).

Функция правдоподобия наблюдений xt, х2,..., х„ представляет собой в случае дискретной случайной величины вероятность получить в качестве первого элемента выборки значение xlt второго – значение х2, .... и-го – значение х„, т.е.

Так как наблюдения независимы, то

где– символ произведения п элементов,

В случае непрерывной случайной величины X функция правдоподобия – это совместная и-мерная плотность вероятности, описывающая закон распределения вероятностей п наблюдений с учетом их независимости:

За оценки наибольшего правдоподобия принимают такие значения которые максимизируют функцию правдоподобия из условия

В большинстве случаев максимизируют логарифм функции правдоподобия In/,, и задача сводится к решению системы к уравнений, . Эта система уравнений выражает необходимые условия максимума функции правдоподобия, если последняя дифференцируема.

Оценки 0' метода наибольшего правдоподобия эффективны, если параметр 0 имеет эффективную оценку, кроме того, они состоятельны, имеют асимптотически, т.е. при, нормальное распределение с математическим ожиданием 0 и конечной дисперсией, они также асимптотически эффективны. Эти оценки не всегда являются несмещенными, но если величина смещения известна, то оценку можно скорректировать.

Пример 2.3

На основании выборкитребуется методом наибольшего правдоподобия найти точечные оценки неизвестного вектора параметров 0 генеральной совокупности X, если X подчиняется нормальному закону распределения

Решение

Так как X подчиняется нормальному закону распределения, то и логарифм функции правдоподобия примет вид

Для нахождения точечных оценок запишем систему уравнении

Из нее получим

Законы распределения выборочных характеристик одномерной совокупности. Пусть из генеральной совокупности X, имеющей нормальный закон распределения с математическим ожиданием р и дисперсией σ2, взята случайная выборка объемом п. По данным выборки получены х – средняя арифметическая и S – выборочное среднее квадратическое отклонение, тогда выборочные характеристики (статистики) имеют законы распределены [4, 28], которые представлены в табл. 2.1.

Таблица 2.1

Законы распределения выборочных характеристик для одномерной совокупности

№ п/п

Статистика

Закон распределения статистики

1

Стандартный (нормированный) нормальный закон распределения Лг(0, 1)

2

Распределение Стьюдента (^распределение) с п – 1 степенями свободы

3

Стандартный (нормированный) нормальный закон распределения Лг(0. 1)

4

Распределение Стьюдента (^-распределение) сп – степенями свободы

5

^-распределение си – 1 степенями свободы

6

Распределение Стьюдента (^-распределение) с пх+ пц – 2 степенями свободы

7

Распределение Фишера – Снедекора (f-распределение) с v, = пх- 1 и v2 = и„- 1 степенями свободы

В табл. 2.1 (строки 6 и 7) рассматривается случай двух независимых выборок объемомиз нормальных генеральных совокупностей X и У с одинаковыми математическими ожиданиями и средними квадратическими отклонениями . Здесь по данным выборок получены – выборочные средние, – выборочные дисперсии соответственно первой и второй выборок, а также – исправленные выборочные дисперсии.

В табл. 2.2 представлены выборочные характеристики, имеющие асимптотические, т.е. справедливые при п –> °°, законы распределения вероятностей.

Таблица 2.2

Статистики, имеющие асимптотические законы распределения

Условие

Статистика

Закон распределения при п –> °°

Х, х2 хп случайная выборка из генеральной совокупности с любым законом распределения и конечными значениями математического ожидания р и дисперсии а2

Стандартный нормальный закон распределения jV(0, 1)

т – число единиц, обладающих признаком А в случайной выборке из п независимых испытаний, а р есть вероятность появления события Л в генеральной совокупности

То же

Случайная величина у} имеет распределение х2с v степенями свободы

То же

Интервальные оценки для одномерной совокупности. Пусть найденная по данным выборки статистическая характеристика 0' служит точечной оценкой неизвестного параметра 0 генеральной совокупности. При малых объемах выборок точечные оценки могут достаточно далеко отклоняться от оцениваемых параметров, поэтому наряду с ними используют интервальные оценки параметров генеральной совокупности [20].

Интервальной оценкой параметра 0 называют такой доверительный интервалотносительно которого можно утверждать с определенной, близкой к единице, вероятностью у, что он содержит неизвестное значение параметра 0.

Величину у называют доверительной вероятностью (надежностью) оценки параметра 0. Величину 8 называют точностью оценки. Нижняя и верхняя границы интервала равны . Ширина доверительного интервала равна(рис. 2.1).

Доверительный интервал

Рис. 2.1. Доверительный интервал

Простейший способ построения интервальной оценки основан на использовании неравенства Чебышева: пусть 0' – несмещенная оценка параметра 0, тогда (дисперсия предполагается существующей и известной), откуда доверительный интервал определяется как

Общий подход к построению интервальной оценки неизвестного параметра 0 на основе случайной выборкиизгенеральной совокупности X состоит в нахождении функции, закон распределения которой известен и не зависит от 0 и которая строго монотонна относительно 0 (при заданной выборке). В этом случае интервальное оценивание 0 сводится к определению границ интервала, удовлетворяющих условию

Рассмотрим правила построения доверительных интервалов для параметров нормальной совокупности X на основании случайной выборки xt, х2,.... х„.

Интервальная оценка математического ожидания (генеральной средней). Пусть из генеральной совокупности X, имеющей нормальный закон распределения с математическим ожиданием р и дисперсией ст2, взята случайная выборка объемом п. В качестве основы интервальной оценки математического ожидания используется точечная оценка р – среднее арифметическое, относительно которого строится симметричный интервал (рис. 2.2).

Интервальная оценка математического ожидания

Рис. 2.2. Интервальная оценка математического ожидания

При этом правила построения доверительного интервала для математического ожидания зависят от того, известна или неизвестна дисперсия генеральной совокупности ст2.

Интервальная оценка р при известной дисперсии а2. В соответствии со статистикой в первой строке из табл. 2.1, имеющей стандартный нормальный закон распределения Лг(0, 1), и используя свойство стандартной нормальной случайной величины>, где Ф(£) – интегральная функция Лапласа:(табл. П1 приложения), получим

где – значение стандартной нормальной величины, соответствующее доверительной вероятности– обратное преобразование.

Построение доверительного интервала с заданной вероятностью у для генеральной средней при известной генеральной дисперсии осуществляется по формуле

Точность оценки генеральной средней равна

Анализ доходности акции на основе случайной выборки за 16 дней показал, что средняя доходность составляет 10,37%. Предполагая, что доходность акций подчиняется нормальному закону распределения:

  • а) определим ширину доверительного интервала для средней доходности с вероятностью у = 0,97, если известно, что а = 2%;
  • б) найдем доверительную вероятность того, что точность оценивания составит 5 = 0,98%:
  • в) определим минимальное число наблюдений, которое необходимо провести, чтобы с вероятностью у = 0,99 можно было утверждать, что средняя доходность заключена в интервале шириной 3%.

Решение

а) Так как дисперсия генеральной совокупности известна, то при построении доверительного интервала для генеральной средней будем исходить из статистики в первой строке табл. 2.1.

Для заданной надежности у определим значение L = Ф '(у) по таблице функции Лапласа (см. табл. Ill приложения): fy = ¢^(0,97) = 2,17, откуда ширина доверительного интервала средней доходности

б) Точность оценивания генеральной средней определяется но формуле откуда и доверительная вероятность интервального оценивания генеральной средней при известной дисперсии равна По таблицам функции Лапласа у = Ф( 1,967) = 0,95.

в) Ширина доверительного интервала генеральной средней равна откуда. Для заданной надежности у определим значение (у = Ф '(у) по таблицам функции Лапласа: (у = Ф 40,99) = 2,58, откуда минимальное число наблюдений, которое необходимо провести, чтобы с вероятностью у = 0,99 можно было утверждать, что средняя доходность заключена в интервале шириной 3%, равно

Округлим в большую сторону, так как необходимо обеспечить заданную надежность. следовательно, необходимо провести как минимум 12 наблюдений.

Интервальная оценка р при неизвестной дисперсии а2. Согласно статистике из второй строки табл. 2.1, имеющей распределение Стьюдента (^-распределение) с v = п – 1 степенями свободы, имеем

Построение доверительного интервала с заданной вероятностью у для генеральной средней при неизвестной генеральной дисперсии осуществляется по формуле

(2.6)

где ta – значение функции распределения Стьюдента (^распределения) (табл. П2 приложения), соответствующее v = п – 1 степеням свободы и вероятности а = 1 – у; ta = St~'(a = 1 – у; v = п – 1).

Точность оценки генеральной средней равна

Пример 2.5

По данным примера при условии, что на основе случайной выборки за 16 дней получена оценка S = 2,5%, требуется определить:

  • а) верхнюю границу доверительного интервала для средней доходности с вероятностью у = 0,9;
  • б) доверительную вероятность того, что средняя доходность заключена в интервале (8,37%; 12,37%).

Решение

а) Так как значение дисперсии генеральной совокупности неизвестно, то при построении доверительного интервала для генеральной средней будем исходить из формулы (2.6).

Для заданной вероятности у определим значение"„ = St~'(a = 1–у;" – 1) по таблице "-распределения Стьюдента (см. табл. П2 приложения): "и = 5"-'(1 – 0,9: 16 – 1) = = Si 1(0.1: 15) = 1,753, откуда верхняя граница доверительного интервала

б) Поскольку интервал (8.37%: 12,37%) симметричен относительно точечной оценки математического ожидания (х – 10,37%), точность оценивания генеральной средней при неизвестной дисперсии определяется как, откуда . Далее в таблице "-распределения Стьюдента для числа степеней свободы v = и – 1 = 15 (см. табл. П2 приложения) берем ближайшее к найденному значению " и получаем приближенное значение доверительной вероятности:

Чтобы получить более точное значение вероятностии у, необходимо прибегнуть к методу линейной интерполяции при использовании табл. П2 приложения или воспользоваться компьютерными программами, например встроенной статистической функцией MS Excel СТЬЮДРАСП. Тогда точное значение доверительной вероятности для интервальной оценки генеральной средней при неизвестной дисперсии равно

Интервальные оценки дисперсии и среднего квадратического отклонения. Пусть из генеральной совокупности X. имеющей нормальный закон распределения с математическим ожиданием р и дисперсией ст2, взята случайная выборка объемом п. В качестве основы интервальной оценки дисперсии используется статистика S2. Интервал, в отличие от генеральной средней, для генеральной дисперсии в общем случае строится несимметричный. При этом правила построения доверительного интервала для дисперсии зависят от объема используемой при оценивании выборки. Доверительные интервалы а2 и о при малых объемах выборки (п < 30).

Согласно статистикеимеющей-распределение Пирсона с v = п – 1 степенями свободы, для заданной вероятности у будем иметь

Так как таблица-распределения Пирсона (табл. ПЗ приложения) содержит вероятности, то можно записать:

Таким образом,

Учитывая, что

получаем искомую формулу для интервальной оценки.

Построение доверительного интервала с заданной надежностью у для генеральной дисперсии о2 при малых объемах выборки (п < 30) осуществляется по формуле

(2.7)

Границы интервалаI, очевидно, определяются из условия (2.7) неоднозначно. Обычно их выбирают так, чтобы одинаковыми были вероятности

Таким образом, нижнюю и верхнюю границы интерваланаходят по таблицам ^-распределения (см. табл. 1.13 приложения) для условий

(2.8)

где– случайная величина, имеющая ^-распределение сстепенями свободы. Отсюда доверительная вероятность равна

Пример 2.6

Для анализа производительности труда были отобраны 15 работников предприятия. На основании проведенных испытаний была получена оценка S = 20 изд/ч. Предполагая, что производительность труда работников подчиняется нормальному закону распределения, определим:

  • а) с надежностью у = 0,95 границы доверительного интервала для генеральной дисперсии ст2;
  • б) доверительную вероятность того, что истинное значение среднего квадратического отклонения заключено в интервале (18 изд/ч; 22 изд/ч).

Решение

а) Так как объем выборки невелик, при построении доверительного интервала для генеральной дисперсии будем исходить из формулы (2.7). Имеем

где согласно формуле (2.8)

Для заданной надежности у определим значенияпо таблице распределения х2 лля числа степеней свободы v = и -1 = 15-1 = 14 (см. табл. 113 приложения):

откуда границы доверительного интервала для генеральной дисперсии равны

Итак, построенный с вероятностью у = 0,95 доверительный интервал для генеральной дисперсии а2 имеет вид Р(229,718 < а2 < 1065,961) = 0,95.

6) Доверительная вероятность оценки среднего квадратического отклонения определяется из условия (2.7):

На основе значений границ доверительного интервала, данных в условии задачи, определим соответствующие значения

затем по таблицам распределениядля числа степеней свободы v =/2-1 = 15-1 = = 14 (см. табл. ПЗ приложения) берем ближайшие значения к полученным и определяем приближенное значение надежности:

Чтобы получить более точные значения вероятностей Р(%2) и у, необходимо прибегнуть к методу линейной интерполяции при использовании табл. ПЗ или воспользоваться компьютерными программами, например встроенной статистической функцией MS Excel ХИ2РАСП. Тогда точное значение доверительной вероятности [21 ] равно

Доверительный интервал для о2 и о при достаточно большом объеме наблюдений (и > 30). Учитывая, что статистика при п –> 00 асимптотически стремится к стандартному нормальному закону Л'г(0; 1) и что для стандартной нормальной случайной величины |, после преобразования получим

Построение доверительного интервала с заданной вероятностью у для генерального среднего квадратического отклонения о при достаточно больших объемах выборки (я > 30) осуществляется по формуле

(2.9)

где t.f – значение нормированной нормальной случайной величины, соответствующее надежности

Если задан доверительный интерват для оценки среднего квадратического отклоненияпри большом объеме выборки, то вероятность попадания а в заданный интервал определяется из условия

где

(2.10)

Пример 2.7

Решим пример 2.6 при условии, что случайная выборка строится на основе данных 200 работников.

Решение

а) Так как объем выборки большой (я = 200), при построении доверительного интервала для генеральной дисперсии будем исходить из формулы (2.9).

Для заданной вероятности у определим значение t( = Ф *(Y) по таблице функции Лапласа (см. табл. П1 приложения): = Ф '(0,95) = 1,96, откуда границы доверительного интервала среднего квадратического отклонения производительности труда работников равны

Итак, построенный с надежностью у = 0,95 доверительный интервал для генеральной дисперсии а2 имеет вид

Как очевидно из сравнения с примером 2.6, при увеличении объема выборки ширина доверительного интервала значительно уменьшилась.

б)

На основе значений границ доверительного интервала определим соответствующие значения и Г2 (по формуле (2.10)):

Отсюда по таблицам функции Лапласа имеем

В результате доверительная вероятность заданного интервального оценивания ст е 118 изд/ч; 22 изд/4] среднего квадратического отклонения генеральной совокупности равна

Интервальные оценки генеральной доли или вероятности р. Пусть в п независимых испытаниях некоторое событие А, вероятность появления которого в каждом испытании равна р, наступило т раз, где

В качестве основы интервальной оценки генеральной доли используется точечная оценка вероятности – частость т/п. При этом правила построения доверительного интервала для генеральной доли зависят от объема используемой при оценивании выборки.

Интервальные оценки для Р при достаточно больших п (п > 30). Интервал строится симметричным относительно частости т/п в соответствии со статистикой, которая приасимптотически стремится к стандартному нормальному закону Щ0; 1). Исходя из свойств стандартной нормальной случайной величиныпосле преобразования получим

где L – значение нормированной нормальной случайной величины, соответствующее вероятности у, где. Здесь Ф(Г) – интегральная функция Лапласа (см. табл. П1 приложения).

Из формулы (2.5) следует, что для нахождения интервальной оценки надо решить относительно р неравенства. На практике часто для упрощения расчетов ограничиваются заменойоценкой . Тогда

Построение доверительного интервала с заданной вероятностью у для генеральной доли или вероятности р при достаточно больших объемах выборки (п > 30) осуществляется по формуле

(2.11)

где точность оценки равна– значение стандартной нормальной случайной величины, соответствующее доверительной вероятностиI.

Если задан доверительный интервал для оценки генеральной доли или вероятности pe[pmin;pmax] при большом объеме выборки, то надежность попадания р в заданный интервал определяется из условия

На основе значений границ доверительного интервала определим соответствующие значения t{ и t2:

Пример 2.8

При проведении анализа эффективности рекламы, размещенной в Интернете, была организована случайная выборка, объем которой составил 500 человек. В результате проведенного опроса выяснилось, что для 200 человек источником информации послужили объявления, размещенные в Интернете. В предположении о биномиальном законе распределения:

  • а) определим с вероятностью у = 0,95 верхнюю границу вероятности того, что один случайно отобранный покупатель воспользовался рекламой в Интернете;
  • б) найдем доверительную вероятность того, что вероятность использования рекламы в Интернете будет находиться в интервале (0,35; 0,50).

Решение

а) Так как объем выборки достаточно велик, то при построении доверительного интервала для генеральной доли будем исходить из формулы (2.11).

Для заданной вероятности у определим значение 1у = Ф '(у) но таблицам функции Лапласа: £, = Ф '(0,95) = 1,96, откуда верхняя граница доверительного интервала вероятности

б) На основе значений границ ладанного доверитель: кн о интервала определим соответствующие значения г, и (2:

По таблицам функции Лапласа (см. табл. П1 приложения) имеем

Доверительная вероятность заданного интервального оценивания генеральной доли ре (0,35; 0,50) равна

Интервальные оценки для Р при малых п. Их строят, исходя из биномиального закона распределения, приняв, где

– вероятность того, что в п испытаниях событие А появится т раз;

– вероятность появления события Л; q = 1 – р.

Границы доверительного интервала для генеральной доли определяются на основе уравнений , которые решаются приближенно.

  • [1] Часто данный метод называется методом максимального правдоподобия.
 
<<   СОДЕРЖАНИЕ   >>