Интервальное оценивание и предельная ошибка выборочного наблюдения

Помимо точечной оценки есть еще один способ — интервальный, который также позволяет назвать величину неизвестного параметра 0, вернее, оценить эту величину.

Интервальное оценивание содержит два числа как границы интервала, внутри которого располагается неизвестный параметр 0. В отличие от точечной оценки, где может быть случай, когда ошибка равна нулю, т.е. 0 = 0, при интервальном оценивании сам интервал свести к нулю не удастся. При этом чем выше надежность (вероятность), с которой необходимо получить точное значение искомого параметра 0, тем шире получается интервал, т.е. больше разность 10 — О |. Кроме того, интервальное оценивание требует преобразования выборочной совокупности данных в соответствии с центральной предельной теоремой русского математика А. М. Ляпунова.

Пример 4.6

Рассмотрим случай применения интервального оценивания.

Допустим, имеется генеральная совокупность с числом элементов N = 200 и величиной средней арифметической ц = 4,95 (см. пример 4.3).

Напомним все девять значений выборочных средних из указанного примера:

Как видим, только одна из статистик 4,96 совпадает с истинным значением ц = 4,95. Это составляет 1/9, или 11,1 %. В общем случае при малых объемах выборки (побщ < 30) полное совпадение значений ц = хо5щ будет маловероятным. Поэтому нашла широкое применение интервальная оценка, при которой определяется интервал, внутри которого с известной, заданной заранее вероятностью находится неизвестное значение параметра 0.

Итак, если мы хотим указать интервал (ej, е2) на числовой оси и при этом задать, что в данном интервале с вероятностью (3, заданной заранее, находится неизвестное значение параметра а, то такое условие следует записать в виде

Например, генеральная средняя равна 400, т.е. а = 400, и можно с уверенностью (вероятностью) Р = 97% говорить, что искомый параметр а лежит в интервале (380, 450):

Поэтому основным показателем надежности выборочного наблюдения оказывается величина предельной ошибки выборки Дпред, которая считается для доверительного интервала. Этот интервал образуется с определенной вероятностью Р, для чего вводят в расчеты нормированный коэффициент t. Тогда величину предельной ошибки выборки Дпред находят по формуле

В математической статистике рассматривается задача определения вероятности того, что случайная величина Х„ распределенная нормально с параметрами а и о, отклонится от величины а — своего математического ожидания. Другими словами, определяется вероятность выполнения неравенства:

Неравенство (4.17) в конечном итоге преобразуется к виду

где х — средняя величина; (Z) — табличное значение функции Лапласа — стандартного нормального распределения.

Равенство (4.18) используется для получения правила «трех сигм», и графическая иллюстрация этого правила дана на рис. 4.1. Расстояние по горизонтали от оси ординат до точки перегиба кривой нормального распределения — это величина среднего квадратического отклонения о. В точке перегиба участок горизонтальной линии (область двух «плеч», каждое из них шириной о) обозначен как Z = 1.

После точки перегиба кривая нормального распределения становится пологой, при этом расстояние между осью ординат и кривой значительно увеличивается. Следующий горизонтальный отрезок располагают на ширине 2а (образуется два отрезка, каждый из них шириной 2а). Аналогично поступают, если каждый из горизонтальных отрезков равен За. Правило «трех сигм», или равенство (4.18) можно записать в виде:

  • Р(Xj - а| < а) = ф(1) = 0,6837 при Z = 1 для интервала (-сг; о);
  • • Р(|Х,-а.| < а) = ф(2) = 0,9545 при Z = 2, для интервала (-2а; 2а);
  • • P(|Z,-a| < a) = ф(3) = 0,9973 при Z= 3, для интервала (-За; За).
Нормальное распределение случайных величин, иллюстрация правила «трех сигм»

Рис. 4.1. Нормальное распределение случайных величин, иллюстрация правила «трех сигм»

Предельная ошибка, как упоминалось выше, учитывает нормированный коэффициент t, который выбирается исходя из заданной вероятности Р доверительного интервала и рассчитывается по формуле (4.16). Отметим, что коэффициент t в статистике получил наименование «коэффициент доверия», правда, этот термин для t используют нечасто. Правило «трех сигм» применяется при интервальном оценивании:

  • t= 1 при Р = 0,6837;
  • • 1 = 2приР = 0,9545;

t = 3 при Р = 0,9973.

Приведенные значения вероятностей Р — это площади под соответствующими частями кривой распределения. Форма распределения случайных величин при их подчинении закону нормального распределения — кривая, которая образует форму колокола или колоколообразная кривая. Например, форму такой кривой можно получить не только расчетным путем, но и в ходе простого опыта. Для этого нужно в емкость (например, бутыль) через воронку засыпать мелко измельченный сухой материал. Затем перевернуть емкость и из ее горлышка (патрубка) будет сыпаться этот материал. Через некоторое время на площадке, куда сыпались частицы, образуется пологая горка, подобно тому, как песок вытекает в песчаных часах.

Выделим из такой горки сечение — оно воспроизводит кривую закона нормального распределения. В этом сечении в двух симметричных полосах шириной 1<т будет содержаться 68,37% сыпучего материала. Или — 68,37% площади этого сечения будет занимать две симметричные полосы, каждая из которых шириной 1о.

Доверительный интервал — это интервал, который с заданной вероятностью покрывает заданный интервал. Правила построения доверительного интервала для генеральной средней зависит от того, известна или нет дисперсия а2 генеральной совокупности.

При известной величине среднеквадратического отклонения а, которое относится к характеристикам ГС, имеет место равенство

Если обозначить математическое ожидание символом р, то равенство (4.19) можно преобразовать к виду

При неизвестном а используют значение среднеквадратического отклонения S выборки:

В выборочном наблюдении и статистических выводах (интервальном оценивании и гипотезах) нашло применение понятие «критическая область».

Критическая область а — область значений случайных величин Х„ где появление таких величин маловероятно. Это заданные границы вероятности наступления события либо принятия гипотезы. Области принятия гипотезы бывают односторонними (если брать а/2) или двухсторонними — для (а : 2) • 2 = а. Доверительные интервалы показаны на рис. 4.2.

Доверительные интервалы играют область критических пределов а. В промежутке (1 - а) находится область принятия нулевой гипотезы. Доля площади под кривой распределения, ограниченная этим промежутком, также будет равна (1 — а). Рассмотрим двустороннюю критическую область. Вне границ доверительного интервала, симметрично расположенного относительно значения Н0.

Пример 4.7

Генеральная совокупность — ежедневная прибыль или убыток (тыс. руб.) одной из секций супермаркета за полгода, число рабочих дней —175. ГС методом повторной выборки были получены 31 ед. наблюдения, которые представлены ниже.

*1

12,0

4,5

-зд

-2,2

12,0

-8,0

0,6

-8,0

10,2

9,0

12,0

-3,1

0,6

-4,2

12,0

9,0

0,6

12,0

-4,2

4,5

9,0

0,6

9,0

10,2

9,0

0,6

4,5

4,5

-2,2

-4,2

12,0

Итого

9,5

14,1

2,9

18,8

21,6

2,9

17,1

-4,4

10,5

30,0

12,0

*ср

3,17

4,7

0,96

6,26

7,2

0,96

5,7

-4,8

3,5

10,0

12,0

Рассчитаем доверительный интервал у для генеральной средней р для следующих значений величин критических областей а:

  • • а = 0,1;
  • • а = 0,05 (односторонняя граница);
  • • а = 0,05 (двухсторонняя граница).

Для получения распределения суммы выборочных средних выборка с числом элементов побщ = 31 была разбита на 11 выборок. Для каждой из них рассчитали среднюю величину. Общая средняя величина выборки равна

Величина среднеквадратического отклонения а для выборочных средних равна 4,39. Тогда стандартная ошибка вычисляется по формуле (4.7):

Из таблицы для функции Лапласа (Z):

  • • для (1 - а) = 0,90; t= 1,64;
  • • 1 - а = 0,95; t= 1,96;
  • • 1-а: 2 = 0,975; t = 2,25.

С учетом значений коэффициента f предельные ошибки интервального оценивания равны

Таким образом, в генеральной совокупности для арифметической средней величины (I указанные критические области доверительного интервала равны:

  • а = 0,1, тогда р находится в интервале (4,51 - 2,165) и (4,51 + 2,165), т.е. (2,345; 6,675);
  • • а = 0,05, тогда р находится в интервале (1,923; 7,097);
  • • а = 0,0275, тогда р находится в интервале (1,54; 7,48).

Вывод из расчетов: чем меньше а (величина критической области), т.е. выше вероятность результата, тем шире доверительный интервал.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >