Полная версия

Главная arrow Статистика arrow МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ СОЦИОЛОГОВ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Точечные оценки параметров и предъявляемые к ним требования

В качестве статистики, отвечающей в вышеприведенном смысле математическому ожиданию, выступает среднее арифметическое. Другими словами, если Xr Xv Ху ..., Хп — выборочные значения некоторой случайной величины § (п — объем выборки), точечной оценкой математического ожидания (рх) этой случайной величины мы считаем число

Разумность выбора выборочного среднего арифметического в качестве точечной оценки генерального математического ожидания подтверждают центральная предельная теорема и закон больших чисел. Роль этих утверждений станет ясной, если рассмотреть суть тех свойств, которыми, в соответствии с положениями математической статистики, должна обладать «хорошая» точечная оценка того или иного параметра. Однако отвлечемся от качества точечных оценок и опишем некоторые модельные представления, типичные для математической статистики.

Представим, что мы имеем некоторую генеральную совокупность и строим на ее основе бесконечное количество выборок одного и того же объема л, для каждой из которой вычисляем интересуюшую нас статистику — в данном случае среднее арифметическое значений нашей случайной величины. Схематически эта процедура представлена на рис. 5.1.

Процесс организации бесконечного количества выборок (одного и того же объема п) и получения соответствующей совокупности выборочных средних арифметических

Рис. 5.1. Процесс организации бесконечного количества выборок (одного и того же объема п) и получения соответствующей совокупности выборочных средних арифметических

Другими словами^ мы имеем бесконечное количество выборочных средних Хг Хг Ху ..., Хп>...

Эти средние можно считать реализацией некоторой случайной

величины. Распределение таких средних хорошо изучено. Оноявля-

о

стся нормальным с параметрами (рх, —А). Это следует из второй фор-

у/п

мулировки теоремы Ляпунова.

Определение. Величина

называется средней (стандартной) ошибкой среднего, или средней (стандартной) ошибкой выборки для признака X.

Таким образом, стандартная ошибка среднего — это стандартное (среднее квадратическое) отклонение выборочного распределения средних значений X, отвечающих бесконечному числу разных мыслимых выборок объема п из изучаемой генеральной совокупности с дисперсией о2.

Подчеркнем, что средняя ошибка выборки говорит о порядке величины случайного отклонения выборочной оценки среднего от «истинного»38 значения параметра генеральной совокупности (вданном случае «истинное» значение — это цх). Очевидно, что средняя ошибка уменьшается с увеличением объема выборки и с уменьшением среднего квадратического отклонения самого признака, т.е. с увеличением однородности совокупности по этому признаку (можно показать, что та же ошибка увеличивается с ростом объема генеральной совокупности; однако генеральную совокупность в большинстве интересующих социолога случаев лучше считать бесконечной, а в этом случае очевидно, что об увеличении ее объема говорить нет смысла).

Распределение, аналогичное описанному распределению выбо- рочныхсредних, можно строить для значений любой статистики (т.е. для точечных оценок любого параметра заданного распределения). Далее мы этим будем активно пользоваться при обсуждении вопроса о том, что такое «хорошая» точечная оценка («хорошая» статистика). Все, что было сказано относительно математического ожидания и среднего арифметического, можно обобщить на любой параметр и отражающую его статистику. Другими словами, угверждения подобные тем, которые мы сформулировали для среднего арифметического, можно определить и для других характеристик.

Рассмотрим некоторый параметр т (в качестве такового могут выступать математическое ожидание, дисперсия, коэффициент корреляции и т.д.). Пусть имеется какая-то выборка, содержащая информацию о нашем параметре, и мы выбрали некую статистику t, значение которой для выборки служит точечной оценкой нашего параметра. Чтобы подобные точечные оценки были «хорошими», требуется, чтобы они удовлетворяли отдельным свойствам. Для пони- [1]

мания этих свойств представим картину, аналогичную изображенной на рис. 3.1, т.е. мы осуществляем огромное количество выборок, для каждой из которых рассчитываем значение рассматриваемой статистики. Этим значениям отвечает некоторое распределение.

Определение. Указанное распределение обычно называется выборочным распределением рассматриваемой cmатистики / ('точнее, следовало бы говорить о распределении оценок, получаемых с помощью выбранной статистики).

Для большей ясности заметим, что распределение среднего арифметического (точнее, средних арифметических) (см. рис. 5.1) — частный случай такого выборочного распределения.

Каждое выборочное распределение любой статистики t (оценивающей любой генеральный параметр т) имеет свои параметры — в частности, свое математическое ожидание и дисперсию (как это имело место для выборочного распределения среднего арифметического). Для многих параметров т подобные распределения изучены, определен соответствующий закон, найдены основные его характеристики.

Далее в соответствии со сложившейся традицией термины «статистика» и «оценка» будем использовать как синонимы (до сих пор оценками у нас служили конкретные выборочные значения статистики). А именно, введем следующее определение.

Определение. Иногда будем называть оценкой параметрах статистику t (а не ее отдельное значение, как раньше). Соответственно, будем говорить о выборочном распределении оценки (вместо выборочного распределения статистики). Иногда / будем обозначать tn в знак того, что при вычислении значений t используются выборки объема п.

Надеемся, что предлагаемое смешение понятий «оценка» и «статистика» не приведет к недоразумениям.

Итак, рассмотрим свойства «хороших» точечных оценок[2].

Определение. Оценка / параметра т называется несмещенной, если среднее выборочного распределения оценки / (при любом фиксированном объеме выборок п) равно величине оцениваемого параметра:

Несмещенность статистики требуется для повышения вероятности того, что наше единственное выборочное значение этой статистики будет достаточно близко к генеральному значению соответствующего параметра. Для смещенных оценок повышается вероятность большой ошибки.

Влияние смещенности оценки параметра на повышение вероятности того, что ее выборочное значение будет далеко отстоять от генерального

Рис. 5.2. Влияние смещенности оценки параметра на повышение вероятности того, что ее выборочное значение будет далеко отстоять от генерального (Ml — математическое ожидание выборочных оценок параметра т, полученных с помощью смещенной статистики t т — генеральное значение параметра; неравенство Ml* т означает смещенность статистики /; сплошной линией Ft(x) распределение упомянутых выборочных оценок; пунктирной F7(x)— распределение тех гипотетических оценок, которые были бы получены с помощью несмещенной статистики)

Для пояснения обратимся к рис. 5.2. Предположим, что для оценки некоторого параметра т используется значение нормально распределенной статистики /, распределение которой представлено на рис. 5.2 кривой F{(х) (сплошная линия). В нашем распоряжении имеется только одно значение статистики /, которое мы вычислили для нашей единственной выборки. Очевидно, с относительно большей вероятностью это значение попадет в ближайшее окружение точки х = 2 (поскольку Mt = 2). Вероятность попасть в ближайшую окрестность точки х = 4 относительно мала. А ведь генеральное значение параметрах равно именно четырем. Это и означает смещенность статистики /: Mt *т. Несомненно, что у нас резко возросла бы вероятность попадания выборочной оценки параметра в окрестность точки л: = 4, если бы мы пользовались другой статистикой, распределение которой представлено на рис. 5.2 кривой F2(х).

Выборочное среднее является несмещенной оценкой генерального математического ожидания (точнее, следовало бы говорить, что среднее арифметическое дает несмещенные оценки, если полагать, что оценка — конкретное значение статистики для выборки). Это следует из центральной предельной теоремы.

Если исходная совокупность симметрична, несмещенной оценкой того же математического ожидания является и выборочное значение медианы. Если совокупность будет не только симметричной, но и унимодальной, несмещенной оценкой математического ожидания явится и мода[3].

Для несмещенных оценок имеют смысл следующие определения.

Определение. Среднее квадратическое отклонение выборочного распределения статистики, отвечающей некоторому рассматриваемому параметру, будем называть средней ошибкой выборки для оцениваемого параметра.

Таким образом, для каждого оцениваемого параметра существует своя средняя ошибка выборки. Если же говорят о средней ошибке выборки вообще, имеют в виду среднюю ошибку выборки для математического ожидания.

Известно много представляющихся естественными, несмещенных оценок. Так, вообще говоря, смещенной является оценка генерального коэффициента корреляции р между двумя случайными величинами, когда в качестве оценивающей статистики фигурирует выборочный коэффициент корреляции г между соответствующими признаками, определяемый по знакомой формуле

Несмещенной эта оценка является когда р = 0.

Смещенной является и оценка генеральной дисперсии с помощью расчета известной формулы:

Именно для того чтобы сделать эту оценку несмещенной, в знаменателе указанной формулы пишут не п, а (« — 1) (несмещенной такая оценка будет для любой исходной совокупности).

Чтобы еще раз показать, зачем нужно стремиться к тому, чтобы используемая статистика давала нам именно несмещенную оценку параметра, рассмотрим распределения только что упомянутых оценок дисперсии (рис. 5.3).

Среднее, отвечающее распределению величины sx2, равно 100, т.е. интересующему нас значению генерального параметра. Среднее, отвечающее величине (V)2, смещено относительно значения генерального параметра: оно равно 83,3. Величина подобного смещения может быть измерена с помощью коэффициента-, поскольку имен-

п

но с помощью этого коэффициента (s'x)2 выражается через s2:

В данном случае величина смещения довольно большая и равна:

Выборочные распределения величин

Рис. 5.3. Выборочные распределения величин

для случайных выборок объема шесть из нормального распределения с дисперсией о7= 100

Источник: Гласс Дж., Стэнли Дж. С. 229.

Определение. Оценка параметра называется состоятельной, если при увеличении объема выборки ее значение приближается к значению генерального параметра, который она оценивает:

Нетрудно понять смысл требования состоятельности. Если оценка не является состоятельной, у нас не будет гарантии того, что увеличение объема выборочной совокупности приближает нашу оценку к генеральному значению изучаемого параметра (должно быть справедливым положение: чем больше объем выборки, тем ближе наша выборочная оценка генерального параметра к его истинному значению).

Среднее арифметическое — состоятельная оценка математического ожидания. И это следует из закона больших чисел (см. приведенную выше формулировку частного случая теоремы Чебышева).

Если несмещенность и состоятельность — понятия абсолютные (относительно каждой статистики в принципе можно сказать, смещена она или не смещена, состоятельна или нет), эффективность — понятие относительное: можно говорить только о том, что одна статистика более эффективна, чем другая.

Определение. Более эффективной считается та статистика, которая имеет меньшую дисперсию своего выборочного распределения.

Для примера упомянем, что выборочные мода и медиана являются несмещенными и состоятельными оценками математического ожидания (точнее, для медианы несмещенность имеет место только в случае симметричности генерального распределения, а для моды — для симметричного и унимодального)[4]. Но они менее эффективны, чем среднее арифметическое. Так, дисперсия ошибки выборочной медианы (т.е. дисперсия выборочного распределения медианы) равна л2 о2

  • ---,т.е. примерно в 1,57 раз больше дисперсии среднего арифме-
  • 2 п

тического (рис. 5.4).

Выборочное распределение среднего X и медианы Me для случайных выборок объема 10 из нормальной совокупности со средним р=20 и дисперсией о = 50

Рис. 5.4. Выборочное распределение среднего X и медианы Me для случайных выборок объема 10 из нормальной совокупности со средним р=20 и дисперсией о2 = 50

Источник: Гласс Дж., Стэнли Дж. С. 232.

Смысл требования эффективности тоже представляется очевидным. Если одна оценка (статистика) менее эффективна, чем другая, то, взяв значение первой (вычисленное для нашей одной — единственной выборки), мы имеем больший шанс «промахнуться», получить значение, сильно отличающееся от значения соответствующего генерального параметра.

Заметим, что, пользуясь вычисленной для выборки относительной частотой встречаемости того или иного интересующего нас события (например, тем, что в выборке мы имеем 40% женщин), мы фактически полагаем, что эта частота является хорошей точечной оценкой соответствующей генеральной вероятности (в нашем случае полагаем, что эта вероятность близка к 0,4).

  • [1] Мы ставим кавычки, поскольку и само понятие генеральной совокупности,и отвечающие ей значения параметров изучаемых распределений — это модельныепредставления.
  • [2] Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии.С. 228—232; Калинина В.Н., Панкин В.Ф. Математическая статистика. С. 162—174.
  • [3] См., например: Гласс Дж., Стэнли Дж. Статистические методы в педагогикеи психологии. С. 230.
  • [4] Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии.С. 230.
 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>