Полная версия

Главная arrow Статистика arrow МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ СОЦИОЛОГОВ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Однофакторный дисперсионный анализ как проверка статистической гипотезы

Взглянем на дисперсионный анализе другой стороны.

Будем проверять гипотезу о равенстве средних для рассматриваемых групп. В данном случае: //0: ц, = р2=р, (точнее, следовало бы писать: Я0м = ц

Заметим, что /7[ здесь формулируется достаточно неопределенно — Н(: не все средние равны.

Для того чтобы выяснить, какие именно из средних можно считать неравными, следует использовать методы множественного сравнения.

Проверка гипотезы осуществляется известным нам образом. Чтобы реализовать соответствующую логику, надо знать критериальную статистику и закон ее распределения.

Используем введенные обозначения:

SSb = 55межлу — межгрупповая сумма квадратов; 55„ = 55и

внутригрупповая сумма квадратов; 55, = 55о6ш — общая сумма квадратов; п — объем выборки, J — число ячеек.

Каждой сумме квадратов отвечает свое число степеней свободы:

Заметим, что

Введем еще два обозначения:

MSb = SSb / dfb; MSw = SSw/ dfw так называемые средние квадраты. Искомая статистика имеет вид:

Чтобы пояс нить гот содержательный смысл, который заложен в этом критерии, вспомним, как выглядит кривая ^-распределения. Напомним, что эта кривая имеет два «хвоста» и, соответственно, могут быть найдены два табличных значения: и —.

^табл

Как правило, рассматриваемый критерий имеет смысл считать двусторонним (логика рассуждений, использующихся при выборе числа «сторон» критерия, та же, которая использовалась нами при обсуждении аналогичного вопроса при проверке гипотезы о равенстве двух средних).

Для определенности (и в соответствии с традицией) положим, что первое значение ограничивает правый «хвост», а второе — левый. Гипотеза будет отвергнута в двух случаях.

Во-первых, если значение критерия достаточно велико. А это будет иметь место, когда числитель дроби MSb/ MSw велик, а знаменатель мал. Другими словами, критерий «зашкалит» за правое табличное значение, если наши среди недалеко отстоят друг от друга, а внутри каждой группы имеется однородность (т.е. каждое среднее действительно репрезентирует соответствующую группу). Хотелось бы, чтобы читатель понял, что это отвечает здравому смыслу.

Заметим, что аналогичные критерии применяют во многих алгоритмах классификации. Мы имеем в виду критерии, позволяющие судить о качестве разбиения. Эти критерии говорят о качестве, если внутри классов объектам «тесно», а сами классы расположены «просторно», между ними большие расстояния. Таким образом, можно сказать, что дисперсионный анализ не только выводит нас на причинно-следственные отношения, ной позволяет оценить качество классификации, состоящей в распределении объектов по ячейкам.

Во-вторых, гипотеза о равенстве средних будет отвергнута, если значение критерия достаточно мало. Смысл этого понять труднее. Однако и здесь обычные житейские рассуждения приходят на помощь. Итак, пусть дробь MSb / MSw очень мала. Проще говоря, это означает, что либо средние, вычисленные по отдельным классам, очень близки друг к другу, либо разброс значений внутри классов в среднем очень велик. Нетрудно заметить, что и в том, и в другом случае нет абсолютно никаких оснований отвергать гипотезу, т.е. полагать, что у нас имеются различные средние, хорошо репрезентирующие свои группы. Этого нельзя сказать, если средние «слиплись» (раз они мало отличаются, то вряд л и можно говорить о том, что уровень Y определяется значением X), и если средние (даже если они разные) не надежны, не отражают ситуацию в группе. Подчеркнем, что мы не доказываем, что средние равны, мы просто полагаем, что выборка не дает нам оснований сомневаться в этом, т.е. отвергнуть нуль- гипотезу.

Можно показать, что гипотеза эквивалентна гипотезе

Обычно считаются выполненными условия:

Если это учесть, гипотеза (14.1) оказывается эквивалентной гипотезе

и, следовательно, гипотезе

м Пусть условие (14.3) не будет выполнено. Например, в этом равенстве справа вместо нуля стоит некоторая величина Д * 0 . Тогда увеличим гипотетический

Д . *

средний уровень на величину — и начнем «отсчитывать» величины вкладов л

п •

уровней фактора X как бы от нового среднего уровня: заменим каждый вклад на Д

(X —). Мы ничего не приобретем и не потеряем в смысле получения содержа- ' п

тельного знания (допущение возможности сдвига всех вкладов говорит о том, что мы считаем, что вклады измерены по шкале разностей — это шкала более высокого типа, чем интервальная), но требование (14.3) окажется выполненным:

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>