Полная версия

Главная arrow Статистика arrow МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ СОЦИОЛОГОВ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Проверка гипотезы об отсутствии связи между номинальными признаками на основе критерия x²

Вернемся к рассмотрению частотной эмпирической таблицы. Будем искать ответ на вопрос о существовании связи между признаками с помощью проверки статистической гипотезы об их независимости. Используя терминологию математической статистики, можно сказать, что речь пойдет о проверке нуль-гипотезы:

Н0: «связь между рассматриваемыми признаками отсутствует».

Функция, выступающая в качестве описанного выше статистического критерия, носит название «Хи-квадрат», обозначается как X2 (наряду с большим «Хи» будем продолжать использовать и малое; и надо различать понятия, стоящие за этими обозначениями, что не всегда делается в ориентирован ной на социолога литературе). Определяется этот критерий следующим образом:

где п™п — эмпирическая, наблюдаемая нами частота, стоящая на пересечении/-й строки и/-го столбца таблицы сопряженности; п”**— частота, которая стояла бы в той же клетке, если бы наши переменные были статистически независимы, т.е. та, которая отвечает пропорциональности столбцов (строк) таблицы сопряженности; она обычно называется теоретической, поскольку может быть найдена из теоретических соображений (см. формулу (7.2)); иногда ее называют ожидаемой частотой, поскольку действительно ее появление ожидается при независимости переменных.

Представим, что организуем (теоретически) бесконечное количество выборок, для каждой из которых вычисляем величину X2. Образуется последовательность таких величин:

Очевидно, имеет смысл говорить о соответствующем распределении, т.е. о вероятности попадания вычисленного для какой-либо выборки значения «X2» в тот или иной интервал. В математической статистике доказано следующее положение: если наши признаки в генеральной совокупности независимы, величины (7.3) приблизительно имеют хорошо изученное распределение, называемое Х2-распределением. С ним мы уже знакомы (здесь используется малое греческое «хи»). Приблизительность можно игнорировать (т.е. считать, что величины (7.3) точно распределены по закону х2), если ожидаемые (теоретические) частоты достаточно велики — обычно полагают, что в каждой клетке таблицы, заполненной теоретическими частотами, должно быть по крайней мере 5 наблюдений. Будем считать, что это условие соблюдено. Если это не так, какие-то значения хотя бы одного из признаков следует объединить, чтобы соответствующие строки (столбцы) таблицы сопряженности сложились и частоты вследствие этого увеличились бы (отметим, что такое укрупнение должно быть осмысленным: скажем, если мы укрупняем градации возраста, вполне допустимо объединить интервалы (15—20) и (20—25), но вряд ли при решении какой бы то ни было задачи будет разумно соединить интервалы (15—20) и (65—70)).

Вспомним, что х2-рас пределение не одно. Чтобы выделить конкретный интересующий нас вариант из соответствующего семейства распределений, необходимо задать число степеней свободы. Оно равно

Чтобы логика проверки нашей нуль-гипотезы стала яснее, отметим, что при отсутствии связи в генеральной совокупности среди выборочных значений (7.3) будут преобладать значения, близкие к нулю: отсутствие связи означает близость эмпирических и теоретических частот и, следовательно, близость к нулю всех слагаемых из определения критерия X2 (7.2). Большие значения критерия будут встречаться относительно редко и поэтому будут маловероятны. Мы имеем только одно значение — то, которое вычислено для нашей единственной выборки. Обозначим его через Х2ыб. Большое значение этой величины должно приводить нас к выводу о наличии связи, малое —об ее отсутствии. Описанная выше логика проверки статистической гипотезы превращается в следующее рассуждение.

Вычислим число степеней свободы df и зададимся уровнем значимости а. Найдем в таблице распределения у} такое значение хлЬя (называемое иногда критическим значение критерия и обозначаемое через х2крит)>ДЛЯ К0Т°Р°Г0 выполняется неравенство:

гдеслучайная величина, имеющая распределениех2срассматриваемым числом степеней свободы.

Если Х^ы6<х^абл (то есть вероятность появления при справедливости нуль гипотезы о независимости достаточно велика), полагаем, что наши выборочные наблюдения не дают оснований сомневаться в том, что в генеральной совокупности признаки действительно независимы — ведь, «ткнув» в одну выборку, мы встретили такое значение х2> которое действительно вполне могло встретиться при независимости. В этом случае мы полагаем, что у нас нет оснований отвергать нашу нуль-гипотезу, поскольку эмпирия ей не противоречит. Мы ее принимаем — считаем, что признаки независимы. Если Х*ы6>х^бЛ » (т.е. вероятность появления Х*ы6 очень мала, меньше а), мы вправе засомневаться в нашем предположении о независимости — ведь мы «наткнулись» на событие, которое вроде бы не должно было встретиться при таком предположении. Тогда мы отвергаем нашу нуль-гипотезу, полагая, что признаки зависимы.

Итак, рассматриваемый критерий не гарантирует наличие связи, не измеряет ее величину. Он либо говоритогом, что эмпирия не дает оснований сомневаться в отсутствии связи, либо, напротив, дает повод для сомнений.

В заключение нельзя не сказать об очень важном (и с практической, и с теоретической точки зрения) моменте: и величина критерия X2, и его расположение по отношению к табличному значению (естественно, говоря об этом, предполагаем, что уровень значимости зафиксирован) может измениться при изменении способа группировки значений рассматриваемых признаков. Другими словами, наш вывод о наличии или отсутствии связи между переменными зависит от этого способа. Представляется, что этот факт является иллюстрацией к ведущейся в литературе дискуссии по вопросу объективности знания, получаемого социологом[1]. Отметим, что при разной группировке значений какого-либо признака мы по существу переходим к разным признакам, отражающим разные стороны реальности. Сгруппировав значения возраста (не учитывая детство) так: (15—20), (20—50), (50—80), мы по существу отразим физическое состояние организма человека — растущий организм, стабильный, деградирующий. А сгруппировав по-другому: (15—20), (20—30), (30—80), получим признак, отражающий степень социальной зрелости человека (мы не претендуем на содержательную правильность предлагаемых разбиений)[2].

  • [1] * Мы не сомневаемся в объективности знания, полученного с помощью методов математической статистики. Однако в само понятие «знание» должны включаться не только приобретенные сведения, но и то, каким образом эти сведениябыли получены.
  • [2] Здесь мы сталкиваемся с одной из самых острых проблем эмпирическойсоциологии: построением признаков, адекватных измеряемым с их помощьюкачествам людей. Легко наблюдаемые признаки обычно являются признаками-приборами (см.: Клигер С.А., Косолапов М.С., Толстова Ю.Н. Шкалирование присборе и анализе социологической информации. М.: Наука, 1978). Другими словами,их значения нас интересуют не сами по себе, а как индикаторы каких-то латентныхсвойств. При работе с такими признаками важную роль играет удачная группировка их значений. Существует много методов поиска таких группировок: методы разбиения на интервалы диапазона значений непрерывных признаков, объединениязначений дискретных признаков, поиска так называемых взаимодействий, т.е. сочетаний значений разных исходных признаков.
 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>