Полная версия

Главная arrow Статистика arrow МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ СОЦИОЛОГОВ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Различие между статистической и содержательной гипотезой

Распространенным ответом студента на вопрос о том, какую математико-статистическую гипотезу надо проверить при решении той или иной конкретной задачи, является фраза типа: «Надо проверить гипотезу о том, есть связь или нет». Такого рода предложение некорректно по крайней мере по двум причинам. Во-первых, фраза не содержит формулировку какой бы то ни было гипотезы. Гипотезой может быть или утверждение о том, что связь есть, или , что связи нет. Во-вторых, даже гипотеза типа «здесь связь есть» может восприниматься как некоторое нечетко выраженное содержательное предположение (и как таковое имеющее право на существование), но никак не математико-статистическая гипотеза. Последняя должна быть сформулирована очень строго, например, так: «коэффициент корреляции в изучаемой генеральной совокупности равен 0,7». Именно такой строгий характер носили все рассмотренные нами выше гипотезы, обозначенные знаком «#0». В п. 7.3 мы позволяли выражение «Н0: связи нет» только потому, что показали - словосочетание «связи нет» может быть выражено формально, строго, на языке определенных формул (стоящих, например, за соотношениями (7.1)). И мы не делали этого только из соображений краткости записи и стремления сделать текст понятнее для читателя-гуманитария.

Формулируя строгую математико-статистическую гипотезу, мы должны также понимать, что она должна опираться на математические результаты, лежащие в основе разработки используемого для проверки гипотезы критерия. Другими словами, мы должны знать, что критерий для проверки нашей гипотезы существует. И если мы с помощью математической статистики хотим проверить какую-то интересующую нас из содержательных соображений гипотезу, сначала необходимо изучить математико-статистическую литературу, справочники и убедиться, что критерий для проверки нашей гипотезы действительно существует. Особенно осторожно надо относиться к так называемым методам анализа данных. В методах анализа данных часто используют такие математические конструкты, для которых не разработаны способы переноса результатов с выборки на генеральную совокупность (подобные методам проверки статистических гипотез и построения доверительных интервалов). Таковы, например, методы кластерного анализа или многомерного шкалирования. Более того, как уже отмечалось (см. п.1.3), при анализе данных зачастую возникают ситуации, когда нельзя рассматривать наблюдаемые объекты как выборку из некоторой генеральной совокупности. Это может иметь место, например, в силу того, что исследователю не ясно, какова в его случае генеральная совокупность. Возможны и другие причины, например отсутствие оснований считать значения какого-то признака реализациями одной и той же случайной величины (скажем, у нас могут быть основания считать разными распределения зарплат мужчин и женщин; а может быть, у русских и украинцев; может, у «либералов» и «коммунистов»?). Заранее сказать, так это или Fie так, невозможно. Какие категории объектов надо «испытывать» для выявления специфических распределений, неясно53. Об использовании математической статистики, основным объектом которой являются случайные величины, говорить в такой ситуации нельзя. Следовательно, нельзя говорить и о проверке математико-статистических гипотез. О содержательных гипотезах в принципе может идти речь.

Различие между содержательны ми и математико-статистическими гипотезами имеет еще один очень важный для социолога аспект. Одна и та же содержательная гипотеза может быть проверена с помощью разных математико-статистических подходов. Приведем пример.

Допустим, мы хотим выяснить, имеется ли статистическая связь между двумя признаками х и у, измеренными по интервальной шкале. Содержательная гипотеза может звучать, например, так: «связь между данными признаками существует»54. С помощью математической статистики проверку такой гипотезы можно осуществить несколькими способами, приводящими, вообще говоря, к разным результатам.

Во-первых, можно вычислить коэффициент корреляции и проверить гипотезу о равенстве его нулю.

Во-вторых, можно разбить диапазоны изменения значений обоих признаков на интервалы и применить критерий х2. Следует обратить внимание на то, что результат будет зависеть от способа разбиения. При одном разбиении гипотеза об отсутствии связи может быть принята, при другом — нет. Здесь мы снова возвращаемся к одной из основных проблем математической социологии: построению при- [1] [2]

знаков, отражающих то или иное социальное явление (ср. п. 7.3).

В-третьих, можно вычислить корреляционное отношение — коэффициент, отражающий криволинейную зависимость у отх либо х от у, и проверять значимость его отличия от нуля (см. тему 13).

В-четвертых, можно искать регрессионную зависимость среднего значения у от х и обосновывать статистическую значимость всех используемых при этом коэффициентов (в настоящем курсе изучение соответствующей темы не предусмотрено[3], однако регрессионный анализ описывается в работах по математической статистике и анализу данных; и почти везде указываются способы статистической оценки всех получаемых при этом параметров).

В-пятых, можно разбить диапазон изменениях на группы (ячейки) и применить дисперсионный анализ для сравнения значений у для объектов, попавших в разные группы (см. тему 14).

Мы перечислили отнюдь не все известные способы изучения статистических связей между двумя переменными. Коснулись только самых популярных. И стало ясно, что множественность методов, решающих одну и ту же задачу, — это проблема для социолога. Как же ее решать? Мы уже говорили в п. 7.3, что наше знание будет объективным только в случае, если наряду со сведениями, полученными в результате того или иного анализа статистических данных, в понятие «знание» будем включать также и способ, с помощью которого эти сведения получены. В данном случае речь идет по существу об учете той модели изучаемого явления (т.е. о том понимании статистической связи или, может быть, причины), которая заложена в используемом нами методе (о важности учета такой модели как об одном из главных принципов использования математического аппарата в социологии шла речь в п. 1.7). Бесспорно, что наша содержательная гипотеза о наличии связи междух и у подтвердилась. Полученный результат надо формулировать по-другому, например, так: на таком- то уровне значимости мы отвергли гипотезу о равенстве нулю коэффициента корреляции между рассматриваемыми признаками; на таком-то уровне значимости и при таком-то разбиении значений признаков на интервалы мы отвергли гипотезу об отсутствии связи с помощью критерия х2, но приняли аналогичную гипотезу при другом разбиении и т.д. Содержательно проинтерпретировать подобные факты можнотолько при условии, что социолог достаточно хорошо представляет себе модель, предполагаемую методом. Надеемся, что сказанное свидетельствует и о роли учета модели, заложенной в используемом математическом методе, и различии между содержательной и математико-статистической гипотезами.

Мы показали, что одну и ту же содержательную гипотезу можно проверить с помощью разных математико-статистических приемов (в том числе проверки разных математико-статистических гипотез, что в основном и интересует нас). Можно показать и обратное утверждение: даже при рассмотрении одних и тех же данных проверка одной и той же математико-статистической гипотезы может быть исполь- зованадля решения разных содержательных задач, для проверки разных содержательных гипотез. Приведем пример.

Вспомним гипотезу Н0: ц, = р2. И вспомним уже упоминавшуюся задачу сравнения средних зарплат мужчин и женщин. Вопрос, на который мы намереваемся получить ответ с помощью проверки рассматриваемой гипотезы, может формул и роваться по-разному, например: можно ли считать, что различие между средними зарплатами мужчин и женщин статистически значимо? Можно ли полагать, что зарплата детерминируется полом? Первый вопрос может быть одним из многих вопросов о различии зарплат улиц разных национальностей, разных профессий и т.д. А второй может отражать работу специалиста по гендерной социологии о дискриминации женщин. Хотя задачи и схожи, но все же содержательные гипотезы здесь будут разными.

  • [1] " По существу в такой ситуации речь идет о выделении в изучаемой совокупности объектов однородных подсовокупностей (соответствующий методологический принцип см. в п. 1.7). Однородность нередко отождествляется как раз с тем.что для рассматриваемых признаков осмыслены соответствующие распределениявероятностей (см. п. 1.3).
  • [2] Вообще говоря, содержательная постановка задачи обычно бывает связана сизучением не статистической связи, а причинно-следственных отношений междурассматриваемыми признаками; однако уже отмечалось, что никакие формальныеметоды нс могут доказать, что один признак можно считать причиной, а другойследствием; подобные формулировки — дело социолога; в п. 12.1 мы подробнеекоснемся проблемы соотнесения причинно-следственных отношений и статистической зависимости.
  • [3] Учебный план ГУ ВШЭ, в соответствии с которым был написан настоящийучебник, предусматривает изучение регрессионного анализа в курсе анализа данных, слушать который студенты начинают несколько позже курса математическойстатистики (но частично параллельно последнему). Описание регрессионногоанализа, рассчитанное на читателя-социолога (см.: Толстова Ю.Н. Анализ социологических данных), более строгое изложение — в других работах, перечисленныхв Приложении 1 (один из наиболее фундаментальных учебников — Айвазян С.А.,Мхитарян в.С. Теория вероятностей и прикладная статистика).
 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>