Полная версия

Главная arrow Статистика arrow МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ СОЦИОЛОГОВ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Корреляционное отношение. Общее представление о внутригрупповом и межгрупповом разбросе

Сущность новой меры связи — корреляционного отношения — продемонстрируем на примере, заимствованном из уже упоминавшейся работы Гласса и Стэнли (с. 138—139).

Изучается зависимость результатов ответа респондента на вопросы некоторого теста (Y) от его возраста (X). Опрашивалось 28 человек. По возрасту они были разделены на 8 групп, каждая группа характеризуется средним возрастом попавших в нее респондентов (например, возраст 30 приписан всем людям, попавшим в возрастной интервал от 28 до 32 лет). Статистические данные представлены на рис. 13.3 и табл. 13.2.

На рис. 13.3 видно, что наблюдаемые точки довольно плотно расположены вокруг ломаной линии. Это наводит на мысль о том, что указанная ломаная линия отражает определенную тенденцию: с изменением возраста от 10 до 22 лет показатели людей порассматриваемому тесту растут, затем начинается спад. И говорить об этой тенденции мы можем только благодаря тому, что, во-первых, если для каждого рассматриваемого значения возраста вычислить среднее арифметическое значение зависимой переменной, ломаная линия пройдет через соответствующую точку; во-вторых, для каждой возрастной группы разброс значений теста вокруг упомянутой средней относительно небольшой. Это интуитивное соображение можно формализовать. Соответствующая формализация и лежит в основе рассматриваемого коэффициента связи.

Пример данных для расчета корреляционного отношения

Рис. 13.3. Пример данных для расчета корреляционного отношения: связь между возрастом и характеристикой 28 человек по вспомогательному тесту цифра-знак шкалы интеллекта взрослых Векслера (WAIS)

Введем несколько новых понятий. Обозначим через Y среднее арифметическое значение зависимой переменной для j-й группы (j — 1,..., J). Отметим, что точка перед индексом j в обозначении среднего арифметического означает, что по первому индексу величины Y.. произошло суммирование.

Определение. Внутригрупповая сумма квадратов

Таблица 13.2. Ответы респондентов на заданный тест в зависимости

от их возраста (данные для расчета корреляционного отношения)

Усредненные данные о группах

Возраст

(середина того возрастного интервала, в который попал респондент)

10

14

16

22

26

30

34

38

У„ = 7.

П, = 8, Y =9

1И

П, = 9,

у» = ю

П, = 9,

У»- ю.

У„- 9 П,= ю. Г,, = П. П.= 12

К,4=11,

г» =11.

Км=12

Г„-9.

г»-ю,

1»*Ч

^ = 8, ^ = 9. г.-9,

У* =ю

Х„ = 7, К„ = 9, К„=10

У,.'8

Средние

возрастных

групп

я

_

j

8,60

9,50

10,50

11,50

10,00

9,00

8,67

8,0

Число членов группы (лу)

пГ 5

Л! = 4

нг=4

л» = 4

я.<“ 3

л= 4

я7 = 3

л*=1

Общее среднее всех значений у -^?«9,б1

28

Y. — значение зависимого признака для /-го респондента ву-й возрастной группе; i = I,..., я, где п. — число членову-й группы;у = I,.... /, где J — количество выделенных групп ( в данном случае J = 8).

В нашем примере эта сумма будет равна:

  • (7-8,60)2 + (8-8,60)2 + (9-8,60)2 + (9-8,60)2 + (10-8,60)2 + ...
  • (для первой группы)
  • (8-9,50)2 + (9-9,50)2 + (10 - 9,50)2 + (11-9,50)2 + ...
  • (для второй группы)

+ (8-8,00)2= 24, 87 (для восьмой группы).

Обозначим через К. среднее арифметическое всех значений независимого признака. Очевидно, что имеет место соотношение:

j

где п = 2) = я, + +... + tij — объем выборки.

н

Определение. Общая сумма квадратов

Определение. Корреляционное отношение — разность

В 1 _ (ss^/ss^j.

Для рассмотренного примера, что нетрудно проверить, имеют место соотношения

Поясним смысл корреляционного отношения. Суть любого коэффициента легче понять, если рассмотреть, при каких условиях он принимает максимальное (в данном случае — 1) и минимальное (0) значение. Ясно, что т2 . = 1, когда SS т = 0, т.е. когда в каждой вы-

у/х внутри

деленной по признаку Xгруппе (в нашем случае — в каждой возрастной группе) значения признака Кодинаковы. В нашем примере это означает, что все точки лежат на выделенной ломаной линии, что действительно говорит о наличии криволинейной связи.

Что касается равенства у2 = 0, оно имеет место в том случае, когда S'5внутри = 55о6ш, т.е. когда фиксация признака X нисколько не уменьшает разброс признака У. Это говорит об отсутствии связи: получение информации об^не увеливает информацию об У. Здесь напрашивается аналогия с принципом построения коэффициентов связи, основанных на прогнозных моделях81.

Коэффициент г2у/х — мера степени предсказания УпоХс помощью «наилучшим образом подобранной» линии, либо прямой, либо кривой.

Заметим, что г2у/х * г2ф (о подобной перестановке признаков можно говорить только в случае, если оба признака измерены по интервальной шкале; хотя для измерения одного из означенных коэффициентов, скажем, Ц2у/Х, достаточно того, чтобы У был интервальным, Л' может быть и номинальным).

Поясним на примере: если человеку 10 лет, можно довольно уверенно предсказать, что результатом тестирования для него будет балл, равный 8,60. Однако если некий человек получил балл 8,60, то его возраст может быть с одинаковой вероятностью как малым (10 лет), так и большим (38 лет). Значит, можно довольно точно предсказать У по /V, но нельзя хорошо прогнозировать X по К Это неизбежно отражается на величинах х]2у/х и у]2^: г]2у/х =0,545, а ц2к/у близка к нулю. Нс будем ее вычислять, так как вычисление потребовало бы перегруппировки данных. Ячейки должны были бы быть организованы по результатам тестирования (скажем, можно было бы сформировать три ячейки — в первую включить респондентов, получивших баллы 7—8, во вторую — баллы 9—10, в третью — баллы 11 — 12). А в каче-

к| Толстова Ю.Н. Анализ социологических данных.

стве значений У выступал бы возраст респондентов, вошедших в ту или иную ячейку.

Приведем еще один пример.

Пример. Дана частотная таблица

Возраст (X)

Зарплата( У)

900-1100

500-700

700-900

900-1100

18-22

10

5

5

22-26

10

10

20

26-30

5

20

20

Рассчитать корреляционное отношение г2у/х.

Решение. Вспомним, что, разбив диапазон изменения признака на интервалы и составив частотную таблицу, мы потеряли исходную информацию и вынуждены считать, что респонденты, попавшие в один интервал, имеют одну и ту же зарплату, отвечающую середине этого интервала.

Расположим данные в более привычном (часто использующемся при нахождении корреляционного отношения) виде. Правда, не будем выписывать конкретные зарплаты (У) для людей, попавших в ту или иную возрастную группу (возраст — А), а укажем, сколько человек обладают тем или иным значением.

Интервал зарплата ( К)

Середина

интервала

I группа (18-22)

II группа

(22-26)

III группа

(26-30)

500-700

600

10

10

5

700-900

800

5

10

20

900-1100

1000

5

20

20

Общее среднее по Y :У„ — 600 (10 + 10 + 5) + 800 (5 + 10 + 20) + + 1000 (5+ 20+ 20)/100 = 880;

55об1ц = (600 - 880)2 (10 +10 + 5) + (800 - 880)2 (5+10+20) + (1000 - - 880)2 (5+ 20 + 20) = 2 832 000;

К, = (600 х 10 + 800 х 5 + 1000 х 5) / 20 = 750;

К 2 = (600 х 10 + 800 х 10 + 1000 х 20) / 40 = 850;

У з = (600 х 5 + 800 х 20 + 1000 х 20) /45 = 866,7;

^внутри = (600 - К, У х 10 + (800 - К, )2X 5 + (1000 - К, )2 х 5 + (600 - - К2 )2 х 10 + (800 - У,2 )2 х 10 + (1000 - У2 )2 х 20 +(600 - Г 3 )2 х 5 + + (800 - К 3)2х 20 + (1000 - К 3)2х 20 = 1502х 10 + 502х 5 + 2502 х 5 + + 2502 х 10+ 502 х 10 + 1502 х 20 + 2672 х 5 +672 х 20 + 1332 х 20 = =2 449 945;

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>