Задачи и особенности изучения связи социальных явлений

В социальной жизни общества объективно существующие связи во многом зависят от целенаправленной деятельности людей и от законов природы. При исследовании социальных явлений часто связь, существующая между двумя или несколькими показателями, усложняется действием других причин или факторов.

Чтобы изучить, насколько изменение одного показателя зависит от изменения другого (или других), применяется корреляционно-регрессионный анализ.

Связи бывают функциональные и корреляционные (стохастические). Функциональной называется зависимость, при которой каждому значению одной переменной строго соответствует одно определенное значение другой переменной. Зависимость, при которой одному значению переменной (х) может соответствовать множество значений другой переменной (у)у называется корреляционной. Например, производительность труда зависит от стажа рабочего, урожайность зависит от сроков посева и т.п.

Анализ корреляционных зависимостей сводится к отысканию функции, отражающей зависимость у от х и измерению тесноты такой зависимости.

Простым случаем корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками, как правило, результативным и одним из факторных. При анализе парных связей, выраженных количественными признаками, используются уравнения: прямой ух0+ аЛх, параболы 2-го порядка ух = а0 + ахх + а2х2 или высших порядков,

1

гиперболы ух0х — степенной функции ух = а0ха, показательной функ-

х

ции ух = . Эти уравнения, определяющие формы связи, называются

уравнениями регрессии.

Параметры уравнений регрессии а0, а{ и а2 (в случае параболы 2-го порядка) определяются методом наименьших квадратов. В основе этого метода лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели а0, а2, минимизирующих сумму квадратов отклонений эмпирических (фактических) значений результативного признака (у) от теоретических х) (полученных из урав-

_ 2

нения регрессии): z^(y-yx) —> min.

Если имеется линейная зависимость ух0{х, то, подставив уравне-

ние прямой в сумму квадратов разности, получим ^(У~ао~ах) —>min. Чтобы найти значения параметров а0 и alf минимизирующих сумму квадратов отклонений у от ух, необходимо найти частные производные указанной суммы по и йу и приравнять их нулю, тогда получим систему нормальных уравнений

где п — объем исследуемой совокупности.

Решая систему относительно а0 и av находим параметры искомого уравнения регрессии. Отметим, что параметр я0 показывает усредненное влияние на результативный признак неучтенных факторов; параметр коэффициент регрессии, показывающий, на сколько изменится в среднем значение результативного признака при изменении факторного на единицу его собственного измерения.

Если связь выражена параболой второго порядка

то система нормальных уравнений для отыскания параметров а0, ал и а2 имеет вид

При исследовании связей между социальными явлениями в силу того, что каждое из них зависит от множества прямых и косвенных факторов, основным приемом служит многофакторная регрессия, аналитическое выражение которой следующее:

Парная регрессия имеет вспомогательное значение и применяется редко. Чаще всего в социальной статистике используются линейное многофакторное уравнение связи г/12..... =«о + ЯХ +а2х2 +... + апхп, степенное У?.....п =a0xiaix2a2,.:jxnan, линейно-логарифмическое gyx n=ga0 +

+ я, Igx, +... + ап lgx„.

В случае линейной многофакторной связи вида ух = а0{х{2х2 система нормальных уравнений имеет вид

Показатели тесноты связи между признаками называются коэффициентами корреляции. Их выбор зависит от того, какая шкала использовалась для измерения признака. Известно, что основными шкалами являются следующие.

  • 1. Номинальная шкала, или шкала наименований, классификаций устанавливает отношение равенства между признаками (свойствами), принадлежащими к одной качественной совокупности. Номинальная шкала представляет собой перечисление отличающихся друг от друга категорий объектов (группы рабочих по полу, профессии). Эти объекты могут быть занумерованы (участники спортивных соревнований). Присвоение номера здесь не имеет количественного значения, это опознавательный знак. Номинальная шкала позволяет вычислить такие статистические характеристики, как мода, показатели тесноты связи — коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова.
  • 2. Шкала порядка, или порядковая (ранговая) шкала предполагает определенное упорядочение признаков один относительно другого. Здесь объекты располагаются в порядке возрастания (убывания) интенсивности определенного свойства (разбиение студентов на сдавших сессию, частично сдавших и не сдавших). Шкала порядка позволяет выделить определенную иерархическую соиодчиненность между исследуемыми социальными признаками. Для измерения признаков используются баллы, ранги и т.п.

Существуют отношения между признаками, измеряемыми в порядковых шкалах: эквивалентность (равенство) и сравнение (больше чем, меньше чем). Шкала порядка позволяет вычислять такие специфические характеристики, как децили, квартили, медианы, некоторые показатели тесноты связи: коэффициент Спирмана, коэффициент Кендела.

3. Количествеппая гикала используется для описания количественных показателей (заработная плата, численность группы, демографические характеристики, стоимость потребительской корзины и т.п.). Эта шкала позволяет вычислять средние значения признака, показатели вариации, показатели тесноты связи — линейный коэффициент корреляции и корреляционное отношение.

Выявление связи между признаками осуществляется следующим образом: 1) выдвигается нулевая статистическая гипотеза Я0 об отсутствии связи между признаками; 2) рассчитывается соответствующий коэффициент корреляции К; 3) проверяется, превосходит ли рассчитанный коэффициент корреляции некоторое критическое значение Кк]тт 4) если К > Ккрит, то гипотеза об отсутствии связи отвергается.

Для каждого показателя корреляции определение критических значений обосновано математической статистикой.

Теснота связи при исследовании парных зависимостей определяется на основе расчета линейного коэффициента корреляции (если зависимость линейная) или корреляционного отношения (если зависимость криволинейная). При исследовании многофакторных связей теснота определяется с помощью множественного коэффициента корреляции:

где 82 — дисперсия теоретических значений результативного признака, рассчитанная по уравнению множественной регрессии; а2ст — остаточная дисперсия; а2 — общая дисперсия результативного признака.

Множественный коэффициент корреляции для трех признаков (одного результативного и двух факторных) имеет вид

где г — парные коэффициенты корреляции между соответствующими признаками.

Расчет линейного коэффициента корреляции можно производить по формуле

где ах коэффициент регрессии в уравнении связи, ах и ау соответственно среднеквадратическое отклонение в ряду х и в ряду у.

Кроме того, существует ряд тождественных формул для вычисления линейного коэффициента корреляции:

где хну — значения признаков, между которыми определяется коэффициент корреляции; хну — среднее значение признаков; п — объем выборки.

Линейный коэффициент корреляции |г|<1. Знак коэффициента характеризует направление взаимосвязи: «+» — прямая зависимость; «-» — обратная. Значимость линейного коэффициента корреляции определяется по таблицам критических значений, входом в которые являются уровень значимости а (чаще всего а = 0,05) и п — объем выборки. Можно пользоваться упрощенными количественными критериями оценки тесноты связи. Если |г|<0,3, то связь практически отсутствует, если 0,3 < |г| < 0,5, то связь слабая, если 0,5 < |г| < 0,7, то связь достаточно сильная, если 0,7 <|г|<1, то имеется высокая степень зависимости между признаками.

Покажем пример расчета рассмотренных показателей.

Задача 2.7. Пусть имеется 10 предприятий, выпускающих одинаковую продукцию. Данные о выпуске продукции (х) в тысячах единицах и о расходе условного топлива (у) в тоннах на этих предприятиях представлены в табл. 2.21 (графы 1 и 2). Требуется: 1) найти уравнение регрессии у под (т.е. уравнение зависимости расхода топлива от выпуска продукции); 2) измерить тесноту связи между ними.

Решение.

1. Пусть ух = а()лх является уравнением регрессии, тогда параметры данного линейного уравнения 0 и ах) найдем из системы нормальных уравнений вида

Таблица 2.21

Расчет параметров уравнения регрессии и значимости его параметров

X

У

*2

Х!>

г/д. = 1,16 + 0,547.г

У2

У-Ух

(у-Ух)2

1

2

3

4

5

6

7

8

5

4

25

20

3,9

16

0,1

0,01

6

4

36

24

4,4

16

-0,4

0,16

X

У

X2

ХУ

у,= 1,16 + 0,547*

У2

У ~Ух

(У-Ух)2

8

6

64

48

5,5

36

0,5

0,25

8

5

64

40

5,5

25

-0,5

0,25

10

7

100

70

6,6

49

0,4

0,16

10

8

100

80

6,6

64

1,4

1,96

14

8

196

112

8,8

64

-0,8

0,64

20

10

400

200

12,1

100

-2,1

4,41

20

12

400

240

12,1

144

-0,1

0,01

24

16

576

384

14,3

256

1,7

2,89

125

80

1961

1218

80

770

-

10,74

Для решения системы нормальных уравнений относительно параметров Aq и й| необходимо вычислить суммы Хх> Х.У, Их'2, XЩ (см. табл. 2.21) и подставить их в систему. В результате получим:

Решая систем}' двух уравнений с двумя неизвестными, найдем а0 = 1,16, аЛ = 0,547. Тогда уравнение регрессии приобретает вид ух = 1,16 + 0,547*. Выравниваем значения результативного показателя у, подставляя в уравнение регрессии последовательно х = 5, 6, 8, 10 и т.д. (графа 5 табл. 2.21).

Заметим, что оценки для параметров я0 и ах найдены исходя из имеющегося эмпирического материала, поэтому для них необходимо рассчитать среднюю ошибку р„0 и ца по формулам

Для параметров а0 = 1,16, ал = 0,547 средние ошибки, соответственно, равны

т.е. а0 = 1,16 ± 0,366;

т.е. ах = 0,547 ± 0,058.

Для выяснения значимости параметров а0 и ах их необходимо сравнить

а

со средней ошибкой, т.е. найти значение t =-. Для п > 20, параметры

уравнения регрессии считаются значимыми при t > 3, в противном случае, когда п < 20, следует воспользоваться табличным значением 7-критерия Стьюдента (входом в таблицу являются уровень значимости а и число степеней свободы к). Если 7факт > 7табл, то параметры а0 и ах значимые.

Для параметров а0 и ах найдем 7Д() и ta^

Из таблицы 7-критерия Стьюдента (приложение 4) при а = 0,05 и к = = 10-2 = 8, находим 7табл = 2,306. Поскольку 7~ > 7табл и ta{ > 7табл, делаем вывод, что параметры а0 и aj являются значимыми.

2. Воспользуемся одной из формул линейного коэффициента корреляции г, чтобы оценить тесноту связи между у их. Поскольку в расчетной табл. 2.21 выполнен ряд вычислений для сумм, то лучше для расчета г взять формулу

Тогда из табл. 2.21 сразу находим ху-121,8; х = 12,5; у = 8; х2 = 196,1. Осталось найти ах и оу предварительно вычислив X#2 =770 и у2 =77:

Здесь учтено, что =770 и г/2 =77.

Подставляя найденные значения в формулу для г, получим:

Можно рассчитать линейный коэффициент корреляции, воспользовавшись формулой г = ах — = 0,5474т-;г = 0,96. Результат получается такой же.

Оу 3,6

Значение линейного коэффициента корреляции близко к единице, что показывает существенную зависимость у от х и доказывает ее линейный характер.

Как и в предыдущем случае, коэффициент корреляции необходимо оценить на надежность, т.е. рассчитать среднюю ошибку а,, по формуле

где (п - 2) — число степеней свободы при линейной зависимости.

Затем, аналогично предыдущему случаю, нужно найти отношение t = — и воспользоваться ^-критерием Стьюдента. с>

Можно измерить тесноту связи, рассчитав теоретическое корреляционное отношение

И(Ух-У)2 , ,

где oz =-— факторная дисперсия (т.е. дисперсия в ряду вырав-

ценных значений результативного показателя ух); о2 =—-—1— — диспер-

п

сия в ряду фактических значений у. При этом 0 < г) < 1. Если ц = 1, то имеет место очень сильная зависимость у от х; если г = 0, то у от х не зависит.

Расчет этого показателя проиллюстрируем на той же задаче 2.1 с помощью табл. 2.22.

Расчетные значения из табл. 2.22 подставим в соответствующие формулы. В результате получим:

Таблица 222

Расчет теоретического корреляционного отношения

X

У

Ух

у-у

(у-у)2

Ух~ У

(Ух-У)1

У-Ух

(У-Ух)2

1

2

3

4

5

6

1

8

9

5

4

3,9

-4

16

-4,1

16,81

0,1

0,01

6

4

4,4

-4

16

-3,6

12,96

-0,4

0,16

8

6

5,5

-2

4

-2,5

6,25

0,5

0,25

8

5

5,5

-3

9

-2,5

6,25

-0,5

0,25

10

7

6,6

-1

1

-1,4

1,96

0,4

0,16

10

8

6,6

0

0

-1.4

1,96

1,4

1,96

14

8

8,8

0

0

0,8

0,64

-0,8

0,64

20

10

12,1

2

4

4,1

16,81

-2,1

4,41

20

12

12,1

4

16

4,1

16,81

-0,1

0,01

24

16

14,3

8

64

6,3

39,69

1,7

2,89

125

80

80

130

120,14

10,74

Поскольку теоретическое корреляционное отношение близко к единице, можно утверждать, что имеется очень тесная связь между результативным показателем у и факторным х.

Заметим, что 52, можно заменить остаточной дисперсией:

'Z(y-Vx)2

где сг^ст =-.

п

Отсюда получим:

Результат получим тот же — можно убедиться в этом самостоятельно.

Применение корреляционно-регрессионного анализа связи возможно тогда, когда исходные данные имеют количественную оценку и их распределения подчиняются нормальному закону распределения или нормальнологарифмическому. При отсутствии этих условий для измерения тесноты связи применяют различные непараметрические критерии.

Если исходные признаки выражены в рангах, т.е. значения признака занумерованы (1, 2, ..., п) и, следовательно, рангом является номер признака, или значения х и у заданы в порядковой шкале, то для определения тесноты связи применяются ранговые коэффициенты: коэффициент Спир- мана и коэффициент Кендела. Например, расчет рангового коэффициента Спирмана при парной связи производится по формуле

где d = Rx - Ry разность рангов каждой пары значений х и у п — число наблюдений.

Когда признак имеет несколько одинаковых значений, то их ранги рассчитываются как среднее соответствующих номеров мест в ранжированном ряду и называются связными.

При наличии связных рангов имеется уточненная формула для вычисления рангового коэффициента Спирмана:

1 1

где Тх = — -tx), Ту = — ^(ty -ty), tx и ty число совпадающих значений

х и у (или рангов значений х и у) в каждой из групп, где эти значения совпадают.

Ранговый коэффициент Кендела (т) вычисляется по формуле

Для расчета ранговых коэффициентов необходимо следовать определенному алгоритму действий: сначала упорядочиваются (ранжируются) значения признаков х и г/, им присваиваются номера 1, 2,..., п. Тем самым определяются ранги Rx. и Ry, причем ранги Ry записываются строго по возрастанию или убыванию, а ранги Ry располагаются в соответствии со значениям ипервого показателя х. Затем определяется число последующих рангов, больших и меньших, чем Ry, для каждого Ry. Число больших рангов суммируется, записывается со знаком «+» и обозначается буквой Р, а число меньших рангов записывается со знаком «-» и обозначается буквой Q. Находят общую сумму S = Р + Q и подставляют в соответствующую формулу для вычисления коэффициента Кендела.

Для того чтобы рассчитать ранговый коэффициент Спирмана, осталось найти для каждой пары рангов разность d= Rx— R,r возвести каждую разность в квадрат и их просуммировать. Полученное значение подставить нужно в формулу вычисления коэффициента Спирмана.

Покажем расчет этих коэффициентов на конкретной задаче.

Задача 2.8. Имеются 10 однотипных предприятий с объемом выпуска продукции у, млн руб., и стоимость их основных производственных фондов х, млн. руб. (графы 1 и 2 табл. 2.23). Требуется измерить тесноту зависимости между этими показателями.

Таблица 2.23

Расчет значений ранговых коэффициентов корреляции

X

У

R,

Ry

d = R.x ~ Rn

Подсчет баллов

«+»

«-»

1

2

3

4

5

6

7

8

1,5

3,9

1

3

-2

4

7

2

1,8

4,4

2

5

-3

9

5

3

2,0

3,8

3

2

1

1

6

1

2,2

3,5

4

1

3

9

6

0

2,3

4,8

5

6

-1

1

3

1

2,6

4,3

6

4

2

4

4

0

3,0

7,0

7

9

-2

4

1

2

3,1

6,5

8

8

0

0

1

1

3,5

6,1

9

7

2

4

1

0

3,8

8,2

10

10

0

0

-

-

М

а.

и

СО

Р = 35

Q=-ю

Решение. Теснота зависимости измеряется с помощью коэффициентов корреляции рангов Спирмена (р) и Кендела (т) . Выполним последовательно алгоритм действий, описанный выше. Ранжируем х и у, находим ранги Rx и Ry (графы 3 и 4 табл. 2.23), разности рангов (d), возводим их в квадрат (графы 5 и 6 табл. 2.23), суммируем ^d2 и подставляем в формулу для расчета коэффициента корреляции рангов Спирмена:

Полученное значение коэффициента позволяет сделать вывод о довольно большой связи между х и у.

2 S

Для расчета коэффициента Кендела т = —-— необходимо найти S =

п(п-1)

= Р + Q как сумму числа положительных (Р) и отрицательных (Q) последующих рангов (см. графы 7 и 8 табл. 2.23). Полученную сумму 5 = Р+ Q = = 35 - 10 = 25 подставляем в формулу для вычисления коэффициента корреляции рангов Кендела (т):

Сравнивая полученные значения коэффициентов, можно сказать, что коэффициент Кендела всегда меньше по значению, чем коэффициент

„ 2

Спирмена. Их соотношение выражается приближенной формулой т = — р.

о

Заметим, что чем ближе значения ранговых коэффициентов к единице, тем теснее зависимость между изучаемыми признаками, и наоборот, чем ближе их значения к нулю, тем меньше связь между признаками или зависимость может отсутствовать вообще.

Рассмотрим решение задачи со связными рангами.

Задача 2.9. В 10 фермерских хозяйствах собрали урожай картофеля (у) (см. графу 2 табл. 2.24). Необходимо оценить зависимость между урожайностью картофеля и количеством внесенных минеральных удобрений (графа 1 табл. 2.24).

Таблица 2.24

Расчет значений ранговых коэффициентов корреляции в случае

повторяющихся рангов

Удобрения, кг/га, х

Картофель, ц/ra, у

R,

Я,

(1 = Rx - R4

Подсчет баллов

«+»

«-»

1

2

3

4

5

6

7

8

140

135

1

1,5

-0,5

0,25

8

0

148

135

2

1*5

0,5

0,25

8

0

150

182

3,5

4

-0,5

0,25

6

0

150

175

3,5

3

0,5

0,25

6

0

185

200

5

6

-1

1,00

3

0

190

200

6

6

0

0

3

0

202

200

7

6

1

1,00

3

0

Удобрения, кг/га, х

Картофель, ц/га, у

я.

я.

С? '

1

а?

и

сР

Подсчет баллов

«+»

«-»

220

210

8,5

8

0,5

0,25

1

0

220

265

8,5

10

-1,5

2,25

0

1

240

250

10

10

1,0

1,00

-

-

6,5

и

со

00

Q —1

Решение. Поскольку значения х и у повторяются, то ранги, присваиваемые этим значениям, рассчитываются как среднее значение из суммы номеров мест, занимаемых ими в порядке возрастания (графы 3 и 4 табл. 2.24). В этом случае расчетные формулы имеют некоторые поправки, хотя на практике вычисления по формуле для коэффициента Спирмана в случае повторяющихся рангов мало чем отличаются от расчетов по формуле для неповторяющихся рангов. В этом случае ошибка очень мала. Поэтому для нашей задачи имеем:

В нашем случае скорректированный ранговый коэффициент Кендела имеет вид

где S = Р+Q, Uх =UU = , t — число повторяющихся рангов в соот-

' 2

ветствующих рядах х и у.

Тогда, вычисляя их для нашей задачи, имеем:

Аналогично задаче 2.8 определяются Q и Р, с той разницей, что в случае повторяющегося значения ранга, следующего за рассматриваемыми в любом из рядов и у), последний при подсчете баллов не учитывается.

В графах 7 и 8 табл. 2.24, рассчитаны Р и Q, тогда S = Р + Q = 38-1= 37 и коэффициент Кендела

Вычисленные значения обоих коэффициентов близки к единице, значит, зависимость между урожаем картофеля и внесенными минеральными удобрениями очень сильная.

В случае многофакторных связей измерить зависимость можно с помощью коэффициента конкордации

где т — количество коррелируемых факторов; п — число наблюдений; S — отклонение суммы квадратов рангов по т факторам от средней арифметической квадратов суммы этих рангов, т.е.

где R, — ранг /-го показателя.

Покажем расчет коэффициента конкордации.

Задача 2.10. Определить тесноту связи между прибылью, стоимостью основных фондов и затратами на 100 руб. продукции по пяти предприятиям (графы 1, 2, 3, 4 табл. 2.25).

Таблица 2.25

Расчет коэффициента конкордации (данные условные)

Предприятие

Прибыль у, млн руб.

Стоимость основных фондов X, руб.

Затраты на 100 руб. продукции руб.

Ран

с

жирование

)акторов

Сумма

рангов

3

ХЯ,

1

Квадраты

суммы

рангов

Ry

R,

R.

1

2

3

4

5

6

1

8

9

1

300

4,1

80

1

2

5

8

64

2

950

6,6

73

4

5

3

12

144

3

520

3,9

72

3

1

2

6

36

4

480

4,2

75

2

3

4

9

81

5

1000

6,3

67

5

4

1

10

100

Итого

-

-

-

-

-

-

45

425

Алгоритм вычисления:

  • 1) факторы у, х и z упорядочиваются по возрастанию (ранжируются), на основании чего находятся ранги R,r Rx, R, (графы 5, 6, 7);
  • 2) по каждой строке ранги суммируются (графа 8) и рассчитывается

п т

сумма пяти строк (итоговая строка). Таким образом, находится X = 45,

1 I

где п = 5, а т = 3;

3) вычисляется построчно квадрат суммы рангов (графа 9) и все сум-

/ 2 п гп

мируегся (итоговая строка). Таким образом, находится ? = 425, где

1 V 1 ,

и = 5,ат = 3;

  • 4) найденные суммы подставляются в формулу для вычисления S, получается S = 425 - (45)2 / 5 = 20;
  • 5) полученное значение S подставляется в формулу для вычисления коэффициента конкордации:

Поскольку значение коэффициента мало, можно сказать, что зависимость между рассматриваемыми показателями (факторами) незначительная.

Заметим, что для расчета числителя (S) в формуле для вычисления коэффициента конкордации можно воспользоваться другим выражением:

Результат будет таким же.

Для нашего примера вычисляем Y.R = 45/5 = 9, тогда

Достоинство ранговых коэффициентов корреляции (Спирмана, Кен- дела, конкордации) заключается в том, что они дают возможность измерять тесноту связи не только между количественными признаками, но и между качественными, которые можно проранжировать.

Значительную часть признаков, измеренных с помощью номинальных шкал, составляют дихотомические признаки, т.е. признаки, принимающие два и более альтернативных значения.

Для анализа двух альтернативных (дихотомических) признаков составляется табл. 2.26 значений частот из четырех нолей.

Таблица 2.26

Значения частот дихотомических признаков

X

У

1

2

1

а

b

а + b

2

с

d

с + d

а + с

b + d

п

Для измерения тесноты связи между указанными признаками рассчитываются коэффициент ассоциации

и коэффициент контингенции

Заметим, что для коэффициентов ассоциации и контингенции всегда выполняется неравенство К < А, и если А >0,5 или К >0,3, то связь между признаками подтверждается.

Задача 2.11. Имеются следующие данные, характеризующие успеваемость студентов-заочников одного из факультетов в зависимости от их работы по специальности (табл. 2.27). Требуется рассчитать коэффициенты ассоциации и контингенции, подтверждающие или отвергающие наличие зависимости успеваемости от работы по специальности.

Таблица 2.27

Успеваемость студентов-заочников в зависимости от их работы по специальности (данные условные)

Студенты-заочники

Число

студентов

Из них

получившие

положительные

оценки

получившие неудовлетворительные оценки

Работающие по специальности

200

180

20

Не работающие по специальности

200

140

60

Итого

400

320

80

Решение. Используя дихотомическую табл. 2.26 и формулу для вычисления коэффициентов, а также данные табл. 2.27, получим:

Значения коэффициентов подтверждают существенную зависимость между успеваемостью студентов-заочников и их работой по специальности.

Для измерения тесноты связи в случае качественных признаков, включающих в себя три и более групп, применяются коэффициенты взаимной сопряженности Пирсона и Чупрова. Покажем вычисление этих коэффициентов с помощью вспомогательной таблицы (табл. 2.28).

Вспомогательная таблица для расчета коэффициента взаимной

сопряженности

X

У

I

н

III

Всего

1

и.™

пх

II

«л-

III

и.»

Итого

__

_пл_

_пл_

п

Формулы для вычисления коэффициентов сопряженности Пирсона и Чупрова имеют, соответственно, следующий вид:

где (р2 — показатель взаимной сопряженности; К{ — число значений (групп) первого признака; К2 — число значений (групп) второго признака.

Величина ф2 определяется как сумма отношений квадратов частот (пху) каждой клетки табл. 2.28 к произведению итоговых частот соответствующего столбца {пу) и строки (пх). Вычитая из этой суммы 1, получим величину ф2, т.е. ф2 = ?——-^--1.

пхпу

Оценка тесноты связи зависит от близости значений коэффициентов к единице. Чем ближе эти значения к единице, тем связь теснее.

Вычислить знаменатель в формуле расчета коэффициента Пирсона можно, используя следующее соотношение:

Рассмотрим еще одну задачу.

Задача 2.12. На одном предприятии исследовали зависимость между себестоимостью продукции и производительностью труда. Требуется измерить связь между этими признаками с помощью коэффициентов Пирсона и Чупрова (табл. 2.29).

Таблица 2.29

Зависимость между производительностью труда и себестоимостью продукции (данные условные)

Себестоимость

Производительность труда

Итого

высокая

средняя

низкая

Низкая

19

12

9

40

Средняя

7

18

15

40

Себестоимость

П роизводител ьность труда

Итого

высокая

средняя

низкая

Высокая

4

10

26

40

Итого

30

40

50

120

Решение. Анализируя данные табл. 2.29, нетрудно найти значение выражения

Отсюда сразу получим (р2 = 0,201. Подставляя полученные значения в выражения для коэффициентов сопряженности, найдем

Значения коэффициентов позволяют сделать вывод о средней зависимости между изучаемыми признаками.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >