Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

3.2. Корреляционный анализ взаимосвязи количественных признаков

При построении корреляционных моделей исходят из условия нормальности многомерного закона распределения генеральной совокупности. Эти условия обеспечивают линейный характер связи между изучаемыми признаками и позволяют для исследования взаимосвязи между переменными использовать линейные коэффициенты корреляции. На практике в качестве показателей тесноты связи рассчитывают три линейных коэффициента корреляции: парный, частный и множественный, каждый из которых несет свою смысловую нагрузку.

Парный коэффициент корреляции (коэффициент корреляции Пирсона) характеризует степень линейной зависимости между двумя переменными на фоне действия всех остальных переменных, отобранных для анализа. Так, например, парный коэффициент корреляции р12 характеризует степень линейной зависимости между переменными лг, и х2 на фоне влияния остальных переменных х3, х4,..., xt.

В силу своих свойств и простоты вычисления парный коэффициент корреляции р является одним из самых распространенных способов измерения линейной связи между случайными величинами в генеральной совокупности. Величина парного коэффициента корреляции лежит в интервале от -1 до +1. Значение р = ±1 свидетельствует о наличии функциональной зависимости между рассматриваемыми признаками. Если р = 0, то можно сделать вывод о том, что линейная связь между переменными X и Y отсутствует, однако эго не означает, что они статистически независимы. В этом случае возможно существование иной, нелинейной формы зависимости между переменными. Сформулируем и докажем основные свойства парного коэффициента корреляции, которые легко показать в рамках двумерной нормальной генеральной совокупности [28].

1. Докажем свойство, что парный коэффициент корреляции изменяется в пределах от -1 до +1, т.е. -1 < р (/ < +1.

Для доказательства этого свойства рассмотрим неравенство

(3.1)

Возведя в квадрат выражение, стоящее в скобках, получим

Так как дисперсия нормированной величины равна единице, а среднее – нулю, имеем

Но определению коэффициент корреляции равен

Рассматривая в формуле (3.1) квадрат суммы, получим, что , а рассматривая квадрат разности – что < 1. Объединив эти два неравенства, получим

2. Если случайные величины Xi и X/ статистически независимы, то рц =0, а в случае нормального распределения из некоррелированности Xj и X/, когда pji = 0, следует их независимость.

Доказательство этого свойства следует из выражения (3.1) с учетом того, что для статистически независимых случайных величин их коэффициент ковариации равен нулю, так как

Второе утверждение этого свойства непосредственно следует из формулы плотности двумерного нормального закона распределения f(xj,.-;) для случая рJ/ – 0.

3. Из условия |р J = 1 следует наличие функциональной линейной связи между Xj и хь и наоборот, если Xj и х; связаны линейной функциональной зависимостью, то |р^| = 1.

Доказательство этого свойства основано на том, что неравенство (3.1) обращается в точное равенство тогда и только тогда, когда Ру =±1. В этом случае в неравенстве (3.1) выражение, стоящее в круглых скобках, должно быть тождественно равно нулю, т.е.

Таким образом, мы получили линейную функциональную зависимость между Xj и х/.

Чем ближе р к ±1, тем теснее связь между Xj и xt.

  • 4. Сила корреляционной связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.
  • 5. Парный коэффициент корреляции является симметричной характеристикой, т.е. ру; = p/у, что непосредственно следует из определения.
  • 6. Линейные преобразования переменных не влияют на величину коэффициента корреляции. Если все значения переменных увеличить (уменьшить) на одно и то же число или в одно и то же число раз, то величина коэффициента корреляции не изменится.
  • 7. Коэффициент корреляции не имеет размерности и, следовательно, его можно сопоставлять для разных выборок.
  • 8. В корреляционном анализе название переменных не имеет значения. Поэтому неважно, какую переменную мы назовем х, а какую у. Коэффициент корреляции зависит только от выборочных данных, а не от названия переменных.

Рассмотрим, как рассчитываются оценки коэффициентов корреляции.

Исходной для анализа является матрица

размерности nxk, в которой j-я строка характеризует г'-е наблюдение (объект) по всем k показателям (j = 1,2,..., k).

В корреляционном анализе количественных признаков часто матрицу X рассматривают как выборку объема п из ^-мерной генеральной совокупности, подчиняющейся ^-мерному нормальному закону распределения.

По имеющимся выборочным данным определяют оценки параметров генеральной совокупности:

  • • вектор средних X;
  • • вектор средних квадратических отклонений 5;
  • • корреляционную матрицу R порядка к.

При этом

Обозначим – среднюю арифметическую произведения двух признаков, тогда

Для выборочных данных используется эмпирическая мера связи – выборочный коэффициент корреляции г, который является точечной оценкой р и как всякая выборочная характеристика является случайной величиной [29].

Выборочный коэффициент корреляции между двумя количественными признаками д* и у определяется по формуле

(3.2)

По знаку коэффициента корреляции можно судить о направлении связи между переменными. Так, положительное значение коэффициента корреляции соответствует прямой связи, а отрицательное значение – обратной.

В случае fe-мерной совокупности матрица выборочных парных коэффициентов корреляции имеет вид

где – выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями X: и х(,; Xjj – значение i-го наблюдения j-го фактора. При этом г* является оценкой генерального парного коэффициента корреляции р^. Матрица R является симметричной () и положительно определенной.

Теснота корреляционной взаимосвязи между переменными может быть качественно охарактеризована с помощью рекомендаций, представленных в табл. 3.1.

Таблица 3.1

Теснота линейной взаимосвязи

Значение коэффициента корреляции

Теснота линейной взаимосвязи

Сильная взаимосвязь, близкая к функциональной

Взаимосвязь средней силы

Умеренная взаимосвязь

Слабая взаимосвязь

Очень слабая взаимосвязь

Коэффициент корреляции очень чувствителен к выбросам. Даже отдельное аномальное наблюдение может существенно исказить значение r и привести к неправильным выводам. Следовательно, до проведения корреляционного анализа желательно проверить исходные данные на наличие экстремальных (аномальных) наблюдений.

На практике изучение зависимости между двумя случайными величинами необходимо начинать с построения поля корреляции (диаграммы рассеяния), с помощью которого можно установить наличие корреляционной зависимости, силу взаимосвязи и выявить аномальные наблюдения.

Поле корреляции представляет собой диаграмму, на которой изображается совокупность значений двух признаков. Каждая точка этой диаграммы имеет координаты (xit у:), соответствующие размерам признаков в г-м наблюдении. Три варианта распределения точек на поле корреляции представлены на рис. 3.2. В первом случае основная масса точек укладывается в эллипсе, главная диагональ которого образует положительный угол с осью X. Это график положительной корреляции. Второй вариант распределения соответствует отрицательной корреляции. Равномерное распределение точек в пространстве (ХУ) свидетельствует об отсутствии корреляционной зависимости (третий вариант).

Поле корреляции в зависимости от характера (силы) связи

Рис. 3.2. Поле корреляции в зависимости от характера (силы) связи

На рис. 3.3 представлены примеры построения поля корреляции в зависимости от силы и направленности корреляционной связи.

Поля корреляции в зависимости от характера (силы) связи

Рис. 3.3. Поля корреляции в зависимости от характера (силы) связи

На рис. 3.4 представлен порядок построения поля корреляции с использованием пакета прикладных программ SPSS.

Построение поля корреляции с использованием пакета прикладных программ SPSS

Рис. 3.4. Построение поля корреляции с использованием пакета прикладных программ SPSS

Изучение силы и направленности корреляционной связи рассмотрим на следующем примере.

Пример 3.1

На основании выборочных данных (табл. 3.2) о деятельности шести коммерческих фирм оценим тесноту связи между прибылью (млн руб.) (у) и затратами на 1 руб. произведенной продукции (л).

Таблица 3.2

Исходные и расчетные данные для определения г

Номер наблюдения

1

96

0,22

21.12

9216

0,049

2

78

1,07

83.46

6084

1,145

3

77

1,00

77.00

5929

1,000

4

89

0,61

54.29

7921

0,372

5

81

0,78

63,18

6561

0,608

6

82

0,79

64,78

6724

0,624

Сумма

503

4,47

363,83

42 435

3,798

Средняя

83,833

0.745

60,638

7072,5

0,633

Решение

Используем формулу (3.2), в результате получим

Таким образом, между прибылью (у) и затратами на 1 руб. произведенной продукции (л) существует достаточно тесная обратная зависимость, т.е. фирмы, имеющие большую прибыль, имеют, как правило, меньшие затраты на 1 руб. произведенной продукции.

Отметим, что с помощью матрицы выборочных парных коэффициентов R можно найти оценки частных и множественных коэффициентов корреляции любого порядка.

Дадим определения частным и множественным коэффициентам корреляции, рассмотрим их свойства и роль в изучении взаимосвязи между признаками.

Частный коэффициент корреляции, например Рц/з.и .к' характеризирует степень линейной зависимости между переменными .г, и .v2 при исключенном влиянии (фиксированном значении) остальных переменныхх3, хЛк, входящих в модель.

Частный коэффициент корреляции определяется по той же формуле, что и парный, но для условного распределения, полученного из исходного (-мерною распределения модели.

Величина / (для частного коэффициента корреляции / = ( – 2) называется порядком коэффициента корреляции и равна числу фиксированных переменных.

В случае (-мерного нормального закона распределения вектора х = (xt, х2, ..., хкУ частный выборочный коэффициент корреляции, например г,2/з 4 к порядка / = ( – 2, определяется по формуле

где Ajj – алгебраическое дополнение элемента гу корреляционной матрицы R, лежащего на пересечении i-й строки и j-го столбца, i,j = 1,2,.... (.

Частный коэффициент корреляции г12 ,ъ 4 к обладает всеми свойствами парного коэффициента корреляции rti, следовательно, изменяется в интервале -1<г12/34*<+1.

Если парный коэффициент корреляции между двумя случайными величинами оказался больше соответствующего частного коэффициента, то можно сделать вывод о том, что фиксирование всех других переменных приводит к усилению взаимосвязи между изучаемыми величинами, т.е. более высокое значение парного коэффициента обусловлено присутствием "третьей величины". Более низкое значение парного коэффициента корреляции в сравнении с соответствующими частными свидетельствует об ослаблении связи между изучаемыми величинами действием фиксируемых величин.

При сопоставлении парных и частных коэффициентов корреляции необходимо следить за существенными расхождениями в их значениях. Так, например, если значение парного коэффициента корреляции положительное, а частного – отрицательное (или наоборот), то это может свидетельствовать о необходимости дополнительных исследований взаимосвязи признаков и их тщательного изучения, а также осторожности в интерпретации взаимосвязи.

Множественный коэффициент корреляции pt...,* (Pi) характеризует степень линейной связи между одной переменной и массивом остальных 1 = k – 1 переменных.

Множественный коэффициент корреляции, например г,/2 3 к порядка / = k – 1, определяется по формуле

где Щ – определитель корреляционной матрицы R, а /1 и – алгебраическое дополнение первого диагонального элемента матрицы R.

Рассмотрим свойства множественного коэффициента корреляции.

  • 1. Множественный коэффициент корреляции, например между переменной У и массивом остальных переменных, изменяется в интервале
  • 2. Минимальное значение множественного коэффициента корреляции, равное нулю, соответствует случаю полного отсутствия корреляционной связи между одной переменной и массивом остальных / = k – 1 признаков. В случае построения регрессионной модели это означает, что усредненная дисперсия регрессионных остатков в точности равна общей вариации результирующего показателя.
  • 3. Максимальное значение множественного коэффициента корреляции, равное единице, означает наличие функциональной связи между одной переменной и массивом остальных I = k – 1 признаков. В случае построения регрессионной модели это соответствует случаю полного отсутствия варьирования регрессионных остатков. В этом случае возможно полностью восстановить условные значения у(Х) = (у/% = X) по значениям факторных (предикторных) переменных X.
  • 4. Множественный коэффициент корреляции превышает любой парный или частный коэффициент корреляции, характеризующий статистическую связь результирующего показателя.
  • 5. Присоединение любой новой предсказывающей переменной не может уменьшить величины множественного коэффициента корреляции независимо от порядка присоединения переменных. Например:

Квадрат множественного коэффициента корреляции называется коэффициентом детерминации.

Множественный коэффициент детерминации, например , или , характеризует долю дисперсии (результативной) величины xlt обусловленной влиянием остальных переменных , включенных в модель.

Отметим, что множественный коэффициент детерминации является в регрессионном анализе одной из важнейших характеристик, позволяющих судить о качестве построенного уравнения регрессии.

Отметим, что все рассмотренные в данном разделе точечные оценки коэффициентов корреляции, как и все выборочные характеристики, являются случайными величинами, причем непрерывными в области возможных значений. Поэтому при проведении корреляционного анализа необходимо не только определить вид, степень и направление связи, но и проверить статистическую значимость полученного результата: существует ли связь, обнаруженная в выборке и характеризуемая коэффициентом корреляции, в генеральной совокупности, из которой эта выборка извлечена. Поэтому после количественной оценки силы и тесноты связи между признаками необходимо проверить статистические гипотезы о наличии и силе корреляционной связи в генеральной совокупности.

Проверка значимости параметров связи. После расчета коэффициентов корреляции, изучения силы и характера взаимосвязи между признаками с использованием поля корреляции встает задача проверки статистической значимости этой взаимосвязи.

Из курса теории вероятностей известно, что условие некоррелированности нормально распределенных величин X и Y равносильно их независимости, т.е. равенство нулю значения парного коэффициента корреляции гарантирует независимость случайных величин (и, следовательно, независимость признаков), если же значение парного коэффициента корреляции отлично от нуля, то по величине коэффициента можно судить о силе взаимосвязи.

Проверка значимости парного и частного коэффициентов корреляции. Для проверки значимости парного и частного коэффициентов корреляции выдвигаются следующие гипотезы.

Нулевая гипотеза Н0: р = 0 означает отсутствие линейной взаимосвязи между признаками, их некоррелированность и независимость.

Конкурирующая гипотеза Н{. р * 0 свидетельствует о наличии линейной взаимосвязи между признаками.

Для проверки гипотезы Нц требуется исходя из выборочных данных подобрать статистику-критерий, которая использовала бы известное значение выборочного коэффициента корреляции и имела хорошо известное распределение. Таким критерием является статистика

которая при справедливости нулевой гипотезы имеет распределение Стьюдента (t-распределение) с п – / – 2 степенями свободы. Здесь г – соответственно оценка парного или частного коэффициент корреляции; / – порядок частного коэффициент корреляции, т.е. число фиксируемых факторов. Отметим, что для парного коэффициента корреляции / = 0.

Таким образом, для проверки гипотезы Я0 используется критерий Стьюдента (t-критерий). Наблюдаемое значение статистики критерия рассчитывается но формуле

Затем по таблице распределения Стьюдента находится критическое значение статистики tKp для заданного уровня значимости а и числа степеней свободы v = пI – 2.

Коэффициент корреляции считается значимым, т.е. гипотеза Я0: р = 0 отвергается с вероятностью ошибки а, если tlla6, по модулю будет больше, чем tKp (значения распределения Стьюдента можно найти в табл. П2 приложения). Если же , то гипотеза Я0 не отвергается, т.е. гипотеза об отсутствии зависимости между признаками с вероятностью ошибки а не противоречит выборочным наблюдениям.

Значимость парных и частных коэффициентов корреляции можно проверить также с помощью таблиц Фишера – Йейтса (табл. П5 приложения). В этом случае гипотеза Я0 отвергается с вероятностью ошибки а, если полученное значение г коэффициента корреляции по модулю окажется больше табличного значения гкр, найденного по табл. П9 приложения при заданном а и числе степеней свободы v = n-/-2, это значит, что удалось установить значимую взаимосвязь между признаками. В противном случае (|г| < гкр) гипотеза Я0: р = 0 не отвергается.

Пример 3.2

Имеется выборка из 10 наблюдений роста отцов (X) и их взрослых сыновей (У), см.

Xj

180

172

173

169

175

170

179

170

167

174

У,

186

180

176

171

182

166

182

172

169

177

Требуется найти выборочный коэффициент корреляции и проверить его значимость, т.е. ответить на вопрос: является ли зависимость роста взрослых сыновей от роста их отцов статистически значимой? Распределение случайных величин X и Y предполагается нормальным. Уровень значимости а составляет 0,05.

Решение

Найдем значение выборочного коэффициента корреляции по формуле

Получим г = 0,887. Данное значение выборочного парного коэффициента корреляции свидетельствует о наличие сильной прямой взаимосвязи между ростом отцов и их взрослых сыновей.

Для проверки статистической значимости найденной взаимосвязи проверим гипотезу #0: р = 0 с использованием статистики Стьюдента.

Рассчитаем наблюдаемое значение статистики:

Затем по таблице распределения Стьюдента найдем критическое значение статистики /к|1 для заданного уровня значимости а = 0.05 и числа степеней свободы v = 10 – 2: (кр(0,05; 8) = 3,833.

Так как наблюдаемое значение статистики превосходит критическое значение, то утверждение о том, что рост взрослых сыновей зависит от роста их отцов, не противоречит опытным данным с вероятностью ошибки а = 0,05.

Проверка значимости множественного коэффициента корреляции и детерминации. Значимость множественного коэффициента корреляции и детерминации проверяется с помощью /'-критерия.

Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы о том, что генеральный множественный коэффициент корреляции равен нулю, т.е.

Наблюдаемое значение статистики находится по формуле

Множественный коэффициент корреляции считается значимым с вероятностью ошибки а, т.е. имеет место линейная статистическая зависимость между переменной xt и остальными факторами х2,.... хк, если |, где FKp определяется по таблице ^-распределения для заданных

Интервальные оценки для значимых параметров связи. Для значимых параметров связи строят их интервальные оценки. Они позволяют с вероятностью, близкой к единице, рассчитать интервал, внутрь которого попадет значение генерального коэффициента корреляции.

Р. Фишер доказал, что статистика

уже при п > 10 имеет асимптотически нормальное распределение приемлемой точности с математическим ожиданием и дисперсией

При определении доверительного интервала с надежностью у для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно рассчитывают интервальную оценку для Z:

где вычисляют по таблице интегральной функции Лапласа (см. табл. П1 приложения) из условия

Значение Z' определяют по таблице Z-преобразования (табл. П6 приложения) по найденному значению г. Отметим, что данная функция – нечетная, т.е.

Обратный переход от Z к р осуществляют также по таблице Z-преобразования, после использования которой получают интервальную оценку для р с надежностью у:

Таким образом, с вероятностью у гарантируется, что генеральный коэффициент корреляции р будет находиться в интервале ().

Задачи, решаемые при помощи статистики Фишера. Кроме нахождения интервальной оценки для коэффициента корреляции р с помощью преобразования

(3.3)

можно решить следующие задачи.

1. После того как найдена оценка выборочного коэффициента корреляции, можно проверить, насколько полученная оценка по выборочным данным согласуется с истинным значением коэффициента корреляции для генеральной совокупности (т.е. проверить степень корреляционной зависимости).

Фишером установлено, что статистика Z,., построенная по выборкам из X и У достаточно большого объема п (п> 50), имеет приближенно нормальное распределение. В случае справедливости нулевой гипотезы Нп параметры этого распределения составляют

(3.4)

В качестве статистики критерия используют нормированную величину И7:

Затем по таблице функции Лапласа находят критическое значение Сравнение наблюдаемого и критического значений статистики позволит отклонить или принять нулевую гипотезу.

Пример 3.3

В предыдущем примере установлено, что роет взрослых сыновей имеет сильную прямую взаимосвязь с ростом их отцов (/ = 0,887). Проверим насколько согласуется полученное выборочное значение парного коэффициента корреляции с истинным значением коэффициента корреляции для генеральной совокупности.

Решение

Имеем

Воспользуемся формулой (3.4) и вычислим математическое ожидание и дисперсию распределения:

Тогда

Используя формулу (3.3), получим

При а = 0,05 критическое значение критерия 1ТК|) составит 1,96. Сравнивая наблюдаемое и критическое значения, можно сделать вывод о том, что наблюдаемое значение критерия находится в области принятия гипотезы. Таким образом, мы можно говорить (с вероятностью ошибки а = 0,05), что истинное значение коэффициента корреляции для генеральной совокупности составляет 0,887. Эта зависимость очень сильная, близкая к функциональной.

  • 2. Проверить, согласуется ли выборочный коэффициент корреляции г с предполагаемым значением генерального коэффициента корреляции р0, можно также с помощью построения интервала. С этой целью для выбранного уровня значимости а проверяют, попадает ли абсолютная величина разности в интервал . Если попадает, то гипотеза Н0: не отвергается. В противном случае она отвергается с вероятностью ошибки а.
  • 3. Проверить гипотезу об однородности коэффициентов корреляции.

Пусть– коэффициенты корреляции, полученные из k нормально распределенных совокупностей по выборкам с объемами. Проверяется гипотеза

Статистика

имеет распределениес k степенями свободы. Если заменитьна среднее арифметическое

то получим, что статистика

распределена по законус v = k – 1 степенями свободы.

Если теперь для заданных а и v = k – 1 найти табличное значение и выполняется неравенство

то гипотеза однородности отвергается с вероятностью ошибки а. В противном случае гипотеза Нп не отвергается.

В случае принятия гипотезы однородности предпочтительной точечной оценкой р является значение г, полученное обратным преобразованием из zr

Выявление и анализ ложной корреляции между признаками. Две переменные X и Y могут иметь сильную корреляционную зависимость, но прежде чем делать выводы об их взаимосвязи, необходимо постараться проинтерпретировать эту связь.

Взаимосвязь переменных может быть вызвана другим фактором (третьей переменной), влияющим и на X, и на Y. Так, например, если вы видите пожарную машину на каждом из пожаров, то это не означает, что пожарные машины вызывают пожар. Для выявления ложных корреляций рассматривают не пару, а множество "потенциально важных" значений и используют частные корреляции. Если зафиксировать пожары примерно одного масштаба и посчитать корреляцию между количеством пожарных и ущербом, то корреляция окажется обратной.

Пример 3.4

В табл. 3.3 представлены данные, иллюстрирующие увеличение числа министерств и объема импорта рома в Новой Англии в период с I860 по 1940 г.

Таблица 3.3

Число министерств и объем импорта рома в Новой Англии в период с 1860 по 1940 г.

Год

Число министерств в Новой Англии

Объем кубинского рома, импортируемого в Бостон, баррель

I860

63

8376

1865

48

6406

1870

53

7005

1875

64

8486

1880

72

9595

1885

80

10 643

1890

85

11 265

1895

76

10 071

1900

80

10 547

1905

83

11 008

1910

105

13 885

1915

140

18 559

1920

175

23 024

1925

183

24 185

1930

192

25 434

1935

221

29 238

1940

262

34 705

Анализ поля корреляции (рис. 3.5) между числом министерств в Новой Англии и объемом (в баррелях) кубинского рома, импортируемого в Бостон, показывает наличие функциональной зависимости между этими переменными (r= 0,9986). Означает ли это, что увеличение министерств в Новой Англии сопровождается ростом объема (в баррелях) кубинского рома, импортируемого в Бостон?

Поле корреляции между числом министерств в Новой Англии и объемом (в баррелях) кубинского рома, импортируемого в Бостон

Рис. 3.5. Поле корреляции между числом министерств в Новой Англии и объемом (в баррелях) кубинского рома, импортируемого в Бостон

Для ответа на этот вопрос рассмотрим третью переменную Z – "рост населения". Именно ее опосредованное влияние и на переменную X, и на переменную Y послужило причиной их тесной взаимосвязи. Из этого можно сделать вывод о том, что высокий коэффициент корреляции между переменными X и Y обусловливался влиянием третьего, неучтенного, фактора Z – ростом численности населения.

Таким образом, если удалось установить тесную зависимость между двумя исследуемыми переменными, отсюда еще не следует их причинная взаимообусловленность.

Пример 3.5 [1]

При анализе большого числа наблюдений, относящихся к отливке труб, была установлена положительная корреляционная связь между переменными х1 – временем плавки и х2 количеством забракованных труб. Однако дать причинное истолкование такой стохастической зависимости невозможно (рекомендация ограничить продолжительность плавки для снижения брака малосостоятельна). Спустя несколько лет было обнаружено, что большая продолжительность плавки связана с использованием сырья специального состава. Этот вид сырья приводил одновременно к длительному времени плавки и большому проценту брака, хотя оба этих фактора независимы.

Таким образом, высокий коэффициент корреляции междуиобусловливался влиянием третьего, неучтенного, фактора – характеристики качества сырья.

Исследование нелинейных взаимосвязей. Эмпирическое корреляционное отношение. О нелинейном характере взаимосвязи можно судить по полю корреляции.

Пример 3.6

На рис. 3.6 представлено поле корреляции между глобальным инновационным индексом {Globa! Innovation Index) и индексом развития человеческого потенциала {Human Development Index) по странам мира за 2013 г., которое носит ярко выраженный нелинейный характер. Можно показать графически, что данная зависимость довольно хорошо моделируется с помощью подгонки, основанной на логарифмической функции. Анализ рис. 3.6 показывает, что связь слабеет по мере роста обоих индексов. Логарифмическая подгонка некорректна только для группы наиболее развитых стран, для которых положительной взаимосвязи между этими индексами уже почти не наблюдается (для стран, у которых 67/ больше 55, точки на диаграмме рассеивания расположены практически параллельно оси х).

Таким образом, дальнейшее изучение взаимосвязи между уровнем инновационного развития страны и благосостояния населения целесообразно проводить с помощью корреляционного отношения или предварительно разбить страны мира на однородные группы с помощью методов кластерного анализа.

Поле корреляции между глобальным инновационным индексом (GII) и индексом развития человеческого потенциала (IIDI) по странам мира, 2013 г.

Рис. 3.6. Поле корреляции между глобальным инновационным индексом (GII) и индексом развития человеческого потенциала (IIDI) по странам мира, 2013 г.

При отклонении исследуемых зависимостей от линейного вида коэффициент корреляции теряет свой смысл как характеристика степени тесноты связи.

Нелинейная (или криволинейная) связь между двумя величинами – это такая связь, при которой равномерным изменениям одной величины соответствуют неравномерные изменения другой, причем эта неравномерность имеет определенный закономерный характер.

Для изучения степени нелинейной взаимосвязи между признаками используют корреляционной) отношение.

Корреляционное отношение () – характеристика тесноты связи между переменными X и Y в случае нелинейной зависимости.

Использование корреляционного отношения основано на разложении общей дисперсии зависимой переменной на составляющие: дисперсию, характеризующую влияние объясняющей переменной, и дисперсию, характеризующую влияние неучтенных и случайных факторов:

где – общая дисперсия зависимой переменной, т.е. дисперсия относительно среднего значения; – дисперсия функции регрессии относительно среднего значения зависимой переменной, характеризующая влияние объясняющей переменной; – дисперсия зависимой переменной Y относительно функции регрессии, т.е. остаточная регрессия.

Корреляционное отношение по выборочным данным определяется по формуле

Корреляционное отношение Г|,/г изменяется в интервале . Если дисперсия , обусловленная зависимостью величины у от объясняющей переменной х, равна общей дисперсии (а это возможно лишь при наличие функциональной связи), то . Если же остаточная (т.е. необъясненная) дисперсияравна общей дисперсии, то , т.е. корреляционная связь отсутствует.

Корреляционное отношение используется тогда, когда характер выборки допускает их группировку по оси объясняющей переменной х и подсчет частных средних внутри каждого j-го интервала группирования:

где – число интервалов группирования; – число наблюдений (точек) в j-м интервале.

Межгрупповая вариация у характеризуется дисперсией

где – общее среднее.

Общая выборочная дисперсия относительно общей средней у равна

Следовательно, оценка квадрата корреляционного отношения зависимой переменной Y по независимой переменной X рассчитывается по формуле

Вычисление корреляционного отношения не связано с видом уравнения регрессии.

В отличие от парного коэффициента корреляции г корреляционное отношение несимметрично по отношению к исследуемым переменным, т.е. в общем случае

Корреляционное отношение, по определению, – величина неотрицательная как положительный корень из гуыг

Из равенства |ri| = 1 следует наличие однозначной функциональной связи между Y и X, и наоборот, из функциональной связи между Y и X следует, что |т)| = 1.

Отсутствие связи между Уы и X означает, что частные средние уj равны между собой и равны Уы, поэтому г|,/Л = 0.

Отметим, что между Г| . = Цг(/ нет никакой простой зависимости, т.е. по значениям одной переменной нельзя судить о значениях другой переменной. В случае линейной зависимости туы и р2 совпадают, поэтому статистику (г)2,. -р2) используют в качестве меры отклонения регрессионной зависимости от линейного вида.

В качестве одного из самых простых критериев оценки нелинейности связи можно использовать следующий коэффициент:

Если значение Кп > 2,5, то корреляционную связь можно считать нелинейной.

При недостаточном количестве данных в выделенных группах к рассчитанной величине корреляционного отношения вводится поправка

где т – число выделенных групп.

Построение доверительных интервалов для корреляционного отношения. Построение доверительных интервалов для корреляционного отношения генеральной совокупности осуществляется так же, как аналогичные процедуры для линейного коэффициента парной корреляции. Рассчитывается наблюдаемое значение статистики

Критическое значение статистики fKpllT находится по таблице распределения Стьюдента для заданного уровня значимости а числа степеней свободы v = п – 2.

Доверительный интервал имеет вид

где ty находится по таблице интегральной функции Лапласа с учетом уровня доверительной вероятности у.

Проверка значимости нелинейных взаимосвязей. Для проверки значимости корреляционного отношения ri^, т.е. проверки при заданном уровне значимости а гипотезы, используют f-критерий, основанный на статистике

После расчета наблюдаемого значения статистики Фишера – Йейтса находят критическое значение (FKp) для заданного уровня значимости а и числа степеней свободы

Сравнение наблюдаемого и критического значений статистики позволяет сделать вывод о значимости корреляционного отношения (наличия нелинейной взаимосвязи между переменными х и у).

Если, то с вероятностью ошибки а утверждают, что зависимость между переменными существует, в противном случае гипотеза не отвергается.

Пример 3.7

На рис. 3.7 приведены поля корреляции между переменными д* и у. Сверху каждой) рисунка представлены соответствующие коэффициенты корреляции. Определим, в каком случае для исследования степени тесноты взаимосвязи между переменными могут быть использованы линейные коэффициенты корреляции.

Решение

Для анализа взаимосвязи между переменными в первой строке могут быть использованы линейные коэффициенты корреляции, во второй строке линейные коэффициенты корреляции не могут использоваться, так как связь носит сложный, нелинейный характер. В центре рисунка значение коэффициента корреляции не определено, так как дисперсия у равна нулю.

Поля корреляции между переменными х и у для примера 3.7

Рис. 3.7. Поля корреляции между переменными х и у для примера 3.7

 
<<   СОДЕРЖАНИЕ   >>