Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Корреляционный анализ

В результате изучения материала главы 3 обучающийся должен:

знать

  • • установление статистически значимой взаимосвязи между переменными;
  • • основные виды линейных коэффициентов корреляции, проверку их значимости, интервальное оценивание и интерпретацию;
  • • причины возникновения ложной корреляции и способы ее выявления;

уметь

  • • строить поле корреляции и определять силу взаимосвязи между переменными;
  • • рассчитывать линейные коэффициенты корреляции, проверять их значимость и строить интервальные оценки, интерпретировать параметры связи;
  • • исследовать парные нелинейные взаимосвязи между переменными;
  • • рассчитывать коэффициенты корреляции в случае нечисловой информации;
  • • рассчитывать и интерпретировать канонические переменные, проверять их значимость;

владеть

  • • приемами и методами корреляционного анализа;
  • • информационными технологиями при исследовании характера и тесноты взаимосвязи между переменными.

Основные понятия корреляционного анализа

Имеется ли связь между исследуемыми переменными, какова структура этих связей и как измерить ее силу – эти вопросы исследователь ставит перед собой, приступая к любому статистическому исследованию зависимостей.

Ответить на поставленные вопросы можно с помощью корреляционного анализа, который позволяет:

  • 1) выбрать с учетом специфики и природы анализируемых переменных подходящий измеритель тесноты статистической связи (коэффициент корреляции, корреляционное отношение, ранговый коэффициент корреляции и т.д.);
  • 2) с помощью точечной и интервальной оценок оценить числовое значение измерителя связи по имеющимся выборочным данным;
  • 3) проверить гипотезу о том, что полученное значение анализируемого измерителя связи действительно свидетельствует о наличие статистической связи, т.е. проверить исследуемую корреляционную характеристику на статистически значимое отличие от нуля;
  • 4) определить структуру связей между компонентами исследуемого многомерного признака, сопоставив каждой паре ответ: связь есть или нет.

Термин "корреляция" (conelation) ввел в статистику английский биолог и статистик Фрэнсис Гальтон в конце XIX в. А в палеонтологии в XVIII в. известный французский ученый Жорж Кювье, специалист по ископаемым останкам животных, ввел в научный оборот так называемый закон корреляции, который он использовал для изучения связи частей и органов живых существ. С помощью закона корреляции можно было восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков.

Дальнейшее развитие корреляционный анализ получил в трудах Карла Пирсона (1857–1936) и Джорджа Юла (1871 – 1951), которые разработали и ввели в научный оборот термин "парный коэффициент корреляции", который по сей день является одним из основных инструментов, позволяющих изучать взаимосвязь нескольких признаков.

Корреляционный анализ применятся тогда, когда данные наблюдений можно считать случайными и выбранными из генеральной совокупности, распределенной по нормальному (многомерному) закону.

Различают два вида зависимостей между экономическими явлениями: функциональную, или жестко детерминированную, и статистическую, или стохастическую, вероятностную.

При функциональной зависимости имеет место однозначность отображения множества значений изучаемых величин, т.е. существует правило У = f(X) соответствия независимой переменной X и зависимой переменной Y. В экономике примером функциональной связи может служить зависимость между объемом произведенной продукции и производительностью труда; объемом произведенной продукции и затратами рабочего времени; численностью работников и фондом оплаты труда и др. Функциональные связи называют также явными, так как они связывают показатели, полученные вычислением по заранее известным формулам и законам. Следовательно, значение зависимой переменной становится известным, как только известны значения независимых переменных.

Таким образом, функциональной зависимостью переменной Y от переменной X называют зависимость вида Y = f(X), где каждому допустимому значению X ставится в соответствие по определенному правилу единственно возможное значение переменной У. Такая связь имеет место в точных науках: математике, физике, химии и др., например, зависимость между радиусом и площадью круга, массой тела и скоростью падения и т.д.

Множественность результатов при анализе связи между переменными X и У объясняется прежде всего тем, что зависимая переменная У испытывает влияние не только фактора X, но и целого ряда других факторов, которые не учитываются при анализе. Кроме того, влияние выделенного фактора может не быть прямым, а проявляться через цепочку других факторов.

Допустим, что на величины X и Y влияют одни и те же факторы, например Z1, Z2, Z3, тогда величины X и Y находятся в полном соответствии друг с другом и связаны функционально.

Допустим, что на величины X и Y влияют общие факторы Z, и Z2. Величины X и Y являются случайными, но так как имеются факторы, оказывающие влияние и на величину X, и на величину Y, значения X и Y обязательно будут взаимосвязаны. Однако выделенная связь уже не будет функциональной, она носит вероятностный, случайный характер и меняется от испытания к испытанию.

Если каждому значению переменной X соответствует не одно, а целое множество значений переменной У, то такая зависимость называется статистической (стохастической). Все связи, которые могут быть численно измерены, подходят под определение статистической связи. При такой связи разным значениям одной переменной соответствуют разные законы распределения значений другой переменной.

Среди множества значений Уможно найти среднее значение М(Y/X = х), которое для каждого значения X свое. Множество этих значений на графике образует линию, вид которой может быть самым разнообразным (прямая, парабола, экспонента и т.д.) и определяется случайными величинами X и У (рис. 3.1).

Пример модели взаимосвязи: связь между глобальным инновационным индексом (GII) и индексом развития человеческого потенциала (HDI)

Рис. 3.1. Пример модели взаимосвязи: связь между глобальным инновационным индексом (GII) и индексом развития человеческого потенциала (HDI)

Если изменение одной из случайных величин приводит к изменению среднего значения другой случайной величины, то такую зависимость называют корреляционной. Корреляционная связь – это частный случай статистической связи. Ее можно выявить только при массовом изучении факторов в виде общей тенденции. При этом каждому фиксированному значению аргумента соответствует определенный закон распределения значений функции, и наоборот, заданному значению зависимой переменной соответствует закон распределения объясняющей переменной. Например, при изучении потребления электроэнергии У в зависимости от объема производства X каждому значению X соответствует множество значений У, и наоборот. В этом случае можно говорить о наличии стохастической (корреляционной) связи между переменными.

В зависимости от направления функциональные и стохастические связи могут быть прямыми и обратными. При прямой связи направление изменения одного признака совпадает с направлением изменения другого признака.

Другими словами, при увеличении значений одного признака увеличиваются значения другого признака, и наоборот, при уменьшении значений одного признака уменьшаются значения другого признака. В противном случае между рассматриваемыми признаками существует обратная связь. Например, чем выше квалификация работника, тем выше производительность труда (связь прямая). Чем больше респондентов сделали прививки от гриппа, тем меньше общая заболеваемость гриппом в стране (связь обратная).

По форме (аналитическому выражению) связи могут быть линейными и нелинейными (криволинейными). При прямолинейной связи с возрастанием значения одного признака (факторного) происходит возрастание (или убывание) значений другого признака (результативного). Математически такая связь представляется уравнением прямой, а графически – прямой линией. При нелинейных связях возрастание значений одного признака (факторного) может происходить неравномерно и приводить к различным изменениям значений другого признака (результативного). Геометрически такие связи представляются кривыми линиями (парабола, экспонента, гипербола и т.д.).

По количеству факторов, действующих на переменную, связи классифицируются на простые (однофакторные) и многофакторные, когда на переменную оказывают воздействие два признака или более. Однофакторные, или простые, связи обычно называют парными. Например, связь между инфляцией и безработицей, произведенной продукцией и производительностью труда и т.д. В случае многофакторной связи предполагается, что на переменную оказывает влияние множество факторов. Например, спрос на товар зависит от его цены и уровня доходов населения, объем отгруженной продукции – от спроса, цены, производительности труда, доходов и др. Поэтому, прежде чем переходить к изучению связи между двумя переменными, необходимо тщательно разобраться с всевозможным кругом существующих между переменными связей, подумать об их силе и о возможных направлениях.

В практике статистического анализа возможны случаи, когда с помощью корреляционных моделей обнаруживают достаточно сильную зависимость признаков, в действительности не имеющих причинной связи друг с другом. Такие корреляции называются ложными.

 
<<   СОДЕРЖАНИЕ   >>