Модель факторного анализа

В факторном анализе предполагается, что значения исходных измеряемых переменных приближенно находятся в линейной зависимости от факторов. Другими словами, что если бы мы знали факторы, то могли бы рассчитать исходные переменные по формуле

(13.1)

где Xi - i-я стандартизованная исходная переменная; Аij - подлежащие определению коэффициенты, называемые "факторными нагрузками", j = 1, …, m; Fj -j-й общий фактор; Ui - i-й характерный фактор; m - число общих факторов; N - число параметров.

Общие факторы потому так и называются, что они единые для всех переменных. В отличие от них характерный фактор для каждой переменной свой, так как он определяется природой данной переменной и по сути имеет смысл "помехи".

Поскольку общие факторы участвуют в представлении всех переменных, они выражают внутренние свойства изучаемого явления, в то время как каждый из характерных факторов - свойства только одной "своей" переменной.

Предположения модели факторного анализа

В основе факторного анализа лежат следующие предположения.

1. Предположение относительно общих факторов. Коэффициенты корреляции между любой парой общих факторов равны нулю ρ(Fр, Fq) = 0, где ρ - коэффициент корреляции, р ≠ q и p, q = 1, ..., m. Смысл этого предположения в том, что, если бы в результате проведенного анализа факторы оказались сильно коррелированными, значит, сами эти корреляции можно объяснить еще меньшим числом общих факторов, т.е. что первоначально было выбрано слишком много общих факторов.

Напомним, что коэффициент корреляции Пирсона рассчитывается по формуле

(13.2)

2. Предположение относительно характерных факторов.

Вариант 1. Характерные факторы попарно не коррелируют с общими факторами. (Коэффициент корреляции между любым характерным фактором и любым общим фактором равен нулю.) В этом случае строится так называемая модель главных компонент: общие факторы подбираются таким образом, чтобы минимизировать суммарную дисперсию характерных факторов, т.е. объяснить как можно большую долю суммарной дисперсии данных

Таким образом, модель главных компонент нацелена на объяснение дисперсий наблюдаемых параметров.

Вариант 2. Характерные факторы не коррелируют не только с общими факторами, но и между собой. В этом случае строится факторная модель. Факторная модель нацелена на объяснение коэффициентов корреляции между наблюдаемыми параметрами.

Предположение о некоррелированности между собой характерных факторов можно объяснить следующими представлениями. Измеряемая переменная складывается из двух слагаемых - первое определяется общими факторами, т.е. существенными внутренними свойствами изучаемого явления; второе слагаемое - характерный фактор - связано лишь с природой данного измеряемого параметра и не зависит от свойств самого явления. Причем в силу различной природы переменных характерные факторы не связаны не только с характерными факторами, но и друг с другом.

Анализ главных компонент часто оказывается более предпочтительным в качестве метода сокращения данных, в то время как факторную модель лучше применять с целью воспроизведения структуры взаимосвязей между переменными. Поскольку в маркетинговых исследованиях, как правило, важнее первое, мы будем рассматривать только метод главных компонент.

Иллюстрация принципа выделения факторов

Идею объединения нескольких переменных в один фактор поясним для случая, когда объединяются всего две переменные. Рассмотрим ситуацию, представленную на рис. 13.7, на котором изображена так называемая диаграмма рассеяния точек в пространстве двух переменных. Мы видим, что переменные Β1 и В2 довольно сильно взаимосвязаны: чем больше Β1, тем, как правило, больше и В2. Графическое представление об этой зависимости дает изображенная на этом рисунке линия, проходящая через главную ось "облака точек". Давайте изменим данные, взяв вместо реальных точек их проекции на эту линию. При этом мы потеряем информацию об относительно небольших отклонениях точек от этой линии. Но зато нам больше не нужны будут две переменные, достаточно одной: расстояния от основания проекции каждой точки до любой фиксированной точки этой линии, например, до точки ее пересечения с горизонтальной осью.

Диаграмма рассеяния наблюдений для параметров B1 и B2

Рис. 13.7. Диаграмма рассеяния наблюдений для параметров B1 и B2

Дисперсия проекций точек в одномерном пространстве линии регрессии будет меньше всего отличаться от дисперсии точек в двумерном пространстве исходных переменных. А это значит, что наша новая переменная будет отображать наиболее существенные черты обеих исходных переменных. Итак, мы сократили число переменных, заменили две переменные одной. Отметим, что новая переменная (фактор) в действительности является линейной комбинацией двух исходных переменных.

Пример, в котором две коррелированные между собой переменные объединены в один фактор, поясняет главную идею метода главных компонент. В основном процедуру нахождения главных компонент можно представить себе как вращение системы координат с целью выявления направлений, вдоль которых исходные переменные максимально изменяются. Например, на диаграмме рассеяния можно рассматривать линию регрессии как ось абсцисс, повернув ее так, что она совпадет с прямой регрессии. После этого поворота вторая ось пространства - новая ось ординат, как обычно, перпендикулярная к первой, будет направлена вверх и влево. На этой оси будут откладываться отклонения точек от линии регрессии. Однако, поскольку эти отклонения невелики, их вклад в дисперсию материала мал. Этими отклонениями можно пренебречь и вообще отказаться от использования второй оси координат: дисперсия материала при этом снизится незначительно.

Подобный поворот осей называется поворотом, максимизирующим дисперсию, так как критерий (цель) заключается в максимизации дисперсии (изменчивости) "новой" переменной (фактора) и минимизации отклонений от него.

Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления нескольких переменных одним или несколькими факторами остается в силе.

Поясним идею нахождения нескольких ортогональных (т.е. взаимно перпендикулярных) факторов. После того как мы нашли линию, дисперсия проекций точек на которую максимальна, вокруг нее остается некоторый разброс данных. И процедуру естественно повторить, предварительно вычтя из координат каждой точки координаты ее проекции. В анализе главных компонент именно так и делается: после того как первый фактор выделен, т.е. после того как проведена первая линия, определяется следующая линия, объясняющая максимальную часть остаточной дисперсии (разброса данных вокруг первой прямой), и т.д. Таким образом, факторы выделяются последовательно, один за другим. Каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, поэтому факторы оказываются независимыми друг от друга, некоррелированными, а значит, взаимно перпендикулярными, ортогональными.

Напомним, что анализ главных компонент является методом сокращения числа переменных. Естественно, возникает вопрос: сколько факторов следует выделять? Каждый фактор находится так, чтобы объяснять как можно большую долю пока еще не объясненной изменчивости данных. Поэтому каждый следующий фактор объясняет меньше дисперсии, чем каждый из предыдущих. Решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от того, что исследователь считает пренебрежимо малой, "случайной" изменчивостью. Это решение достаточно произвольно, однако имеются некоторые рекомендации, позволяющие рационально выбрать число факторов. Мы остановимся на этом вопросе несколько позднее.

А сейчас введем важное понятие, которое будем использовать в дальнейшем. Общностью (communality) называется доля дисперсии определенной исходной переменной, которая объясняется всеми выделенными общими факторами.

 
< Пред   СОДЕРЖАНИЕ     След >