Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

5.3. Факторный анализ

Факторный анализ со статистической точки зрения связан с поиском новых признаков, характеризующих объекты наблюдения на основе имеющейся информации, которая содержится в измеренных значениях k исходных признаков. Всю информацию об п объектах наблюдения можно представить в виде матрицыили прямоугольной таблицы "объект – признак" (табл. 5.6).

Таблица 5.6

Таблица "объект (i) – признак (/)"

ij

1

2

к

1

2

Для дальнейшего анализа удобнее использовать матрицу наблюдаемых стандартизованных признаков, которые тоже относятся к категории измеримых, как рассчитанных непосредственно по результатам произведенных наблюдений

Стандартизация производится в соответствии с заменой (5.3), но обычно неизвестные математические ожидания и дисперсии n'j заменяются их выборочными аналогами: выборочной средней

и несмещенной оценкой дисперсии

либо асимптотически несмещенной оценкой дисперсии

Средние значения стандартизованных переменных равны нулю (), а дисперсии – единице ().

Связь новых переменных с наблюдаемыми признаками в факторном анализе аналогична регрессионной, но с тем существенным отличием, что эти новые объясняющие переменные, или факторы, неизвестны и нуждаются в идентификации. В моделях факторного анализа используются общие и индивидуальные факторы. Общие факторы связаны значимыми коэффициентами более чем с одной измеримой переменной. Каждый из индивидуальных факторов v. связан только с однойу-й измеримой переменной. При этом обычно предполагается, что индивидуальные факторы некоррелированы между собой и с общими факторами. Кроме того, для удобства факторы выбираются как стандартизованные:

Второй индекс переменныхобозначает номер объекта наблюдения i -1,2,..., п. Первый индекс j = 1,2,...,k характеризует номер исходного признака Zjj и соответствующего ему индивидуального эффекта vjY, а для glt первый индекс / = 1,2,..., от обозначает номер общего фактора.

Коэффициенты при общих факторах можно свести в матрицу

а коэффициенты при индивидуальных факторах для дальнейшего матричного представления модели будут диагональными элементами в диагональной матрице

Включающая нагрузки всех факторов общая матрица коэффициентов, или матрица факторного отображения, будет представлять собой результат объединения элементов обеих матриц:

Матрица значений общих факторов представляет собой матрицу размерности т х п, где т < k:

Матрица значений индивидуальных факторов имеет размерность kxn:

Общая матрица значений факторов может быть образована как результат объединения матриц общих и индивидуальных факторов:

С учетом введенных обозначений модель факторного анализа в матричной форме может быть представлена в виде

Модель факторного анализа с учетом неполного содержания исходной информации об объектах исследования в новой системе координат меньшей размерности (m < k) неизбежно будет содержать помимо общности в виде информации об объектах в системе координат общих факторов и специфичность, представляемую в виде значений характерных факторов. В то же время с учетом случайности выборки и погрешности измерения нормированное наблюдаемое значение содержит истинное значение, индивидуальную особенность Indjj каждого объекта и ошибку измерения е":

(5.13)

В рамках статистического подхода под истинным значением понимается математическое ожидание признака, вторая и третья составляющие характеризуют отклонение отдельного показателя на данном объекте от среднего. Если первая составляющая является общей статистической характеристикой совокупности объектов исследования, то вторая и третья компоненты являются носителями особенностей, присущих данному объекту и методу измерения. В процессе управления важнейшим моментом являются знание и умение учитывать индивидуальные черты отдельных объектов исследования.

Характеристика вариативности – дисперсия – для нормированного значения наблюдаемого признака может быть представлена в следующем виде:

(5.14)

где

Ошибка измерения обычно оказывается значительно меньше вариативной компоненты, поэтому их часто объединяют [13]. Однако поскольку вариативная составляющая и ошибки измерения возникают независимо друг от друга, то их рассматривают как некоррелированные.

Рассмотрим слагаемые, содержащие сомножитель, величина которого является дисперсией произвольного общего факторапосле нормировки:

Величина дисперсии нормированного общего фактора равна единице:

Рассмотрим в формуле (5.14) слагаемые, содержащие сомножитель . Это коэффициент корреляции между двумя общими факторами, т.е.

где

После введения обозначения для коэффициента корреляции общих и индивидуальных эффектов

выражение (5.14) можно представить в виде

Из этого представления следует, что

(5.15)

Так как характерный фактор присущ только данной )-й переменной и некоррелирован с общими факторами, тои выражение (5.15) можно упростить:

Дальнейшее упрощение может быть получено для некоррелированных общих факторов, когда и, тогда

В этом случае дисперсия признакаравна сумме относительных вкладов в дисперсию этого признака каждого из т общих и одного характерного фактора.

Компонент общей дисперсииназывается общностью показателя Zj, т.е. суммой относительных вкладов всех т общих факторов в дисперсию признака Zj. Вклад в дисперсию признака z) характерного фактора Vj, или характерность, определяется слагаемым bj. В свою очередь дисперсия характерного фактора состоит из двух составляющих: связанной со спецификой параметра Sj и связанной с ошибками измерений Еу

Если факторы специфичности Sj и ошибки Ej некоррелированы между собой, то модель факторного анализа примет вид

Вклад характерного фактора в дисперсию признака может быть представлен следующим образом:

Если выделить из дисперсии признака составляющую ошибки, то получим характеристику, называемую надежностью:

Вклад фактора /,. в суммарную дисперсию всех признаков определяется соответствующей суммой квадратов коэффициентов при нормированных значениях:

Вклад всех общих факторов в суммарную дисперсию признаков рассчитывается как сумма вкладов всех факторов:

Отношение этой суммы к размерности исходного признакового пространства

(5.16)

называют полнотой факторизации.

Исходные данные матрицы X (или Z) позволяют получить матрицу парных коэффициентов корреляции R. Для воспроизведения всех связей переменных в корреляционной матрице может быть использована матрица К = (А В):

Введем обозначение для первого слагаемого – редуцированной корреляционной матрицы: /¾ = ЛЛТ.

Матрицу ВВ' вследствие того, что В является диагональной матрицей, можно представить в виде ВВТ = В2.

Таким образом, матрица парных коэффициентов корреляции исходных показателей может быть представлена в виде суммы:

В то время как R является корреляционной матрицей с единицами на главной диагонали, матрица Rh представляет собой корреляционную матрицу с общностями на главной диагонали.

Для стандартизованных исходных признаков 7 корреляционная матрица R тождественна ковариационной матрице 2. Если рассматривать данные как выборку из генеральной совокупности, то определенная по выборочным данным матрица 2 (или К) является оценкой истинной ковариационной (корреляционной) матрицы. Несмещенная оценка может быть получена в виде

Рассчитаем редуцированную корреляционную матрицу с учетом равенства (5.4), используя для восстановления нормированных исходных признаков только общие факторы:

(5.17)

Выражение, стоящее между А и Ат, является корреляционной матрицей стохастических связей между общими факторами

При этом общее выражение для редуцированной корреляционной матрицы примет вид

Если общие факторы некоррелированы между собой, то матрица С будет единичной, и при этом

Два последних выражения представляют собой фундаментальную теорему факторного анализа.

Пример 5.2

По данным о численности (дг,) и фонде заработной платы (,v2) пяти строительных организаций [13] проведем факторный анализ методом главных компонент. Дано:

Решение

Рассчитаем выборочные характеристики переменных т, и Выборочный коэффициент корреляции равен

Преобразуем матрицу X в матрицу нормированных значений Z с элементами , где

Матрица парных коэффициентов корреляции имеет вид

Для определения собственных значений матрицы R рассмотрим характеристическое уравнение

Отсюда следует, что

Так как по условию компонентного анализа, то, где,

– соответственно дисперсии и вклад первой и второй главных компонент в суммарную дисперсию, равную

Относительный вклад компонент в суммарную дисперсию равен Таким образом,

Определим матрицу собственных векторов из уравнения Собственный векторнаходим из условия

где

Подставляя полученные значения, получим

откудаили

Нормированный собственный вектор, соответствующий, равен

Собственный вектор V2 найдем, решив уравнение

откуда.или

Нормированный собственный вектор, соответствующий Х2. равен

тогда нормированная матрица собственных векторов имеет вид

Матрицу факторных нагрузок найдем по формуле . Подставив полученные значения, получим

Матрицу факторных нагрузок используют для интерпретации главных компонент, так как элементы матрицы а}Х) = характеризуют тесноту связи между Хгм признаком и /0-й главной компонентой. В нашем примере первая главная компонента тесно связана с показателями .г, и .г2, а /, характеризует размер предприятия.

Матрицу значений главных компонент F можно получить по формуле

Предварительно найдем обратную матрицу. Так как то

Тогда

Как уже отмечалось, матрица F. которую мы получили, характеризует пять строительных организаций в пространстве главных компонент. Ее можно использовать в задачах классификации и регрессионного анализа. Например, классификация организации но первой главной компоненте /,, характеризующей размер предприятий, позволяет ранжировать их в порядке возрастания следующим образом: 4; 1:2: 5: 3. Значения главных компонент определены с точностью до знака, поэтому они могли бы оказаться противоположными для всех объектов, и проведенная ранжировка характеризовала бы размеры предприятий в порядке уменьшения. Определить правильность выбранного знака можно по значениям исходных показателей для крайних проранжированных объектов.

Пример 5.3

На основе информации о значениях семи исходных признаков получены два общих некоррелированных фактора. По известной матрице весовых коэффициентов двух общих факторов Л требуется воспроизвести редуцированную корреляционную матрицу Rh, определить редуцированную корреляционную матрицу для случая использования только первого общего фактора R1 и только второго общего фактора R" при условии, что дисперсия первого общего фактора больше, чем дисперсия второго.

Решение

1. Получим матрицу Rh.

Произведем умножение матрицы А на Ат и получим редуцированную корреляционную матрицу /?л. т.е. восстановленную из модели факторного анализа при условии, что факторы некоррелированы:

В матрице R/t на главной диагонали стоят дисперсии, представляющие общности, суммарный вклад в переменные имеющихся двух общих факторов.

2. Получим матрицу R1.

Зададимся вопросом: что было бы, если бы мы пренебрегли вторым общим фактором и провели интерпретацию на основании только первого общего фактора? Какая редуцированная корреляционная матрица R1 была бы воспроизведена?

Воспроизведенная, или редуцированная, по первому общему фактору матрица восстанавливает связи, объясняемые первым собственным вектором матрицы А. В матрице Д'на главной диагонали стоят вклады в дисперсию первого столбца фактора соответствующих переменных. Они совпадают с вкладами признаков в дисперсию первого фактора ajt.

Как первая, так и вторая воспроизведенные матрицы не отражают всей информации процесса. При этом вторая матрица R" отражает меньше информации, чем первая R1. Это объясняется тем, что R1 воспроизводит связи, соответствующие дисперсии первого фактора, которая больше дисперсии второго фактора. Однако и более полная матрица R/, не производит связей, определяемых характерными факторами, так как она объединяет весовые коэффициенты только общих факторов. Необъясненная же часть информации матрицами R/, и А приходится на характерные факторы.

При использовании факторного анализа исследователь сталкивается с различными проблемами. Наиболее часто они возникают в процессе содержательной интерпретации результатов анализа. Многие из проблем носят частный характер, не относящийся непосредственно к факторному анализу и присущий определенному классу задач, например наличие плохо обусловленных матриц парных коэффициентов корреляций, присущее классу экономико-статистических задач.

Среди проблем проведения факторного анализа можно выделить проблемы робастности, общности, выбора факторов, вращения факторов и оценки их значений и содержательной интерпретации, а также проблему построения динамических моделей.

В классическом факторном анализе на основе исходной таблицы "объект – признак" (см. табл. 5.6) формируется матрица нормированных значений исходных признаков. Опыт решения практических задач показывает, что наличие грубых ошибок данных при многомерном анализе может привести к дальнейшим трудностям. Малую чувствительность к наличию грубых ошибок данных обеспечивают робастные оценки параметров: среднего значения и дисперсии или среднего квадратического отклонения.

Рассчитываемая матрица парных коэффициентов корреляции является симметрической матрицей порядка к. Она является диагональной, и на се главной диагонали стоят единицы, соответствующие дисперсиям исходных нормированных показателей. Данная матрица R является исходной для проведения компонентного анализа. Для факторного анализа необходимо получить редуцированную матрицу /?/,.

Редуцированная корреляционная матрица /¾ служит основной для факторного анализа. Она также является симметрической порядка k, но на ее главной диагонали вместо единиц стоят общности hj. На основе этой матрицы рассчитывается матрица весовых коэффициентов Л. Ее элементы являются характеристиками стохастической связи между исходными признаками и общими факторами.

При переходе от редуцированной корреляционной матрицы к матрице весовых коэффициентов необходимо решить проблему нахождения факторов, включающую вопросы определения числа извлекаемых общих факторов и их вида. Значения весовых коэффициентов являются координатами признаков на новых осях координат. Этими координатными осями являются общие факторы. Чаще всего для их нахождения используется метод главных компонент.

Задача воспроизведения матрицы /?>, по матрице А не имеет однозначного решения. Выбор одной из возможных матриц является составной частью решения задачи вращения координатных осей.

После получения новой интегральной системы измерения – общих факторов – можно оценить значения индивидуальных факторов для каждого объекта исследования.

Сопоставление факторных решений в течение длительного периода обеспечивается динамическим моделированием, позволяющим выявить те признаки, влияние которых в будущем будет снижаться или, наоборот, возрастать.

 
<<   СОДЕРЖАНИЕ   >>