Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

5.2. Компонентный анализ

Компонентный анализ является одним из основных направлений снижения размерности. Он позволяет получить новый ортогональный базис для отображения данных об объектах исследования. Компонентный анализ реализуется с помощью метода главных компонент, который предполагает формирование новых признаков, являющихся линейными комбинациями исходных переменных, причем эти линейные комбинации определяются характеристическими векторами ковариационной матрицы.

В рамках статистического подхода задача метода главных компонент состоит в переходе от многомерных распределений исходных признаков к распределениям новых некоррелированных признаков меньшей размерности, имеющих максимально возможную дисперсию, что должно обеспечить сохранение основной информации, содержащейся в исходных статистических данных. С позиций другого, не статистического, подхода к анализу данных метод главных компонент обеспечивает получение наилучшей проекции точек из исходного пространства переменных в новое ортогональное пространства меньшей размерности.

Наиболее распространенной моделью, являющейся основой многих методов многомерного статистического анализа, является многомерное нормальное распределение, которое часто служит наилучшим приближением к действительному распределению в практике исследований в различных областях знания. Это объясняется центральной предельной теоремой теории вероятностей, согласно которой предельным распределением суммы одномерных независимых примерно равноценных случайных величин является одномерный нормальный закон, а предельным распределением в случае множества признаков является многомерное нормальное распределение. При определенных условиях удачный выбор новой системы координат позволяет наиболее экономным способом выявить некоторые важные для исследователя свойства многомерной случайной совокупности. Выделение главных компонент является примером построения такой нормализованной линейной комбинации случайных величин, чтобы ее дисперсия была максимальной или минимальной. Это равноценно поворот)' осей в многомерной системе координат исходных признаков, который приводит ковариационную матрицу к диагональной форме. Для решения подобных задач требуется определение характеристических векторов и характеристических корней различных систем линейных алгебраических уравнений.

Плотность вероятности k-мерного нормального распределения вектора анализируемых признаков X с вектором математических ожиданий р и ковариационной матрицей Σ, обозначаемого как, описывается выражением

(5.1)

где– определитель ковариационной матрицы

В многомерном распределении ковариационная матрица играет роль обобщенной дисперсии, которую можно выразить через дисперсии отдельных признаков aj =о^ и коэффициенты корреляций между i-м и j-м признаками р,у. Эти величины, как правило, неизвестны и оцениваются на основе статистических данных.

Как очевидно из формулы (5.1), условием постоянства плотности вероятности р является постоянство квадратичной формы

(5.2)

Формула (5.2) представляет собой уравнение многомерного эллипсоида с центром в точке с координатами р. Форма и положение эллипсоида определяются ковариационной матрицей I. После перехода к стандартизованным признакам Zj посредством центрирования и нормирования исходных признаков

(5.3)

квадратичная форма (5.2) примет вид zrR~'z. В случае когда размерность признакового пространства k = 2, центр эллипса лежит в начале координат и уравнение примет вид

Если корреляция признаков г, и г2 отсутствует (р = 0), то эллипс вырождается в окружность. Наличие корреляции (р * 0) приводит к повороту осей эллипса соответственно на 45° или -45° относительно оси г, в зависимости от знака коэффициента корреляции р. Длины большой и малой полуосей при этом равны соответственно, а размеры сечений по осям координат одинаковы (be = de), так как они пропорциональны единичным средним квадратическим отклонениям нормированных признаков г( и г2 с одним и тем же коэффициентом пропорциональности, определяемым параметром эллипса с (рис. 5.1).

Сечение плотности вероятности двумерного нормального распределения стандартизованных коррелированных признаков

Рис. 5.1. Сечение плотности вероятности двумерного нормального распределения стандартизованных коррелированных признаков

Переход от координат (г,, г2) к исходным координатам (.г,, х2) в соответствии с соотношением (5.3) определяется выражением

В результате происходят перенос центра эллипса в точку (щ, р2) и растяжение эллипса вдоль осей дг, и х2 соответственно в о, и ст2 раз, что приводит к соответствующему повороту его осей.

Главные компоненты /1 и/2 образуют систему ортогональных координат, направленных вдоль осей эллипса (рис. 5.2).

Сечение плотности вероятности двумерного нормального распределения главных компонент

Рис. 5.2. Сечение плотности вероятности двумерного нормального распределения главных компонент

Модель метода главных компонент представляет каждый из исходных нормированных признаков г, в виде линейной комбинации всех новых ортогональных признаков /,:

где Uji – весовой коэффициент /-й компоненты в формировании j-й переменной.

В целом вектор г всех к нормированных признаков в матричной форме можно представить в виде

(5.4)

Он выражается через матрицу факторных нагрузок Л = (я,у), каждый элемент которой а,у представляет собой вес j- го фактора в еый переменной.

Множество главных компонент представляет собой удобную систему координат, а дисперсии главных компонент характеризуют их статистические свойства. Исходные признаки однозначно определяют главные компоненты, а по всем главным компонентам можно однозначно восстановить исходные признаки.

Для решения задачи снижения размерности из общего числа главных компонент, как правило, оставляют т компонент (т < к), вносящих максимальный вклад в объясняемую часть общей дисперсии. Размерность достаточно большого признакового пространства обычно сокращается до т~(0,1 +0,25)к [13]. Несмотря на то что для точного воспроизведения исходных признаков необходимо использовать все компоненты, большая доля их дисперсии часто объясняется сравнительно небольшим числом главных компонент. Если используются не все главные компоненты, то достижимая точность восстановления определяется долей сохраненной информации или ее потерей за счет редукции признакового пространства.

Для получения матрицы весовых коэффициентов в компонентном анализе удобно использовать матрицу R парных коэффициентов корреляции исходных признаков, которая, как известно, для стандартизованных признаков совпадает с их ковариационной матрицей. Так как матрица R является симметричной и положительно определенной, то существует ортогональная матрица U такая, что

Все элементы матрицы Л положительны (А;- > 0) и представляют собой собственные значения, или характеристические корни, матрицы R:

Для удобства собственные значения обычно располагают в порядке убывания:

Если вектор исходных признаков распределен нормально, то и вектор главных компонент, являющийся его линейным преобразованием, также подчинен нормальному закону распределения. В таком случае взаимосвязи между признаками определяются ковариационной матрицей X, диагональные элементы которой являются дисперсиями, а недиагональные элементы – соответствующими ковариациями признаков.

С помощью строк и столбцов ортогональной матрицы U перейдем от нормированных исходных признаковк вектору новых переменных:

(5.5)

При этом обратный переход определяется выражением

Элементы векторов г/ и /; представляют собой соответственно l-ю исходную нормированную и l-ю преобразованную переменные. Обозначим ut и uj соответственно 1-й столбец и l-ю строку ортогональной матрицы U.

Вектор ил выбирается таким образом, чтобы дисперсия f была максимальной. После получения вектора и{ формируется вектор и2 таким образом, чтобы дисперсия /2 была максимальной при условии, что вектор /2 не коррелирован с /,. Эта процедура последовательно проводится для каждого //, / = 1,2 k, таким образом, чтобы его дисперсия была максимальной при условии отсутствия корреляции со всеми ранее сформированными переменными fjj = 1,2,...,/-1.

Обозначим невырожденную ковариационную матрицу X, а дисперсию переменной /; – А/. Из соотношения (5.5) следует, что элемент J вектора / равен fi = и] г, а А/ является собственным значением, которому соотвстствует собственный вектор щ. Поэтому будет справедливо характеристическое уравнение (I – X/E)U/ = 0, или

(5.6)

После умножения обеих частей уравнения (5.6) слева на и[ получим

Так как норма вектора-столбца ортогональной матрицы U равна единице (u[ut) = i и, соответственно,

(5.7)

то 1-е собственное число может быть выражено через соответствующий ему собственный вектор и ковариационную матрицу исходных признаков:

Вследствие некоррелированности fi и f и["Luq = 0 при / * q. Следовательно, матрица A = UT2.U является диагональной с элементами Л, >Х2^...^Я^, являющимися соответствующими собственными значениями собственных векторов и/, I = 1,2 к.

Удобно для практических целей масштабировать каждый из собственных векторов fi таким образом, чтобы его дисперсия была единичной, для чего необходимо разделить его на квадратный корень из соответствующего собственного числа :

В целом вектор всех к главных компонент определяется выражением

После умножения на UAt/2 слева имеем

и получаем выражение, определяющее взаимосвязь вектора стандартизованных исходных признаков и вектора главных компонент:

(5.8)

Сравнивая соотношения (5.4) и (5.8), получаем выражение для матрицы факторных нагрузок:

Выражение для г-го столбца матрицы весовых коэффициентов будет иметь вид

(5.9)

Используя выражение (5.9), определим норму вектора весовых коэффициентов аг:

откуда с учетом равенства (5.7) следует, что

(5.10)

а также

(5.11)

С учетом соотношений (5.10) и (5.11) получаем, что следы матриц X и Л равны. Если исходные данные нормированы, т.е. вместо матрицы исходных данных но результатам п наблюденийанализ проводится на основе матрицы, тогда X = R. След корреляционной матрицы R вследствие равенства единице каждого из к ее диагональных элементов равен размерности признакового пространства (trR = к).

В методе главных компонент элемент матрицы А является коэффициентом корреляции между переменной Zj (а следовательно, и Xj) и главной компонентой fr Возникает естественный вопрос: не изменяются ли сумма дисперсий исходных показателей (дисперсия процесса) и обобщенная дисперсия в результате ортогональных преобразований?

Можно показать, что ортогональное преобразование z = Cf случайного центрированного вектора / оставляет инвариантной обобщенную дисперсию – определитель ковариационной матрицы – и сумму дисперсий компонент. Так как вектор / центрирован, его математическое ожидание равно нулевому вектору М/ = 0, где 0 = (0 0 ... 0)г, поэтому его ковариационная матрица представляет собой математическое ожидание произведения самого вектора / и результата его транспонирования: MzzT = X. Следовательно,

Обобщенная дисперсия вектора z равна |б'ХСг| =|с||х||с'7 | = |х| и совпадает с обобщенной дисперсией вектора/. Сумма дисперсий компонент вектора z составит

Следовательно, обобщенная дисперсия вектора главных компонент равна обобщенной дисперсии исходного вектора, а сумма дисперсий главных компонент равна сумме дисперсий исходных величин.

Главные компоненты ортогональны между собой, поэтому полная дисперсия у-го признака равна

где – доля полной дисперсии j-го признака, вносимая r-й главной компонентой.

На практике обычно оставляют наиболее весомую часть главных компонент. Вкладом остальных компонент в этом случае сознательно пренебрегают, так как каждая из них вносит малую долю в общую дисперсию изучаемого процесса. Суммарная доля дисперсий т извлеченных главных компонент в дисперсии всех признаков равна сумме т соответствующих им собственных чисел .

Долю этой дисперсии в суммарной дисперсии всех признаков называют показателем факторизации.

Если известна выборочная ковариационная (или корреляционная) матрица, то можно получить матрицу А, элементы которой учитывают тесноту стохастической связи между признаками и главными компонентами. Зная весовые коэффициенты, можно редуцировать ковариационную или корреляционную матрицу, а также диагональную матрицу Л до размерности, при которой потери исходной информации не превышают допустимых.

Пример 5.1

Рассмотрим снижение размерности и преобразование признакового пространства при построении регрессионной модели урожайности зерновых культур [29]. Поданным 20 сельскохозяйственных районов региона требуется построить регрессионную модель урожайности. Исходные данные приведены в табл. 5.1.

Таблица 5.1

Исходные данные для построения регрессионной модели урожайности

I

1

9.70

1.59

0,26

2,05

0,32

0,14

2

8.40

0.34

0,28

0,46

0,59

0,66

3

9.00

2,53

0,31

2,46

0,30

0,31

4

9.90

4.63

0,40

6,44

0,43

0.59

5

9.60

2.16

0,26

2,16

0,39

0.16

6

8.60

2,16

0,30

2,69

0,32

0,17

7

12.50

0,68

0,29

0,73

0,42

0.23

8

7.60

0,35

0,26

0.42

0,21

0.08

9

6.90

0,52

0,24

0,49

0.20

0.08

10

13,50

3,42

0,31

3,02

1,37

0.73

11

9,70

1,78

0,30

3,19

0,73

0.17

12

10,70

2,40

0,32

3.30

0.25

0.14

13

12,10

9,36

0,40

11,51

0,39

0.38

14

9,70

1.72

0,28

2,26

0,82

0.17

15

7,00

0,59

0,29

0.60

0.13

0.35

is

7,20

0,28

0,26

0,30

0.09

0,15

17

8,20

1,64

0,29

1,44

0,20

0.08

18

8,40

0,09

0.22

0,05

0.43

0,20

19

13.10

0.08

0,25

0,03

0.73

0.20

20

8.70

1.36

0,26

1,17

0.99

0.42

Для анализа используются следующие показатели:

  • урожайность зерновых культур, ц/га;
  • число колесных тракторов (приведенной мощности) на 100 га:
  • число зерноуборочных комбайнов на 100 га;
  • число орудий поверхностной обработки почвы на 100 га;
  • количество удобрений, т/га:
  • количество химических средств оздоровления растений, ц/га.

Решение

Предварительно с целью анализа взаимосвязи показателей построим таблицу парных коэффициентов корреляции R (табл. 5.2).

Таблица 5.2

Матрица парных коэффициентов корреляции

У

У

1,00

0,43

0.37

0,40

0,58

0,33

0,43

1,00

0,85

0,98

0,11

0,34

0,37

0,85

1.00

0,88

0,03

0,46

0,40

0,98

0.88

1,00

0,03

0.28

0,58

0,11

0,03

0,03

1,00

0,57

0,33

0,34

0,46

0,28

0,57

1.00

Анализ матрицы парных коэффициентов корреляции показывает, что результативный показатель наиболее тесно связан с показателем дг4 – количеством удобрений, расходуемых на 1 га (ryXi =0,58).

В то же время связь между признаками-аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (д ,) и числом орудий поверхностной обработки почвы (дг3) – rXfX3 =0,98.

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции rXiX2 = 0,85 и гХзХ2 = 0,88. Учитывая тесную взаимосвязь показателей xit х2 и .v3, в регрессионную модель урожайности следует включить один из них.

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим регрессионную модель урожайности, включив в нее все исходные показатели:

В скобках указаны расчетные значения /-критерия для проверки значимости коэффициентов регрессии.

Под уравнением регрессии представлены следующие его параметры адекватности: множественный коэффициент детерминации Щ. исправленная оценка остаточной дисперсии s2, средняя относительная ошибка аппроксимации 8 и расчетное значение ^-критерия Flia6r

Уравнение регрессии значимо, так как FHa6l > FK_ =2,85, найденного по таблице F-распределения на уровне значимости а = 0,05 при числе степеней свободы числителя и знаменателя соответственно v, =6 и v2 = 14. Из значимости этого уравнения следует, что объясняющие переменные Xj,j = 1,2,...,5, с вероятностью не ниже (1-а) = 0,95 оказывают влияние на зависимую переменную.

Для проверки гипотезы о значимости отдельных коэффициентов регрессии Я0: Р, =0, 7 = 1,2,...,5, сравним критическое значение tKp = 2,14, найденное по таблице ^-распределения Стьюдента на уровне значимости а = 0,05 при числе степеней свободы v = 14, с расчетными значениями t-статистик t = bj/sh . Из уравнения со всеми исходными показателями следует, что статистически значимым является коэффициент регрессии только при хА, так как |t4| = 2,91 >tKT =2,14.

Не поддаются экономической интерпретации отрицательные знаки коэффициентов регрессии при .v, и дг5, из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (л,) и средствами оздоровления растений (д*5) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

Для получения уравнения регрессии со всеми значимыми коэффициентами используем пошаговый алгоритм регрессионного анализа. Первоначально используем пошаговый алгоритм с исключением переменных.

Исключим из модели переменную д,. коэффициенту при которой соответствует минимальное по абсолютной величине значение t-статистики |t,| = 0,01. Для оставшихся переменных вновь построим уравнение регрессии:

Полученное уравнение значимо так как > /7 = 2,90, найденного по таблице ^-распределения на уровне значимости а = 0,05 при числе степеней свободы числителя и знаменателя соответственно v, = 5 и v2 = 15. Однако в уравнении значим только коэффициент регрессии при дг4. Модули расчетных значений t-статистнк для остальных коэффициентов меньше tKp = 2,131, найденного по таблице t-распределения при а = 0,05 и v = 15.

Исключив из модели переменную д*3, которой соответствует минимальное значение t3 = 0,35, получим уравнение регрессии

В полученном уравнении статистически незначим и не интерпретируем коэффициент при х5. Исключив переменную лг5, получим уравнение регрессии

Мы получили значимое уравнение регрессии со значимыми и интерпретируемыми коэффициентами при регрессорах.

Однако данное уравнение является не самой лучшей моделью урожайности для приведенного примера.

Покажем, что в условиях мульти коллинеарности пошаговый алгоритм с включением переменных является более эффективным. На первом шаге в модель урожайности включим объясняющую перемен ну ю.г4, имеющую самый высокий коэффициент корреляции с зависимой переменной у, равный 0,58 (см. табл. 5.2). На втором шаге, включая в уравнение наряду c.v4 поочередно переменные хх и .v3, получаем модели, которые по экономическим соображениям и статистическим характеристикам превосходят полученные ранее:

Включение в эти уравнения дополнительно любой из трех оставшихся переменных ухудшает их свойства.

Таким образом, получены три приемлемые модели урожайности, из которых нужно по экономическим и статистическим соображениям выбрать наилучшую.

По статистическим критериям наиболее адекватна первая из двух последних моделей. Ей соответствуют минимальные значения остаточной дисперсии и средней относительной ошибки аппроксимации, а также наибольшие значения коэффициента детерминации и /•'-статистики. Несколько худшими показателями обладает последняя модель, затем следует модель, полученная методом пошагового исключения переменных.

Сравним модели, полученные методом пошагового включения переменных. Они отличаются друг от друга одним регрессором. Наряду с общим для них фактором xi второй объясняющей пере менной в одной модели является д*,, а в другой – х3. Однако в модели урожайности переменная Х (число колесных тракторов на 100 га) более предпочтительна, чем переменная дг3 (число орудий поверхностной обработки почвы на 100 га), которая является в некоторой степени вторичной по отношению к д*,. В связи с этим из экономических соображений предпочтение следует отдать модели с регрессорами х{ и л*.

Таким образом, после реализации алгоритма пошагового регрессионного анализа выбираем окончательное уравнение регрессии

(5.12)

Уравнение значимо при а = 0,05, так как Flia6jI = 266 > FKp = 3,20, найденного по таблице F-распределения при а = 0,05, Vj = 3 и v2 = 17. Значимыми являются и все коэффициенты при регрессорах. Коэффициент регрессии 0, следует признать значимым (0, * 0) из экономических соображений, при этом t] = 2.09 лишь незначительно меньше Гк.р(а = 0,05; v = 17) = 2,11.

Из построенной регрессионной модели следует, что увеличение на единицу числа тракторов на 100 га пашни приводит (при фиксированном значении количества удобрений) к росту урожайности зерновых в среднем на 0,345 ц/га.

Расчет средних коэффициентов эластичности и показывает, что при увеличении факторов х{ или дг4 на 1% при фиксированном значении остальных факторов урожайность зерновых повышается в среднем соответственно на 0,068 и 0,161%.

Множественный коэффициент детерминации свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедшими в модель факторами л*, и хА, т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (дг2, .г3, дг3), погодными условиями, особенностями почвы и др. Средняя относительная ошибка аппроксимации 8 = 10,5% и величина остаточной дисперсии s2 = 2,32 характеризуют адекватность модели.

При интерпретации уравнения регрессии интерес представляют значения относительных ошибок аппроксимации. Модельное значение у, результативного показателя характеризует среднее для совокупности рассматриваемых районов значение урожайности при условии, что значения объясняющих переменных х{ и х^ зафиксированы на одном и том же уровне, а именно л*, = дгд и xi = xl4. Тогда но значениям 8, можно сопоставлять районы по урожайности. Районы, которым соответствуют значения 8, > 0, имеют урожайность выше средней, а 8, < 0 – ниже средней.

В нашем примере но урожайности растениеводство наиболее эффективно ведется в седьмом районе, которому соответствует б7 = 28%, т.е. урожайность в нем на 28% выше средней по региону, а наименее эффективно – в 20-м районе с

Более рациональным в условиях мультиколлинеарности может оказаться построение уравнения регрессии на главных компонентах, которые являются линейными функциями от всех исходных показателей и некоррелированы между собой. Исходной для компонентного анализа является матрица X, имеющая размерность 20x5, т.е. матрица, полученная из табл. 5.1 отбрасыванием двух первых столбцов.

Воспользовавшись методом главных компонент, найдем собственные значения и на их основе вклад главных компонент в суммарную дисперсию исходных показателей(табл. 5.3).

Таблица 5.3

Собственные значения главных компонент

Главные компоненты (Л)

/,

Л

Л

Собственные значения (Лу)

3.04

1,41

0.43

0.10

0,02

Вклад v-й главной компоненты в суммарную дисперсию, %

60.8

28,2

8.6

2.0

0.4

Суммарный вклад первых гп главных компонент, %

60.8

89,0

97.6

99,6

100,0

Ограничимся экономической интерпретацией двух первых главных компонент, общий вклад которых в суммарную дисперсию составляет 89,0%. В матрице факторных нагрузок

жирным шрифтом выделены элементы л^ = гху, учитывающиеся при интерпретации главных компонент /ч„ где j, V = 1,2 5.

Из матрицы факторных нагрузок Л следует, что первая главная компонента наиболее тесно связана со следующими показателями в расчете на 100 га: х{ число колесных тракторов (дп =г^ =0,95) на 100 га; х2 число зерноуборочных комбайнов ("21 яГлЛ =0,94); х-3 число орудий поверхностной обработки почвы (я3, = гх^ =0,94). В связи с этим первая главная компонента /, может быть интерпретирована как уровень механизации работ в растениеводстве.

Вторая главная компонента /2 тесно связана с количеством удобрений дг4 и средств защиты растений д:5, расходуемых на гектар. Она может быть интерпретирована как уровень химизации растениеводства.

Уравнение регрессии на главных компонентах строится поданным вектора значений результативного показателя у и матрицы значений нормированных компонент F, представленных в табл. 5.4.

Таблица 5.4

Значения нормированных главных компонент

1

9.70

-0,42

-0,52

-0,46

-0,95

0.76

2

8.40

-0.09

1.52

2.18

-0,88

1.42

3

9.00

0.27

-0,35

0.72

0.02

-1,49

4

9.90

1,98

-0,03

1,70

1,35

0,88

5

9,60

-0.29

-0,38

-0,69

-1,28

-0,33

6

8,60

0,04

-0,64

-0,13

0,47

-0,20

7

12,50

0,40

-0,01

0,37

1,24

-0,51

8

7,60

-0,89

-0,70

0,02

0,24

-0,11

9

6,90

-1,00

-0,68

-0,18

-0,95

0.18

10

13,50

1,15

2,79

-0,44

-0,31

-0,81

11

9,70

0,14

0,17

-1,33

1,59

2,01

12

10,70

0,24

-0,97

-0,03

1,22

-0,06

13

12,10

3.08

-1,35

-0,96

-1,74

0,02

14

9,70

-0,09

0,48

-1,64

1,01

0,59

15

7.00

-0,38

-0,26

1,90

-0,01

-0,27

16

7,20

-0,87

-0,74

0,78

-0,35

-0.01

17

8,20

-0,37

-0,96

-0,07

0,74

-1,82

18

8,40

-1,08

0,21

-0,25

-1,71

1,24

19

13,10

-0,80

0,73

-0,86

0,59

0,46

20

8,70

-0,24

1,70

-0,63

-0,27

-1,93

Значения ненормированных главных компонентможно получить из значений нормированных главных компонент //Чг по формуле

Некоррелированность главных компонент между собой и тесноту их связи с результативным показателем у показывает матрица парных коэффициентов корреляции (табл. 5.5).

Таблица 5.5

Матрица парных коэффициентов корреляции главных компонент

-

Y

1,00

0,48

0,34

-0,37

0,18

0,01

/,

0,48

1,00

0,00

0,00

0.00

-0,00

Л

0,34

0,00

1,00

-0.00

0.00

-0,00

/,

-0.37

0.00

-0,00

1,00

0.00

-0,00

Л

0.18

0,00

0,00

0,00

1,00

-0,00

0,01

-0,00

-0.00

-0,00

-0,00

1,00

Из матрицы парных коэффициентов корреляции следует, что зависимая переменная у наиболее тесно связана с первой у< = 0,48), третьей {ryj = -0,37) и второй (ryf2 =0,34) главными компонентами. Можно предположить, что только эти главные компоненты войдут в регрессионную модель.

Первоначально в модель у включим все главные компоненты:

В скобках указаны расчетные значения ^-критерия.

Качество модели характеризуют множественный коэффициент детерминации ', средняя относительная ошибка аппроксимации, остаточная дисперсия 52 = 1,79 и F}ia6jl =121.

Ввиду того что (а = 0,05; v, = 6; v2 = 14) =2,85, уравнение регрессии значимо, следовательно, хотя бы один из коэффициентов регрессии Р,. Р2- Рз* Pi или 05 не равен нулю. Учитывая, что главные компоненты некоррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид

Сравнив это уравнение с предыдущим, можно сделать вывод о том, что исключение незначимых главных компонент /4 и /5 не отразилось на значениях коэффициентов уравнения. Это обусловлено некоррелированностью главных компонент. Уравнение значимо, так как FHa6l = 194 > FKр(ос = 0,05; Vj = 4; v2 = 16) = 3,01. Значимы и все коэффициенты уравнения, так как Ы > £кр(а = 0,01; v = 16) = 1,746, j = 0, 1, 2,3. Коэффициент детерминации Щ = 0,486 показывает, что 48,6% дисперсии зависимой переменной обусловлено влиянием трех первых главных компонент. Уравнение характеризуется средней относительной ошибкой аппроксимации 6 = 10,0% и остаточной дисперсией s2 = 1,91.

Уравнение регрессии на главных компонентах обладает несколько лучшими аппроксимирующими свойствами по сравнению с регрессионной моделью но исходным показателям. Кроме того, в этом уравнении главные компоненты являются линейными функциями всех исходных показателей, в то время как в конечное уравнение регрессии по исходным признакам входят только две переменные (.г, и лг4). Приходится учитывать, что модель регрессии на главных компонентах трудно интерпретируема, так как в нее входит третья главная компонента /3, которая не интерпретируема. Ее вклад в суммарную дисперсию исходных показателей (л*,, х2 л'5) составляет 8,6%. Однако исключение/3 из уравнения значительно ухудшает аппроксимирующие свойства модели из-за снижения коэффициента детерминации до величины 0,349 и увеличения средней относительной ошибки аппроксимации до 12,4% и выборочной дисперсии – до 2,41. Поэтому в качестве регрессионной модели урожайности целесообразно выбрать уравнение (5.12) с регрессорами .v, и д*4.

 
<<   СОДЕРЖАНИЕ   >>