Определение вида зависимости между переменными

Исследуем зависимость результативной переменной у от объясняющих переменных, аргументов х(/ = 1, 2,k).

Пусть имеются данные п наблюдений, причем каждое i наблюдение характеризуется значениями переменных (yr хп, xj2, ..., Хф ..., xik)y где х$ — значение j-й переменной для г-го наблюдения (i = 1, 2,..., п), ух — значение результативного признака для г-го наблюдения.

Наиболее часто строят множественное линейное уравнение регрессии вида

Отметим, что последнее уравнение справедливо для всех i = 1,2, ..., п, линейно относительно неизвестных параметров р0, (3t, ..., fy, ..., (3* и аргументов.

Уравнение регрессии характеризует функциональную зависимость среднего значения результативного признака у от аргументов х, где j = 1,2,..., k.

Как следует из (6.5), коэффициент регрессии (3у показывает, на какую величину в среднем изменится результативный признак г/, если переменную Xj увеличить на единицу его измерения при неизменных значениях остальных аргументов, т.е. является нормативным коэффициентом.

Чтобы убедиться в этом, достаточно кХ:1} в уравнение (6.5) прибавить единицу и убедиться, что среднее значение у. изменится на величину (3;.

В матричной форме уравнение регрессии имеет вид

Здесь Y — вектор-столбец размерности (п • 1) модельных значений результативного признака (yv ..., у.у ..., уп) X — матрица размерности [п(k + 1)] наблюдаемых значений х^ аргументов, где г = 1,2,..., nj- 0, 1, 2,..., k xi0 = 1; (3 — вектор-столбец размерности [(& + 1) • 1] неизвестных, подлежащих определению параметров (коэффициентов регрессии) модели, где

Единицы в первом столбце матрицы X призваны обеспечить наличие свободного члена в модели (6.5). Предполагается, что существует переменная х0, которая во всех наблюдениях принимает значения, равные единице. На практике рекомендуется, чтобы п превышало к не менее чем в три раза.

Задача заключается в нахождении по данным объемом п, неизвестных коэффициентов регрессии (30, Р1;..., |ф; модели (6.5) или вектора Р в (6.6).

Для оценки вектора Р наиболее часто используют метод наименьших квадратов (МНК), согласно которому в качестве оценки вектора Р принимают вектор Ь, минимизирующий сумму квадратов отклонения наблюдаемых значений //, от модельных значений т.е. квадратичную форму

Наблюдаемые и модельные значения показаны на рис. 6.1.

Наблюдаемые и модельные значения результативной величины у

Рис. 6.1. Наблюдаемые и модельные значения результативной величины у

Дифференцируя с учетом (6.6) и (6.5) квадратичную форму Q но (30, Pj, ..., Р/; и приравнивая производные нулю, получим систему нормальных уравнений

решая которую и получаем вектор Ь, где b = (Ь0, Ьь ..., Ьк)т.

Согласно методу наименьших квадратов вектор оценок коэффициентов регрессии получается по формуле

— транспортированная матрица X, (ХТХ)~Х — матрица, обратная матрице ХТХ.

Зная вектор оценок коэффициентов регрессии b, рассчитаем оценку у. уравнения регрессии:

или в матричном виде:

>

где Y = (yv у2, уп)т.

Одним из основных препятствий эффективного применения множественного регрессионного анализа считается мультиколлинеарность, связанная с линейной зависимостью между аргументами х{> х2,xk. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (ХТХ) становятся слабообусловленными, т.е. их определители близки к нулю.

Это вызывает неустойчивость оценок коэффициентов регрессии (6.7), так как в них входит обратная матрица (ЛТХ)-1; получение последней связано с делением на определитель матрицы |ХГХ|. Мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности, как правило, судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. | г, | > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать только один из показателей X: или хе.

Пример 6.2

По данным годовых отчетов десяти (п = 10) машиностроительных предприятий проведите регрессионный анализ зависимости производительности труда у (млн руб./ чел.) от объема производства х (млрд руб.). Предполагается линейная модель, т.е.

У = Р„ + Р,*.

Исходная информация для анализа и результаты расчетов

1

2,1

3

2,77

-0,67

2

2,8

4

3,52

-0,72

3

3,2

5

4,27

-1,07

4

4,5

5

4,27

0,23

5

4,8

5

4,27

0,53

6

4,9

5

4,27

0,63

7

5,5

6

5,02

0,48

8

6,5

7

5,77

0,73

9

12,1

15

11,75

0,35

10

15,1

20

15,50

-0,4

Решение. Определим вектор оценок b коэффициентов регрессии. Согласно методу наименьших квадратов, вектор Ь получается из выражения:

Воспользовавшись правилами умножения матриц, будем иметь

В матрице (Х'Х) число 10, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы X1 и 1-го столбца матрицы X. Число 75, лежащее на пересечении 1-й строки и 2-го столбца — как сумма произведений элементов 1-й строки матрицы XJ и 2-го столбца матрицы X и т.д.:

Найдем обратную матрицу

Тогда вектор оценок коэффициентов регрессии а оценка уравнения регрессии:

Перейдем к статистическому анализу полученного уравнения регрессии: исследо-

у — у

ванию абсолютных е. = у. - yt и относительных 8, = ' ‘ 1 • 100% ошибок аппрок

симации.

Предварительно определим вектор модельных значений результативного показателя у:

Тогла <г,т = (Y - Y)T(Y - Y) = ?(*/,. - у,)2 = 3,9847314.

1=1

Откуда несмещенная оценка остаточной дисперсии а оценка срсднсквадратическогп птк-ппнрнмя-

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >