Полная версия

Главная arrow Математика, химия, физика arrow БИОМЕТРИЯ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Ошибки коэффициентов регрессии

Надежность получаемых по уравнению регрессии расчетных значений во многом определяется рассеянием наблюдений вокруг линии регрессии, т. е. остатков, которые определены как разность между наблюдаемыми значениями и прогнозируемыми, полученными с помощью расчетного уравнения регрессии:

где у, — наблюдаемая величина; yi — соответствующая прогнозируемая величина.

В качестве меры рассеяния служит дисперсия s2 относительно регрессии:

где s2 — выборочная оценка дисперсии; п - 2 — число степеней свободы. Сумму квадратов отклонений фактических наблюдений от линии регрессии можно определить по формуле

Дисперсия коэффициента регрессии Ъ равна следовательно,

Значимость коэффициентов регрессии можно проверить с помощью обычной схемы проверки статистических гипотез. При этом предполагается, что отклонение от регрессии следует нормальному распределению. В парной линейной регрессии проверяется значимость коэффициента Ъ. Нулевая гипотеза имеет вид Н0: (3 = 0. Проверка осуществляется

при помощи нормированного отклонения t* =—. Если t* > ta (t — рас-

пределения Стьюдента) с числом степеней свободы v = п - 2, то нулевая гипотеза отклоняется. Это свидетельствует о том, что между соответствующими переменными существует линейная зависимость.

В нашем примере получена регрессия

По приведенным выше формулам находим ошибку коэффициента регрессии и его значимость. По данным этого примера находим:

Далее находим дисперсию относительно регрессии:

Квадратическая ошибка коэффициента регрессии: следовательно,

Критическое значение ta при числе степеней свободы равном 14 (ta оо5 = 2.1), т. е. меньше расчетного. Поэтому гипотеза Н0 отклоняется. Из этого следует, что между обхватом груди и живой массой свиноматок, применительно к нашему примеру, существует линейная зависимость.

Множественная линейная регрессия

Зависимость между несколькими переменными величинами можно выразить уравнением множественной регрессии. Для двух независимых переменных (х и z) уравнение регрессии имеет вид

где a — свободный член уравнения, b и с — параметры уравнения. Параметры этого уравнения можно найти, применяя способ наименьших квадратов:

Для составления системы уравнений необходимо по эмпирическим данным предварительно рассчитать следующие величины: Ху> Х2>

Iх2,5>2, ^ху, Хх2> Ху2-

Пример. Необходимо найти эмпирическое уравнение регрессии между живой массой у, высотой в холке х и обхватом груди z у 25 коров симментальской породы. Эмпирические исходные данные приведены в табл. 6.12. Необходимые суммы из этой таблицы надо подставить в уравнения системы:

Таблица 6.12

Живая масса, высота в холке и обхват груди у коров симментальской породы

У

X

2

У*

У2

xz

У

у-у

600

135

193

81 000

115 800

26 055

628,6068858

-28,60688579

680

141

200

95 880

136 000

28 200

667,0086309

12,99136907

650

134

194

87 100

126 100

25 996

627,6210796

22,37892035

630

137

189

86 310

119 070

25 893

625,5805122

4,419487824

600

132

188

79 200

112 800

24 816

605,6575238

-5,6575238

700

142

216

99 400

151 200

30 672

710,4773171

-10,47731715

680

140

202

95 200

137 360

28 280

668,5218177

11,47818227

590

135

195

79 650

115 050

26 325

633,6048717

-43,60487168

661

136

197

89 896

130 217

26 792

642,0876567

18,91234334

610

132

185

80 520

112 850

24 420

598,160545

11,83945504

630

134

199

84 420

125 370

26 666

640,1160444

-10,11604438

580

131

189

75 980

109 620

24 759

604,6717177

-24,67171766

680

139

208

94 520

141 440

28 912

680,0309763

-0,030976322

615

130

190

79 950

116 850

24 700

603,6859115

11,31408848

700

137

212

95 900

148 400

29 044

683,0573499

16,94265007

640

132

214

84 480

136 960

28 248

670,6313404

-30,6313404

680

135

207

91 800

140 760

27 945

663,592787

16,40721297

610

131

184

79 910

112 240

24 104

592,1767529

17,82324707

700

142

218

99 400

152 600

30 956

715,475303

-15,47530304

670

140

207

93 800

138 690

28 980

681,0167825

-11,01678246

630

138

192

86 940

120 960

26 496

636,5622901

-6,5622901

680

139

211

94 520

143 480

29 329

687,5279552

-7,52795516

670

135

200

90 450

134 000

27 000

646,0998364

23,90016359

740

138

215

102 120

159 100

29 670

694,0391279

45,96087214

640

139

200

88 960

128 000

27 800

660,0390328

-20,03903275

  • 3) п = 25; Ху = 16 266; X* = 3404; X* =5005; X*2 = 463 800;
  • 4) X*2 = 1 004 583; ^ху=2 217 306; Х** = 682 058; Ху*= 3 264 917. Решаем эту систему относительно параметров а,Ьис путем деления

каждого уравнения на коэффициент при а. Получим:

Затем, вычитая первое уравнение из второго, а второе из третьего, получим:

Далее разделим каждое из этих уравнений на коэффициент при b и определим разность между полученными уравнениями:

Из разности уравнений:

Подставив в одно из уравнений значение с, находим: т. е. откуда

Для нахождения а в первое исходное уравнение вместо Ъ и с подставим их значения:

Отсюда

Уравнение регрессии имеет вид

Поскольку переменные х и z измеряются в одних и тех же единицах (в данном случае в сантиметрах), можно отметить, что х сильнее воздействует на у, чем z, примерно в 1,4 раза, т. е. живая масса коров в большей степени зависит от высоты в холке, чем от обхвата груди.

Коэффициент множественной корреляции можно вычислить по следующей формуле:

где = ?(у,- - у)2; ?(у,- - у)2 = ?у? -пу2.

В нашем примере коэффициент множественной корреляции равен:

а коэффициент множественной детерминации R2 = 0,742728347.

Коэффициент множественной детерминации можно вычислить и другим способом по следующей формуле:

Из этого следует, что регрессия у на х и z на 74,3 % объясняет вариации значений у.

Для построения уравнения регрессии можно использовать матричный подход, рассмотренный выше, который применим и к более сложным линейным моделям. При этом линейная модель для двух независимых переменных в нашем примере имеет вид

где у — отклик, или живая масса коров; х0 — фиктивная переменная, которая всегда равна единице; хг — высота коров в холке в см; х2 — обхват груди, см; (3 — оценка метода наименьших квадратов.

Используя данные таблицы, составим необходимые векторы и матрицы для нашего примера:

где Y — (25 х 1) — вектор; X — (25 х 3) — матрица; (3 — (3x1) — вектор; е — (25 х 1) — вектор.

Согласно изложенному выше, получим МНК оценки для (30, (Зг и |32:

где b — вектор оценок элементов (3, при условии, что матрица ХТХ

не вырождена, т. е. ее определитель А ^0.

Выше было указано, что:

Из этого следует:

Матрица, обратная к ХТХ следующая:

Далее находим Ь:

Найденное уравнение множественной регрессии имеет вид

Таким образом, уравнение множественной регрессии подобранное с помощью матричного анализа методом наименьших квадратов, идентично уравнению, подобранному этим методом, но другим способом.

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>