Определение вида зависимости у от х

После того, как с помощью корреляционного анализа выявлена степень тесноты статистических связей между переменными, как правило, переходят к определению вида зависимостей с использованием уравнения регрессии. С этой целью подбирают класс функций, связывающий результативный признак у и аргумент х. Термин «регрессия» (лат. — regression — отступление, возврат к чему-либо) введен английским психологом и антропологом Фрэнсисом Гальтоном и обусловлен спецификой примера, в котором это понятие было впервые использовано. Так, обрабатывая статистические данные в связи с анализом наследственности роста,

Ф. Гальтон нашел, что если отцы отклоняются от среднего роста всех отцов на х дюймов, то их сыновья отклоняются от среднего роста всех сыновей меньше, чем на х дюймов. Выявленная тенденция была названа «регрессией к среднему состоянию». С тех пор термин «регрессия» широко применяется в статистической литературе, хотя во многих случаях он недостаточно точно характеризует понятие статистической зависимости.

Для описания уравнения регрессии в статистической практике главным образом ограничиваются поиском подходящих аппроксимаций для неизвестной функции регрессии /(х). Пусть имеется п наблюдений (х,, */,), 22), ..., (хи, уп). Требуется по этим двумерным данным определить /(х). На основании предварительного анализа исследуемого явления предполагается, что в «среднем» у есть линейная функция отх. Таким образом, предполагается, что зависимость у отх корреляционная и линейная, т.е. у = Ь0 + Ь{х.

Задача определения вида зависимости сводится к нахождению параметров Ь0 и Ьх уравнения регрессии. Для этого в основном используют метод наименьших квадратов, где в качестве параметров фигурируют такие значения, которые минимизируют сумму квадратов отклонений наблюдаемых значений г/; от расчетных у. Построение линейного уравнения регрессии

Рис. 5.4. Построение линейного уравнения регрессии

Разделив на п левую и правую части обоих уравнений, запишем

Отсюда

Поставив выражение Ь0 во второе уравнение, имеем

На основании двумерных данных получили количественное представление зависимости у от х вида у - Ь()+ Ь{х.

Здесь Ь0 — свободный член уравнения, характеризующий среднее значение у при х = 0. Как правило, содержательно не интерпретируется.

Коэффициент регрессии Ь{ показывает, на какую величину в среднем изменится у, если х увеличить на единицу его измерения.

Адекватность уравнения регрессии исследуемому явлению описывается остаточной дисперсией:

В линейной модели у = Ь0+ Ькх коэффициент регрессии связан с коэффициентом корреляции следующим соотношением:

а в уравнении регрессии х по у, когда х = Ь'п + Ь'у , имеет место функциональная зависимость между средним значением х и переменной у.

Отсюда следует, что ЬЬ - г2, а знаки коэффициентов регрессии и коэффициента корреляции совпадают. Квадрат коэффициента корреляции г2 называют коэффициентом детерминации. Он характеризует долю дисперсии у, объясняемой влиянием х.

Пример 5.4

По данным годовых отчетов десяти (п = 10) машиностроительных предприятий построить уравнение регрессии, характеризующее зависимость производительности труда у (тыс. руб. на чел.) от объема производства х (млн руб.). Предполагается, что уравнение регрессии линейно и имеет вид у = Ь0+ 1х. Исходные данные для анализа представлены в табл. 5.2.

10

Решение. Согласно (5.11), учитывая, что ?хд = 666,5, получим

Исходные данные и результаты расчетов

Номер предприятия (0

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 2,1
  • 2,8
  • 3,2
  • 4.5
  • 4.8
  • 4.9
  • 5.5
  • 6.5 12,1 15,1
  • 3
  • 4
  • 5 5 5
  • 5
  • 6 7
  • 15
  • 20
  • 9
  • 16
  • 25
  • 25
  • 25
  • 25
  • 36
  • 49
  • 225
  • 400
  • 20.25
  • 12.25
  • 6.25
  • 6.25
  • 6.25
  • 6.25
  • 2.25 0,25
  • 56.25
  • 156.25
  • 2.77 3,52
  • 4.27
  • 4.27
  • 4.27
  • 4.27 5,02
  • 5.77 11,75 15,50
  • -0,67
  • -0,72
  • -1,07
  • 0,23
  • 0,53
  • 0,63
  • 0,48
  • 0,73
  • 0,35
  • -0,4
  • -31,9
  • -25,7
  • -33,4
  • 5,1
  • 11,0
  • 12.9 8,7 11,2
  • 2.9 -2,6

Сумма

61,5

75

835

272,5

-

-

Средняя

6,15

7,5

83,5

-

-

-

Таким образом, оценка регрессии будет иметь вид у = Ь0+ Ь{х. После подстановки окончательно запишем у = 0,502 + 0,753*.

Из уравнения регрессии следует, что при увеличении объема производства на единицу его измерения производительность труда в среднем увеличивается на 0,753 тыс. руб.

Для интерпретации модели можно также воспользоваться коэффициентом эла-

х 7 5

стичности, значение которого е, = Ь, — = 0,753—-— = = 0,918 показывает, что при уве-

1 ' у 6,15

личении объема производства * на 1% производительность труда у в среднем увеличится на 0,918%.

Перейдем к статистическому анализу полученного уравнения регрессии и рассчитаем остаточную дисперсию 52, абсолютные ei = у. - у. и относительные

е.

8. = —100% ошибки аппроксимации. Остаточная дисперсия равна Уг

Теперь среднюю относительную ошибку аппроксимации вычислим, как

где 15, | абсолютное значение относительной ошибки аппроксимации. Среднее значение относительной ошибки 14,54% говорит о том, что наша модель достаточно хорошо согласуется с исходными данными.

Самую низкую эффективность но производительности труда, как следует из табл. 5.2, имеет третье предприятие. У этого предприятия производительность труда г/3 = 3,2 тыс. руб. на человека, что на 33,4% ниже того, что имело бы «среднее» предприятие с объемом производства *3 = 5,0 млн руб. По производительности труда лучшим признается шестое предприятие, у которого этот показатель на 12,9% выше среднего значения по рассматриваемым предприятиям при * = 5.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >