Полная версия

Главная arrow Информатика arrow Имитационное моделирование

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Регрессионный анализ

В регрессионном анализе изучается связь между зависимой переменной Y и одной или несколькими переменными х1}

х2, ... . Для простоты далее будем рассматривать одну переменную х. Предполагается, что переменная х принимает заданные (фиксированные) значения, а зависимая переменная У имеет случайный разброс из-за ошибок измерения, влияния неучтенных факторов или других причин. Каждому значению переменной х соответствует некоторое вероятностное распределение случайной величины Y.

Регрессионный анализ — основной статистический метод построения математических моделей объектов или явлений по экспериментальным данным [11,16]. Эти модели связывают количественные переменные — результирующую и объясняющие (используют разные термины: выход, отклик, фактор, предиктор и т. д.). Необходимо отметить, что определяемая в ходе анализа функция регрессии лишь формально устанавливает соответствие между переменными этих двух групп, хотя они в действительности могут и не состоять в причинно-следственных отношениях. Поэтому устанавливаемые в ходе регрессионного анализа связи иногда могут ложно истолковываться как причинно-следственные. Таким образом, есть возможность возникновения так называемых нонсенсрегрессий, которые не имеют практического смысла. По этой причине перед применением статистического аппарата на основе профессионально-логического анализа проблемы необходимо решить, какую из переменных рассматривать как результирующую, а какие — как объясняющие.

Рассмотрим общую схему регрессионного анализа. Пусть результирующая переменная Y связана с некоторыми объясняющими переменными xl5 ..., хк, которые удобно представлять в виде компонент вектора х = (xj,..., хк)т. Эта связь стохастическая: значения у переменной У, полученные в различных экспериментах при фиксированных значениях х, случайным образом флуктуируют вокруг некоторого неизвестного уровня г|(х):

где второе слагаемое определяет случайное отклонение результирующей переменной от величины г|(х). Случайные отклонения 8 могут объясняться влиянием не учтенных в векторе х (и, может быть, случайных) факторов, случайными ошибками измерения результирующей переменной и другими причинами. Среднее значение отклонений полагается равным нулю, поэтому математическое ожидание результирующей переменной совпадает со значением функции г|(х):

Это уравнение называется регрессией (уравнением регрессии), а функция ц(х) — функцией регрессии.

Существует большое число типов регрессионных моделей, определяемых видом функции регрессии, зависящих, как правило, не только от объясняющих переменных, но и от некоторых параметров (315 ..., (Зт, которые так же удобно представлять в виде векторов |3 = (|31,...,(3т)7’:

Основные результаты в настоящее время получены применительно к линейным регрессионным моделям

где fj(х) = fj(xj,..., xk) — некоторые известные функции, не включающие неизвестные коэффициенты (3;. Функции /Дх) называются регрессорами.

Особенно часто используются полиномиальные регрессоры, в частности линейная (по факторам) полиномиальная регрессионная модель

Другая широко используемая форма полиномиальной модели — полиномиальная функция регрессии одной переменной:

где х7 =(1,х,х2,...,хт~1)т.

к

В то же время регрессия, например, вида Y = ^ (3fcxfc +8 не-

к

линейна.

Для упрощения математических выкладок и для большей наглядности в дальнейшем будем рассматривать простую линейную регрессию вида Y = (30 -I- (3-рс.

Пусть имеется п пар наблюдений над совместными значениями величин (Xj, у;). Предположим, что случайные ошибки измерения г,- = у, -y(xf) = yt- - (30 - Р-рс,- не коррелированы и удовлетворяют условиям: 1) М[е(] = 0; 2) D[e(] = а2; 3) е,- ~ N(0, а). Для нахождения оценок параметров (30 и (3: используется метод наименьших квадратов, приводящий к следующему результату:

где х = - X xt; у = - ? У*; Qxy = Е (*i ~ *) С У; - УУ, Qx = ? (*; - *)2. п п

Можно показать, что независимо от закона распределения погрешностей е полученные оценки коэффициентов являются несмещенными и эффективными.

Если же предположить, что погрешности измерения распределены по нормальному закону (т. е. имеет место так называемая нормальная регрессия), то оценки коэффициентов будут представлять собой независимые случайные величины, распределенные по нормальному закону с дисперсиями

Функция у(х) = Ь01х определяет выборочную (эмпирическую) регрессию Y на х. Последняя является оценкой предполагаемой (теоретической) линейной регрессии по результатам наблюдений. Разность е{ между наблюдаемым значением У; и аппроксимирующей величиной у(хг) = Ь0 }х( называется остатком. Сумма квадратов остатков Qe = lef = I(yf -b0 -bjX,)2 называется остаточной суммой квадратов. Показано, что оценка дисперсии погрешностей (в предположении ее равенства во всех точках) имеет вид s2 = Qe / (п - р), где р — количество членов аппроксимирующего полинома (при линейной интерполяции р = 2).

Предположение о нормальном распределении и независимости ошибок измерений эквивалентно тому, что результаты наблюдений yi являются реализациями независимых нормально распределенных случайных величин Yt ~ N((30 + Ррс,-, а). В этом случае можно показать, что статистика Qe / о2 имеет распределение хи-квадрат с (п - 2) степенями свободы и эта статистика распределена независимо от распределения оценок Ь0 и Ьх. Используя это утверждение, можно построить доверительные интервалы для параметров линейной регрессии и проверить гипотезы о параметрах.

Ранее было выведено общее соотношение для границ доверительного интервала в виде е = atp, где a — среднеквадратичное отклонение соответствующей оценки, а tp — квантиль порядка Р распределения оценки. В данном случае подстановка приводит к результату

что означает:

Здесь ti_a/2(n - р) — квантиль распределения Стьюдента с (п - р) степенями свободы, причем для линейной регрессии р = 2, s2 = Qe / (п -р).

Линейная регрессионная модель называется незначимой, если параметр ^ = 0. Для проверки гипотезы Н0: (3: = 0 можно использовать статистику

Эта статистика имеет распределение Стьюдента с (п - 2) степенями свободы. Если > ta(n - 2), где ta(n - 2) выбирается по таблицам из условия Р{ 11 > ta(n - 2)} > а, то нулевую гипотезу отвергают и коэффициент регрессии считают значимым.

Большего при однократных измерениях получить нельзя. Более существенные результаты можно получить, располагая многократными (повторными) измерениями. В частности, можно обосновать суждение об адекватности модели.

Линейная регрессионная модель называется адекватной, когда предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Если для каждого или некоторых значений переменной X имеется несколько повторных наблюдений случайной величины Y, то для проверки адекватности модели можно использовать следующую процедуру.

Пусть повторные наблюдения получены при различных значениях X}, х2, ..., хт переменной х, причем при х = х, произ-

т

ведено п{ наблюдений величины Y, где ^ п,- = п — объем всей

1=1

выборки наблюдений. Обозначиму^, j = 1, 2,..., пь результаты повторных наблюдений Yпри х = х„ i = 1, 2, ..., т.

Если модель адекватна наблюдаемым данным, то средние

1 П;

п, наблюдений, т. е. у,- = — ?Ун> 1 = 2, ..., т, должны быть

Щ}=1

близки к вычисленным значениям у(х, ) = Ь0 + Ь]Х;-. Следователь-

т

но, сумма квадратов Qn = ~У02 служит мерой неадек-

i=i

ватности модели. Однако ее нельзя оценивать по абсолютной величине.

Общая сумма квадратов отклонений результатов от теоретической кривой — остаточная сумма квадратов — может быть разбита на две суммы квадратов:

т щ

где Qp - Y, S (Уу ~у02 — сумма квадратов чистой ошибки.

i=i;=i

Действительно, к этому результату придем, если обе части равенства

возведем в квадрат и просуммируем по i и j:

Преобразуем последнее слагаемое:

Раскрывая первую сумму, убеждаемся, что она равна нулю, что доказывает справедливость соотношения (4.10).

Если линейная регрессия адекватна данным, то статистики Qn / (т - 2) и Qp / (п - т) независимы и имеют распределение X2 с (т - 2) и (п - т) степенями свободы соответственно. Отношение этих статистик имеет распределение Фишера:

Эта статистика используется для проверки адекватности по обычной методике проверки статистических гипотез: если выборочное значение этой статистики меньше критического значения, то можно считать модель адекватной.

В противном случае нужно попытаться использовать другую модель, например гиперболическую регрессию.

Вернемся к уравнению линейной регрессии

Умножим обе части (4.11) на Р{Х = х} = р(х) и просуммируем по всем возможным х. Получим

Вычитая из (4.11) равенство (4.12), найдем, что

т. е. прямая регрессии проходит через центр распределения (точку М[Х], М[У]).

Учтем, что у(х) есть условное математическое ожидание, и представим

Подставляя этот результат в (4.13), последовательно имеем

Это равенство справедливо для каждого значения х. Умножая обе части последнего равенства на (х - М[Х]) и суммируя по х, найдем

т. е. р[ХУ] = [X], откуда следует, что = р[ХУ] / D[X]. Заметим, что р[ХУ] = ойо[У] и, следовательно, (3] = а [У] / а[Х].

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>