Полная версия

Главная arrow Информатика arrow Имитационное моделирование

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Дисперсионный анализ

Дисперсионный анализ — это статистический метод анализа результатов наблюдений, зависящих от различных одновременно действующих факторов, выбор наиболее важных факторов и оценка их влияния. Суть анализа состоит в том, чтобы разложить общую дисперсию случайной величины (результата наблюдения или измерения) на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия.

Факторами обычно являются те внешние условия, которые оказывают влияние на конечный результат. В условиях эксперимента факторы изменяются; говорят, что они варьируют на нескольких уровнях (имеют несколько уровней). В зависимости от количества факторов, включенных в анализ, различают однофакторный, двухфакторный и многофакторный анализ.

Для проведения дисперсионного анализа необходимо соблюдать следующие условия: результаты наблюдений должны быть независимыми случайными величинами, имеющими нормальное распределение и одинаковую дисперсию. Только в этом случае можно оценить значимость полученных оценок.

Рассмотрим принцип дисперсионного анализа [16].

Пусть имеется т совокупностей наблюдений (уровней), в каждой из которых пь п2, ..., пт наблюдений (в дальнейшем для простоты будем полагать, что пг = п). Результат j-ro наблюдения на i-м уровне фактора обозначим х^. Тогда все наблюдения можно представить в виде таблицы — матрицы наблюдений.

Уровни

фактора

Наблюдения

1

2

1

2

Будем полагать, что для i-го уровня результаты наблюдений имеют среднюю (3„ равную сумме общей средней р и ее вариации уь обусловленной i-м уровнем фактора. Тогда одно наблюдение

где (3, — неслучайные неизвестные величины, являющиеся результатом действия фактора; ^ — независимые одинаково распределенные случайные величины, отражающие внутренне присущую наблюдениям изменчивость (эти случайные величины непосредственно не наблюдаются).

Если фактор не оказывает воздействия на результаты эксперимента, все значения |3, должны быть равными; в противном случае значения (Зг будут разными.

Пусть ~ iV(0, а), причем дисперсия неизвестна. Если фактор варьируется на двух уровнях, то проверке подлежит основная гипотеза о равенстве двух средних. С ростом числа уровней этот метод перестает работать, так как при попарном сравнении возрастает и наибольшее различие средних. Тогда применяют дисперсионный анализ, основная идея которого (определяющая его название) состоит в сравнении «факторной дисперсии», порождаемой воздействием фактора, и «остаточной дисперсии», обусловленной случайными причинами.

Перейдем к изложению математического аппарата дисперсионного анализа [16].

Пусть результаты наблюдений составляют т независимых выборок по п элементов в каждой, полученных из нормально распределенных генеральных совокупностей, которые имеют, вообще говоря, различные математические ожидания р ц2, ..., цт и равные дисперсии. Проверяется гипотеза Н0: р2 = р2 = = ... = цт. Пусть—j-й элемент i-й выборки. Обозначим х{ — выборочное среднее i-й выборки, т. е.

Введем в рассмотрение общее выборочное среднее

Можно показать, что общая сумма квадратов отклонений наблюдений от общего среднего

Это основное тождество дисперсионного анализа: общая сумма квадратов отклонений наблюдений от общего среднего Q равна сумме квадратов отклонений между группами наблюдений Q1 плюс сумма квадратов отклонений внутри групп Q2. Соответственно, оценки дисперсий sf =Q1/(m-l) и s2 = Q2 / (пт - m) характеризуют рассеяние групповых средних, обусловленное действием фактора, и рассеяние внутри групп, которое обусловлено случайными вариациями результатов наблюдений. Значительное превышение первой величины над второй можно объяснить влиянием фактора. Отношение этих оценок имеет распределение Фишера F(m - 1, пт - т).

Статистика Фишера используется для проверки гипотезы Н0: Ц] = р2 = ... = рт. Гипотеза не противоречит результатам наблюдений, если выборочное значение статистики F(m - 1, пт - т) меньше квантили уровня 1 - а. Если условие не выполняется, гипотеза отклоняется и следует считать, что среди средних имеются хотя бы два не равных друг другу значения.

Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст Lk определяется как линейная комбинация

где С; — константы, однозначно определяемые из формулировки проверяемых гипотез, причем Хс(- = 0. Оценка Lk равна

оценка дисперсии

Границы доверительного интервала для Lk имеют вид

Проверяемые гипотезы могут иметь различный вид, например Я0: Ц-! = р2 или Я0: pj = р3 и т. п. Если нулевое значение накрывается доверительными интервалами, то соответствующая гипотеза принимается.

Если каждый из к факторов варьируется на т уровнях, то эксперимент, исчерпывающий все возможные сочетания факторов, называется полным факторным экспериментом. Количество возможных опытов в таком эксперименте N — тк. При реальных значениях кит выполнить все эти опыты не представляется возможным. Для сокращения количества опытов можно варьировать каждый фактор на двух уровнях; после выявления наиболее значимых факторов можно провести эксперимент только с ними, постепенно сужая интервал варьирования. Тем не менее и в этом случае число опытов может оказаться весьма значительным. В то же время очевидно, что число опытов в полном факторном эксперименте превышает число коэффициентов линейной регрессионной модели, причем тем значительнее, чем больше факторов исследуется. Поэтому при использовании линейной модели можно сократить число опытов.

Обратимся к полному факторному эксперименту 22: с его помощью можно вычислить четыре коэффициента для модели

Если же есть основания пренебречь совместным эффектом ai2xix2> то можно использовать остающуюся степень свободы для минимизации числа опытов: при линейном приближении а]2^0и вектор-столбец хрс2 можно использовать для нового фактора х3. Для определения коэффициентов регрессии нужны четыре опыта; полный факторный эксперимент дает тк = 23 = = 8 опытов. Четыре опыта можно осуществить, поставив полный факторный эксперимент только для двух переменных, например хг и х2. Но поскольку в каждом опыте нужно задавать еще и уровни третьего фактора х3, то их можно получить, связав х3 ci] и х2 некоторым соотношением, например положив х3 = = хрс2 или х3 = гх2, что является разбиением полного факторного эксперимента на две половины, называемые полуреплика- ми. Это планирование вида 23-1. Следует, однако, иметь в виду, что при а12 Ф 0 совместный эффект хрс2 приведет к погрешности определения а3 в соответствующей регрессионной модели.

Выбирать соотношения, связывающие I переменных xk_l+1, ..., xk с переменными хг, ..., xk_b следует так, чтобы в них входили лишь те совместные эффекты, которые в наименьшей мере влияют на определяемые коэффициенты регрессии. Их выбор и есть планирование эксперимента. Для быстрой оценки совместных эффектов используются определяющие контрасты. Определяющий контраст — это символическое обозначение произведения переменных, равного +1 или -1. Для нахождения смешанного эффекта обе части определяющего контраста нужно умножить на переменную, соответствующую данному эффекту. Так, если 1 = х1х2х3, то xl =xfx2x32х33 =1);

V* - V* V-2 V* - V* V* (V*2 — 1 Л • V - V* V V"2 - V* V* (v2 — 1 Э

л2 — A|A2 A3 — а ^ а 3 ул2 — *-) у *^3 — а ^ а 2 л 3 — а ^ а 2 v-*-3 — -Lj

Это значит, что коэффициенты линейного уравнения будут содержать ошибки из-за влияния соответственно а23, а13, а12.

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>