Дисперсионный анализ

Дисперсионный анализ (ANOVAanalysis of variance) — статистический метод изучения взаимосвязи между зависимой количественной переменной и одной или несколькими чаще качественными (не имеющими количественного измерения) переменными. Например, ударная вязкость металла исследуется в зависимости от режимов термической обработки, т.е. изучается влияние режимов термической обработки на величину вариации показателей ударной вязкости. Или, например, процент брака рассматривается в зависимости от нескольких поставщиков сырья.

В основе дисперсионного анализа лежит гипотеза о том, что средние значения зависимой количественной переменной различаются по группам фактора. Существенность этого различия оценивается с помощью разложения общей дисперсии зависимой переменной на составляющие: дисперсию за счет групп фактора (межгрупповая дисперсия) и дисперсию за счет остальных случайных причин (внутригрупповая, остаточная дисперсия). Сравнивая межгрупповую дисперсию с общей можно оценить долю воздействия фактора на зависимую переменную (R2). Значимость этой меры влияния оценивается через F-критерий Фишера: если фактическое значение превышает табличное при р = 0,95, то делается вывод о том, что фактор существенно влияет на исследуемый показатель качества. При этом предполагается, что существует по крайней мере одна пара групповых средних результативного признака, различающихся между собой. По величине F-критерия нельзя сказать, для каких конкретно групп фактора средние значения результативного признака существенно различаются. Поэтому в завершении дисперсионного анализа ставится задача — выявить, за счет каких именно групп фактора имеет место различие средних значений зависимой переменной.

Рассмотрим суть однофакторного дисперсионного анализа на следующем примере. Рассматривается зависимость затрат времени на контроль партии продукции (у-минут). от трех типов используемого оборудования: А — современное, В — менее современное, С — старое. Для этой цели проведены три выборки. Результаты наблюдений представлены в табл. 6.8.

Информация для однофакторного дисперсионного анализа

Оборудование, j

А

В

С

Итого

Y4

11; 14; 14; 17; 18; 18; 15; 12

20; 25; 27; 28; 26; 26; 30; 32; 19; 23; 24; 36

27; 34; 39; 35; 37; 36; 45; 37; 35; 41

Сумма (Г,)

119

316

366

801

Число единиц (nf)

8

12

10

30

1819

8576

13596

23991

тущ

1770,125

8321,333

13395,6

23487,06

Групповые средние по типам оборудования составили 14,875; 26,333 и 36,6. Для расчета F-критерия Фишера определим факторную (межгрупповую) и остаточную (внутригрупповую) суммы квадратов отклонений (SS):

где Г = ?7);

По данным примера получаем: SSaKTOpHa> = 23487,06 - 8012 / 30 = = 2100,358;

550бщая = 23 991 - SOI2 / 30 = 2604,3; SS0CTaT04HM = 2604,3 - 2100,358 - = 503,942.

Далее нужно найти дисперсии на одну степень свободы и F-критерий Фишера. Результаты дисперсионного анализа представляются в таблице (табл. 6.9).

Таблица 6.9

Результаты дисперсионного анализа

Источники

вариации

Число степеней свободы df

Сумма квадратов SS

Дисперсия на одну степень свободы MS = SS / df

F-критерий

фактический

F-критерий при Р = 0,95

Различия

между

уровнями

фактора

т - 1 3-1 = 2

2100,358

2100,358 /2 = = 1050,179

1050,179 / / 18,665 = = 56,27

3,35

Внутри

фактора

п-т

30-3 = 2 7

503,942

503,942 /21 = = 18,665

Итого

п- 1 = 29

2604,3

В строке «Различия между уровнями фактора» отражается вариация у, обусловленная использованием т типов оборудования. В строке «Внутри фактора» учитывается остаточная вариация у. Фактическое значение F-критерия значительно превышает табличное, что означает существенность различий в затратах времени на контроль партии продукции от типа используемого оборудования. В настоящее время таблицу однофакторного дисперсионного анализа можно получить на компьютере, работая в Excel в режиме «Анализ данных». В поле исходных данных вводится информация об Уу в разрезе групп фактора (в примере это три столбца по типам оборудования).

Далее можно определить, все ли групповые средние по типам оборудования существенно различаются между собой.

Наименьшая разница в средних значениях 10,267 мин имеет место между оборудованием В и С. Проверить достоверность этого различия можно также с помощью F-критерия, используя формулу

где Д — разность между двумя сравниваемыми групповыми средними; MSe — остаточная дисперсия на одну степень свободы; п1 и п2 — число наблюдений в сравниваемых группах. В нашем случае имеем

Табличное значение при числе степеней свободы 1 и 27 при уровне значимости 0,05 - 4,21, а при уровне значимости 0,01 - 7,68, что значительно ниже расчетной величины. Следовательно, групповые средние по типам оборудования В и С существенно различаются между собой. Значит, существенно различие и групповых средних.

При изучении влияния нескольких факторов проводится многофакторный дисперсионный анализ. Двухфакторный дисперсионный анализ при компьютерной обработке данных содержится в ППП Excel в режиме «Анализ данных». Могут использоваться и другие программы: Statgraphics, Statistica, EViews. Дисперсионный анализ широко применяется в планировании эксперимента в управлении производством.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >