Проверка гипотез о равенстве средних двух и более совокупностей

Сравнение средних двух совокупностей имеет важное практическое значение. На практике часто встречается случай, когда средний резуль- [1]

таг одной серии экспериментов отличается от среднего результата другой серии. При этом возникает вопрос, можно ли объяснять обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано некоторыми закономерностями[2]. В промышленности задача сравнения средних часто возникает при выборочном контроле качества изделий, изготовленных на разных установках или при различных технологических режимах, в финансовом анализе — при сопоставлении уровня доходности различных активов и т.д.

Сформулируем задачу. Пусть имеются две совокупности, характеризуемые генеральными средними х0 и у0 и известными дисперсиями а1 [3] и а-. Необходимо проверить гипотезу Я0 о равенстве генеральных средних, т.е. Я0: х00. Для проверки гипотезы Я0 из этих совокупностей взяты две независимые выборки объемов п{ и п27 по которым найдены средние арифметические х и у и выборочные дисперсии s[3] и s[3].

При достаточно больших объемах выборки, как отмечено в параграфе 9.6, выборочные средние х и у имеют приближенно нормальный

закон распределения, соответственно Я(х0^д )и

В случае справедливости гипотезы #0 разность х -у имеет нормальный закон распределения с математическим ожиданием М(х-у) =

G[3] СУ^

= М(х)-М(у)= х00=Ои дисперсией а|^=а|+о|= —+ — (напом-

ним, что дисперсия разности независимых случайных величин равна сумме их дисперсий, а дисперсия средней п независимых слагаемых в п раз меньше дисперсии каждого).

Поэтому при выполнении гипотезы Я0 статистика

имеет стандартное нормальное распределение N(0; 1).

Согласно равенствам (10.2)—(10.4) в случае конкурирующей гипотезы Нх х00 (или Нх х0 < у0 ) выбирают одностороннюю критическую область и критическое значение статистики находят из условия (рис. 10.3)

а при конкурирующей гипотезе Я2: х0 Фу0 выбирают двустороннюю критическую область и критическое значение статистики находят из условия (рис. 10.4)

Рис. 10.3

Рис. 10.4

Если фактически наблюдаемое значение статистики t дольше критического ?кр, определенного на уровне значимости а (по абсолютной величине), т.с. |^| > ?кр, то гипотеза //0 отвергается. Если |^| < ?кр, то делается вывод, что нулевая гипотеза0 не противоречит имеющимся наблюдениям.

t> Пример 10.1а. Для проверки эффективности новой технологии отобраны две группы рабочих: в первой группе численностью пЛ = 50 чел., где применялась новая технология, выборочная средняя выработка составила х = 85 (изделий), во второй группе численностью п2 = 70 чел. выборочная средняя — у = 78 (изделий). Предварительно установлено, что дисперсии выработки в группах равны соответственно о2 = 100 и =74 . На уровне значимости а = 0,05 выяснить влияние новой технологии на среднюю производительность.

Решение. Проверяемая гипотеза Я0: х0 = г/0, т.е. средние выработки рабочих одинаковы по новой и старой технологиям. В качестве конкурирующей гипотезы можно взять Яр х0 > у0 или Я2: х0 Ф г/0 (в данной задаче более естественна гипотеза Н{, так как ее справедливость означает эффективность применения новой технологии).

По формуле (10.5) фактическое значение статистики критерия

При конкурирующей гипотезе Ях критическое значение статистики находится из условия (10.6), т.е. Ф^кр) = 1-2*0,05 = 0,9, откуда по табл. II приложений ? = Г09= 1,64, а при конкурирующей гипотезе Я2 — из условия (10.7), т.е. Ф^кр) = 1-0,05 = 0,95, откуда по таблице ?кр = ?095= 1,96.

Так как фактически наблюдаемое значение t = 4,00 больше критического значения ?кр (при любой из взятых конкурирующих гипотез), то гипотеза Я0 отвергается, т.е. на 5%-ном уровне значимости можно сделать вывод, что новая технология позволяет повысить среднюю выработку рабочих. ?

Будем теперь предполагать, что распределение признака (случайной величины) X и Y в каждой совокупности имеет нормальный закон. В этом случае, если дисперсии а2 и а2 известны, то проверка гипотезы проводится так же, как описано выше, не только для больших, но и для малы> по объему выборок.

Если же дисперсии о2 и о2 неизвестны, но равны, т.е. о2 = о2 = а2, тс

в качестве неизвестной величины а2 можно взять ее оценку — «исправленную» выборочную дисперсию

Однако «лучшей» оценкой для а2 будет дисперсия «смешанной» совокупности объема щ + п2, т.е.

а оценкой дисперсии разности независимых выборочных средних

(обращаем внимание на то, что число степеней свободы k = пх + п2 - 2 на 2 меньше общего числа наблюдений п{ + п2, так как две степени свободы «теряются» при определении по выборочным данным средних х и у). Доказано, что в случае справедливости гипотезы #0 статистика

имеет ^-распределение Стьюдента с k = пх + п2 - 2 степенями свободы. Поэтому критическое значение статистики t находится по тем же формулам

(10.6) или (10.7) в зависимости от типа критической области, в которых вместо функции Лапласа Ф(^) берется функция 0(?,&) для распределения Стыодеита при числе степеней свободы k = п{ + п2 - 2, т.е. 0(?,&) =1-2а или Q(t,k) = l-a.

При этом сохраняется то же правило опровержения (принятия) гипотезы: гипотеза #0 отвергается на уровне значимости а, если |^|>^_2а^ (в случае односторонней критической области), либо если 111 > tx_a.^ (в случае двусторонней критической области); в противном случае гипотеза Я0 не отвергается (принимается).

Замечание. Если дисперсии о2 и о2 неизвестны и не предполагается, что они равны, то статистика t = [x-y) /$х-у также имеет ^-распределение Стыодента, однако соответствующее ему число степеней свободы определяется приближенно и более сложным образом.

> Пример 10.2. Произведены две выборки урожая пшеницы: при своевременной уборке урожая и уборке с некоторым опозданием. В первом случае при наблюдении 8 участков выборочная средняя урожайность составила 16,2 ц/га, а среднее квадратическое отклонение — 3,2 ц/га; во втором случае при наблюдении 9 участков те же характеристики равнялись соответственно 13,9 ц/га и 2,1 ц/га. На уровне значимости а = 0,05 выяснить влияние своевременности уборки урожая на среднее значение урожайности.

Решение. Проверяемая гипотеза #0: х0 = г/0, т.е. средние значения урожайности при своевременной уборке урожая и с некоторым опозданием равны. В качестве альтернативной гипотезы берем гипотезу Н{: х00, принятие которой означает существенное влияние на урожайность сроков уборки.

Фактически наблюдаемое значение статистики критерия по формуле

(10.8)

Критическое значение статистики для односторонней области определяется при числе степеней свободы k = пл+ п2 - 2 = 9 + 8 - 2 = 15 из условия Q(tyk) = 1-2-0,05 = 0,9 , откуда по табл. IV приложений ?0,9;i5= 1>75. Так как t = 1,62 < ?0,9;i5= 1>75, то гипотеза #0 принимается. Это означает, что имеющиеся выборочные данные на 5%-ном уровне значимости не позволяют считать, что некоторое запаздывание в сроках уборки оказывает существенное влияние на величину урожая. Еще раз подчеркнем, что это не означает безоговорочную верность гипотезы #0. Вполне возможно, что только незначительный объем выборки позволил принять эту гипотезу, а при увеличении объемов выборки (числа отобранных участков) гипотеза Н0 будет отвергнута. ?

Сравнение средних нескольких совокупностей. Эта задача рассматривается в гл. 11 «Дисперсионный анализ».

Исключение грубых ошибок наблюдений. Рассмотренный критерий можно применять для исключения грубых ошибок наблюдений. Грубые ошибки могут возникнуть из-за ошибок показаний измерительных приборов, ошибок регистрации, случайного сдвига запятой в десятичной записи числа и т.д.

Пусть, например, х*, хи х2,..., х„ — совокупность имеющихся наблюдений, причем х* резко выделяется. Необходимо решить вопрос о принадлежности резко выделяющегося значения к остальным наблюдениям.

Для ряда наблюдений xvx2,...,хп рассчитывают среднюю арифметическую х и «исправленное» среднее квадратическое отклонение s. При справедливости гипотезы Я0: х0=х* о принадлежности х* косталь-

х — X*

ным наблюдениям статистика t = —-— (получаемая как частный случай из фор-

s

мулы (10.8) при у = х*,п2 = 1) имеет ^-распределение Стьюдента с k = п - 1 степенями свободы. Конкурирующая гипотеза Н{ имеет вид: х0 > х* или х0 < х* — в зависимости от того, является ли резко выделяющееся значение больше или меньше остальных наблюдений. Гипотеза Я0 отвергается, если У > ?кр, и принимается, если |^| < ?кр.

> Пример 10.3. Имеются следующие данные об урожайности пшеницы на 8 опытных участках одинакового размера (ц/га): 26,5; 26,2; 35,9; 30,1; 32,3; 29,3; 26,1; 25,0. Есть основание предполагать, что значение урожайности третьего участка х* = 35,9 зарегистрировано неверно. Является ли это значение аномальным (резко выделяющимся) на 5%-ном уровне значимости?

Решение. Исключив значение х* =35,9, найдем для оставшихся наблюдений х =27,93 (ц/га) и s = 2,67 (ц/га). Фактически наблюдаемое значение 35,9-27,93

t = —1-1— = 2,98 больше табличного tK[) = tx_.„_1 = ?09.6 = 1,94, следова-

2,67 1

тельно, значение х* = 35,9 является аномальным, и его следует отбросить. ?

  • [1] В литературе такие критерии называются также свободными от распределения.
  • [2] Поэтому проверку гипотез такого тина называют проверкой (оценкой) значимости
  • [3] (iсущественности) различия выборочных средних или других характеристик.
  • [4] (iсущественности) различия выборочных средних или других характеристик.
  • [5] (iсущественности) различия выборочных средних или других характеристик.
  • [6] (iсущественности) различия выборочных средних или других характеристик.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >