Полная версия

Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Ф2.2.2. Теоретико-вероятностный подход

В классической математической статистике множество наблюденных значений признака X = х2, ..., хЛ?} считается случайной выборкой из генеральной совокупности, заданной вероятностным распределением с функцией плотности f(x), где каждый элемент хх выбран независимо от всех остальных элементов. При этом каждое наблюдение хх как случайная величина моделируется тем же распределением f(Xj). Среднее значение таких «случайных величин» само является случайной величиной, функция плотности которой — среднее всех функций плотности f(x'i). Но поскольку эти плотности совпадают, то и средняя плотность — та же, т.е. f(x). Аналоги среднего значения и дисперсии для генеральной совокупности определяются по функции /(х). Теоретические величины среднего и дисперсии могут быть выражены через функцию плотности /(w) как интегралы р = uf(u) du и g2= {u - x)2f{u)du. При этом и среднее значение, и медиана, и середина размаха — это несмещенные оценки среднего генеральной совокупности. Дисперсия среднего значения оказывается в N раз меньше, чем дисперсия генеральной совокупности, поэтому его стандартное отклонение с ростом N уменьшается со скоростью 4n.

В том случае, когда генеральная совокупность имеет Гауссово распределение Лг(р, а) с функцией плотности

_\_

где С = (2ла2) 2, то с из выражения (2.2) является оценкой р, a s2 из выражения (2.3) — оценкой а2 в выражении (2.6), сделанными по выборке X.

Чтобы в этом убедиться, рассмотрим проблему оценки параметров нормального распределения (2.6) по выборке. Для этого будем считать, что р и а2 в выражении (2.6) неизвестны, а наблюденные значения в X — это случайная независимая выборка из генеральной совокупности с распределением (2.6). Отсюда следует, что вероятность случайного наблюдения х{ равна Сехр{-(х, - р)2/2а2}, а вероятность получения всей выборки X — произведение этих вероятностей в силу их независимости. Таким образом, вероятность выборки X равна L(X) = = П/б/Сехр{-(з:/ - р)2 / 2а2} = CiVexp{-Z/e/ Сх ~ р)2 / 2а2}. Согласно широко применяемому в математической статистике принципу максимального правдоподобия наиболее соответствуют данным выборки Х те значения р и а2, в которых вероятность наблюденной выборки L(X) или, эквивалентно, ее логарифм In(L(X)) достигает максимума. При заданной дисперсии максимум логарифма ln(L) = = Л1п(С) - HieiiXj - р)2 / 2а2 достигается на том значении р, которое минимизирует выражение в показателе экспоненты, Е = Z/G/C4 - р)2, так как величина Л1п(С) — постоянная. Ответьте — почему минимизирует? Ведь мы хотим максимизировать логарифм. Как мы помним из предыдущего параграфа, это оптимальное р — не что иное, как среднее значение выборки. Таким образом, по принципу максимального правдоподобия искомое р минимизирует сумму квадратичных расстояний, как и в выражении (2.1). Эго значит, что допущение независимости наблюдений в выборке и принцип максимального правдоподобия, применительно к Гауссовой генеральной совокупности, приводят к принципу наименьших квадратов. Разумеется, отсюда не следует, что принцип наименьших квадратов имеет смысл только в рамках гипотезы о независимой выборке из нормальной популяции. Этот принцип сам по себе достаточно универсален в анализе данных.

Аналогичным образом, оптимальное значение а2 максимизирует ту часть 1п(1), которая зависит от нее, т.е. g(a2) = -Mn(a2) / 2 - Z/€/ (xt- p)2 / 2a2 (в предположении, что p известно). Оптимальное значение а2 находится из условий первого порядка для g(a2). Продифференцируем In(L) по а2 и приравняем производную к 0: dg / d(&2) = -N / (2a2) + Z 1€/ (Xj- p)2 / 2(a2)2 = 0. Отсюда a2 = = I;€/(*,- p)2 / N, что означает, что дисперсия s2является оценкой максимального правдоподобия параметра а2 Гауссова распределения.

Заметим, что в том случае, когда р тоже неизвестно и рассчитывается для выборки по формуле среднего значения (2.2), выборочная дисперсия $2 по формуле (2.3) оказывается смещенной оценкой дисперсии а2 и должна быть скорректирована. Для этого N в знаменателе заменяют на N - 1. Такая замена может быть объяснена тем фактом, что равенство (2.2), введенное в формулу дисперсии, эффективно уменьшает число степеней свободы с iV до N - 1.

Если предположение о случайности, независимости и принадлежности к Гауссову распределению данных оправдано, то среднее значение и дисперсия — единственные теоретически обоснованные оценки центра и разброса данных. Доказано, что Гауссово распределение хорошо описывает ситуации, в которых множество небольших эффектов добавляются друг к другу. Предположение нормальности или независимости может оказаться в высшей степени нереалистично в других случаях. Но даже и тогда нс стоит отказываться от понятий среднего значения и дисперсии. Их использование может оказаться полезным в рамках аппроксимационного подхода к анализу данных, рассмотренного в предыдущем разделе.

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>