Полная версия

Главная arrow Математика, химия, физика arrow БИЗНЕС-СТАТИСТИКА

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Применение алгоритмов выявления выбросов

Алгоритмы обнаружения выбросов в совокупности или выборке будут различаться в зависимости от типа аномальных наблюдений. Каждый алгоритм имеет свои границы применения, особенности и формат представления результата. Ряд алгоритмов может использоваться в случае больших выборок необработанных или минимально обработанных данных, к которым может применяться закон больших чисел.

Наиболее популярны следующие алгоритмы:

  • • метод Тьюки, основанный на расчете межквартильного расстояния и построенных на его основе диаграммы «Ящик с усами» и гистограммы;
  • • визуальный анализ стебельчато-листового графика;
  • • определение единичного значения как выброса на основе z-оценки и модифицированной z-оценки;
  • • тест Граббса для единственного наблюдения;
  • • выявление выбросов на основе усеченных средних и другие способы.

Некоторые алгоритмы весьма специфичны и применимы только к малым и ультра-малым выборкам:

  • • выявление выбросов на основе теста Диксона;
  • • определение выбросов как наблюдений, лежащих на расстоянии более двух СКО от среднего значения по выборке;
  • • выделение выбросов на основе среднего абсолютного отклонения от среднего значения (MAD).

Третий класс методов применяется в уникальных случаях, например, график рассеяния (поле корреляции) помогает выделить многомерные выбросы, а экстремальное стандартизованное отклонение выявляет множественные выбросы за одну процедуру.

Анализ выбросов во временных рядах основан на уровнях динамических рядов расположенных в порядке, в котором их значения появлялись, т.е. хронологическом. В рядах динамики распространять влияние выброса на последующие наблюдения может автокорреляция. Простое исключение выброса из данных, хотя бы на время построения модели, не содержащей выбросы, здесь не всегда подходит. Зачастую выбросы появляются множественно, сразу на нескольких уровнях. В результате возникает так называемый маскировочный эффект, скрывающий выбросы. Поэтому к анализу параметров уравнения тренда следует подключать периодизацию динамики, включение лаговых переменных, интерполяцию для пропущенных значений и другие процедуры, характерные для анализа временных рядов. Известны три наиболее распространенных подхода:

  • 1) формальный, использующий непараметрические критерии, например, критерий Ирвина, использующий среднеквадратическую ошибку и расстояние между подозрительным и соседним уровнями;
  • 2) диагностика, оценивающая выбросы как уровни, имеющие наибольшее расхождение при обычном МНК и робастной процедуре оценивания параметров динамической модели;
  • 3) робастный подход, в этом случае изменяется сама процедура поиска параметров модели так, чтобы она была нечувствительна к наличию выбросов. Соответственно, максимальные отклонения фактических и выровненных по такой модели значений и есть выбросы.

Такие способы обнаружения выбросов подходят для аддитивных или нововведенных выбросов, когда порядок появления единиц в выборке задан, например, в динамических рядах. Кроме того, аномальные уровни рядов динамики могут представлять собой как однократные выбросы, так и предшествовать сдвигу уровней на более высокие значения (эффект resweaching’a)

Актуальность и сложность задачи выявления аномальных наблюдений, а также значимость результатов ее выполнения для моделирования, прогнозирования и принятия решений приводят к тому, что ежегодно появляются новые исследования в этой области. Вновь разрабатываемые процедуры чаще всего можно соотнести с уже функционирующими алгоритмами, чтобы понять, где именно их лучше использовать. В современной статистической практике нередки случаи, когда новым процедурам выявления выбросов, по сути являющимся модификацией того или иного алгоритма, присваивается название, общее для целого класса, например, «процедура Диксон-типа» или «тест Хаус- ман-типа». Такой прием позволяет быстро определить, какого типа выбросы можно выявить на основе соответствующей процедуры и указать границы ее применения.

В табл. 2.2 представлен результат такого обобщения, т.е. дана краткая характеристика способов выявления выбросов, наиболее часто применяющихся на практике для анализа данных. Там же отмечены особенности массива данных, к которым целесообразно применять тот или иной алгоритм, а также дан ответ на вопрос «Как идентифицировать выброс?», что важно знать для практического использования процедур.

Способы выявления выбросов и особенности их применения для данных равных типов

Наименование

способа

Характеристика

совокупности

Особенности

Выявление

выбросов

Стебельчатолистовой график (первичный анализ данных)

Необработанные массивы первичных данных

Отражает характер распре деления совокупности, но сохраняет значения признака по единицам

Визуальное

Структурные средние и межк- вартильное расстояние (исследовательский анализ данных)

Необработанные массивы первичных данных, данные после удаления ошибок наблюдения

Выявляет характер распределения совокупности

Визуальное (гистограмма, диаграмма «Ящик с усами»), расчет нормальных границ совокупности (UF, LF)

Тест Диксона

Экстремально малые выборки (до 7 ед.)

Может рассчитываться по ранжированным переменным, выявляет единственный выброс за одну процедуру

Сравнение фактического значения критерия с табличной величиной

Усеченные

средние

Необработанные массивы первичных данных, данные после удаления ошибок наблюдения

Является робастной оценкой средней

Оценка существенности расхождения обычной и усеченной средней

Экстремальное

стюдентизованное

отклонение

Нормально распределенные совокупности

Выявляет единственный выброс за одну процедуру

Сравнение отклонения с табличной величиной

Экстремальное стандартизованное отклонение

Нормально распределенные совокупности

Выявляет множественные выбросы

Сравнение тестовой статистики с табличной величиной

Корреляционнорегрессионный

анализ

Распределение единиц по значениям двух количественных переменных

Выявляет множественные выбросы, в том числе Х-выбросы, Y-выбросы и выбросы по значениям обеих переменных

Визуально (график рассеяния, график остатков), сравнение тестовой статистики с табличной величиной, оценка существенности различий коэффициента детерминации, полученного по совокупности с выбросами и без них

Наименование

способа

Характеристика

совокупности

Особенности

Выявление

выбросов

Многомерная группировка и множественная регрессия

Распределение единиц по значениям нескольких количественных переменных

Выявляет множественные выбросы, по значениям нескольких переменных

Визуально (дендрограмма) сравнение тестовой статистики с табличной величиной, оценка существенности различий коэффициента детерминации, полученного по совокупности с выбросами и без них

Моделирование рядов динамики

Динамические

ряды

Выявляет динамические выбросы

Оценка максимальной разницы теоретических значений, полученных по моделям, построенным обычным МНК и робастной процедуре

Рассмотрим примеры использования алгоритмов выявления выбросов, представленные в экономической научной литературе.

Задача выбора промышленного робота по 20 базовым характеристикам1 решалась американскими учеными почти 20 лет назад. Выявление выбросов (т.е. роботов с нереальным или непривлекательным сочетанием характеристик) осуществлялось на основе сопоставления результатов многомерного моделирования обычным МНК и применения робастных процедур (расчет расстояния Махаланобиса, метод главных компонент), выявленные выбросы представляли собой многомерные значения, аномальные сразу по нескольким переменным.

Задача выявления экстремально больших выбросов при проведении строительных контрактных аукционов была решена исследователями из Австралии и Гонконга в начале XXI в.[1] [2] Особенностью исследования стало выявление вариативных выбросов (строительных проектов) с неправдоподобными техническими характеристиками (поскольку в случае аукциона возможно сознательное занижение стоимости или сроков строительства, которое впоследствии не оправдается) в условиях экстремально малой выборки. Авторы создали выборку предложений по данным о проведенных ранее в мире аукционах аналогичного типа в заданном промежутке времени и построили обучающую функцию распределения относительной разницы между наибольшим и следующим за ним предложением. Для моделирования использовались стандартные функции: равномерного, нормального и логнормального распределений. Сопоставление относительных различий вариации по фактической и обучающей выборке и дало информацию о наличии несоответствующих конкурсу заявок. Предложенный подход может быть использован не только в строительной отрасли, но и при проведении государственных закупок зерна, используемых, в том числе, в качестве целевых интервенций для «выравнивания» конъюнктуры рынка, плюс для решения иных задач, базирующихся на конкурсном выборе предложений по нескольким параметрам.

В задаче построения статистической модели контроля качества (расширенной диаграммы контроля CUSUM) также были выявлены вариативные и статистические выбросы1. Для получения матрицы данных, формирующих вход, были получены по три значения каждого параметра. В качестве оценки типического уровня были использованы медианные значения, чтобы избежать влияния аномалий, так как медиана является более надежной характеристикой центра распределения в случае смещения средней, выбранный метод статистической обработки данных (ANOVA) чувствителен к выбросам. Выбросы в данном случае оценивались как наблюдения за пределами нормальных границ совокупности, независимо от степени их влияния на результат.

Задача выявления динамических выбросов решалась в маркетинговых исследованиях. Исследовались возможности построения регрессионной модели для динамического прогнозирования[3] [4]. Был использован метод многократной множественной регрессии, сначала для выявления выброса на основании анализа графика остатков, а затем, после удаления выброса, для построения аддитивной трендовой модели с учетом сезонности, так как основной статистикой в данном случае является коэффициент детерминации, чувствительный к выбросам и требующий нормального распределения остатков.

Среди множества активных алгоритмов выявления выбросов выделяют два подхода: преобразование данных с тем, чтобы сделать выбросы более заметными при стандартных процедурах, и методы, основанные на расчете расстояний между точками с помощью процедур, устойчивых к присутствию аномальных наблюдений[5].

  • [1] Booth D., Khouja М., Ни М. A Robust Multivariate Statistical Proce-dure for Evaluationand Selection of Industrial Robots. International Jour-nal of Operations and ProductionManagement, 1992. Vol. 12. No 2. P. 15—24.
  • [2] Skitmore M., Lo H. A method for identifying high outliers in construction contractauctions // Blackwell Science Ltd., Engineering, Construction and Architectural Management.2002. № 9/2. P. 90—130.
  • [3] Dror S. A methodology for realignment of quality cost elements. Journal of Modellingin Management. 2010. Vol. 5. No 2.
  • [4] Caruana A. Steps in forecasting with seasonal regression: a case study from thecarbonated soft drink market. Journal of product & brand management. 2001. Vol. 10. No 2.P. 94—102.
  • [5] Hadi A., Rahmatullah I., Werner M. Detection of outliers. John Wiley & Sons, Inc. WIREsComp Stat 2009. July/August 2009. Vol. 1.
 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>