ОРГАНИЗАЦИЯ МАССОВЫХ ДАННЫХ И АЛГОРИТМЫ ВЫЯВЛЕНИЯ ВЫБРОСОВ

В результате изучения главы 2 студент должен: знать

  • • что такое массовые данные и методы их собирания и обработки;
  • • что такое выбросы (аномальные наблюдения), каковы направления их влияния на качество обработки данных, как поступать с выбросами;
  • • методы визуализации и их значение; уметь
  • • собирать исходную информацию;
  • • формировать и актуализировать базу данных;
  • • проводить первичную обработку массовых данных;
  • • строить графики, диаграммы;
  • • выявлять выбросы в наблюдаемых данных;
  • • количественно определять влияние выбросов на качество обработки данных; владеть
  • • методами первичной обработки данных;
  • • способами выявления выбросов;
  • • программными средствами обработки и визуализации данных;
  • • интерпретацией полученных результатов в рамках решаемых задач.

Организация массовых данных

В бизнесе нередко приходится иметь дело с массовыми данными: с результатами многократных измерений, данными о поставках, запасах сырья, инвентаризации, дебиторской и кредиторской задолженностях и т.д. Все данные нужно уметь обрабатывать, т.е. упорядочивать, группировать, представлять в виде таблиц и графиков. Базы данных создаются на предприятии по центрам ответственности. Источниками данных могут быть сведения первичного учета, результаты специальных замеров, а также данные, полученные в результате опроса. Как правило, данные включают разнотипные переменные: неколичественные и количественные. Количественные переменные могут быть непрерывными и дискретными, неколичественные — дихотомическими и многовариантными. В случае дихотомии, значения переменной часто обозначаются как «О» и «1». Неколичественные переменные могут

быть измерены на порядковой (ординальной) шкале. По их значениям можно проводить ранжирование (упорядочивание) наблюдений. Неколичественные переменные могут быть измерены на номинальной шкале. По таким переменным ранжирование данных невозможно. Их значения позволяют отнести наблюдение к той или иной категории.

В целом массив данных можно представить в виде таблицы «объект-признак» (табл. 2.1). Строки соответствуют объектам наблюдения, столбцы — признакам, т.е. свойствам объектов.

Таблица 2.1

Таблица «объект-признак»

Объект

Признак

*2

*3

.

.

**

1

хи

*12

*13

*1 к

2

*21

*22

*23

*2 к

3

*31

*32

*33

*3 к

п

*„1

*л2

*лЗ

*пк

Среднее значение, х

*1

*2

*3

ч

CKO, s

Si

s2

S3

h

Коэффициент вариации, v, %

V1

v2

v3

vk

В последних строках табл. 2.1 представлены для каждого признака среднее значение, среднее квадратическое отклонение (стандартное отклонение, СКО), коэффициент вариации ((s/x)-100%). Последний показатель позволяет увидеть, по какой переменной массив данных имеет большую однородность (vmin).

Если переменная неколичественная, то среднее значение представляет долю единиц (объектов), обладающих каким-то свойством:

где р —доля (относительная величина).

Дисперсия дихотомической переменной s = р (1-р) = pq.

Анализируемые данные должны быть полными. Однако может оказаться, что сведения о некоторых свойствах одного или нескольких объектов отсутствуют, т.е. имеются данные с пропусками. Существует несколько основных путей решения проблемы неполноты данных:

  • • исключение из выборки объектов с неполными описанием;
  • • применение математических методов анализа неполных данных (взвешивание, получение оценок методом максимального правдоподобия и т.д.);
  • • восстановление пропусков («инпутация» данных — от англ, in put).

Проще всего провести восстановление, заполняя пропуски средними значениями или значениями, рассчитанными по соответствующему уравнению регрессии. Перспективным методом восстановления пропусков считается ресамплинг (resampling), т.е. повторная или дополнительная выборка. При этом обязательно исследуются причины пропусков данных. Если механизм порождения пропусков известен, но неуправляем, то применяют процедуру цензурирования, т.е. выявляют те объекты, для которых время события не успело наступить до окончания формирования выборки.

Довольно часто используется метод подстановки с подбором внутри групп и нахождением ближайшего соседа. Формируются группы и пропуски в каждой группе заполняются присутствующими значениями. При этом может проводиться выбор объекта с присутствующими значениями, ближайшего к объекту с пропуском. Круг ближайших объектов можно варьировать, изменяя расстояние, объединяющее объекты с полным описанием от объекта с пропусками, dy.

Тем, кто заинтересовался методами анализа данных с пропусками, рекомендуем ознакомиться со статьями Е. Злоба, И. Яцкив и К. В. Рыженковой (см. библиографический список к гл. 2).

Самый простой путь борьбы с пропусками — их удаление. Однако данный способ не является лучшим, так как исключение объектов наблюдения приводит к негативным последствиям в дальнейшем анализе и возможностям использования результатов. Одним из таких нежелательных последствий пропусков является смещение. Смещение может приводить к потере репрезентативности результатов исследования, т.е. несоответствию данных выборки генеральным параметрам. Удаление объектов с пропусками оправданно , если их число незначительно. Но, вообще говоря, неполные данных тоже обладают нужной для анализа информацией. Следовательно, нужно сделать все возможное для восстановления пропущенных значений.

При исключении некоторых неполных данных применяются формальные и логические проверки, происходит редактирование данных. Данные процедуры возможны в случае наличия достоверной информации о взаимосвязанных показателях. Впрочем, большинство пропусков не может быть восстановлено с помощью методов формально-логического контроля.

Тогда исследователи обращаются к методам ампутации (imputation) данных (включения дополнительных данных). Главной целью импута- ции данных является возможность повышения качества исходных статистических данных. В настоящее время разработано достаточно большое число методов импутации данных. На рис. 2.1 приведено описание наиболее часто использующихся методов импутации данных.

ЕМ-алгоритм предполагает построение модели порождения пропусков с использованием функции правдоподобия на основе метода максимального правдоподобия.

Основные методы борьбы с пропусками данных

Рис. 2.1. Основные методы борьбы с пропусками данных

При использовании метода Бартлетта производят подстановку начальных значений вместо пропусков и осуществляют процедуру ковариационного анализа с сопутствующей переменной пропусков для каждого пропущенного значения.

Альтернативой данному методу является метод resampling, который является более простым в использовании и позволяет получить результаты аналогичного качества.

Bootstrap-метод заключается в проведении многократной обработки различных частей одних и тех же данных и сравнении полученных результатов. К тому же этот метод позволяет преодолеть смещение, обусловленное выборкой.

Методы многократного заполнения пропусков в настоящее время получают все большее развитие и распространение. Наиболее известным и используемым методом многократного заполнения пропусков является метод, предложенный Д. Рубиным. Техника множественной импутации позволяет заменить каждое отсутствующее или неполное значение двумя или более приемлемыми значениями, представляющими распределение вероятностей. Производится замена каждого пропущенного значения на вектор из m-значений. Импутируемые значения хранятся во вспомогательной матрице (матрице вменений) с одной строкой для каждого отсутствующего значения и т столбцов.

В обычной практике нецелесообразно иметь вспомогательную матрицу вменений, намного большую, чем матрица исходных данных, и, следовательно, многократно назначенный набор данных наиболее полезен для практики, когда доля потерянных значений не является чрезмерной и когда т (число переменных) является скромным, скажем, от 2 до 10. Наборы импутируемых значений могут быть получены на основе следующих моделей множественного заполнения пропусков: предиктивной, степени предрасположенности и дискриминантной. Выбор подходящей модели обуславливается шкалой измерения рассматриваемых данных.

Довольно широкое применение получили составные методы импу- тации, суть которых состоит в сочетании сразу нескольких методов в одной процедуре оценивания пропусков. В качестве примера можно привести объединение заполнения с подбором и заполнения по регрессии.

К методам устранения пропусков данных, кроме того, могут быть отнесены и факторный анализ, кластерный анализ, нейросетевые методы, а также локальные алгоритмы восстановления пропусков.

В настоящее время популярные статистические пакеты анализа данных (SPSS, EViews, Stata, Statistical не позволяют выполнить процедуры устранения пропусков всеми указанными методами. Зачастую программы ориентированы на самые простые методы: исключение объектов с пропусками, заполнение средними, заполнение с использованием регрессии и т.п. В мировой статистической практике в экономических исследованиях для восстановления данных используются прежде всего следующие пакеты пакеты: STEPS (разработка Бюро цензов США), GEIS (разработка статистического агентства Канады), AGGITS (разработка Департамента сельскохозяйственной статистики США), SOLAS (разработка ирландской компании Statistical Solutions Ltd).

Методы и технологии редактирования данных постоянно совершенствуются в целях создания универсальных систем автоматического редактирования и импутации для использования в статистических данных об экономической, социальной и демографической сферах жизни общества.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >