Полная версия

Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Ф2.3. Формулировки

Качественный признак, например, Тип протокола в данных Компьютерные атаки разбивает множество объектов так, что каждый объект попадает в одну и только в одну категорию. Такие признаки называются номинальными.

Рассмотрим номинальный признак с L категориями / = 1, 2, ..., L. Его распределение характеризуется количеством объектов Nv N2, ..., NL, которые попадают в каждую из категорий. Заметим, что сумма численностей категорий равна общему числу объектов: 1 + N2 + ... + NL = N. Относительные частоты, определяемые как р/ = N// N, в сумме дают единицу (/=1,2, ..., L). Это свойство вытекает из альтернативного и всеобъемлющего характера категорий номинального признака — каждый объект покрывается какой-либо категорией, причем ни один объект не может принадлежать двум категориям или более.

Поскольку категории номинального признака не упорядочены, их лучше визуализировать с помощью круговых диаграмм, «караваев», а не гистограмм.

Характеристики центра, за исключением моды, не имеют смысла для распределений качественных признаков. Однако рассеяние, или разнообразие, распределения (р, р2>...,Pi) измеряют. Две популярные меры рассеяния: индекс Джини, или качественная дисперсия, и энтропия.

Индекс Джини — это средняя ошибка правила пропорционального предсказания. Согласно этому правилу каждая категория /,/=1,2, ..., I, предсказывается случайно с вероятностью р/, так что частота предсказанной категории / равна Npt. Средняя ошибка предсказания категории / в этом случае равна 1 - ph так, что суммарная средняя ошибка равна

Энтропия усредняет количество информации отдельных категорий. Информация о категории / равна log(l /pj) = -log(pi) для любого /. Энтропия вычисляется по формуле

Графики функции ошибки f(p) = 1 - р в индексе Джини (пунктирная линия) и количестве информации f(p) = -log(p)

Рис. 2.10. Графики функции ошибки f(p) = 1 - р в индексе Джини (пунктирная линия) и количестве информации f(p) = -log(p)

Энтропия не сильно отличается от индекса Джини, качественной дисперсии, так как при малых значениях р, величины -log( 1 - р) и 1 - р почти совпадают. Этот факт хорошо известен (рис. 2.10).

Отдельный класс номинальных признаков — бинарные признаки. У бинарного признака только две категории. Такие признаки могут появляться сами по себе, как атрибуты, которые могут присутствовать у объекта, а могут и отсутствовать. Но часто они формируются в связи с категориями качественного признака. Например, категория «иdp» Типа протокола в данных Компьютерные атаки может быть преобразована в бинарный признак в форме вопроса «Правда ли, что атака случилась при использовании протокола udp?». На этот вопрос может быть два ответа: «да» или «нет».

Бинарные признаки совмещают свойства качественных и количественных признаков. Принято считать, что основное различие между качественными и количественными типами шкал заключается в множествах допустимых преобразований. Допустимое числовое преобразование изменяет значения признака таким образом, что отношения между объектами по признаку сохраняются. Например, рост человека в сантиметрах может быть пересчитан в миллиметрах (для этого рост нужно умножить на 10), а температура, измеренная в градусах Фаренгейта, может быть преобразована в температуру в градусах Цельсия (для этого необходимо вычесть 32 и разделить результат на 1,8). Такое преобразование не изменяет отношения между различными областями, где температура была измерена в градусах Фаренгейта. Если в качестве новых температур выбрать произвольные значения, новое множество измерений будет представлять совершенно другую информацию. Этим определяется принципиальное различие между количественными и номинальными признаками. Значения номинальных признаков можно сравнивать только на предмет совпадения-несовпадения категорий, так что допустимы всевозможные взаимно-однозначные преобразования их значений. У количественных признаков можно изменять масштаб и сдвигать точку отсчета (начало шкалы), т.е. допустимы только так называемые аффинные преобразования. Такие преобразования переводят значения х в значения у с помощью двух числовых параметров, ах + b => г/, где а характеризует изменение масштаба, а b сдвиг точки отсчета шкалы. Это различие между типами шкал, однако, не работает для бинарных признаков. Дело в том, что для бинарных признаков любое их числовое преобразование определяется всего двумя константами — теми, которые замещают 0 и 1 соответственно. Эти константы могут быть связаны со сдвигом точки отсчета и изменением масштаба. Точнее, чтобы преобразовать значения бинарного признака: 0 в а, а 1 в (3, нужно всего два параметра: сдвиг b определяется величиной а, а масштаб а — разностью р - а. Это означает, что бинарный признак — одновременно и номинальный, и количественный.

Значения любого бинарного признака могут быть представлены двумя числами: 1 для «да», 0 для «нет». Иногда так закодированные категории называют дамми (dummy), или фиктивными переменными.

Вычислим дисперсию бинарного признака, у которого частота значения «да» равна р. Очевидно, среднее значение этого признака равно с = р. Дисперсия — это средний квадрат отклонения от среднего. Чтобы ее рассчитать, сложим Np величин (1 - р)2 (квадрат отклонения единицы от с) и N( 1 - р) величин р2 (квадрат отклонения нуля от с), получим $2 = р( 1 - р) = 1 - р2. Стандартное отклонение —

это квадратный корень из дисперсии, т.е. s = yjp{-p). Очевидно, что стандартное отклонение достигает максимума при р = 0,5, т.е. в том случае, когда оба бинарных значения равновероятны. Размах всегда равен 1. При р < 0,5, медиана т- 0, а среднее абсолютное отклонение sm состоит из Np значений, равных 1, и Лг(1 - р) значений равных 0, поэтому sm = р. При р > 0,5, т = 1 и число единиц равно Лг(1 - р) , отсюда sm =1 - р. В целом, это означает, что, sm = min(р, 1 — /;); эта величина не превышает стандартное отклонение. Действительно, если р < 0,5, то р < 1 - р и, следовательно, р2 <р( 1 - /;), поэтому sm < s. Аналогично, если р > 0,5, то р > 1 - р и р( - р) > (1 - р)2, поэтому sm < s, что и доказывает утверждение.

Пусть качественный признак развернут во множество бинарных признаков, соответствующих его значениям /= 1,2, ..., L. Тогда суммарная дисперсия всех L бинарных признаков равна индексу Джини, или качественной дисперсии, исходного признака.

Использование бинарных признаков может быть включено в вероятностный контекст. Существуют две вероятностные модели для бинарных признаков: модель Бернулли и модель Пуассона. Согласно модели Бернулли при данном р> 0 < р < 1, каждое значение xt равно 1 с вероятностью р, или равно 0 с вероятностью 1 - р. По модели Пуассона единицы рассыпаны случайно среди N бинарных разрядов, так что pN разрядов равны единице, а (1 - p)N — нулю. Математическое ожидание в обеих моделях совпадает и равно р. Дисперсии же различаются: дисперсия распределения Бернулли равна р( 1 - р), как определено выше, а дисперсия распределения Пуассона равна р, что, очевидно, больше при любых положительных значениях р, поскольку сомножитель 1 — р в дисперсии Бернулли меньше 1. Похожие модели могут быть построены и для качественных признаков с более чем двумя категориями.

Существует вполне естественное, но почему-то упорно не признаваемое, отношение между дисперсиями количественных и бинарных признаков. Дисперсия количественного признака всегда меньше, чем дисперсия соответствующего бинарного признака. Следуя работе [18], отнормируем признак так, что диапазон (размах) изменения данных X = {х{, xv} — это интервал [0, 1]. Среднее с значений X разделяет интервал определенным образом. Обозначим долю значений, больших или равных с в X, через р тогда доля наблюдений, меньших, чем с, будет равна 1 - р. Какое распределение значений в X максимизирует дисперсию при заданном р? Согласно обозначениям выше, Np наблюдений попадают между 0 и с. Если любую из этих точек подвинуть в сторону границы отрезка, 0, дисперсия только возрастет. Аналогично, дисперсия возрастет, если сдвинуть любую из оставшихся iV(l - р) точек, находящихся между си 1, в сторону другой границы, 1. Отсюда следует, что дисперсия р( 1 - р) бинарной переменной с Np нулевыми и Лг(1 - р) единичными значениями является максимальной при любом р. Доказано и то, что дисперсия и стандартное отклонение бинарного признака с распределением (/;, 1 - р) максимально среди всех количественных переменных с таким же диапазоном значений.

Следовательно, нс существует переменной с размахом [0, 1|, дисперсия которой больше максимальной возможной дисперсии 1/4, которой обладает бинарный признак при р = 0,5. Стандартное отклонение этого бинарного признака равно 1/2, что составляет только половину размаха. Следовательно, стандартное отклонение любой количественной переменной нс может быть больше, чем ее полуразмах.

Бинарные переменные обладают также максимальным абсолютным отклонением среди всех переменных такого же размаха. Это не трудно доказать но аналогии с рассуждениями выше.

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>