Полная версия

Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

Классификатор с интервальными предикатами

Другой, более удобный для человеческого восприятия, классификатор может быть построен с использованием интервалов количественного признака х. Для того чтобы спрогнозировать категорию k целевого признака, этот классификатор ссылается на интервальный предикат х(а(к), Ь(к)), значение которого «истина» тогда и только тогда, когда величина х лежит между а(к) и Ь(к). Далее строится решающее правило, которое будет справедливо в этой модели, если x(a(k), Ь(к)) => => к. Рассмотрим для примера атаку “Saint” в данных о компьютерных атаках: в табл. 1.4 на стр. 15-17 имеется 11 случаев атак такого типа и все, кроме одного, имеют значения признака SH, равные 482 или 483. Таким образом, правило интервального предиката SH(482,483) => Saint даст 10 корректных ответов из 11, т.е. лишь 9% ошибок.

Как узнать, какая из категорий наилучшим образом покрывается правилом интервального предиката? Одно из предложений заключается в использовании вкладов категорий в разброс х в уравнении (3.13), рк(х-хк)2, в обозначениях этого раздела, где рк — доля объектов в категории к, х — среднее количественного признака на всех объектах, а хк — среднее в категории к. Геометрическую иллюстрацию этого предложения можно увидеть на рис. 3.19 (вверху): чем дальше отдалено среднее в категории от общего среднего, тем больше шанс, что и все объекты категории отдалены, так что ее нетрудно описать интервальным признаком. Однако в некоторых случаях многие объекты категории могут находиться далеко от среднего по категории, что приведет к ошибкам «интервального» прогноза (см. рис. 3.19, нижняя часть).

Группа белых кружков сильно удалена от остальных объектов на верхней картинке, но на нижней белые кружки уже перемешаны с остальными объектами; это отражается во взаиморасположении звездочек

Рис. 3.19. Группа белых кружков сильно удалена от остальных объектов на верхней картинке, но на нижней белые кружки уже перемешаны с остальными объектами; это отражается во взаиморасположении звездочек, представляющих

общее и групповое средние

Рабочий пример 3.9. Вклад категории как основа формирования решающих правил с использованием интервальных предикатов

Рассмотрим уже использовавшиеся признаки Att и SHCo из данных о компьютерных атаках (см. пример 3.8) и определим вклады отдельных категорий Att по формуле (3.13), pk(x-xk)2 (см. табл. 3.11).

С учетом табл. 3.11 попытаемся построить интервальные предикаты для категорий с наибольшими вкладами, Saint и Smurf. Мы уже отмечали, что правило SH(482, 483) => => Saint порождает 9%-ную ошибку типа ложное «против». Причина — значение SH = 510, которое соответствует Saint (90-я строка таблицы данных об атаках), но не удовлетворяет правилу. Аналогичный предикат SH(490, 512) => Smurf так же один раз не верен, причем на том же самом объекте — но на этот раз это ложное «за»: удовлетворяет посылке, но не Smurf. Следующая по величине вклада — категория Normal: в ней х меняется от 1 до 28, что частично покрывает интервал (16, 42), относящийся к категории Apache. Если ограничить область изменения до 15, взяв предикат SH(1, 15) => Normal, он оказывается истинным в 53 из 56 случаев; три ложных «против» составляют всего лишь около 5%. Правило SH(16, 42) => Apache неверно на тех же трех объектах, но теперь это ошибки типа ложных «за».

Таблица 3.11

Вклады категорий но формуле (3.13)

Тип атаки

Доля

Среднее

Вклад

Apache

0,23

33,61

1514,3

Saint

0,11

484,64

15 049,8

Smurf

0,10

508,40

15 496,0

Normal

0,56

5,13

6729,9

Всего

1,00

114,75

38 790,0

Вопрос 3.15. Постройте таблицу вкладов категорий подобную табл. 3.11 для признаков «Длина чашелистика» и Таксон по данным об ирисах.

Ответ. См. табл. 3.12.

Таблица 3.12

Вклады таксонов в длину чашелистика

Таксон

Доля

Среднее

Квадрат рази.

Вклад

Т1

1/3

5,006

0,7011

0,2337

Т2

1/3

5,936

0,0086

0,0029

ТЗ

1/3

6,588

0,5545

0,1848

Все множество

1,00

5,843

Относительная успешность импликаций, основанных на интервальных предикатах в примере 3.9, обусловлена высокой корреляцией между SH и Типом атаки. В ситуации, когда особой корреляции нет, как, например, у пары «Длина чашелистика — Таксон» для данных об ирисах, интервальные правила могут приводить к многим ошибкам. Рассмотрим, например, категорию с наибольшим вкладом Т1 в табл. 3.13. Диапазон длины чашелистика в таксоне Т1 составляет от 4,3 до 5,8. Если взять весь этот интервал и сформулировать правило ДЧ(4,3, 5,8) => => Т1, оно не дает ни одного случая «ложного против», но вместе с тем приводит к очень многим «ложным за»: 24 объекта таксона Т2 и 6 объектов таксона ТЗ лежат в интервале (4,3, 5,8), что в сумме образует 30 ложных «за»! Можно попытаться сузить границы интервала, чтобы значительно уменьшить число ложных «за» ценой добавления немногих ложных «против». Рассмотрим, например, правило ВИ(4,3, 5,5) => Т1: теперь число ложных «за» — 12(11 Т2 и 1 ТЗ), тогда как число ложных «против» — 3, что в итоге дает 15 ошибок — вдвое меньше, чем 30, но все-таки немало. Тем не менее интервальные правила удобны для человека, так что иногда подобные правила могут быть приняты даже несмотря на высокие ошибки. Кроме того, эти правила можно уточнять, добавляя к ним интервальные предикаты, порожденные другими признаками.

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>