Полная версия

Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>

ПЗ.4.2. Исследование связей с помощью индекса Кетле

Индекс Кетле позволяет визуализировать корреляционные паттерны в таблицах сопряженности без удаления «неподходящих» объектов. Бельгийский ученый Адольф Кетле, один из основоположников современной статистики, еще в 1832 г. предложил измерять степень связи между категориями с помощью сравнения наблюденной условной частоты со средней частотой на всей таблице сопряженности. Коэффициент Кетле численно равен отношению этих двух величин минус единица.

Применим понятие коэффициента Кетле к анализу связи между наличием фермерского рынка и категорией «10 и более банков» в табл. 3.14. Частота совместного появления этих категорий — значение на пересечении соответствующих строки и столбца, Р(Ба=10+ & Фр=«Есть»)=2/45=4.44% (частота совместного появления). В целом доля строки «Есть» — 20%. Значит, частота категории «Ба=10+» при условии «Фр=“Есть”» равна Р(Ба=10+/Фр=«Есть») = Р(Ба=10+ & Фр=«Есть»)/Р(Фр=«Есть»)=0.0444/0.20=0.222=22.2%.

Эго много или мало? Трудно сказать, если не сравнить данное значение с безусловной вероятностью — частотой появления категории «Ба=10+» на всем множестве данных, равной Р(Ба=10+)=13.33%. Посчитаем относительную разницу между условной и безусловной вероятностями, которую и называем индексом Кетле:

Это значит, что условие «Фр=“Есть”» повышает частоту категории Ба=10+ на 66,7% по сравнению со средней. Такая логика полностью соответствует нашей интуиции. Рассмотрим, например, риск получения серьезного заболевания, скажем туберкулеза, частота которого очень невелика, например около 0,1% — одно на 1000 человек в данном регионе. При наличии же какого-либо отягчающего обстоятельства, например «плохих жилищных условий», уровень туберкулеза будет несколько выше, например 0,5%, пять на 1000 человек, что тоже невелико. Но это в 5 раз выше среднего уровня. Вот эти самые «разы» — именно то, что измеряется индексом Кетле: q(I/к) = (0,5 - 0,1) / 0,1 = 400%, т.е. средний уровень заболеваемости повышается на 400% для категории «плохие жилищные условия». Обратим внимание, что индекс Кетле сравнивает условную вероятность категории с безусловной, а не с той, которая получается при противоположном условии; в данном случае — с общей долей заболевших туберкулезом, а не долей заболевших среди тех, кто живет в хороших жилищных условиях.

Задание 3.7. Корреляция длины и ширины чашелистика в терминах категорий: различие между условной вероятностью и индексом Кетле

ширины чашелистика.

бинные гистограммы признаков чашелистика на ирисах

Рис. 3.22. 15-бинные гистограммы признаков чашелистика на ирисах:

длина — слева, ширина — справа

Вернемся к совместному распределению длины и ширины чашелистика, анализировавшемуся в задании 3.3. Напомним, что ширина практически нс связана с длиной, а если и связана, то отрицательно, так что ширина чашелистика скорее убывает с ростом его длины, чем увеличивается. Это парадоксальное заключение является следствием неоднородности выборки. В каждом таксоне зависимость правильная, возрастающая, но таксоны сильно отличаются как раз соотношением длины и

Посмотрим, как эта связь может проявиться, если оба признака преобразовать к качественному виду. Чтобы провести категоризацию осмысленно, посмотрим на реально наблюденные распределения этих признаков. Гистограммы на рис. 3.22 позволяют осмысленно выбрать границы категорий. На гистограмме длины чашелистика точки минимума расположены примерно на значениях 5, б и 7, Это значит, что вектор х = (4, 5, 6, 7, 8) может использоваться как совокупность разделителей между категориями длины, так что 4 — начало самой меньшей категории, а 8 — конец самой большой из них. Аналогично выбирается вектор г/ = (2, 2,8, 3,5, 4,5) разделителей для признака ширины. Формирование множеств объектов, соответствующих выделенным категориям, признаков длины и ширины (точнее их индексов) осуществляется в МатЛабе с использованием специальных циклических конструкций, широко используемых при алгоритмизации вычислений:

» for k=l:4;le{k}=find(ir(:,l)=x(k));end

» for l=l:3;wi{l}=find(ir(:,2)=y(l));end

Здесь ir — обозначение для 150 x 4 матрицы данных об ирисах; йпс1(условис) - оператор МатЛаба, отбирающий индексы всех тех и только тех объектов, для которых выполнено условие в скобках; for ... end — символика для определения цикла, автоматизирующего заполнение множеств 1е{к} и wi{l} объектов, попадающих в одну и ту же категорию к или 1.

Таблица сопряженности состоит из чисел р(1,к), выражающих численность объектов в пересечении категорий 1 и к, т.е. |wi{l}nle{k}| . Получить ее можно с помощью следующей последовательности команд:

» for k=l:3;for l=l:4;p(k,l)=length(intersect(wi{k},le{l}));end;end;

Здесь intersect выражает операцию взятия пересечения (общей части) множеств, a length определяет ее длину, т.е. численность. В результате получим матрицу

В матрице Р связи между созданными категориями длины и ширины чашелистика выражены в агрегированном виде. Например, 17 выражает общее число объектов, попавших в первую категорию длины и вторую категорию ширины. Парадоксальных объектов немного: первая категория длины (самые короткие) содержит только два объекта третьей категории ширины (самые широкие), а третья категория длины (самые длинные) содержит только один объект первой категории ширины (самые узкие). Впрочем, мало и самых коротких чашелистиков, являющихся самыми узкими (вопрос читателю: сколько?), равно как и самых длинных, являющихся самыми широкими (вопрос читателю: сколько?).

Кроме того, можно получить суммарные (маргинальные) частоты категорий по столбцам

и строкам

Для контроля вычислений можно суммировать элементы Рг и (или) Рс: суммы должны равняться общему числу объектов, 150. Разделив Р на это число, получим матрицу относительных частот:

которая суммируется к 1. На самом деле эти частоты играют роль вероятностей совместной встречаемости категорий длины и ширины. Мы видим, что чаще всего встречаются третья категория длины и вторая категория ширины, г.е. довольно длинные и широкие чашелистики, 28,67%.

Зададимся теперь вопросом: при заданной категории длины, какова наиболее вероятная категория ширины? Для ответа достаточно найти максимум в каждом столбце; ведь именно столбцы соответствуют категориям длины. В матрице Pf все максимумы сосредоточены во второй строке, что показано выделением этих элементов жирным шрифтом. Эго означает, что знание столбца не дает никакой полезной информации — та же вторая категория ширины отвечает любой категории длины. Попробуем слегка квантифицировать вопрос: какова условная вероятность строк (категорий ширины) при условии, что категория длины фиксирована.

Дадим ответ на этот вопрос для ситуации, когда фиксирована первая категория длины. В этом случае частоты встречаемости категорий ширины — это элементы первого столбца матрицы Р:

В этой категории имеется всего 22 объекта (другие принадлежат другим категориям длины), так что искомые вероятности получаются делением частот столбца на это число:

Обратим внимание на то, что полученные величины в сумме дают 1, т.е. действительно соответствуют вероятностям категорий ширины при условии, что имеет место первая категория длины. Операцию деления элементов матрицы Р на суммы элементов соответствующих столбцов можно провести в МатЛабе следующим образом:

» Pcon=P./repmat(pr,l,4)

Здесь операция repmat(pr,n,m) создает новую матрицу путем копирования матрицы рг, т раз по горизонтали, и п раз — по вертикали.

В результате получаем:

Таким образом, вероятность второй категории ширины равна 70% или даже больше во всех категориях длины, кроме второй. Для второй категории длины вероятность второй категории ширины «всего» 37,7%.

Условная вероятность часто применяется как способ разобраться в структуре связей между категориями столбцов и категориями строк. Но ее разрешающая способность ограничена. В ситуациях типа наблюдаемой сейчас ее использование не дает никакой новой информации по сравнению с безусловными вероятностями. Применение коэффициентов Кетле, измеряющих приростные характеристики, может оказаться значительно более информативно. По определению коэффициент Кетле равен относительной разнице между условной и безусловной вероятностями события: ц=(Р(строка/столбец)-Р(строка))/Р(строка). На языке матриц в МатЛабе это может быть выражено следующим образом, в процентах: »qc= 100*(Pcon-repmat(Pr,1,4)/n)./ repmat(Pr,l,4)/n что дает

Имеется и другая, эквивалентная, формула для вычисления индексов Кетле (см. подпараграф Ф.4.3):

» qq= P*n./(Pr*Pc) -1

Эта операция даст ту же матрицу, которая, будучи переведена в проценты, равна

Коэффициент Кетле показывает, на сколько процентов условная вероятность строки отличается от ее безусловной вероятности; чем он больше, тем выше связь. На полученной матрице максимумы столбцов — они выделены жирным шрифтом — попадают теперь не только во вторую строку, но и в третью. Конкретно, при условии, что длина выражается второй категорией, ширина попадает в категорию самых широких листьев на 96,72% раз чаще, чем в среднем.

Рабочий пример 3.12. Индекс Кетле и таблица сопряженности

Применим формулу (3.16) для вычисления индексов Кетле для данных в табл. 3.14 и запишем результаты в табл. 3.18. Выделяя положительные величины в таблице, получим тот же паттерн, что и в очищенных данных, приведенных в проекте 3.3.

Таблица 3.18

Коэффициенты Кетле для пары «Ба» / «Фр», в процентах (положительные значения выделены жирным шрифтом)

Фр

10+

4+

2+

1-

Есть

66,67

108,33

-64,29

-61,54

Нет

-16,67

-27,08

16,07

15,38

Но на этот раз мы сохранили выборку, как она есть, не пытаясь ее зачистить. В частности, можно отметить, что категория «Есть» признака «Фр» обеспечивает значительное увеличение вероятности многих банков, в то время, как категория «Нет» ведет к гораздо более слабым изменениям.

Вопрос 3.17. Рассчитайте коэффициенты Кетле для табл. 3.16.

Ответ. См. табл. 3.19, где положительные значения выделены жирным шрифтом.

Таблица 3.19

Индексы Кетле для пары «Тип протокола»/«Тип атаки» из таблицы сопряженности 3.17, %

Категория

Apache

Saint

Surf

Norm

Тср

56,25

56,25

-100,00

-16,29

Udp

-100,00

-100,00

-100,00

78,57

Icmp

-100,00

-100,00

900,00

-100,00

Задание 3.8. Полицейская практика в Англии: Расовые предрассудки полиции?

Рассмотрим пример реальных данных. Статистика применения полицией правила: «Не нужно никаких дополнительных разрешений, чтобы остановить и обыскать любого подозрительного индивида» (Останови-и-Обыщи, ОО) в Англии и Уэльсе в 2005 г., представлена в разрезе цвета кожи индивида (Ч — чернокожий, А — азиат и Б — белый), в табл. 2.4 параграфа 2.3 — с подавляющим большинством индивидов, принадлежащих категории Б.

Таблица 3.20

Распределение случаев ОО но цвету кожи

Категория

OO

He OO

Всего

Доля OO

4

131 723

1 377 493

1 509 216

0,0873

A

70 252

2 948 179

3 018 431

0,0233

Б

676 178

46 838 091

47 514 269

0,0142

Всего

878 153

51 163 763

52 041 916

0,0169

Сравнение распределения ОО с распределением всего населения по цвету кожи порождает критические замечания прессы о существовании в полиции расовых предрассудков. Попытаемся разобраться, в чем тут дело. Распределение населения по цвету кожи нетрудно найти в Интернете. Вычитая из общей численности населения той или иной категории цвета кожи количество случаев ОО для данной категории, получим табл. 3.20 (по итогам переписи 2001 г.). При этом неявно используется гипотеза, что никто нс подвергался процедуре ОО больше одного раза. В последнем столбце указаны относительные величины. Они-то и послужили поводом для обвинений полиции в расовых предрассудках: действительно, риск подвергнуться ОО процедуре в 6 раз чаще для представителя категории «Ч», чем для представителя категории «Б». Коэффициенты Кетле показывают то же (табл. 3.21). Категория «Ч» подвергалась ОО процедуре на 400% больше, чем в среднем; а категория «Б» — на 15% меньше.

Таблица 321

Коэффициенты Кетле для перекрестной классификации из табл. 3.20, %

Категория

ОО

Не ОО

Ч

417,2

-7,2

А

37,9

-0,6

Б

-15,7

0,3

Многие, включая автора, рассматривают подобные выводы из табл. 3.20, 3.21 как неправильные: они основаны на неявном постулате, что процедура ОО применяется к населению случайным образом. Разумно предположить, что полицейские — не идиоты, и применяют ОО только при необходимости. В таком случае распределение случаев ОО должно сравниваться с распределением цвета кожи не у всего населения, а только у приговоренных к тюремному заключению. Автор сделал такое сравнение: распределение множества лиц, подвергшихся ОО, по цвету кожи оказалось практически идентичным распределению лиц, находящихся в заключении. Поэтому утверждение о расовых предрассудках полицейских, столь очевидное, на первый взгляд, должно быть объявлено неверным (конечно, при условии, что английская судебная система свободна от них).

 
<<   СОДЕРЖАНИЕ ПОСМОТРЕТЬ ОРИГИНАЛ   >>