Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Анализ одномерных категориальных данных

Для того чтобы правильно применять те или иные статистические методы анализа данных, необходимо прежде всего определиться с типом данных – это мы подробно рассмотрели в предыдущем параграфе. К разным типам данных нужны разные подходы и методы. Начнем рассмотрение с наиболее простых с точки зрения анализа категориальных (качественных) данных.

Как было рассмотрено в подпараграфе 1.1.3, категориальные данные – номинальные и порядковые – характеризуются тем, что все объекты исследования могут быть отнесены к разным категориям или классам, они позволяют произвести разделение объектов на подгруппы.

Номинальные данные

Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. Например: пол, профессия, страна и т.д. В этой шкале, таким образом, можно лишь посчитать количество объектов в классах – частоту mi и относительную частоту (частость) тi/п.

Таблицы частот (frequency tables), или, как еще их называют, одновходовые таблицы, представляют собой простейший метод анализа категориальных переменных. В таких таблицах каждое значение переменной указывается вместе с частотой встречаемости такого значения в исследуемой совокупности объектов наблюдения. Часто таблица частот дополняется накопленными (кумулятивными) частотами (табл. 1.1), показывающими суммарное число объектов во всех классах до рассматриваемого, включая его, и соответствующими относительными частотами (частостями) m-Jn или m,Jn.

Таблица 1.1

Типичная таблица частот категориальной переменной

Категория (класс) переменной

Частота

т.

Накопленная частота miu

Относительная частота m jn

Относительная накопленная частота тin/п

Класс 1

3

3

0,086

0,086

Класс 2

6

9

0,171

0.257

Класс 3

7

16

0,200

16/35 = 0,457

Класс 4

11

27

0,314

0.771

Класс 5

5

32

0,143

0.914

Класс 6

2

31

0,057

0.971

Класс 7

1

35

0,029

1.000

Как правило, номинальные данные графически иллюстрируются при помощи гистограмм или круговых диаграмм.

Гистограмма (histogram) – диаграмма в виде столбцов (рис. 1.2), по оси абсцисс которой отображаются все возможные значения переменной, по оси ординат – частоты встречаемости т, каждого значения или относительные частоты – доли, частости тi/п.

Вид типичной гистограммы для категориальных данных

Рис. 1.2. Вид типичной гистограммы для категориальных данных

Гистограмма, в отличие от столбиковой диаграммы, отражает распределение частот встречаемости каждого значения признака, а не значения самого признака для различных объектов и позволяет указать распределение объектов по классам, самые редко и часто встречающиеся значения.

Гистограмма была введена в статистику известным английским математиком, основателем математической статистики Карлом Пирсоном (Karl Pearson) в 1895 г.

Круговая диаграмма (pie chart, от англ, pie – "пирог") – вид графика в виде круга, который позволяет показать разделение целого множества значений переменной на составные части – сектора, площадь которых пропорциональна частоте встречаемости каждого значения – подобно делению пирога на куски.

Круговые диаграммы особенно хорошо подходят для визуализации категориальных данных. Пример круговой диаграммы (построена в MS Excel) для данных из рис. 1.2 приведен на рис. 1.3.

Вид типичной круговой диаграммы для категориальных данных

Рис. 1.3. Вид типичной круговой диаграммы для категориальных данных

Пример 1.16

Для журнала убытков договоров страхования автокаско (табл. 1.2) проанализируем переменную "Причина страхового случая" и построим частотную таблицу встречаемости каждой причины и круговую диаграмму, иллюстрирующую полученные результаты.

Таблица 1.2

Исходная таблица данных (фрагмент)

Номер договора

Причина страхового случая

1

Ущерб

2

ПДТЛ

3

ДТП

4

Нс указан

5

ДТП

6

ПДТЛ

7

Стекло

8

Ущерб

9

ДТП

10

ДТП

11

ПДТЛ

12

ДТП

13

Эвакуация ТС

14

ДТП

15

ДТП

16

ДТП

10 858

Падение предмета на а/м

10 859

ДТП

Решение

Переменная "Причина страхового случая" – категориальная, номинальная (нет оснований считать какую-то причину более важной, чем другая). Для анализа таких данных строят частотные таблицы и графики, например круговые диаграммы.

Так как число объектов в исследуемом журнале очень велико (10 859 договоров), посчитать частоты вручную достаточно трудоемко. Лучше всего воспользоваться статистическими пакетами или наиболее доступным программным продуктом – MS Excel

Мастер СВОДНЫХ ТАБЛИЦ MS Excel позволяет быстро получить таблицу, в которой каждая из категорий исследуемой переменной указана вместе с частотой встречаемости (табл. 1.3).

Таблица 1.3

Таблица частот

Причина страхового случая

Частота т,

Авария коммунальных систем

4

Гражданская ответственность

3

Дорожно-транспортное происшествие (ДТП)

6198

Не указан

329

Падение льда

18

Падение предмета на а/м

67

Падение снега

2

Противоправные действия третьих лиц (ПДТЛ)

1544

Пожар

29

Попытка угона

4

Стекло

1878

Стихийное бедствие

5

Угон

108

Ущерб

667

Эвакуация ТС

2

Общий итог

10 859

Круговая диаграмма (рис. 1.4) позволяет визуально оценить, насколько часто (в %) в исследуемом портфеле встречаются указанные причины страхового случая.

Круговая диаграмма к примеру 1.16 – распределение числа страховых случаев в портфеле автокаско но их причинам, %

Рис. 1.4. Круговая диаграмма к примеру 1.16 – распределение числа страховых случаев в портфеле автокаско но их причинам, %

Для описания категориальных переменных не используются никакие числовые характеристики, так как они не принимают числовых значений, измеренных в интервальной шкале, и никакого смысла нет, например, в показателе "средний пол", рассчитанном как среднее арифметическое между двумя категориями – мужской и женский пол, даже если они перекодированы в числа. Единственной полезной характеристикой является мода.

Мода – наиболее часто встречающееся значение переменной.

Мода может быть не единственной, если два или несколько значений переменной обладают одинаковой максимальной частотой. В этом случае распределения называются бимодальными или полимодальными соответственно.

Модой переменной "Причина страхового случая" из примера 1.16 является категория "ДТП", так как ей принадлежит 6198 договоров – 56% всего страхового портфеля.

В примере 1.13 модой переменной "Цвет глаз" является категория "серые", так как ей в указанной совокупности принадлежит 50% наблюдений.

Оба распределения унимодальны (одномодальны).

Еще одним способом графического отображения и анализа категориальных номинальных данных является так называемая диаграмма Парето.

Диаграмма Парето – это гистограмма, изображающая частоты встречаемости признака в убывающем порядке, на которую накладывается точечно-линейный график из накопленных частот (или процентов, долей), отражающий накопленную частоту (или частость) значений признака. Диаграмма Парето используется для того, чтобы отделить несколько существенных факторов (vita!few) от множества несущественных (trivial many), и поэтому называется еще "Правило 80–20" – 80% результата часто обусловлены действием 20% всех вызывающих их факторов.

Диаграмма Парето (рис. 1.5) была названа в честь итальянского экономиста Вильфредо Парето (Vilfredo Pareto, 1848–1923), впервые описавшего с помощью подобного графика в системе статистического контроля качества продукции долю факторов, наиболее часто являющихся причиной дефектов. Выбор чисел 20 и 80 является также данью заслугам Парето, выявившего конкретную структуру распределения доходов среди итальянских домохозяйств, которой и было свойственно сосредоточение 80% доходов у 20% семей.

Как очевидно из рис. 1.5, в нашем случае диаграмма Парето также позволила выделить самые главные причины страховых случаев. Всего две причины вызывают около 74,4% всех страховых случаев – дорожно- транспортные происшествия (ДТП) и повреждения стеклянных элементов машин (фар, стекол, зеркал) (Стекло). С учетом третьей причины – противоправных действий третьих лиц (ПДТЛ) – доля договоров, вызванных этими причинами, достигает практически 88,6%.

 
<<   СОДЕРЖАНИЕ   >>