Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

1.2.2. Порядковые данные

Измерение в порядковой (ординальной) шкале, как было рассмотрено выше, помимо определения класса принадлежности позволяет упорядочить наблюдения, сравнив их между собой в каком-то смысле – лучше/ хуже, больше/меньше, не определяя, насколько лучше/хуже или больше/ меньше. Поэтому порядковые экспериментальные данные, даже если они перекодированы в цифры, нельзя рассматривать как числа и выполнять над ними арифметические операции.

Диаграмма Парето к примеру 1.16 – распределение числа страховых случаев в портфеле автокаско по их причине

Рис. 1.5. Диаграмма Парето к примеру 1.16 – распределение числа страховых случаев в портфеле автокаско по их причине

Проводя статистический анализ порядковых данных, кроме рассмотренных методов работы с номинальными, дополнительно к подсчету частот встречаемости категорий и формирования соответствующих таблиц частот, нахождения моды, можно вычислить ранг объекта. Порядковую шкалу также называют ранговой, а место объекта в последовательности, которую она собой представляет, – рангом объекта.

Кроме того, так как шкала ранжированная, то графически для порядковых данных можно построить не только гистограмму и круговую диаграмму, подробно рассмотренные в подпараграфе 1.2.1 для номинальных данных и отражающие результаты подсчета частот встречаемости каждого значения признака, но и изобразить исходные данные с их значениями в виде столбиковой диаграммы, если их число не очень велико.

Столбиковая (столбчатая) диаграмма (bar chart, column plot) – диаграмма в виде столбцов, по оси абсцисс которой отображаются все объекты наблюдения совокупности, но оси ординат – значения переменной для каждого объекта. Высота столбца отражает значения переменной у объекта (для порядковой переменной определяет его ранг).

Разновидность столбиковых составляют ленточные и полосовые диаграммы, которые изображаются не вертикально, а горизонтально (как в примере 1.6 из параграфа 1.1).

В примере 1.14 из параграфа 1.1 переменная "рейтинг надежности страховой компании" является порядковой, ее модой – значение рейтинга А с максимальным числом значений в представленной совокупности, а частота рейтингов в совокупности изображена с помощью гистограммы.

Пример 1.17

Проанализируем ведомость с результатами экзамена 32 студентов (табл. 1.4), построим частотную таблицу встречаемости каждого балла за экзамен, столбиковую диаграмму и гистограмму, иллюстрирующую полученные результаты.

Таблица 1.4

Исходная таблица

№ п/п

Балл за экзамен

№ п/п

Балл за экзамен

1

6

17

5

2

4

18

8

3

9

19

7

4

5

20

7

5

7

21

6

6

5

22

5

7

9

23

4

8

10

24

6

9

1

25

6

10

8

26

5

11

8

27

6

12

4

28

6

13

3

29

7

14

7

30

2

13

3

31

4

16

7

32

6

Построим дополнительную категориальную порядковую переменную, принимающую значения "отлично" (если балл 8–10). "хорошо" (при 6–7 баллах), "удовлетворительно" (при 4–5 баллах) и "неудовлетворительно" (если набрано меньше 4 баллов) (такая система оценивания знаний на экзаменах принята, например, в НИУ ВШЭ). Построим для нее столбиковую и круговую диаграммы и гистограмму.

Решение

"Балл за экзамен" – порядковая переменная, принимающая значения от 0 до 10, каждое из которых говорит о более высоких показанных на экзамене знаниях. Исходную таблицу (см. табл. 1.4) преобразуем в частотную, подсчитав частоту каждого балла (табл. 1.5).

Построим гистограмму переменной "балл на экзамене" (рис. 1.6).

Для сравнения построим график исходных значений – столбиковую диаграмму (рис. 1.7).

Таблица 1.5

Таблица частот баллов за экзамен

Балл на экзамене

Частота mi

Балл на экзамене

Частота т}

0

0

6

7

1

1

7

6

2

1

8

3

3

2

9

2

4

4

10

1

5

5

Гистограмма частот полученных за экзамен оценок по 10-балльной шкале к примеру 1.17

Рис. 1.6. Гистограмма частот полученных за экзамен оценок по 10-балльной шкале к примеру 1.17

Столбиковая диаграмма оценок за экзамен по 10-балльной шкале к примеру 1.17

Рис. 1.7. Столбиковая диаграмма оценок за экзамен по 10-балльной шкале к примеру 1.17

Сразу видны различия этих двух видов графиков: столбиковая диаграмма (см. рис. 1.7) показывает исходный массив без какого бы то ни было структурирования – значения переменной для каждого объекта, а гистограмма (см. рис. 1.6) – результаты статистического анализа данных, подсчета частот встречаемости каждого значения [55]. Как очевидно, гистограмма гораздо лучше характеризует исследуемую совокупность, показывая распределение частот оценок, выявляя баллы с наибольшей частотой (моду) и наименее встречающиеся баллы, позволяет проанализировать данные. Но столбиковая диаграмма также выполняет свою задачу – отражает индивидуальность объектов, ведь студентам, к примеру, интересны их собственные оценки, а не распределение баллов по группе, что может их заинтересовать только в дополнение к информации о своих результатах.

Можно построить имеющую большую наглядность столбиковую диаграмму для ранжированных от минимальной к максимальной всех оценок студентов группы (рис. 1.8).

Столбиковая диаграмма ранжированных оценок за экзамен по 10-балльной шкале к примеру 1.17

Рис. 1.8. Столбиковая диаграмма ранжированных оценок за экзамен по 10-балльной шкале к примеру 1.17

Мода исследуемой переменной – оценка 6 баллов. Именно этот балл получили наибольшее число студентов – семь человек.

Новую порядковую переменную – "оценка за экзамен по 4-балльной текстовой шкале" – построим согласно условию задачи, присвоив ей значения "отлично", если балл составляет 8, 9. 10, "хорошо" – при 6 или 7 баллах, "удовлетворительно" – при 4 или 5 баллах и "неудовлетворительно", если набрано меньше 4 баллов.

Для облегчения этой задачи удобно использовать в MS Excel функцию ЕСЛИ (=ЕСЛИ(В2>=8; "отлично"; ЕСЛИ(В2>=6: "хорошо"; ЕСЛИ(В2>=4; "удовлетворительно"; "неудовлетворительно"))) (в ячейке В2 находится исходный балл первого в списке студента). Значения полученной порядковой переменной, принимающей четыре значения, для каждого студента группы представим в виде столбиковой диаграммы (рис. 1.9).

Построим таблицу частот и относительных частот новых баллов, сгруппировав данные (табл. 1.6), а затем на ее основе – круговую диаграмму (рис. 1.10).

Столбиковая диаграмма полученных за экзамен оценок по 4-балльной шкале к примеру 1.17

Рис. 1.9. Столбиковая диаграмма полученных за экзамен оценок по 4-балльной шкале к примеру 1.17

Таблица 1.6

Таблица частот баллов по 4-балльной шкале

Балл на экзамене

Частота mi

Относительная частота, %

"Отлично"

6

19

"Хорошо"

13

41

"Удовлетворительно"

9

28

" Неудовлетворительно"

4

12

Модой построенной переменной является оценка "хорошо", которой соответствует максимальная частота – 13 человек, или 41% всех объектов наблюдения.

Круговая диаграмма частот полученных за экзамен оценок по 4-балльной текстовой шкале к примеру 1.17

Рис. 1.10. Круговая диаграмма частот полученных за экзамен оценок по 4-балльной текстовой шкале к примеру 1.17

В заключение параграфа отметим, что количественные переменные можно превратить в категориальные, т.е. их категоризовать (категорировать). Такие переменные часто называют категоризованными (категорированными). Например, непрерывная переменная "вес человека в килограммах" может быть превращена в порядковую переменную "вес человека" с градациями: недостаточный, нормальный, избыточный; для обозначения размеров одежды во многих странах используют следующую порядковую шкалу: S, М, L, XL, XXL и т.д.

Переменные с двумя категориями (есть свойство – нет свойства; купил – не купил и т.д.) обычно кодируют цифрами 0 и 1 и называют дихотомическими или бинарными. Особенно широкое применение они имеют в экономических, медицинских и социологических исследованиях, в которых большинство переменных, интересующих специалистов, измеряется в качественных шкалах. При этом дихотомические данные зачастую являются более адекватными, чем результаты измерений по методикам, использующим большее число категорий. Например, психологические тесты типа MMPI используют только дихотомические данные.

 
<<   СОДЕРЖАНИЕ   >>