Порядковые данные

Измерение в порядковой (ординальной) шкале, как было рассмотрено в гл. 3, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то смысле — лучше/ хуже, больше/меньше, не определяя, насколько лучше/хуже или больше/ меньше. Поэтому порядковые экспериментальные данные, даже если они перекодированы в цифры, нельзя рассматривать как числа и выполнять над ними арифметические операции.

Проводя статистический анализ порядковых данных, кроме рассмотренных методов работы с номинальными, дополнительно к подсчету частот встречаемости категорий и формирования соответствующих таблиц частот, нахождения моды, можно вычислить ранг объекта. Порядковую шкалу также называют ранговой, а место объекта в последовательности, которую она собой представляет, рангом объекта.

Кроме того, так как шкала ранжированная, то графически для порядковых данных можно построить не только гистограмму и круговую диаграмму, подробно рассмотренные в п. 4.1.1 для номинальных данных и отражающие результаты подсчета частот встречаемости каждого значения признака, но и изобразить исходные данные с их значениями в виде столбиковой диаграммы, если их число не очень велико.

Столбиковая (столбчатая) диаграмма (barchart, columnplot) — диаграмма в виде столбцову по оси абсцисс которой отображаются все объекты наблюдения совокупности, по оси ординат — значения переменной для каждого объекта. Высота столбца отражает значения переменной у объекта (для порядковой переменной определяет его ранг).

Разновидность столбиковых составляют ленточные и полосовые диаграммы, которые изображаются не вертикально, а горизонтально (см. пример 3.5).

В примере 3.12 модой порядковой переменной «рейтинг надежности страховой компании» является значение рейтинга А с максимальным числом значений в представленной совокупности, а частота рейтингов в совокупности изображена с помощью гистограммы.

Пример 4.2

Проанализируйте ведомость с результатами экзамена 32 студентов, постройте частотную таблицу встречаемости каждого балла за экзамен, столбиковую диаграмму и гистограмму, иллюстрирующую полученные результаты.

Постройте дополнительную категориальную порядковую переменную, принимающую значения «отлично» (если балл 8—10), «хорошо» (при 6—7 баллах), «удовлетворительно» (при 4—5 баллах) и «неудовлетворительно» (если набрано менее 4 баллов). Постройте для нее столбиковую и круговую гистограммы.

«Балл за экзамен» — порядковая переменная, принимающая значения от 0 до 10, каждое из которых говорит о более высоких показанных на экзамене знаниях. Исходную табл. 4.3 преобразуем в частотную, подсчитав частоту каждого батла (табл. 4.4, рис. 4.3).

Таблица 43

Исходная таблица

№ п/п

Балл за экзамен

1

6

2

4

3

9

4

5

5

7

6

5

7

9

8

10

9

1

10

8

11

8

12

4

13

3

14

7

15

3

16

7

17

5

18

8

19

7

20

7

21

6

22

5

23

4

24

6

25

6

26

5

27

6

28

6

29

7

30

2

31

4

32

6

Таблица 4.4

Таблица частот встречаемости баллов

Балл за экзамен

Частота т,

0

0

1

1

2

1

3

2

4

4

5

5

6

7

7

6

8

3

9

2

10

1

Гистограмма частот полученных за экзамен оценок по 10-балльной шкале

Рис. 43. Гистограмма частот полученных за экзамен оценок по 10-балльной шкале

Для сравнения построим график исходных значений — столбиковую диаграмму (рис. 4.4).

Сразу видны отличия этих двух видов графиков: столбиковая диаграмма показывает исходный массив без какого бы то ни было структурирования — значения переменной для каждого объекта, а гистограмма — результаты статистического анализа данных, подсчета частот встречаемости каждого значения. Как видно, гистограмма (см. рис 4.3) гораздо лучше характеризует исследуемую совокупность, показывая распределение частот оценок, выявляя баллы с наибольшей частотой (моду), позволяет проанализировать данные. Но столбиковая диаграмма выполняет свою задачу — отражает индивидуальность объектов — ведь студентам, к примеру, интересны их собственные оценки, а не распределение баллов по группе, что может их заинтересовать только в дополнение к информации о своих результатах.

Столбиковая диаграмма оценок за экзамен по 10-балльной шкале

Рис. 4.4. Столбиковая диаграмма оценок за экзамен по 10-балльной шкале

Мода исследуемой переменной — оценка 6 баллов — именно этот балл получили наибольшее число студентов — 7 человек.

Ранги объектов в рассматриваемой совокупности совпадают со значениями переменной — величиной полученных баллов.

Новую порядковую переменную — «оценка за экзамен по четырехбалльной текстовой шкале» — построим согласно условию задачи, присвоив ей значения «отлично», если балл 8—10, «хорошо» при 6—7 баллах, «удовлетворительно» при 4—5 баллах и «неудовлетворительно», если набрано менее 4 баллов.

Для облегчения этой задачи удобно использовать в Excel функцию ЕСЛИ (=ЕСЛИ (В2>=8; «отлично»; ЕСЛИ (В2>=6; «хорошо»; ЕСЛИ (В2>=4; «удовлетворительно»; «неудовлетворительно»))) (в ячейке В2 находится исходный балл первого в списке студента). Значения полученной порядковой переменной, принимающей четыре значения, для каждого студента группы представим в виде столбиковой диаграммы (рис. 4.5).

Столбиковая диаграмма полученных за экзамен оценок по четырехбалльной шкале

Рис. 4.5. Столбиковая диаграмма полученных за экзамен оценок по четырехбалльной шкале

Построим таблицу частот и относительных частот новых баллов, сгруппировав данные (табл. 4.5), а затем на ее основе — круговую диаграмму (рис. 4.6).

Таблица 4.5

Таблица частот баллов по 4-балльной шкале

Балл за экзамен

Частота ти,-

Относительная частота, %

Отлично

6

19

Хорошо

13

41

Удовлетворительно

9

28

I ^удовлетворительно

4

12

Круговая диаграмма частот полученных за экзамен оценок по 4-балльной текстовой шкале

Рис. 4.6. Круговая диаграмма частот полученных за экзамен оценок по 4-балльной текстовой шкале

Модой построенной переменной является оценка «хорошо»; ей соответствует максимальная частота — 13 человек, или 41% всех объектов наблюдения (рис. 4.6).

Ранги объектов в совокупности для новой переменной соответственно равны 1, 2, 3, 4.

В заключение отметим, что количественные переменные можно превратить в категориальные, т.е. их категоризовать (категорировать). Такие переменные часто называют категоризованными (категорированными). Например, непрерывная переменная «вес человека в килограммах» может быть превращена в порядковую переменную «вес человека» с градациями: недостаточный, нормальный, избыточный; для обозначения размеров одежды во многих странах используют следующую порядковую шкалу: S, М, L, XL, XXL и т.д.

Переменные с двумя категориями (есть свойство — нет свойства; купил — не купил и т.д.), как правило, кодируют цифрами 0 и 1 и называют дихотомическими, или бинарными. Особенно широкое применение они имеют в экономических, медицинских и социологических исследованиях, где большинство переменных, интересующих специалистов, измеряется в качественных шкалах. При этом дихотомические данные зачастую более адекватные, чем результаты измерений по методикам, использующим большее число категорий. Например, психологические тесты типа MMPI применяют только дихотомические данные.

Более сложные методы анализа категориальных переменных — факторный и кластерный анализ на основе категориальных данных, категориальная регрессия, регрессионные модели бинарного и множественного выбора, классификационные деревья и другие более сложные методы анализа категориальных данных — выходят за рамки представляемого курса и рассматриваются в курсах «Статистический анализ нечисловой информации», «Многомерные статистические методы», «Эконометрика», «Эконометрическое моделирование» и др.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >