Характеристики разнообразия ответов

Статистические характеристики разнообразия ответов имеют смысл только для данных, полученных с помощью интервальных или пропорциональных шкал. Мы рассмотрим пять статистических характеристик такого рода:

  • o размах (range);
  • o межквартильное расстояние (interquartile range);
  • o дисперсия (variance);
  • o стандартное отклонение (standard deviation);
  • o коэффициент вариации (coefficient of variation).

Размах рассчитывается как разность между наибольшим и наименьшим значениями, встретившимися в выборке:

(12.2)

Проиллюстрируем расчет данной характеристики и других характеристик разнообразия ответов.

Пример 12.2

Распределение ответов бывших клиентов фитнес-центра на вопрос об их возрасте

Таблица 12.8. Распределение ответов респондентов на вопрос: "Сколько вам полных лет?"

Возраст

Frequency

Percent

Valid

Percent

Cumulative

Percent

Valid 26

1

,5

,5

,5

29

8

3,7

3,8

4,2

30

15

7,0

7,0

11,3

31

7

3,3

3,3

14,6

32

13

6,1

6,1

20,7

33

15

7,0

7,0

27,7

34

12

5,6

5,6

33,3

35

20

9,3

9,4

42,7

36

21

9,8

9,9

52,6

37

10

4,7

4,7

57,3

38

12

5,6

5,6

62,9

39

11

5,1

5,2

68,1

40

17

7,9

8,0

76,1

41

9

4,2

4,2

80,3

42

7

3,3

3,3

83,6

43

10

4,7

4,7

88,3

44

13

6,1

6,1

94,4

45

6

2,8

2,8

97,2

46

6

2,8

2,8

100,0

Total

213

99,5

100,0

Missing System

1

,5

Total

214

100,0

Как видно из табл. 12.8, в рассматриваемом нами примере размах равен 46 - 26 = 20 годам.

Из приведенного определения становится очевидным, что размах очень чувствителен к значениям, резко отличающимся от основной массы, т.е. к выбросам. Например, если возраст, равный 46, по ошибке или по другой причине будет заменен на 96, размах увеличится в два с половиной раза и будет равен 50. Поэтому наряду с размахом рассматривается менее чувствительный в данном отношении показатель - межквартильное расстояние.

Введем понятие процентиля.

Вновь, как при определении понятия медианы, расположим респондентов в порядке возрастания значений переменной (в нашем примере - возраста респондентов), т.е. построим вариационный ряд. Отсчитаем в этом ряду А процентов респондентов, начиная с тех, кто дал наименьшие ответы. Значение ответа, данного последним из отсчитанных нами респондентов, называется процентилем А. Очевидно, что при А = 50% мы получим уже знакомую нам медиану. Процентиль при А = 25% принято называть первым квартилем (так как он отсекает от выборки первую четверть - кварту), процентиль при А = 50% - не только медианой, но еще и вторым квартилем, процентиль при А = 75% - третьим квартилем. В нашем примере (правый столбец табл. 12.8) первый, второй и третий квартили равны 33, 36 и 40 годам соответственно.

Межквартильным расстоянием (h) называется разность между третьим и первым квартилями распределения ответов. В рассматриваемом нами примере эта характеристика равна h = 40 - 33 = 7 годам.

В программном пакете SPSS показатели размаха, межквартильного расстояния и некоторые другие удобно визуализированы коробчатой диаграммой (меню Graphs → Boxplot, опция Summaries of separate variables), которая приведена на рис. 12.10. На этой диаграмме нижняя сторона прямоугольника проходит на уровне первого квартиля, горизонтальная линия, пересекающая прямоугольник, - на уровне второго квартиля (т.е. медианы), а верхняя сторона прямоугольника - на уровне третьего квартиля. В нашем случае это 1500, 2500 и 3400 руб. соответственно. Таким образом, высота прямоугольника равна межквартильному расстоянию (3400 - 1500 = 1900 руб.).

Коробчатая диаграмма по ответам на вопрос о среднемесячном доходе в расчете на члена семьи

Рис. 12.10. Коробчатая диаграмма по ответам на вопрос о среднемесячном доходе в расчете на члена семьи.

С коробчатой диаграммой связаны два важных понятия: экстремальные значения (extreme cases) и выбросы (outliers). Экстремальными значениями называются значения переменной, выходящие за пределы прямоугольника (вверх или вниз) более чем на три межквартильных расстояния. Выбросами называются значения, выходящие за пределы прямоугольника (вверх или вниз) не более чем на три, но более чем на полтора межквартильных расстояния.

Выбросы изображаются на диаграмме кружками, а экстремальные значения - звездочками. И те и другие маркируются на графике номером соответствующей строки таблицы данных (в естественном порядке, а не после сортировки по возрастанию).

В нашем случае экстремальными значениями считаются доходы на члена семьи, превышающие 9100 руб. в месяц (3400 + 3 · 1900), а выбросами - находящиеся в диапазоне от 6250 (3400 + 1,5 · 1900) до 9100 руб. в месяц.

После того как выбросы и экстремальные значения исключены из рассмотрения, отыскивается максимальное и минимальное значение переменной. Эти значения изображаются на графике так называемыми горизонтальными отрезками. По удалению от этих отрезков первого из выбросов можно судить о том, действительно ли выбросы резко отличаются от всех остальных значений. В данном случае мы видим, что это не так: выбросы подступают вплотную к верхнему горизонтальному отрезку. Значит, распределение дохода имеет, что называется, длинный и тонкий "хвост", который по формальному признаку "перерезан" на уровне 6250 руб. в месяц.

Расстояние между максимумом и минимумом переменной, определенными без учета выбросов и экстремальных значений, называется реальным размахом. Реальному размаху соответствует на диаграмме расстояние между верхним и нижним горизонтальными отрезками.

Таким образом, коробчатая диаграмма - очень удобный исследовательский инструмент, дающий самую разнообразную пищу для размышлений.

Рассмотрим еще две важнейшие статистические характеристики разнообразия ответов, при расчете которых, в отличие от рассмотренных нами выше характеристик, учитывается весь набор значений изучаемой переменной: дисперсия и среднеквадратическое отклонение изучаемой переменной. Эти характеристики имеют смысл, только если переменная измерена в интервальной или порядковой шкале. Ни в коем случае нельзя применить эти характеристики к номинальным и ранговым шкалам.

Среднеквадратическое (или стандартное) значение (standard deviation) показывает, на какую величину в среднем отклоняются от среднего ее значения, и представляет собой квадратный корень из дисперсии (variance). Остановимся на том, как рассчитывается дисперсия.

Если бы мы знали значения изучаемой случайной величины не по выборке, а по всей исследуемой (генеральной) совокупности, мы могли бы рассчитать дисперсию абсолютно точно: как средний квадрат отклонения случайной величины от среднего значения случайной величины:

(12.3)

где N - число элементов исследуемой совокупности.

В этом фантастическом случае среднеквадратическое отклонение можно было бы рассчитать по формуле

(12.4)

У нас, однако, есть сведения только о значении исследуемой переменной у тех п представителей исследуемой совокупности, которые попали в выборку и были опрошены. На основании этих данных мы можем рассчитать оценки дисперсии и среднеквадратического отклонения s2 и s соответственно по следующим формулам:

(12.5)

(12.6)

где n - число элементов в выборке.

Деление на (n - 1), а не на n позволяет учесть, что истинное среднее значение случайной величины нам известно лишь приблизительно, так как расчет ведется не по элементам всей исследуемой совокупности, а по выборке. Рассчитанное по выборке среднее несколько отклоняется от истинного значения в сторону вошедших в выборку значений. Поэтому, если бы мы делили сумму квадратов отклонений от выборочного среднего на n, мы, скорее всего, занизили бы оценку дисперсии. Чтобы этого не случилось, мы делим на чуть меньшую величину: n-1, увеличивая дробь. Можно доказать, что полученная при этом оценка дисперсии является несмещенной.

Как видно из табл. 12.9, в нашем примере с возрастом бывших клиентов фитнес-центра выборочная оценка стандартного отклонения равна 4,8. Значит, возраст клиентов, как правило, отклоняется от среднего (36,84) на 4,8 года.

Вернемся к опросу бывших клиентов фитнес-центра и приведем результаты расчета всех обсуждавшихся выше характеристик разнообразия ответов респондентов (табл. 12.9). В программном комплексе SPSS этот расчет делается следующим образом: меню Analyze → Descriptive Statistics → Frequencies; на вкладке Statistics отметить Std. Deviation, Variance, Range и Cut points for 4 equal groups.

Таблица 12.9. Статистические характеристики разнообразия в ответах респондентов на вопрос о возрасте

СКОЛЬКО ВАМ ПОЛНЫХ ЛЕТ?

N Valid

213

Missing

1

Mean

36,8

Median

36,0

Mode

36

Std. Deviation

4,8

Variance

22,6

Range

20

Minimum

26

Maximum

46

Percentiles 25

33,0

50

36,0

75

40

Напомним: дисперсию и среднеквадратическое отклонение можно рассчитывать только для интервальных и пропорциональных шкал. Рассмотрим теперь коэффициент вариации - характеристику, которую бессмысленно рассчитывать даже для интервальных шкал, не являющихся пропорциональными. Только для пропорциональных! Коэффициент вариации представляет собой отношение стандартного отклонения измеряемой переменной к ее среднему значению:

(12.7)

Коэффициент вариации позволяет судить об относительной, не зависящей от единиц измерения и масштаба изменчивости переменной, что дает возможность сравнивать между собой изменчивость разных параметров.

Пример 12.3

Исследование статистических характеристик разнообразия

По данным еженедельных опросов взрослого населения России, проводившихся Фондом Общественное Мнение в августе 2008 и 2009 гг., за кризисный год коэффициенты вариации месячного дохода на одного члена семьи (табл. 12.10) изменились следующим образом. Расчеты по каждому году делались на основании одного опроса, размер выборки которого составлял 1500 респондентов.

Таблица 12.10. Статистические характеристики разнообразия в ответах респондентов на вопрос о доходах

Август 2008 г.

Август 2009 г.

Среднее значение, руб.

5938

6564

Среднеквадратическое отклонение, руб.

6215

5645

Коэффициент вариации

1,047

0,860

Мы видим, что за год средние доходы населения несколько выросли, а среднеквадратическое отклонение несколько снизилось. В итоге коэффициент вариации заметно уменьшился: с 1,047 до 0,860, т.е. доходы россиян стали более однородными, их разброс снизился.

 
< Пред   СОДЕРЖАНИЕ     След >