Частотные распределения

Перейдем теперь к более детальному рассмотрению отдельных процедур, составляющих базовый анализ данных: процедур расчета частотных распределений (frequency distribution) и таблиц кросс-табуляции (cross-tabulation). После этого мы покажем, как при использовании этих процедур проверяются статистические гипотезы (hypothesis testing) о связях и о различиях.

Начнем с расчета частотных распределений. Он позволяет дать ответ, например, на следующие вопросы:

  • - каковы число и доля лояльных (преданных) потребителей бренда от числа всех его потребителей?
  • - каковы число и доля представителей исследуемой совокупности, хорошо, средне, мало и совсем не информированных о новом продукте фирмы?
  • - какую долю рынка составляют тяжелые, средние, легкие пользователи и непользователи товара?
  • - значимо ли эти замеренные в ходе опроса доли отличаются от некоторых фиксированных значений, намеченных руководителями данной фирмы?
  • - каково распределение доходов потребителей определенного бренда? Верно ли, что оно смещено в сторону относительно низких доходов?

В программном пакете SPSS расчет частотных распределений осуществляется командой Frequencies (меню Analyze → Descriptive Statistics → Frequencies).

Пример 12.1

Распределение ответов бывших клиентов фитнес-центра

Рассмотрим распределение ответов лиц, которые перестали посещать фитнес-центр, на вопрос о том, сколько времени они обычно проводили там, когда посещали его (табл. 12.5).

Таблица 12.5. Распределение ответов респондентов на вопрос: "Сколько примерно времени вы обычно проводили в фитнес-центре?", ч

Значения

Варианты ответов, ч

Frequency (частота, с которой встречалось значение)

Percent (процент от числа всех значений)

Valid Percent (процент от числа допустимых значений)

Cumulative Percent (процент допустимых нарастающим итогом)

Valid (допустимые значения)

,50

1

,5

,5

,5

1,00

15

7,0

7,1

7,5

1,50

34

15,9

16,0

23,6

1,75

4

1,9

1,9

25,5

2,00

75

35,0

35,4

60,8

2,20

1

,5

,5

61,3

2,25

1

,5

,5

61,8

2,30

1

,5

,5

62,3

2,50

26

12,1

12,3

74,5

2,75

1

,5

,5

75,0

3,00

39

18,2

18,4

93,4

3,50

5

2,3

2,4

95,8

4,00

8

3,7

3,8

99,5

5,00

1

,5

,5

100,0

Total

212

99,1

100,0

Missing (Отсутствующие значения)

System

2

,9

Total (всего)

214

100,0

Мы видим, что всего было опрошено 214 респондентов. Двое из них не оценили типичную продолжительность своего пребывания в фитнес-центре. Это отражено в соответствующем столбце таблицы данных надписью System - системный пропуск данных. Два часа обычно проводили в фитнес-центре 75 респондентов, что составило 35,0% от числа всех опрошенных, или 35,4% от числа ответивших на вопрос.

Данные, приведенные в таблице, становятся наглядными благодаря диаграмме частот (рис. 12.7), возможность построения которой также предусмотрена в команде Frequencies (вкладка Charts).

График частотного распределения ответов респондентов на вопрос о времени их пребывания в фитнес-центре, ч

Рис. 12.7. График частотного распределения ответов респондентов на вопрос о времени их пребывания в фитнес-центре, ч

Зная распределение частот, можно рассчитать статистические характеристики изучаемой переменной, т.е. ответов на определенный вопрос анкеты. Различают три типа этих характеристик:

  • o характеристики основной тенденции в значениях показателя: мода, медиана, среднее значение;
  • o характеристики разнообразия значений: стандартное отклонение, дисперсия и др.;
  • o характеристики формы распределения значений показателя: асимметрия, эксцесс.

Характеристики основной тенденции в ответах

Выявить основную тенденцию в ответах на вопрос, значит обобщенно сказать, как в целом ответили на него респонденты, какие значения обычно принимает данная переменная. Для этого могут использоваться три характеристики: мода, медиана и среднее значение. SPSS может рассчитать любую из этих характеристик для любой числовой переменной. Какие из этих характеристик можно реально использовать, зависит от того, с какого типа данными (номинальными, порядковыми, интервальными или пропорциональными) мы имеем дело (табл. 12.6).

Таблица 12.6. Показатели, которые могут служить характеристиками основной тенденции в зависимости от типа шкалы

Тип шкалы данных

Характеристики основной тенденции в ответах

Мода

Медиана

Среднее значение

Номинальная

+

Порядковая

+

+

Интервальная

+

+

+

Пропорциональная

+

+

+

Приведем результаты расчета этих значений (табл. 12.7) в программном комплексе SPSS (в команде Frequencies в подкоманде Statistics опции Mean, Median, Mode).

Таблица 12.7. Статистические характеристики основной тенденции в ответах респондентов на вопрос о времени их пребывания в фитнес-центре

Мода

(Mode)

Медиана

(Median)

Среднее значение

(Mean)

Сколько примерно времени вы обычно проводили в фитнес-центре? (ч)

2,0

2,0

2,2

Мода - это вариант ответа, который встречался чаще других (значение переменной, которое она принимает чаще, чем остальные свои значения). На графике частот этому значению соответствует самый высокий пик. Например, на рис. 12.7 модой является значение 2,00 (часа). Таким образом, мода совсем не отражает частоты выбора других вариантов ответа, т.е. малоинформативна. Поэтому ее можно считать хорошей характеристикой основной тенденции только для номинальных признаков. Действительно, для них другие, более информативные характеристики основной тенденции неприменимы.

Медиана - это значение, которое разбивает выборку, упорядоченную по возрастанию изучаемой переменной, на две равные части: одна половина наблюдений лежит ниже медианы, а другая - выше. Предположим сначала, что число наблюдений нечетно, например 101. Тогда медианой будет называться 51-е по порядку значение в упорядоченном ряду. Если же число наблюдений четно, например 100, то медиана рассчитывается как среднее из двух значений упорядоченного ряда - 50-го и 51-го. В первом случае медиана совпадает со значением переменной у "серединного" респондента (51-го), а во втором - со средним из двух значений "серединной" пары респондентов (50-го и 51-го).

Реально для расчета медианы перенумеровывать всех ответивших респондентов, конечно, не нужно. Достаточно выяснить на основе распределения ответов, куда попадает "серединный" респондент или "серединная" пара респондентов. Для этого нужно знать, на какой ответ приходятся 50% респондентов в столбце Cumulative Percent - процент допустимых нарастающим итогом (см. табл. 12.5).

Поясним эту процедуру на примере указанной выше таблицы. Число респондентов, ответивших на вопрос, четное (212). Судя по данным последнего столбца таблицы, 25,5% (ближайшее к 50% меньшее число) от числа этих респондентов дали ответы 0,5, 1,00, 1,50 и 1,75. А ответы 0,5, 1,00, 1,50, 1,75 и 2,00 дали уже 60,8 (ближайшее к 50% большее число). Нам совершенно неважно, кто персонально из 212 давших ответ респондентов будет "зачислен" в пару, о которой шла речь выше, но в данном случае ясно, что оба они выбрали ответ 2,00. А полусумма "двоек", естественно, тоже равна "двойке", то есть медиана равна 2,00.

Отметим один нюанс, связанный с понятием медианы. В некоторых случаях, если в середину упорядоченного ряда попадает много совпадающих значений, т.е. данные концентрированные, исследователи предпочитают пользоваться не обычной, а так называемой уточненной медианой (в команде Frequencies в подкоманде Statistics опция Values are group midpoints, рис. 12.8).

В нашем примере "два часа" ответили 75 респондентов.

Идея такого расчета состоит в следующем. 212 респондентов ответили на вопрос о продолжительности пребывания в клубе следующим образом:

  • o 54 респондента сказали, что бывали в клубе меньше двух часов;
  • o 75 респондентов - ровно два часа;
  • o 83 респондента - больше двух часов.

Выбор опций для расчета уточненной медианы

Рис. 12.8. Выбор опций для расчета уточненной медианы

Если пронумеровать всех респондентов по возрастанию продолжительности их пребывания в клубе, то "серединная" пара респондентов, стоящих в упорядоченном ряду на 106-м и 107-м местах, будет расположена ближе к концу группы ответивших "два часа", чем к началу. Поясним сказанное следующим рисунком (рис. 12.9).

Схема, иллюстрирующая идею расчета уточненной медианы

Рис. 12.9. Схема, иллюстрирующая идею расчета уточненной медианы

От начала группы "2 ч" из 75 респондентов до "серединной" пары располагается 105 - 54 = 51 респондент (105 - 54), а после этой пары до конца группы 105 - 83 = 22 респондента (105 - 83). Другими словами, уточненная медиана сильнее "притягивается" значениями, которые больше нее, чем значениями, которые меньше. Поэтому уточненная медиана должна быть несколько больше, чем два часа. В данном случае ее значение равно 2,076 ч. Алгоритм расчета мы приводить не будем, так как он достаточно сложен [2].

Медиану, как уже отмечалось, бессмысленно считать, если переменная номинальная. Она служит хорошей характеристикой основной тенденции в ответах, если замер производится на порядковой шкале, когда, например, разница между вариантами ответов № 1 и № 2 может быть совсем иной, чем разница между вариантами ответов № 2 и № 3. Напомним, что в порядковых шкалах величина значений не имеет содержательного смысла, важно только, что одно из них больше, меньше другого либо значения совпадают. Например, это связано с тем, что если бы речь шла о месте, на которое респондент поставил бы в своих предпочтениях определенный сорт конфет, то кто-то из респондентов вполне мог оказаться однолюбом, т.е. любить только один сорт конфет, поставленный им на первое место; конфеты же, поставленные им на второе, третье и т. д. места, он может почти в одинаковой мере не любить и не есть и лишь по просьбе интервьюера проранжировать. Поэтому для порядковых шкал преимущество медианы перед средним значением (к рассмотрению которого мы вскоре перейдем) неоспоримо: медиана не учитывает величину значений изучаемой переменной у респондентов, стоящих в ряду правее и левее "серединной" пары респондентов или "серединного" респондента. Принимается во внимание только общее число тех и других значений.

Это свойство делает медиану полезной в качестве дополнительной характеристики и для интервальных и пропорциональных шкал, особенно если в данных встречаются ответы, резко отличающиеся от основной массы, так называемые выбросы (outliers), т.е. значения переменной, далеко отстоящие от основной их массы. (Как именно определяются выбросы, мы обсудим в следующем подразделе.) Например, если замеряется распределение доходов, то полезно знать уровень дохода у респондента, находящегося в середине ряда благосостояния. При этом неважно, что в выборку попало небольшое число очень богатых людей, доход которых в случае подсчета арифметического среднего создаст иллюзию относительно более высокого достатка в исследуемой совокупности людей в целом.

Среднее значение рассчитывается по формуле

(12.1)

где n - число респондентов, ответивших на вопрос; Xi - ответ, названный i-м респондентом.

В рассматриваемом нами примере среднее время пребывания респондентов в фитнес-центре равнялось 2,2 ч.

Использовать среднее значение в качестве характеристики основной тенденции в ответах имеет смысл лишь при использовании интервальной или пропорциональной шкал, т.е. когда различие между величинами 1 и 2 такое же, как между 2 и 3 и т.д.

В то же время для таких шкал расчет среднего значения иногда дополняется расчетом медианы. Так, в примере о распределении доходов среднее значение равно тому доходу, который получился бы, если все респонденты сложили бы свои доходы и поровну поделили. Ситуация достаточно фантастическая. Например, если окажется, что в выборку попал олигарх с доходом на два-три порядка выше, чем у всех остальных респондентов, средний доход по всем опрошенным существенно возрастет. Но вряд ли можно назвать это увеличение отражением основной тенденции в доходах представителей исследуемой совокупности.

 
< Пред   СОДЕРЖАНИЕ     След >