Непрерывные количественные данные

При обработке больших массивов информации, что особенно актуально при проведении современных научных разработок, перед исследователем стоит серьезная задача правильной группировки исходных данных. Если данные имеют дискретный характер, то проблем, как мы видели, не возникает — необходимо просто подсчитать частоту ш, каждого признака xv Если же исследуемый признак имеет непрерывный характер (что имеет большее распространение на практике), то выбор оптимального числа интервалов группировки признака является отнюдь не тривиальной задачей.

Для группировки непрерывных случайных величин весь вариационный размах признака R = х^п) - х^ разбивают на некоторое количество интервалов k:

Интервалы значений признака я, -5- /;,

«1 +

а2 b 2

я, + Ь,

ak + bk

Частота т,

т{

т2

щ

щ

Сгруппированным интервальным (непрерывным) вариационным рядом называют ранжированные по значению признака интервалы (а, < х < bj), где i = 1,2,ky указанные вместе с соответствующими частотами {т}) числа наблюдений, попавших в i-й интервал, или относительными частотами (т{ /п).

Гистограмма и кумулята (огива), уже подробно рассмотренные нами, представляют собой прекрасное средство визуализации данных, позволяющее получить первичное представление о структуре данных. Такие графики строятся для непрерывных данных так же, как и для дискретных, только с учетом того, что непрерывные данные сплошь заполняют область своих возможных значений, принимая любые значения. Поэтому столбцы на гистограмме и кумуляте должны соприкасаться, не иметь участков, куда не попадают значения признака в пределах всех возможных (рис. 4.10). Высота столбика соответствует частоте т} числу наблюдений, попавших в данный интервал, или относительной частоте m jn — доле наблюдений. Интервалы не должны пересекаться, и должны, как правило, иметь одинаковую ширину.

Пример гистограммы (а) и кумуляты (б) интервального ряда

Рис. 4.10. Пример гистограммы (а) и кумуляты (б) интервального ряда

В основном понятия гистограммы и кумуляты связывают именно с непрерывными данными и их интервальными вариационными рядами, так как их графики служат эмпирическими оценками функций плотности вероятности и функции распределения.

Построение интервального вариационного ряда начинают с определения числа интервалов к. И эта задача, пожалуй, наиболее сложная, важная и неоднозначная в изучаемом вопросе.

Число интервалов не должно быть слишком малым, так как при этом гистограмма получается слишком сглаженной (oversmoothed), теряет все особенности изменчивости исходных данных. На рис. 4.11 видно, как те же данные, по которым построены графики рис. 4.10, использованы для построения гистограммы с меньшим числом интервалов.

В то же время число интервалов не должно быть слишком велико — иначе мы не сможем оценить плотность распределения изучаемых данных по числовой оси — гистограмма получится «недосглаженная» (:undersmoothed), с незаполненными интервалами, неравномерная (см. рис. 4.11).

Примеры гистограмм тех же данных (см. рис. 4.10) со слишком малым {а) и слишком большим (б) числом интервалом

Рис. 4.11. Примеры гистограмм тех же данных (см. рис. 4.10) со слишком малым {а) и слишком большим (б) числом интервалом

Как же определить оптимальное число интервалов?

Еще в 1926 г. Герберт Стерджес {Herbert Sturges)1 предложил формулу для вычисления количества интервалов, на которые необходимо разбить исходное множество значений изучаемого признака. Эта формула поистине стала сверхнопулярной — многие статистические учебники предлагают именно ее, по умолчанию используют и множество статистических пакетов.

Приблизительное число классов к, которое необходимо выбрать при группировке и построении гистограммы для п результатов измерений величины, полученных из нормально распределенной генеральной совокупности (Приложение 2), определяется по правилу Стерджеса (Sturges’rule):

где log2 п и lg п — логарифмы по основанию 2 и по основанию 10 соответственно от числа наблюдений п.

Ширина интервалов А, на которые необходимо разбить всю область возможных значений исследуемого признака по имеющимся наблюдениям х2п}, рассчитывается как

Итак, можем сформулировать этапы построения интервального вариационного ряда распределения.

  • 1. Определение среди имеющихся наблюдений минимального xmin и максимального хтах значений признака.
  • 2. Определение размаха варьирования признака R = хтях - xmin.

3. Определение ширины интервала, например с помощью формулы (4.1):

Sturges //. The choice of a class-interval. //J. Amer. Statist. Assoc. 1926. N 21. P. 65—66.

4. Определение граничных значений интервалов («.; /л).

Рекомендуется отступить влево от нижнего предела варьирования (xmin), так как минимальное наблюдение данной совокупности может быть не минимально возможным значением признака, поэтому за нижнюю границу первого интервала обычно принимается величина а{ = xmin - h /2. Если оказывается, что а{ < 0, хотя по смыслу рассматриваемая величина не отрицательная, то принимают ал - 0.

Верхняя граница первого интервала Ьхл + h. При определении границ следующих интервалов исходят из условий: aj+i = b,; bi = а, + И. Построение интервалов продолжается до тех пор, пока начало следующего по порядку интервала не будет равным или больше хтах.

5. Группировка результатов наблюдения. При просмотре статистических данных значения признака разносятся по соответствующим интервалам. При этом, так как значения признака могут совпадать с границами интервалов, принято в каждый интервал включать варианты, большие или равные, чем нижняя граница интервала, и меньшие верхней границы, т.е. (а, < х, < bj). Общее количество значений признака, отнесенное к интервалу, определяет частоту этого интервала mv

Для группировки больших массивов данных можно использовать уже рассмотренные выше при изучении дискретных признаков функции Excel ЧАСТОТА или АНАЛИЗ ДАННЫХ — Гистограмма. Если получают интервалы с нулевыми частотами (особенно в середине интервального ряда), следует увеличить ширину интервала h и заново построить интервалы.

Число интервалов для небольших объемов данных принимается 5—6 при п < 50, 6—8 — от 50 до 100 наблюдений и 8—10 классов при п > 100 - в зависимости от числа наблюдений и точности измерений с таким расчетом, чтобы интервалы были достаточно наполнены частотами.

Считается, что формула Стерджеса позволяет строить удовлетворительные гистограммы при числе измерений менее 200. Для современных огромных массивов информации, например, порядка 104—109 наблюдений, правило Стерджеса может приводить к слишком сглаженным гистограммам.

Кроме того, если данные не являются выборкой из нормальной совокупности, распределение обладает существенной асимметрией (рассмотрим далее), то формула Стерджеса также не подходит для группировки таких наблюдений — асимметричные распределения требуют большего числа интервалов группировки.

Таким образом, современному исследователю необходимо четко осознавать критерии и границы применимости используемых правил, и формула Стерджеса в этом смысле не исключение. На ее замену в настоящее время существует достаточное количество альтернативных методов.

Перечислим кратко основные из них.

• Дэвид Скотт (David W. Scott)' показал (1979), что оптимальной шириной интервалов h является

1 Scott D. W. On optimal and data-based histograms // Biometrika. 1979. N 66 (3). P. 605

где .9 — среднее квадратическое отклонение значений переменной по всем наблюдениям (см. п. 4.2.2).

• Метод квадратного корня (Square-root choice) — число классов к выбирается равным квадратному корню из числа наблюдений п

Метод используется в Excel и в некоторых статистических пакетах при построении гистограмм.

• Фридман (Freedman) и Диаконис (Diaconis){ использовали оценку ширины интервалов /г, основанную на интерквантильном размахе наблюдений IQR (см. п. 4.2.2), что дает для шага интервального ряда следующую формулу:

Это оценка более устойчива (робастна), но не так оптимальна для нормального распределения. Для этого случая вместо коэффициента 2 в формуле лучше использовать 2,6.

Существуют и другие методы определения количества классов при группировке данных. Однако отметим, что в любом случае построение наилучшего вариационного ряда для изучаемого признака можно назвать искусством исследователя и определяется оно в зависимости от конкретных задач и вида распределения данных.

Пример 4.4

По результатам выборочного обследования 100 однотипных предприятий получены данные объемов основных фондов (табл. 4.9). Постройте интервальный вариационный ряд с использованием формулы Стерджеса и изобразите его графически в виде гистограммы, полигона и кумуляты частот и относительных частот ряда распределения.

Построение интервального вариационного ряда распределения проведем согласно рассмотренным выше этапам.

1. Определение среди имеющихся наблюдений (см. табл. 4.9) минимального и максимального значений признака. В данном примере это будут хтт = 5,02 и *тах = 5,85. Найденные значения выделены в табл. 4.9.

Удобно использовать в этих целях функции МИН и МАКС в Excel.

2. Определение размаха варьирования признака:

3. Определение длины интервала по формуле Стерджеса: где п — объем выборки (у нас — 100 наблюдений). [1]

О 83

В нашем примере h =-— *-— ~ 0,11 (млн руб.).

  • 1 + 3,321og2100
  • 4. Определение граничных значений интервалов (а, + &,•).

Как и рекомендуется, отступим на полшага влево от нижнего предела варьирования (;cmin). За нижнюю границу первого интервала предлагается принимать вели-

h

чину я, = xmin - Верхняя граница первого интервала b{ = а{ + h. Тогда, если b, — верхняя граница /-го интервала (причем ai+i = ?,), то /;2 = а2 + h, /;3 = я3 + /? и т.д.

Построение интервалов продолжаем до тех пор, пока начало следующего по порядку интервала не будет равным или больше хтах:

Таким образом, получилось восемь интервалов. Границы последовательных интервалов записывают в первой графе табл. 4.11.

5. Группировка результатов наблюдения.

При использовании статистических пакетов или ППП Microsoft Excel для подсчета частот значительно удобней пересортировать (ранжировать) данные в порядке возрастания (табл. 4.10), и после этого определить, сколько значений признака входит в каждый интервал, записав в табл. 4.11.

Таблица 4.10

Вариационный ряд — ранжированные в порядке неубывания исходные данные

5,02

5,27

5,33

5,37

5,43

5,43

5,47

5,54

5,61

5,68

5,05

5,27

5,33

5,37

5,43

5,47

5,47

5,54

5,61

5,68

5,11

5,27

5,33

5,37

5,43

5,47

5,47

5,54

5,61

5,68

5,11

5,27

5,33

5,39

5,43

5,47

5,47

5,54

5,64

5,68

5,11

5,27

5,33

5,40

5,43

5,47

5,47

5,54

5,64

5,71

5,21

5,27

5,33

5,40

5,43

5,47

5,54

5,54

5,64

5,79

5,21

5,27

5,33

5,43

5,43

5,47

5,54

5,54

5,64

5,79

5,21

5,33

5,33

5,43

5,43

5,47

5,54

5,56

5,64

5,79

5,21

5,33

5,33

5,43

5,43

5,47

5,54

5,58

5,64

5,81

5,21

5,33

5,33

5,43

5,43

5,47

5,54

5,58

5,64

5,85

С помощью пакета Microsoft Office Excel можно нс подсчитывать эти частоты вручную, а воспользоваться встроенной статистической функцией Excel ЧАСТОТА, которая позволяет определить частоты значений массива данных, попадающих в заданные интервалы.

Для этого после определения границ интервалов а, + bj следует выделить область, состоящую из смежных ячеек, количество которых на единицу больше количества граничных значений (справа), вызвать встроенную статистическую функцию ЧАСТОТА, выделить массив данных и массив границ интервалов в соответствующих окнах меню функции, нажать комбинацию клавиш для работы с матрицами CTRL + SHIFT + ENTER, после чего в выделенной правой области появятся частоты значений из массива данных, попавших в заданные интервалы. Перенесем их в табл. 4.11.

Исходные данные

5,56

5,27

5,03

5,47

5,27

5,37

5,47

5,47

5,33

5,11

5,33

5,47

5,33

5,33

5,47

5,05

5,33

5,85

5,68

5,11

5,54

5,43

5,64

5,21

5,68

5,43

5,79

5,47

5,21

5,47

5,43

5,43

5,47

5,27

5,68

5,43

5,47

5,79

5,47

5,54

5,43

5,43

5,61

5,47

5,27

5,54

5,61

5,54

5,64

5,54

5,64

5,43

5,33

5,11

5,33

5,33

5,33

5,54

5,64

5,64

5,4

5,68

5,43

5,54

5,43

5,37

5,37

5,21

5,64

5,64

5,71

5,47

5,21

5,33

5,43

5,33

5,43

5,27

5,21

5,54

5,79

5,58

5,27

5,33

5,4

5,43

5,54

5,54

5,54

5,81

5,39

5,47

5,47

5,27

5,58

5,43

5,43

5,33

5,61

5,54

Границы

4,98

5,09

5,20

5,31

5,42

5,53

5,64

5,75

5,86

Частоты

0

2

3

12

19

29

18

12

5

0

Таблица 4.11

Интервальный вариационный ряд распределения объемов основных фондов

100 предприятий

Интервалы ai + b,

Частота

Щ

Накопленная частота mHj

Относительная частота Wj = nij/n

Относительная накопленная частота Щ» = Щ„/п

Wj/h

4,98-5,09

2

2

0,02

0,02

0,18

5,09-5,20

3

5

0,03

0,05

0,27

5,20-5,31

12

17

0,12

0,17

1,09

5,31-5,42

19

36

0,19

0,36

1,73

5,42-5,53

29

65

0,29

0,65

2,64

5,53-5,64

18

83

0,18

0,83

1,64

5,64-5,75

12

95

0,12

0,96

1,09

5,75-5,86

5

100

0,05

1,00

0,45

Для построения гистограммы частот тя, или относительных частот (частостей) Wj = rrij/n на оси абсцисс откладываем частичные интервалы я, + bif на каждом из которых строим прямоугольник с высотой, равной частоте т, или относительной частоте w{. Иногда гистограмму строят по wt/h — относительным частотам, деленным на ширину интервала h. Тогда площадь каждого прямоугольника равна относительной частоте отданного /-го интервала, а площадь под всей гистограммой — сумме всех относительных частот, т.е. единице. Таким образом, каждый столбец гистограммы отражает долю наблюдений, попадающих в соответствующий интервал. Для примера построим именно такой график (рис. 4.12, а).

Из гистограммы можно получить полигон того же распределения, если середины верхних оснований прямоугольников соединить отрезками. Полигон построим для примера но частотам интервального вариационного ряда тя, (рис. 4.12, б).

Гистограмма (а) и полигон (б) частот интервального ряда

Рис. 4.12. Гистограмма (а) и полигон (б) частот интервального ряда

распределения

Гистограмма и полигон являются аппроксимациями кривой плотности вероятности (дифференциальной функции) f(x) теоретического распределения, рассматриваемой в курсе теории вероятностей (см. Приложение 2). Поэтому их построение имеет такое важное значение при первичной статистической обработке количественных непрерывных данных — по их виду можно судить о гипотетическом законе распределения.

Кумулятивная кривая (кумулята) (cumulative line graph), или огива (ogive) — кривая накопленных частот (частостей) интервального вариационного ряда. С кумулятой сопоставляется график интегральной функции распределения F(x), также рассматриваемой в курсе теории вероятностей (см. Приложение 2).

Для построения кумуляты интервального вариационного ряда но оси абсцисс откладывают интервалы значений признака X, а по оси ординат — накопленные частоты mni или накопленные относительные частоты w-m = т/п, именно по ним для примера и построим кумуляту (рис. 4.13). При построении кумуляты накопленную частоту относят к верхней границе интервала.

Кумулята показывает, какая доля win (какое число тп) наблюдений исследуемой совокупности не превышает заданного значения. Например, из табл. 4.11 и рис. 4.13, так как мы строили кумуляту по относительным частотам, можно видеть, что 65% исследованных предприятий легкой промышленности имеют объем основных фондов, не превышающий значения 5,53 млн руб.

Для проведения дальнейших вычислений, как правило, интервальный вариационный ряд заменяется на дискретный. С этой целью все значения признака в пределах каждого интервала приравниваются к его срединному а. + h

значению х. = —-L.

1 2

  • [1] Freedman DDiaconis Р. On the histogram as a density estimator: L9 theory // ZWahrs-cheinlichkeit 1981. N 57. P. 453-476.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >