Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

1.3.2. Построение интервального вариационного ряда для непрерывных количественных данных

При обработке больших массивов информации, что особенно актуально при проведении современных научных разработок, перед исследователем стоит серьезная задача правильной группировки исходных данных. Если данные имеют дискретный характер, то проблем, как мы видели, не возникает – необходимо просто подсчитать частотукаждого признака. Если же исследуемый признак имеет непрерывный характер (что имеет большее распространение на практике), то выбор оптимального числа интервалов группировки признака является отнюдь не тривиальной задачей.

Для группировки непрерывных случайных величин весь вариационный размах признакаразбивают на некоторое количество интервалов к.

Сгруппированным интервальным (непрерывным) вариационным рядом называют ранжированные по значению признака интервалы (), гдеуказанные вместе с соответствующими частотами () числа наблюдений, попавших в г'-й интервал, или относительными частотами ():

Интервалы значений признака

Частота mi

Гистограмма и кумулята {огива), уже подробно рассмотренные нами, являются прекрасным средством визуализации данных, позволяющим получить первичное представление о структуре данных. Такие графики (рис. 1.15) строятся для непрерывных данных так же, как и для дискретных, только с учетом того, что непрерывные данные сплошь заполняют область своих возможных значений, принимая любые значения.

Пример гистограммы (слева) и кумуляты (справа) интервального ряда

Рис. 1.15. Пример гистограммы (слева) и кумуляты (справа) интервального ряда

Поэтому столбцы на гистограмме и кумуляте должны соприкасаться, не иметь участков, куда не попадают значения признака в пределах всех возможных (т.е. гистограмма и кумулята не должны иметь "дырок" по оси абсцисс, в которые не попадают значения изучаемой переменной, как на рис. 1.16). Высота столбика соответствует частоте– числу наблюдений, попавших в данный интервал, или относительной частоте– доле наблюдений. Интервалы не должны пересекаться и имеют, как правило, одинаковую ширину.

Пример переменной из рис. 1.15 неверно построенных гистограммы и кумуляты непрерывной

Рис. 1.16. Пример переменной из рис. 1.15 неверно построенных гистограммы и кумуляты непрерывной

Гистограмма и полигон являются аппроксимациями кривой плотности вероятности (дифференциальной функции) f(x) теоретического распределения, рассматриваемой в курсе теории вероятностей [10, 28]. Поэтому их построение имеет такое важное значение при первичной статистической обработке количественных непрерывных данных – по их виду можно судить о гипотетическом законе распределения.

Кумулята – кривая накопленных частот (частостей) интервального вариационного ряда. С кумулятой сопоставляется график интегральной функции распределения F(x), также рассматриваемой в курсе теории вероятностей.

В основном понятия гистограммы и кумуляты связывают именно с непрерывными данными и их интервальными вариационными рядами, так как их графики являются эмпирическими оценками функции плотности вероятности и функции распределения [10, 23, 28] соответственно.

Построение интервального вариационного ряда начинают с определения числа интервалов k. И эта задача, пожалуй, является самой сложной, важной и неоднозначной в изучаемом вопросе.

Число интервалов не должно быть слишком малым, так как при этом гистограмма получается слишком сглаженной (oversmoothed), теряет все особенности изменчивости исходных данных[1] – на рис. 1.17 можно увидеть, как те же данные, по которым построены графики рис. 1.15, использованы для построения гистограммы с меньшим числом интервалов (левый график).

В то же время число интервалов не должно быть слишком велико – иначе мы не сможем оценить плотность распределения изучаемых данных по числовой оси: гистограмма получится недосглажепная (undersmoothed), с незаполненными интервалами, неравномерная (см. рис. 1.17, правый график).

Пример неверных гистограмм тех же данных, что на рис. 1.15, но со слишком малым (слева) и слишком большим (справа) числом интервалов

Рис. 1.17. Пример неверных гистограмм тех же данных, что на рис. 1.15, но со слишком малым (слева) и слишком большим (справа) числом интервалов

Как же определить наиболее предпочтительное число интервалов?

Еще в 1926 г. Герберт Стерджес (Herbert Sturges) предложил формулу для вычисления количества интервалов, на которые необходимо разбить исходное множество значений изучаемого признака[2]. Эта формула поистине стала сверхпопулярной – большинство статистических учебников предлагают именно ее, по умолчанию ее используют и множество статистических пакетов. Насколько это оправдано и во всех ли случаях – является весьма серьезным вопросом.

Итак, на чем основана формула Стерджеса?

Рассмотрим биномиальное распределение [10, 23, 28) с вероятностью изначениями (), вероятности которых равны согласно формуле Бернулли соответственно. Стерджес предложил использовать биномиальные коэффициентыкак частоты интервалов идеальной гистограммы для нормальных данных, так как форма полученной гистограммы выглядит как нормальная кривая при возрастании (рис. 1.18). Тогда объем выборки наблюдений п равен сумме, и, используя свойства биномиальных коэффициентов (или нормировку суммы всех вероятностей дискретной случайной величины), получаем

Таким образом, приблизительное число классов, которое необходимо выбрать при группировке и построении гистограммы для п результатов измерений величины, полученных из нормально распределенной генеральной совокупности (см. гл. 2), определяется по правилу Стерджеса (Sturges' rule) следующим образом:

гдеи– логарифмы по основаниям 2 и 10 соответственно от числа наблюдений п.

Идеальная гистограмма Стерджеса для 10 интервалов

Рис. 1.18. Идеальная гистограмма Стерджеса для 10 интервалов

Ширина интервалов /г, на которые необходимо разбить всю область возможных значений исследуемого признака по имеющимся наблюдениям , определяется тогда следующим образом:

(1.1)

где R – размах значений признака.

Итак, можем сформулировать этапы построения интервального вариационного ряда распределения для непрерывных количественных данных.

  • 1. Определение среди имеющихся наблюдений минимального и максимальногозначений признака.
  • 2. Определение размаха варьирования признака
  • 3. Определение ширины интервала, например, с помощью формулы Стерджеса (1.1).
  • 4. Определение граничных значений интервалов ().

Рекомендуется отступить влево от нижнего предела варьирования (xmin), так как минимальное наблюдение данной совокупности может быть не минимально возможным значением признака. За нижнюю границу первого интервала обычно принимается величина . Если оказывается, что , хотя по смыслу рассматриваемая величина неотрицательная, то принимают

Верхняя граница первого интервала . При определении границ следующих интервалов исходят из условий: . Построение интервалов продолжается до тех пор, пока начало следующего по порядку интервала не будет равным или больше

5. Группировка результатов наблюдения: при просмотре статистических данных значения признака разносятся по соответствующим интервалам. При этом, так как значения признака могут совпадать с границами интервалов, принято в каждый интервал включать варианты, большие, чем нижняя граница интервала, или равные ей и меньшие верхней границы, т.е. . Общее количество значений признака, отнесенное к интервалу, определяет частоту этого интервала.

Для группировки больших массивов данных можно использовать уже рассмотренные выше при изучении дискретных признаков функцию MS Excel ЧАСТОТА или модуль АНАЛИЗ ДАННЫХ – Гистограмма.

Если получаются интервалы с нулевыми частотами (особенно в середине интервального ряда), рекомендуется увеличить ширину интервала А и заново построить интервалы.

Число интервалов к для небольших объемов данных обычно берут следующим:

  • • 5–6 при п < 50;
  • • 6–8 при 50 < п <100;
  • • 8–10 при п > 100.

Число интервалов выбирается в зависимости от числа наблюдений и точности измерений с таким расчетом, чтобы интервалы были достаточно наполнены частотами.

Считается, что формула Стерджеса позволяет строить удовлетворительные гистограммы при числе измерений менее 200. Для современных огромных массивов информации, например порядка 104–109 наблюдений, правило Стерджеса может приводить к слишком сглаженным гистограммам.

Кроме того, если данные не являются выборкой из нормальной совокупности, распределение обладает существенной асимметрией, то формула Стерджеса также не подходит для группировки таких наблюдений – асимметричные распределения требуют большего числа интервалов группировки.

Таким образом, современному исследователю необходимо четко осознавать критерии и границы применимости используемых правил, и формула Стерджеса не является в этом смысле исключением. Для ее замены в настоящее время существует достаточное количество альтернативных методов.

Рассмотрим кратко основные из них.

Предположим, что исследуемые данные имеют непрерывный закон распределения, функция плотности вероятности которого g(x) дифференцируема, но неизвестна. Одно из интуитивных предположений – взять ширину интервалов так, чтобы в каждый из них попадало равное количество значений выборочной совокупности. Однако Дэвид Скотт показал[3], что такой метод приводит к слишком узким интервалам в окрестности модальных значений. Поэтому рассмотрим более распространенный подход использования интервалов равной ширины. Необходимо заметить, что предварительная обработка данных может привести к лучшим гистограммам. Например, распределения с существенной правосторонней асимметрией могут быть прологарифмированы.

Гистограмма с равной шириной интервалов имеет два параметра: ширину интервала h (шаг вариационного ряда) и начало первого интервала а0. Определение первого параметра – шага А – является критическим, в то время как второй параметр не столь важен и во многих случаях принимается равным минимальному значению выборки а0 = (или отстоящим от него полшага влево, как рассмотрено выше).

Итак, главный фактор, влияющий на качество гистограммы, – ширина интервала (шаг вариационного ряда). Рассмотрим основные проблемы, возникающие при выборе наилучшего значения h. Интуитивно понятно, что большие значения приводят к интервалам с большим количеством данных и меньшим их разбросом (дисперсией). Меньшие значения шага дают гистограммы с большей вариабельностью, но возможностью оценки истинной плотности g(x) с учетом всех ее возможных изгибов.

Д. Скотт[4] показал, что оптимальной шириной интервалов является

где

Формула практически очень значима, несмотря на то что функция плотности вероятностинеизвестна. Если можно сделать предположение о нормальном распределении изучаемой совокупности, то

и

Д. Скотт предложил использовать в качестве оценки а выборочное стандартное среднее квадратическое отклонение, тогда оптимальной шириной интервалов h является

где– среднее квадратическое отклонение значений переменной по всем наблюдениям (см. далее формулу (1.10)).

Д. Фридман и П. Диаконис[5] использовали вместо а оценку основанную на выборочном интерквантильном размахе IQR (см. далее в гл. 1), что дает для шага интервального ряда следующую формулу:

Это оценка более устойчива (робастна), но не гак оптимальна для нормального распределения. Для этого случая авторы считают, что вместо коэффициента 2 в формуле лучше использовать 2,6.

В случае отличия изучаемого распределения от нормального необходимо прежде всего постараться оценить функцию, а затем уже с помощью полученных результатов подобрать оптимальный шаг вариационного интервального ряда.

В любом случае многие источники отмечают [38], что ширина интервала при построении вариационного ряда должна быть порядка

Метод квадратного корня (square-root choice) – число классов к выбирается равным квадратному корню из числа наблюдений п:

Метод используется в MS Excel и некоторых статистических пакетах при построении гистограмм. Часто он приводит к слишком большому числу интервалов и недосглаженным (см. рис. 1.16) гистограммам.

Существуют и другие методы определения количества классов при группировке данных, но необходимо отметить, что в любом случае построение наилучшего вариационного ряда для изучаемого признака определяется в зависимости от конкретных задач и вида распределения данных, и его можно назвать искусством исследователя.

По результатам выборочного обследования 100 однотипных предприятий получены данные объемов основных фондов (табл. 1.10). Построим интервальный вариационный ряд с использованием формулы Стерджеса и изобразим его графически в виде гистограммы, полигона и кумулята частот и относительных частот ряда распределения.

Таблица 1.10

Объем основных фондов 100 предприятий, млн руб.

5.56

5,27

5,02

5,47

5,27

5.37

5.47

5.47

5,33

5,11

5,33

5.47

5,33

5,33

5,47

5,05

5,33

5,85

5.68

5,11

5.54

5,43

5,64

5,21

5,68

5,43

5.79

5.47

5,21

5,47

5,43

5,43

5,47

5,27

5,68

5,43

5,47

5.79

5,47

5,54

5.43

5,43

5,61

5,47

5,27

5,54

5,61

5,54

5,64

5,54

5,64

5,43

5,33

5.11

5,33

5,33

5,33

5.54

5.64

5,64

5.40

5,68

5,43

5,54

5,43

5.37

5,37

5,21

5,64

5,64

5,71

5,47

5,21

5,33

5,43

5,33

5,43

5.27

5,21

5,54

5.79

5,58

5,27

5,33

5,40

5,43

5,54

5,54

5.54

5,81

5,39

5,47

5,47

5,27

5,58

5,43

5,43

5,33

5,61

5,54

Решение

Построение интервального вариационного ряда распределения проведем согласно рассмотренным выше этапам.

1. Определение среди имеющихся наблюдений (см. табл. 1.10) минимального и максимального значений признака. В данном примере это будут и. Найденные значения выделены в табл. 1.10.

Удобно использовать в этих целях функции МИН и МАКС в MS Excel.

2. Определение размаха варьирования признака:

3. Определение длины интервала по формуле Стерджеса:

где п – объем выборки (у нас – 100 наблюдений).

В нашем примере (млн руб.).

4. Определение граничных значений интервалов ().

Как и рекомендуется, отступим на полшага влево от нижнего предела варьирования (). За нижнюю границу первого интервала предлагается принимать величину, равную. Верхняя граница первого интервала . Тогда если bj – верхняя граница i-го интервала (причем), то и т.д. Получаем:

Построение интервалов продолжаем до тех пор, пока начало следующего по порядку интервала не будет равным или больше

Таким образом, у нас получилось восемь интервалов. Границы последовательных интервалов записывают в первом столбце табл. 1.12.

5. Группировка результатов наблюдения.

При использовании статистических пакетов или MS Excel для подсчета частот значительно удобнее пересортировать (ранжировать) данные табл. 1.10 в порядке возрастания и после этого определить, сколько значений признака входит в каждый интервал, записав в таблицу (табл. 1.11).

Таблица 1.11

Вариационный ряд – ранжированные в порядке неубывания исходные данные

5,02

5,27

5,33

5,37

5,43

5,43

5,47

5,54

5,61

5,68

5,05

5,27

5,33

5,37

5,43

5,47

5,47

5,54

5,61

5,68

5,11

5,27

5,33

5,37

5,43

5,47

5,47

5,54

5,61

5,68

5,11

5,27

5,33

5,39

5,43

5,47

5,47

5,54

5,64

5,68

5,11

5,27

5,33

5,40

5,43

5,47

5,47

5,54

5,64

5,71

5,21

5,27

5,33

5,40

5,43

5,47

5,54

5,54

5.64

5,79

5,21

5,27

5,33

5,43

5,43

5.47

5,54

5,54

5,64

5,79

5,21

5,33

5.33

5.43

5,43

5,47

5,54

5,56

5,64

5,79

5,21

5,33

5,33

5,43

5,43

5,47

5,54

5,58

5,64

5,81

5,21

5,33

5,33

5,43

5,43

5,47

5,54

5,58

5,64

5,85

С помощью пакета MS Excel можно не подсчитывать эти частоты вручную, а воспользоваться встроенной статистической функцией ЧАСТОТА, которая позволяет подсчитать частоты значений массива данных, попадающих в заданные интервалы.

Для этого после определения границ интерваловнужно выделить область, состоящую из смежных ячеек, количество которых на единицу больше количества граничных значений (справа, выделена серым), вызвать встроенную статистическую функцию ЧАСТОТА, выделить массив данных и массив границ интервалов в соответствующих окнах функции, нажать комбинацию клавиш для работы с матрицами CTRL + SHIFT + ENTER, после чего в выделенной правой (серой) области появятся частоты значений из массива данных, попавших в заданные интервалы:

Перенесем их в табл. 1.12, дополнив результатами расчета накопленных и относительных частот.

Таблица 1.12

Интервальный вариационный ряд распределения объемов основных фондов 100 предприятий, млн руб.

Интервалы

ц+Ь

Частота

nij

Накопленная частота тш

Относительная частота W, = /и, /п

Относительная накопленная частота win = тш/п

Wj/h

4,98-5,09

2

2

0,02

0,02

0.18

5,09-5,20

3

5

0,03

0,05

0,27

5,20-5,31

12

17

0,12

0,17

1,09

5,31-5,42

19

36

0,19

0,36

1,73

5,42-5,53

29

65

0,29

0,65

2,64

5,53-5,64

18

83

0,18

0,83

1,64

5,64-5,75

12

95

0,12

0,96

1,09

5,75–5,86

5

100

0,05

1,00

0,45

-

-

-

-

Для построения гистограммы частотили относительных частот (частостей) на оси абсцисс откладываем частичные интервалы;, на каждом

из которых строим прямоугольник, высота которого равна частотеили относительной частоте. Как видим, такие гистограммы имеют абсолютно идентичный вид (рис. 1.19), отличаясь лишь значениями ординат.

Гистограмма частот (слева) и относительных частот (справа) интервального ряда распределения для примера 1.19

Рис. 1.19. Гистограмма частот (слева) и относительных частот (справа) интервального ряда распределения для примера 1.19

Из табл. 1.12 и рис. 1.19 очевидно, что наибольшее число предприятий – 29 из 100 – относится к среднему интервалу и имеет объем основных фондов от 5,42 млн до 5,53 млн руб., такой интервал называется модальным. Самый большой объем основных фондов имеют пять предприятий (5,75–5,86 млн руб.), а самый незначительный – два промышленных предприятия (4,98–5,09 млн руб.). Предприятий, объем основных фондов которых больше 5,42 млн руб., значительно больше, чем тех, у которых данные показатели меньше (64%), это говорит о довольно устойчивом положении предприятий данной отрасли. Также данная гистограмма имеет очень незначительную левостороннюю асимметрию (более пологий спуск слева), что может быть подтверждено расчетом коэффициента асимметрии (см. далее формулу (1.18)), который получится, но по виду гистограмма практически идеально симметрична (т.е. здесь получится коэффициент асимметрии, близкий к нулю). Как видим, группировка данных и построение гистограммы позволяют легко и быстро увидеть структуру данных, проанализировать их и сделать выводы.

Иногда гистограмму строят но– относительным частотам, деленным на ширину интервала h (последний столбец табл. 1.12). Тогда площадь каждого прямоугольника равна относительной частоте отданного /-го интервала, а площадь под всей гистограммой равна сумме всех относительных частот, т.е. единице. Таким образом, каждый столбец гистограммы отражает долю наблюдений, попадающих в соответствующий интервал.

Из гистограммы можно получить полигон того же распределения, если середины верхних оснований прямоугольников соединить отрезками. Полигон построим для примера по частотам интервального вариационного ряда(рис. 1.20).

Полигон частот интервального ряда распределения для примера 1.19

Рис. 1.20. Полигон частот интервального ряда распределения для примера 1.19

Для построения кумуляты интервального вариационного ряда по оси абсцисс откладывают интервалы значений признака х, а по оси ординат – накопленные частоты ты или накопленные относительные частотыг, именно по ним

для примера 1.19 и построим кумуляту (рис. 1.21). При построении кумуляты накопленную частоту относят к верхней границе интервала.

Кумулята накопленных относительных частот интервального ряда распределения для примера 1.19

Рис. 1.21. Кумулята накопленных относительных частот интервального ряда распределения для примера 1.19

Кумулята показывает, какая доля(какое число) наблюдений исследуемой совокупности не превышает заданного значения. Например, из табл. 1.12 и рис. 1.21, так как мы строили кумуляту по относительным частотам, можно увидеть, что 65% исследованных промышленных предприятии имеют объем основных фондов, не превышающий значения 5,53 млн руб.

  • [1] Scott D. W. Histogram // Wiley Interdisciplinary Reviews: Computational Statistics. 2009. Vol. 2. Iss. 1. P. 44-48.
  • [2] Stwrпes Я. The choice of a class-interval // J. Amer. Statist. Assoc. 1926. Vol. 21. P. 65–66.
  • [3] Scott D. W. Histogram.
  • [4] Scott D. W. On optimal and data-bascd histograms // Biometrika. 1979. Vol. 66 (3). P. 605–610.
  • [5] Freedman D., Diaconis P. On the histogram as a density estimator: 12 theory // Z. Wahrscheinlichkeit. 1981. Vol. 57. P. 453-476.
 
<<   СОДЕРЖАНИЕ   >>