Структурные средние величины

Для случаев резкой скошенности (асимметрии) ряда распределения средняя степенная уже не так типична. Например, средний размер вклада физических лиц в банке не представляет особого интереса, так как основная масса вкладов находится ниже этого уровня, а на среднюю оказывают существенное влияние крупные вклады, которых мало и которые не характерны для массы вкладов.

В таких случаях статистика применяет другую систему — систему вспомогательных структурных средних. К их числу относятся мода, медиана, а также квартили, квинтили, децили, перцентили.

1. Мода (от лат. modus — мера, образ, способ, правило, предписание) — наиболее часто повторяющееся значение признака в изучаемой совокупности.

Для дискретных рядов распределения модой будет то значение признака, у которого наибольший удельный вес. В интервальных рядах распределения с равными интервалами мода определяется по формуле

где хМо начальное значение интервала, содержащего моду; i — величина модального интервала; fMo — частота модального интервала (в абсолютном или относительном выражении); fMo_{ частота интервала, предшествующего модальному; /Мо+1 — частота интервала, следующего за модальным.

Мода широко применяется в коммерческой деятельности.

2. Медиана (от лат. mediana — середина) — величина признака, которая делит упорядоченную последовательность его значений на две равные по численности части.

Иначе можно сказать, что медиана — это серединное значение ранжированного вариационного ряда. Отсюда вытекает основное свойство медианы. сумма абсолютных отклонений значений признака от медианы меньше, чем от любой другой величины: Z к, - Ме = min.

Медиана удобна тем, что на нее совершенно не оказывают влияние крайние члены ряда, и в таких случаях она даже более характерна, чем средняя, вычисленная для ряда в целом.

Медиана используется при контроле качества продукции и технологического процесса на промышленных предприятиях, а также при изучении распределения домохозяйств по величине дохода.

Если ряд ранжированных данных имеет нечетное число значений, то медианой будет значение признака, находящееся в середине упорядоценного ряда. Например, стаж пяти рабочих составил 2, 4, 7, 8 и 10 лет. В таком упорядоченном ряду медиана — 7 лет.

Если ранжированный ряд данных состоит ив четного числа значений, то медианой будет средняя арифметическая из двух значений признака, расположенных в середине ряда. Пусть в бригаде не пять человек, а шесть, имеющих стаж работы 2, 4, 6, 7, 8 и 10 лет. В центре ряда стоят 6 и 7, т.е. средняя арифметическая этих значений и будет медианой ряда: Me = (6+7)/2 = 6,5 (лет).

В дискретном вариационном ряду распределения определение медианного значения признака сводится к определению номера медианной единицы ряда по формуле

где п — число изучаемых единиц.

В интервальном вариационном ряду медиана определяется по формуле

где хМе начальное значение интервала, содержащего медиану; i — величина медианного интервала; X/ — сумма частот ряда; SMe_^ — сумма накопленных частот, предшествующих медианному интервалу; fMe — частота медианного интервала.

Нахождение медианы в интервальных вариационных рядах требует предварительного определения интервала, в котором находится медиана, т.е. медианного интервала — этот интервал характеризуется тем, что его накопленная частота равна полусумме или превышает полусумму всех частот ряда:

Помимо аналитического метода вычисления значений моды и медианы их можно определить графически. Проиллюстрируем данный метод на примере.

Рассмотрим распределение преступников по возрасту (табл. 6.8).

Таблица 6.8

Распределение преступников по возрасту

Возраст совершения преступления х, лег

Количество преступников /, человек

Накопленные частоты S

до 20

29

29

20-25

71

100

25-30

84

184

30-35

90

274

35-40

120

394

40-45

100

494

Возраст совершения преступления х, лег

Количество нреступников /, человек

Накопленные частоты S

45-50

63

557

50—55

46

603

55-60

17

620

Итого

620

Для определения моды необходимо построить гистограмму (рис. 6.1). На гистограмме выбирается самый высокий прямоугольник, что свидетельствует о наибольшей частоте изучаемого признака. Далее правую вершину модального прямоугольника соединяют с правой вершиной предшествующего прямоугольника, а левую вершину — с левой вершиной следующего за модальным прямоугольника. Из точки пересечения полученных линий опускают перпендикуляр на ось абсцисс, полученная на оси абсцисс точка и является модой данного ряда (Мо « 38 лет).

Графическое определение моды

Рис. 6.1. Графическое определение моды

Медиана графически определяется по кумуляте (рис. 6.2). На шкале накопленных частот (частостей) находят точку, соответствующую половине суммы частот (частостей). Ив этой точки проводится прямая, параллельная оси абсцисс, до пересечения с кумулятой. Ив найденной точки опускается перпендикуляр на ось абсцисс. Полученное значение и является медианой (Me « 36 лет).

Мода и медиана являются дополнительными к средней величине характеристиками совокупности и используются в статистике для анализа формы рядов распределения.

Графическое определение медианы

Рис. 6.2. Графическое определение медианы

Правило определения формы распределения данных с помощью характеристик центральной тенденции ряда

Если форма распределения данных нормальная (симметричная), то значения

средней величины, медианы и моды равны между собой: х = Me = Мо.

Если распределение по форме близко к нормальному закону распределения, то медиана находится между модой и средней величиной, причем ближе к средней, чем к моде.

Если имеет место левосторонняя асимметрия, то значение средней величины меньше моды, т.е. большая часть единиц совокупности имеет значение признака ниже модального: х < Me < Мо.

Если имеет место правосторонняя асимметрия, то значение средней величины больше моды, т.е. большая часть единиц совокупности имеет значение признака выше модального: х > Me > Мо.

Типовая задача 6.3

Известны следующие данные о незанятом населении города (табл. 6.9).

Таблица 6.9

Данные о незанятом населении города

Возраст, лет

До 25

25-35

35-45

45—55

55 и более

Численность лиц данного возраста

15

37

71

45

22

Вычислите:

  • 1) средний возраст незанятого населения;
  • 2) моду и медиану.

Сделайте вывод о форме распределения данных.

Решение

1. Определим средний возраст незанятого населения. Так как исходные данные сгруппированы, то средний возраст рассчитаем по формуле сред-

V xf

ней арифметической взвешенной: х= ^ .

Определим х как середины интервалов, промежуточные расчеты пред-

7820

ставим в табл. 6.10. Тогда х = =41,2 (года).

Таблица 6.10

Вспомогательная таблица для промежуточных расчетов

Возраст, лет

Численность лиц данного возраста /

Середина интервала х} лет

xf

S

До 25

15

20

300

15

25-35

37

30

1110

52

35-45

71

40

2840

123

45-55

45

50

2250

168

55 и более

22

60

1320

190

Всего

190

-

7820

-

2. Определим моду и медиану. Так как исходные данные заданы интервальным рядом распределения, то мода и медиана определяются по следующим формулам, а) Мода

Определим модальный интервал, т.е. интервал, который содержит моду. Мода — это значение признака, которое имеет наибольшую частоту /тах. В данном случае /тах = 71, значит, мода содержится в интервале от 35 до 45 лет, тогда: хМо = 35; i = 45 - 35 = 10;/Мо =/max = 7UfMo-i = 37;fMo+i = 45. Подставим полученные данные в формулу:

т.е. большинство безработных имеют возраст около 41 года, б) Медиана

Определим интервал, содержащий медиану. Медианным интервалом считается тот, для которого накопленная частота равна или превышает половину всей численности ряда.

Половина численности ряда равна 95 (190/2).

Определим суммы накопленных частот интервалов (табл. 6.10):

значит, медиана находится в интервале от 35 до 45 лег, тогда: хМе = 35; i = 45 - 35 = 10; Zf= 190; SMe_x =S2 = 52; fMe = 71.

Подставим полученные данные в формулу:

т.е. 50% безработных младше 41 года и 50% — старше 41 года.

Так как х = Me = Мо, то форма распределения исходных нормальная.

К структурным характеристикам исследуемой совокупности помимо моды и медианы относятся:

  • квартйли (от лат. quanta — четверть) — варианты, делящие совокупность на четыре равные части;
  • квинтили (от лат. quinque — пять) — варианты, делящие совокупность на пять равных частей;
  • децйли (от лат. decern — десять) — варианты, делящие совокупность на 10 частей;
  • перцентйли (от лат. per cent — из расчета на сто) — варианты, делящие совокупность на 100 частей.

Данные структурные средние вычисляются аналогично медиане. Рассмотрим их расчет на примере квартилей и децилей.

Для первого и третьего квартиля формулы расчета следующие:

Квартальные интервалы определяются по формулам:

Формулы для децилей выглядят следующим образом:

Децильные интервалы определяются по формулам:

Типовая задача 6.4

Известны данные о росте 50 студентов (табл. 6.11). Определите первые и последние квартили и децили. Сделайте вывод.

Интервальный ряд распределения студентов по росту

Рост X, см

Число студентов /, человек

Сумма накопленных частот S

160-165

3

3

165-170

7

10

170-175

16

26

175-180

10

36

180-185

9

45

185-190

3

48

190-195

2

50

Итого

50

-

Решение

Таким образом, 25% студентов имеют рост меньше 171 см и 25% - больше 181см.

Таким образом, 10% студентов имеют рост ниже 166 см и 10% — выше 185 см.

Вопросы и задания для самоконтроля

  • 1. Дайте определение средней величины.
  • 2. Какие виды средних величин применяются в статистике?
  • 3. В каких случаях применяются степенные средние?
  • 4. Какие свойства средней арифметической вы знаете?
  • 5. Для чего используются структурные средние?
  • 6. На какие виды подразделяются структурные средние?
  • 7. Как используются структурные средние для анализа формы распределения данных?
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >