Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

6.4.2. Пример параметрической модели классификации

Среди задач статистического анализа одно из центральных мест занимает классификация, позволяющая выявить внутреннюю структуру объектов. От качества ее решения во многом зависит возможность реализации других этапов статистического исследования. В классификации лучший способ извлечь максимальную информацию, содержащуюся в значениях скалярной переменной, заключается в создании параметрической модели плотности вероятности. Сочетание теоретических предположений о виде закона распределения признака в однородной группе наряду с анализом общего эмпирического распределения позволяет выдвинуть обоснованное предположение о структуре исследуемой совокупности.

В качестве оценки плотности распределения может использоваться гистограмма, однако на ее очертания помимо интервала дискретизации существенное влияние оказывает положение интервалов группировки на оси признака. Избавиться от этого влияния можно путем усреднения гистограмм с различными сдвигами по этой оси либо использованием более общей процедуры сглаживания данных о сгущениях точек с весами, определяемыми так называемой ядерной функцией сглаживания. Эффективная ширина ядра должна позволить избежать эффектов как недосгла- живания, так и пересглаживания.

Проведем классификацию 74 стран мира по уровню экономического развития на основе использования следующего показателя – валовой внутренний продукт (ВВП) надушу населения по паритету покупательной способности (ППС). Исходные данные для классификации представлены в табл. 6.5.

Таблица 6.5

ВВП на душу населения в странах мира 2012 г.

№ п/п

Страна

x

№ п/п

Страна

x

1

Гана

1600

38

Латвия

16 360

2

Тринидад и Тобаго

2400

39

Литва

17 880

3

Пакистан

2780

40

Хорватия

18710

4

Узбекистан

3090

41

Польша

19 020

5

Конго

3280

42

Россия

19 190

6

Молдова

3340

43

Венгрия

19 280

7

Индия

3560

44

Эстония

19 500

8

Боливия

4560

45

Сейшелы

20 470

9

Марокко

4560

46

Новая Зеландия

28 050

10

Грузия

4980

47

Исландия

28 630

11

Армения

5450

48

Республика Корея

29 010

12

Египет

5910

49

Кипр

30 160

13

Украина

6580

50

Италия

31 090

14

Китай

7570

51

Испания

31 550

15

Таиланд

8240

52

Ирландия

32 740

16

Доминика

8580

53

Бахрейн

33 530

17

Албания

8840

54

Франция

34 440

18

Перу

8940

55

Япония

34 790

19

Босния и Герцеговина

8970

56

Великобритания

36 580

20

Колумбия

9000

57

Финляндия

37 180

21

Азербайджан

9220

58

Канада

37 280

22

Южная Африка

10 280

59

Бельгия

37 840

23

Казахстан

10 610

60

Германия

38 170

24

Коста-Рика

10 880

61

Австралия

38 510

25

Бразилия

10 920

62

Австрия

39 410

26

Сербия

11 230

63

Швеция

39 600

27

Венесуэла

11 950

64

Дания

40 140

28

Болгария

13210

65

Нидерланды

42 590

29

Чили

13 890

66

США

47 020

30

Беларусь

14 020

61

Гонконг

47 300

31

Румыния

14 050

68

Бруней-Даруссалам

48 760

32

Малайзия

14 360

69

Швейцария

49 180

33

Турция

14 580

70

Сингапур

54 700

34

Мексика

15 010

71

Макао

57 120

35

Аргентина

15 150

72

Норвегия

57 130

36

Антигуа и Барбуда

15 380

73

Лихтенштейн

63 850

37

Ливия

16 330

74

Люксембург

63 850

Решение

Отметим, что ВВП является ключевым макроэкономическим показателем результатов функционирования экономики и используется в международных сопоставлениях стран мира, при расчетах общественной производительности труда и других показателей эффективности экономики. Ежегодно международными организациями составляются рейтинги стран мира по уровню ВВП с целью определения наиболее развитых и отстающих стран.

Исходный показатель х– ВВП надушу населения но ППС – представляет собой результат совокупного действия множества факторов, среди которых отсутствуют явно доминирующие, а характер действия каждого фактора, как наблюдаемого, так и латентного, на результирующее значение показателя можно считать мультипликативным. Можно предположить, что для однородной группы стран закон распределения признака будет логарифмически нормальным:

где цио- соответственно математическое ожидание и среднее квадратическое отклонение величины логарифма латентной активности 1пл

Закон распределения будет представлять собой смесь р логарифмически-нормальных распределений:

где п, – доля объектов i-й группы в генеральной совокупности, – плотность вероятности распределения /-й группы.

Подтвердим теоретические предположения результатами анализа эмпирического распределения.

Выберем в качестве границ интервалов значения логарифма ВВП на душу населения от 0 до 4,29. Результаты расчетов, выполненные в программе MS Excel, приведены в табл. 6.6.

Таблица 6.6

Результаты расчетов эмпирической гистограммы

Карман

Частота

0

0

0,39

0

0,78

1

1,17

3

1,56

5

1,95

4

2,34

9

2,73

13

3,12

10

3,51

7

3,9

17

4,29

5

График, построенный средствами MS Excel на основе табл. 6.6. приведен на рис. 6.16.

Гистограмма распределения наблюдаемых значений признака

Рис. 6.16. Гистограмма распределения наблюдаемых значений признака

Вид гистограммы согласуется с предположением о логарифмически-нормальном распределении по размеру ВВП надушу населения каждой однородной группы стран мира и наличии нескольких таких групп в исследуемой совокупности.

Перейдем к этапу оценивания параметров. Для этого определим начальные приближения параметров смеси распределений Яу.р^а, на основе графического анализа гистограммы. Рассчитаем теоретическую гистограмму для выбранных значений параметров и сравним ее с эмпирической.

По гистограмме логарифма ВВП на душу населения по ППС (см. рис. 6.16) предположим наличие трех страт с колоколообразными функциями распределения и визуально определим начальные приближения значений параметров (табл. 6.7).

Средние значения ц,- для логарифма каждой страты определим приближенно как абсциссу точки ее предполагаемого максимума. Стандартное отклонение логарифма признака а, будет определяться расстоянием по оси абсцисс от предполагаемой точки максимума до точки перегиба плотности вероятности логарифма признака.

Таблица 6.7

Начальные приближения параметров смеси распределений

Mi

О,

71,

1.5

0.5

0.2

2.8

0.3

0,45

3,8

0,2

0.35

Теоретическую гистограмму можно построить по данным табл. 6.7 для выбранных ранее карманов (см. табл. 6.6). Для ее расчета используем функцию MS Excel ЛОГНОРМРАСП(х; среднее; стандартное_откл), которая возвращает интегральное логнормальное распределение, где In х представляет собой нормальное распределение. "Среднее" представляет собой среднее значение In х для данного компонента смеси, т.е. р,, а "Стандартное отклонение" – стандартное отклонение 1пд т.е. Ст'.

Результаты расчета теоретической гистограммы приведены в табл. 6.8.

Таблица 6.8

Результаты расчетов теоретической гистограммы (начальное приближение)

Карман

Частота

0

0,02

0.39

0,18

0.78

0,91

1,17

2,66

1,56

4,34

1.95

4.05

2,34

4,04

2.73

12.08

3.12

15,06

3,51

6,37

3,90

16,30

4.29

7.81

Гистограммы эмпирического и начального приближения теоретического распределений представлены на рис. 6.17.

Существенное различие гистограмм в первую очередь объясняется тем, что параметры. использованные для построения теоретического распределения, не являются оптимальными.

Произведем максимизацию логарифма отношения правдоподобия

путем подбора параметров для получения максимально правдоподобных оценок параметров смеси

Для решения оптимизационной задачи использовалась надстройка MS Excel "Поиск решения". Полученные максимально правдоподобные оценки параметров представлены в табл. 6.9.

Гистограммы эмпирического и начального приближения теоретического распределений

Рис. 6.17. Гистограммы эмпирического и начального приближения теоретического распределений:

– теоретическое;– эмпирическое

Таблица 6.9

Максимально правдоподобные оценки параметров смеси распределений

1

1.367

0,442

0,180

2

2,565

0,333

0,433

3

3,687

0,241

0,386

Результаты расчета теоретической гистограммы приведены в табл. 6.10.

Таблица 6.10

Результаты расчета теоретической гистограммы

Карман

Частота

0

0,01

0,39

0,17

0,78

1.05

1,17

3,14

1,56

4,58

1,95

4,16

2,34

8,02

2,73

14,31

3,12

8,70

3,51

7,79

3,9

16,69

4.29

5,21

На основе полученных оценок строится модель смеси логарифмически нормальных распределений. Для этого формируется массив значений логарифма ВВП на душу населения по ППС с одинаковыми интервалами между соседними значениями. Число значений должно обеспечить необходимое качество графика плотности вероятности. Выберем сетку значений аргумента In хс шагом 0.0625.

Рассчитаем значения теоретической плотности вероятности, используя команду

График плотности вероятности, рассчитанный для созданного массива значений ln х, представлен на рис. 6.18. На нем же отображены и графики взвешенных плотностей вероятностей компонентов смеси – слагаемых приведенной выше формулы.

Модель распределения стран мира по размеру ВВП на душу населения по ППС и ее декомпозиция

Рис. 6.18. Модель распределения стран мира по размеру ВВП на душу населения по ППС и ее декомпозиция:

В общей совокупности стран мира можно выделить три страты: страны с низким ВВП надушу населения, со средним ВВП надушу населения и с высоким ВВП на душу населения, доли которых составляют соответственно 6,8, 54.0 и 39,2%. При строгом решающем правиле условные границы классов для отнесения произвольного наблюдения к одной из выделенных страт определим как абсциссы точек пересечения взвешенных плотностей вероятности соседних страт. Их значения ВВП на душу населения, меньшие ехр(1,9125) = 3,295, следует отнести к категории с низким ВВП на душу населения (третья страта). Со средним ВВП на душу населения следует признать страны с ВВП на душу населения от 3,295 тыс. до 24.594 тыс. долл. США (вторая страта), с высоким ВВП на душу населения – страны, у которых ВВП на душу населения составляет более 24,594 тыс. долл. США (первая страта).

В первую страту вошли 29 стран: Новая Зеландия, Исландия, Корея, Кипр, Италия, Испания, Ирландия, Бахрейн, Франция, Япония, Соединенное Королевство. Финляндия, Канада и др. Все страны, входящие в первую страту, относятся к группам стран с высоким уровнем жизни населения.

Во вторую страту входят 40 стран: Молдова, Индия, Боливия. Марокко, Египет, Украина, Грузия, Армения, Китай, Таиланд, Доминика, Албания, Перу, Колумбия и др. В данную страту входят страны в основном со средним уровнем жизни населения.

В третью страту (самая маленькая страта, удельный вес от общей совокупности 6,8%) вошли пять стран: Гана, Тринидад и Тобаго, Пакистан, Узбекистан, Конго. Эти страны относятся к странам со средним и низким уровнем жизни населения.

 
<<   СОДЕРЖАНИЕ   >>