Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

6.2.4. Функционалы качества разбиения

В предыдущем подпараграфе мы разобрали различные способы разбиения совокупности объектов на классы (кластеры). Поэтому представляет интерес задача сравнительного анализа качества этих способов разбиения, определенного на множестве всех возможных разбиений. Для этих целей используют функционалы качества разбиения, которые мы обозначим через Q(S).

Пусть выбрана метрика d в пространстве X и пусть S = (5,, S2,..., Sp) – некоторое фиксированное разбиение наблюдений X,, ..., Х„ на заданное число р классов б), б2,..., Sp. Под наилучшим разбиением S' понимаем такое разбиение, при котором достигается экстремум выбранного функционала качества.

Рассмотрим некоторые наиболее распространенные функционалы качества разбиения.

Взвешенная сумма мер внутриклассовых дисперсий (разброса наблюдений) определяется по формуле

где– вектор средних (центр тяжести) для группы 5/.

На рис. 6.10 показано расстояние между точкой х и центром тяжести класса / в разбиении S.

Расчет функционала качества

Рис. 6.10. Расчет функционала качества

Сумма квадратов попарных внутриклассовых расстояний между элементами определяется по формуле

или

Отметим, что существуют и другие функционалы качества разбиения. Выбор конкретной формы функционала Q(S) опирается на профессиональные, эмпирические соображения исследователя, а не на строго формализованную схему.

Пример 6.2

В табл. 6.2 представлены значения шести показателей, характеризующих условия жизни населения в 27 странах:

X, – потребление мяса и мясопродуктов на душу населения, кг;

Х-2 – потребление масла животного на душу населения, кг;

Х:! – оценка валового внутреннего продукта по паритету покупательной способности в некотором году на душу населения, % к США;

Л', расходы на здравоохранение, % от ВВП;

Xs – потребление фруктов и ягод на душу населения, кг;

X(i – потребление хлебных продуктов на душу населения, кг.

Таблица 6.2

Макроэкономические показатели уровня жизни населения для примера 6.2

Страна

Россия

55

3,9

20,4

3,2

28

124

Австралия

100

2,6

71,4

8,5

121

87

Австрия

93

5,3

78,7

9,2

146

74

Азербайджан

20

4,1

12.1

3,3

52

141

Армения

20

3.7

10.9

3,2

72

134

Белоруссия

72

3,6

20,4

5,4

38

120

Бельгия

85

6.9

79.7

8,3

83

72

Болгария

65

3.0

17,3

5.4

92

156

Великобритания

67

3,5

69,7

7.1

91

91

Венгрия

73

1.7

24,5

6.0

73

106

Германия

88

6.8

76,2

8.6

138

73

Греция

83

1.0

44,4

5,7

99

108

Грузия

21

3.8

11,3

3.5

55

140

Дания

98

5.0

79,2

6.7

89

77

Ирландия

99

3.3

57,0

6.7

87

102

Испания

89

0.4

54,8

7,3

103

72

Италия

84

2,2

72,1

8.5

169

118

Казахстан

61

4.2

13,4

3,3

10

191

Канада

98

3,1

79,9

10.2

123

77

Киргизия

46

4,1

11.2

3.4

20

134

Нидерланды

86

3,4

72,4

8,7

176

59

Португалия

73

3,2

48,6

7,3

150

83

США

115

1.9

100,0

14,1

99

103

Финляндия

62

5,8

63.9

8.8

82

94

Франция

91

8.8

77,5

9.8

84

85

Чехия

82

8,2

34.7

1,9

65

114

Япония

-10

0.7

83,5

7.3

60

119

Требуется провести классификацию стран по уровню жизни населения с использованием иерархических кластерных процедур, обосновать выбор лучшего разбиения с использованием функционала качества.

Решение

Для решения задачи объединения объектов в кластеры используем евклидову метрику, а также методы "ближнего соседа", "дальнего соседа", "средней связи" и центра тяжести.

Дендограммы для каждого метода приведены на рис. 6.11.

Применение метода "ближнего соседа" позволило разделить страны мира на три кластера, причем два из них состоят из одного элемента, что не позволяет признать это разбиение оптимальным. Использование остальных методов привело к разбиению стран мира на два кластера. В табл. 6.3 представлено сравнение полученных результатов с использованием функционала качества разбиения.

Таблица 6.3

Сравнение результатов классификации с использованием функционала качества разбиения Qi (взвешенная сумма мер внутриклассовых дисперсий)

Тип расстояния между группами объектов

Значение функционала качества для заданного количества кластеров (Р = 2)

Метод "ближнего соседа"

5608,2

Метод "дальнего соседа"

5709,1

Метод центра тяжести

4733,5

Метод "средней связи"

5657,1

Сопоставление значений функционала качества позволяет сделать вывод о том, что лучшим является разбиение, полученное с использованием метода центра тяжести, когда было выделено два кластера. Первый кластер включает страны Западной и Центральной Европы, Северной Америки и Австралию, а второй кластер – Восточную Европу, Киргизию и Японию. Странам первого кластера соответствуют высокий уровень ВВП надушу населения, высокие расходы на здравоохранение, преобладание в рационе мясных изделий и фруктов. Страны второго кластера характеризуются низким значением ВПП на душу населения, невысокими расходами на здравоохранение и преобладанием в рационе хлебобулочных изделий.

Заметим, что остальные методы (методы "ближнего соседа", "дальнего соседа", "средней связи") имеют одинаковый состав кластеров, отличаясь от оптимального разбиения (с использованием принципа центра тяжести) только одним наблюдением – Японией. Причина заключается в том, что Япония, с одной стороны, имеет высокие уровень ВВП на душу населения и расходы на здравоохранение (что соответствует странам первого кластера), а с другой стороны, в рационе населения преобладают хлебобулочные изделия при низком потреблении мяса (что соответствует странам второго кластера).

Дендрограммы объединения объектов в кластеры

Рис. 6.11. Дендрограммы объединения объектов в кластеры

Необходимо отметить, что согласно расчету функционалов качества разбиения Япония должна быть отнесена ко второму кластеру (функционал качества имеет минимальное значение), однако если выбирать наиболее устойчивый вариант разбиения, то Япония попадает в первый кластер (получено тремя способами), поэтому окончательный вариант решения этой задачи зависит от выбора исследователя, который должен исходить из цели и задач исследования и опираться на свое (экспертное) понимание сути процесса.

 
<<   СОДЕРЖАНИЕ   >>