Кластерный анализ

Многомерный статистический анализ. Основные понятия

В социально-экономических исследованиях часто приходится работать с массовыми данными, которые включают сотни объектов и десятки признаков, зарегистрированных по каждому объекту. Исходные данные представляют собой таблицу "объект – признак" (табл. 10.1).

Таблица 10.1

Таблица "объект – признак"

Объект

Признак

1

2

3

п

Примечание: п – объем выборки; Ху -j-й признак для г'-го объекта; i – номер объекта (номер строки таблицы);,/ – помер признака (номер столбца таблицы).

Визуальный анализ такой таблицы бывает просто невозможен, а традиционные статистические методы малоэффективны. В этих случаях целесообразно применять методы многомерного статистического анализа.

Методы многомерного статистического анализа – это методы, предназначенные для изучения многомерных явлений, т.е. явлений, характеризующихся более чем двумя различными признаками.

Применение методов многомерного статистического анализа позволяет решать три задачи:

  • 1) исследование связей и зависимостей между анализируемыми показателями. Для решения этой задачи используются множественный регрессионный анализ и корреляционный анализ;
  • 2) классификация элементов (объектов) с целью разбиения их на однородные группы (классы), число которых сравнительно невелико. Эта задача решается с помощью таких методов, как дискриминантный анализ и кластерный анализ;
  • 3) снижение размерности исследуемого признакового пространства и отбора наиболее информативных признаков. Эта задача решается методом главных компонент, факторного анализа и многомерного шкалирования.

Применение многомерных методов требует сложных вычислений. Стремительно развивающиеся информационные технологии способствуют все более широкому использованию пакетов прикладных статистических программ в социально-экономических, медицинских, технических исследованиях. К числу таких программных продуктов относятся Statistica, SPSS, Stata, SAS и др. В связи с тем, что перечисленные профессиональные пакеты имеют удобный для пользователя интерфейс, сложности в их техническом использовании минимальны. Содержательная сторона применения многомерных статистических методов, как правило, вызывает у исследователей трудности, особенно в отношении интерпретации результатов.

Разнородность данных приводит к тому, что на первый план выходят проблемы классификации многомерных наблюдений, т.е. построение группировок и классификаций по многомерным данным.

Определение, цели и алгоритм кластерного анализа

Кластерный анализ (англ. cluster analysis) – это метод классификации многомерных наблюдений на основе определения сходства или близости (расстояния) между объектами. Цель кластерного анализа заключается в определении однородных в некотором смысле групп, которые называются кластерами. Английское слово "cluster" в переводе означает "гроздь, группа, скопление".

Кластерный анализ применяется в самых различных задачах, где необходимо исследовать структуру совокупности и выполнить классификацию объектов. Наиболее востребовано использование кластерного анализа для исследований в медицине, биологии, психологии, социологии и экономике.

В медицинских исследованиях необходима классификация симптомов заболевания, медицинских препаратов, а также выявления однородных групп пациентов с приблизительно одинаковыми симптомами. В маркетинговых исследованиях проводится классификация конкурентов, поставщиков, потребителей. При разработке данных социологических опросов почти всегда возникает необходимость выявления однородных групп респондентов.

Алгоритм кластерного анализа включает пять этапов.

  • 1 этап. Представление исходных данных в виде матрицы (таблицы "объект – признак").
  • 2 этап. Определение сходства объектов.
  • 3 этап. Выбор метода объединения объектов в кластеры.
  • 4 этап. Определение оптимального числа кластеров.
  • 5 этап. Интерпретация кластеров и качества разбиения.
 
< Пред   СОДЕРЖАНИЕ     След >