Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

5.4. Эвристические методы снижения размерности

Снижение размерности признакового пространства является задачей, допускающей множество различных решений в зависимости от выбранных критериев оптимальности и применяемых ограничений. Помимо линейности преобразований нормально распределенных исходных данных и наибольшей дисперсии отбираемых или формируемых признаков, приводящих к использованию метода главных компонент, применяется множество других подходов и критериев, подходящих для конкретной задачи. Процедура выбора ограничений и критериев при этом не формализована, она обусловлена опытом и интуицией исследователя, носит эвристический характер.

К числу эвристических методов снижения размерности относят метод экстремальной группировки признаков и метод корреляционных плеяд.

При изучении сложных объектов, заданных многими параметрами, возникает задача разбиения параметров на группы, каждая из которых характеризует объект с какой-либо одной стороны. Часто измеряемые признаки характеризуют изучаемый объект лишь косвенно, что осложняет задачу получения ясной содержательной интерпретации результатов.

В некоторых случаях характеризующие исходную совокупность признаки естественным образом разбиваются на относительно небольшое число групп, в каждой из которых изменения определяются неким общим свойственным ей фактором. В связи с этим выделение групп признаков естественно строить так, чтобы параметры, принадлежащие к одной группе, были достаточно тесно связаны по сравнению с корреляцией параметров из разных групп. После этого для каждой группы признаков определяется случайная величина, наиболее сильно коррелированная с параметрами определенной группы. Каждая из таких величин рассматривается как фактор, отражающий информацию, содержащуюся в данной группе признаков.

В методе экстремальной группировки в отличие от классических моделей факторного анализа выделение общих факторов осуществляется на основе поиска экстремумов функционалов, введенных эвристически, и такие разбиения признаков, связанных с общими факторами, называют экстремальной группировкой параметров.

Один из вариантов реализации метода экстремальной группировки предполагает использование в качестве критерия оптимальности функционала, зависящего от парных коэффициентов корреляции исходных признаков X: и факторов / в пределах различных непересекающихся подмножеств номеров признаков, объединение которых образует полный набор этих номеров:

(5.18)

При заданных классахдля получения оптимального набора факторов требуется максимизация каждого из слагаемых, из чего следует, что максимум данного функционала равен сумме квадратов собственных чисел матриц парных коэффициентов корреляции переменных в каждом из этих классов. В то же время при фиксированном наборе факторов {/)} несложно построить разбиение, максимизирующее данный функционал. Для одновременного нахождения оптимального разбиения и оптимального набора факторов можно реализовать итерационный алгоритм поиска максимума.

Альтернативный вариант экстремальной группировки предполагает максимизацию другого функционала, отличающегося от функционала (5.18) тем, что суммируются не квадраты, а модули соответствующих парных коэффициентов корреляции:

Эвристический метод корреляционных плеяд может применяться в случаях, если задача разбиения признаков на группы имеет самостоятельное значение. Как и метод экстремальной группировки, данный метод предназначен для нахождения таких групп признаков, когда сумма модулей коэффициентов корреляции между параметрами одной группы достаточно велика, а связь между параметрами из разных групп мала. Для реализации метода используется метод создания и анализа графа, первичными элементами которого являются исходные признаки. Разбиение общего графа на подграфы приводит к выявлению образующих их групп признаков – плеяд.

Каждое ребро исходного графа характеризуется модулем парного коэффициента корреляции признаков, соединяемых этим ребром. После задания некоторого малого порогового значения модуля коэффициента корреляции 50 из графа исключают те ребра, которые характеризуются меньшим значением модуля коэффициента корреляции, чем пороговое. Процедура повторяется для большего, чем значения порога. При этом значения тесноты связей внутри формирующихся оставшихся групп (плеяд) будут выше, чем между плеядами.

Метод корреляционных плеяд может быть реализован помимо метода построения графов еще и табличным методом.

В другом варианте метода корреляционных плеяд предлагается упорядочивать признаки и рассматривать только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе. Упорядочение производится на основании принципа максимального корреляционного пути: все к признаков связываются при помощи (/:-1) ребер так, чтобы сумма модулей коэффициентов корреляции была максимальной. Для этого находят наибольший по модулю коэффициент корреляции rtm и соединяют т-й и l-й элементы ребром графа, затем определяют наибольший по модулю после г1т коэффициент корреляции в т-м столбце и 1-й строке корреляционной матрицы (единичный диагональный элемент при этом не учитывается): Г/„ или г,т. Найденный таким образом элемент (г/ или j) соединяют ребром с соответствующим -м или 1-м) элементом.

На каждом шаге находятся признаки, наиболее сильно связанные с двумя последними рассмотренными признаками, а затем выбирается один из них, соответствующий большему коэффициенту корреляции. Процедура заканчивается после (к – 1)-го шага; граф оказывается состоящим из р элементов, соединенных к – 1 ребрами. Затем задается пороговое значение а все ребра, соответствующие меньшим, чем коэффициентам корреляции, исключаются из графа.

Граф, в котором для любых двух элементов существует единственная траектория, составленная из линий связи, соединяющая эти два элемента, называется незамкнутым графом. Во втором варианте метода корреляционных плеяд допускается построение только незамкнутых графов, а в первом варианте такое ограничение отсутствует. Поэтому разбиения на плеяды, полученные разными способами, могут не совпадать.

Исторически раньше возникшие различные варианты метода корреляционных плеяд являются упрощенными эвристическими версиями более совершенных в математическом плане алгоритмов исследования структуры связей между компонентами многомерного признака, использующими графы-деревья и стохастические сети.

 
<<   СОДЕРЖАНИЕ   >>