Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Снижение размерности признакового пространства

В результате изучения материала главы 5 обучающийся должен:

знать

  • • основные понятия и задачи снижения размерности:
  • • подходы к решению задачи трансформации признакового пространства;

уметь

  • • использовать метод главных компонент для перехода к стандартизованным ортогональным признакам;
  • • оценивать уменьшение информативности данных при снижении размерности признакового пространства;
  • • решать задачу построения оптимальных многомерных шкал для исследования объектов;

владеть

  • • методами снижения размерности для решения прикладных задач статистического анализа;
  • • навыками интерпретации переменных в преобразованном признаковом пространстве.

Основные понятия и задачи снижения размерности

На первый взгляд, чем больше информации об объектах исследования в виде совокупности характеризующих их признаков будет использовано для создания модели, тем лучше. Однако чрезмерный объем информации может привести к снижению эффективности анализа данных. Существует даже термин "проклятие размерности" (curse of dimensionality), характеризующий проблемы работы с высокоразмерными данными. С необходимостью снижения размерности в той или иной форме связано решение различных статистических проблем.

Неинформативные признаки являются источником дополнительного шума и влияют на точность оценки параметров модели. Кроме того, наборы данных с большим числом признаков могут содержать группы коррелированных переменных. Наличие таких групп признаков означает дублирование информации, которое может искажать спецификацию модели и влиять на качество оценки ее параметров. Чем выше размерность данных, тем выше объем вычислений при их алгоритмической обработке.

Можно выделить два направления в снижении размерности признакового пространства по принципу используемых для этого переменных: отбор признаков из имеющегося исходного набора и формирование новых признаков путем трансформации первоначальных данных. В идеальном случае сокращенное представление данных должно иметь размерность, соответствующую размерности, внутренне присущей данным (intrinsic dimensionality).

Поиск наиболее информативных признаков, характеризующих исследуемое явление, представляет собой очевидное направление снижения размерности задачи, не требующее преобразования исходных переменных. Это позволяет сделать модель более компактной и избежать потерь, связанных с мешающим действием малоинформативных признаков. Отбор информативных признаков состоит в поиске наилучшего подмножества из множества всех исходных переменных. Критериями понятия "наилучшее" могут служить либо наиболее высокое качество моделирования при заданной размерности признакового пространства, либо наименьшая размерность данных, при которой возможно построение модели заданного качества.

Прямое решение задачи создания наилучшей модели связано с перебором всех возможных сочетаний признаков, что обычно представляется чрезмерно трудоемким. Поэтому, как правило, прибегают к прямой или обратной селекции признаков. В процедурах прямого отбора производится последовательное добавление переменных из исходного набора до достижения необходимого качества модели. В алгоритмах последовательной редукции исходного признакового пространства (обратной селекции) производится поэтапное удаление наименее информативных переменных до допустимого снижения информативности модели.

Следует учитывать, что информативность признаков относительна. Отбор должен обеспечить высокую информативность набора признаков, а не суммарную информативность составляющих его переменных. Так, наличие корреляции между признаками снижает их общую информативность вследствие дублирования общей для них информации. Поэтому добавление нового признака к уже отобранным обеспечивает прирост информативности в той степени, в которой он содержит полезную информацию, отсутствующую в ранее выбранных переменных. Наиболее простой является ситуация отбора взаимно ортогональных признаков, в которой алгоритм отбора реализуется предельно просто: переменные ранжируются по информативности, и используется такой состав первых в этом рейтинге признаков, который обеспечивает заданную информативность.

Ограниченность методов отбора признаков с целью снижения размерности пространства связана с предположением о непосредственном присутствии необходимых признаков в исходных данных, что обычно оказывается неверным. Альтернативный подход к снижению размерности предусматривает преобразование признаков в сокращенный набор новых переменных [4]. В отличие от отбора исходных признаков формирование нового признакового пространства предполагает создание новых переменных, которые обычно являются функциями исходных признаков. Эти переменные, непосредственно не наблюдаемые, часто называют скрытыми, или латентными. В процессе создания эти переменные могут быть наделены различными полезными свойствами, такими как ортогональность. На практике исходные признаки обычно взаимосвязаны, поэтому трансформация их пространства в ортогональное порождает новые координаты-признаки, в которых отсутствует эффект дублирования информации об исследуемых объектах.

Отображение объектов в новом ортогональном признаковом пространстве создает возможность наглядно представить полезность каждого из признаков с точки зрения различий между этими объектами. Если координаты нового базиса упорядочить по дисперсии, характеризующей разброс значений по ним для рассматриваемых наблюдений, то становится очевидной ненужность с практической точки зрения некоторых признаков с малыми значениями дисперсий, так как объекты по этим признакам практически неразличимы по сравнению с их различиями по более информативным переменным. В такой ситуации можно говорить о так называемом вырождении исходного признакового пространства из k переменных, и реальная размерность этого пространства т может быть меньше исходной (m < k).

Редукция признакового пространства сопровождается определенным снижением информативности данных, но уровень допустимого снижения может быть определен заранее. Выделение признаков проецирует набор исходных переменных в пространство меньшей размерности. Сжатие признакового пространства до двух-трехмерного может быть полезным для визуализации данных. Таким образом, процесс формирования нового признакового пространства обычно приводит к меньшему набору реально информативных переменных. На их базе может быть построена более качественная модель как основанная на меньшем числе наиболее информативных признаков.

Формирование новых переменных на основе исходных используется для латентно-семантического анализа, сжатия данных, классификации и распознавания образов, повышения скорости и эффективности процессов обучения [62]. Сжатые данные обычно применяются для дальнейшего анализа и моделирования [60].

Одним из важных приложений трансформации признакового пространства и снижения размерности является построение синтетических латентных категорий на основе измеряемых значений признаков. Эти латентные признаки могут характеризовать общие определенные черты изучаемого явления, интегрирующие частные свойства наблюдаемых объектов, что позволяет строить интегральные индикаторы различных уровней обобщения информации.

Существенна роль методов редукции признакового пространства в исследовании проблемы дублирования информации в исходных признаках, приводящего к "разбуханию" дисперсии оценок коэффициентов регрессионных моделей [1]. Переход к новым, в идеальном случае ортогональным и содержательно интерпретируемым, переменным является эффективным средством моделирования в условиях мультиколлинеарности исходных данных [29].

Преобразование исходного признакового пространства в ортогональное удобно для решения задач классификации, так как позволяет обоснованно применять определенные меры близости или различий объектов, такие как евклидово расстояние либо квадрат евклидова расстояния. В регрессионном анализе построение уравнения регрессии на главных компонентах позволяет решить проблему мультиколлинеарности.

 
<<   СОДЕРЖАНИЕ   >>