Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Классификация с обучением. Дискриминантный анализ

Основные понятия

Дискриминантный анализ – один из методов многомерного анализа, целью которого является классификация объектов, т.е. отнесение объекта к одной из известных групп некоторым оптимальным способом (например, разбиение совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности).

Методы дискриминантного анализа разрабатывались начиная с конца 1950-х гг. такими учеными, как Прасанта Чандра Махаланобис (индийский экономист и статистик, 1893–1972), Гарольд Хотеллинг (американский экономист и статистик, 1895–1973), Рональд Фишер (английский статистик, биолог-эволюционист, генетик, 1890–1962), и другими [32].

Отличительным свойством дискриминантного анализа как метода классификации является то, что исследователю заранее известны число групп, на которые нужно разбить рассматриваемую совокупность объектов, и их свойства; известно также, что объект заведомо принадлежит к одной из определенных групп (но к какой именно – неизвестно).

Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника школы к одной из трех категорий: (1) поступающий в вуз; (2) поступающий в профессиональную школу; (3) отказывающийся от дальнейшего образования или профессиональной подготовки. С этой целью исследователь может собрать данные о различных переменных, характеризующих учащихся школы. Отметим, что нас здесь интересует только вероятность подачи документов в вуз, в профессиональную школу или же отказ от дальнейшего образования или профессиональной подготовки, т.е., другими словами, мы хотим моделировать вероятность выбора выпускниками школы своего дальнейшего пути на основании отнесения их к одной из трех названных категорий. Для решения данной задачи можно использовать дискриминантный анализ, который позволит выделить переменные, вносящие решающий вклад в выбор учащимися дальнейшего пути при условии наличия обучающих выборок.

Медик может регистрировать значения различных переменных, описывающих состояние больного. Для того чтобы выяснить, какие переменные лучше предсказывают вероятность того, что пациент выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3), он может использовать дискриминантный анализ (ДА). Биолог может записать различные характеристики сходных типов (групп) цветов, чтобы затем провести анализ дискриминантной функции, наилучшим образом разделяющей типы или группы. Во всех приведенных примерах исследователь обладает обучающими выборками, относительно которых он знает все необходимые характеристики, которые позволяют ему построить дискриминантные функции (ДФ). Подстановка значений для нового наблюдения (объекта) в ДФ позволяет предсказать вероятность наступления интересующего исследователя события, а также выделить переменные, вносящие наибольший вклад в процесс такого разделения.

В соответствии со свойствами ДА возникают задачи двух типов:

  • 1) описания различий между классами;
  • 2) классификации объектов, не входивших в первоначальную обучающую выборку.

Для решения первой задачи (описания различий между классами) строятся канонические дискриминантные функции, которые позволяют с максимальной эффективностью разделить классы.

Для того чтобы выделить р классов, требуется не более р – 1 канонических дискриминантных функций. Например, для разделения двух классов достаточно одной функции, для разделения трех классов – двух функций и т.д. (рис. 6.13).

Разделение совокупности на два класса с помощью одной дискриминантной функции

Рис. 6.13. Разделение совокупности на два класса с помощью одной дискриминантной функции

Канонические дискриминантные функции можно рассматривать как аналог регрессионной модели, построенной с целью классификации объектов. В ДЛ дискриминантные переменные являются независимыми переменными. Для измерения абсолютного и относительного вкладов дискриминантных переменных в разделение классов используются нестан- дартизированные и стандартизированные коэффициенты канонических функций. Чем больше значение коэффициента, тем больший вклад в дискриминацию вносит переменная.

Одним из способов отбора информативных дискриминантных переменных является пошаговый ДА. Логика пошагового ДА такова: вначале определяется та переменная, для которой средние значения в априорно заданных группах наиболее различны. На каждом следующем шаге рассматриваются условные распределения оставшихся переменных и определяется та, для которой средние значение в группах наиболее различны, и т.д. Процесс завершается, когда ни одна из оставшихся переменных не вносит значимого вклада в различие групп. От выбора критерия отбора дискриминантных переменных зависит результат проведения ДА.

В начале каждого шага ДА происходит проверка всех дискриминантных переменных на соответствие двум условиям: необходимой точности вычисления (толерантности) и превышения заданного уровня различия (на основе использования F-распределения и статистик F-ввода и F-исключения). Статистика F-ввода оценивает улучшение разбиения благодаря использованию данной переменной по сравнению с различием, достигнутым с помощью уже отобранных переменных. Статистика F-исключения определяет значимость ухудшения различия после удаления переменной из списка уже отобранных переменных. На заключительном шаге статистика F-исключения может быть использована для оценки дискриминантных возможностей отобранных переменных. Переменная с наибольшим значением F-исключения дает наибольший вклад в различие, достигнутое посредством других переменных. Переменная, имеющая вторую по величине статистику F-исключения, является второй по значимости и т.д.

На следующем этапе ДА отобранное подмножество наиболее информативных переменных используется для вычисления ДФ. ДФ является линейной комбинацией дискриминантных переменных и выглядит как правая часть уравнения множественной регрессии. Таким образом, исследователь получает одну или две ДФ. Эти ДФ называются каноническими дискриминантными функциями [13].

Отмстим, что после получения канонических дискриминантных функций необходимо определить, все ли из этих функций полезны для описания межгрупповых различий. С этой целью используются собственные значения, процент объясненной дисперсии каждой из вычисленных функций, коэффициенты канонической корреляции, тест равенства средних значений канонических дискриминантных функций в группах. Использование ДА для решения практических задач показало, что о полезности ДФ для выделения различий между объектами можно судить по величине коэффициента канонической корреляции. Если значение этого коэффициента невысоко, то данную каноническую функцию не используют.

Самым лучшим показателем информативности отобранных дискриминантных переменных и полезности применения дискриминантной функции для интерпретации межгрупповых различий является процент правильно распознанных объектов с использованием полученных ДФ. Число правильно распознанных новых объектов (как в целом, так и по отдельным группам) свидетельствует о соответствии дискриминантной модели эмпирическим данным.

Для решения второй задачи (классификации объектов, не входивших в первоначальную обучающую выборку) вычисляются расстояния от каждого нового объекта, подлежащего классификации, до геометрического центра (центра тяжести) каждого класса.

Дискриминантный анализ предъявляет строгие требования к исходным данным: в модели должно быть не менее двух классов, в каждом классе – не менее двух объектов из обучающей выборки, число дискриминантных переменных не должно превосходить объем обучающей выборки, дискриминантные переменные должны быть количественными и линейно независимыми. Для каждого класса требуются приблизительное равенство ковариационных матриц, а также многомерная нормальность распределения.

Отметим, что на практике не всегда удается обеспечить выполнимость этих требований, что зачастую не позволяет корректно использовать аппарат дискриминантного анализа.

Итак, решается задача отнесения каждого из п наблюдений Хг где i = 1, 2,..., п, к одному из р классов.

В дискриминантном анализе под классом понимается генеральная совокупность, описываемая одномодальной функцией плотности распределения /(.г) или одномодальным полигоном вероятностей (в случае дискретных признаков X).

Идея вероятностных методов классификации состоит в следующем: наблюдение Х: будет относится к тому классу (той генеральной совокупности), в рамках которого оно выглядит наиболее правдоподобно. Этот принцип может корректироваться с учетом удельных весов классов (обозначим их через пт) и особенности, так называемой функции потерь С(1/т), которая определяет стоимость потерь от ошибочного отнесения объекта, принадлежащего классу ш, к классу с номером /(/, т = 1, 2,..., р).

Для реализации подхода необходимо знание функций Д (х),..., /р (х), задающих закон распределения вероятностей соответствующих классов. В дальнейшем при описании аппарата ДА будем исходить из нормальныго закона распределения, т.е., где. При р = 1 имеем I и

 
<<   СОДЕРЖАНИЕ   >>