Главная Информатика
ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ: НЕЧЕТКИЕ СИСТЕМЫ И СЕТИ
|
|
||||||
Алгоритмы оптимизации нечеткой нейронной сетиАдекватность модели, которая описывается нечеткими базами знаний, данным эксперимента определяется типом и качеством настройки функций принадлежности и весов правил, с помощью которых лингвистические оценки параметров модели превращаются в количественную форму. Но поскольку функции принадлежности в свою очередь определяются экспертными методами [15], то адекватность нечеткой модели в целом также зависит от квалификации экспертов. Кроме того, далеко нс всегда существует возможность привлечения эксперта, который бы промоделировал тот или иной объект (процесс), что может быть связано с его сложностью или определенной новизной и как следствие - недостаточным освоением. В связи с этим возникает вопрос о возможности автоматизации процесса построения нечетких баз знаний, которые моделируют указанные объекты, на основе имеющихся экспериментальных данных, полученных в результате их исследования. Так, преобразование экспериментальной информации в нечеткие базы знаний могло бы быть полезным в медицине, и других областях, где лица, принимающие решения, вместо строгих количественных соотношений (которых они зачастую не имеют по объективным причинам) отдают предпочтение прозрачным и легким для интерпретации словесным правилам. Чтобы улучшить классификационную способность базы правил рассмотрим различные алгоритмы оптимизации. Для исследования были выбраны среднемасштабная оптимизация с использованием нелинейного программирования с ограничениями, и оптимизация с использованием алгоритма на основе фильтра Калмана [3, 8, 31]. Так как объем выборки недостаточно большой, то используется среднемасштабная оптимизация. В общем случае, эта задача относится к нелинейной оптимизации с ограничениями или к нелинейному программированию [3, 8, 31]. В данном методе на каждой итерации решается подзадача Квадратичного Программирования. В то же время квадратичная задача достаточно проста, и для нее существуют эффективные (в том числе конечные) методы решения. Таким образом, указанный подход имеет практический смысл, в отличие, например, от использования аппроксимаций более высокого порядка. С другой стороны, методы Последовательного Квадратичного Программирования (SQP) [24] могут рассматриваться как результат распространения фундаментальной идеи ньютоновских методов на задачи оптимизации с функциональными ограничениями. Например, в случае задачи с чистыми ограничениями-равенствами методы SQP суть не более чем специальные реализации ньютоновских методов решения системы Лагранжа. На сегодняшний день методы SQP входят в число наиболее эффективных оптимизационных методов общего назначения. Оптимизация с использованием нелинейного программиро- вания с ограничениями относится к этапу алгоритма обучения адаптивных нечетких нейронных сетей. Оптимизация представляет собой нахождение таких параметров весовых коэффициентов правил w = {w|,w2,...,wn}, которые являются оптимальными в смысле некоторою критерия. В этом случае такая задача сводится к минимизации целевой функции с ограничениями, в виде неравенств 0
при ограничениях
где w - вектор оптимизируемых параметров (we R"),J(w) - скалярная целевая функция векторного аргумента (/(w):/?" —> /?(, g,(w) - некоторые скалярные функции векторного аргумента. Данная задача может быть решена с применением метода SQP. В настоящее время, более эффективным считается применение так называемых уравнений Куна-Таккера с использованием леммы Фаркаша, которая утверждают о существовании решения одной и только одной из двух систем линейных уравнений и неравенств [24]. То, что из уравнения следует V/(w* (> 0, означает, что существует множество таких неотрицательных скалярных постоянных, что
где V - векторный дифференциальный оператор, w* - является точкой минимума функции Дуг) при ограничениях , удовлетворяющих условию регулярности в виде линейной независимости, Л* - неотрицательный множитель Лагранжа, /- множество индексов активных ограничений. Поскольку при уе/ функция Vg(W) = 0, а приy'g/ Л.= О, поскольку g,(w*)<0 для всех jtl. Поскольку градиенты подлежат выходу на нулевые значения, то множители Лагранжа (Д(, / = 1,.,.,/л) будут необходимы для того, чтобы уравновесить отклонения по величине данной целевой функции и градиентов ограничений. Поскольку только активные ограничения вовлечены в данную процедуру обнуления, то ограничения не активны и не должны подвергаться данной процедуре и поэтому соответствующие множители Лагранжа будут равны нулю. Решение уравнений Куна-Таккера служит основой для последовательного квадратичного программирования. В этом алгоритме используется прямое вычисление множителей Лагранжа. Пусть j,gni ^i< т, обладают непрерывными частными производными на некотором открытом множестве пространства R", содержащем и<*. Если w* является точкой минимума функции /(vr) при ограничениях 0<§,(щ)<1 (/ = 1,2,...т), удовлетворяющих условию регулярности в виде линейной независимости, то существуют такие неотрицательные множители Лагранжа (Я,, / = 1,...,т), что
Используя последовательное квадратичное программирование на каждом шаге которого функции цели и ограничений заменяются на их квадратичные приближения, и решается следующая подзадача квадратичного программирования: нахождение вектора d, с помощью которого корректируется вектор весов w,+| = и», + d, такого, что d является решением задачи квадратичного программирования:
где V - векторный дифференциальный оператор, Н - симметричная и положительно определенная матрица вторых частных и смешанных производных (матрица Гессе), А - якобиан ограничений. В качестве матрицы Я (гессиан Лагранжа) может быть использован как полный гессиан:
так и неполный:
0Л - нулевая квадратная матрица размерности п,„. Положим, что якобиан ограничений g(w) равен A(w), т.е. что
Отметим, далее, что ограничения g(w) входят только в выражения якобиана и гессиана ограничений, а, следовательно, только эти матрицы зависят от схемы численного интегрирования целевой функции. Неполный гессиан используется для возмещения отсутствия положительной определённости V,L(w,X) и для уменьшения сложности вычисления. Также использование неполного гессиана приводит к упрощению программного кода и ускорению его разработки, при этом, как будет показано, скорость сходимости алгоритма к решению будет выше при выполнении некоторых условий. Вид матрицы Гессе для Лагранжевой функции обновляется на каждой итерации с помощью метода BFGS (Broyden, Fletcher, Goldfarb, Shanno) [28]. Метод BFGS оптимизации, использующий аппроксимацию матрицы вторых производных Я, представлен ниже. На первом шаге рассчитывается матрица Я„. В качестве Я0 выбирается единичная матрица. На втором шаге рассчитывается градиент в текущей точке. На третьем шаге рассчитывается направления J. = -V7/(и;)ЯГ'. На четвертом шаге происходит расчет шага. На пятом шаге рассчитывается новая точка с/, = м>(+| - и>. . На шестом шаге алгоритма происходит пересчет матрицы Яж согласно методу BFGS. ![]() ![]() На седьмом шаге происходит проверка критерия останова qj dt > 0. Если не выполняется, то положить i = / + 1 и перейти к шагу два. Матрица Я должна обладать двумя свойствами:
Матрицу Я, можно искать из условия линейной интерполяции для квадратичной модели.
Если d, = wl4l - Wj, Пересчет Нм происходит по формуле . Суть метода Бройдена [27] состоит в том, чтобы вычислить матрицу Гессе аналитически или с помощью метода конечных разностей на первой итерации, а после этого на каждой итерации обновлять матрицу Гессе, не вычисляя значения функций и их производных. Рассмотрим следующий алгоритм оптимизации применительно к базе знаний нечеткой нейронной сети ANFIS типа Сугено [24]. Предполагается, что задана нечеткая база знаний Сугено и существует обучающая выборка из М пар экспериментальных данных, связывающих входы Xr=(xrl9xr29...9xm) с выходом у исследуемой зависимости (Хг,у), г = 1,Л/. Параметрическая идентификация нечеткой базы знаний Сугено сводится к следующей задаче нахождения вектора (P,fV) по формуле: ![]() В этой задаче оптимизации на управляемые переменные Р налагаются ограничения, обеспечивающие линейную упорядоченность элементов терм-множеств. Такие ограничении не позволяют алгоритму оптимизации сделать, нечеткое множество «низкий» больше «высокого». Что касается вектора W, то его координаты должны находиться в диапазоне [0,1]. Уверенность эксперта в каждом правиле ЕСЛИ-TO, входящем в нечеткую базу знаний, может быть различной. Для отражения значимости правил введены их веса. Вес правила которое характеризует субъективную меру уверенности эксперта в этом правиле. На практике такую задачу решают алгоритмами на основе фильтра Калмана [24], которые оптимизируют только линейные параметры нечеткой базы знаний - коэффициенты в заключениях правил. Задача сводится к нахождению таких коэффициентов в заключениях нечетких правил W, которые обеспечивают минимум квадратичной невязки: ![]() где yf - результат вывода по нечеткой базе знаний с параметром W при значении входов из строки выборки Хг Входному вектору *r соответствует такой результат нечеткого вывода:
полненияу-го правила. Относительную степень выполненияу-го правила для входного Хг обозначим через:
Тогда формула можно переписать в виде:
Введем следующие обозначения:
Тогда задача настройки в матричной форме ставится следующим образом нахождения вектора W:
где Yf = AW. Минимальное значение квадратичной невязки Е достигается Y1 = Y, что соответствует решению уравнения ![]() Недостатком данного алгоритма является то, что при решении реальных задач количество настраиваемых параметров меньше объема выборки данных, следовательно, уравнение нс имеет точного решения. Трудности при решении также связаны с сингулярностью матрицы А. Количество итераций данного алгоритма равно объему выборки экспериментальных данных. На первом шаге алгоритма координаты вектора W настраиваются по первой строчке выборки данных. На второй итерации координаты вектора W подстраивают под вторую пару «входы-выход» и т.д. Другой недостаток данного алгоритма оптимизации при больших обучающих выборках наступает эффект насыщения - точность оптимизация практически не улучшается с увеличением числа наблюдений. Подход нелинейной оптимизации обеспечивает существенный вклад от ограничения с небольшими параметрами в значения штрафных параметров, что особенно актуально для активных ограничений вблизи точки решения. Преимущества данного метода оптимизации заключаются в его простоте и ясной содержательной интерпретации. Процент ошибок широко используется как критерий обучения различных систем распознавания образов. Целевая функция задачи оптимизации принимает дискретные значения. Таким образом, из проведенного анализа видно, что с использованием алгоритма нелинейной оптимизации с ограничениями происходит оптимальная настройка весов заключений правил, что дает возможность лучше подготовить нечеткую нейронную сеть для решения конкретных задач с меньшими вычислениями. Это предполагает выбор данного алгоритма для дальнейших экспериментов. |
<< | СОДЕРЖАНИЕ | ПОСМОТРЕТЬ ОРИГИНАЛ | >> |
---|