Математические основы радиальных сетей
Математическую основу функционирования радиальных сетей составляет теорема Т. Ковера о распознаваемости образов, в соответствии с которой нелинейные проекции образов в некоторое многомерное пространство могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью.
Если вектор радиальных функций в
- мерном входном пространстве обозначить , то это пространство является нелинейно - разделяемым на два пространственных класса и тогда, когда существует такой вектор весов , чтоГраница между этими классами определяется уравнением
.Доказано, что каждое множество образов, случайным образом размещенных в многомерном пространстве, является
- разделяемым с вероятностью 1 при условии соответственно большой размерности этого пространства. На практике это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции , гарантирует решение задачи классификации при построении всего лишь двухслойной сети: скрытый слой должен реализовать вектор , а выходной слой может состоять из единственного линейного нейрона, который выполняет суммирование выходных сигналов от скрытых нейронов с весовыми коэффициентами, заданными вектором .Простейшая нейронная сеть радиального типа функционирует по принципу многомерной интерполяции, состоящей в отображении
различных входных векторов из входного -мерного пространства во множество из p чисел . Для реализации этого процесса необходимо использовать скрытых нейронов радиального типа и задать такую функцию отображения , для которой выполняется условие интерполяцииИспользование
скрытых нейронов, соединяемых связями с весами с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Рассмотрим радиальную сеть с одним выходом иобучающими парами
. Примем, что координаты каждого изцентров узлов сети определяются одним из векторов
, т.е. . В этом случае взаимосвязь между входными и выходными сигналами сети может быть определена системой уравнений, линейных относительно весов, которая в матричной форме имеет вид:(1) |
Доказано, что для ряда радиальных функций в случае
квадратная интерполяционная матрица является невырожденной и при этом неотрицательно определенной. Поэтому существует решение уравнения (1) в виде
(2) |
Теоретическое решение проблемы, представленное выражением (2), не может считаться абсолютно истинным по причине серьезного ограничения общих свойств сети, вытекающих из сделанных вначале допущений. При очень большом количестве обучающих выборок и равном ему количестве радиальных функций проблема с математической точки зрения становится бесконечной (плохо структурированной), поскольку количество уравнений начинает превышать число степеней свободы физического процесса, моделируемого уравнением (1). Это означает, что результатом такого чрезмерного количества весовых коэффициентов станет адаптация модели к разного рода шумам или нерегулярностям, сопровождающим обучающие выборки. Как следствие, интерполирующая эти данные гиперповерхность не будет гладкой, а обобщающие возможности останутся очень слабыми.
Чтобы их усилить, следует уменьшить количество радиальных функций и получить из избыточного объема данных дополнительную информацию для регуляризации задачи и улучшения ее обусловленности.
Радиальная нейронная сеть
Использование в разложении
базисных функций, где - это количество обучающих выборок, недопустимо также и с практической точки зрения, поскольку обычно количество этих выборок очень велико, и в результате вычислительная сложность обучающего алгоритма становится чрезмерной. Решение системы уравнений (1) размерностью при больших значениях становится затруднительным. Так же, как и для многослойных сетей, необходимо редуцировать количество весов, что в этом случае сводится к уменьшению количества базисных функций. Поэтому отыскивается субоптимальное решение в пространстве меньшей размерности, которое с достаточной точностью аппроксимирует точное решение. Если ограничитьсябазисными функциями, то аппроксимирующее решение можно представить в виде
(3) |
где
, а - множество центров, которые необходимо определить. В особом случае, если принять , можно получить точное решение .Чаще всего в качестве радиальной функции применяется функция Гаусса. При размещении ее центра в точке
она может быть определена в сокращенной форме как
(4) |
В этом выражении
- параметр, от значения которого зависит ширина функции.Полученное решение, представляющее аппроксимирующую функцию в многомерном пространстве в виде взвешенной суммы локальных базисных радиальных функций (выражение (3)), может быть интерпретировано радиальной нейронной сетью, представленной на рис. 2 (для упрощения эта сеть имеет только один выход), в которой
определяется зависимостью (4). Это сеть с двухслойной структурой, в которой только скрытый слой выполняет нелинейное отображение, реализуемое нейронами с базисными радиальными функциями. Выходной нейрон, как правило, линеен, а его роль сводится к взвешенному суммированию сигналов, поступающих от нейронов скрытого слоя. Вес , как и при использовании сигмоидальных функций, представляет поляризацию (порог), вводящую показатель постоянного смещения функции.Рис. 2. Обобщенная структура радиальной сети
Полученная архитектура радиальных сетей имеет структуру, аналогичную многослойной структуре сигмоидальных сетей с одним скрытым слоем.
Роль скрытых нейронов в ней играют базисные радиальные функции, отличающиеся своей формой от сигмоидальных функций. Несмотря на отмеченное сходство, сети этих типов принципиально отличаются друг от друга. Радиальная сеть имеет фиксированную структуру с одним скрытым слоем и линейными выходными нейронами, тогда как сигмоидальная сеть может содержать различное количество слоев, а выходные нейроны бывают как линейными, так и нелинейными. У используемых радиальных функций может быть весьма разнообразная структура. Нелинейная радиальная функция каждого скрытого нейрона имеет свои значения параметров
Автоассоциативная сеть Хопфилда
Структура сети Хопфилда представляется в виде системы с непосредственной обратной связью выхода со входом (рис. 1). Выходные сигналы нейронов являются одновременно входными сигналами сети:
. В классической сети Хопфилда отсутствует автосвязь (связь выхода нейрона с его собственным входом), что соответствует , а матрица весов является симметричной: . Отсутствие автосвязи и симметричность матрицы весов являются достаточными (но не необходимыми!) условиями сходимости итерационных (переходных) процессов в сети Хопфилда.Далее в данной лекции предполагаем, что каждый нейрон имеет биполярную ступенчатую функцию активации со значениями
. Это означает, что выходной сигнал -го нейрона определяется функциейгде
обозначает количество нейронов, .Далее допустим, что порог срабатывания является компонентой вектора
. Тогда основную зависимость, определяющую сеть Хопфилда, можно представить в виде
(1) |
с начальным условием
.В процессе функционирования сети Хопфилда можно выделить два режима: обучения и классификации. В режиме обучения на основе известных векторов подбираются весовые коэффициенты сети. В режиме классификации при фиксированных значениях весов и вводе конкретного начального состояния нейронов возникает переходный процесс вида (1), завершающийся в одном из локальных минимумов, для которого
.Рис. 1. Структура сети Хопфилда
Двунаправленная ассоциативная память
Обобщением сети Хопфилда на случай двухслойной рекуррентной структуры, позволяющей кодировать множества двух взаимосвязанных векторов, считается двунаправленное ассоциативное запоминающее устройство, называемое BAM (Bidirectional Associative Memory) (рис. 3). Сигналы распространяются в двух направлениях. Если в первом цикле сигналы вначале проходят в одну сторону для задания состояний нейронов-получателей, то в следующем цикле эти нейроны сами становятся источниками, высылающими сигналы в обратную сторону. Процесс повторяется до достижения состояния равновесия.
Функция активации нейронов имеет пороговый характер. Для обеспечения лучших характеристик сети на этапе обучения используются только биполярные сигналы. Матрица весов
, связывающая обе части сети, является действительной и в общем случае несимметричной. При прямом распространении сигналов веса описываются матрицей , а при обратном — матрицей .Пусть входные обучающие данные представляют собой множество пар
биполярных векторов. На основе этого множества формируется матрицаВ результате процесса двунаправленной обработки сигналов формируются два стабильных вектора
и , удовлетворяющих уравнениямКаждой промежуточной точке
можно сопоставить энергетическую функциюкоторая убывает при каждом изменении состояния вплоть до достижения локального минимума
Рис. 3. Структура сети BAM
В режиме распознавания при начальных значениях векторов, совпадающих с использованными при обучении, сеть распознает их безошибочно. При искажении векторов
и сеть BAM не всегда способна откорректировать эти векторы и распознает их с определенными погрешностями. Если размерности векторов и обозначить соответственно и , то удовлетворительное качество распознавания можно получить при выполнении зависимостигде
- число запоминаемых в сети BAM пар векторов.Обучение сети Хопфилда методом проекций
Лучшие результаты, чем при использовании правила Хебба, можно получить, если для обучения использовать псевдоинверсию. В основе этого подхода лежит предположение, что при правильно подобранных весах каждый поданный на вход сети вектор вызывает генерацию самого себя на выходе сети. В матричной форме это можно представить в виде
где
- матрица весов сети размерностью , а - прямоугольная матрица размерностью , составленная изобучающих векторов
. Решение такой линейной системы уравнений имеет видгде знак + обозначает псевдоинверсию.
Если обучающие векторы линейно независимы, последнее выражение можно упростить и представить в виде
(2) |
Здесь псевдоинверсия заменена обычной инверсией квадратной матрицы
размерностью .Выражение (2) можно записать в итерационной форме, не требующей расчета обратной матрицы. В этом случае (2) принимает вид итерационной зависимости от последовательности обучающих векторов
, :при начальных условиях
. В результате предъявления векторов матрица весов сети принимает значение . Описанный здесь метод называется методом проекций. Применение его увеличивает максимальную емкость сети Хопфилда до . Увеличение емкости обусловлено тем, что в методе проекций требование ортогональности векторов заменено гораздо менее жестким требованием их линейной независимости.Модифицированный вариант метода проекций - метод
-проекций — градиентная форма алгоритма минимизации. В соответствии с этим методом веса подбираются с помощью процедуры, многократно повторяемой на всем множестве обучающих векторов:Обучающие векторы предъявляются многократно вплоть до стабилизации значений весов.
Обучение сети Хопфилда по правилу Хебба
Для одного обучающего вектора
значения весов могут быть вычислены по правилу Хеббапоскольку тогда
(вследствие биполярных значений элементов вектора
всегда ).При вводе большего количества обучающих векторов
веса подбираются согласно обобщенному правилу ХеббаВажным параметром ассоциативной памяти является ее емкость. Под емкостью понимается максимальное число запомненных образов, которые классифицируются с допустимой погрешностью
. Показано, что при использовании для обучения правила Хебба и при (1% компонентов образа отличается от нормального состояния) максимальная емкость памяти составит всего лишь около 13,8% от количества нейронов, образующих ассоциативную память. Столь малая емкость обусловлена тем, что сеть Хебба хорошо запоминает только взаимно ортогональные векторы или близкие к ним.Сеть Хемминга
Сеть Хемминга включает в себя три слоя (рис.2).
Первый слой имеет однонаправленное распространение сигналов от входа к выходу и фиксированные значения весов.
Второй слой состоит из нейронов, связанных обратными связями по принципу "каждый с каждым", при этом в каждом нейроне слоя существует автосвязь (связь входа нейрона со своим собственным выходом). Разные нейроны в слое связаны отрицательной (тормозящей) обратной связью с весом
, при этом величина обычно обратно пропорциональна количеству образов. С собственным входом нейрон связан положительной (возбуждающей) обратной связью с весом, равным +1. Пороговые веса нейронов приняты равными нулю. Нейроны этого слоя функционируют в режиме , при котором в каждой фиксированной ситуации активизируется только один нейрон, а остальные пребывают в состоянии покоя.Выходной однонаправленный слой формирует выходной вектор, соответствующий входному вектору.
увеличить изображение
Рис. 2. Структура сети Хемминга
Сеть Хемминга считается гетероассоциативным запоминающим устройством с парой связанных между собой векторов
, где и - входной и выходной биполярные векторы сети.Веса первого слоя соответствуют векторам
, т.е.Аналогично, веса выходного слоя соответствуют векторам образов
, связанных с :Во втором слое (MAXNET), функционирующем в режиме WTA (Winner Takes ALL - "Победитель забирает все"), каждый нейрон должен усиливать собственный сигнал и ослаблять сигналы остальных нейронов. Для этого принимается
а также
Для обеспечения сходимости итерационного процесса во втором слое веса
где
- достаточно малая случайная величина, .Нейроны первого слоя рассчитывают расстояния Хемминга
между поданным на вход сети вектором
и векторами весовнейронов этого слоя. Значения выходных сигналов нейронов первого слоя определяются по формуле
где
- число компонент вектора .Сигналы
становятся начальными состояниями нейронов второго слоя. Этот слой определяет "победителя", т.е. нейрон, выходной сигнал которого близок к 1.Такой нейрон указывает на вектор образа с минимальным расстоянием Хемминга до входного вектора . Функция активации для нейронов второго слоя задается выражением
Итерационный процесс во втором слое завершается, когда активным остается только один нейрон (победитель), тогда как остальные нейроны пребывают в нулевом состоянии. Победитель через веса линейных нейронов выходного слоя представляет вектор , который соответствует вектору , признанному вторым слоем ближайшим к входному вектору .
Достоинством сети Хемминга считается небольшое количество взвешенных связей между нейронами. Многочисленные эксперименты доказали, что сеть Хемминга дает лучшие результаты, чем сеть Хопфилда. Единственная проблема, связанная с сетью Хемминга, проявляется в случае, когда зашумленные образы находятся на одинаковом (в смысле Хемминга) расстоянии от двух или более эталонов. В этом случае выбор сетью Хемминга одного из эталонов становится случайным.
Отдельную группу нейронных сетей составляют
Отдельную группу нейронных сетей составляют сети с обратной связью между различными слоями нейронов. Это так называемые рекуррентные сети. Их общая черта состоит в передаче сигналов с выходного либо скрытого слоя на входной слой.
Благодаря обратной связи при подаче сигнала на входы сети, в ней возникает переходный процесс, который завершается формированием нового устойчивого состояния, отличающегося в общем случае от предыдущего. Если функцию активации нейрона обозначить , где - взвешенная сумма его возбуждений, то состояние нейрона можно определить выходным сигналом . Изменение состояния -го нейрона можно описать системой дифференциальных уравнений
для , где - пороговое значение.
Рекуррентной сети можно поставить в соответствие энергетическую функцию Ляпунова
Изменение состояния какого-либо нейрона инициализирует изменение энергетического состояния сети в направлении минимума ее энергии вплоть до его достижения. В пространстве состояний локальные энергетические минимумы E представлены точками стабильности, называемыми аттракторами из-за тяготения к ним ближайшего окружения. Благодаря наличию аттракторов, рекуррентные сети могут быть использованы как устройства ассоциативной памяти.
Ассоциативная память играет роль системы, определяющей взаимную зависимость векторов. В случае, когда на взаимозависимость исследуются компоненты одного и того же вектора, говорят об автоассоциативной памяти. Если же взаимозависимыми оказываются два различных вектора, можно говорить о памяти гетероассоциативного типа. К первому классу относится сеть Хопфилда, а ко второму - сеть Хемминга и сеть типа BAM (Bidirectional Associative Memory - двунаправленная ассоциативная память).
Задача ассоциативной памяти сводится к запоминанию обучающих векторов, чтобы при представлении нового вектора система могла сгенерировать ответ - какой из запомненных ранее векторов наиболее близок к вновь поступившему образу. Часто в качестве меры близости отдельных множеств применяется расстояние Хемминга.
При использовании двоичных значений (0,1) расстояние Хемминга между двумя векторами и определяется в виде
При биполярных значениях элементов обоих векторов расстояние Хемминга рассчитывается по формуле
Мера Хемминга равна числу несовпадающих компонент двух векторов. Она равна нулю, когда .
Функция консенсуса
Для состояния
МБ вводится понятие консенсусаКаждая связь в этой сумме учитывается один раз. Консенсус
интерпретируется как количественная мера желательности, чтобы все связи
в состоянии были активны. Для состояния определяется множество соседей . Соседнее состояние получается из при изменении состояния нейрона ,Разница консенсусов соседних состояний
и равнагде
- множество связей нейрона . Видно, что для всех могут вычисляться параллельно.Максимизация консенсуса
Переход МБ из одного состояния в другое с максимизацией консенсуса происходит путем выполнения пошаговой процедуры. На каждом ее шаге выполняется испытание, состоящее из двух частей:
для данного состояния
генерируется соседнее ,оценивается, может ли быть принято состояние , если может, то результат испытания - , иначе .Состояние
принимается с вероятностью
(4) |
где
- управляющий параметр ("температура").Процесс максимизации консенсуса начинается с высокого значения
параметра
и случайно выбранного начального состояния . В течение процесса параметр уменьшается от до 0. По мере того какприближается к нулю, нейроны все реже изменяют свои состояния, и наконец, МБ стабилизируется в финальном состоянии. Практически, МБ стабилизируется в состоянии, соответствующем локальному максимуму консенсуса, который близок (или равен) глобальному. Сходимостью МБ управляют следующие параметры:
1. Начальное значение параметра
для каждого нейрона2. Правило понижения
где
- положительное число, меньшее единицы, но близкое к ней.3. Число
испытаний, которые проводятся без изменения ( — функция от ).4. Число
последовательных испытаний, не приводящих к изменению состояния машин ( - функция от ), как критерий завершения процесса.Машина Больцмана
Математической основой для решения комбинаторных оптимизационных задач на машине Больцмана является алгоритм, моделирующий затвердевание жидкостей или расплавов (алгоритм имитации отжига). Он базируется на идеях из двух различных областей: статистической физики и комбинаторной оптимизации. Машина Больцмана (МБ) способна реализовать этот алгоритм параллельно и асинхронно. МБ задается четверкой
- число нейронов, - множество связей между нейронами, при этом все автосвязи принадлежат этому множеству, т.е. . Каждый нейрон может иметь состояние 0 или 1. Состояние МБ определяется состояниями нейронов - начальное состояние. Каждая связь имеет вес - вещественное число, множество связей - . Связь называется активной в состоянии , если . Вес связи интерпретируется как количественная мера желательности, чтобы эта связь была активной. При - активность очень желательна, при - активность очень нежелательна. Как и в модели Хопфилда, связи в МБ симметричны, т.е. .Решение задачи коммивояжера машиной Больцмана
Общий подход к программированию комбинаторных оптимизационных задач состоит в следующем:
каждое решение представляется набором
, — число нейронов в сети, - состояние нейрона. Структура связей и веса выбираются так, что:. Все локальные максимумы функции консенсуса соответствуют приемлемым решениям задачи;. Чем лучше приемлемое решение, тем больше консенсус соответствующего состояния машины Больцмана.Перефразируем для МБ задачу коммивояжера.
. Состояние МБ соответствует локальному максимуму функции консенсуса, если и только если это состояние соответствует приемлемому маршруту.. Чем короче маршрут, тем выше консенсус соответствующего состояния МБ.Каждый нейрон соответствует элементу матрицы
, состояния нейронов обозначаются ( - число городов). Функция консенсусаМножество связей в сети определяется как объединение трех непересекающихся подмножеств:
- множество связей, несущих информацию о расстояниях между городами, - множество ингибиторных (запретительных) связей, - множество связей смещений,Здесь
. Общее число связей равно .Ингибиторные связи гарантируют, что, в конце концов, ни в одной строке и ни в одном столбце не будет более одной единицы. Связи смещений гарантируют, что хотя бы по одной единице есть в каждом столбце и в каждой строке. Таким образом, связи
и гарантируют выполнение ограничений в задаче и веса их дают одинаковые вклады в консенсусы для всех приемлемых маршрутов.Связь
активна только в том случае, когда в маршруте есть прямой путь из города в город . Вес связи равен расстоянию между городами и с отрицательным знаком. Следовательно, для данного маршрута отрицательный вклад связи из в консенсус пропорционален длине пути, поэтому максимизация функции консенсуса соответствует минимизации длины маршрута.Доказано, что для консенсуса
выполняются требования и , если и только если веса связей выбраны следующим образом:где
При
было проведено 100 испытаний для и 25 испытаний для при различных начальных состояний МБ. Для получено оптимальное решение, для получено решение на хуже оптимума. Вероятностный механизм функционирования МБ дает возможность получать на ней несколько лучшие результаты, чем на модели Хопфилда.Решение задачи коммивояжера сетью Хопфилда
Рассмотрим задачу коммивояжера для
городов. Известны расстояниямежду каждой парой городов
; коммивояжер, выходя из одного города, должен посетить других городов, заходя по одному разу в каждый, и вернуться в исходный. Требуется определить порядок обхода городов, при котором общее пройденное расстояние минимально.Пусть сеть Хопфилда состоит из
нейронов, а состояние нейронов описывается двойными индексами , где индекссвязан с именем города,
- с позицией города в маршруте коммивояжера. Запишем функцию вычислительной энергии для сети, предназначенной решать задачу коммивояжера. В ней состояние с наименьшей энергией должно соответствовать самому короткому маршруту. Функция энергии должна удовлетворять следующим требованиям:1) должна поддерживать устойчивое состояние в форме матрицы
(1) |
в которой строки соответствуют городам, столбцы - их номерам в маршруте; в каждой строке и каждом столбце только одна единица, остальные нули;
2) из всех решений вида (1) функция энергии должна поддерживать те, которые соответствуют коротким маршрутам.
Таким требованиям удовлетворяет функция энергии в виде:
(2) |
где первые три члена поддерживают первое требование, четвертый член — второе. Первый член равен нулю, если каждая строка
содержит не более одной единицы. Второй равен нулю, если каждый столбец содержит не более одной единицы. Третий равен нулю, если в матрице всего единиц. Короткие маршруты поддерживает четвертый член. В нем индексыберутся по модулю
для того, чтобы показать, что -й город соседствует в маршруте с , т.е. . Четвертый член численно равен длине маршрута. Каноническое выражение для функции вычислительной энергии имеет вид
(3) |
Из (2) и (3) получаем веса сети Хопфилда:
Здесь
- символ Кронекера.Моделирование работы сети Хопфилда показало, что лучшее по качеству решение дает сеть, нейроны которой имеют сигмовидную характеристику, а сеть, в которой нейроны имеют ступенчатые переходы, приходила к финальным состояниям, соответствующим маршрутам немного лучшим, чем случайные. Многочисленные исследования показывают, что качество решения задачи минимизации функции энергии (2) существенно зависит от выбора производной сигмовидной униполярной функции активации нейрона в окрестности нуля. При малой величине производной минимумы энергии оказываются в центре гиперкуба решений (некорректное решение), при большой величине производной сеть Хопфилда попадает в вершину гиперкуба, соответствующую локальному минимуму функции энергии. Кроме того, на качество решения существенное влияние оказывает выбор коэффициентов
. Поиск методов оптимального выбора этих коэффициентов является в настоящее время предметом интенсивных исследований.Синхронное и асинхронное функционирование машины Больцмана
Для выполнения синхронного процесса все множество нейронов разбивается на непересекающиеся подмножества
, такие, что нейроны, попавшие в одно подмножество, не связаны друг с другом. Тогда на каждом такте синхронизации элементы случайно выбранного подмножества могут одновременно изменять свои состояния в соответствии с заданной вероятностью.В асинхронном параллельном процессе все нейроны могут изменять свои состояния только в зависимости от величины вероятности. Практически асинхронный параллелизм может быть выполнен следующим образом. Случайно выбирается подмножество
, содержащеенейронов. Для каждого нейрона из этого подмножества устанавливается состояние в соответствии с
. Получившееся в результате состояние есть результат одного асинхронного шага.Персептронная сеть с обратной связью
Один из простейших способов построения рекуррентной сети на базе однонаправленной HC состоит во введении в персептронную сеть обратной связи. В дальнейшем мы будем сокращенно называть такую сеть RMLP (англ.: Recurrent MultiLayer Perceptron - рекуррентный многослойный персептрон). Ее обобщенная структура представлена на рис. 1 (
- единичные элементы запаздывания).увеличить изображение
Рис. 1. Структура сети RMLP
Это динамическая сеть, которая характеризуется запаздыванием входных и выходных сигналов, объединяемых во входной вектор сети. Рассуждения будут касаться только одного входного узла
и одного выходного нейрона, а также одного скрытого слоя. Такая система реализует отображение:
(1) |
где
- количество задержек входного сигнала, а - количество задержек выходного сигнала. Обозначим количество нейронов в скрытом слое. В этом случае сеть RMLP можно характеризовать тройкой чисел . Подаваемый на вход сети вектор имеет вид:Допустим, что все нейроны имеют сигмоидальную функцию активации. Обозначим
взвешенную сумму сигналов -го нейрона скрытого слоя, a - взвешенную сумму сигналов выходного нейрона. При введенных обозначениях выходные сигналы конкретных нейронов описываются зависимостямиСеть RMLP повсеместно применяется для моделирования динамических процессов в режиме "онлайн". Типичным примером ее приложения может служить имитация нелинейных динамических объектов, для которых сеть RMLP выступает в роли модели, а алгоритм уточнения весов - в роли процедуры идентификации параметров этой модели (рис. 2). Идентифицированная модель может в последующем использоваться для управления данным объектом. Именно по этой причине сети RMLP наиболее популярны для имитации систем управления машинами, устройствами и динамическими процессами.
В результате сравнения выходного сигнала модели
с выходным сигналом динамического объекта рассчитывается значение погрешности , управляющей процессом уточнения параметров нейронной сети. Символом на рис. 2 обозначен коэффициент усиления модуля, масштабирующего выходной сигнал сети таким образом, чтобы его динамический уровень лежал в том же диапазоне, что и уровень выходного сигнала динамического объекта .Рис. 2. Схема включения сети RMLP при решении задачи идентификации
Рекуррентная сеть Эльмана
Рекуррентная сеть Эльмана характеризуется частичной рекуррентностью в форме обратной связи между скрытым и входным слоем, реализуемой с помощью единичных элементов запаздывания
. Обобщенная структура этой сети представлена на рис. 3.Каждый скрытый нейрон имеет свой аналог в контекстном слое, образующем совместно с внешними входами сети входной слой. Выходной слой состоит из нейронов, однонаправленно связанных только с нейронами скрытого слоя, подобно сети RMLP. Обозначим внутренний вектор возбуждения сети
(в его состав входит также единичный сигнал поляризации), состояния скрытых нейронов -
, а выходные сигналы сети - . При таких обозначениях входной вектор сети в момент имеет формуВеса синаптических связей первого (скрытого) слоя сети обозначим
, a второго (выходного) слоя - . Если взвешенную сумму -го нейрона скрытого слоя обозначить , а его выходной сигнал - , тоувеличить изображение
Рис. 3. Структура сети Эльмана
Веса
образуют матрицусинаптических связей скрытого слоя, а
- функция активации -го нейрона этого слоя. Аналогично можно обозначить взвешенную сумму -го нейрона выходного слоя , а соответствующий ему выходной сигнал сети - . Эти сигналы описываются формуламиВ свою очередь, веса
образуют матрицу , описывающую синаптические связи нейронов выходного слоя; - функция активации -го нейрона выходного слоя.Для прогноза временных рядов могут применяться статистические методы. В этом случае должна быть построена динамическая модель данных (например, регрессионная модель) изучаемого явления. Для простейших задач такая модель может быть построена известными методами. Однако для практических задач, примеры которых приведены выше, построение подобной динамической модели представляет собой сложную аналитическую задачу. Эти приложения связаны обычно не со скалярными, а с векторными временными рядами. Например, в финансовой сфере прогноз котировок товара зависит от вектора динамических данных, которые включают цены открытия и закрытия торговой сессии, среднюю и максимальную цены торговой сессии, суммарный уровень заявок, валютные курсы и пр.
В том случае, когда адекватной математической модели изучаемых временных рядов не существует, удобным инструментом для решения задачи прогноза является нейросетевой экстраполятор динамических данных.
Задача прогноза векторного временного ряда ставится следующим образом:
задана реализация временного ряда , , на интервале времени с постоянным интервалом дискретности ; требуется построить оценку значения временного ряда (обычно одной его координаты) в момент времени , где - заданное время прогноза.
Из логических соображений или путем статистического анализа имеющейся реализации можно установить, сколько предшествующих значений относительно произвольного текущего момента времени определяюще связаны с прогнозируемым значением. Это означает, что если представить прогнозируемое значение -ой координаты вектора как функцию его предшествующих измерений:
то выбор значения устанавливает "память" экстраполятора. Значение определяет также входной вектор для нейронной сети, которая строится для решения задачи прогноза. Размерность этого вектора равна .
Таким образом, задача прогноза данных на нейронной сети сведена к задаче воспроизведения функции многих переменных , по данным обучающей выборки.
Сеть RTRN
Среди рекуррентных сетей особого внимания заслуживает сеть типа RTRN (англ.: Real Time Recurrent Network), предложенная Р.Вильямсом и Д.Зипсером и предназначенная для обработки сигналов в реальном времени. Сеть RTRN - частный случай сети Эльмана.
увеличить изображение
Рис. 4. Структура сети RTRN
Обобщенная структура сети представлена на рис. 4. Сеть содержит
входных узлов, скрытых нейронов и соответствующих им узлов контекстного слоя. Из скрытых нейронов только составляют выход сети. Обозначим взвешенную сумму -го нейрона скрытого слоя , а выход этого нейрона - . Вектор и смещенный (задержанный) на один цикл вектор образуют расширенный вектор активации , возбуждающий нейроны сети:После описания входного вектора сети в момент
можно определить состояние всех нейронов согласно зависимостям:
u_i(k) = \sum_{j=0}^{N+K} w_{ij}x_j(k)," width="200" height="29"> |
(2) |
(3) |
причем
обозначает непрерывную функцию активации нейрона (как правило, сигмоидальную). На рис. 4 видно, что сеть RTRN представляет собой частный случай сети Эльмана, в которой веса выходного слоя постоянны и равны дельте Кронекера, т.е. для или для . В этом случае можно применять алгоритм обучения Вильяма-Зипсера.1. Выбрать случайные начальные значения весов сети, составляющих матрицу
и равномерно распределенных в заданном интервале (обычно в диапазоне от до ).2. Рассчитать состояние всех K нейронов для очередного момента
с использованием формул (1) и (2). На этой основе можно определить входной вектор , возбуждающий нейроны в момент .3. Рассчитать значения
4. Уточнить значения весов по алгоритму наискорейшего спуска согласно формуле
для
и .Шаги (2-4) повторять вплоть до стабилизации значений всех весов сети.
Многослойные рекуррентные сети представляют собой
Многослойные рекуррентные сети представляют собой развитие однонаправленных сетей персептронного типа за счет добавления в них соответствующих обратных связей. Обратная связь может исходить либо из выходного, либо из скрытого слоя нейронов. В каждом контуре такой связи присутствует элемент единичной задержки, благодаря которому поток сигналов может считаться однонаправленным (выходной сигнал предыдущего временного цикла рассматривается как априори заданный, который просто увеличивает размерность входного вектора сети). Представленная подобным образом рекуррентная сеть, с учетом способа формирования выходного сигнала, функционирует как однонаправленная персептронная сеть. Тем не менее, алгоритм обучения такой сети, адаптирующий значения синаптических весов, является более сложным из-за зависимости сигналов в момент времени от их значений в предыдущие моменты и соответственно из-за более громоздкой формулы для расчета вектора градиента.
При обсуждении рекуррентных сетей, в которых в качестве выходного элемента используется многослойный персептрон, рассмотрим наиболее известные структуры сетей RMLP, RTRN, Эльмана.
Алгоритм Кохонена
Алгоритм Кохонена относится к наиболее старым алгоритмам обучения сетей с самоорганизацией на основе конкуренции, и в настоящее время существуют различные его версии. В классическом алгоритме Кохонена сеть инициализируется путем приписывания нейронам определенных позиций в пространстве и связывания их с соседями на постоянной основе. Такая сеть называется самоорганизующейся картой признаков (сеть SOFM - Self-Organizing Feature Map). В момент выбора победителя уточняются не только его веса, но также и веса его соседей, находящихся в ближайшей окрестности. Таким образом, нейрон-победитель подвергается адаптации вместе со своими соседями. В классическом алгоритме Кохонена функция соседства
определяется в видеВ этом выражении
обозначает эвклидово расстояние между векторами весов нейрона-победителя и -го нейрона. Коэффициент выступает в роли уровня соседства, его значение уменьшается в процессе обучения до нуля. Соседство такого рода называется прямоугольным.Другой тип соседства, часто применяемый в картах Кохонена, - это соседство гауссовского типа, при котором функция
задается формулойСтепень адаптации нейронов-соседей определяется не только евклидовым расстоянием между
-м нейроном и победителем (-м нейроном), но также и уровнем соседства . В отличие от соседства прямоугольного типа, где каждый нейрон, находящийся в окрестности победителя, адаптировался в равной степени, при соседстве гауссовского типа уровень адаптации различен и зависит от значения функции Гаусса. Как правило, гауссовское соседство дает лучшие результаты обучения и обеспечивает лучшую организацию сети, чем прямоугольное соседство.Самоорганизующаяся карта признаков проходит два этапа обучения. На первом этапе элементы упорядочиваются так, чтобы отражать пространство входных элементов, а на втором происходит уточнение их позиций. Как правило, процесс представляется визуально путем использования двумерных данных и построения соответствующей поверхности. Например, входные векторы выбираются случайным образом на основе однородного распределения в некотором квадрате, и начинается обучение карты.
В определенные моменты в ходе обучения строятся изображения карты путем использования соответствия, показанного на рис. 1. Элементы соединяются линиями, чтобы показать их относительное размещение. Сначала карта выглядит сильно "измятой", но постепенно в ходе обучения она разворачивается и расправляется. Конечным результатом обучения является карта, покрывающая все входное пространство и являющаяся достаточно регулярной (т.е. элементы оказываются распределенными почти равномерно). Для примера была рассмотрена карта с топологией квадрата из 49 элементов, и для 250 точек данных, взятых из единичного квадрата, было проведено ее обучение, которое начиналось со случайного набора весовых значений, задающих размещение кластерных элементов в центре входного пространства, как показано на рис. 1. На рис. 2 и 3 иллюстрируется процесс разворачивания карты с течением времени. Как и для других типов сетей, в данном случае результат обучения зависит от учебных данных и выбора параметров обучения.
Рис. 1. Весовые векторы инициализируются случайными значениями из диапазона 0.4-0.6
Алгоритмы обучения сетей с самоорганизацией
Целью обучения сети с самоорганизацией на основе конкуренции нейронов считается такое упорядочение нейронов (подбор значений их весов), которое минимизирует значение ожидаемого искажения, оцениваемого погрешностью аппроксимации входного вектора
значениями весов нейрона-победителя. При входных векторах и применении евклидовой метрики эта погрешность, называемая также погрешностью квантования, может быть выражена в виде
(3) |
где
- вес нейрона-победителя при предъявлении вектора .Этот подход также называется векторным квантованием (англ. Vector Quantization - VQ) или кластеризацией. Номера нейронов-победителей при последовательном предъявлении векторов
образуют так называемую кодовую таблицу. При классическом решении задачи кодирования применяется алгоритм -усреднений (англ. К-means), носящий имя обобщенного алгоритма Ллойда.Для нейронных сетей аналогом алгоритма Ллойда считается алгоритм WTA (англ.: Winner Takes All - "победитель получает все"). В соответствии с ним после предъявления вектора
рассчитывается активность каждого нейрона. Победителем признается нейрон с самым сильным выходным сигналом, т.е. тот, для которого скалярное произведение оказывается наибольшим. В предыдущем разделе было показано, что при использовании нормализованных векторов это равнозначно наименьшему эвклидову расстоянию между входным вектором и вектором весов нейронов. Победитель получает право уточнить свои веса в направлении вектора согласно правилугде
- коэффициент обучения. Веса остальных нейронов уточнению не подлежат. Алгоритм позволяет учитывать усталость нейронов путем подсчета количества побед каждого из них и поощрять элементы с наименьшей активностью для выравнивания их шансов. Такая модификация применяется чаще всего на начальной стадии обучения с последующим отключением после активизации всех нейронов. Подобный способ обучения реализован в виде режима CWTA (Conscience Winner Takes All) и считается одним из лучших и наиболее быстрых алгоритмов самоорганизации.Помимо алгоритмов WTA, в которых в каждой итерации может обучаться только один нейрон, для обучения сетей с самоорганизацией широко применяются алгоритмы типа WTM (англ.: Winner Takes Most - "победитель получает больше"), в которых, кроме победителя, уточняют значения своих весов и нейроны из его ближайшего окружения.
При этом, чем дальше какой- либо нейрон находится от победителя, тем меньше изменяются его веса. Процесс уточнения вектора весов может быть определен обобщенной зависимостью, которая здесь представляется в виде
для всех нейронов, расположенных в окрестности победителя. Если функция определяется в форме
где обозначает номер победителя, то мы получаем классический алгоритм WTA. Существует множество вариантов алгоритма WTM, отличающихся прежде всего формой функции . Для дальнейшего изучения выберем классический алгоритм Кохонена.
Классификация без учителя
Задан набор объектов, каждому объекту поставлен в соответствие вектор значений признаков (строка таблицы). Требуется разбить эти объекты на классы эквивалентности. Для каждого нового объекта нужно:
Найти класс, к которому он принадлежит.Использовать новую информацию, полученную об этом объекте, для исправления (коррекции) правил классификации.
Отнесение объекта к классу проводится путем его сравнения с типичными элементами разных классов и выбора из них ближайшего.
Простейшая мера близости объектов - квадрат евклидова расстояния между векторами значений их признаков (чем меньше расстояние, тем ближе объекты). Соответствующее определение признаков типичного объекта - среднее арифметическое значение признаков по выборке, представляющей класс. Другая мера близости, возникающая при обработке сигналов, изображений и т.п. - квадрат коэффициента корреляции (чем он больше, тем ближе объекты). Возможны и иные варианты.
Если число классов
заранее определено, то задачу классификации без учителя можно поставить следующим образом.Компрессия данных
Примером использования компрессионных свойств сети Кохонена может считаться сжатие изображений, предназначенное для уменьшения количества информации, представляющей конкретный образ, при сохранении погрешности восстановления на заданном уровне.
Пусть изображение разделяется на одинаковые кадры размером
пикселов. Образующие кадр пикселы представляют собой компоненты входного вектора .Сеть с самоорганизацией содержит
нейронов, каждый из которых имеет входом вектор . Обучение сети при помощи одного из алгоритмов самоорганизации состоит в подборе таких весов конкретных нейронов, при которых минимизируется погрешность квантования (3). В результате обучения формируется структура сети, при которой вектору каждого кадра соответствует вектор весов нейрона победителя. В процессе предъявления очередного кадра выбирается номер нейрона-победителя. Номера нейронов-победителей образуют кодовую таблицу, а веса этих нейронов представляют средние значения, соответствующим конкретным компонентам вектора (т.е. уровням интенсивности пикселов, составляющих кадр).Поскольку количество нейронов обычно намного меньше количества кадров, то можно получить существенное сокращение объема данных, описывающих исходное изображение. В итоге коэффициент компрессии изображения равен
где
и - размеры кадра в осях и - количество кадров,- количество нейронов, а
и - количество битов для представления соответственно градаций интенсивности пиксела и значений весов. Этот подход позволяет получить степень компрессии изображений порядка 16 при значении коэффициента сигнал/шум (PSNR) около 26-28 дБ.Метод динамических ядер в классификации без учителя
Пусть задана выборка предобработанных векторов данных
- пространство векторов данных. Каждому классу будет соответствовать некоторое ядро - пространство ядер.Для любых
и определим меру близости , а для каждого набора из ядер и любого разбиения на классовопределим критерий качества
(1) |
Требуется найти набор
и разбиение , минимизирующие . Шаг алгоритма разбиваем на этапа:1) Для фиксированного набора ядер
ищем минимизирующее разбиение ; оно дается следующим решающим правилом: , если при (когда для минимум достигается при нескольких значениях , выбор между ними может быть сделан произвольно).2) Для каждого
, полученного на первом этапе, отыскивается , минимизирующее критерий качестваНачальные значения
,выбираются произвольно либо по какому-нибудь эвристическому правилу. Если ядру
ставится в соответствие элемент сети, вычисляющей по входному сигналуфункцию
, то решающее правило для классификации дается интерпретатором "проигравший забирает все": элемент принадлежит классу , если выходной сигнал -го элемента меньше всех остальных. Мера близости выбирается такой, чтобы легко можно было найти ядро , минимизирущее для данного .В определение ядра для сетей Кохонена входят суммы . Это позволит накапливать новые динамические ядра, обрабатывая по одному примеру и пересчитывая после получения в нового примера.
Если число классов заранее не определено, то полезен критерий слияния классов: классы и сливаются, если расстояние между их ядрами меньше, чем среднее расстояние от элемента класса до ядра в одном из них:
где - число элементов в . Использовать критерий слияния классов можно так: сначала принимаем гипотезу о достаточном числе классов, строим их, минимизируя , затем некоторые объединяем, повторяем минимизацию с новым числом классов и т.д.
Применение сетей с самоорганизацией
Главным свойством сети Кохонена считается компрессия данных, состоящая в том, что образующие кластер группы данных представляются единственным вектором весов нейрона-победителя. При разделении данных на кластеры и представлении каждого кластера одним из нейронов достигается значительное сокращение объема используемой под данные памяти, которое и называется компрессией. Это компрессия с потерей информации, которая сопровождается определенной погрешностью квантования.
Прогнозирование нагрузок энергетической системы
Рассмотрим решение задачи прогнозирования часовых нагрузок в элктроэнергетической системе на 24-часовом интервале. Пусть имеется база данных, содержащая векторы профильных нагрузок дня
где компонент
соответствует действительной нагрузке в -й час суток. Множество профильных векторов подается на вход сети Кохонена, состоящей из нейронов. Процесс самоорганизации сети приводит к автоматической кластеризации данных и к сопоставлению каждому кластеру одного из нейронов сети. Этот нейрон считается победителем, а его веса наилучшим образом адаптируются к усредненным весам профильных векторов, составляющих кластер. Характерная особенность состоит в том, что соседние векторы имеют сходные профильные характеристики.Близость весов нейронов, расположенных недалеко друг от друга, объясняется тем, что один и тот же день в разные годы при небольших отличиях в часовых нагрузках может возбуждать различные нейроны, которые образуют кластеры, группирующие данные сходных классов.
Знание таблицы распределения побед конкретных нейронов сети позволяет относительно легко предвидеть профили часовых нагрузок для произвольного дня года. С этой целью создаются таблицы принадлежности каждого дня года к области доминирования определенного нейрона с обозначением количества его побед для всех дней в прошлом. Для выбора прогнозируемого профиля нагрузок актуального дня в требуемом месяце рассчитываются усредненные значения весов нейронов победителей, которые указывали в прошлом на требуемый день. Если количество побед
-го нейрона, соответствующего -му дню, обозначить , а соответствующие векторы весов класса - , то прогнозируемый профильный вектор -го дня рассчитывается по формулеАдаптивная резонансная теория (АРТ)
Серьезная проблема для нейронных сетей - правильное соотношение стабильности и пластичности при запоминании образов. Существуют наборы эталонов (даже состоящие всего из 4-х векторов), которые при циклическом предъявлении в обучении дают никогда не сходящиеся наборы параметров сети. Предъявление всего одного нового образа в обучающем множестве часто приводит к долгому переобучению. Если сеть работает в реальном времени, например, обрабатывает сенсорную информацию, то обучающее множество может все время меняться. Для большинства моделей нейронных сетей это приводит к отсутствию обучения вообще.
Человеческая память, напротив, эффективно хранит и корректирует запоминаемые образы. Ни предъявление нового образа, ни изменение старых не приводит к уничтожению памяти или невозможности запоминания. Даже удаление части нервной ткани чаще всего не прерывает работу сети и не стирает запомненные образы, а лишь делает их менее четкими.
Сеть АРТ - попытка приблизить механизм запоминания образов в искусственных НС к биологическому. Результатом работы АРТ является устойчивый набор запомненных образов и возможность выборки "похожего" вектора по произвольному предъявленному на входе вектору. Важное качество АРТ - динамическое запоминание новых образов без полного переобучения и отсутствие потерь уже запомненных образов при предъявлении новых.
Архитектура и работа
Структура сети АРТ-1 (далее АРТ) представлена на рис. 1. Входной вектор сети
имеет компонент. В слое распознавания запоминается классов образов, по одному классу на каждый нейрон .Основную работу по классификации производят слой сравнения и слой распознавания. Схемы приемников (Прм1, Прм2) и схема сброса управляют режимом работы сети и могут быть реализованы в виде обычных логических схем или в виде нейронов.
Работа блоков АРТ определяется следующими формулами:
Выход Прм1 обеспечивает единичный сигнал для слоя сравнения, если на вход сети подан вектор
(нулевой вектор на входе недопустим) и если выход слоя распознавания равен нулю.Если на вход подан вектор
, то блок Прм2 формирует на выходе единичный сигнал и тем самым разрешает работу слоя распознавания.Схема сброса:
.Проверяет критерий сходства для векторов
и . Критерий состоит в сравнении количества единиц в векторах , . Количества единиц сравниваются в виде отношения с некоторым пороговым уровнем сходства . Если порог не превышен, то сходство считается плохим и схема сброса вырабатывает сигнал торможения для нейрона в слое распознавания. Выход схемы сброса - двоичный вектор с компонентами. Схема сброса является динамической и "помнит" свое состояние в течение одной классификации. Порог является внешним параметром по отношению к сети и задается пользователем в интервале от 0 до 1. Чем меньше , тем менее похожие векторы будут отнесены сетью к одному классу.Рис. 1. Структурная схема АРТ
Необходимость поиска
В сети АРТ используются два критерия "похожести" векторов. Первый - максимум скалярного произведения
при выборе "победителя" в слое распознавания. Второй - критерий сходства в блоке сброса:Таким образом, задача классификации в сети АРТ состоит в том, чтобы найти ядро с максимальным скалярным произведением
, соблюдая при этом условие выполнения критерия сходства. Эти два критерия не являются эквивалентными, поэтому и фаза поиска, и фаза распознавания являются необходимыми и не могут быть опущены.Положительные качества и недостатки АРТ
Сеть АРТ решает дилемму стабильности-пластичности и позволяет быстро запоминать новые образы без утраты старых. Как и в случае других моделей НС, на обычных машинах фон-неймановского типа сети работают медленно и неэффективно. Для решения задачи нужно найти максимум скалярного произведения, что требует около
операций с плавающей запятой, и вычислить в худшем случае критериев сходства. Для этого необходимы существенные вычислительные затраты. На параллельном компьютере операции расчета скалярных произведений могут быть распараллелены, но расчет критериев сходства все равно выполняется последовательно. Таким образом, даже на параллельной машине сеть АРТ является требовательной к ресурсам.Тем не менее, одна итерация для запоминания каждого входного вектора - редкая экономичность для нейронных сетей. Вспомним, что многослойный персептрон для запоминания нового вектора требует полного переобучения.
У сети АРТ есть несколько существенных недостатков.
Чувствительность к порядку предъявления векторов. Большинство разновидностей АРТ весьма чувствительны к порядку предъявления входных векторов
. Картины ядер классов, сформированные сетью, принципиально меняются при различных видах упорядочения.Невозможность классификации зашумленных векторов. Пусть входные векторы содержат шум.Если компонента незашумленного входного вектора равна
, то предъявленные сети значения будут определяться вероятностным законом:где
- малое положительное число, характеризующее уровень шума.Если такие данные будут предъявлены АРТ, то будет наблюдаться деградация и размножение классов. Если сетью сформировано правильное ядро для класса, к которому относится вектор
, то как только компонента примет нулевое значение за счет шума (если векторы предъявляются не однократно), соответствующая компонента ядра также будет обнулена. Т.к. случайное нулевое значение может принять любая компонента , то с течением времени все компоненты ядра будут обнулены, запомненная информация об этом классе - утрачена. Если после этого предъявить незашумленный вариант вектора , то для него будет выделен новый нейрон, т.е. сформирован новый класс. Это явление называется размножением классов. Через некоторое время в сети будет множество нейронов с нулевыми весами, и все нейроны будут распределены. Работа сети прекратится. Это явление определяется исходной асимметрией алгоритмов АРТ относительно значений 0 и 1. Существуют методы для устранения асимметрии и предотвращения размножения классов.Работа сети АРТ
Решение задачи классификации с помощью АРТ содержит следующие этапы: инициализация, распознавание, сравнение, поиск, обучение.
1. Инициализация.
а) выбираем параметр
, исходя из требуемой детальности классификации;б) создаем сеть в памяти. Количество нейронов должно быть достаточным, чтобы запомнить все ядра классов (до
). Изначально все нейроны слоя распознавания считаются "невыделенными", их веса приравниваются к одинаковым небольшим значениям:где
- некоторая константа (обычно ). Веса в слое сравнения также выбираются одинаковыми, равными единице: .Такой выбор весов обеспечивает остановку поиска на невыделенном нейроне, если нет подходящих выделенных нейронов, и правильное обучение.
2. Распознавание.
а) предъявляем вектор
на входе. До этого момента и выход слоя распознавания равен нулю: .б) у вектора
есть ненулевые компоненты, поэтому становится равным единице, т.к. . Сигнал"подпитывает" нейроны слоя сравнения и
без изменений проходит через слой сравнения: .в) весовые коэффициенты
имеют смысл нормированных ядер классов. В слое распознавания активируется несколько нейронов, но благодаря латеральному торможению остается один нейрон с выходом , а остальные тормозятся. - номер выигравшего нейрона.3. Сравнение.
а) выход
приводит к , что снимает "подкачку" нейронов в слое сравнения. Весовые коэффициенты имеют смысл ненормированных двоичных ядер классов. На вход слоя сравнения передается один ненулевой выход слоя распознавания, . Эта единица умножается на весовые коэффициенты, давая в сумме сигналПорог всех нейронов равен 2, поэтому выход слоя сравнения равен
Следовательно, выход слоя сравнения на этом этапе - логическое произведение входного сигнала и двоичного ядра класса из слоя сравнения.
б) модуль сброса вычисляет второй критерий сходства (первый - максимум произведения (
) в слое распознавания). Если количества единиц в векторе и векторе близки, то сходство считается хорошим и выносится решение о принадлежности вектора к классу .4. Поиск.
а) если критерий сходства не выполняется, схема сброса вырабатывает сигнал , который тормозит нейрон в слое распознавания. Сигнал остается равным 1 до окончания данной классификации. Выход нейрона становится равным 0, а, следовательно, и весь вектор . Сигнал становится равным нулю и вектор снова проходит через слой сравнения без изменений, вызывая новый цикл поиска (шаги 2в-3б), пока критерий сходства не будет удовлетворен.
При соответствующем выборе начальных значений весов поиск всегда закончится на нераспределенном нейроне слоя распознавания. Для него будет выполнен критерий сходства, т.к. все веса равны 1. Если все нейроны выделены и критерий сходства не выполняется, следует аварийная остановка либо расширение сети введением нового нейрона в слое распознавания и новых входов в слое сравнения.
5. Обучение.
Независимо от того, найден ли на этапе поиска распределенный нейрон или нераспределенный, обучение протекает одинаково. Корректируются лишь веса выигравшего нейрона в слое распознавания и веса для всех в слое сравнения.
Различают быстрое и медленное обучение. При быстром обучении коррекции весов имеют вид:
где - константа.
Веса в слое сравнения - двоичные: .
В результате такого алгоритма обучения ядра изменяются, несущественные компоненты обнуляются в процессе обучения. Если какая-то компонента вектора стала нулевой на какой-то итерации обучения, она никогда не вернется к единице. В этом проявляется асимметрия АРТ по отношению к значениям 0 и 1. Эта асимметрия имеет серьезные отрицательные последствия для модели, приводя к деградации ядер классов в случае зашумленных входных векторов.
Медленное обучение меняет ядра малыми коррекциями:
где мало и характеризует скорость обучения.
В результате каждой итерации обучения ядра меняются незначительно.
Видно, что веса в любой момент времени могут быть однозначно рассчитаны через веса , таким образом, кодирование информации о ядрах в АРТ в рассмотренной модели является избыточным в смысле расхода памяти.
в 1986 г. Она представляет
Сеть АРТ-1 предложена Карпентером и Гроссбергом в 1986 г. Она представляет собой векторный классификатор и обучается без учителя, лишь на основании предъявляемых входных векторов. АРТ-1 работает только с двоичными векторами, состоящими из нулей и единиц. Позже было предложено много разновидностей этой модели. АРТ-2 запоминает и классифицирует непрерывные входные векторы. Группа моделей с суффиксом "MAP" (ARTMAP и др.) классифицирует и входные, и выходные вектора, а также строит связи между ними.
Слой распознавания
Каждый нейрон в слое распознавания имеет следующие входы: один сигнал
с единичным весом, одна компонента с большим отрицательным весом ( - номер нейрона) и сигналов со слоя сравнения с вектором весов (у вектора всего компонент, ).Нейроны слоя распознавания не содержат нелинейных элементов, но обладают следующей особенностью. Каждый нейрон в слое связан со всеми остальными нейронами этого же слоя обратными тормозящими связями и положительной обратной связью - с самим собой (как во втором слое сети Хемминга, см. Лекцию 10).
Такой способ связности называется латеральным торможением. Это приводит к тому, что только один нейрон в слое распознавания может быть активирован. Между нейронами существует конкуренция, и нейрон с максимальным выходом "подавляет" все остальные нейроны в слое, выигрывая "состязание". Его выход становится равным единице, остальных нейронов - нулю, т.е. вектор
имеет только одну единичную компоненту, остальные - нули.Веса
имеют действительные значения. Работа слоя определяется формулой:где
- выход -го нейрона, равный нулю или единице.Отсюда видно, что сигнал
"разрешает" работу слоя распознавания, а сигнал позволяет выборочно затормозить любые нейроны в слое.Слой сравнения
Каждый нейрон в слое сравнения имеет порог, равный двум. На вход одного нейрона в слое сравнения подаются: сигнал
с единичным весом, одна компонента с единичным весом и все выходы слоя распознавания,компонент с вектором весов
, где - номер нейрона в слое сравнения. Весовые коэффициенты - двоичные. В нейроне используется нелинейность в виде жесткой ступеньки: если активация нейрона превышает порог , то на выходе нейрона будет единица, иначе - ноль. Это "правило 2/3": для активации нейрона достаточно два сигнала из трех.Работа слоя определяется формулами:
Работой слоя управляет сигнал
. Если , то проходит без изменений на выход слоя сравнения, благодаря лишнему единичному сигналуна входе нейрона. Если
, то на выходе имеем , т.е. вектор будет логическим произведением двоичных векторов и .Дефазификатор
Трансформировать нечеткое множество
в точечное решение можно многими способами:1. Дефазификация относительно центра области
или
2. Дефазификация относительно среднего центра
где
- центр -го нечеткого правила, - соответствующая функция принадлежности.3. Дефазификация относительно среднего максимума
где
- количество точек, в которыхдостигает максимального значения. Если функция
имеет максимальное значение только в одной точке, то4. выбирается минимальное из максимальных значений
: - наименьшее из , для которых .5. выбирается максимальное из максимальных значений:
- наибольшее из , для которых .Фазификатор
Фазификатор преобразует
-мерный вектор в нечеткое множество , характеризуемое функцией принадлежности .Наибольшей популярностью пользуются функции гауссовского типа, треугольные и трапецеидальные функции:
Общая форма гауссовской функции
- центр нечеткого множества, - коэффициент широты.Симметричная треугольная функция
- центр, - ширина.Трапецеидальная функция
- угол наклона.При
получаем треугольную функцию.Гибридный алгоритм обучения нечетких сетей
Параметры, подлежащие адаптации, разделяются на две группы:
первая состоит из параметров
линейного третьего слоя; вторая состоит из параметров нелинейной функции принадлежности первого слоя.Уточнение параметров проводится в два этапа.
На первом этапе при фиксации определенных значений параметров функции принадлежности путем решения системы линейных уравнений рассчитываются параметры
полинома TSK.При известных значениях функции принадлежности преобразование, реализуемое сетью, можно представить в виде
При
обучающих выборках и замене выходного сигнала сети ожидаемым значением получим систему из линейных уравнений видагде
- уровень активации (вес) -го правила при предъявлении -го входного вектора .Размерность матрицы
равна , при этом обычно количество строк (количество выборок) значительно больше количества столбцов. Решение этой системы уравнений можно получить за один шаг при помощи псевдоинверсии матрицы :Псевдоинверсия матрицы заключается в решении задачи минимизации
где
- единичная матрица.На втором этапе (линейные параметры
- фиксированы) рассчитываются фактические выходные сигналы , :вектор ошибки
и градиент целевой функции
по параметрам первого слоя. Если применяется метод наискорейшего спуска, то формулы адаптации принимают видгде
обозначает номер очередной итерации.После уточнения нелинейных параметров вновь запускается процесс адаптации линейных параметров TSK (первый этап) и нелинейных параметров (второй этап). Этот цикл повторяется вплоть до стабилизации всех параметров процесса.
Интеллектуальные информационные системы в условиях неопределенности и риска
С помощью символьной обработки информации не удается решить прикладные задачи многих предметных областей, если для них невозможно получить полную информацию и если их определение недостаточно полно. Такая ситуация характерна для:
сложных технических систем; систем экономического планирования; социальных систем большой размерности; систем принятия решений и т.п.
Выходом является использование систем, основанных на мягких вычислениях, которые включают в себя:
нечеткую логику и вероятностные вычисления; нейрокомпьютинг - обучение, адаптация, классификация, системное моделирование и идентификация; генетические вычисления - синтез, настройка и оптимизация с помощью систематизированного случайного поиска и эволюции.
Эти составные части не конкурируют друг с другом, а создают эффект взаимного усиления (гибридные системы). Наряду с термином "мягкие вычисления" используется термин "вычислительный интеллект" - научное направление, где решаются задачи искусственного интеллекта на основе теории нечетких систем, нейронных сетей и эволюционных (генетических) вычислений.
Нечеткие нейронные сети с генетической настройкой параметров (гибридные системы) демонстрируют взаимное усиление достоинств и нивелирование недостатков отдельных методов:
Представление знаний в нейронных сетях в виде матриц весов не позволяет объяснить результаты проведенного распознавания или прогнозирования, тогда как в системах вывода на базе нечетких правил результаты воспринимаются как ответы на вопросы "почему?".Нейронные сети обучаются с помощью универсального алгоритма, т.е. трудоемкое извлечение знаний заменяется сбором достаточной по объему обучающей выборки. Для нечетких систем вывода извлечение знаний включает в себя сложные процессы формализации понятий, определение функций принадлежности, формирование правил вывода.Нечеткие нейронные сети обучаются как нейронные сети, но их результаты объясняются как в системах нечеткого вывода.
Лингвистические переменные
В теории нечетких множеств, помимо переменных цифрового типа, существуют лингвистические переменные с приписываемыми им значениями.
Пусть
обозначает температуру. Можно определить нечеткие множества "отрицательная", "близкая к нулю", "положительная", характеризуемые функциями принадлежности , , . Лингвистическая переменная "температура" может принимать значения "отрицательная" "близкая к нулю", "положительная". Функция нечеткой принадлежности является непрерывным приближением пороговой функции точной принадлежности.Мягкая экспертная система
Рассмотрим архитектуру и основные структурно-функциональные решения мягкой экспертной системы (МЭС). Для определения МЭС сопоставим понятия нечеткой и мягкой экспертных систем. В описании архитектуры МЭС будем использовать три признака: способ извлечения знаний; представление знаний; обработку знаний. Перечисленные признаки создают общую "координатную" сетку описания.
Модель Мамдани-Заде как универсальный аппроксиматор
Модели нечеткого вывода позволяют описать выходной сигнал многомерного процесса как нелинейную функцию входных переменных
, и параметров нечеткой системы, например, при использовании в качестве агрегатора оператора алгебраического произведения с последующей дефазификацией относительно среднего центра. В модели Мамдани-Заде каждое из правил определяется уровнем активации условиягде
- значение , при котором значение максимально. Пусть — центр нечеткого множества заключения -го правила вывода. Тогда дефазификация относительно среднего центра даетПриведенные формулы модели Мамдани-Заде имеют модульную структуру, которая идеально подходит для системного представления в виде многослойной структуры, напоминающей структуру классических нейронных сетей. Такие сети мы будем называть нечеткими нейронными сетями. Характерной их особенностью является возможность использования нечетких правил вывода для расчета выходного сигнала. Обучение таких сетей сводится к расчету параметров функции фазификации.
Нечеткие множества
Понятие нечетких множеств (fuzzy sets) как обобщение обычных (четких) множеств было введено Л.Заде в 1965 г.. Традиционный способ представления элемента множества
состоит в применении характеристической функции , которая равна 1, если элемент принадлежит множеству , или равна 0 в противном случае. В нечетких системах элемент может частично принадлежать любому множеству. Степень принадлежности множеству , представляющая собой обобщение характеристической функции, называется функцией принадлежности , причем , и означает отсутствие принадлежности множеству , а - полную принадлежность. Конкретное значение функции принадлежности называется степенью или коэффициентом принадлежности.Нечеткие правила вывода
Правило вывода
если
это , то этоназывается нечеткой импликацией
, если и - лингвистические значения (значения лингвистической переменной), идентифицированные нечетким способом через соответствующие функции принадлежности для переменных.Часть "
это " называется условием (предпосылкой), а " это " - следствием (заключением).Обобщение для
-мерного вектора :если
это и это и и это , то это , , обозначают величины соответствующих коэффициентов принадлежности .Возможна интерпретация
в форме логического произведения
в форме алгебраического произведения
(агрегирование предпосылки).
Каждой импликации
можно приписать значение функции принадлежности :форма логического произведения
форма алгебраического произведения
агрегирование на уровне импликации).
Нечеткие сети TSK (Такаги-Сугено-Канга)
Схема вывода в модели TSK при использовании
правил и переменных имеет видУсловие
реализуется функцией фазификацииПри
правилах агрегированный выходной результат сети имеет вид
(1) |
Веса
интерпретируются как значимость компонентов . Тогда формуле (1) можно поставить в соответствие многослойную нейронную сеть рис. 3.увеличить изображение
Рис. 3. Нечеткая нейронная сеть TSK
1. Первый слой выполняет фазификацию каждой переменной. Это параметрический слой с параметрами
, подлежащими адаптации в процессе обучения.2. Второй слой выполняет агрегирование отдельных переменных, определяя результирующее значение коэффициента принадлежности
для вектора (непараметрический слой).3. Третий слой - генератор функции TSK, рассчитывает значения
В этом слое также производится умножение
на , сформированные в предыдущем слое. Здесь адаптации подлежат веса , определяющие функцию следствия модели TSK.4. Четвертый слой составляют два нейрона-сумматора, один из которых рассчитывает взвешенную сумму сигналов
, а второй - сумму весов (непараметрический слой).5. Пятый слой из одного нейрона - это нормализующий слой, в котором выходной сигнал сети агрегируется по формуле (1).
Таким образом, в процессе обучения происходит уточнение параметров только первого (нелинейного) и третьего (линейного) слоев.
Определение мягкой экспертной системы. Сравнение нечеткой и мягкой экспертных систем
Нечеткие экспертные системы (ЭС) используют представление знаний в форме нечетких продукций и лингвистических переменных. Основу представления лингвистической переменной составляет терм с функцией принадлежности. Способ обработки знаний в нечетких ЭС - это логический вывод по нечетким продукциям. Особенностью нечеткой ЭС является способ извлечения функций принадлежности, который сводится либо к статистическим методам построения, либо к методу экспертных оценок. Мягкой ЭС (МЭС) будем называть нечеткую ЭС, которая обладает следующими особенностями:
использует статистические данные, которые интерпретирует как обучающие выборки для нечетких нейронных сетей; представляет знания в виде лингвистических переменных (функций принадлежности - ФП), нечетких продукций и обученных нейронных сетей. Редукция множества нечетких продукций,настройка ФП и базы правил выполняется с помощью генетических алгоритмов (ГА).
Мягкими называют вычисления, сочетающие теорию нечетких систем, нейронные сети, вероятностные рассуждения и генетические алгоритмы, и обладающие синергическим эффектом; следовательно, мягкой экспертной системой называют ЭС, сочетающую перечисленные теории ради того же эффекта взаимного усиления.
Рассмотрим возможные применения МЭС в автоматизированном проектировании. Обобщенной моделью проектирования является иерархически-блочный метод, сущность которого сводится к декомпозиции функций с последующим выделением иерархий систем и подсистем. Проектируемая система формируется с помощью синтеза таких подсистем. Анализ в ходе автоматизированного проектирования обычно заключается в том, что необходимо рассмотреть условия эксплуатации будущей системы или ее окружения, которое является сложной системой (например, для экономических информационных систем окружающая среда - это социально-экономическая среда). Кроме анализа окружающей среды в ходе проектирования приходится выполнять анализ результатов физических или численных экспериментов и имитационного моделирования. Можно выделить два основных принципа экспертной деятельности в ходе проектирования.
1. Исходные данные для анализа представляются в виде качественного описания структурно-функционального решения и в виде совокупности временных рядов системных переменных окружения.
Принцип "конструктивной неопределенности" утверждает, что точность и смысл противоречат друг другу, начиная с некоторого момента анализа. Если в технике важными являются все более точные измерения, то в ходе анализа эксперт отказывается от точных цифр в пользу нечетких, но содержательных оценок, которые осмыслены и позволяют принять проектное или управленческое решение.
Мягкая экспертная система должна предоставить инструментальную и информационную среду для экспертной деятельности в ходе проектирования. Инструменты для разработки МЭС должны представлять собой совокупность различных программных продуктов, объединенных логикой работы. Покажем, что МЭС, являющаяся инструментальной средой проектировщика, позволяет выполнить в автоматизированном режиме все этапы экспертной деятельности. Если рассматривать экспертную деятельность как управление объектом, то инструментарий экспертизы можно использовать как систему управления, а именно - нечеткий контроллер.
Представление знаний в мягкой
Если использовать нечеткую НС на этапе извлечения знаний, то, кроме функций принадлежности и нечетких продукций, порождается совокупность обученных НС, которые входят в базу знаний МЭС. Оптимизация (редукция) множества извлеченных правил выполняется на основе генетического алгоритма.
База знаний МЭС должна содержать следующие части:
функции принадлежности;нечеткие продукции;обученные нечеткие нейронные сети;процедуры интерпретации хромосом генетических алгоритмов;функции оптимальности.
Рассмотрим проблему представления перечисленных составных частей в компьютерных интеллектуальных системах. Если функция принадлежности характеризуется такими математическими свойствами, как непрерывность, выпуклость (унимодальность), то функция принадлежности может быть представлена параметризованной функцией формы. Наибольшее распространение получили четыре вида функций формы: треугольная, трапециевидная, колоколообразная и сигмоидальная, которые определяются тройкой, четверкой и двойкой параметров соответственно. Некоторые операции нечеткой алгебры сохраняют унимодальность при использовании трапециевидного представления функций принадлежности, поэтому результаты операции также являются четверкой параметров. Представление нечетких продукций упрощается в связи с тем, что порядок обработки нечетких продукций не важен и не влияет на ход вывода результата. Представление нечеткой нейронной сети является более сложной проблемой, так как описание структуры ННС не имеет смысла без нейроимитатора соответствующей архитектуры нечетких нейронных сетей, т.е. нейроимитатор определяется как составляющая часть механизма вывода мягкой ЭС. Для организации хранения знаний МЭС можно использовать как СУБД, так и специальные форматы.
Системы нечеткого вывода Мамдани-Заде
Элементы теории нечетких множеств, правила импликации и нечетких рассуждений образуют систему нечеткого вывода. В ней можно выделить:
множество используемых нечетких правил; базу данных, содержащую описания функций принадлежности; механизм вывода и агрегирования, который формируется применяемыми правилами импликации.
В случае технической реализации в качестве входных и выходных сигналов выступают измеряемые величины, однозначно сопоставляющие входным значениям соответствующие выходные значения.
Для обеспечения взаимодействия этих двух видов вводится нечеткая система с так называемым фазификатором (преобразователем множеств входных данных в нечеткое множество) на входе и дефазификатором (преобразователем нечетких множеств в конкретное значение выходной переменной) на выходе.
Фазификатор преобразует точное множество входных данных в не\-четкое множество, определенное с помощью функции принадлежности, а~дефазификатор решает обратную задачу - формирует однозначное решение относительно входной переменной на основании многих нечетких выводов, вырабатываемых исполнительным модулем нечеткой системы.
Рис. 1. Вывод в нечеткой системе при наличии M правил
Выходной сигнал модуля вывода может иметь вид
нечетких множеств, определяющих диапазон изменения выходной переменной. Дефазификатор преобразует этот диапазон в одно конкретное значение, принимаемое в качестве выходного сигнала всей системы.В модели вывода Мамдани-Заде присутствуют следующие операторы:
оператор логического или арифметического произведения для определения результирующего уровня активации, в котором учитываются все компоненты вектора условия; оператор логического или арифметического произведения для определения значения функции принадлежности для всей импликации
; оператор логической суммы как агрегатор равнозначных результатов импликации многих правил; оператор дефазификации, трансформирующий нечеткий результат в четкое значение .Рис. 2. Пример системы вывода Мамдани-Заде
На рис. 2 представлен способ агрегирования при двух входных переменных .
Логическое произведение (оператор ) используется как для агрегирования нечетких правил относительно конкретных переменных , , образующих вектор , так и на уровне импликации для одиночных правил вывода. Агрегирование импликаций, касающихся правил и , проводится с использованием логической суммы (оператор ).