Нейроинформатика

         

Анализ реализуемости сетей с собственными


Все изложенные выше соображения о выполнимости метода обратного распространения точности справедливы и для метода обратного распространения точности для среднеквадратических отклонений погрешностей с учетом собственных погрешностей элементов. Отличие состоит в способе вычисления промежуточных среднеквадратических отклонений погрешностей.

Как и выше, рассмотрим участок сети, изображенный на рис. 6.9. Для этого участка нам необходимо вычислить промежуточное среднеквадратическое отклонение погрешности

Пусть собственное среднеквадратическое отклонение погрешности сумматора

равно
, собственное среднеквадратическое отклонение погрешности нелинейного преобразователя равно
и
- собственное среднеквадратическое отклонение погрешности точки ветвления.

Рассмотрим сначала вариант, когда собственные погрешности элементов добавляются к выходным сигналам этих элементов. В этом случае среднеквадратическое отклонение погрешности входного сигнала нелинейного преобразователя вычисляется по формуле

, где

- общая погрешность выходного сигнала нелинейного преобразователя. Для точки ветвления среднеквадратическое отклонение погрешности входного сигнала определяется как

Среднеквадратическое отклонение погрешности

, которое придет к входу сумматора
при прямом функционировании сети, начиная от выходного сигнала сумматора
( рис. 6.9), равно

Среднеквадратические отклонения погрешностей

придут к каждому входу сумматора
Если сумма квадратов среднеквадратических отклонений
с коэффициентами
меньше квадрата среднеквадратического отклонения погрешности выходного сигнала сумматора (
), то вычисляем разность
Оставшуюся часть квадрата среднеквадратического отклонения погрешности выходного сигнала сумматора
распределяем равномерно по всем входам, чтобы среднеквадратические отклонения погрешностей входов превышали собственные среднеквадратические отклонения погрешностей элементов на одну и ту же величину
Тогда получаем следующую формулу

Среднеквадратические отклонения погрешностей по входам сумматора будут равны


Пусть теперь собственные погрешности элементов добавляются к входным сигналам этих элементов. В этом случае среднеквадратическое отклонение погрешности входного сигнала нелинейного преобразователя вычисляется по формуле


где
- погрешность выходного сигнала нелинейного преобразователя. Для точки ветвления среднеквадратическое отклонение погрешности входного сигнала определяется как было указано выше.

Среднеквадратическое отклонение погрешности
в этом случае равно



Величины
для вычисления среднеквадратических отклонений погрешностей входных сигналов
вычисляются как было показано выше.

Промежуточные среднеквадратические отклонения погрешностей
можно вычислять как для участков сети, так и для сети в целом.

Таким образом, мы получили формулы для вычисления среднеквадратических отклонений погрешностей сигналов нейронной сети с собственными погрешностями элементов.


Два базовых подхода к оценкам погрешности


Рассмотрим два подхода к решению задачи вычисления погрешностей сигналов сети. При первом подходе (гарантированные интервальные оценки) вычисляются допустимые интервалы для погрешностей сигналов сети такие, что погрешность вектора выходных сигналов гарантированно (с вероятностью 1) не превышает заданную. При втором подходе (среднеквадратические оценки погрешностей) вычисляются среднеквадратические отклонения погрешностей сигналов. При этом часто используется предположение о том, что погрешности различных сигналов являются независимыми случайными величинами.

Существует принципиальное различие между этими двумя типами оценок. Гарантированные интервальные оценки исходят из рассмотрения наихудших возможных случаев, сколь бы малой не была их вероятность. Поэтому они, как правило, завышают реально имеющую место ошибку и слишком пессимистичны с практической точки зрения. Среднеквадратичные оценки, наоборот, стирают возможные большие уклонения и могут оказаться слишком оптимистичными.

Важное различие между двумя типами оценок демонстрируют следующие формулы сложения.

Формула сложения для интервальных оценок. Пусть для двух величин x, y определены гарантированные интервалы значений

,
Тогда для их суммы имеем гарантированную оценку:
, то есть
Формула сложения для среднеквадратичных уклонений. Пусть для двух независимых величин x, y определены среднеквадратичные уклонения
,
Тогда



Метод обратного распространения


Ранее был рассмотрен метод обратного распространения точности с учетом собственных погрешностей элементов сети. Но этот метод может быть использован не для всех сетей. При применении метода может возникнуть ситуация, когда собственная погрешность элемента превышает погрешность сигнала, который должен выходить из этого элемента. Например, если собственная погрешность нейрона

, которая добавляется к выходному сигналу нейрона, превышает допустимую погрешность его выходного сигнала
, то по формуле
, где
- погрешность входного сигнала нелинейного преобразователя, получаем отрицательную погрешность. Отрицательные погрешности в методе обратного распространения точности не имеют смысла, так как мы рассматриваем допустимую погрешность как величину интервала, в котором может изменяться погрешность. То же самое можно сказать относительно точки ветвления и сумматора. В случае получения отрицательной погрешности метод обратного распространения точности не может применяться. В такой ситуации допустимые погрешности нужно распределять специальным образом.

Рассмотрим конкретную сеть с заданными собственными погрешностями элементов. Нужно определить, возможно ли провести вычисления допустимых погрешностей методом обратного распространения точности с учетом собственных погрешностей элементов для всех сигналов сети, начиная с выходных и кончая входными сигналами. Для этого нужно выполнить прямое функционирование сети с заданными собственными погрешностями элементов и с точным вектором входных сигналов сети. Если полученный вектор выходных сигналов при этом будет отличаться от точного вектора выходных сигналов более, чем на

(допустимую погрешность выходных сигналов сети), то с такими собственными погрешностями элементов для данной сети метод обратного распространения точности невыполним. В этом случае можно либо увеличить допустимую погрешность выходных сигналов
, либо уменьшить собственные погрешности элементов.

Нам нужно определить, как вычислять допустимые погрешности сигналов, если это невозможно сделать методом обратного распространения точности.
Выясним, всегда ли возможно распределить их так, чтобы собственные погрешности элементов не превышали допустимых погрешностей выходных сигналов этих элементов, и при этом погрешность выходных сигналов сети не превышала



Для точки ветвления и нелинейного преобразователя формулы вычисления допустимых погрешностей сигналов методом обратного распространения точности заданы жестко. Единственным элементом сети, который позволяет влиять на ситуацию, является сумматор. Для сумматора возможны три варианта распределения допустимых погрешностей по его входам, в том числе приоритетное. При приоритетном распределении можно назначать погрешности для тех входов, для которых собственная погрешность элемента превышает погрешность выходного сигнала.

Если на каком-то из элементов (нелинейный преобразователь, точка ветвления или сумматор) собственная погрешность элемента превышает допустимую погрешность его выходного сигнала, то возвращаемся к тому сумматору, чьим входным сигналом является выходной сигнал данного элемента. Для этого сумматора распределяем допустимые погрешности по его входам таким образом, чтобы можно было вычислить допустимую погрешность входного сигнала того элемента, который нас интересует.

Есть ситуации, на которые влиять невозможно. К ним относятся следующие:

если собственные погрешности нелинейного преобразователя или сумматора стандартных нейронов выходного слоя сети превышают погрешности их выходных сигналов; если в выходном слое сумма с коэффициентами
собственных погрешностей элементов
, выходные сигналы которых являются входными сигналами сумматора, превышает допустимую погрешность
выходного сигнала сумматора:


Если собственная погрешность превышает допустимую погрешность выходного сигнала у элемента скрытого или входного слоя, то можно попытаться распределить допустимые погрешности так, чтобы продолжить вычисления.

Нам необходимо оптимально распределить допустимые погрешности по входам сумматора, то есть распределить их таким образом, чтобы по каждому входу допустимые погрешности входных сигналов максимально превышали собственные погрешности элементов, чьи выходные сигналы являются входными сигналами сумматора.



Рассмотрим участок сети между двумя сумматорами
и
( рис. 6.9). Пусть
- это погрешность выходного сигнала сумматора
, A - точный выходной сигнал нелинейного преобразователя.


Рис. 6.9. 

Предположим сначала, что собственные погрешности элементов добавляются к выходным сигналам этих элементов. То есть погрешность входного сигнала нелинейного преобразователя вычисляется по формуле
, а для точки ветвления погрешность входного сигнала определяется как


Для каждого входа сумматора
нам необходимо вычислить такие допустимые погрешности, которые позволили бы провести вычисления допустимых погрешностей для точки ветвления, нелинейного преобразователя и сумматора
предыдущего слоя. При этом допустимая погрешность выходного сигнала сумматора
должна превышать его собственную погрешность. Это гарантирует вычисление допустимых погрешностей для слоя, предшествующего сумматору


Пусть сумматор
имеет собственную погрешность
, нелинейный преобразователь имеет собственную погрешность
и
- собственная погрешность точки ветвления.

Вычислим погрешность
, которая придет к входу сумматора
при прямом функционировании сети, начиная от выходного сигнала сумматора






Вычисляем допустимые погрешности
для входов сумматора
при пропорциональном и равномерном распределении. Если хотя бы для одного распределения по каждому входу
, то можно продолжать вычисления, используя метод обратного распространения точности с учетом собственных погрешностей элементов сети. Если же для обоих распределений хотя бы по одному входу
, то необходимо распределять допустимые погрешности по входам сумматора
следующим образом.

Если сумма с коэффициентами
погрешностей
меньше допустимой погрешности выходного сигнала (
), то вычисляем разность
Оставшуюся часть допустимой погрешности выходного сигнала сумматора
распределяем равномерно по всем входам, чтобы допустимые погрешности входов превышали погрешности элементов на одну и ту же величину
. Тогда



Допустимые погрешности входных сигналов сумматора будут равны


Пусть теперь собственные погрешности элементов добавляются к их входным сигналам.


Допустимая погрешность входного сигнала нелинейного преобразователя при этом вычисляется следующим образом:
Собственная погрешность сумматора
равна
Допустимая погрешность точки ветвления вычисляется как было описано выше.

В этом случае погрешности
вычисляются по формуле:



Остальные вычисления для допустимых погрешностей
входных сигналов сумматора
проводятся аналогично.

Возможен другой подход. Можно вычислять погрешности
для всей сети сразу. Погрешности
, вычисленные для одного слоя сети, суммируются с коэффициентами
того сумматора, через который они должны проходить. Полученная погрешность используется дальше для вычисления погрешности
следующего слоя. При обратном прохождении сети для входов каждого сумматора будет известно, какие погрешности
приходят по каждому входу, и как следует распределять допустимые погрешности сигналов. При этом погрешности
вычисляются один раз и не требуется делать пересчет.

Таким образом, мы рассмотрели как распределяются допустимые погрешности сигналов для сетей с собственными погрешностями элементов. Используется встречное распространение погрешностей
, которые насчитываются при прямом функционировании сети, и допустимых погрешностей сигналов, которые вычисляются в обратном направлении.


Метод обратного распространения точности для гарантированных интервальных оценок


Пусть нам заданы допустимые погрешности вычислений для выходных сигналов сети. Для каждого элемента решим задачу: определить допустимые погрешности на входах элемента по заданным максимально допустимым погрешностям на его выходе. Если эту задачу решить для каждого элемента сети, то можно оценить допустимые погрешности для всех сигналов, проходящих через сеть, переходя по сети от элемента к элементу в обратном направлении (от выходов сети к ее входам). Этот процесс мы назовем обратным распространением точности. В ходе него движение сигналов происходит от выходов ко входам, сигнал, проходящий по связи в обратном направлении, является допустимой погрешностью сигнала, проходящего по этой связи в прямом направлении.

Последним элементом стандартного нейрона является точка ветвления, поэтому начинаем рассмотрение метода обратного распространения точности именно с нее.

Точка ветвления имеет несколько выходов. Пусть для каждого ее выхода задана допустимая погрешность

(i - номер выхода). Для того, чтобы удовлетворить всем этим ограничениям погрешности, необходимо и достаточно, чтобы входной сигнал точки ветвления имел погрешность
Таким образом, при обратном распространении точности тока ветвления заменяется на двойственный элемент, выбирающий из поступающих сигналов
(т.е. погрешностей) минимальный.

Следующим элементом стандартного нейрона является нелинейный преобразователь. Пусть входной сигнал нелинейного преобразователя равен

,
- его функция активации,
- выходной сигнал и
- допустимая погрешность выходного сигнала. Вычислим максимальную погрешность
входного сигнала нелинейного преобразователя, то есть найдем отрезок
такой, что для любого
отличается от
не более, чем на
:

Ввиду непрерывности и дифференцируемости функции активации нелинейного преобразователя очевидно, что

, где

Пойдем традиционным путем, оценивая допустимую погрешность в линейном приближении:

По условию

Пользуясь этим неравенством, подберем

следующим образом:
В этом случае формула для вычисления допустимой погрешности более простая, но менее точная.


Получили погрешность, допустимую для входного сигнала нелинейного преобразователя, которая одновременно является допустимой погрешностью для выходного сигнала сумматора. Аналогично можем вычислить погрешность входного сигнала нелинейного преобразователя любого стандартного нейрона, если известна погрешность его выходного сигнала.

Двойственный к нелинейному преобразователю элемент - просто линейная связь! Ее вес равен
для линейного приближения в формуле ошибки или
- в более общем случае (в последней формуле максимум берется по отрезку
- так что линейность здесь уже кажущаяся).

Перейдем к следующему элементу стандартного нейрона - адаптивному сумматору с
синапсами, являющимися его входами. Адаптивный сумматор - это сумматор, в котором входные сигналы
суммируются с весами


Каждый вход
сумматора
имеет некоторую погрешность
, которая вносит свой вклад в допустимую погрешность выходного сигнала сумматора. Эти погрешности могут иметь различные величины в зависимости от того, какой способ распределения допустимой погрешности выходного сигнала по входам сумматора мы выберем. Погрешности по входам сумматора могут распределяться равномерно, пропорционально и приоритетно.

Рассмотрим сначала равномерное распределение. Для этого полагаем, что на всех входах погрешности равны между собой
Пусть
- выходной сигнал сумматора без погрешностей. Тогда
- множество выходных сигналов сумматора, получающихся, когда вектор входных сигналов сумматора пробегает вершины
- мерного куба с центром в точке
и ребром длины


где
Нам требуется, чтобы все множество значений
попало в интервал
Для этого необходимо, чтобы



где максимум берется по всем
Из этого неравенства и сделанного выше предположения о
получаем требуемую оценку для равномерного распределения
по входам сумматора:



При пропорциональном распределении погрешностей допустимая погрешность выходного сигнала сумматора делится сначала на число входов, а затем для каждого входа делится на соответствующий вес синапса. То есть погрешности распределяются пропорционально весам соответствующих синапсов.


Формула расчета допустимой погрешности для каждого входа сумматора имеет вид:
, где
- допустимая погрешность выходного сигнала сумматора,
- число входов сумматора,
- веса синапсов соответствующих входов сумматора.

При приоритетном распределении погрешностей сначала назначаются погрешности для тех входов, которые наиболее значимы по какому-либо признаку, а затем оставшуюся часть допустимой погрешности выходного сигнала сумматора распределяют между оставшимися входами равномерно или пропорционально.

Аналогично можно вычислить допустимые погрешности для входных сигналов сумматора любого стандартного нейрона, если известны погрешности для выходного сигнала сумматора.



Рассмотрим обученную нейросеть с вычисленными весами синапсов

Считаем, что погрешности входных сигналов, внутренних сигналов сети и элементов отсутствуют. При векторе входных сигналов
получаем вектор выходных сигналов
Вектор
и внутренние сигналы сети
будем считать точным вектором выходных сигналов и точными сигналами сети.

Рассмотрим теперь эту же сеть, но предположим, что все сигналы сети имеют некоторые погрешности. Пусть

- вектор выходных сигналов, полученный при том же векторе входных сигналов
, но с погрешностями внутренних сигналов сети.

Предполагаем, что внутри каждого слоя погрешности сигналов

являются независимыми случайными величинами. Это предположение позволяет налагать менее жесткие требования при вычислении погрешностей сигналов.

Пусть нам задана

- допустимая погрешность выходных сигналов сети. То есть вектор
может отличаться от вектора
не более, чем на
Будем считать
величиной среднеквадратического отклонения
выходных сигналов сети

Нам нужно выяснить, каким образом могут распределяться дисперсии сигналов при заданном

и вычислить среднеквадратические отклонения
для всех сигналов сети такие, чтобы среднеквадратическое отклонение вектора выходных сигналов
равнялось

Зная среднеквадратическое отклонение выходных сигналов, можем вычислить дисперсию выходных сигналов

, а затем, переходя от элемента к элементу в обратном порядке, вычислим дисперсии
и среднеквадратические отклонения
для всех сигналов сети.

Типичным участком сети является стандартный нейрон. Из стандартных нейронов состоит любая нейронная сеть. Поэтому нам достаточно определить, как вычисляются среднеквадратические отклонения сигналов для элементов стандартного нейрона. Тогда мы будем иметь возможность вычислить среднеквадратические отклонения для любого участка сети.

Выясним, как вычисляются среднеквадратические отклонения для входных сигналов точки ветвления, нелинейного преобразователя и сумматора, если нам будут известны среднеквадратические отклонения выходных сигналов этих элементов.

Если дисперсии выходных сигналов точки ветвления

при обратном распространении не равны между собой, то в качестве дисперсии входного сигнала точки ветвления выбирается




Пусть
- среднеквадратическое отклонение погрешности выходного сигнала нелинейного преобразователя. Пусть случайная величина
(погрешность входного сигнала нелинейного преобразователя) имеет некоторую плотность распределения
Считаем, что математическое ожидание погрешности входного сигнала


и дисперсия



Пусть нелинейный преобразователь имеет функцию активации
и точный входной сигнал
Рассмотрим линейное приближение функции активации
в точке
Линейное приближение имеет вид:


Найдем математическое ожидание и дисперсию величины






С другой стороны, нам известно, что дисперсия выходного сигнала нелинейного преобразователя равна
Отсюда получаем



Таким образом, мы вычислили среднеквадратическое отклонение входного сигнала нелинейного преобразователя для любого распределения погрешности входного сигнала


Мы получили среднеквадратическое отклонение входного сигнала нелинейного преобразователя
, которое одновременно является среднеквадратическим отклонением выходного сигнала сумматора с погрешностями входных сигналов


Погрешность выходного сигнала сумматора равняется



где
- точный выходной сигнал сумматора.

Вычислим среднеквадратические отклонения
входных сигналов сумматора. Рассмотрим для этого дисперсию погрешности выходного сигнала сумматора


Предположим дополнительно, что
равны между собой.



Получили формулу для равномерного распределения среднеквадратических отклонений
по входам сумматора. Если в качестве погрешности каждого входа рассматривать не
, а
, то получим формулу для пропорционального распределения среднеквадратических отклонений
по входам сумматора.





Получили погрешность, допустимую для входного сигнала нелинейного преобразователя, которая одновременно является допустимой погрешностью для выходного сигнала сумматора. Аналогично можем вычислить погрешность входного сигнала нелинейного преобразователя любого стандартного нейрона, если известна погрешность его выходного сигнала.

Двойственный к нелинейному преобразователю элемент - просто линейная связь! Ее вес равен
для линейного приближения в формуле ошибки или
- в более общем случае (в последней формуле максимум берется по отрезку
- так что линейность здесь уже кажущаяся).

Перейдем к следующему элементу стандартного нейрона - адаптивному сумматору с
синапсами, являющимися его входами. Адаптивный сумматор - это сумматор, в котором входные сигналы
суммируются с весами


Каждый вход
сумматора
имеет некоторую погрешность
, которая вносит свой вклад в допустимую погрешность выходного сигнала сумматора. Эти погрешности могут иметь различные величины в зависимости от того, какой способ распределения допустимой погрешности выходного сигнала по входам сумматора мы выберем. Погрешности по входам сумматора могут распределяться равномерно, пропорционально и приоритетно.

Рассмотрим сначала равномерное распределение. Для этого полагаем, что на всех входах погрешности равны между собой
Пусть
- выходной сигнал сумматора без погрешностей. Тогда
- множество выходных сигналов сумматора, получающихся, когда вектор входных сигналов сумматора пробегает вершины
- мерного куба с центром в точке
и ребром длины


где
Нам требуется, чтобы все множество значений
попало в интервал
Для этого необходимо, чтобы



где максимум берется по всем
Из этого неравенства и сделанного выше предположения о
получаем требуемую оценку для равномерного распределения
по входам сумматора:



При пропорциональном распределении погрешностей допустимая погрешность выходного сигнала сумматора делится сначала на число входов, а затем для каждого входа делится на соответствующий вес синапса. То есть погрешности распределяются пропорционально весам соответствующих синапсов.


Формула расчета допустимой погрешности для каждого входа сумматора имеет вид:
, где
- допустимая погрешность выходного сигнала сумматора,
- число входов сумматора,
- веса синапсов соответствующих входов сумматора.

При приоритетном распределении погрешностей сначала назначаются погрешности для тех входов, которые наиболее значимы по какому-либо признаку, а затем оставшуюся часть допустимой погрешности выходного сигнала сумматора распределяют между оставшимися входами равномерно или пропорционально.

Аналогично можно вычислить допустимые погрешности для входных сигналов сумматора любого стандартного нейрона, если известны погрешности для выходного сигнала сумматора.

Для адаптивного сумматора можно вычислять как допустимые погрешности входных сигналов сумматора, так и допустимые погрешности весов синапсов. Для вычисления допустимых погрешностей весов синапсов также можно использовать равномерное, пропорциональное и приоритетное распределение погрешностей. При равномерном распределении допустимые погрешности для весов синапсов вычисляются по формуле:


где
- входные сигналы сумматора.

При пропорциональном распределении допустимые погрешности для весов синапсов вычисляются по формуле:
, где
- число входов сумматора,
- входные сигналы сумматора.

При приоритетном распределении сначала назначаются допустимые погрешности для тех весов синапсов, которые наиболее значимы по какому-либо признаку, а затем оставшуюся часть допустимой погрешности для выходного сигнала сумматора распределяют между оставшимися весами синапсов равномерно или пропорционально.

При обратном распространении точности имеет место специфическая двойственность - элементы сети заменяются на двойственные им. Однако, эта двойственность отличается от той, с которой мы встречаемся при изучении обратного распространения ошибки для вычисления градиентов функции оценки. Так, если в обычном обратном распространении двойственным элементом к точке ветвления является простой сумматор, то при обратном распространении точности вместо него, как было показано, появляется элемент, вычисляющий минимум приходящих на него сигналов.


Нелинейный преобразователь при обратном распространении точности заменяется двойственным ему элементом, умножающим сигнал на число. Но если при обратном распространении ошибки множителем является значение градиента, то в нашем случае сигнал умножается на величину обратную производной от входного сигнала нелинейного преобразователя. Адаптивный сумматор также заменяется двойственным ему элементом. Этот элемент является своеобразной точкой ветвления. Но, в отличии от простой точки ветвления, он сначала преобразует приходящий к нему сигнал в соответствии с выбранным распределением погрешностей по входам адаптивного сумматора, а затем передает полученные сигналы дальше.

Теперь мы знаем, каким образом вычислять гарантированную интервальную оценку погрешности для любого элемента стандартного нейрона методом обратного распространения точности.

Точка ветвления. Если допустимые погрешности выходных сигналов точки ветвления равны
, то в качестве погрешности входного сигнала точки ветвления выбирается
( рис. 6.2).


Рис. 6.2. 

Нелинейный преобразователь. Пусть при прямом функционировании входной сигнал нелинейного преобразователя равен
, его выходной сигнал равен
и нелинейный преобразователь имеет функцию активации
Если допустимая погрешность выходного сигнала нелинейного преобразователя равняется
, то погрешность его входного сигнала не должна превышать
, где
или в линейном приближении
( рис. 6.3).


Рис. 6.3. 

Адаптивный сумматор. Если при обратном распространении допустимая погрешность выходного сигнала адаптивного сумматора равняется
, то погрешность каждого входа сумматора не должна превышать
, где
для равномерного распределения и
для пропорционального распределения ( рис. 6.4).


Рис. 6.4. 



Зная, как вычисляются допустимые погрешности для всех элементов стандартного нейрона, можно вычислить допустимые погрешности сигналов для всей сети. Рассмотрим участок сети, состоящий из сумматора
и нелинейного преобразователя, результатом работы которого является выходной сигнал
, а также из сумматоров
и нелинейных преобразователей, выходные сигналы которых являются входными сигналами сумматора
(рис. 6.5).


То есть мы рассматриваем два последних слоя нейронной сети, состоящие из стандартных нейронов.


Рис. 6.5. 

Если заданы допустимые погрешности для выходных сигналов сети, можно вычислить допустимые погрешности для последнего слоя сети. Когда вычислены допустимые погрешности всех входных сигналов последнего слоя сети, переходим к вычислению допустимых погрешностей предпоследнего слоя и так далее. Переходя по сети в обратном направлении от слоя к слою, мы можем вычислить допустимые погрешности всех сигналов сети, в том числе допустимые погрешности входных сигналов.

Мы рассмотрели, как изменяются погрешности сигналов при прохождении через элементы сети. Предположим теперь, что не только сигналы имеют погрешности, но и все элементы сети передают приходящие к ним сигналы с некоторыми погрешностями. Пусть собственные погрешности элементов известны и фиксированы. Выясним, как влияют собственные погрешности элементов на погрешности сигналов.

Bыясним, как действуют элементы сети, имеющие собственные погрешности, при прямой работе сети.

Точка ветвления может либо вообще не иметь погрешности, либо она имеет собственную погрешность
В последнем случае сигнал
при прохождении через точку ветвления будет изменяться, оставаясь в интервале
( рис. 6.6).


Рис. 6.6. 

Предположим, что сумматор имеет собственную погрешность
Тогда возможны следующие варианты:

погрешность прибавляется к выходному сигналу сумматора, т.е. при прохождении сигналов
через сумматор выходной сигнал сумматора будет иметь вид:
погрешность сумматора действует по каждому входу пропорционально
( рис. 6.7).


Рис. 6.7. 

Считаем при этом, что погрешности
равны между собой и равны
, где
- число входов сумматора.

Пусть собственная погрешность нелинейного преобразователя равна
,
- входной сигнал нелинейного преобразователя,
- его функция активации. Собственная погрешность может добавляться или к входному сигналу
:
, или к выходному сигналу нелинейного преобразователя:
( рис. 6.8).


Рис. 6.8. 

Мы выяснили как вычисляются допустимые погрешности сигналов сети.


При этом мы не выделяли особо тот вклад, который вносят в погрешность сигнала сами элементы. Рассмотрим теперь, как вычисляются допустимые погрешности сигналов сети при обратном распространении точности с учетом собственных погрешностей элементов стандартного нейрона.

Начнем вычисление допустимых погрешностей сигналов сети с учетом собственных погрешностей элементов с точки ветвления. Пусть точка ветвления имеет собственную погрешность
Предположим, что допустимые погрешности выходных сигналов точки ветвления равны
Для увеличения точности вычислений необходимо накладывать на допустимые погрешности наиболее жесткие требования. Поэтому в качестве допустимой погрешности входного сигнала точки ветвления при обратном распространении следует выбирать погрешность


Следующий элемент стандартного нейрона - нелинейный преобразователь. Если нелинейный преобразователь имеет собственную погрешность
, которая добавляется к его выходному сигналу, и погрешность его выходного сигнала равняется
, то допустимая погрешность входного сигнала нелинейного преобразователя равняется
, где


или в линейном приближении


Предположим теперь, что собственная погрешность нелинейного преобразователя
добавляется к его входному сигналу
, и при обратном распространении точности погрешность выходного сигнала нелинейного преобразователя равняется
Рассмотрим наихудший вариант, когда входной сигнал нелинейного преобразователя находится в интервале


В этом случае допустимая погрешность входного сигнала нелинейного преобразователя вычисляется следующим образом:



где


Рассмотрим допустимую погрешность в линейном приближении:



По условию



Получаем:


или



И, наконец, перейдем к вычислению допустимых погрешностей входных сигналов сумматора. Рассмотрим вариант, при котором собственная погрешность сумматора
добавляется к его выходному сигналу, и допустимая погрешность выходного сигнала сумматора равняется
При обратном распространении точности получаем, что равномерно, пропорционально и приоритетно по выше полученным формулам распределяется погрешность




Если же собственная погрешность сумматора пропорционально распределяется по его входам, и допустимая погрешность выходного сигнала сумматора равняется
, то допустимые погрешности для входов сумматора вычисляются следующим образом. Пусть
- выходной сигнал сумматора без погрешностей. Тогда
- выходные сигналы сумматора с учетом собственных погрешностей сумматора
и погрешностей входных сигналов
:



где
Для того, чтобы все множество
попало в интервал


необходимо, чтобы



где максимум берется по всем
Из этого неравенства, предполагая что
равны между собой, получаем требуемую оценку для
:



Мы получили формулы для вычисления допустимых погрешностей сигналов для любого участка сети с учетом того, что все элементы имеют собственные погрешности, которые вносят свой вклад в погрешность выходного сигнала этих элементов.



Пусть
- среднеквадратическое отклонение погрешности выходного сигнала нелинейного преобразователя. Пусть случайная величина
(погрешность входного сигнала нелинейного преобразователя) имеет некоторую плотность распределения
Считаем, что математическое ожидание погрешности входного сигнала


и дисперсия



Пусть нелинейный преобразователь имеет функцию активации
и точный входной сигнал
Рассмотрим линейное приближение функции активации
в точке
Линейное приближение имеет вид:


Найдем математическое ожидание и дисперсию величины






С другой стороны, нам известно, что дисперсия выходного сигнала нелинейного преобразователя равна
Отсюда получаем



Таким образом, мы вычислили среднеквадратическое отклонение входного сигнала нелинейного преобразователя для любого распределения погрешности входного сигнала


Мы получили среднеквадратическое отклонение входного сигнала нелинейного преобразователя
, которое одновременно является среднеквадратическим отклонением выходного сигнала сумматора с погрешностями входных сигналов


Погрешность выходного сигнала сумматора равняется



где
- точный выходной сигнал сумматора.

Вычислим среднеквадратические отклонения
входных сигналов сумматора. Рассмотрим для этого дисперсию погрешности выходного сигнала сумматора


Предположим дополнительно, что
равны между собой.



Получили формулу для равномерного распределения среднеквадратических отклонений
по входам сумматора. Если в качестве погрешности каждого входа рассматривать не
, а
, то получим формулу для пропорционального распределения среднеквадратических отклонений
по входам сумматора.



Кроме равномерного и пропорционального распределения среднеквадратических отклонений погрешностей по входам сумматора, может быть использовано приоритетное распределение среднеквадратических отклонений. При этом сначала назначаются среднеквадратические отклонения погрешностей для тех входов сумматора, которые наиболее значимы по какому-либо признаку, а затем оставшаяся часть среднеквадратического отклонения погрешности выходного сигнала сумматора распределяется по остальным входам равномерно или пропорционально.



Мы рассмотрели, как изменяются погрешности сигналов при прохождении через элементы сети. Предположим теперь, что не только сигналы имеют погрешности, но и все элементы сети передают приходящие к ним сигналы с некоторыми погрешностями. Пусть среднеквадратические отклонения погрешностей элементов известны и фиксированы. Выясним, как влияют собственные погрешности элементов на погрешности сигналов.

Вычислим среднеквадратические отклонения входных сигналов точки ветвления, нелинейного преобразователя и сумматора, если известны среднеквадратические отклонения выходных сигналов и собственные погрешности этих элементов.

Пусть точка ветвления имеет собственную погрешность
и среднеквадратическое отклонение собственной погрешности равно
Собственная погрешность
добавляется к каждому сигналу, выходящему из точки ветвления.

Если при обратном распространении получаем дисперсии выходных сигналов точки ветвления
не равные между собой, то в качестве дисперсии входного сигнала точки ветвления, с учетом собственной погрешности, выбирается


Пусть среднеквадратическое отклонение собственной погрешности нелинейного преобразователя равно
, а среднеквадратическое отклонение выходного сигнала нелинейного преобразователя равно
Собственная погрешность нелинейного преобразователя
может добавляться либо к результату работы нелинейного преобразователя:
, либо к входному сигналу нелинейного преобразователя:


Рассмотрим оба варианта.

Пусть погрешность
добавляется к результату работы нелинейного преобразователя. Рассмотрим дисперсию



Отсюда получаем, что дисперсия непосредственно выходного сигнала нелинейного преобразователя равна


Среднеквадратическое отклонение для входного сигнала нелинейного преобразователя вычисляется как указано выше. В качестве дисперсии выходного сигнала в формуле используется вычисленная дисперсия
Среднеквадратическое отклонение погрешности входного сигнала нелинейного преобразователя будет равняться


Пусть теперь собственная погрешность нелинейного преобразователя добавляется к его входному сигналу:
В этом случае погрешность входного сигнала имеет математическое ожидание





и дисперсию



Вычислим математическое ожидание и дисперсию выходного сигнала нелинейного преобразователя, рассматривая линейное приближение






Отсюда получаем


Перейдем к вычислению среднеквадратических отклонений входных сигналов сумматора. Пусть среднеквадратическое отклонение выходного сигнала сумматора равно
, собственное среднеквадратическое отклонение погрешности сумматора равно


Собственная погрешность сумматора может добавляться либо к выходному сигналу сумматора:


либо к каждому входу сумматора:



где


Пусть собственная погрешность добавляется к выходному сигналу сумматора. Вычислим среднеквадратическое отклонение погрешностей для входных сигналов сумматора. Рассмотрим для этого дисперсию



Для равномерного распределения среднеквадратических отклонений предполагаем, что
равны между собой.



Если будем рассматривать пропорциональное распределение среднеквадратических отклонений входных сигналов сумматора, то получим



Пусть теперь собственное среднеквадратическое отклонение сумматора добавляется к каждому входу сумматора:


Вычислим среднеквадратическое отклонение погрешностей для входных сигналов сумматора. Рассмотрим для этого дисперсию


Для равномерного распределения среднеквадратических отклонений предполагаем, что
равны между собой.



Если будем рассматривать пропорциональное распределение среднеквадратических отклонений входных сигналов сумматора, то получим


Зная, как вычисляются среднеквадратические отклонения погрешностей для всех элементов стандартного нейрона, можно вычислить среднеквадратические отклонения погрешностей сигналов для всей сети. Если заданы среднеквадратические отклонения погрешностей для выходных сигналов сети, можно вычислить среднеквадратические отклонения погрешностей для последнего слоя сети. Когда вычислены среднеквадратические отклонения погрешностей всех входных сигналов последнего слоя сети, переходим к вычислению среднеквадратических отклонений погрешностей предпоследнего слоя и так далее.

Рассмотрим пример на рис. 6.10. Пусть дана сеть с тремя нейронами входного слоя, двумя нейронами скрытого слоя и одним выходным нейроном.


На рисунке показаны сигналы, проходящие по сети при данном векторе входных сигналов, и веса связей. В данном примере элементы сети не имеют собственных погрешностей. Характеристическая функция нелинейных преобразователей имеет вид:
, где
- входной сигнал нелинейного преобразователя. Среднеквадратическое отклонение вектора выходных сигналов сети
равняется 0.01. Среднеквадратические отклонения погрешностей по входам сумматора вычисляются с использованием формулы для равномерного распределения среднеквадратических отклонений.


Рис. 6.10. 

Вычислим среднеквадратические отклонения для всех сигналов сети при данном векторе входных сигналов. Все вычисленные значения в этом примере округляются до двух знаков после запятой. На рис. 6.11 показаны вычисленные среднеквадратические отклонения для данного примера.


Рис. 6.11. 



























Таким образом, получены формулы для вычисления среднеквадратических отклонений погрешностей сигналов сети, в предположении, что погрешности являются независимыми случайными величинами.


Обсуждение


Как метод обратного распространения точности, так и метод обратного распространения среднеквадратических отклонений погрешностей можно применять к сетям не только слоистой структуры, но также к циклическим и полносвязным сетям. Рассматривая такт функционирования сети как слой, "разворачиваем" циклические и полносвязные сети в сети слоистой структуры. Вычисляем допустимые погрешности (среднеквадратические отклонения погрешностей) для сигналов стандартных нейронов каждого слоя. Затем "сворачиваем" слоистую сеть в исходную. Так как каждый слой полученной сети на самом деле является тактом функционирования, то для каждого сигнала сети на разных тактах получаем разные допустимые погрешности (среднеквадратические отклонения погрешностей). В качестве допустимой погрешности (среднеквадратического отклонения погрешности) для каждого сигнала сети выбирается минимум этих величин по всем тактам.

Идея этих методов возникла при решении задачи бинаризации нейронной сети. Бинаризация состоит в построении такой сети, которая функционирует так же, как и исходная, но имеет веса синапсов, равные 0 или 1 (вариант: +1 или -1).

Но метод обратного распространения точности и метод обратного распространения среднеквадратических отклонений погрешностей сигналов сети интересен не только и не столько в приложении к задаче бинаризации. Их можно применять при решении ряда других задач. Например, вычислив допустимые погрешности (среднеквадратические отклонения погрешностей) для всей сети, можно выяснить, в каких пределах можно варьировать входные данные и сигналы на любом участке сети, чтобы вектор выходных сигналов при этом изменился не более, чем на заданную величину.

Метод обратного распространения точности для среднеквадратических оценок погрешности позволяет получать формулы для вычисления погрешностей сигналов сети, налагающие менее жесткие ограничения на величину погрешностей по сравнению с гарантированными интервальными оценками погрешностями. Если для гарантированных интервальных оценок при обратном прохождении слоев допустимые погрешности сигналов уменьшаются, то для среднеквадратических оценок погрешностей есть ситуации, когда погрешности увеличиваются от последнего слоя к первому. Если погрешности сигналов являются независимыми случайными величинами, то, как показано в примере, даже при больших погрешностях входных сигналов получаются достаточно точные выходные сигналы.



Погрешности в нейронных сетях


ВЦК СО РАН, КГУА.Н. Горбань, М.Ю. Сенашова

Рассматриваются нейронные сети слоистой структуры, состоящие из слоев стандартных нейронов. Изучаются ошибки, возникающие при технической реализации сетей, а также при шумах и повреждениях.

Определены максимально допустимые погрешности, возможные для сигналов и параметров каждого элемента сети, исходя из условия, что вектор выходных сигналов сети должен вычисляться с заданной точностью. Используются два типа оценок погрешности: гарантированные интервальные оценки и среднеквадратические оценки погрешностей.

Показано, что оценки допустимых погрешностей можно получить в ходе специального процесса "обратного распространения точности". Он состоит в функционировании сети с той же системой связей, но от выходов к входам и с заменой элементов на двойственные. Эта двойственность принципиально отличается от той, которая используется в классическом методе вычисления градиентов оценки с помощью обратного распространения ошибок (back propagation of errors).

С помощью полученных результатов объясняется наблюдаемая высокая устойчивость нейронных сетей к шумам и разрушениям.



Структура сети


Предполагаем, что сеть имеет слоистую структуру. Это самоограничение позволит несколько сократить изложение, но не влияет на общность рассмотрения - исследование любой сети может быть формально сведено к изучению слоистых сетей.

Сеть слоистой структуры состоит из слоев стандартных нейронов, связанных между собой синапсами с весами, полученными при обучении. Причем сигналы передаются только в одном направлении, с предыдущего слоя на следующий. Под стандартным нейроном [6.1, 6.2] понимается набор элементов, состоящий из адаптивного сумматора, нелинейного преобразователя и точки ветвления ( рис. 6.1). Точка ветвления - это элемент, посылающий выходной сигнал нелинейного преобразователя на вход нескольких стандартных нейронов следующего слоя.


Рис. 6.1.  Стандартный нейрон

Так как мы имеем дело с сетями слоистой структуры, состоящими из слоев стандартных нейронов, то выходные сигналы одного слоя являются входными сигналами другого слоя. В свою очередь, внутри самого стандартного нейрона выходной сигнал одного элемента (например, сумматора) является входным сигналом другого элемента (например, нелинейного преобразователя). Таким образом, можно проследить, начиная с выходных сигналов сети, от какого элемента сети пришел сигнал к данному элементу.

Стандартный нейрон является типичным участком любой нейронной сети. Поэтому достаточно выяснить, как вычисляются допустимые погрешности для элементов стандартного нейрона. В результате получим возможность вычислить допустимые погрешности для любого участка сети, двигаясь по сети от нейрона к нейрону.



Типы погрешностей


В методе обратного распространения точности приведены формулы для вычисления погрешностей сигналов сети. Эти формулы рассчитаны для сигналов, полученных при прямом функционировании сети с одним примером из обучающей выборки в качестве входных сигналов сети. Вообще говоря, допустимые погрешности сигналов зависят от вида входных сигналов сети. Исходя из этого, для метода обратного распространения точности можно выделить четыре типа допустимых погрешностей:

погрешности, вычисленные для одного примера; погрешности, вычисленные для всей обучающей выборки; погрешности, вычисленные для примеров, компоненты которых принадлежат области

, где
- размерность области,
- действительные числа; погрешности, вычисленные для примеров, компоненты которых принадлежат области
, где R - действительное число.

Погрешности первого типа вычисляются по формулам, описанным в методе обратного распространения точности.

Для того, чтобы вычислить погрешности второго типа, вычисляем погрешности для каждого примера из обучающей выборки. Затем в качестве допустимой погрешности для каждого элемента сети выбирается минимум допустимых погрешностей этого элемента, вычисленных для каждого примера из обучающей выборки.

Рассмотрим, как вычисляются допустимые погрешности третьего и четвертого типов. В формулах для вычисления допустимых погрешностей входной сигнал используется только у нелинейного преобразователя. Допустимые погрешности остальных элементов сети от входных сигналов не зависят. Поэтому для вычисления этих типов погрешностей следует выяснить, какие сигналы будут входными для нелинейных преобразователей, если входные сигналы сети принадлежат области, которая является прямоугольником или шаром.

Для начала рассмотрим допустимые погрешности третьего типа, то есть те допустимые погрешности элементов сети, которые получаются при входных сигналах, принадлежащих прямоугольной области. Нам известны интервалы, в которых изменяются входные сигналы сети. Требуется вычислить интервалы для входных сигналов каждого элемента сети.
Будем вычислять их следующим образом. При прохождении интервалов через сумматор концы интервалов соответствующих входов умножаются на веса синапсов

и затем складываются. Предположим, что функция активации нелинейного преобразователя непрерывна и монотонна. Тогда в качестве концов интервала его выходного сигнала берутся значения характеристической функции нелинейного преобразователя от концов интервала входного сигнала. Точка ветвления посылает приходящий к ней интервал на входы следующих элементов. Таким образом, для каждого элемента сети мы можем вычислить интервал, в котором изменяются его входные сигналы. Нас интересуют интервалы, в которых изменяются входные сигналы нелинейных преобразователей. Для того, чтобы вычислить допустимые погрешности входного сигнала нелинейного преобразователя, необходимо вычислить максимум производной функции активации нелинейного преобразователя на интервале изменения его входных сигналов и затем разделить на эту величину допустимую погрешность выходного сигнала нелинейного преобразователя.

Таким образом вычисляются допустимые погрешности сигналов сети для прямоугольной области входных сигналов сети.

Рассмотрим пример, в котором будем вычислять погрешности третьего типа. Воспользуемся нейросетью, изображенной на рис. 6.9. Нейросеть имеет такие же веса синапсов, но входные сигналы принадлежат прямоугольной области:




Рис. 6.12. 

Сигналы сети изменяются в следующих интервалах:




Мы можем вычислить максимум производной функции активации на интервале изменения входного сигнала нелинейного преобразователя.













Зная эти величины, можно вычислить допустимые погрешности третьего типа.

Выясним теперь, как вычисляются допустимые погрешности сигналов четвертого типа, то есть погрешности, получающиеся, когда область входных сигналов сети является шаром.

Рассуждения, приведенные выше для допустимых погрешностей третьего типа, справедливы и для допустимых погрешностей четвертого типа. Отличие состоит в том, что нам необходимо "развернуть" шаровую область таким образом, чтобы получить интервалы, в которых изменяются входные сигналы элементов.



Рассмотрим для этого квадраты выходных сигналов сумматоров входного слоя сети. Используя неравенство Коши, получаем



где
- число входных сигналов сумматора. Получили интервалы, в которых изменяются выходные сигналы сумматоров входного слоя нейронной сети. Используя эти интервалы, можем вычислить интервалы, в которых изменяются входные сигналы элементов сети. Затем, как уже было описано выше, вычисляем допустимые погрешности входных сигналов нелинейных преобразователей.


В настоящее время существуют различные


В настоящее время существуют различные технические реализации нейронных сетей, в том числе нейроимитаторы, то есть компьютерные модели нейронных сетей. Нейроимитаторы являются гибкими средствами для изучения сетей и работы с ними. С нейроимитаторами можно выполнять различные операции - обучать, определять наиболее и наименее значимые связи, контрастировать, то есть удалять наименее значимые связи и т. д.
Существует подход, получающий все большее распространение, при котором сначала конструируется и обучается нейроимитатор, а затем создается техническая реализация полученной нейросети с уже вычисленными весами синапсов.
Нейроимитатор, работающий на универсальных цифровых ЭВМ, позволяет вычислять веса синапсов с большой точностью, которую трудно получить при других технических реализациях сети (в первую очередь -аналоговых) в силу ограниченной точности технических устройств. Поэтому возникает задача приведения весов синапсов к некоторому набору конкретных значений. Ее частный случай - задача бинаризации, то есть задача приведения весов синапсов к значениям 0 или 1 (связь либо есть, либо нет - без всяких весов синапсов).
При аналоговых реализациях, различных упрощениях архитектуры (в том числе - бинаризации) технически сложно получить результат работы сети той же точности, что и результат работы нейроимитатора [6.3, 6.4, 6.5]. Поэтому следует ограничится некоторой точностью, с которой может работать сеть, то есть выбрать интервал, в котором могут изменяться значения вектора выходных сигналов сети.
Оценка погрешностей сигналов сети очень полезна при решении задачи упрощения нейронной сети. Зная допустимую погрешность выходного сигнала какого-либо элемента сети, мы можем заменять его более простыми, но менее точными элементами так, чтобы в итоге ошибка не превышала заданную.
Хорошо известно, что нейронные сети могут проявлять исключительную устойчивость к помехам и разрушениям. Иногда эти эффекты называют голографическими свойствами нейронных сетей, подразумевая, что полезные навыки распределены по сети примерно так же, как изображение - по голографической пластинке, и могут сохраняться при значительных разрушениях.
Как будет показано ниже, при прямом прохождении сигналов по достаточно большой сети погрешности гасятся: при больших погрешностях входных сигналов выходные сигналы сети могут иметь сравнительно малые погрешности. Это объясняет устойчивость нейронных сетей к шумам и повреждениям.

Таким образом, решение задачи вычисления


Таким образом, решение задачи вычисления допустимых погрешностей (среднеквадратических отклонений погрешностей) для каждого сигнала сети методом обратного распространения точности удивительно похоже на метод обратного распространения ошибки, но с другими правилами прохождения элементов. Метод позволяет формулировать требования к точности вычисления и реализации технических устройств, если известны требования к точности выходных сигналов сети.

Гипотеза о скрытых параметрах


Пусть задано некоторое множество объектов и совокупность ("номенклатура") признаков этих объектов. Для каждого объекта может быть определен вектор значений его признаков - полностью или частично. Если эти значения для каких-либо объектов определены не полностью, то возникает классическая проблема восстановления пробелов в таблицах данных [7.1].

Наиболее распространенный путь ее решения - построение регрессионных зависимостей. Предполагается, что одни свойства каждого из объектов могут быть с достаточной степенью точности описаны как функции других свойств. Эти функции одинаковы для различных объектов. Последнее предположение выполняется далеко не всегда.

Что делать, если не удается построить регрессионной зависимости, общей для всех объектов? В этом случае естественно предположить, что существуют неописанные и неизмеренные свойства объектов - и именно в них и заключаются скрытые различия, не дающие построить искомые зависимости. Эти неучтенные и неизмеренные свойства; от которых зависят наблюдаемые параметры, называют "скрытыми параметрами", а предположение о том, что все дело в них - гипотезой о скрытых параметрах.

Проблема скрытых параметров стала знаменитой, благодаря квантовой механике. Многолетние попытки свести квантовые неопределенности к различию в значениях скрытых параметров и поиск этих самых параметров не увенчались успехом. В этом случае проблема отсутствия однозначных связей между характеристиками объектов оказалась глубже, а квантовые неопределенности признаны несводимыми к различию в значениях неизмеренных, но в принципе доступных измерению величин - для квантовых объектов микромира скрытых параметров не нашли.

За пределами миров квантовой механики различия между объектами всегда объяснимы наличием скрытых параметров. В нашем обычном макроскопическом мире проблема состоит не в существовании скрытых параметров, а в эффективной процедуре их поиска и учета, а также в разделении ситуаций на те, для которых разумно искать скрытые параметры, и те, для которых больше подходит представления о неустранимых (в данном контексте) случайных различиях.


Одна из простейших форм предположения о скрытых параметрах - гипотеза о качественной неоднородности выборки . Она означает, что скрытые параметры принимают сравнительно небольшое конечное число значений и всю выборку можно разбить на классы, внутри которых скрытые параметры, существенные для решения интересующей нас задачи регрессии, постоянны. Каждой такой выборке будет соответствовать "хорошая" регрессионная зависимость.

Построить классификацию (без учителя), соответствующую данной гипотезе можно только на основе предположении о форме искомой регрессионной зависимости наблюдаемых параметров от наблюдаемых же параметров внутри классов ( задача о мозаичной регрессии ). Если предполагается линейная зависимость, то эта задача классификации решается методом динамических ядер, только место точек - центров тяжести классов (как в сетях Кохонена) - занимают линейные многообразия, каждое из которых соответствует линейному регрессионному закону своего класса [7.2].

Регрессионные зависимости, которые строятся с помощью нейронных сетей, также образуют вполне определенный класс и для них тоже возможна соответствующая классификация без учителя. Изящный способов решения проблемы скрытых параметров для нейросетевых уравнений регрессии реализован в пакете "MultiNeuron" [7.2, 7.3]. Достаточно большая нейронная сеть может освоить любую непротиворечивую обучающую выборку, однако, как показывает опыт, если малая нейронная сеть не может обучиться, то из этого можно извлечь полезную информацию. Если не удается построить удовлетворительную регрессионную зависимость при заданном (небольшом) числе нейронов и фиксированной характеристике ("крутизне" функции активации) каждого нейрона, то из обучающей выборки исключаются наиболее сложные примеры до тех пор, пока сеть не обучится. Так получается класс, который предположительно соответствует одному значению скрытых параметров. Далее обучение можно продолжить на отброшенных примерах и т.д.

Пример. В одном из проводимых исследований [7.3] нейросеть обучали ставить диагноз вторичного иммунодефицита (недостаточности иммунной системы) по иммунологическим и метаболическим параметрам лимфоцитов.


В реальной ситуации по сдвигам таких параметров иногда бывает трудно сделать верное заключение (и это хорошо известная в иммунологии проблема соотношения клинической картины и биохимических проявлений иммунодефицитов). Были обследованы здоровые и больные люди, параметры которых использовались для обучения. Однако нейросеть не обучалась, причем хорошо распознавала все до единого примеры здоровых людей, а часть примеров больных путала со здоровыми. Тогда был сделан следующий шаг: каждый раз, когда сеть останавливала работу, из обучающей выборки убирался пример, на данный момент самый трудный для распознавания, и после этого вновь запускался процесс обучения. Постепенно из обучающей выборки были исключена примерно одна треть больных (при этом ни одного здорового!), и только тогда сеть обучилась полностью. Так как ни один здоровый человек не был исключен из обучения, группа здоровых не изменилась, а группа больных оказалась разделена на 2 подгруппы - оставшиеся и исключенные примеры больных. После проведения статистического анализа выяснилось, что группа здоровых и исходная группа больных практически не отличаются друг от друга по показателям метаболизма лимфоцитов. Однако получившиеся 2 подгруппы больных статистически достоверно отличаются от здоровых людей и друг от друга по нескольким показателям внутриклеточного метаболизма лимфоцитов. Причем в одной подгруппе наблюдалось увеличение активности большинства лимфоцитарных ферментов по сравнению со здоровыми, а в другой подгруппе - депрессия (снижение активности).

В научном фольклоре проблема скрытых параметров описывается как задача отделения комаров от мух: на столе сидят вперемежку комары и мухи, требуется провести разделяющую поверхность, отделяющую комаров от мух. Данные здесь - место на плоскости, скрытый параметр - видовая принадлежность, и он через данные не выражается.


Интерполяция свойств химических элементов


Идея интерполяции свойств элементов возникла в химии еще до создания периодической системы [7.7]. В триадах Деберейнера (1817г.) характеристики среднего элемента триады находились как средние арифметические значений характеристик крайних элементов. Были попытки работать с тетрадами, "эннеадами" (составленными из трех триад) и т.п. Периодическая таблица Менделеева позволяет по-разному определять группу ближайших соседей для интерполяции: от двух вертикальных соседей по ряду таблицы до окружения из восьми элементов (два из того же ряда и по три из соседних рядов). Однако интерполяция свойств путем взятия среднего арифметического по ближайшим элементам таблицы не всегда (не для всех свойств и элементов) дает приемлемые результаты - требуется либо иной выбор соседей, либо другая процедура интерполяции.

Более общим образом задачу интерполяции можно поставить так: найти для каждого элемента наилучшую формулу, выражающую его вектор свойств через векторы свойств других элементов. Эту задачу и решает метод транспонированной регрессии.

В работах [7.9, 7.10] исследовался полуэмпирический метод, близкий по идее к методу транспонированной регрессии. Единственное и главное отличие заключалось в том, что среди параметров сразу фиксировался набор "теоретических" и строились зависимости остальных свойств от них (в частности, зависимости потенциалов ионизации от атомного номера).


Рис. 7.1.  Зависимость 1-го ПИ от атомного номера

Используем метод транспонированной линейной регрессии для интерполяции и прогноза высших потенциалов ионизации (ПИ). Напомним, что n-й потенциал ионизации A - энергия, которую необходимо затратить, чтобы оторвать n-й электрон от иона A(n-1)+ (n-1 раз ионизированного атома A). Зависимость ПИ от атомного номера ( рис. 7.1) нелинейна и сложна.

Следуя формальному смыслу, n-й ПИ атома A следует относить все к тому же атому. Однако структура энергетических уровней иона определяется зарядом ядра и числом электронов. Для атома оба этих числа совпадают с атомным номером, но для ионов уже различны.
Удовлетворительная точность достигается при трех и четырех элементах в опорной группе.


Рис. 7.3.  Зависимость ошибок прогноза 5-10 ПИ от числа элементов в опорной группе. Опорные группы и регрессионные зависимости строились по первым четырем ПИ

Дальнейшее увеличение числа элементов в опорной группе себя не оправдывает. Увеличению точности прогноза мешают и погрешности при экспериментальном определении ПИ, особенно высших. В таблице 7.2 таблица 7.2 приводится прогноз отсутствующих значений ПИ.

Таблица 7.2. Прогноз высших потенциалов ионизации отдельных химических элементовАтомный номерЭлемент5-йПИ6-йПИ7-йПИ8-йПИ9-йПИ10-йПИ
59Pr50,7
60Nd49,269,6
61Pm53,667,797,1
62Sm55,972,987,9123,7
63Eu56,376,393,9110,8153,6
64Gd61,977,298,4117,7135,9186,9
65Tb67,484,999,8123,8142,963,8
66Dy48,392,2110,2125,9151,5171,3
67Ho52,665,8119,5138,0154,5181,6
68Er54,572,184,6149,7169,1185,7
69Tm54,974,593,4106,1182,8203,5
70Yb52,474,896,1117,3128,6219,9
71Lu57,871,796,2120,6143,9154,0
72Hf63,179,292,2121,0147,8173,2
73Ta 85,8102,4115,2147,4177,1
74W 110,5128,2140,7176,6
75Re 139,0156,9168,7
76Os 170,1188,6
77Ir 203,7


Как и в работах [7.9, 7.10], n-й потенциал ионизации атома с атомным номером m будем искать как функцию от m-n+1. Объектами будут служить, строго говоря, не атомы с атомным номером m, а m-электронные системы. Таким образом, второй ПИ гелия (атомный номер 2), третий ПИ лития (атомный номер 3) и т.д. относятся к одноэлектронной системе при различных зарядах ядра. Осуществляется привязка потенциала ионизации уже ионизированного атома не к этому же атому, а к m-электронной системе с m, равным имеющемуся числу электронов в ионе.

Рассмотрим результаты пробного прогноза высших потенциалов ионизации. Приведем результаты, полученные при использовании в функции критерия нормы в виде суммы абсолютных значений компонент вектора и значения
, поскольку такое сочетание при тестировании показало себя наилучшим образом. Для того, чтобы невязки по каждому свойству равномерно входили в левую часть функции критерия, выполнялось нормирование каждого свойства (приведение к нулевому математическому ожиданию и единичному среднеквадратическому уклонению).


Рис. 7.2.  Зависимость ошибки прогноза 3-10 ПИ от числа элементов в опорной группе. Опорные группы и регрессионные зависимости для каждого ПИ строились по предыдущим ПИ

На рис. 7.2 показаны ошибки прогноза ПИ (с 3-го по 10-й) при разных размерах опорных групп (2, 3 и 4 элемента в опорной группе). При этом для каждого ПИ опорные группы строились по предыдущим ПИ. Величины максимальной и средней ошибок показаны в процентах от диапазона изменения величин соответствующего ПИ. На основе приведенных графиков можно рекомендовать использование как можно большего набора однородных свойств для достижения оптимального прогноза.

Для попытки прогноза отсутствующих в справочной литературе [7.11, 7.12] значений высших ПИ (с 5-го по 10-й ПИ для элементов с атомными номерами от 59-го до 77-го) изучим влияние размера опорной группы на точность прогноза при построении опорной группы по первым четырем ПИ ( Рис. 7.3).


Удовлетворительная точность достигается при трех и четырех элементах в опорной группе.


Рис. 7.3.  Зависимость ошибок прогноза 5-10 ПИ от числа элементов в опорной группе. Опорные группы и регрессионные зависимости строились по первым четырем ПИ

Дальнейшее увеличение числа элементов в опорной группе себя не оправдывает. Увеличению точности прогноза мешают и погрешности при экспериментальном определении ПИ, особенно высших. В таблице 7.2 таблица 7.2 приводится прогноз отсутствующих значений ПИ.

Таблица 7.2. Прогноз высших потенциалов ионизации отдельных химических элементовАтомный номерЭлемент5-йПИ6-йПИ7-йПИ8-йПИ9-йПИ10-йПИ
59Pr50,7
60Nd49,269,6
61Pm53,667,797,1
62Sm55,972,987,9123,7
63Eu56,376,393,9110,8153,6
64Gd61,977,298,4117,7135,9186,9
65Tb67,484,999,8123,8142,963,8
66Dy48,392,2110,2125,9151,5171,3
67Ho52,665,8119,5138,0154,5181,6
68Er54,572,184,6149,7169,1185,7
69Tm54,974,593,4106,1182,8203,5
70Yb52,474,896,1117,3128,6219,9
71Lu57,871,796,2120,6143,9154,0
72Hf63,179,292,2121,0147,8173,2
73Ta 85,8102,4115,2147,4177,1
74W 110,5128,2140,7176,6
75Re 139,0156,9168,7
76Os 170,1188,6
77Ir 203,7
© 2003-2007 INTUIT.ru. Все права защищены.

Теорема о скрытых параметрах


Ряд алгоритмов решения проблемы скрытых параметров можно построить на основе следующей теоремы. Пусть n - число свойств, N - количество объектов,

- множество векторов значений признаков. Скажем, что в данной группе объектов выполняется уравнения регрессии ранга r, если все векторы
принадлежат n-r-мерному линейному многообразию. Как правило, в реальных задачах выполняется условие N>n. Если же
, то векторы
принадлежат N-1-мерному линейному многообразию и нетривиальные регрессионные связи возникают лишь при ранге r>n-N+1. Ранг регрессии r измеряет, сколько независимых линейных связей допускают исследуемые свойства объектов. Число r является коразмерностью того линейного подпространства в пространстве векторов признаков, которому принадлежат наблюдаемы векторы признаков объектов. Разумеется, при обработке реальных экспериментальных данных необходимо всюду добавлять "с заданной точностью", однако пока будем вести речь о точных связях.

Следующая теорема о скрытых параметрах позволяет превращать вопрос о связях между различными свойствами одного объекта (одной и той же для разных объектов) в вопрос о связи между одним и тем же свойством различных объектов (одинаковой связи для различных свойств) - транспонировать задачу регрессии. При этом вопрос о качественной неоднородности выборки "транспонируется" в задачу поиска для каждого объекта такой группы объектов (опорной группы), через свойства которых различные свойства данного объекта выражаются одинаково и наилучшим образом.

Теорема. Пусть для некоторого r>0 существует такое разбиение

на группы

что r>n-Nj+1 (где Nj - число элементов в Yj), и для каждого класса Yj выполняются уравнения регрессии ранга r. Тогда для каждого объекта xi из

найдется такое множество Wi (опорная группа объекта xi) из k объектов, что
и для некоторого набора коэффициентов

(1)

Последнее означает, что значение каждого признака объекта xi является линейной функцией от значений этого признака для объектов опорной группы.
Эта линейная функция одна и та же для всех признаков.

Линейная зависимость (1) отличается тем, что она инвариантна к изменениям единиц измерения свойств и сдвигам начала отсчета. Действительно, пусть координаты всех векторов признаков подвергнуты неоднородным линейным преобразованиям:

, где j - номер координаты. Нетрудно убедиться, что при этом линейная связь (1) сохранится. Инвариантность относительно преобразования масштаба обеспечивается линейностью и однородностью связи, а инвариантность относительно сдвига начала отсчета - еще и тем, что сумма коэффициентов
равна 1.

Сформулированная теорема позволяет переходить от обычной задачи регрессии (поиска зависимостей значения признака от значений других признаков того же объекта) к транспонированной задаче регрессии - поиску линейной зависимости признаков объекта от признаков других объектов и отысканию опорных групп, для которых эта зависимость является наилучшей.

Доказательство основано на том, что на каждом k-мерном линейном многообразии для любого набора из q точек y1, y2, ..., yq при q>k+1 выполнено соотношение



для некоторого набора
и некоторые


С математической точки зрения теорема о скрытых параметрах представляет собой вариант утверждения о равенстве ранга матрицы, вычисляемого по строкам, рангу, вычисляемому по столбцам.


Транспонированная задача линейной регрессии


Изложение в этом разделе следует работам [7.2, 7.5, 7.6]. Постановка обычной задачи регрессии (или мозаичной регрессии) исходит из гипотезы о том, что одни характеристики объектов могут быть функциями других и эти функции одни и те же для всех объектов (или соответственно классов объектов).

Транспонируем таблицу данных (поменяем местами слова "объект" и "признак"). Рассмотрим гипотезу от том, что значения признака одного объекта могут быть функциями значений того же признака других объектов и эти функции одни и те же для всех признаков (или классов признаков). Получаем формально те же задачи регрессии (транспонированные задачи регрессии). Есть, однако, два содержательных отличия транспонированных задач от исходных:

инвариантность к смене шкал измерения - кажется маловероятным, чтобы существенные связи между признаками различных объектов зависели от шкалы измерения, поэтому необходимо, чтобы уравнения транспонированной регрессии были инвариантны относительно смены шкалы измерения любого признака (обычно - линейного неоднородного преобразования x'=ax+b однородная часть которого описывает смену единицы измерения, а свободный член - сдвиг начала отсчета); в традиционных задачах регрессии предполагается, что объектов достаточно много (N), по сравнению с числом признаков n, иначе (при N<n) точные линейные соотношения возникнут просто из-за малого числа объектов, так как через N точек всегда можно провести линейное многообразие размерности N-1. В противовес этому "транспонированное" предположение о достаточно большом числе признаков (n>N) кажется нереалистичным.

Требование инвариантности к смене шкал приводит к специальным ограничениям на вид функций регрессии, а недостаточность количества признаков (в сравнении с числом объектов) для построения транспонированной регрессии вынуждает нас для каждого объекта искать небольшую группу, по свойствам которых можно восстановить характеристики данного.

Задача построения таких групп объектов была чрезвычайно популярна в химии перед открытием Менделеевым периодического закона (1871 г.).
С 1817 г. (Деберейнер) были опубликованы десятки работ на эту тему [7.7]. Именно они поставили исходный материал для систематизации элементов. Деберейнер обнаружил триады, в которых свойства среднего элемента могут быть оценены как средние значения этих свойств для крайних членов триады. Его труды продолжили Гмелин, Гладстон, Дюма и другие. Вот некоторые из таких триад:

K-Na-Li, Ba-Sr-Ca, Cl-Br-J, S-Se-Te, P-As-Sb, W-V-Mo, ...

Один из наиболее полных списков триад был опубликован Ленсеном (1857). Он же заметил, что для большей точности иногда полезно брать "эннеады" - девятки, составленные из трех триад.

Менделеев писал:

"...между всеми... учеными, которые раньше меня занимались сравнением величин атомных весов элементов, я считаю, что обязан преимущественно двум: Ленсену и Дюма. Я изучил их исследования и они меня побудили искать действительный закон"

(цит. по [7.7], с. 220-222).

Более общим образом задача ставится так: найти для каждого объекта наилучшую линейную формулу, выражающую его вектор признаков через векторы признаков других объектов (которых должно быть по возможности меньше). Эта формула должна быть инвариантна относительно смены шкал.

Итак, требуется построить отношение, связывающее объекты с группами объектов, по которым для него строятся интерполяционные формулы. Проделав эту работу "в лоб" ( по базам данных и без обращения к интуиции химиков) для большого числа элементов (объектов) и потенциалов ионизации (признаков), мы получили хорошее согласие с экспериментом и предсказали ряд неизвестных ранее высших потенциалов ионизации. Результаты будут описаны в следующем разделе.

Предположим, что некоторый большой набор свойств - внешних, эмпирических данных об объекте (явление) является сюръекцией небольшого набора внутренних, теоретических переменных (сущности). Эта идея позволяет сделать предположение о том, что размер опорной группы объектов, по которой наилучшим образом восстанавливаются свойства данного объекта, не только не должен превосходить размер набора свойств (иначе заведомо возникнут точные линейные соотношения), но и быть малым настолько, насколько это позволяет заданная точность [7.2, 7.3, 7.4, 7.5].



Если предположить, что для некоторого множества объектов зависимость между теоретическим и эмпирическим линейна, и векторы теоретических параметров объектов данного множества лежат в линейном многообразии размерности q, то размер опорной группы не будет превосходить q+1.

Другое условие, налагаемое на искомую формулу, требует инвариантности к смене шкал измерений. Разумно считать, что глубинные связи не зависят от единиц, в которых выражены значения свойств объектов:



Если в качестве искомой формулы рассматривать линейную комбинацию векторов опорной группы, то требуемой инвариантности можно достичь, наложив некоторое условие на коэффициенты разложения. Таковым условием является равенство суммы коэффициентов единице:



Для нелинейной регрессии естественно использовать однородные рациональные функции [7.2].

Рассматривались два вида решения. Первый:



(2)
где
- восстановленный вектор свойств, yi - вектор свойств i-го объекта опорной группы, q - мощность опорной группы,


- среднее значение.

Во втором случае в качестве
, выбирался один из векторов опорной группы.



(3)
Заметим, что легко построить нейронную сеть, вычисляющую такие формулы [7.5, 7.6].

Из-за предположения о малости опорной группы объектов в качестве одного из путей решения предлагается перебор всех наборов заданного размера. Было предложено искать минимум одного из двух критериев:



В случае а) точное решение находится из системы линейных уравнений. Введем обозначения:

Y - матрица векторов опорной группы, n строк, q столбцов. n - число известных компонент восстанавливаемого вектора y.
- матрица Y в которой из каждого столбца вычтен вектор my (yt в случае 2). M - матрица, все элементы которой равны 1, m - вектор, все компоненты которого равны 1, E - единичная матрица,
- вектора размерностью q.

Для выражения (2)





Дифференцируя выражение а) и приравнивая нулю, получаем:



Для выражения (3),

et - вектор, t-ая компонента которого равна 1, остальные 0.

Lt = (et) - матрица, столбцы которой равны вектору et.



Имеем









Система уравнений решается для известных значений компонент вектора y, полученное решение используется для предсказания неизвестных значений.

В случае критерия б) в качестве начального приближения для каждого испытуемого набора рассматривались
минимизирующие невязку
Минимум критерия находился BFGS-методом [7.8].

Нами рассмотрен вариант нахождения оптимальной опорной группы фиксированного размера в задаче транспонированной линейной регрессии, когда оптимальная опорная группа отбиралась в ходе полного перебора всех возможных опорных групп. Другой предложенный вариант (оптимизационный) предполагает первоначальное задание избыточного числа объектов в опорной группе и последующее сокращение ее размера в результате отбрасывания наименее значимых параметров.

Программная реализация и переборного, и оптимизационного вариантов решения транспонированной задачи линейной регрессии выполнялась в среде MS DOS с использованием транслятора Borland C++. Текст программы соответствует ANSI-стандарту языка C++, что делает возможным перенос программы на другие аппаратные платформы (что и делалось большие базы медицинских данных обрабатывалась на компьютере Alpha Station корпорации DEC ). При этом зависимые от операционной системы фрагменты программы подключаются при помощи условных директив препроцессора языка. Так, для обеспечения работы с большими файлами данных в среде MS DOS используется обращение к интерфейсу DPMI (предоставляется DPMI-расширителями и операционными системами OS/2, Windows 3.xx, Windows 95, Windows NT) для переключения в защищенный режим и обхода ограничения в 640К памяти.

Программа позволяет пользователю определять файл данных, обрабатываемые строки (объекты) и столбцы (свойства объектов), выбирать между вариантами решения и видами функции критерия, задавать значения иных параметров метода. Для обработки порядковых признаков возможна спецификация некоторых столбцов, как содержащих значения не из непрерывного, а из дискретного множества значений. Прогнозные значения отсутствующих данных в этом случае будут приводиться к ближайшему значению из дискретного множества значений.



Результатом работы программы является файл отчета. Для каждого обрабатываемого объекта (строки базы данных) в файле отчета содержится информация об оптимальным образом приближающей объект опорной группе (номера объектов, входящих в опорную группу, и коэффициенты разложения), значение функции критерия, ошибки интерполяции известных свойств объекта и прогнозные значения для неизвестных свойств. В конце файла отчета выводятся максимальные и средние ошибки аппроксимации известных данных для всех обрабатываемых столбцов базы данных (свойств объектов).

Тестирование предлагаемого метода проводилось на модельных данных. При построении модельных данных задаются размерность теоретической проекции (число скрытых переменных), размерность эмпирической проекции (число свойств объекта), число различных классов, вектор среднего и разброса для генерируемых данных в каждом классе. Для каждого класса случайным образом порождается линейный оператор, отображающий пространство скрытых переменных в пространство свойств объектов. Для каждого объекта случайным образом выбираются значения скрытых переменных и рассчитываются значения свойств. Тестирование проводилось в скользящем режиме по всему задачнику. Полученные результаты (Табл.1 таблица 7.1) позволяют заключить, что предложенный метод весьма эффективен, критерий вида б) с большей эффективностью определяет опорную группу при избыточном и недостаточном наборах объектов (лучше, чем МНК а)), а решение вида (2) дает лучшие по сравнению с (3) результаты при избыточном наборе объектов.

Таблица 7.1. Качество восстановления по модельным данным с теоретической размерностью 3? критерийвидсредняя относительная ошибка, %34518
при размере опорной группы
0.01а1501566
а2501566
б1501340
б2501366
0.1а110163072
а210163072
б16101440
б26101466
При решении задачи заполнения пробелов в таблицах данных для любой таблицы общей рекомендацией является проведение серии пробных прогнозов для определения оптимального сочетания параметров.


Численный эксперимент


Работа ортогональных тензорных сетей при наличии помех сравнивалась с возможностями линейных кодов, исправляющих ошибки. Линейным кодом, исправляющим k ошибок, называется линейное подпространство в n-мерном пространстве над GF2, все вектора которого удалены друг от друга не менее чем на 2k+1 (см., например, [8.8]). Линейный код называется совершенным, если для любого вектора n-мерного пространства существует кодовый вектор, удаленный от данного не более, чем на k. Тензорной сети в качестве эталонов подавались все кодовые векторы избранного для сравнения кода. Численные эксперименты с совершенными кодами показали, что тензорная сеть минимально необходимой валентности правильно декодирует все векторы. Для несовершенных кодов картина оказалась хуже - среди устойчивых образов тензорной сети появились "химеры" - векторы, не принадлежащие множеству эталонов.

В случае n=10, k=1 (см. табл. 8.1 2 и 3, строка 1) при валентностях 3 и 5 тензорная сеть работала как единичный оператор - все входные вектора передавались на выход сети без изменений. Однако уже при валентности 7 число химер резко сократилось и сеть правильно декодировала более 60% сигналов. При этом были правильно декодированы все векторы, удаленные от ближайшего эталона на расстояние 2, а часть векторов, удаленных от ближайшего эталона на расстояние 1, остались химерами. В случае n=10, k=2 (см. табл. 8.1 2 и 3, строки 3, 4, 5) наблюдалось уменьшение числа химер с ростом валентности, однако часть химер, удаленных от ближайшего эталона на расстояние 2 сохранялась. Сеть правильно декодировала более 50% сигналов. Таким образом при малых размерностях и кодах, далеких от совершенных, тензорная сеть работает довольно плохо. Однако, уже при n=15, k=3 и валентности, большей 3 (см. табл. 8.1 2 и 3, строки 6, 7), сеть правильно декодировала все сигналы с тремя ошибками. В большинстве экспериментов число эталонов было больше числа нейронов.

Подводя итог, можно сказать, что качество работы сети возрастает с ростом размерности пространства и валентности и по эффективности устранения ошибок сеть приближается к коду, гарантированно исправляющему ошибки.

Работа выполнена при поддержке Красноярского краевого фонда науки, грант 6F0124.



Нейронные сети ассоциативной памяти


Вычислительный центр СО РАН в г. КрасноярскеЕ.М.Миркес

Рассматриваются нейронные сети ассоциативной памяти, восстанавливающие по искаженному и/или зашумленному образу ближайший к нему эталонный. Исследована информационная емкость сетей и предложено несколько путей ее повышения, в том числе - ортогональные тензорные (многочастичные) сети. Построены способы предобработки, позволяющие конструировать нейронные сети ассоциативной памяти для обработки образов, инвариантной относительно групп преобразований. Описан численный эксперимент по использованию нейронных сетей для декодирования различных кодов.



Ортогональные сети


Для обеспечения правильного воспроизведения эталонов достаточно потребовать, чтобы первое преобразование в (5) было таким, что

Очевидно, что если проектор является ортогональным, то это требование выполняется, поскольку
при
а
по определению множества

Для обеспечения ортогональности проектора воспользуемся дуальным множеством векторов. Множество векторов

называется дуальным к множеству векторов
если все вектора этого множества
удовлетворяют следующим требованиям:

при
при

Преобразование

является ортогональным проектором на линейное пространство

Ортогональная сеть ассоциативной памяти преобразует образы по формуле

(6)

Дуальное множество векторов существует тогда и только тогда, когда множество векторов

линейно независимо. Если множество эталонов
линейно зависимо, то исключим из него линейно зависимые образы и будем рассматривать полученное усеченное множество эталонов как основу для построения дуального множества и преобразования (6). Образы, исключенные из исходного множества эталонов, будут по-прежнему сохраняться сетью в исходном виде (преобразовываться в самих себя). Действительно, пусть эталон
является линейно зависимым от остальных
эталонов. Тогда его можно представить в виде

Подставив полученное выражение в преобразование (6) и учитывая свойства дуального множества получим:

(7)

Рассмотрим свойства сети (6) [8.2]. Во-первых, количество запоминаемых и точно воспроизводимых эталонов не зависит от степени их скоррелированности. Во-вторых, формально сеть способна работать без искажений при любом возможном числе эталонов (всего их может быть до

). Однако, если число линейно независимых эталонов (т.е. ранг множества эталонов) равно
сеть становится прозрачной - какой бы образ не предъявили на ее вход, на выходе окажется тот же образ. Действительно, как было показано в (7), все образы, линейно зависимые от эталонов, преобразуются проективной частью преобразования (6) сами в себя. Значит, если в множестве эталонов есть
линейно независимых, то любой образ можно представить в виде линейной комбинации эталонов (точнее
линейно независимых эталонов), а проективная часть преобразования (6) в силу формулы (7) переводит любую линейную комбинацию эталонов в саму себя.


Если число линейно независимых эталонов меньше n , то сеть преобразует поступающий образ, отфильтровывая помехи, ортогональные всем эталонам.

Отметим, что результаты работы сетей (3) и (6) эквивалентны, если все эталоны попарно ортогональны.

Остановимся несколько подробнее на алгоритме вычисления дуального множества векторов. Обозначим через
матрицу Грамма множества векторов
Элементы матрицы Грамма имеют вид
(
-ый элемент матрицы Грамма равен скалярному произведению
-го эталона на
-ый). Известно, что векторы дуального множества можно записать в следующем виде:



(8)
где
- элемент матрицы
Поскольку определитель матрицы Грамма равен нулю, если множество векторов линейно зависимо, то матрица, обратная к матрице Грамма, а следовательно и дуальное множество векторов существует только тогда, когда множество эталонов линейно независимо.

Для работы сети (6) необходимо хранить эталоны и матрицу


Рассмотрим процедуру добавления нового эталона к сети (6). Эта операция часто называется дообучением сети. Важным критерием оценки алгоритма формирования сети является соотношение вычислительных затрат на обучение и дообучение. Затраты на дообучение не должны зависеть от числа освоенных ранее эталонов.

Для сетей Хопфилда это, очевидно, выполняется - добавление еще одного эталона сводится к прибавлению к функции H одного слагаемого
а модификация связей в сети - состоит в прибавлении к весу ij-й связи числа
- всего
операций.



В результате получим


Пусть известна
- обратная к матрице Грамма для множества из m векторов
Добавим к этому множеству вектор
Тогда матрица для обращения матрицы
методом Гаусса будет иметь вид:



После приведения к единичной матрице главного минора ранга m получится следующая матрица:



где
- неизвестные величины, полученные в ходе приведения главного минора к единичной матрице. Для завершения обращения матрицы
необходимо привести к нулевому виду первые m элементов последней строки и
-о столбца. Для обращения в ноль i-о элемента последней строки необходимо умножить i-ю строку на
и вычесть из последней строки. После проведения этого преобразования получим



где




только если новый эталон является линейной комбинацией первых m эталонов. Следовательно
Для завершения обращения необходимо разделить последнюю строку на
и затем вычесть из всех предыдущих строк последнюю, умноженную на соответствующее номеру строки
В результате получим следующую матрицу



где
Поскольку матрица, обратная к симметричной, всегда симметрична получаем
при всех i. Так как
следовательно


Обозначим через
вектор


через
- вектор
Используя эти обозначения можно записать



Матрица
записывается в виде



Таким образом, при добавлении нового эталона требуется произвести следующие операции:

Вычислить вектор
(
скалярных произведений -
операций,
).Вычислить вектор
(умножение вектора на матрицу -
операций). Вычислить
(два скалярных произведения -
операций). Умножить матрицу на число и добавить тензорное произведение вектора
на себя (
операций). Записать


Таким образом, эта процедура требует
операций. Тогда как стандартная схема полного пересчета потребует:

Вычислить всю матрицу Грамма (
операций). Методом Гаусса привести левую квадратную матрицу к единичному виду (
операций). Записать


Всего
операций, что в
раз больше.

Используя ортогональную сеть (6), удалось добиться независимости способности сети к запоминанию и точному воспроизведению эталонов от степени скоррелированности эталонов. Так, например, ортогональная сеть смогла правильно воспроизвести все буквы латинского алфавита в написании, приведенном на рис. 8.1.

У сети (6) можно выделить два основных недостатка:

Число линейно независимых эталонов должно быть меньше размерности системы
Неинвариантностью - если два визуальных образа отличаются только своим положением в рамке, то в большинстве задач желательно объединять их в один эталон.

Оба этих недостатка можно устранить, изменив выбор весовых коэффициентов в (2).


Постановка задачи


Пусть задан набор из

эталонов -
-мерных векторов
Требуется построить сеть, которая при предъявлении на вход произвольного образа - вектора x - давала бы на выходе "наиболее похожий" эталон.

Всюду далее образы и, в том числе, эталоны -

-мерные векторы с координатами
Эталон, "наиболее похожий" на x - ближайший к x вектор
Легко заметить, что это требование эквивалентно требованию максимальности скалярного произведения векторов
и
:

Первые два слагаемых в правой части совпадают для любых образов

и
так как длины всех векторов-образов равны
Таким образом, задача поиска ближайшего образа сводится к поиску образа, скалярное произведение с которым максимально. Этот простой факт приводит к тому, что сравнивать придется линейные функции от образов, тогда как расстояние является квадратичной функцией.



Сети для инвариантной обработки изображений


Для того, чтобы при обработке переводить визуальные образов, отличающиеся только положением в рамке изображения, в один эталон, применяется следующий прием [8.7]. Преобразуем исходное изображение в некоторый вектор величин, не изменяющихся при сдвиге (вектор инвариантов). Простейший набор инвариантов дают автокорреляторы - скалярные произведения образа на сдвинутый образ, рассматриваемые как функции вектора сдвига.

В качестве примера рассмотрим вычисление сдвигового автокоррелятора для черно-белых изображений. Пусть дан двумерный образ

размером
Обозначим точки образа как
Элементами автокоррелятора
будут величины

где

при выполнении любого из неравенств
Легко проверить, что автокорреляторы любых двух образов, отличающихся только расположением в рамке, совпадают. Отметим, что
при всех
и
при выполнении любого из неравенств
Таким образом, можно считать, что размер автокоррелятора равен

Автокорреляторная сеть имеет вид

(11)

Сеть (11) позволяет обрабатывать различные визуальные образы, отличающиеся только положением в рамке, как один образ.

Подводя итоги, можно сказать, что все сети ассоциативной памяти типа (2) можно получить, комбинируя следующие преобразования:

Произвольное преобразование. Например, переход к автокорреляторам, позволяющий объединять в один выходной образ все образы, отличающиеся только положением в рамке. Тензорное преобразование, позволяющее сильно увеличить способность сети запоминать и точно воспроизводить эталоны. Переход к ортогональному проектору, снимающий зависимость надежности работы сети от степени скоррелированности образов.

Наиболее сложная сеть будет иметь вид:

(12)

где

- элементы матрицы, обратной матрице Грамма системы векторов

- произвольное преобразование.



Сети Хопфилда


Наиболее известной сетью ассоциативной памяти является сеть Хопфилда [8.1]. В основе сети Хопфилда лежит следующая идея - запишем систему дифференциальных уравнений для градиентной минимизации "энергии" H (функции Ляпунова). Точки равновесия такой системы находятся в точках минимума энергии. Функцию энергии будем строить из следующих соображений:

Каждый эталон должен быть точкой минимума. В точке минимума все координаты образа должны иметь значения

Функция

не удовлетворяет этим требованиям строго, но можно предполагать, что первое слагаемое обеспечит притяжение к эталонам (для вектора x фиксированной длины максимум квадрата скалярного произведения

достигается при x=xi), а второе слагаемое
- приблизит к единице абсолютные величины всех координат точки минимума. Величина
характеризует соотношение между этими двумя требованиями и может меняться со временем.

Используя выражение для энергии, можно записать систему уравнений, описывающих функционирование сети Хопфилда:

(1)

Сеть Хопфилда в виде (1) является сетью с непрерывным временем. Это, быть может, и удобно для некоторых вариантов аналоговой реализации, но для цифровых компьютеров лучше воспользоваться сетями, функционирующими в дискретном времени - шаг за шагом.

Построим сеть Хопфилда с дискретным временем. Сеть должна осуществлять преобразование входного вектора

так, чтобы выходной вектор
был ближе к тому эталону, который является правильным ответом. Преобразование сети будем искать в следующем виде:

(2)

где

- вес
-го эталона, характеризующий его близость к вектору
- нелинейный оператор, переводящий вектор с координатами
в вектор с координатами
.

Функционирование сети. Сеть работает следующим образом:

На вход сети подается образ

а на выходе снимается образ
Если
то полагаем
и возвращаемся к шагу 1. Полученный вектор
является ответом.

Таким образом, ответ всегда является неподвижной точкой преобразования сети (2) и именно это условие (неизменность при обработке образа сетью) и является условием остановки.



Тензорные сети


Для увеличения числа линейно независимых эталонов, не приводящих к прозрачности сети, используется прием перехода к тензорным или многочастичным сетям [8.3, 8.4, 8.5, 8.6, 8.7].

Тензорным произведением

-мерных векторов
называется

-индексная величина

у которой все индексы независимо пробегают весь набор значений от единицы до
а
-ой тензорной степенью вектора
будем называть вектор
полученный как тензорное произведение
векторов
Вектор
является
-мерным вектором. Однако пространство
имеет размерность, не превышающую величину
где
- число сочетаний из
по

Теорема. При k < n в ранг

множества
равен:


Рис. 8.2.  "Тензорный" треугольник Паскаля

Небольшая модернизация треугольника Паскаля, позволяет легко вычислять эту величину. На рис. 8.2 приведен "тензорный" треугольник Паскаля. При его построении использованы следующие правила:

Первая строка содержит двойку, поскольку при n=2 в множестве X всего два неколлинеарных вектора. При переходе к новой строке, первый элемент получается добавлением единицы к первому элементу предыдущей строки, второй - как сумма первого и второго элементов предыдущей строки, третий - как сумма второго и третьего элементов и т.д. Последний элемент получается удвоением последнего элемента предыдущей строки.

Таблица 8.1.

nknkCk - 1n + k - 1rn,k
52251511
31253515
1031 000220130
61 000 0005005466
8100 000 00024310511

В таблица 8.1 приведено сравнение трех оценок информационной емкости тензорных сетей для некоторых значений n и k. Первая оценка -

- заведомо завышена, вторая -
- дается формулой Эйлера для размерности пространства симметричных тензоров и третья - точное значение

Как легко видеть из таблицы таблица 8.1, уточнение при переходе к оценке

является весьма существенным. С другой стороны, предельная информационная емкость тензорной сети (число правильно воспроизводимых образов) может существенно превышать число нейронов, например, для 10 нейронов тензорная сеть валентности 8 имеет предельную информационную емкость 511.


Легко показать, что если множество векторов
не содержит взаимно обратных, то размерность пространства
равна числу векторов в множестве
Сеть (2) для случая тензорных сетей имеет вид



(9)
а ортогональная тензорная сеть



(10)
где
- элемент матрицы


Сеть (9) хорошо работает на слабо скоррелированных эталонах, а сеть (10) не чувствительна к степени скоррелированности эталонов.


Прежде чем заниматься конструированием сетей


Прежде чем заниматься конструированием сетей ассоциативной памяти необходимо ответить на следующие два вопроса: "Как устроена ассоциативная память?" и "Какие задачи она решает?". Когда мы задаем эти вопросы, имеется в виду не устройство отделов мозга, отвечающих за ассоциативную память, а наше представление о макропроцессах, происходящих при проявлении ассоциативной памяти.
Принято говорить, что у человека возникла ассоциация, если при получении некоторой неполной информации он может подробно описать объект, к которому по его мнению относится эта информация. Достаточно хорошим примером может служить описание малознакомого человека. К примеру, при высказывании: "Слушай, а что за парень, с которым ты вчера разговаривал на вечеринке, такой высокий блондин?"- у собеседника возникает образ вчерашнего собеседника, не ограничивающийся ростом и цветом волос. В ответ на заданный вопрос он может рассказать об этом человеке довольно много. При этом следует заметить, что содержащейся в вопросе информации явно недостаточно для точной идентификации собеседника. Более того, если вчерашний собеседник был случайным, то без дополнительной информации его и не вспомнят.
В качестве другого примера можно рассмотреть ситуацию, когда ваша однокурсница появляется в институте с совершенно новой прической и в незнакомой вам одежде. При этом вы, тем не менее, чаще всего ее узнаете и сможете определить чем ее новый образ отличается от привычного. Можно предположить, что это происходит следующим образом. При виде ее нового облика в вашей памяти возникает ассоциация с привычным для вас. А далее сравнивая эти два облика вы можете определить отличия.
Исходя из рассмотренных примеров можно сказать, что ассоциативная память позволяет по неполной и даже частично недостоверной информации восстановить достаточно полное описание знакомого объекта. Слово знакомого является очень важным, поскольку невозможно вызвать ассоциации с незнакомыми объектами. При этом объект должен быть знаком тому, у кого возникают ассоциации.
Одновременно рассмотренные примеры позволяют сформулировать решаемые ассоциативной памятью задачи:
Соотнести входную информацию со знакомыми объектами, и дополнить ее до точного описания объекта. Отфильтровать из входной информации недостоверную, а на основании оставшейся решить первую задачу.
Очевидно, что под точным описанием объекта следует понимать всю информацию, которая доступна ассоциативной памяти. Вторая задача решается не поэтапно, а одновременно происходит соотнесение полученной информации с известными образцами и отсев недостоверной информации.

Контрастирование без ухудшения


Пусть нам дана только обученная нейронная сеть и обучающее множество. Допустим, что вид функции оценки и процедура обучения нейронной сети неизвестны. В этом случае так же возможно контрастирование сети. Предположим, что данная сеть идеально решает задачу. Тогда нам необходимо так отконтрастировать веса связей, чтобы выходные сигналы сети при решении всех задач изменились не более чем на заданную величину. В этом случае контрастирование весов производится понейронно. На входе каждого нейрона стоит адаптивный сумматор, который суммирует входные сигналы нейрона, умноженные на соответствующие веса связей. Для нейрона наименее чувствительным будет тот вес, который при решении примера даст наименьший вклад в сумму. Обозначив через

входные сигналы рассматриваемого нейрона при решении q-го примера получаем формулу для показателя чувствительности весов:
. Аналогично ранее рассмотренному получаем
. В самой процедуре контрастирования есть только одно отличие - вместо проверки на наличие ошибок при предъявлении всех примеров проверяется, что новые выходные сигналы сети отличаются от первоначальных не более чем на заданную величину.



Контрастирование на основе оценки


Рассмотрим сеть, правильно решающую все примеры обучающего множества. Обозначим через

веса всех связей. При обратном функционировании сети по принципу двойственности или методу обратного распространения ошибки сеть вычисляет вектор градиента функции оценки H по весам связей -
. Пусть
- текущий набор весов связей, а оценка текущего примера равна
. Тогда в линейном приближении можно записать функцию оценки в точке w как
. Используя это приближение можно оценить изменение оценки при замене
на как
, где q - номер примера обучающего множества, для которого были вычислены оценка и градиент. Величину
будем называть показателем чувствительности к замене
на
для примера q . Далее необходимо вычислить показатель чувствительности, не зависящий от номера примера. Для этого можно воспользоваться любой нормой. Обычно используется равномерная норма (максимум модуля):
. Умея вычислять показатели чувствительности, можно приступать к процедуре контрастирования.

Приведем простейший вариант этой процедуры:

Вычисляем показатели чувствительности. Находим минимальный среди показателей чувствительности -

.Заменим соответствующий этому показателю чувствительности вес
на
, и исключаем его из процедуры обучения. Предъявим сети все примеры обучающего множества. Если сеть не допустила ни одной ошибки, то переходим ко второму шагу процедуры. Пытаемся обучить отконтрастированную сеть. Если сеть обучилась безошибочному решению задачи, то переходим к первому шагу процедуры, в противном случае переходим к шестому шагу. Восстанавливаем сеть в состояние до последнего выполнения третьего шага. Если в ходе выполнения шагов со второго по пятый был отконтрастирован хотя бы один вес, (число обучаемых весов изменилось), то переходим к первому шагу. Если ни один вес не был отконтрастирован, то получена минимальная сеть.

Возможно использование различных обобщений этой процедуры. Например, контрастировать за один шаг процедуры не один вес, а заданное пользователем число весов. Наиболее радикальная процедура состоит в контрастировании половины весов связей. Если половину весов отконтрастировать не удается, то пытаемся отконтрастировать четверть и т.д. Отметим, что при описанном методе вычисления показателей чувствительности, предполагается возможным вычисление функции оценки и проведения процедуры обучения сети, а также предполагается известным обучающее множество. Возможен и другой путь.



Логически прозрачные нейронные сети


Одним из основных недостатков нейронных сетей, с точки зрения многих пользователей, является то, что нейронная сеть решает задачу, но не может рассказать как. Иными словами из обученной нейронной сети нельзя извлечь алгоритм решения задачи. Однако специальным образом построенная процедура контрастирования позволяет решить и эту задачу.

Зададимся классом сетей, которые будем считать логически прозрачными (то есть такими, которые решают задачу понятным для нас способом, для которого легко сформулировать словесное описания в виде явного алгоритма). Например потребуем, чтобы все нейроны имели не более трех входных сигналов.

Зададимся нейронной сетью у которой все входные сигналы подаются на все нейроны входного слоя, а все нейроны каждого следующего слоя принимают выходные сигналы всех нейронов предыдущего слоя. Обучим сеть безошибочному решению задачи.

После этого будем производить контрастирование в несколько этапов. На первом этапе будем контрастировать только веса связей нейронов входного слоя. Если после контрастирования у некоторых нейронов осталось больше трех входных сигналов, то увеличим число входных нейронов. Затем аналогичную процедуру произведем поочередно для всех остальных слоев. После завершения описанной процедуры будет получена логически прозрачная сеть. Можно произвести дополнительное контрастирование сети, чтобы получить минимальную сеть. На рис. 9.2 приведены восемь минимальных сетей. Если под логически прозрачными сетями понимать сети, у которых каждый нейрон имеет не более трех входов, то все сети кроме пятой и седьмой являются логически прозрачными. Пятая и седьмая сети демонстрируют тот факт, что минимальность сети не влечет за собой логической прозрачности.

В качестве примера приведем интерпретацию алгоритма рассуждений, полученного по второй сети приведенной на рис. 9.2. Постановка задачи: по ответам на 12 вопросов необходимо предсказать победу правящей или оппозиционной партии. Ниже приведен список вопросов.

Правящая партия была у власти более одного срока? Правящая партия получила больше 50% голосов на прошлых выборах? В год выборов была активна третья партия? Была серьезная конкуренция при выдвижении от правящей партии? Кандидат от правящей партии был президентом в год выборов? Был ли год выборов временем спада или депрессии? Был ли рост среднего национального валового продукта на душу населения больше 2.1%?Произвел ли правящий президент существенные изменения в политике? Во время правления были существенные социальные волнения? Администрация правящей партии виновна в серьезной ошибке или скандале? Кандидат от правящей партии - национальный герой? Кандидат от оппозиционной партии - национальный герой?


Ответы на вопросы описывают ситуацию на момент, предшествующий выборам. Ответы кодировались следующим образом: "да" - единица, "нет" - минус единица. Отрицательный сигнал на выходе сети интерпретируется как предсказание победы правящей партии. В противном случае ответом считается победа оппозиционной партии. Все нейроны реализовывали пороговую функцию, равную 1, если алгебраическая сумма входных сигналов нейрона больше либо равна 0, и -1 при сумме меньшей 0. Ответ сети базируется на проявлениях двух синдромов: синдрома политической нестабильности (сумма ответов на вопросы 3, 4 и 9) и синдрома плохой политики (ответы на вопросы 4, 8 и 6). Заметим что симптом несогласия в правящей партии вошел в оба синдрома. Таким образом, для победы правящей партии необходимо отсутствие ( -1) обоих синдромов.




Рис. 9.2. 

На рис. 9.2 приведены структуры шести логически прозрачных нейронных сетей, решающих задачу о предсказании результатов выборов президента США [9.6, 9.11]. Все сети, приведенные на этом рисунке минимальны в том смысле, что из них нельзя удалить ни одной связи так, чтобы сеть могла обучиться правильно решать задачу. По числу нейронов минимальна пятая сеть.

Заметим, что все попытки авторов обучить нейронные сети со структурами, изображенными на рис. 9.2, и случайно сгенерированными начальными весами связей закончились провалом. Все сети, приведенные на рис. 9.2, были получены из существенно больших сетей с помощью процедуры контрастирования. Сети 1, 2, 3 и 4 были получены из трехслойных сетей с десятью нейронами во входном и скрытом слоях. Сети 5, 6, 7 и 8 были получены из двухслойных сетей с десятью нейронами во входном слое. Легко заметить, что в сетях 2, 3, 4 и 5 изменилось не только число нейронов в слоях, но и число слоев. Кроме того, почти все веса связей во всех восьми сетях равны либо 1, либо -1.


Процедура контрастирования


Процедура контрастирования основана на оценке значимости весов связей в сети. Впервые процедура контрастирования нейронных сетей на основе показателей чувствительности описана одновременно в [9.1] и (существенно более частный вариант) в [9.2]. В книге [9.1] указаны основные цели контрастирования: упростить техническую реализацию сети и сделать навык сети более понятным - явизовать (сделать явным) знание, полученное сетью в ходе обучения.

Результаты экспериментов по контрастированию нейронных сетей опубликованы в [9.7, 9.8]. Существуют также подходы, не использующие показатели чувствительности [9.3]. Уже в [9.1] описано несколько способов вычисления показателей чувствительности. Приведем два наиболее широко используемых.



Сколько нейронов нужно использовать?


При ответе на этот вопрос существует две противоположные точки зрения. Одна из них утверждает, что чем больше нейронов использовать, тем более надежная сеть получится. Сторонники этой позиции ссылаются на пример человеческого мозга. Действительно, чем больше нейронов, тем больше число связей между ними, и тем более сложные задачи способна решить нейронная сеть. Кроме того, если использовать заведомо большее число нейронов, чем необходимо для решения задачи, то нейронная сеть точно обучится. Если же начинать с небольшого числа нейронов, то сеть может оказаться неспособной обучиться решению задачи, и весь процесс придется повторять сначала с большим числом нейронов. Эта точка зрения (чем больше - тем лучше) популярна среди разработчиков нейросетевого программного обеспечения. Так, многие из них как одно из основных достоинств своих программ называют возможность использования любого числа нейронов.


Рис. 9.1.  Аппроксимация табличной функции

Вторая точка зрения опирается на такое "эмпирическое" правило: чем больше подгоночных параметров, тем хуже аппроксимация функции в тех областях, где ее значения были заранее неизвестны. С математической точки зрения задачи обучения нейронных сетей сводятся к продолжению функции заданной в конечном числе точек на всю область определения. При таком подходе входные данные сети считаются аргументами функции, а ответ сети - значением функции. На рис. 9.1 приведен пример аппроксимации табличной функции полиномами 3-й ( рис. 9.1.а ) и 8-й ( рис. 9.1.б ) степеней. Очевидно, что аппроксимация, полученная с помощью полинома 3-ей степени больше соответствует внутреннему представлению о "правильной" аппроксимации. Несмотря на свою простоту, этот пример достаточно наглядно демонстрирует суть проблемы.

Второй подход определяет нужное число нейронов как минимально необходимое. Основным недостатком является то, что это, минимально необходимое число, заранее неизвестно, а процедура его определения путем постепенного наращивания числа нейронов весьма трудоемка.
Опираясь на опыт работы группы НейроКомп в области медицинской диагностики [9.4,9.5,9.9], космической навигации и психологии [9.10] можно отметить, что во всех этих задачах ни разу не потребовалось более нескольких десятков нейронов.

Подводя итог анализу двух крайних позиций, можно сказать следующее: сеть с минимальным числом нейронов должна лучше ("правильнее", более гладко) аппроксимировать функцию, но выяснение этого минимального числа нейронов требует больших интеллектуальных затрат и экспериментов по обучению сетей. Если число нейронов избыточно, то можно получить результат с первой попытки, но существует риск построить "плохую" аппроксимацию. Истина, как всегда бывает в таких случаях, лежит посередине: нужно выбирать число нейронов большим чем необходимо, но не намного. Это можно осуществить путем удвоения числа нейронов в сети после каждой неудачной попытки обучения. Однако существует более надежный способ оценки минимального числа нейронов - использование процедуры контрастирования [9.1]. Кроме того, процедура контрастирования позволяет ответить и на второй вопрос: какова должна быть структура сети.


Технология получения явных знаний из


Технология получения явных знаний из данных с помощью обучаемых нейронных сетей выглядит довольно просто и вроде бы не вызывает проблем - необходимо ее просто реализовывать и пользоваться.
Первый этап: обучаем нейронную сеть решать базовую задачу. Обычно базовой является задача распознавания, предсказания (как в предыдущем разделе) и т.п. В большинстве случаев ее можно трактовать как задачу о восполнении пробелов в данных. Такими пробелами являются и имя образа при распознавании, и номер класса, и результат прогноза, и др.
Второй этап: с помощью анализа показателей значимости, контрастирования и доучивания (все это применяется, чаще всего, неоднократно) приводим нейронную сеть к логически прозрачному виду - так, чтобы полученный навык можно было "прочитать".
Полученный результат неоднозначен - если стартовать с другой начальной карты, то можно получить другую логически прозрачную структуру. Каждой базе данных отвечает несколько вариантов явных знаний. Можно считать это недостатком технологии, но мы полагаем, что, наоборот, технология, дающая единственный вариант явных знаний, недостоверна, а неединственность результата является фундаментальным свойством производства явных знаний из данных.
Работа выполнена при поддержке Красноярского краевого фонда науки, грант 6F0124.