Методы редукции и наращивания НС
Редукция ИНС производится для сокращения количества скрытых нейронов и межнейронных связей, что усиливает способность сети к обобщению. Большинство методов сокращения размерности НС можно разделить на три группы:
1. Редукция НС с учетом величины весов предполагает отсечение весов, значительно меньших средних значений, поскольку они оказывают небольшое влияние на уровень выходного сигнала связанных с ними нейронов. Однако это не всегда справедливо и может быть связано, например, с неудачным выбором , т.е. в случае отсечения могут произойти значительные изменения в функционировании НС. Поэтому этим методом целесообразно пользоваться в редких и простейших случаях (например, отсечение одного или нескольких весов).
2. Редукция НС с учетом чувствительности основана на разложении в ряд Тейлора (3.2) с использованием в качестве показателя важности конкретных весов вторых производных целевой функции. Одним из лучших методов регуляризации НС считается метод OBD (Optimal Brain Damage), в котором для упрощения задачи автор (Ле Кун) исходит из положительной определенности гессиана , когда в качестве меры значимости используется коэффициент асимметрии
(3.18)
содержащий только диагональные элементы . Алгоритм OBD выглядит следующим образом:
- полное предварительное обучение НС (любым способом);
- определение элементов Sij;
- сортировка wij в порядке убывания Sij и отсечение наименее значимых (с минимальными Sij) wij;
- возврат к началу и повторение процедуры с редуцированной НС.
Развитием метода OBD считается метод OBS (Optimal Brain Surgeon), предложенный Б.Хассиби и Д.Шторком, где величина
(3.19)
определяется всеми компонентами гессиана, а после отсечения веса с минимальной Si уточнение оставшихся происходит согласно
(3.20)
где – вектор с единичной компонентой в i–той позиции. Коррекция производится после отсечения каждого очередного веса и заменяет повторное обучение НС.
3. Редукция НС с использованием штрафной функции состоит в такой организации обучения, которая провоцирует самостоятельное уменьшение значений весов с исключением тех, величина которых опускается ниже определенного порога. Для этого целевая функция модифицируется таким образом, чтобы в процессе обучения значения wij минимизировались автоматически вплоть до некоторого порога, после достижения которого они приравниваются к нулю. В простейшем варианте
(3.21)
где – стандартная целевая функция, g – коэффициент штрафа. Каждый цикл обучения складывается из двух этапов: минимизации любым стандартным методом и коррекции значений весов согласно формуле
(3.22)
где – значения весов после первого этапа, h – коэффициент обучения. Следует отметить, что при такой функции штрафа происходит уменьшение всех весов и выбор порога отсечения должен производится весьма осторожно.
Более приемлемые результаты получаются при модификации в виде
(3.23)
когда осуществляется не только редукция межнейронных связей, но и исключаются те нейроны, для которых . Правило коррекции весов в этом случае выглядит следующим образом
(3.24)
При малых wik, подходящих к i–му нейрону, происходит дальнейшее их уменьшение, при больших – коррекционная составляющая невелика и слабо влияет на процесс редукции сети.
Еще один способ минимизации НС основан на модификации , позволяющей исключить в процессе обучения скрытые нейроны с наименьшей активностью, т.е. предполагается, что, если при любых обучающих выборках выходной сигнал какого–либо нейрона остается неизменным, то его присутствие в сети излишне. Целевая функция в этом случае записывается как
(3.25)
где – корректирующий фактор, зависящий от активности всех K скрытых нейронов для всех р обучающих выборок, Dij – изменение значения i–го нейрона для j–ой обучающей пары, m – коэффициент коррекции. Вид подбирается так, чтобы при высокой активности скрытого нейрона величина DЕ была малой, при низкой активности – большой. Один из вариантов реализации
(3.26)
Следует отметить, все методы редукции НС ведут к улучшению их обобщающих свойств, причем в целом методы с использованием штрафных функций несколько уступают методам с учетом чувствительности.
В алгоритмах редукции в качестве исходной точки используется избыточная архитектура НС. Противоположный подход заключается в первоначальном включении в НС небольшого числа скрытых нейронов (часто они вообще отсутствуют), а по мере развития процесса обучения их число постепенно возрастает. Большинство известных методов наращивания НС имеют относительно низкую эффективность при большой размерности и не составляют серьезной конкуренции методам редукции. Наиболее известным методом расширения является алгоритм каскадной корреляции Фальмана, но слоистая структура получаемой НС весьма специфична и не является полносвязной, так что ее реализация будет рассмотрена позднее при анализе специализированных структур НС.