Способность нейронной сети к обобщению

Основная задача построения нейронной сети — это выбор оптимального уровня сложности, то есть выбор оптимального числа слоев и числа нейронов в каждом слое. В настоящее время отсутствуют общепризнанные теоретические основы построения нейронных сетей. Многочисленные частные результаты можно найти, например, в [2, 28, 32–33]. При построении нейронной сети необходимо учитывать два противоречивых фактора. Сеть с малым числом нейронов может оказаться неспособной к обучению. С другой стороны, с увеличением числа нейронов уменьшается обобщающая способность сети.

Рассмотрим способность нейронной сети к обобщению [32–33]. Предполагается, что имеется некоторое исходное множество примеров, представляющих собой данные о некоторых объектах, явлениях и т. п., и ответы (целевые значения) — результаты, которые должны быть на выходе сети. Например, результаты анализов и состояние пациента (болен или здоров), соответствующее этим анализам. Из этого множества выбирается обучающее множество. Способность к обобщению означает, что сеть, обученная на обучающем множестве, выдает правильные результаты при подаче на вход сети данных, относящихся к исходному множеству, но на которых сеть не обучалась. Например, сеть обучают диагностировать определенные заболевания на множестве примеров, представляющих результаты медицинских анализов с известным состоянием пациента. После обучения сеть должна правильно диагностировать это заболевание по анализам, на которых она не обучалась.

Пусть имеется множество Способность нейронной сети к обобщению - student2.ru примеров, на котором действует некоторое правило. На множестве Способность нейронной сети к обобщению - student2.ru известны целевые значения. Выделим обучающее множество (Learning/Training Set) Способность нейронной сети к обобщению - student2.ru , на котором обучается сеть, контрольное (проверочное) множество (Validation Set) Способность нейронной сети к обобщению - student2.ru , Способность нейронной сети к обобщению - student2.ru на котором в процессе обучения проверяется степень обученности сети, и тестовое множество (Test Set) Способность нейронной сети к обобщению - student2.ru , Способность нейронной сети к обобщению - student2.ru , которое не участвует в обучении и на котором после обучения проверяется качество обучения. Способность сети распознавать данные из множества Способность нейронной сети к обобщению - student2.ru характеризует способность сети к обобщению данных.

Используя статистическую теорию машинного обучения [40] под ошибкой сети будем понимать вероятность ошибки нейронной сети для определенного вектора Способность нейронной сети к обобщению - student2.ru весов. Истинная цель обучения состоит в минимизации ошибки обобщения Способность нейронной сети к обобщению - student2.ru , возникающей при распознавании множества Способность нейронной сети к обобщению - student2.ru тестовых данных. Со статистической точки зрения погрешность обобщения зависит от погрешности обучения Способность нейронной сети к обобщению - student2.ru на множестве примеров Способность нейронной сети к обобщению - student2.ru , и некоторой функции Способность нейронной сети к обобщению - student2.ru (доверительного интервала [32-33]), зависящей от Способность нейронной сети к обобщению - student2.ru — количества обучающих выборок, погрешности обучения Способность нейронной сети к обобщению - student2.ru и Способность нейронной сети к обобщению - student2.ru Способность нейронной сети к обобщению - student2.ru — параметра, называемого мерой Ва́пника-Червоне́нкиса[3]

Способность нейронной сети к обобщению - student2.ru .

Мера Вапника-Червоне́нкиса (часто обозначается VCdim) отражает уровень сложности сети, прежде всего, количество весов сети. Значение доверительного интервала Способность нейронной сети к обобщению - student2.ru уменьшается по мере роста отношения Способность нейронной сети к обобщению - student2.ru . Чтобы построить сеть с хорошей способностью к обобщению необходимо определить меру Вапника-Червоненкиса. Способ точного определения VCdim отсутствует. Известно лишь, что значение VCdim зависит от количества весов сети. Существует оценка для VCdim [32]

Способность нейронной сети к обобщению - student2.ru ,

где Способность нейронной сети к обобщению - student2.ru — целая часть числа, Способность нейронной сети к обобщению - student2.ru — размерность входного вектора, Способность нейронной сети к обобщению - student2.ru — количество нейронов скрытых слоев, Способность нейронной сети к обобщению - student2.ru — общее количество весов сети, Способность нейронной сети к обобщению - student2.ru — общее количество нейронов сети.

Обычно в качестве приближенного значения VCdim используется общее количество весов сети [32]. Таким образом, на погрешность обобщения оказывает влияние отношение количества обучающих примеров к количеству весов сети. Экспериментально установлено [32], что хорошие показатели обобщения достигаются, когда количество обучающих примеров в несколько раз превышает количество весов сети. Известно [33], что для фиксированного числа Способность нейронной сети к обобщению - student2.ru обучающих примеров ошибка обучения Способность нейронной сети к обобщению - student2.ru монотонно уменьшается при увеличении VCdim, а доверительный интервал Способность нейронной сети к обобщению - student2.ru монотонно увеличивается. Следовательно, ошибка обобщение имеет минимум. До точки минимума отношение Способность нейронной сети к обобщению - student2.ru велико. Это значит, что нейронов слишком мало. Сеть плохо обучается. Погрешность обобщения большая за счет погрешности обучения. После прохождения точки минимума отношение Способность нейронной сети к обобщению - student2.ru становится малым (слишком много весов для данного количества обучающих примеров). Ошибка обобщения растет за счет роста доверительного интервала. Возникает явление переобучения, или переподгонки (Overtraining, Overfitting). Параметры сети адаптируются к значениям обучающих выборок с их случайными отклонениями и ошибками. Сеть хорошо распознает только те примеры, на которых обучалась, и плохо распознает примеры из тестового множества. Выход состоит в уменьшении числа нейронов и связей (следовательно, и числа весов). Можно увеличивать объем обучающей выборки, но это не всегда возможно.

Наши рекомендации