Показатели качества работы нейронной сети
Обучение нейронной сети с учителем — это настройка ее весов и смещений, минимизирующая некоторый функционал ошибки, зависящий от ошибок сети, то есть разности между желаемыми и реальными сигналами на выходе сети. В процессе обучения сети оцениваются три вида ошибок:
1. Ошибка конкретного выхода сети на конкретном входном векторе.
2. Ошибка всех выходов сети, например, средняя ошибка, при конкретном входном векторе. Эта ошибка показывает, насколько правильным является ответ сети на конкретный входной вектор.
3. Ошибка всех выходов сети по всему набору обучающих примеров. Эта ошибка показывает, насколько хорошо сеть усвоила закономерности обучающего набора данных.
При обучении сети наиболее применяемыми градиентными методами не гарантируется достижение глобального минимума функционала ошибки. Обычно достигается один из локальных минимумов. Поэтому производятся многократные эксперименты по обучению сети. Из-за случайного задания начальных значений весов и смещений средняя ошибка в каждом эксперименте будет различной. По минимуму средней ошибки выбирается лучший вариант параметров сети. Для выбора лучшего варианта желательно оценивать не только среднее значение ошибки, но и среднеквадратическое отклонение ошибки, по которому можно получить погрешность вычисления функционала ошибки.
В качестве функционалов ошибок используются следующие функционалы [1, 2, 38]. Чаще всего функционалы основаны на сумме квадратов ошибок (SSE — sum squared error)
,
где — ошибка ‑го выхода сети, — желаемая величина (целевое значение) ‑го выхода сети, — полученное значение выхода.
Для упрощения записи в и в последующих формулах используется один индекс. В случае вычисления ошибки всех выходов сети по всему набору обучающих примеров подразумевается суммирование по всем выходам и всем примерам.
Очень часто используется среднеквадратическая ошибка (MSE — mean-square error)
.
При выводе формул обучения будем использовать вариант ошибки MSE
.
Коэффициент введен для упрощения дальнейшего анализа. Дело в том, что в градиентных методах обучения важно направление вектора градиента, которое определяется суммой квадратов ошибок. Постоянный множитель выбирается с учетом простоты формул.
Иногда используется ошибка RSE — root squared error
.
Дляпредотвращает чрезмерного роста весов и смещений в процессе обучения используется комбинированная ошибка [2, 38]
,
где — весовой коэффициент (в [38] по умолчанию принят ); — значения весов и смещений; — число весов и смещений.
Функционал включает среднеквадратическую ошибку с весом и штрафную функцию с весом .
Средняя квадратическая ошибка с учетом уровня надежности обучения [2] используется в классификаторах
,
где – уровень надежности обучения.
Рекомендуются [2] следующие значения : — для двоичного интерпретатора; — для кодирования номером канала; — для порядковой интерпретации ( — размерность вектора входного сигнала). Уровень надежности вводится для обеспечения устойчивой работы сети. Работа сети считается устойчивой, если при изменении выходных сигналов на величину, меньшую , интерпретация ответов не изменяется. Например, при кодировании номером канала и , сигнал на выходе нейрона, идентифицирующем класс, будет не менее чем в два раза больше, чем на других нейронах.
Среднеквадратическая ошибка с весами позволяет корректировать влияние отдельных обучающих примеров
,
где — вес ‑го примера в обучающей выборке.
Например [2], если обучающие примеры принадлежат нескольким классам и является величиной, обратной числу примеров в соответствующем классе, то классы с разным числом примеров будут оказывать примерно одинаковое влияние на процесс обучения.
Известно [1], что при решении задач классификации в качестве функции активации целесообразно применять функцию softmax . Тогда выход сети трактуется как вероятность принадлежности входного вектора определенному классу. В качестве функционала ошибки в этом случае используется кросс‑энтропия (перекрестная энтропия) [39]. Если сеть производит классификацию входных векторов на два класса, то сеть имеет единственный выход. В качестве функции активации логистическая функция (2.7). В случае пакетного режима обучения ошибка по всему набору обучающих примеров равна [1]
,
где — требуемое (целевое) значение выхода сети при подаче примера , — реальное значение выхода сети при подаче примера , — число примеров в обучающей выборке.
Если сеть производит классификацию входных векторов более чем на два класса, то в качестве функции активации рекомендуется использовать функцию softmax (2.11). Функционал ошибки всех выходов сети по всему набору обучающих примеров тогда будет иметь вид [1]
,
где — требуемое (целевое) значение выхода сети при подаче примера , — реальное значение выхода сети при подаче примера , — число выходов сети, — число примеров в обучающей выборке.
Чем ближе вероятностное распределение выходных величин сети к целевому, тем меньше значение кросс‑энтропии.