Как применять положительное подкрепление
В главе «Как учатся собаки» я рассказал о том, как научил свою первую собаку искать и приносить вещь (соответствует команде «Аппорт!»). Теперь я расскажу вам, как я научил выполнять это задание свою нынешнюю собаку. На обучение моей первой собаки ушло несколько недель, и она так и не научилась выполнять команду по-настоящему хорошо. Это была немецкая овчарка — порода славится хорошей обучаемостью. Моя теперешняя собака выполняет то же задание с огоньком в глазах и невероятной для собаки ее размеров быстротой. Это — японская акита, порода, известная своим упрямством.
Я провел много времени на дрессировочной площадке, в течение ряда недель обучая мою немецкую овчарку. В течение нескольких дней, затрачивая по несколько минут в день, я обучил акита, ни разу даже не встав с кресла. Используя этот метод, я недавно помог проводнику полицейской собаки достичь того же результата при дрессировке немецкой овчарки. Фактически нам потребовалось меньше обычного времени, чтобы довести совершенно необученную собаку до стандарта министерства внутренних дел, причем достигнутые результаты были гораздо выше тех, которых добиваются, применяя обычные методы дрессировки.
Кличка моей собаки — Йоко. Поняли? Джон Йоко. Ей было пятнадцать месяцев, когда я решил научить ее искать и приносить брошенный предмет. Сейчас у меня не остается времени, чтобы самому участвовать с моими собаками в соревнованиях, где собаки демонстрируют свои умения, но я все еще сужу такие состязания. И вот однажды один хозяин-участник обронил мимоходом замечание, которое побудило меня учить мою собаку искать и приносить брошенный предмет. Парень сказал: «Вы никогда не научите акита выполнять эту команду как следует». Когда мне бросают вызов, я загораюсь.
Я сидел за письменным столом в своей приемной, рядом на столе я поставил коробочку с лакомством. Протягивая собаке гантель, я говорил: «Возьми!» Йоко нюхала перекладину, а я говорил: «Хорошая девочка!» — и давал ей угощение. Первое занятие продолжалось около пяти минут, и она получила вознаграждение сразу после быстрой реакции примерно в 60% случаев. В остальных случаях за правильные реакции иногда тоже давалось вознаграждение, но только после того, как собака нюхала стол, карабкалась на меня, лаяла или делала еще что-нибудь, стараясь получить вознаграждение. На следующем занятии в тот же день был достигнут уровень понимания (уровень «ага!»). Йоко тыкалась носом в гантель всякий раз, когда я давал команду. На формирование действия и переход к следующей стадии потребовалось несколько больше времени. В течение четырех занятий по пять минут каждое она пробовала делать самые разные вещи чтобы получить награду. Отношение было: 15%; 25%; 70%; 100%. Теперь я уже требовал, чтобы она не тыкалась в гантель носом, а лизала ее. Не дав ей угощения, когда она в очередной раз лизнула гантель, я попал в точку, что вызвало эффект снежного кома гораздо раньше, чем я сам того ожидал. Она решительно выхватила гантель у меня из рук смотрела на меня, как будто говоря: «Смотри, глупыш, я ее взяла… Давай еду!»
Никто не может заранее определить модель формирования поведения при выполнении задания. Мы можем запланировать известную структурированную последовательность, но при обучении нам придется руководствоваться темпом, который установит само животное. После того как вы вознаградили собаку за определенное движение, оно должно стать единственным движением, за которое дается награда, пока оно не будет затренировано. Йоко сделала больший шаг вперед, чем я ожидал, и, поскольку я ее с энтузиазмом наградил, мне пришлось ждать, чтобы она его повторила. Это отняло меньше времени, чем я ожидал, но надо учесть, что Йоко очень прожорливая собака.
После такого огромного рывка вперед вся цепочка действий формировалась очень легко. Прошло совсем немного времени, и я уже бросал гантель на кушетку в дальнем конце приемной, а Йоко приносила ее по команде и садилась передо мной, держа ее в зубах, гордая. В первый же раз, когда на свежем воздухе я опробовал дать одно из тех упражнений, что предлагаются на состязаниях, она получила бы у меня за их выполнение все десять баллов из десяти. Но кажется, я несколько пристрастен.
Возьмем теперь два простых действия: выполнение команд «Сидеть!» и «Лежать!». Попытаемся, используя наш метод и не применяя силу, научить собаку четко реагировать на данные команды. Чтобы ускорить процесс, необходимо прибегнуть к подкупу. Иными словами, мы показываем награду, чтобы стимулировать движение. Как только достигается этот уровень понимания, мы обращаемся к команде и подаем ее только голосом, затем ждем, чтобы было сделано верное движение. Тогда мы придаем этому движению законченный вид. Для отработки команды «Сидеть!» покажите собаке лакомство, даже дотроньтесь им до кончика ее носа. Скажите: «Сидеть!» — и медленно переместите лакомство вверх и назад, чуть дальше линии глаз собаки. Сложение у собак такое, что если голова поднимается вверх и назад, то задняя часть туловища непременно опускается.
Для отработки команды «Лежать!» выберите такое препятствие, чтобы для его преодоления собаке нужно было лечь на брюхо. Это будет зависеть от размера собаки. Например, для немецкой овчарки подошел бы кофейный столик. Подведите к нему собаку и предложите ей лакомство, держа его в руке под столиком, то есть под препятствием. Когда собака потянется за лакомством, медленно отодвигайте его под препятствием, побуждая собаку двигаться следом и командуя при этом: «Лежать!» В тот момент, когда ее брюхо коснется пола, дайте вознаграждение.
Теперь, когда мы научили свою собаку делать то, чего мы от нее добиваемся, остается отучить ее делать то, что нам не нравится. Для достижения этой цели используем систему отрицательного подкрепления.