Виды ориентировочного подкрепления
Благодаря исследованиям И. П. Павлова и его школы мы знаем, как тонко реагирует животное на малейшие изменения всех компонентов условного рефлекса. В частности это относится к изменениям подкрепления, его количественной и качественной стороны. В последнем случае дело идет о том, вполне ли совпадает предлагаемое подкрепление с тем, которое было показано животному до начала его действий; эти опыты были произведены сначала вне лабораторий И. П, Павлова. Расхождение между приманкой, которая вначале показывалась и пряталась, и тем, что потом обнаруживалось животным (и должно было служить подкреплением) всегда вызывало «нарушения» в поведении животного. Это и наблюдалось в известных опытах Тинклпо (О. L Tinklepaugh) [58], подтвержденных у нас Н. Ю. Войтонисом [59]. Когда животное обнаруживает под крышкой не тот предмет — приманку — который был ему показан в начале опыта, оно проявляет явные признаки встречи не с тем «потребным будущим», которое ожидалось. Такого рода опыты служат доказательством того, что существует не только полное, но и неполное ориентировочное подкрепление, чисто ориентировочное, потому что животное обнаруживает «замешательство» при одном восприятии подмененной приманки, еще до того, как начинает ее есть (а иногда отказывается есть и «с гневом» отбрасывает приманку).
Но существует еще один вид ориентировочного подкрепления, значение которого трудно переоценить. В отличие от подкрепления полного и неполного, но все-таки получаемого или неполучаемого, которое поэтому можно назвать альтернативным («да-нет»), этот новый вид подкрепления можно назвать «относительным ориентировочным подкреплением», так как оно возникает из учета того отношения, в котором фактический результат действия оказывается к намеченному, заданному. Так, например, животное промахивается и не достигают «цели»: сточки зрения «альтернативного подкрепления» это просто «нет», т. е.
отрицательное подкрепление; однако, если при этом животное замечает насколько и куда оно отклонилось от цели, то это служит относительным ориентировочным подкреплением и позволит ему внести надлежащую поправку в следующую «пробу».
В процессе формирования новых действий путем «проб и ошибок» успешное действие сначала возникает случайно, среди многих безуспешных проб. Постепенно число таких проб уменьшается, а потом и вовсе исчезнет. Если бы существовало только альтернативное подкрепление («да-нет») и каждая проба получала только квалификацию «правильно-неправильно», никакого прогресса в научении не могло бы наступить: неудачные пробы просто отбрасывались до появления такой же случайно удачной пробы. Допустим, что эта удачная проба сразу оставляет после себя четкую кинестетическую картину, по которой она может быть точно воспроизведена в следующий раз. Но тогда выступает другая сторона проблемы: только в исключительном случае положение животного относительно «цели» окажется точно таким же, каким оно было в прошлой, удачной пробе; между тем достаточно уже небольшого изменения этого относительного положения, чтобы точно воспроизведенное и в прошлый раз удачное действие теперь оказалось неудачным. Если к этому добавить неточное исполнение прежде удачного действия (что практически всегда имеет место), то вероятность его успешного выполнения становится еще меньше. Собственно это мы и наблюдаем, когда вслед за успешным выполнением задания следует большое число неудачных проб.
Основное положение «метода проб и ошибок» заключается в том, что удачные пробы закрепляются, а неудачные отсеиваются. Но это констатация факта, а не объяснение. В качестве объяснения оно, как мы только что видели, несостоятельно: действие, которое закрепилось как удачное, в следующий раз, по всей вероятности, станет неудачным. На том же основании оно должно быть «отсеяно» и процесс начинается «сначала». И это может повторяться многократно, «до бесконечности», раскрывая ошибку приведенного объяснения: одного закрепления удачного действия совершенно недостаточно, чтобы обеспечить его все более частое появление и окончательное утверждение. Здесь нужен еще один, и притом собственно психологический «фактор» — все более полный и тонкий учет роли небольших изменений в условиях действия, все более точное примеривание его к этим условиям и все большее приспособление действия к ним — еще до выполнения, в плане образа.
В еще большей степени эти требования относятся к неудачным пробам. Если они просто отбрасываются, то создается полная неопределенность, какой должна быть следующая проба. Но если неудачная проба не просто отбрасывается, а сопровождается учетом отклонений фактического результата от заданного, то в характеристику неудачной пробы вносится существенное дополнение: является ли она приближением к цели или удалением от нее, в какую сторону и насколько и, значит, какую поправку нужно внести, чтобы в следующей пробе достигнуть цели или хотя бы приблизиться к ней. В ряде повторений такие поправки естественно ведут ко все большему приближению к «правильному действию». В дальнейшем уже одно примеривание в плане восприятия позволяет осуществить приспособление действия к наличным обстоятельствам.
Все это полностью относится и к применению уже сформированных действий. Лишь в исключительных случаях точно воспроизводится то соотношение между индивидом и объектом, при котором в прошлый раз действие было удачным. Чтобы успешно воспользоваться этим действием в новой, актуальной ситуации, это действие нужно сначала примерить — в плане восприятия — и заранее внести необходимые поправки, чтобы приспособить к наличным (и несколько измененным) условиям.
Такие поправки предполагают информацию о фактическом результате действия и его сопоставлении с заданным. Но все это должно быть сделано заранее! Естественно, что когда «правильное действие» и его условия заранее известны и материально присутствуют (в виде ситуации, с одной стороны, и заложенной в ЭВМ программы, — с другой), то управляющее устройство может обеспечить успешное выполнение действия. Но когда правильный путь или поправка к нему еще неизвестны, то наметить их предварительно (до начала или во время исполнения) и руководить исполнением действия посредством сличения его фактического хода с намеченным можно только путем ориентировки в плане образа.
Психическое отражение поля действия и соотнесение его фактического и заданного хода в плане образа составляют обязательное условие успешного выполнения действия, у которого необходимое постоянство условий заранее не обеспечено. Тем более, что это обязательное условие всякого научения, включая и научение путем проб и ошибок.
Короче говоря, как процесс образования, так и успешное применение действий в обстановке, требующей их приспособления (по направлению, расстоянию, силе, темпу), возможны только на основе психического отражения ситуации, с помощью идеальных действий в плане этого отражения и на основе их подкрепления, не только альтернативного, но прежде всего относительного и чисто ориентировочного.
На том уровне развития животных, где автоматические реакции становятся не только недостаточными, но и опасными, новые возможности существования и развития открываются благодаря психическому отражению мира и действиям в плане этого отражения. С этого уровня филогенеза психика становится необходимым условием дальнейшего прогрессивного развития животного мира. О значении психики, сознания в общественной жизни людей, само собой разумеется, не приходится и говорить.