Положительное подкрепление (обоюдная победа).
Положительное подкрепление - получение собакой того, что она хочет,
в ответ на предложенное ей поведение. В "Не рычите на собаку" Карен
Прайор определяет +П как "что-то, ради достижения которого собака будет
работать". Скиннер писал, что "положительное подкрепление усиливает
любое поведение, результатом которого является". Если собака села и я
дал ей лакомство, поведение закрепляется. Вероятность того, что она
снова сядет, возрастает, потому что это действие приносит приятный
результат. Использование положительного подкрепления - это
одноступенчатый процесс. Когда вы получите нужное вам поведение,
поощрите его.
Оперантное научение учит собаку "работать, чтобы заслужить"
награду сев, без малейшего негативного оттенка. Другими словами,
дрессировщик не реагирует наказанием на то, что собака не села. Он
просто положительно реагирует на посадку, когда она случается. Сначала
это будет происходить случайно. Но поскольку посадка приносит
поощрение, приятное собаке, она будет садиться снова. Со временем
собака обобщает полученный урок. Она выучивает, что у нее есть власть
влиять на происходящее: делай правильно, и с тобой будут происходить
хорошие вещи. Потом собака начинает предъявлять поведение сама, чтобы
вызвать приятные последствия, которых ожидает. Поведение становится оперантным; т.е., по определению Скиннера, "поведение управляет
средой, чтобы произвести последствия". Вот почему оперантное научение с
положительным подкреплением, однажды выученное, легче использовать, чем
традиционные методы, основанные на "коррекции" или отрицательном
подкреплении. Дрессировка с положительным подкреплением гармонизирует
желания собаки и дрессировщика. Это дрессировочная "сделка", о которой
я писал выше: Хэндлер говорит, "Бафи, сделай то, что мне надо, и я дам
тебе то, что хочешь". Бафи отвечает: "Договорились". Вы развиваете
утвердительное взаимодействие между собакой и хэндлером. Собака учится
получать то, что хочет, делая то, что хотите вы. Когда движение начато,
любое новое упражнение, которое вы учите, будет проходить по тем же
правилам, и с опытом вам будет все легче.
Положительное подкрепление учит животное не бояться нового. Как
указывает Мюррей Сидмэн в его книге "Принуждение и его последствия", "И
положительное, и отрицательное подкрепление эффективно учат, но они
учат и другим вещам. В этом они отличаются. Положительное подкрепление
дает нам свободу потворствовать своему любопытству в изучении новых
вариантов. Отрицательное подкрепление прививает узкий поведенческий
репертуар, оставляя нас боящимися нового, не решающимися исследовать".
Собака, которая не боится пробовать новые варианты, будет готова
принять новое поведение, и будет лучше воспринимать "отрицательную
информацию". Что я имею в виду под "отрицательной информацией"? Когда
собака делает ошибку, вы можете захотеть сообщить ей, что она ошиблась,
но так, чтобы она не начала бояться. Для этой цели часто используется
слово "неправильно", тихо сказанное в обычном тоне. Это подсказывает
собаке: "Это не то, попробуй еще раз". Правильно развитое и
применяемое, оно может помочь собаке еще раз подумать, что именно надо
сделать.
Например, в обучении выборке, если Сэм брал неправильную вещь, я мог
тихо сказать ему "неправильно", пока он был еще в зоне выборки. Он
бросал ее, снова искал и находил правильную. Никакого стресса, никакого
шума. В обучении апортировке по направлениям, если я посылал его к вещи
№3, а он шел к вещи №2, я мог сказать "неправильно", и он
останавливался, задумывался и шел к нужной. Так что в буквальном смысле
дрессировка становится диалогом дрессировщика и собаки. Отрицательная информация - это не отрицательное подкрепление.
Она работает только потому, что впереди ждет положительное
подкрепление. Собака понимает, что надо сделать правильно, она знает,
что именно, так что она может понять подсказку, которая говорит, что она сбилась со следа, как информацию, переработать ее и вернуться на след. Это не работает, если собака боится ошибиться!
Как писал Фрэнк Герберт в "Дюне", "Страх убивает разум". В отсутствие
страха, разум собаки становится свободным, и она может работать,
несмотря на ошибки. Это ведет к надежному выполнению.
"Неправильно".
Гэри Уилкс популяризировал использование слова "Неправильно" в ответ
на нежелательное поведение. О цели этого слова были споры. Некоторые
расценивали его как наказание (точнее, условное наказание). Я не
согласен с этим. Я расцениваю его как подсказку для угасания.
Поведение, которое не подкрепляется, угасает. Если я даю возможность
собаке что-то сделать, и она сделает это неправильно, я могу заставить
это поведение угаснуть, просто не подкрепляя его. Но этот процесс
довольно длительный, особенно, если поведение уже вошло в привычку.
Слово "Неправильно", на мой взгляд, просто сокращает процесс угасания.
Оно говорит собаке то же самое, что и лишение ее поощрения в течение
некоторого периода времени: "Я не хочу, чтобы ты это делала, так что
прекрати так делать".
Хоть слово и полезно, надо быть очень аккуратным в его
использовании, особенно на ранних стадиях обучения. Весь смысл
оперантного научения в том, чтобы собака училась на своем опыте, как
выбрать нужное поведение, основываясь на истории его подкрепления.
Слишком раннее введение слова "неправильно" может на вид упростить
процесс дрессировки, но на самом деле помешает ему. Важно, чтобы и
собака, и дрессировщик хорошо ориентировались в правилах поощрения.
Собака должна научиться определять, когда ее не поощряют, а
дрессировщик должен запастись терпением, чтобы не поощрить собаку в
случае нежелательного поведения - точнее, не реагировать на него
вообще. Если вы часто используете слово "неправильно", скорее всего, вы
просите от собаки слишком многого - т.е. вы просите ее сделать то, что
находится за пределами ее понимания. Если вы используете это слово до
тоо, как собака поймет критерии и до того, как она поймет, что значит,
когда вы не реагируете на предложенное поведение, это слово - не
информация, а всего лишь костыль.
Отрицательное подкрепление (обоюдный проигрыш).
ОП, по Скиннеру, "усиливает любое поведение, которое помогает
избежать или уменьшить его". Карен Прайор определяет ОП как "то, что
заставляет собаку работать, чтобы избежать его". В обычной жизни это
обычно процесс объективный. Вы перестаете пить воду, потому что это
отрицательно подкрепляется - жажда исчезает после первых глотков. В
дрессировке процесс субъективный. ОП в дрессировке имеет два аспекта: предъявление неприятного и его ликвидация. Другими словами, отрицательный раздражитель выполняет две взаимосвязанные функции: а) уменьшает вероятность повторения данного нежелательного действия в будущем; б) увеличивает (при его ликвидации) вероятность
повторения желательного действия в будущем. Это определение
отрицательного подкрепления не совсем соответствует научному. Думаю, с
этим можно смириться. У теории бихевиоризма развит свой огромный
словарь, в основном выработанный в лаборатории, и как все мы, я пленник
этого словаря. Так что, как Шалтай-Болтай, я считаю, что "Когда я
использую слово, оно значит то, что я в данный момент для него выбрал -
ни больше, ни меньше". Но в отличие от этого вздорного яйца, я попробую
объяснить, что я имею в виду.
Давайте опять возьмем наш пример с командой "Сидеть". В традиционной
дрессировке собака сидит рядом с дрессировщиком. Он говорит "Бафи,
сидеть", и тянет поводок назад, в то же время нажимая собаке на круп
(или, в некоторых школах, хлопая по крупу, или сгибая ей задние ноги).
Когда собака садится, натяжение поводка ослабевает. Это классическое
использование отрицательного подкрепления. Стоять после команды
"Сидеть" - нежелательное поведение. Рывок назад - "коррекция"
(предъявление неприятного), направленная на исключение неправильного
поведения путем связывания его с неприятными последствиями. Ослабление
поводка поощряет поведение "сидения" удалением неприятного воздействия
в момент совершения требуемого действия. Этот метод учит собаку
избегать неприятного воздействия поводком тем, что она не стоит,
услышав команду "Сидеть".
Это метод дрессировки, используемый в традиционных школах. Умелый
дрессировщик может очень эффективно работать поводком, не дергая
постоянно собаку и не вызывая у нее кашель или рвотные позывы от рывков
за шею. Но независимо от того, насколько нежна и элегантна работа
поводком, она основана на отрицательном подкреплении: собака работает,
чтобы избежать воздействия.
"Традиционная", или "основанная на командах", дрессировка основана на отрицательном подкреплении.
"Традиционная", или "основанная на командах", дрессировка основана
на отрицательном подкреплении. Основной мотив - неприятные последствия
всегда где-то рядом на случай, если собака не выполнит то, что требует
от нее дрессировщик. Очень популярна фраза "Собака должна знать, что у
нее нет выбора, кроме как послушаться". Эта дрессировочная философия,
неважно, задрапированная в "мотивационную" или "позитивную", покоится
на том, что послушание - это принудительное подчинение.
Я использую термин "основанная на командах", чтобы описать этот
метод дрессировки, потому что он рассказывает, как происходит процесс
обучения и показывает различие между традиционной и оперантной
дрессировкой. В традиционной дрессировке процесс начинается с того, что
дрессировщик дает собаке команду, которую она не понимает (собаки
по-английски не говорят, вы знаете?), а потом делает что-то - рывок
поводком, щипок за ухо, наведение лакомством или удар током - что
заставляет собаку послушаться. Концептуально тип коррекции, или степень
гуманности, - нечто нематериальное. Наведение лакомством и удар током -
просто противоположные крайности одного и того же: дать команду и
заставить ее выполнить.
"Основанная на командах" дрессировка работает на отрицательном
подкреплении. Сначала поступает слово, а затем вы заставляете собаку
выполнить ее. Она начинается с непонимания и имеет тенденцию
вырабатывать поведение, неустойчивое к затуханию. Оперантное научение основано на положительном подкреплении.
Сначала происходит поведение. Вы берете действия собаки, которые она
предъявляет сама, и отбираете из них то, что в итоге формирует целый
навык. Вы не прилагаете к этому "слово", пока навык не сформирован
практически полностью. Так собака учится, что определенное слово
связано с определенным действием, которое всегда приносит желаемый
результат.
Отличие отрицательного подкрепления от наказания
Аналитики-бихевиористы, возможно, выделят два элемента в моем описании отрицательного подкрепления, и назовут рывок поводка наказанием, а прекращение натяжения поводка отрицательным подкреплением.
Я не собираюсь здесь спорить об академических тонкостях. Я использую
термин "отрицательное подкрепление" как для предъявления неприятного
стимула, так и для его удаления при выполнении нужного действия, чтобы
подчеркнуть связь во времени и единство целей этих действий. Я также
люблю отделять предъявление неприятного стимула, чтобы повлиять на
текущее действие, от предъявления такового в момент, когда он уже не
может повлиять на действие собаки, поскольку случается долгое время
спустя. Этот последний тип я называю "наказание".
Различие важно, поскольку освещает два вопроса: 1) время и 2)
необходимость представления альтернативного, желательного поведения.
Продолжительность концентрации внимания собаки измеряется в секундах (у
отдельных знакомых мне экземпляров пшеничников в наносекундах). Так
что, чтобы отрицательное подкрепление работало, оно должно немедленно
отвечать на нежелательное поведение. И чтобы быть честным, оно должно
предоставлять собаке альтернативу - то, что собака может сделать - и она должна это знать - чтобы вы убрали неприятное воздействие.
Отрицательное подкрепление и наказание в реальном мире.
В Калифорнии дорожная полиция использует то, что называется
"выговор", чтобы предупреждать превышающих скорость. К примеру, если вы
едете со скоростью 72 мили в час там, где можно ехать не быстрее 65, то
патруль поравняется с вами и полицейский внимательно на вас посмотрит.
Если вы снизите скорость, он оставит вас в покое. Если вы не сбросите
скорость, или того хуже, увеличите - он остановит вас и выпишет штраф.
"Выговор" - отрицательное подкрепление. Оно предоставляет
неприятное воздействие (присутствие полицейского патруля) и возможность
избежать неприятностей (снизив скорость). Удаление неприятного
воздействия (полицейская машина удаляется, чтобы сделать еще чью-нибудь
жизнь более интересной), когда вы замедляете ход, отрицательно
подкрепляет ваши действия.
Выписывание протокола - это наказание. Если вы не сбросили
скорость, или еще того хуже, увеличили ее, вас остановят; ваше
нежелательное поведение уже в прошлом. Вы не можете избежать неприятных
последствий. Штат применит некую степень ответной реакции на ваше
нежелание следовать закону (или обычному здравому смыслу), оштрафовав
вас или даже отобрав права. Повлияет ли наказание на ваше поведение в
будущем? Люди платят штрафы и снова превышают скорость, и наши дороги
полны водителей с временным разрешением вместо водительского
удостоверения.
Тысячелетиями животные обучались техникой негативных последствий.
Она работает. Тем не менее, отрицательное подкрепление - не для меня.
Эти штрафы и другие меры могут удержать, а могут и не удержать в рамках
правил. Может быть, все, чего они добьются - это вынудят купить
антирадар.
"Умная" собака.
В дрессировке собак поведение избегания слишком часто преобладает.
Обычное дело - увидеть собак, "сдувшихся" при переходе из Новичков в
Открытый класс. Происходит ли это потому, что они слишком тупые, чтобы
выучить более сложные упражнения? Нет. Во многих случаях это просто
потому, что не делать ничего - самый простой путь избежать неприятных
последствий ошибки. Когда в обучение вводят наказание, субъект слишком
быстро учится избегать или обходить его, а не делать правильно. Это как
минимум частично объясняет то явление, которое называют "собака знает,
что она на соревнованиях, и ведет себя плохо". Это собака, которая
плохо или совсем не работает в ринге. Некоторые спортсмены говорят, что
она "издевается" над хэндлером. Некоторые говорят, что "она знает, что
может не послушаться на соревнованиях, и ей за это ничего не будет".
Это все чепуха. Такие объяснения обвиняют собаку или приписывают ей
какие-то извращенные мотивы, вместо того, чтобы сфокусироваться на
неэффективности обучения. Все, что делает собака - результат обучения!
Измененное поведение в ринге подпадает под одну из двух категорий:
"фальшивый позитив" или избегание.
"Фальшивый позитив".
Собака, которую учили с помощью отрицательного подкрепления,
научена, что отсутствие неприятных последствий означает, что она делает
правильно. В ринге и без поводка (т.е. при полном отсутствии даже
видимости возможности коррекции) никакие действия собаки не вызывают
неприятностей. Значит, все, что делает собака в ринге - правильно. Я
называю это "фальшивый позитив" - собака неправа, но в соответствии с
методикой ее обучения получается, что права.
Избегание.
Неприятные воздействия порождают избегание. При встрече с ними целью
становится избежать их. Вы делаете то, что должны, только потому, что
иначе не удастся их "выключить". Словами Мюррея Сидмана, "отрицательное
подкрепление вызывает побег. Когда мы сталкиваемся с неприятностями, мы
любым способом стараемся избежать их. Когда мы сталкиваемся с ними
опять, мы используем то, что сработало в прошлый раз". В ринге собака
может "смыться" как дословно, убежав оттуда, так и образно (не выполнив
команду). И, как замечает Сидман, "если мы контролируем других с
помощью неприятных воздействий, мы тоже ассоциируемся с
неприятностями". Вот почему часто "отказное" поведение в ринге
сопровождается действиями или движениями, показывающими неприязнь или
боязнь хэндлера.
Положительное подкрепление - не "мотивационная" дрессировка.
Один из подходов к решению проблем "отказа в ринге" лежит в
"мотивационной" технике. Я не буду говорить здесь о "мотивации" как
таковой. Тренеры этой школы не отказываются от негативного воздействия
на собаку как от основы дрессировки. Они просто "перевешивают"
неприятное воздействие игрушками, лакомством и энергичной похвалой. Это
как прикрыть печенку взбитыми сливками. Мотивационная дрессировка часто
служит для маскировки скрытой проблемы: дрессировка, основанная на
негативе, в действительности демотивирует и собаку, и хэндлера. Лучшие
спортсмены зачастую долго и упорно ищут собаку, которая могла бы
выдержать обучение. И очень мало спортсменов на самом деле могут хорошо
дрессировать этим методом.
В отличие от метода дрессировки отрицательным подкреплением обучению
с положительным подкреплением свойственно мотивировать обоих. Помните
слова Скиннера: "Частое поощрение также строит и поддерживает заинтересованность
человека в том, что он делает". С собакой то же самое. Собака работает
потому, что она выучила, что ее собственные действия могут принести
хороший результат. У нее развивается заинтересованность в том, чтобы
сделать правильно. Многие тренеры традиционной школы, которым
понравилась эта идея, возвращаются с вопросом "что же делать, если она
не хочет делать то, что нужно?". Вопрос мимо цели.
Во-первых, если вы построили у собаки понимание "дрессировочной
сделки" правильно, нет причин, по которым она откажется работать. В
конце концов, когда вы даете команду, вы даете возможность
"заработать". Почему она не послушается? Это не тот случай, когда
собака не работает, пока ее не заставишь.
Во-вторых, если собака не выполнила что-то - это ерунда. Никто не совершенен. Цель дрессировки - получить очень высокую степень вероятности.
Но неважно, насколько высока эта степень, все - и люди, и собаки -
периодически ошибаются. Задача в том, чтобы получить максимально лучший
результат с максимально возможной частотой. Дрессировка с положительным
подкреплением дает возможность добиться этого быстрее, более надежно и
с более стабильными результатами, чем дрессировка с принуждением.
"Суеверное" поведение.
Отбор поведения начинается с "суеверного поведения". В "Науке и
поведении человека" Скиннер утверждает, что "если между действием и
предъявлением поощрения связь случайна, то поведение называется
"суеверным". Стиви Уандер объяснил это проще: суеверие - когда "вы
верите в то, чего не понимаете". В дрессировке это то поведение,
которое собака повторяет, потому что по причинам, которые она (еще!) не
понимает, оно приносит хорошие результаты. Например, где-то в
пост-юрском периоде, пока дикие пуделя еще скитались по земле, я
охотился и собирал плоды и резал что-то мясное на разделочной доске.
Поскольку Сэм крутился у меня под ногами, отлетевший кусочек мяса упал
на пол, и Сэм его подобрал. С тех пор, как только я достаю разделочную
доску и начинаю рубить, Сэм тут как тут. Он не знает, почему он получил
вкусное, но оно было, и если по случайности изредка будут падать еще
куски (не то чтобы постоянно, но я бываю неуклюж), то это увеличит
вероятность того, что при виде доски он будет сидеть и облизываться.
Возможно, я уже рассказал все, что вам надо знать об отборе
поведения и его сохранении. Однако я все же допишу книгу, если
позволите. В обычном процессе оперантного научения вы просто
положительно реагируете на желательное поведение, предложенное
животным. Например, вы учите щенка сидеть. В первое время вы просто
поощряете его, когда он садится сам. Через два-три раза щенок начнет
садиться при каждой удобной возможности. Я учу "сидеть" с каждой
собакой именно так, подлавливая момент. Мы взяли нашего трехлетнего
метиса Шкипера в то время, когда у меня вообще не было ни минутки на
дрессировку. Но я начал с ним "ознакомление с кликером", и уже после
одного занятия он умел сидеть. Когда он думает, что он в беде или
просто не уверен в смысле происходящего, он садится.
У одного из моих клиентов собака отказывалась лечь. Неважно, как я
двигал рукой, чтобы побудить ее лечь, она только наклоняла голову,
оставляя ноги прямыми. Однажды я попробовал нажать на круп, она
вывернулась и ушла. Так что я оставил ее в покое, и мы, люди,
отправились поговорить о политике за чашкой кофе. Через несколько минут
она легла в углу. Я щелкнул и бросил ей кусочек. Еще несколько
повторений, и я смог ввести команду при укладке. Владелец занимался с ней всю следующую неделю, и она ложилась по команде.
Начните с того, что дает вам собака. Поощряйте все, что отдаленно
напоминает движение в нужном направлении. Поднятие планки просто
означает, что собака должна приложить немного больше усилий именно в
том направлении, которое нужно вам.
Источник: http://dogschool.ru |