Немецкая овчарка Немецкая овчарка

Кликер - дрессировка для обидиенс


"Но собака должна работать для меня!"

Еще одно часто встречающееся возражение - дрессировщик говорит, что "Собака должна работать для меня, а не за еду или звук!". Я заметил, что большинство людей, приводящих этот аргумент, склонны к механической коррекции во время дрессировки. При этом они, очевидно, не сознают, что при такой дрессировке собака работает не "для них", а чтобы избежать воздействия. Более научно, этот подход упускает из виду то, чем по сути является дрессировка. Это процесс обучения. Результатом успешной дрессировки должна быть собака, которая хочет и любит работать, уверена в том, что она делает, уверена в своей способности противостоять неожиданностям. Это делается положительным подкреплением. Дрессировка положительным подкреплением невозможна без использования условного подкрепления.

На деле, мы работаем для себя, и собаки от нас не отличаются. Наш шеф предпочел бы, чтобы мы сохраняли верность фирме, но если зарплату перестают выдавать, верность испаряется. Мы просим собак выполнять для нас задания. Если в них нет ничего положительного для собаки, почему она должна их выполнять? Некоторые задания сами по себе являются поощрением для собаки. Бордер колли будет счастлив, если ему предоставят стадо овец, чтобы бегать вокруг, бладхаунд - рад запаху, чтобы идти по нему, джек-рассел-терьер - грызуну, за которым можно полезть под землю. Дайте пойнтеру поле с птицами, и ему больше в жизни ничего не нужно. Но нет породы или собаки, для которой работа по послушанию - врожденный инстинкт, удовлетворение которого является приятным. Некоторые лучше к ней относятся, некоторые хуже, но послушание не "естественно" ни для кого, ни для собаки, ни для человека. Если мы хотим, чтобы наши партнеры-собаки присоединились к нам в этом виде деятельности, будет справедливым дать им для этого основания.

"Мамочкиной (или папочкиной) любви" для этого недостаточно. Собака и так ее получит. Должно быть что-то существенное, чтобы создать необходимую и постоянную мотивацию к работе. Вот зачем нужно положительное подкрепление, и вот назначение кликера как условного подкрепления. И наконец, эта программа делает именно так, что собака работает "для вас". Собаке будет нравиться работать, и она будет любить вас как часть работы. Вы станете более последовательным и понятным. Собаке будет более комфортно с вами, она будет вам больше доверять. Что вам еще нужно?

Приучение к звуку.

Большинство собак спокойно относятся к звуку кликера. Они немедленно схватывают связь звука с поощрением. Даже у моих чувствительных к звукам шелти не было проблем со звуком щелчка (хотя я изредка встречал собак, которых он пугал). Есть несколько вариантов:

  • Один из них подсмотрен на странице о дрессировке подружейных собак и основан на постепенной десенсибилизации.
  • кликер в кармане;
  • кликер замотан и спрятан за спиной;
  • кликер замотан и держится в руке в обычном положении;
  • кликер в руке.

Если ваша собака очень чувствительна к звукам, вы можете начать с щелчка языком.

Другой подход - ввести звук в тот момент, когда собака занята тем, что ей нравится, например, во время кормления. Это убьет сразу двух зайцев: приучит собаку к звуку и свяжет его с приятным для нее. Стив Уайт, дрессировщик собак для полиции в Сиэттле, Вашингтон, рассказывает, что он так делает с подсосными щенками. Когда сука их кормит, он щелкает, когда щенки захватывают сосок (возможно, нет более глубинной ассоциации между щелчком кликера и таким безусловным подкреплением!). Таким образом, к трехнедельному возрасту у щенков уже выработан стойкий рефлекс на щелчок. Я выяснил, что большинство собак легко привыкают к звуку кликера, если связывать его с пищей. Но, как правило, звук кликера не раздражает собак, так что вы можете спокойно заниматься со своей собакой среди других собак, не обучающихся с кликером.

Время - это все!

Смысл в том, чтобы щелкать точно в тот момент, который вы хотите поощрить. Это значит, что вы должны четко сознавать, что вы хотите получить. Карен Прайор в книге "Несущие ветер" рассказывает, как она пыталась научить дельфина переплывать из одного бассейна в другой. Дельфин проплывал через проход и немедленно разворачивался и плыл обратно, прежде, чем успевали закрыть проход. Когда наконец Карен попросила кого-то посмотреть со стороны, наблюдатель ей сказал, что она свистела ровно в тот момент, когда дельфин начинал разворот. Так что вместо того, чтобы поощрить его переход в другой бассейн, она поощряла разворот. Когда она начала подавать сигнал в нужный момент (речь идет о долях секунды), проблема была решена очень быстро. Урок, который Карен извлекла из этой ситуации, был следующим: дрессировщик всегда должен спрашивать себя "Что я поощряю?". На самом деле, вопрос состоит из двух частей: 1) что я хочу поощрять? 2) что я на самом деле поощряю. Это требует от вас тщательного планирования занятия и концентрации на протяжении всего процесса.

Вы должны сфокусироваться исключительно на том, что делает собака, чтобы соответствующим образом реагировать на то, что она предлагает. Это будет честно. Ведь в конце концов, вы же требуете, чтобы собака полностью концентрировалась на вас! Это одна из причин, о которой Карен Прайор в "Не рычите на собаку!" говорит, что необоснованное прерывание занятия является наказанием. Перестать обращать на собаку внимание - это убрать возможность у собаки достичь ее цели. Это разрушит весь принцип метода. Хотя классическое определение поощрения содержит примечание о том, что оно следует за действием, это относится только к безусловному подкреплению. Условное подкрепление должно быть доставлено собаке в момент совершения действия, чтобы оно четко ассоциировалось именно с желаемым поведением. Обычная ошибка для начинающего дрессировщика в использовании кликера - затягивание с щелчком. Щелчок так быстр и конкретен, что всегда поощряет то, что происходит именно в этот момент. Если вы промедлите с подачей условного подкрепления, вы поощрите нечто совсем не то, что намеревались.

Возможно, вам будет легче понять это, если вы будете думать о поощрении процесса, а не поощрении результата. Я хочу, чтобы собака знала, что то, что она делает - правильно, а не то, что она уже сделала. Гораздо важнее, чтобы она поняла, как это делать, а не чтобы она это в принципе сделала. Так что, если я и буду подавать сигнал невовремя, лучше это делать раньше, а не позже. Так я, по крайней мере, поймаю поведение в развитии. Щелчок может "обрубить" поведение слишком рано, но это легко преодолеть. Я просто рассматриваю то поведение, которое я поощрил раньше, чем требовалось, как шаг в правильном направлении, и продолжаю двигаться дальше. Этот вариант не сработает, если я буду щелкать слишком поздно; тогда я теряю все поведение целиком.

Чтобы понять, как это работает, давайте вернемся к обычному "сидеть". Поощряя "попу на земле", я подаю условный сигнал, когда собака садится. При своевременной подаче щелчок раздается в тот момент (или за мгновение до того), как собака касается попой земли. Возможна слишком ранняя подача сигнала: если я щелкну в тот момент, когда собака еще только начала садиться и ей еще легко подняться обратно или зависнуть, щелчок может прервать поведение до того, как получится сесть. Так можно построить "недопосадку". С другой стороны, если я щелкну, когда собака уже села на землю, я поощряю то, что ее попа находится на земле, а не то, как она туда попала. При правильной подаче сигнала я щелкну за мгновение до того, как она коснется земли, поощряя движение мышц - так же, как и результат этого движения, который немедленно последует. Вернемся к вопросу "Что я поощряю?". В почти каждом случае, когда собака "не понимает", вы можете проследить недопонимание до несвоевременного щелчка. И с другой стороны, точная подача сигнала может решить это недопонимание практически немедленно.

Вот пример того, как несвоевременное подкрепление может нести неверную информацию. Один из моих учеников не хотел использовать кликер. Он занимался "глазками", используя слово "Хорошо", и кормил собаку, когда она на него смотрела. Через два-три повторения он начал говорить "Хорошо". Он успел сказать "Хо...", собака отвернулась, и "... рошо" ушло в пустоту. Дрессировщик был явно смущен и сказал "Я только что поощрил ее за отворачивание". Он все же хотел использовать голосовой сигнал, но с того момента сократил его до "Хо".

Второй пример - я учил Дилана высылу. Он хорошо знал, что надо бежать вперед, и я отдельно научил его разворачиваться и садиться. Теперь нужно было объединить их. Когда я крикнул "Дилан, сидеть!", он развернулся и лег. Я сделал это еще раз, чтобы посмотреть, как это происходит, и заметил, что когда он разворачивается, он присаживается на землю, и уж затем ложится. Так что в третий раз я щелкнул в момент разворота и касания земли попой. Он остался сидеть, округлил глаза и вздернул голову. Это было ясно видимое "А-а-а!". В следующий раз он сел, и больше у нас проблем не было. Не каждую проблему можно решить так легко. Но точное время подачи условного подкрепления может помочь гораздо больше, чем другие варианты.

Щелчок заканчивает поведение

Это одна из областей работы с кликером, которую многие сначала понимают с трудом. Сила кликера в точности, с которой он отмечает отдельное правильное действие. Собака, с которой провели подготовительное обучение, понимает, что когда она слышит щелчок, то она заслужила поощрение. Поэтому это закон - каждый щелчок сигнализирует собаке о том, что она сделала то, что вы от нее хотели и работа окончена. И это закон, что услышав щелчок, собака вольна прекратить то, что она делала, и получить кусочек. Например, в обучении высылу вы можете щелкнуть, когда собака двигается от вас и уже прошла, скажем, пять шагов по прямой. Когда вы щелкнете, собака может (и так она и сделает!) остановиться; ей позволено вернуться за лакомством. Точно так же в обучении апортировке, если вы щелкнули за подбор предмета, собака имеет полное право его бросить и прийти за лакомством. Это звучит страшновато. "Я не хочу, чтобы собака бросала гантель". Справедливо. Но беспокоиться не о чем.

Помните одно из главных правил отбора поведения: Вы работаете только над одним критерием за раз. В примере с гантелью вы тренируете одну вещь - подбор. Вы получили и поощрили нужное поведение (поднятие гантели). Когда вы добавите "и принеси ее мне", вы больше не будете щелкать за поднятие, а будете подкреплять только полный поднос, нечто более комплексное, чем простой подбор предмета.

Не используйте щелчок в значении "продолжай".

Многие дрессировщики, особенно те, кто относит себя к той или иной "мотивационной" школе - и я сам причисляю себя к таковым в начале своей карьеры - пытаются использовать кликер как поддержку в середине поведения (щелчок - "продолжай"). Я думаю, это наследие смешения понятий положительного подкрепления и поощрения, и кроме того, не совсем верное понимание того, как работает условное подкрепление. Есть несколько проблем с использованием щелчка в значении "продолжай".

Щелчок означает "хорошо сделано, приходи за поощрением". Это своего рода сделка. Если я использую его в значении "продолжай", я не соблюдаю условия сделки. Я обещал что-то, что не доставил по назначению. Вместо поддержания значимости кликера как условного подкрепления я подрываю ее. Через не очень продолжительное время щелчок станет просто еще одним звуком среди других.

Использование щелчка со значением "продолжай" создает недопонимание. В первый раз, как я щелкну с этой мыслью, собака прекратит делать то, что делала. Теперь я должен объяснить ей, что лакомства не будет. Другими словами, в интересах того, что я считаю ободрением и поддержкой, я на самом деле меняю правила, делая их бессмысленными для собаки, и подрываю наш уже существующий "договор". Эта та ошибка, которую я прошел и сам. На ранних этапах работы с кликером я тоже использовал его, чтобы сообщить собаке "продолжай в том же духе". Через некоторое время я посмотрел на то, что получилось, и был вынужден признать, что я использовал кликер как похвалу в тех частях упражнений, где собаке недоставало уверенности в себе. Я увидел, что собаке недоставало уверенности потому, что эти части упражнений были недостаточно хорошо отработаны. Когда я переучил их, моя нужда в ободрении собаки прошла.

Теперь, когда она знала, что надо делать, я мог щелкнуть за все поведение в целом, не заботясь о том, чувствует ли она себя уверенной в том, что делает. Это не значит, что я не могу щелкнуть и поощрить собаку в середине поведения без полного разрыва поведенческой цепочки. У меня с собаками есть маленькая система. Когда они занимают статичную позицию и слышат щелчок, они сохраняют эту позицию до специального сигнала, отменяющего эту команду. Так что, например, на укладке во время подзыва я щелкаю в момент укладки, подхожу к собаке, даю ей лакомство и возвращаюсь на место. Затем я либо подзываю ее, либо отпускаю гулять. Я изолирую конкретное поведение для поощрения без нарушения нашей сделки. И есть дополнительный побочный эффект - собака приучается сохранять позицию до получения следующей команды. Это может помочь сделать выполнение всего упражнения более надежным.

"Щелчок" как "мост".

Некоторые из дрессировщиков дельфинов называли свой условный сигнал "мостом" или "соединяющим стимулом". Он имели в виду, что условное подкрепление позволяло им поощрить действие на расстоянии и "заполняло брешь" между моментом подачи условного подкрепления и моментом подачи безусловного подкрепления. Термин постепенно забылся, но смысл не потерялся. В дрессировке "вкусняшка" не всегда прибывает немедленно. Например, в обучении высылу я щелкаю, когда Сэм касается мишени. Затем он поворачивается и бежит ко мне за лакомством. Так что проходит несколько секунд до получения им поощрения. Но когда он добегает до меня и получает свой кусочек, он знает, за что он его получил. В этом смысле кликер служит "мостом" между поведением и его безусловным подкреплением.

Одно из сильных мест кликера в том, что вы можете сохранять эту ясность, иногда даже 30 секунд и более. Если мои собаки становятся "жрущими собаками", то есть тычутся мне в руки или лезут в сумку на поясе за лакомством, я использую эту идею "моста", чтобы прервать нежелательное поведение. Я складываю все лакомство в пластиковый контейнер, который ставлю на скамейку в нескольких метрах от нас, и мы начинаем заниматься. Когда я вижу то поведение, которое мне нужно, я щелкаю, и затем иду к скамейке за лакомством. Конечно, это немного затягивает занятие, и я не делаю так постоянно. Это мера коррекции чересчур настойчивых шелти, которым я таким образом напоминаю, что они работают, чтобы услышать щелчок, и только после этого появляется еда. При этом собаки, даже пройдя несколько метров до лавочки, все равно знают, за что именно они получат лакомство, потому что им об этом сообщил щелчок.

Отбор поведения с помощью положительного подкрепления.

Словосочетание "положительное подкрепление" (ПП) означает одновременно и подход, и метод. Оба очень важны в философии дрессировки. Когда я говорю "подход", я не имею в виду притворно счастливое лицо. Я говорю о внутреннем убеждении, или вере, в возможность собаки выполнить задачу. Применяя этот метод с умом, и вы как дрессировщик, и собака разовьете эту веру у себя и друг у друга. Спортивные комментаторы часто гвоорят о команде, играющей "на победу", как о противоположности "играть, чтобы не проиграть". В обоих случаях команда хочет победить, но подход - и часто и результат - очень разный.

Команда, которая играет, чтобы выиграть, играет с внутренней уверенностью в успехе. Эта команда агрессивна, напориста, упорна. Команда, которая играет, чтобы не проиграть, играет с внутренним страхом провала. Эта команда консервативна, медленно реагирует на открывающиеся возможности, легко расстраивается. В славные годы команды "Грин Бэй Пэкерс" Винс Ломбарди говорил после поражения: "Мы не проиграли, просто время вышло". Винс Ломбарди знал, как играть на победу. Еще важнее, он знал, как сохранять позитивное отношение команды даже в трудные времена.

Дрессировка с помощью кликера вырабатывает у собаки характер "игры на победу". Сам процесс обучения дает ей уверенность в том, что она может добиться успеха. Он учит ее, что если она что-то делает достаточно долго и старательно - она получит результат. Дрессировка не учит ее бояться ошибиться, она учит собаку, которая может столкнуться с ошибкой и продолжить работать, зная, что продолжение усилий принесет ей награду. По мере того, как у собаки будет повышаться уверенность, вы, как хэндлер, станете более уверены в собаке. И это будет видно в ринге. Как постепенный отбор поведения помогает получить стабильное выполнение навыков и уверенность собаки в возможности их выполнения?

Давайте посмотрим на обучение собаки садиться методом отбора поведения. Собака садится на землю (хорошо), но заваливается на бедро (плохо). Эти качества выполнения и другие (скорость и внимательность) - критерии, т.е. необходимые элементы правильного исполнения упражнения. Чтобы обучить собаку садиться - или любому другому навыку - правильно, вам нужно знать критерии выполнения, и продумать, как объяснить их собаке. Каждый навык содержит несколько критериев, и есть логическая последовательность в их соблюдении. Есть несколько критериев хорошей посадки: 1) Собака должна касаться задом земли; 2) собака должна сидеть сбалансированно по оси "вперед-назад"; 3) собака должна сидеть прямо по оси "право-лево"; 4) посадка должна быть быстрой; 5) собака должна быть способна сидеть продолжительное время

Вы работаете над одним критерием за один раз. В посадке вы должны сначала поощрять касание задом земли. Потом вы учите собаку правильной "механике" посадки, чтобы она не заваливалась на бедро. Это уже "повышение критериев": смысл упражнения теперь не "сесть на землю", а "сесть на землю прямо, не заваливаясь". Когда собака усвоит и это новое требование, вы больше не поощряете расхлябанную посадку, только прямую. В научных терминах это "дифференцированное подкрепление" (ДП). Вы поощряете не все подряд, что делает собака, а только попытки определенного типа или качества. Это не меняет правила "дрессировочного договора". Вы по-прежнему даете собаке то, что она хочет получить в обмен на то, что она делает для вас. Вы просто повышаете уровень требований к выполнению. Собаке теперь приходится стараться немного больше и немного более последовательно, чтобы получить желаемое.

Затем вы можете закрепить правильную посадку тем, что между посадкой и щелчком/поощрением будет проходить больше времени. Вместо того, чтобы щелкать в момент касания попой земли, вы увеличите время, отсчитывая одну секунду в течение пары тренировок, затем три, четыре секунды и так далее. (Я не использую часы. Я считаю "один банан, два банана" и т.д.) Этот процесс не только улучшает качество выполнения упражнения, он дает основу будущей выдержке сидя. Собака учится, что поощрение появится; просто чуть попозже.

Ваша задача - понимать критерии каждого упражнения и планировать, как их отрабатывать в логической последовательности. Когда вы это сделаете, и выстроите мастерство собаки, она всегда будет уверена в том, что она знает, что вы хотите, и в своей способности это сделать. "Технология" дрессировки дает не только нужное поведение, но и отношение, которое вам нужно.

Случайное поощрение.

В каком-то смысле наше поведение "поощряется" каждый день жизнью. Вы улыбаетесь и машете другу, он улыбается и машет в ответ - ваше доброжелательное поведение поощрено. Вы голодны и идете к холодильнику, чтобы поесть, поскольку в прошлом вы не раз находили там еду. Поощрение - часть повседневной жизни. Дрессировщик использует поощрение сознательно. Мы много работаем над тем, чтобы с большой степенью вероятности собака выполняла определенные действия по команде. Проще говоря, поощрение повышает вероятность повторения поведения в будущем.

Два типа подкрепления.

Подкрепление усиливает поведение. Есть только два типа подкрепления: положительное и отрицательное. Оба призваны достичь одного и того же результата - увеличить вероятность того, что поведение, за которым немедленно следовало подкрепление, повторится. Моя философия заключается в том, что обучение поведению лучше всего происходит с помощью положительного подкрепления. Обычный синоним подкрепления - поощрение. Я не возражаю против сокращений, но надо четко понимать разницу. Вы можете получить поощрение за что-то, что вы сделали в прошлом, но без особых ожиданий того, что вы повторите это в будущем (как награда за поимку разыскиваемого преступника). Подкрепление же всегда усиливает то поведение, которое его вызвало.

Я не использую термины "положительный" и "отрицательный" как морально-этическую оценку "хороший" и "плохой". Эти термины имеют чисто математический смысл. Положительное подкрепление (+П) означает, что вы даете собаке что-то желаемое, чтобы подкрепить (поощрить) поведение, которое только что произошло (собака села и получила печенье). Отрицательное подкрепление (-П) означает, что вы убираете что-то желаемое собакой, чтобы подкрепить то поведение, которое только что произошло.

Вся дрессировка с помощью поводка основана на отрицательном подкреплении. Вы применяете неприятное (дергаете поводок), чтобы вызвать поведение, и затем убираете неприятное (ослабляете поводок), когда собака делает правильно (идет рядом, садится, ложится и т.д.). Во всех этих случаях реакция собаки на команду происходит, чтобы избежать рывка поводка. -П учит собаку, как избежать неприятностей или наказания. Как говорит Карен Прайор, -П - это то, что заставляет собаку работать, чтобы избежать его. Вы можете научить собаку навыкам через отрицательное подкрепление, но вы всегда будете работать - и соревноваться - с неприятным воздействием и его избеганием. Вот почему "мотивационные" методы стали так популярны. Это попытка противодействовать неприятному характеру и последствиям обучения на отрицательном подкреплении. С +П мотивация как таковая становится неуместной; это неотъемлемое следствие самого метода.

1 2 3 4

Морган Спектор
"Кликер-дрессировка для обидиенс"
перевод В.Большакова http://dogschool.ru

все статьи

.   .
Рейтинг@Mail.ru Яндекс цитирования Rambler's Top100 © 2004-2017 Assauwehof :|: © Design by Lobodevich