Belohnung nach jedem Klick?

Unter vielen Clickertrainern scheint es eine Art Dogma zu geben, dass nach jedem „Klick“ eine Belohnung folgen muss. Argumentiert wird damit, dass der Clicker sonst seine Bedeutung verlieren würde. Aber wie sieht die wissenschaftliche Datenlage dazu aus?

Wie ich schon im ersten Teil dieser kleinen Beitragsserie ausgeführt habe, hat der Clicker nach ausreichender Konditionierungsphase selbst einen verstärkenden Charakter. Der sekundäre Verstärker übernimmt also die verstärkenden Eigenschaften des Primärverstärkers (zum Beispiel Futter). Dies allerdings nur zeitweise. Folgt kein Primärverstärker mehr auf den sekundären Verstärker, wird die kondionierte Verknüpfung, beziehungsweise das Verhalten, gelöscht. Das bedeutet, die Belohnungserwartung nimmt ab und somit wird das gewünschte Verhalten immer seltener gezeigt, bis es ganz aufhört.

In der Gefahr der Löschung dieser Erwartungshaltung liegt auch der Knackpunkt: Selbstverständlich kann man nicht nur einmal eine Konditionierungsphase („Klick“ plus Belohnung) veranstalten, abrupt den Primärverstärker weglassen und dann davon ausgehen, dass der Knackfrosch für immer eine verstärkende Wirkung behält. Natürlich muss die Belohnungsrate langsam und graduell abgebaut werden. Dass diese Herangehensweise äußerst effektiv sein kann, konnte Kelleher bereit 1958 zeigen (siehe „Wie funktioniert ein Clicker?“).

Aber welche Rolle spielt die Erwartungshaltung genau und was hat Dopamin damit zu tun?

Erwartung, Motivation und Dopamin

Vor noch nicht allzu langer Zeit, ist man davon ausgegangen, dass Dopamin unser Belohnungsempfinden reguliert. Also dass es vor allem dann ausgeschüttet wird, wenn wir etwas erhalten, was uns Befriedigung verschafft. Heute geht man von einem anderen Ansatz aus: Dopamin wird nicht beim Erhalt der Belohnung ausgeschüttet, sondern vorher. Also dann, wenn das Individuum die Belohnung erwartet.

Einige Versuche zeigen, dass Mäuse, die selbst kein Dopamin bilden können, weder Sozialverhalten noch appetetives Verhalten in Bezug auf Futter zeigen. Sie fressen nicht genug und verhungern innerhalb von drei Wochen. Und das, obwohl sie von ihren anatomischen und physioloigschen Vorraussetzungen fressen könnten. Ihnen fehlt schlicht die Motivation. Verabreicht man ihnen Dopamin, zeigen sie ein normales Sozial- und Fressverhalten. Dopamin macht also Motivation. Es verursacht appetetives, zielgerichtetes Verhalten. Oder wie Kent Berridge sagen würde: WANTING-Verhalten (bei Jaak Panksepp heißt es SEEKING-Verhalten).

Interessanterweise wird mehr Dopamin ausgeschüttet, wenn die Belohnung nicht ganz sicher ist. Wie du in der unteren Abbildung siehst, wird ein Vielfaches an Dopamin ausgeschüttet, wenn die Belohnungswahrscheinlichkeit von 100% auf 50% sinkt:

Das ist auch der Grund, warum intermittierende Belohnung auch im Hundetraining so gut funktioniert.

„Du fügst das Wort VIELLEICHT zur Gleichung hinzu.
Und das ist verstärkend wie nichts sonst auf der Welt“
Robert Sapolsky

Eine interessante Zusammenfassung von Robert Sapolsky zum Thema Dopamin und Motivation siehst du hier:

Was hat das alles nun mit dem Clicker zu tun?

Aus der wissenschaftlichen Literatur geht also hervor, dass Motivation eine Grundvorrausetzung für zielgerichtetes Handeln ist. Die Motivation wird durch die Erwartung angetrieben. Dopamin spielt dabei eine wichtige Rolle. Dopamin wird vermehrt ausgeschüttet, wenn die erwartete Belohnung nicht sicher ist.

Die untere Grafik verdeutlicht die mutmaßliche Dopaminausschüttung im Hundetraining:
Der Hund bekommt ein Signal (Kommando). In Erwartung auf die Belohnung, steigt der Dopaminspiegel an, was den Hund dazu motiviert, die gewünschte Handlung auszuführen. Der Hund befindet sich im „WANTING/SEEKING-Modus“. Daraufhin sinkt das Dopaminlevel wieder und er Hund bekommt die Belohnung (oder eben auch nicht).

Wenn man den Clicker nun in der „klassischen“ Weise benutzt – also nach jedem „Klick“ eine Belohnung folgt – sollte sich an diesem Bild nicht viel ändern. Das Klick-Signal wird hinzugefügt, wenn der Dopaminspiegel eigentlich schon wieder zurückgegangen ist.

Möglicherweise erklärt das auch, warum das Training mit dem Clicker bei Lernaufgaben nicht effektiver zu sein scheint, als ohne den Knackfrosch (siehe vorheriger Beitrag).

Aber wie sieht es nun aus, wenn NICHT nach jedem „Klick“ die Belohnung folgt?

Simon Gadbois mutmaßt in seinem Vortrag auf der SPARCS Konferenz 2014, dass es für die Motivation eines Hundes deutlich sinnvoller sein könnte, wenn nicht nach jedem Clickersignal auch tatsächlich eine Belohnung erfolgt. Der sekundäre Verstärker wäre also in dem Fall nicht das Versprechen auf eine Belohnung, sondern das In-Aussicht-stellen einer möglichen Belohnung. Das würde ungefähr dem entsprechen, was in der Hundetrainerwelt als „keep-going“-Signal bezeichnet wird. Also ein Signal, das dem Hund verdeutlicht, dass er auf dem richtigen Weg ist und dass irgendwann eine Belohnung kommt, wenn er weitermacht.

Simon geht davon aus, dass der Hund unter diesen Umständen auch nach dem „Klick“ noch im WANTING/SEEKING-Modus bleibt, weil er nicht genau weiß, wann die Belohnung kommt.

„Die Erwartung der Belohnung ist wichtiger
als die Belohnung selbst!“

Simon Gadbois, SPARCS Conference 2014

Das Dopamin würde also weiterhin vermehrt ausgeschüttet werden und die Motivation des Hundes wäre damit weiterhin höher. Verbildlicht könnte das dann so aussehen:

Hier könnt ihr euch Simon Gadbois Antwort auf die Frage, ob nach jedem Klick belohnt werden muss, anschauen:

Fazit

Man macht sicherlich nichts falsch, wenn man nach jedem „Klick“ eine Belohnung folgen lässt. Aus wissenschaftlicher Sicht scheint das allerdings nicht notwendig zu sein. Ganz im Gegenteil:

Möglicherweise wirkt es sogar motivierender, wenn der Hund die Belohnung nicht exakt voraussagen kann.

5 Kommentare

inga
24. Juli 2020 um 9:04

Genau auf diesem Effekt beruht übrigens die süchtig machende Wirkung von Glücksspiel. Einarmige Banditen sind exakt so programmiert, dass sie gerade oft genug „belohnen“, um die Dopaminausschüttung zu maximieren.

Antworten
Sibylle
26. Juni 2019 um 8:28

Um mit der hier erklärten Erwartungshaltung zu arbeiten, setzt man beim Clickertraining Verlaufslob ein. Also Stimmlob, Stimmlob…. Click. Der Click selbst eignet sich nicht als Verlaufslob, weil er grundsätzlich das gezeigte Verhalten beendet.

Und selbstverständlich arbeitet man mit intermittierender Belohnung.

Es wird ja, nachdem die allererste Lernphase abgeschlossen ist, nicht jedes Mal geclickt, wenn der Hund ein Verhalten zeigt. Nur so erreicht man weitere Steigerung und Variation. Intermittierende Belohnung ist bei der Arbeit mit positiver Verstärkung – egal ob mit oder ohne Clicker – das mächtigste Instrument, das ist jedem halbwegs brauchbaren Trainer völlig bewusst.

All diese Effekte sind also im klassischen Clickertraining von vornherein eingebaut und vorgesehen und natürlich sehr sehr wichtig.

Warum man noch zusätzliche „Leerclicks“ brauchen sollte, erschliesst sich mir nicht. Die Gefahr ist groß, dass der Mensch dann Trainingsfehler macht, vor allem zu wenig belohnt, beim Hund Frustration erzeugt und ein sauberer Aufbau schwieriger wird.

Wenn der Hund gerade ein Verhalten zeigt, dass für ihn so stark selbstbelohnend wirkt, dass er es nicht abbricht, um seine Belohnung zu bekommen, ist ein „Leerclick“ natürlich kein Problem. Aber als irgendwie neues Trainingsinstrument taugt der Leerclick eigentlich nicht – und ist vor allem unnötig. Alles wichtige ist ja längst da und vorgesehen.

Leerclicks machen die Arbeit unter dem Strich für unerfahrene Hunde und Hundeführer komplizierter und fehleranfälliger, bringen aber nichts Neues.

Antworten
- Marie
  26. Juni 2019 um 14:48
  
  „Der Click selbst eignet sich nicht als Verlaufslob, weil er grundsätzlich das gezeigte Verhalten beendet.“
  Das ist aber nur der Fall, wenn du den Clicker als Endsignal trainierst 🙂
  
  Es ist völlig ok, wenn deiner Meinung nach ein Leerclick unnötig ist – nur ist das halt eine Meinung und hat nix mit einem Fakt zu tun. Fakt ist hingegen, dass ein sekundärer Verstärker, der gut konditioniert ist, mitnichten so schnell an Bedeutung verliert, wie es oft suggeriert wird.Der Click als alleinige Ankündigung des folgenden Verstärkers bringt auch „nichts Neues“. Die Verwendung eines Clickers ist ja in keinster Weise eine Training ohne Clicker überlegen.
  
  Ich zitiere hier mal Simon Gadbois:
  
  „The (likely) first study that showed that rats will press the lever more if the click of the magazine is not followed by a reinforcer is Bugelski (1938)* [if you consider the token economy as a case of secondary reinforcement, also Wolfe, 1936]. That study showed a resistance to extinction much stronger than for the rats that had a cessation of the reinforcement without clicks. [Extinction with and without subgoal reinforcement. Journal of Comparative Psychology, 26, 121-134]. After that study, things started to move quickly for a move from „drive theory“ (drive reduction), to an „incentive theory“ of motivation and reinforcement.
  A book by Wike (1966; pic below) is a collection of papers on secondary (conditioned) reinforcement and contains many of the studies I have mentioned here and elsewhere, including in seminars, that show the secondary reinforcer working well on its own, and sometimes even better than if systematically paired with the primary or when established under partial reinforcement (e.g., D’Amato & Lachman, 1958; Klein, 1959; many others).“
  
  https://www.facebook.com/DalhousieUniversityCanines/photos/a.1038716929500989/2275485485824121
  
  Antworten
Samy
28. Januar 2019 um 19:44

Liebe Marie,
obwohl ich kein Nutzer von der Clicker Methode bin, muss ich sagen, dass du diese Erziehungsmethode wirklich sehr, besonders auch mit den Grafiken, gut dargestellt hast!
LG Samy von meintraumdog.de

Antworten
Doris Vaterlaus
19. Dezember 2018 um 14:00

ein interessanter Ansatz

Antworten

Belohnung nach jedem Klick?

Erwartung, Motivation und Dopamin

Was hat das alles nun mit dem Clicker zu tun?

Aber wie sieht es nun aus, wenn NICHT nach jedem „Klick“ die Belohnung folgt?

Fazit

5 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Mein Buch

Kontakt

Weitere Infos

Aktuelle Beiträge

Belohnung nach jedem Klick?

Erwartung, Motivation und Dopamin

Was hat das alles nun mit dem Clicker zu tun?

Aber wie sieht es nun aus, wenn NICHT nach jedem „Klick“ die Belohnung folgt?

Fazit

5 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Mein Buch

Kontakt

Weitere Infos

Aktuelle Beiträge

Schlagwörter