Wie funktioniert ein Clicker?

Vorneweg: Ich nutze das Wort „Clicker“ in dieser Beitragsreihe als Synonym für jedes intentional konditionierte belohnungsankündigende Signal. Dieses kann natürlich auch ein „Markerwort“ oder ähnliches sein. Ebenso verwende ich „Futter“ als Synonym für jede Art von Belohnung.

Wie funktioniert ein Clicker

Ein Clicker ist ein kleines Gerät, mit dem man ein „Klick“-Geräusch erzeugen kann. Mittels klassischer Konditionierung wird das „Klick“-Geräusch mit einer Belohnung (zumeist Futter) verknüpft. „Klick“ ist also das ein belohnungsakündigendes Signal. Der Clicker wird gedrückt, wenn der Hund ein erwünschtes Verhalten zeigt und auf den „Klick“ folgt üblicherweise möglichst zeitnah eine Belohnung (oft Futter). Unter Hundetrainern wird der Clicker oft synonym als sekundärer Verstärker, Marker oder Überbrückungs-Stimulus bezeichnet. Allerdings liegen allen dieser drei Begriffe unterschiedliche Mechanismen zugrunde. Wie Lynna Feng in einer ihrer Publikationen ausführlich analysiert, gibt es mindestens drei mögliche Wirkmechanismen:

Nach der Verstärkungshypothese wirkt der Clicker selbst als Verstärker. Der sekundäre Verstärker „übernimmt“ also den verstärkenden Charakter des primären Verstärkers.

Nach der Markierungshypothese markiert das „Klick“-Geräusch den exakten Zeitpunkt des richtigen Verhaltens.

Nach der Überbrückungshypothese überbrückt das Clicker-Signal die Zeit zwischen dem richtigen Verhalten und der Belohung.

Diese drei Mechanismen sind selbstverständlich nicht überlappungsfrei und auch nicht völlig unabhängig voneinander. Überschneidungen sind deswegen durchaus möglich. Nichtsdestotrotz führen diese verschiedenen Annahmen zu unterschiedlichen Vorhersagen. Damit es nicht zu Verwirrungen kommt: Die vorgestellten wissenschaftlichen Hypothesen stimmen nicht im Detail mit den gängigen Erklärungen in der Hundetrainingspraxis überein.

Im Weiteren werde ich die drei Hypothesen sowie deren Prognosen genauer ausführen.

Die Verstärkungshypothese

Nach der Theorie von Skinner übernimmt der sekundäre Verstärker die verhaltensverstärkende Wirkung des primären Verstärkers (meist Futter). Er hat also selbst einen verstärkenden Effekt. Demnach müsste – nach einer ausreichenden Konditionierungsphase – ein Zielverhalten auch dann weiter verstärkt werden, wenn kein primärer Verstärker folgt. Es müsste auch das Erlernen eines neuen Verhaltens nur mit Hilfe des sekundären Verstärkers möglich sein. Zusätzlich sollte das Verhalten löschungsresistenter sein, wenn ein sekundärer Verstärker eingesetzt wird.

Und tatsächlich bestätigen Laborstudien mit Tauben und Ratten all diese Vorhersagen (siehe Tabelle 1 in Feng et al. 2016). Ein Clicker (oder ein beliebiger anderer sekundärer Verstärker) ist also in der Lage, die Rate von Verhaltensantworten zu erhöhen, neues Verhalten zu verstärken und die Löschungsresistenz zu erhöhen. Diese Verstärkungswirkung hält aber nur einen bestimmten Zeitraum an. Dieser Zeitraum ist allerdings länger, als man meinen würde und im starken Maße davon abhängig, ob man den primären Verstärker abrupt weglässt oder schrittweise abbaut.

In einer Studie von McCall & Burgin (2002) zeigten Pferde, denen ein sekundärer Verstärker aufkonditioniert wurde, in einer 30 minütigen Trainingssession trotz fehlendem Primärverstärker häufiger das Zielverhalten als eine Kontrollgruppe ohne sekundären Verstärker. Allerdings war dieser Unterschied bereits in einer zweiten Trainingssession nicht mehr erkennbar.

Im Gegensatz dazu konnte Kelleher bereits 1958 zeigen, dass Schimpansen nach graduellem Abbau des primären Verstärkers bis zu 125 Mal einen Knopf drücken ( = Zielverhalten), wofür sie einen Pokerchip bekommen ( = sekundärer Verstärker), den sie am Ende des Trainingsdurchganges gegen Futter tauschen konnten ( = primärer Verstärker). Auf 125 Durchgänge mit sekundären Verstärkern kommt also jeweils nur ein Durchgang, in dem der primäre Verstärker folgte. Diese Ergebnisse legen nahe, dass sekundäre Verstärker länger einen verstärkenden Charakter behalten, wenn sie graduell reduziert werden.

Zusammengefasst kann man sagen, dass ein belohnungsankündigendes Signal nach der Studienlage durchaus selbst einen verstärkenden Charakter hat. Allerdings lässt dieser nach mehrfacher Präsentation ohne den gepaarten primären Verstärker nach.

Die Markierungshypothese

Die von Lieberman und Kollegen vorgeschlagene Markierungshypothese legt nahe, dass das Signal deswegen Lernvorgänge erleichtern könnte, weil es in einer unmittelbaren zeitlichen und kontextuellen Nähe zum erwünschten Verhalten präsentiert wird und damit den exakten Zeitpunkt bestimmt. Das Geräusch macht also einen „Schnappschuss“ von dem Verhalten zum Zeitpunkt des „Klicks“. Lieberman schlug vor, dass ein Individuum seine Aufmerksamkeit aufgrund dieses Signals eher auf bestimmte Ereignisse lenken würde. Diese erhöhte Aufmerksamkeit könnte zu einer stärkeren Gedächtnisspur führen, was später zu einem leichteren Abrufen des Ereignisses führen würde.

Um diese Aufgabe zu erfüllen, müsste das Signal selbst keine verstärkende Wirkung haben und es müsste vorher auch nicht mit einem primären Verstärker gekoppelt werden.

Für die Praxis im Hundetraining ist diese Hypothese allein nur wenig relevant, da das Signal fast immer als Belohnungsankündigung verwendet und somit auch mit einem Primärverstärker gekoppelt wird. Überschneidungen mit der Verstärkungshypothese sind demnach sehr wahrscheinlich.

Die Überbrückungshypothese

Die Überbrückungshypothese von Kaplan und Heart (1982) schlägt vor, dass ein Signal zwischen dem Zielverhalten und der folgenden Belohnung als „Brücke“ zwischen dem Verhalten und der Konsequenz dient. Demnach müssten Signale, die einen großen Anteil der Lücke zwischen Handlung und Konsequenz präsent sind, effektiver sein, als Signale, die proportional nur einen kleinen Anteil der Pause abdecken.

Um die Überbrückungshypothese eines zuvor konditionierten Signals zu analysieren, entwickelte Rescorla (1982) ein spezielles Auto-Shaping-Protokoll. Dabei sollten Tauben lernen, ein Licht anzupicken ( = Zielverhalten). Zuerst wurden die Tauben auf einen langen sowie einen kurzen akustischen Stimulus konditioniert. Beide Signale wurden mit der nachfolgenden Futterbelohnung gleich oft gepaart – sie sollten also beide gleich gut die Futterbelohnung vorhersagen. Dennoch führte der länger anhaltende akustische Reiz in der Pause zwischen dem Licht und der Futterbelohnung anschließend zu einem stärkeren Lichtpicken bei Tauben.

Rescorla argumentierte, dass diese Ergebnisse Hinweise darauf lieferten, dass ein konditioniertes Signal einen Brückeneffekt hat, da der längere Ton – der also proportional mehr Anteil der zeitlichen Lücke zwischen dem Hinweisreiz „Licht“ und der nachfolgenden Futterbelohnung füllte – das Picken der Tauben wirksamer verstärkte. Es ist jedoch möglich, dass gemäß der Verstärkungshypothese, nach der die konditionierten Signale einen verstärkenden Charakter annehmen, eine längere Version des Tons einen größeren Verstärkungseffekt hat als ein kürzeres Signal.

Zusammengefasst muss man auch hier sagen, dass eine abschließende Beurteilung der Überbrückungshypothese nicht möglich ist, da es deutliche Überschneidungen mit der Verstärkungshypothese gibt.

Fazit

Die Ergebnisse verschiedener Studien deuten darauf hin, dass der Clicker als sekundärer Verstärker an sich verstärkend wirken kann. Allerdings sind natürlich die anderen beiden möglichen Mechanismen nicht ausgeschlossen und spielen vermutlich in Teilen auch eine Rolle bei der Funktion des Knackfrosches.


Weitere Beiträge der Clickerserie:

Ist Clickertraining effektiver?

Belohnung nach jedem Klick?


Referenzen:

Feng, L. C., Howell, T. J., & Bennett, P. C. (2016). How clicker training works: Comparing reinforcing, marking, and bridging hypotheses. Applied Animal Behaviour Science181, 34-40.

Kaplan, P. S., & Hearst, E. (1982). Bridging temporal gaps between CS and US in autoshaping: insertion of other stimuli before, during, and after CS. Journal of Experimental Psychology: Animal Behavior Processes8(2), 187.

Kelleher, R. T. (1958). FIXED‐RATIO SCHEDULES OF CONDITIONED REINFORCEMENT WITH CHIMPANZEES. Journal of the Experimental Analysis of Behavior, 1(3), 281-289.

Lieberman, D. A., McIntosh, D. C., & Thomas, G. V. (1979). Learning when reward is delayed: a marking hypothesis. Journal of Experimental Psychology: Animal Behavior Processes5(3), 224.

McCall, C. A., & Burgin, S. E. (2002). Equine utilization of secondary reinforcement during response extinction and acquisition. Applied Animal Behaviour Science78(2), 253-262.

Rescorla, R. A. (1982). Effect of a stimulus intervening between CS and US in autoshaping. Journal of Experimental Psychology: Animal Behavior Processes, 8(2), 131.

Skinner, B. F. (1938). The behavior of organisms: an experimental analysis. Appleton-Century. New York.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert