Introduction to Psychology-1st Canadian Edition

Learning Objectives
How Reinforcement and Punishment Influence Behaviour: the Research of Thorndike and Skinner
Complex gedrag creëren door operante conditionering
Key Takeaways
oefeningen en kritisch denken
Afbeeldingsverwijzingen

Learning Objectives

schets de principes van operant conditioning.
leg uit hoe leren vorm kan krijgen door het gebruik van versterkingsschema ‘ s en secundaire versterkers.

in de klassieke conditionering leert het organisme nieuwe stimuli te associëren met natuurlijke biologische reacties zoals speekselvloed of angst. Het organisme leert niet iets nieuws, maar begint eerder een bestaand gedrag uit te voeren in de aanwezigheid van een nieuw signaal. Operante conditionering is daarentegen leren dat plaatsvindt op basis van de gevolgen van gedrag en dat het leren van nieuwe acties kan inhouden. Operante conditionering treedt op wanneer een hond rolt over op commando, omdat het is geprezen voor het doen van dit in het verleden, wanneer een klasgenoot bullebak bedreigt zijn klasgenoten omdat het doen hem in staat stelt om zijn zin te krijgen, en wanneer een kind krijgt goede cijfers omdat haar ouders dreigen om haar te straffen als ze niet. In operante conditionering leert het organisme van de gevolgen van zijn eigen acties.

How Reinforcement and Punishment Influence Behaviour: the Research of Thorndike and Skinner

psycholoog Edward L. Thorndike (1874-1949) was de eerste wetenschapper die systematisch operante conditionering bestudeerde. In zijn onderzoek observeerde Thorndike (1898) katten die in een “puzzeldoos” waren geplaatst waaruit ze probeerden te ontsnappen (“Videoclip: Thorndike ’s puzzeldoos”). In het begin krabden de katten lukraak, beet ze en stalen ze, zonder enig idee hoe ze eruit moesten komen. Maar uiteindelijk, en per ongeluk, drukten ze op de hendel die de deur opende en verlieten hun prijs, een stukje vis. De volgende keer dat de kat in de doos werd beperkt, probeerde hij minder van de ineffectieve reacties voordat hij de succesvolle ontsnapping uitvoerde, en na verschillende proeven leerde de kat bijna onmiddellijk de juiste reactie te geven.

door het observeren van deze veranderingen in het gedrag van de katten ontwikkelde Thorndike zijn wet van effect, het principe dat reacties die in een bepaalde situatie een typisch aangenaam resultaat opleveren, eerder in een vergelijkbare situatie zullen voorkomen, terwijl reacties die een typisch onaangenaam resultaat opleveren minder waarschijnlijk in de situatie zullen voorkomen (Thorndike, 1911). De essentie van de wet van effect is dat succesvolle reacties, omdat ze plezierig zijn, door ervaring worden “gestempeld” en dus vaker voorkomen. Mislukte reacties, die onaangename ervaringen opleveren, worden “uitgeroeid” en komen vervolgens minder vaak voor.

toen Thorndike zijn katten in een puzzelbox plaatste, ontdekte hij dat ze na elke proef sneller aan het belangrijke ontsnappingsgedrag leerden deelnemen. Thorndike beschreef het leren dat volgt op versterking in termen van de wet van effect.

Watch: “Thorndike’ s Puzzle Box” : http://www.youtube.com/watch?v=BDujDOLre-8

de invloedrijke gedragspsycholoog B. F. Skinner (1904-1990) breidde Thorndike ‘ s ideeën uit om een meer complete set principes te ontwikkelen om operante conditionering te verklaren. Skinner creëerde speciaal ontworpen omgevingen die bekend staan als operant chambers (meestal Skinner boxes genoemd) om systematisch leren te bestuderen. Een Skinner box (operant chamber) is een structuur die groot genoeg is om een knaagdier of vogel te passen en die een bar of sleutel bevat die het organisme kan indrukken of pikken om voedsel of water vrij te geven. Het bevat ook een apparaat om de reacties van het dier op te nemen (figuur 8.5).

de meest fundamentele experimenten van Skinner waren vergelijkbaar met Thorndike ‘ s onderzoek met katten. Een rat die in de kamer werd geplaatst reageerde zoals men zou verwachten, haastte zich over de doos en snuffelde en krabde op de vloer en muren. Uiteindelijk kwam de rat toevallig op een hefboom, die hij drukte om pellets van voedsel vrij te geven. De volgende keer nam de rat iets minder tijd om de hendel in te drukken, en bij opeenvolgende proeven werd de tijd die nodig was om de hendel in te drukken steeds korter. Al snel drukte de rat de hendel zo snel als hij het voedsel kon eten dat verscheen. Zoals voorspeld door de wet van het effect, had de rat geleerd om de actie die het voedsel tot stand bracht te herhalen en de acties te staken die dat niet deden.Skinner bestudeerde in detail hoe dieren hun gedrag veranderden door middel van versterking en straf, en hij ontwikkelde termen die de processen van operant leren verklaarden (tabel 8.1, “How Positive and Negative Reinforcement and Punishment Influence Behaviour”). Skinner gebruikte de term reinforcer om te verwijzen naar een gebeurtenis die de kans op een gedrag versterkt of vergroot, en de term punisher om te verwijzen naar een gebeurtenis die de kans op een gedrag verzwakt of vermindert. En hij gebruikte de termen positief en negatief om te verwijzen naar of een versterking werd gepresenteerd of verwijderd, respectievelijk. Dus, positieve versterking versterkt een reactie door het presenteren van iets aangenaams na de reactie, en negatieve versterking versterkt een reactie door het verminderen of verwijderen van iets onaangenaams. Bijvoorbeeld, het geven van een kind lof voor het voltooien van zijn huiswerk vertegenwoordigt positieve versterking, terwijl het nemen van aspirine om de pijn van hoofdpijn te verminderen negatieve versterking vertegenwoordigt. In beide gevallen maakt de versterking het waarschijnlijker dat gedrag zich in de toekomst opnieuw zal voordoen.

Figuur 8.5 Skinner Box. B. F. Skinner gebruikte een Skinner box om operant leren te studeren. De doos bevat een bar of sleutel die het organisme kan drukken om voedsel en water te ontvangen, en een apparaat dat de reacties van het organisme registreert.

Tabel 8.1 Hoe positieve en negatieve versterking en straf gedrag beïnvloeden.
de Operante conditionering term	Beschrijving	Resultaat	Voorbeeld

Positieve versterking	Toevoegen of verhogen van een aangename stimulus	Gedrag wordt versterkt	het Geven van een student een prijs, nadat hij of zij krijgt een Een op een test
Negatieve versterking	Verminderen of verwijderen van een onaangename stimulus	Gedrag wordt versterkt	het Nemen van pijnstillers die pijn te elimineren verhoogt de kans dat je zal nemen pijnstillers opnieuw
Positieve straf	Aanwezig of toevoegen van een onaangename stimulus	Gedrag is verzwakt	het Geven van een student extra huiswerk, nadat hij of zij zich niet netjes gedraagt in de klas
Negatieve straf	Verminderen of verwijderen van een aangename stimulus	Gedrag is verzwakt	het wegnemen van een tiener computer nadat hij of zij mist avondklok

Versterking, hetzij positief of negatief, werkt door het verhogen van de waarschijnlijkheid van gedrag. Straf, aan de andere kant, verwijst naar elke gebeurtenis die de kans op een gedrag verzwakt of vermindert. Positieve straf verzwakt een reactie door na de reactie iets onaangenaams te presenteren, terwijl negatieve straf een reactie verzwakt door iets aangenaams te verminderen of te verwijderen. Een kind dat huisarrest heeft na het vechten met een broer of zus (positieve straf) of die de kans verliest om naar de pauze te gaan na het krijgen van een slecht cijfer (negatieve straf) heeft minder kans om dit gedrag te herhalen.

hoewel het onderscheid tussen versterking (die het gedrag verhoogt) en bestraffing (die het vermindert) meestal duidelijk is, is het in sommige gevallen moeilijk te bepalen of een versterker positief of negatief is. Op een warme dag kan een koele bries worden gezien als een positieve versterker (omdat het koele lucht inbrengt) of een negatieve versterker (omdat het warme lucht verwijdert). In andere gevallen kan versterking zowel positief als negatief zijn. Men kan een sigaret roken, zowel omdat het plezier brengt (positieve versterking) als omdat het het verlangen naar nicotine elimineert (negatieve versterking).

het is ook belangrijk op te merken dat versterking en straf niet alleen tegenpolen zijn. Het gebruik van positieve versterking in veranderend gedrag is bijna altijd effectiever dan het gebruik van straf. Dit komt omdat positieve versterking de persoon of het dier zich beter laat voelen, waardoor een positieve relatie wordt gecreëerd met de persoon die de versterking levert. Vormen van positieve versterking die effectief zijn in het dagelijks leven zijn onder andere verbale lof of goedkeuring, de toekenning van status of prestige, en directe financiële betaling. Aan de andere kant is het waarschijnlijker dat straf slechts tijdelijke gedragsveranderingen teweegbrengt, omdat het gebaseerd is op dwang en doorgaans een negatieve en vijandige relatie creëert met de persoon die de versterking levert. Wanneer de persoon die de straf geeft de situatie verlaat, zal het ongewenste gedrag waarschijnlijk terugkeren.

Complex gedrag creëren door operante conditionering

misschien herinnert u zich dat u een film keek of bij een show was waarin een dier — misschien een hond, een paard of een dolfijn — enkele verbazingwekkende dingen deed. De trainer gaf een commando en de dolfijn zwom naar de bodem van het zwembad, pakte een ring op zijn neus, sprong uit het water door een hoepel in de lucht, dook weer naar de bodem van het zwembad, pakte een andere ring, en nam dan beide ringen naar de trainer aan de rand van het zwembad. Het dier werd getraind om de truc te doen, en de principes van operante conditionering werden gebruikt om het te trainen. Maar deze complexe gedragingen zijn verre van de eenvoudige stimulus-respons relaties die we tot nu toe hebben overwogen. Hoe kan versterking worden gebruikt om complexe gedragingen zoals deze te creëren?

een manier om het gebruik van operant learning uit te breiden is het wijzigen van het schema waarop de versterking wordt toegepast. Tot op dit punt hebben we alleen gesproken over een continue versterking schema, waarin de gewenste reactie wordt versterkt elke keer dat het gebeurt; als de hond bijvoorbeeld omrolt, krijgt hij een koekje. Continue versterking resulteert in relatief snel leren, maar ook in een snelle uitroeiing van het gewenste gedrag zodra de versterker verdwijnt. Het probleem is dat omdat het organisme gewend is aan het ontvangen van de versterking na elk gedrag, de responder snel kan opgeven als het niet verschijnt.

de meeste versterkers in de echte wereld zijn niet continu; ze komen voor op een partieel (of intermitterend) versterkingsschema — een schema waarin de reacties soms worden versterkt en soms niet. In vergelijking met continue versterking leiden partiële versterkingsschema ‘ s tot trager leren, maar ze leiden ook tot een grotere weerstand tegen extinctie. Omdat de versterking niet verschijnt na elk gedrag, duurt het langer voor de leerling om te bepalen dat de beloning niet meer komt, en dus uitsterven is langzamer. De vier soorten partiële wapeningsschema ‘ s zijn samengevat in Tabel 8.2, “Wapeningsschema’ s.”

Tabel 8.2 Wapeningsschema ‘ S.
Reinforcement schedule	uitleg	real-world voorbeeld

het gedrag met vaste ratio	wordt versterkt na een specifiek aantal reacties.	fabrieksarbeiders die worden betaald volgens het aantal producten dat zij produceren
het gedrag met variabele ratio	wordt versterkt na een gemiddeld, maar onvoorspelbaar, aantal responsen.	uitbetalingen van gokautomaten en andere kansspelen
het gedrag met een vast interval	wordt versterkt voor de eerste respons na een bepaalde tijd.	mensen die een maandsalaris verdienen
variabel interval	het gedrag wordt versterkt voor de eerste respons nadat een gemiddelde, maar onvoorspelbare, tijd is verstreken.	persoon die e-mail controleert op berichten

partiële wapeningsschema ‘ s worden bepaald door of de wapening wordt gepresenteerd op basis van de tijd die verstrijkt tussen de wapening (interval) of op basis van het aantal responsen dat het organisme inschakelt (ratio), en door of de wapening plaatsvindt op een regelmatig (vast) of onvoorspelbaar (variabel) schema. In een vaste-interval schema, versterking optreedt voor de eerste reactie gemaakt na een specifieke hoeveelheid tijd is verstreken. Zo krijgt het dier op een vast interval van één minuut elke minuut een versterking, ervan uitgaande dat het minstens één keer gedurende de minuut betrokken is bij het gedrag. Zoals je kunt zien in Figuur 8.6,” voorbeelden van reactiepatronen door dieren die getraind zijn volgens verschillende partiële Versterkingsschema ‘s”, hebben dieren met vaste-interval schema ‘ s de neiging om hun reactie onmiddellijk na de versterking te vertragen, maar dan het gedrag weer te verhogen als de tijd van de volgende versterking dichterbij komt. (De meeste studenten studeren voor examens op dezelfde manier.) In een variabel interval schema verschijnen de versterkers op een interval schema, maar de timing is gevarieerd rond het gemiddelde interval, waardoor de werkelijke verschijning van de versterker onvoorspelbaar. Een voorbeeld kan zijn het controleren van uw e-mail: je wordt versterkt door het ontvangen van berichten die komen, gemiddeld, laten we zeggen, elke 30 minuten, maar de versterking gebeurt alleen op willekeurige tijden. Intervalversterkingsschema ‘ s hebben de neiging om langzame en constante responssnelheden te produceren.

figuur 8.6 voorbeelden van reactiepatronen van dieren die volgens verschillende partiële Versterkingsschema ‘ s zijn opgeleid. Schema ’s op basis van het aantal responsen (ratio types) veroorzaken een grotere respons dan schema’ s op basis van verstreken tijd (intervaltypen). Ook produceren onvoorspelbare schema ’s (variabele types) sterkere reacties dan voorspelbare schema’ s (vaste types).

In een schema met vaste ratio wordt een gedrag versterkt na een specifiek aantal reacties. Het gedrag van een rat kan bijvoorbeeld worden versterkt nadat hij 20 keer op een toets heeft gedrukt, of een verkoper kan een bonus ontvangen nadat hij of zij 10 producten heeft verkocht. Zoals je kunt zien in Figuur 8.6, “voorbeelden van reactiepatronen door dieren die zijn getraind volgens verschillende partiële Versterkingsschema ‘s,” zodra het organisme heeft geleerd om te handelen in overeenstemming met het vaste-ratio schema, zal het slechts kort pauzeren wanneer de versterking plaatsvindt voordat het terugkeert naar een hoog niveau van responsiviteit. Een schema met variabele ratio geeft versterkers na een specifiek maar gemiddeld aantal reacties. Het winnen van geld van speelautomaten of op een loterij ticket is een voorbeeld van versterking die plaatsvindt op een variabele-ratio schema. Bijvoorbeeld, een gokautomaat (zie Figuur 8.7, “Slot Machine”) kan worden geprogrammeerd om een overwinning elke 20 keer de gebruiker trekt de hendel, gemiddeld. Ratio schema ‘ s hebben de neiging om hoge responspercentages te produceren omdat de versterking toeneemt naarmate het aantal reacties toeneemt.

Figuur 8.7 Slot Machine. Slot machines zijn voorbeelden van een variabele-ratio versterking schema.

Complex gedrag wordt ook gecreëerd door vormgeven, het proces waarbij het gedrag van een organisme wordt geleid tot het gewenste resultaat door het gebruik van opeenvolgende benaderingen van een uiteindelijk gewenst gedrag. Skinner maakte uitgebreid gebruik van deze procedure in zijn dozen. Hij kon bijvoorbeeld een rat trainen om twee keer op een bar te drukken om voedsel te ontvangen, door eerst voedsel te verstrekken wanneer het dier zich in de buurt van de bar bewoog. Toen dat gedrag was geleerd, begon Skinner alleen voedsel te leveren als de rat de bar aanraakte. Verder vormgeven beperkte de versterking tot alleen wanneer de rat de staaf drukte, tot wanneer hij de staaf drukte en deze een tweede keer aanraakte, en uiteindelijk alleen wanneer hij de staaf tweemaal drukte. Hoewel het lang kan duren, kan operante conditionering op deze manier gedragsketens creëren die alleen versterkt worden als ze voltooid zijn.

het versterken van dieren als ze correct onderscheid maken tussen soortgelijke stimuli stelt wetenschappers in staat om het leervermogen van de dieren te testen, en de discriminaties die ze kunnen maken zijn soms Opmerkelijk. Duiven zijn getraind om onderscheid te maken tussen beelden van Charlie Brown en de andere Peanuts karakters (Cerella, 1980), en tussen verschillende stijlen van muziek en kunst (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

gedrag kan ook worden getraind door het gebruik van secundaire versterkers. Terwijl een primaire versterker stimuli bevat die van nature de voorkeur hebben of genieten van het organisme, zoals voedsel, water en verlichting van pijn, is een secundaire versterker (soms geconditioneerde versterker genoemd) een neutrale gebeurtenis die is geassocieerd met een primaire versterker door middel van klassieke conditionering. Een voorbeeld van een secundaire versterker is het fluitje van een dierentrainer, dat in de loop van de tijd is geassocieerd met de primaire versterker, voedsel. Een voorbeeld van een alledaagse secundaire versterker is geld. We genieten van het hebben van geld, niet zozeer voor de stimulus zelf, maar eerder voor de primaire versterkers (de dingen die geld kan kopen) waarmee het geassocieerd wordt.

Key Takeaways

Edward Thorndike ontwikkelde de wet van het effect: het principe dat reacties die in een bepaalde situatie een typisch prettig resultaat opleveren, eerder in een vergelijkbare situatie zullen voorkomen, terwijl reacties die een typisch onaangenaam resultaat opleveren, minder waarschijnlijk in de situatie zullen voorkomen.
B. F. Skinner breidde Thorndike ‘ s ideeën uit om een reeks principes te ontwikkelen om operante conditionering uit te leggen.
positieve versterking versterkt een reactie door iets voor te stellen dat typisch prettig is na de reactie, terwijl negatieve versterking een reactie versterkt door iets te verminderen of te verwijderen dat typisch onaangenaam is.
positieve straf verzwakt een reactie door iets te presenteren dat typisch onaangenaam is na de reactie, terwijl negatieve straf een reactie verzwakt door iets te verminderen of te verwijderen dat typisch prettig is.
wapening kan gedeeltelijk of continu zijn. Partiële wapeningsschema ‘ s worden bepaald door of de wapening wordt gepresenteerd op basis van de tijd die verstrijkt tussen versterkingen (interval) of op basis van het aantal responsen dat het organisme inschakelt (ratio), en door of de wapening plaatsvindt op een regelmatig (vast) of onvoorspelbaar (variabel) schema.
complexe gedragingen kunnen worden gecreëerd door vormgeven, het proces waarbij het gedrag van een organisme wordt geleid tot het gewenste resultaat door het gebruik van opeenvolgende benaderingen van een uiteindelijk gewenst gedrag.

oefeningen en kritisch denken

geven een voorbeeld uit het dagelijks leven van elk van de volgende: positieve versterking, negatieve versterking, positieve straf, negatieve straf.
overweeg de versterkingstechnieken die u kunt gebruiken om een hond te trainen om een Frisbee te vangen en op te halen die u erop gooit.
bekijk de volgende twee video ’s van de huidige televisieprogramma’ s. Kunt u bepalen welke leerprocedures worden gedemonstreerd?
1. The Office: http://www.break.com/usercontent/2009/11/the-office-altoid – experiment-1499823
2. The Big Bang Theory : http://www.youtube.com/watch?v=JA96Fba-WHk

Cerella, J. (1980). De analyse van de foto ‘ s van de duif. Patroonherkenning, 12, 1-6.

Thorndike, E. L. (1898). Animal intelligence: een experimentele studie van de associatieve processen bij dieren. Washington, DC: American Psychological Association.

Afbeeldingsverwijzingen

Figuur 8.6: Aangepast van Kassin (2003).

Introduction to Psychology-1st Canadian Edition

Learning Objectives

How Reinforcement and Punishment Influence Behaviour: the Research of Thorndike and Skinner

Complex gedrag creëren door operante conditionering

Key Takeaways

oefeningen en kritisch denken

Afbeeldingsverwijzingen

Geef een antwoord Antwoord annuleren

Afwezige septum Q-golf: een marker van de effecten van abnormaal activatiepatroon op de linkerventrikel diastolische functie. / Hart

PMC

Introduction to Psychology-1st Canadian Edition

Learning Objectives

How Reinforcement and Punishment Influence Behaviour: the Research of Thorndike and Skinner

Complex gedrag creëren door operante conditionering

Key Takeaways

oefeningen en kritisch denken

Afbeeldingsverwijzingen

Geef een antwoord Antwoord annuleren

More:

Afwezige septum Q-golf: een marker van de effecten van abnormaal activatiepatroon op de linkerventrikel diastolische functie. / Hart

PMC