Introduktion til psykologi – 1. canadiske udgave

læringsmål

  1. skitsere principperne for operant konditionering.
  2. Forklar, hvordan læring kan formes ved hjælp af forstærkningsplaner og sekundære forstærkere.

i klassisk konditionering lærer organismen at forbinde nye stimuli med naturlige biologiske reaktioner såsom spyt eller frygt. Organismen lærer ikke noget nyt, men begynder snarere at udføre en eksisterende adfærd i nærværelse af et nyt signal. Operant konditionering er derimod læring, der sker baseret på konsekvenserne af adfærd og kan involvere læring af nye handlinger. Operant konditionering opstår, når en hund ruller over på kommando, fordi den tidligere er blevet rost for at gøre det, når en skolestue mobber truer sine klassekammerater, fordi det gør det muligt for ham at komme sin vej, og når et barn får gode karakterer, fordi hendes forældre truer med at straffe hende, hvis hun ikke gør det. Ved operant konditionering lærer organismen af konsekvenserne af sine egne handlinger.

hvordan forstærkning og straf påvirker adfærd: forskningen fra Thorndike og Skinner

psykolog Edvard L. Thorndike (1874-1949) var den første videnskabsmand, der systematisk studerede operant konditionering. I sin forskning observerede Thorndike (1898) katte, der var blevet placeret i en “puslespilkasse”, hvorfra de forsøgte at flygte (“videoklip: Thorndike ‘s Puslespilkasse”). Først ridsede kattene, bittede og svømmede tilfældigt uden nogen ide om, hvordan man kom ud. Men til sidst, og ved et uheld, de pressede på håndtaget, der åbnede døren og gik ud til deres præmie, et skrot fisk. Næste gang katten blev begrænset i kassen, forsøgte den færre af de ineffektive reaktioner, før den udførte den vellykkede flugt, og efter flere forsøg lærte katten næsten øjeblikkeligt at give det rigtige svar.

iagttagelse af disse ændringer i kattens adfærd fik Thorndike til at udvikle sin lov om virkning, princippet om, at reaktioner, der skaber et typisk behageligt resultat i en bestemt situation, er mere tilbøjelige til at forekomme igen i en lignende situation, mens reaktioner, der giver et typisk ubehageligt resultat, er mindre tilbøjelige til at forekomme igen i situationen (Thorndike, 1911). Essensen af virkningsloven er, at vellykkede svar, fordi de er behagelige, “stemples ind” af erfaring og således forekommer hyppigere. Mislykkede svar, der producerer ubehagelige oplevelser, “stemples ud” og forekommer derefter sjældnere.

da Thorndike placerede sine katte i en puslespilkasse, fandt han, at de lærte at engagere sig i den vigtige flugtadfærd hurtigere efter hvert forsøg. Thorndike beskrev den læring, der følger forstærkning med hensyn til virkningsloven.

ur: “Thorndike’ S puslespil boks” : http://www.youtube.com/watch?v=BDujDOLre-8

den indflydelsesrige adfærdspsykolog B. F. Skinner (1904-1990) udvidede Thorndikes ideer til at udvikle et mere komplet sæt principper for at forklare operant konditionering. Skinner skabte specialdesignede miljøer kendt som operant chambers (normalt kaldet Skinner kasser) for systematisk at studere læring. En Skinner boks (operant kammer) er en struktur, der er stor nok til at passe til en gnaver eller fugl, og som indeholder en bar eller nøgle, som organismen kan trykke eller hakke for at frigive mad eller vand. Den indeholder også en enhed til registrering af dyrets svar (figur 8.5).

det mest basale af Skinners eksperimenter var meget lig Thorndikes forskning med katte. En rotte placeret i kammeret reagerede som man kunne forvente, scurrying om kassen og sniffing og kløen på gulvet og vægge. Til sidst skiftede rotten på en håndtag, som den pressede for at frigive pellets af mad. Næste gang tog rotten lidt mindre tid til at trykke på håndtaget, og ved successive forsøg blev den tid, det tog at trykke på håndtaget, kortere og kortere. Snart pressede rotten håndtaget så hurtigt som det kunne spise den mad, der dukkede op. Som forudsagt af loven om virkning havde rotten lært at gentage den handling, der medførte fødevaren, og ophøre med de handlinger, der ikke gjorde det.

Skinner studerede i detaljer, hvordan dyr ændrede deres adfærd gennem forstærkning og straf, og han udviklede udtryk, der forklarede processerne for operant læring (tabel 8.1, “hvordan positiv og negativ forstærkning og straf påvirker adfærd”). Skinner brugte udtrykket forstærker at henvise til enhver begivenhed, der styrker eller øger sandsynligheden for en adfærd, og udtrykket punisher at henvise til enhver begivenhed, der svækker eller mindsker sandsynligheden for en adfærd. Og han brugte udtrykkene positive og negative til at henvise til, om en forstærkning blev præsenteret eller fjernet, henholdsvis. Således styrker positiv forstærkning et svar ved at præsentere noget behageligt efter svaret, og negativ forstærkning styrker et svar ved at reducere eller fjerne noget ubehageligt. For eksempel at give et barn ros for at have afsluttet sit hjemmearbejde repræsenterer positiv forstærkning, mens det at tage Aspirin for at reducere smerten ved hovedpine repræsenterer negativ forstærkning. I begge tilfælde gør forstærkningen det mere sandsynligt, at adfærd vil forekomme igen i fremtiden.

Figur 8.5 Skinner Kasse. B. F. Skinner brugte en Skinner boks til at studere operant læring. Kassen indeholder en bjælke eller nøgle, som organismen kan trykke på for at modtage mad og vand, og en enhed, der registrerer organismens reaktioner.

tabel 8.1 Hvordan positiv og negativ forstærkning og straf påvirker adfærd.
Operant conditioning term beskrivelse resultat eksempel
positiv forstærkning Tilføj eller Forøg en behagelig stimulus adfærd styrkes at give en studerende en præmie, når han eller hun får en A på en test
negativ forstærkning Reducer eller Fjern en ubehagelig stimulus adfærd styrkes at tage smertestillende midler, der eliminerer smerte, øger sandsynligheden for, at du vil tage smertestillende midler igen
positiv straf Præsenter eller tilføj en ubehagelig stimulus adfærd er svækket at give en studerende ekstra lektier, efter at han eller hun opfører sig dårligt i klassen
negativ straf Reducer eller Fjern en behagelig stimulus adfærd er svækket fjernelse af en teenagers computer, efter at han eller hun går glip af udgangsforbud

forstærkning, enten positiv eller negativ, virker ved at øge sandsynligheden for en adfærd. Straf henviser derimod til enhver begivenhed, der svækker eller reducerer sandsynligheden for en adfærd. Positiv straf svækker et svar ved at præsentere noget ubehageligt efter svaret, mens negativ straf svækker et svar ved at reducere eller fjerne noget behageligt. Et barn, der er jordet efter at have kæmpet med et søskende (positiv straf), eller som mister muligheden for at gå i fordybning efter at have fået en dårlig karakter (negativ straf), er mindre tilbøjelige til at gentage denne adfærd.

selvom sondringen mellem forstærkning (som øger adfærden) og straf (som mindsker den) normalt er klar, er det i nogle tilfælde vanskeligt at afgøre, om en forstærker er positiv eller negativ. På en varm dag kunne en kølig brise ses som en positiv forstærker (fordi den bringer kølig luft ind) eller en negativ forstærker (fordi den fjerner varm luft). I andre tilfælde kan forstærkning være både positiv og negativ. Man kan ryge en cigaret både fordi det bringer glæde (positiv forstærkning) og fordi det eliminerer trangen til nikotin (negativ forstærkning).

det er også vigtigt at bemærke, at forstærkning og straf ikke blot er modsætninger. Brugen af positiv forstærkning i skiftende adfærd er næsten altid mere effektiv end at bruge straf. Dette skyldes, at positiv forstærkning får personen eller dyret til at føle sig bedre, hvilket hjælper med at skabe et positivt forhold til den person, der leverer forstærkningen. Typer af positiv forstærkning, der er effektiv i hverdagen, inkluderer verbal ros eller godkendelse, tildeling af status eller prestige og direkte økonomisk betaling. Straf, på den anden side, er mere tilbøjelige til kun at skabe midlertidige ændringer i adfærd, fordi den er baseret på tvang og typisk skaber et negativt og kontradiktorisk forhold til den person, der leverer forstærkningen. Når den person, der giver straffen, forlader situationen, vil den uønskede adfærd sandsynligvis vende tilbage.

oprettelse af kompleks adfærd gennem Operant konditionering

måske husker du at se en film eller være på en udstilling, hvor et dyr — måske en hund, en hest eller en delfin — gjorde nogle ret fantastiske ting. Træneren gav en kommando, og delfinen svømmede til bunden af poolen, hentede en ring på næsen, sprang ud af vandet gennem en bøjle i luften, dykkede igen til bunden af poolen, hentede en anden ring og tog derefter begge ringe til træneren ved kanten af poolen. Dyret blev trænet til at gøre tricket, og principperne for operant konditionering blev brugt til at træne det. Men denne komplekse adfærd er langt fra de enkle stimulus-respons-forhold, som vi hidtil har overvejet. Hvordan kan forstærkning bruges til at skabe komplekse adfærd som disse?

en måde at udvide brugen af operant læring er at ændre den tidsplan, hvorpå forstærkningen anvendes. Til dette punkt har vi kun diskuteret en kontinuerlig forstærkningsplan, hvor det ønskede svar forstærkes hver gang det sker; når hunden ruller over, for eksempel, får den en kiks. Kontinuerlig forstærkning resulterer i relativt hurtig læring, men også hurtig udryddelse af den ønskede adfærd, når forstærkeren forsvinder. Problemet er, at fordi organismen er vant til at modtage forstærkning efter hver adfærd, kan responder give op hurtigt, når det ikke vises.

de fleste forstærkere i den virkelige verden er ikke kontinuerlige; de forekommer på en delvis (eller intermitterende) forstærkningsplan-en tidsplan, hvor svarene undertiden forstærkes og undertiden ikke. Sammenlignet med kontinuerlig forstærkning fører delvise forstærkningsplaner til langsommere indledende læring, men de fører også til større modstand mod udryddelse. Fordi forstærkningen ikke vises efter hver adfærd, tager det længere tid for eleven at bestemme, at belønningen ikke længere kommer, og dermed er udryddelsen langsommere. De fire typer partielle forstærkningsplaner er opsummeret i tabel 8.2, “Forstærkningsplaner.”

Tabel 8.2 Forstærkning Tidsplaner.
forstærkning tidsplan forklaring virkelige verden eksempel
fast forhold adfærd forstærkes efter et specifikt antal svar. fabriksarbejdere, der betales i henhold til antallet af produkter, de producerer
variabelt forhold adfærd forstærkes efter et gennemsnitligt, men uforudsigeligt antal svar. udbetalinger fra spilleautomater og andre hasardspil
fast interval adfærd forstærkes for det første svar, efter at en bestemt tid er gået. folk, der tjener en månedsløn
variabelt interval adfærd forstærkes for det første svar, efter at en gennemsnitlig, men uforudsigelig tid er gået. Person, der tjekker e-mail for meddelelser

delvise forstærkningsplaner bestemmes af, om forstærkningen præsenteres på baggrund af den tid, der går mellem forstærkning (interval) eller på baggrund af antallet af reaktioner, som organismen engagerer sig i (forhold), og af, om forstærkningen sker på en regelmæssig (fast) eller uforudsigelig (variabel) tidsplan. I en tidsplan med fast interval forekommer forstærkning for det første svar, der er foretaget, efter at en bestemt tid er gået. For eksempel modtager dyret på et minuts fast intervalplan en forstærkning hvert minut, forudsat at det engagerer sig i adfærden mindst en gang i løbet af minuttet. Som du kan se i figur 8.6, “eksempler på Responsmønstre fra dyr, der er trænet under forskellige delvise Forstærkningsplaner”, har dyr under faste intervalplaner en tendens til at bremse deres reaktion umiddelbart efter forstærkningen, men derefter øge adfærden igen, når tiden for den næste forstærkning nærmer sig. (De fleste studerende studerer til eksamen på samme måde .) I en variabel intervalplan vises forstærkerne på en intervallplan, men timingen varieres omkring det gennemsnitlige interval, hvilket gør forstærkerens faktiske udseende uforudsigelig. Et eksempel kan være at kontrollere din e-mail: du forstærkes ved at modtage meddelelser, der kommer, gennemsnitlig, sige, hvert 30.minut, men forstærkningen sker kun tilfældigt. Intervalforstærkningsplaner har tendens til at producere langsomme og stabile responshastigheder.

figur 8.6 eksempler på Responsmønstre fra dyr, der er trænet under forskellige delvise Forstærkningsplaner. Tidsplaner baseret på antallet af svar (forholdstyper) inducerer større responsrate end tidsplaner baseret på forløbet tid (intervaltyper). Uforudsigelige tidsplaner (variable typer) producerer også stærkere svar end forudsigelige tidsplaner (faste typer).

i en tidsplan med fast forhold forstærkes en adfærd efter et specifikt antal svar. For eksempel kan en rottes adfærd forstærkes, efter at den har trykket på en tast 20 gange, eller en sælger kan modtage en bonus, efter at han eller hun har solgt 10 produkter. Som du kan se i figur 8.6, “eksempler på Responsmønstre fra dyr, der er trænet under forskellige delvise Forstærkningsplaner”, når organismen først har lært at handle i overensstemmelse med tidsplanen for fast forhold, vil den kun pause kort, når forstærkning sker, før den vender tilbage til et højt niveau af lydhørhed. En tidsplan med variabelt forhold giver forstærkere efter et specifikt, men gennemsnitligt antal svar. At vinde penge fra spilleautomater eller på en lotteri er et eksempel på forstærkning, der opstår på en plan med variabelt forhold. For eksempel en automat (se figur 8.7, “Slot Machine”) kan programmeres til at give en gevinst hver 20 gange brugeren trækker i håndtaget, gennemsnitlig. Forholdsplaner har tendens til at producere høje responsrater, fordi forstærkning øges, når antallet af svar øges.

Figur 8.7 Automat. Spilleautomater er eksempler på en forstærkningsplan med variabelt forhold.

kompleks adfærd skabes også gennem formning, processen med at lede en organisms adfærd til det ønskede resultat ved hjælp af successiv tilnærmelse til en endelig ønsket adfærd. Skinner gjorde omfattende brug af denne procedure i sine kasser. For eksempel kunne han træne en rotte til at trykke på en bar to gange for at modtage mad ved først at give mad, når dyret flyttede nær baren. Når denne adfærd var blevet lært, Skinner ville begynde at give mad, når rotten rørte baren. Yderligere formning begrænsede forstærkningen til kun, når rotten pressede stangen, til når den pressede stangen og rørte ved den en anden gang, og til sidst kun når den pressede stangen to gange. Selvom det kan tage lang tid, kan operant konditionering på denne måde skabe adfærdskæder, der kun forstærkes, når de er afsluttet.

forstærkning af dyr, hvis de korrekt skelner mellem lignende stimuli, giver forskere mulighed for at teste dyrenes evne til at lære, og de diskriminationer, de kan gøre, er undertiden bemærkelsesværdige. Duer er blevet trænet til at skelne mellem billeder af Charlie brun og de andre Peanuts tegn (Cerella, 1980) og mellem forskellige stilarter af musik og kunst (Porter & Neurer, 1984; Jørgensen & Jørgensen, 1995).

adfærd kan også trænes ved brug af sekundære forstærkere. Mens en primær forstærker inkluderer stimuli, der naturligt foretrækkes eller nydes af organismen, såsom mad, vand og lindring af smerte, er en sekundær forstærker (undertiden kaldet konditioneret forstærker) en neutral begivenhed, der er blevet forbundet med en primær forstærker gennem klassisk konditionering. Et eksempel på en sekundær forstærker ville være fløjten givet af en dyretræner, som over tid har været forbundet med den primære forstærker, mad. Et eksempel på en daglig sekundær forstærker er penge. Vi nyder at have penge, ikke så meget for selve stimulansen, men snarere for de primære forstærkere (de ting, som penge kan købe), som de er forbundet med.

nøgle grillbarer

  • Edvard Thorndike udviklede loven om virkning: princippet om, at svar, der skaber et typisk behageligt resultat i en bestemt situation, er mere tilbøjelige til at forekomme igen i en lignende situation, mens svar, der producerer et typisk ubehageligt resultat, er mindre tilbøjelige til at forekomme igen i situationen.
  • B. F. Skinner udvidede Thorndikes ideer til at udvikle et sæt principper for at forklare operant konditionering.
  • positiv forstærkning styrker et svar ved at præsentere noget, der typisk er behageligt efter svaret, mens negativ forstærkning styrker et svar ved at reducere eller fjerne noget, der typisk er ubehageligt.
  • positiv straf svækker et svar ved at præsentere noget typisk ubehageligt efter svaret, mens negativ straf svækker et svar ved at reducere eller fjerne noget, der typisk er behageligt.
  • forstærkning kan være enten delvis eller kontinuerlig. Delvise forstærkningsplaner bestemmes af, om forstærkningen præsenteres på baggrund af den tid, der går mellem forstærkninger (interval) eller på baggrund af antallet af reaktioner, som organismen engagerer sig i (forhold), og af, om forstærkningen sker på en regelmæssig (fast) eller uforudsigelig (variabel) tidsplan.
  • kompleks adfærd kan skabes gennem formning, processen med at lede en organisms adfærd til det ønskede resultat ved anvendelse af successiv tilnærmelse til en endelig ønsket adfærd.

øvelser og kritisk tænkning

  1. Giv et eksempel fra dagligdagen for hver af følgende: positiv forstærkning, negativ forstærkning, positiv straf, negativ straf.
  2. overvej de forstærkningsteknikker, du kan bruge til at træne en hund til at fange og hente en Frisbee, som du kaster til den.
  3. se følgende to Videoer fra aktuelle tv-udsendelser. Kan du bestemme, hvilke læringsprocedurer der demonstreres?
    1. kontoret: http://www.break.com/usercontent/2009/11/the-office-altoid – eksperiment-1499823
    2. Big Bang teorien : http://www.youtube.com/watch?v=JA96Fba-WHk

Cerella, J. (1980). Duens analyse af billeder. Mønstergenkendelse, 12, 1-6.

Thorndike, E. L. (1898). Animal intelligence: en eksperimentel undersøgelse af de associative processer hos dyr. Bøger fra American Psychological Association.

Billedattributioner

Figur 8.6: Tilpasset fra Kassin (2003).

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

More: