Learning Objectives
- Outline the principles of operant conditioning.
- selitä, miten oppimista voidaan muotoilla vahvistusaikataulujen ja toissijaisten vahvistimien avulla.
klassisessa ehdollistamisessa eliö oppii yhdistämään uusia ärsykkeitä luonnollisiin biologisiin reaktioihin, kuten syljeneritykseen tai pelkoon. Organismi ei opi mitään uutta, vaan alkaa tehdä olemassa olevaa käyttäytymistä uuden signaalin läsnä ollessa. Operantti ehdollistaminen taas on oppimista, joka tapahtuu käyttäytymisen seurausten perusteella ja johon voi liittyä uusien tekojen oppimista. Operatiivinen ehdollistaminen tapahtuu, kun koira vierii käskystä, koska sitä on ylistetty siitä menneisyydessä, kun koulukiusaaja uhkaa luokkatovereitaan, koska näin hän saa tahtonsa läpi, ja kun lapsi saa hyviä arvosanoja, koska hänen vanhempansa uhkaavat rangaista häntä, jos hän ei tee niin. Toimivassa ehdollistamisessa organismi oppii omien tekojensa seurauksista.
miten vahvistaminen ja rankaiseminen vaikuttavat käyttäytymiseen: Thorndiken ja Skinnerin
psykologi Edward L. Thorndike (1874-1949) oli ensimmäinen tiedemies, joka tutki systemaattisesti operanttista ehdollistamista. Tutkimuksessaan Thorndike (1898) havaitsi kissoja, jotka oli sijoitettu ”pulmalaatikkoon”, josta ne yrittivät paeta (”Video Clip: Thorndike ’s Puzzle Box”). Aluksi kissat raapivat, purivat ja läimäyttivät sattumanvaraisesti, ilman mitään käsitystä siitä, miten päästä ulos. Mutta lopulta, ja vahingossa, he painoivat vipua, joka avasi oven ja poistuivat palkintonsa, kalanpala. Seuraavan kerran kun kissaa rajoitettiin laatikon sisällä, se yritti vähemmän tehottomia vastauksia ennen onnistuneen paon suorittamista, ja useiden kokeiden jälkeen kissa oppi lähes välittömästi tekemään oikean vastauksen.
näiden muutosten havainnointi kissojen käyttäytymisessä sai Thorndiken kehittämään vaikutuslakinsa, periaatteen, jonka mukaan vasteet, jotka aiheuttavat tyypillisesti miellyttävän lopputuloksen tietyssä tilanteessa, tulevat todennäköisemmin toistumaan samanlaisessa tilanteessa, kun taas vasteet, jotka tuottavat tyypillisesti epämiellyttävän lopputuloksen, eivät todennäköisesti toistu tilanteessa (Thorndike, 1911). Vaikutuslain ydin on se, että onnistuneita vastauksia, koska ne ovat miellyttäviä, ”leimataan” kokemus ja näin tapahtuu useammin. Epäonnistuneet vastaukset, jotka tuottavat epämiellyttäviä kokemuksia, ”tukahdutetaan” ja niitä esiintyy myöhemmin harvemmin.
kun Thorndike asetti kissansa pulmalaatikkoon, hän huomasi, että ne oppivat osallistumaan tärkeään pakokäyttäytymiseen nopeammin jokaisen kokeilun jälkeen. Thorndike kuvasi vahvistamista seuraavan oppimisen vaikutuslain kannalta.
Watch: ”Thorndiken Pulmalaatikko” : http://www.youtube.com/watch?v=BDujDOLre-8
vaikutusvaltainen käyttäytymispsykologi B. F. Skinner (1904-1990) laajensi Thorndiken ajatuksia kehittääkseen kokonaisvaltaisempia periaatteita operanttisen ehdollistamisen selittämiseksi. Skinner loi erityisesti suunniteltuja ympäristöjä, joita kutsutaan operanttikammioiksi (joita yleensä kutsutaan Skinner-laatikoiksi) opiskellakseen järjestelmällisesti oppimista. Skinner-laatikko (operanttikammio) on rakenne, joka on tarpeeksi suuri jyrsijälle tai linnulle ja joka sisältää tangon tai avaimen, jota eliö voi painaa tai nokkia vapauttaakseen ruokaa tai vettä. Se sisältää myös laitteen, joka tallentaa eläimen vasteet (Kuva 8.5).
Skinnerin kokeista keskeisin oli melko samanlainen kuin Thorndiken kissoilla tekemä tutkimus. Kammioon pantu rotta reagoi odotetusti, kipitti laatikon ympärillä ja nuuhkaisi ja raapaisi lattiaa ja seiniä. Lopulta rotta törmäsi vivuun,jota se painoi vapauttaakseen ravintopellettejä. Seuraavalla kierroksella rotta käytti hieman vähemmän aikaa vivun painamiseen, ja peräkkäisissä kokeissa vivun painamiseen kulunut aika lyheni koko ajan. Pian rotta painoi vipua niin nopeasti kuin pystyi syömään ilmestynyttä ruokaa. Kuten vaikutuslaki ennusti, rotta oli oppinut toistamaan toimet, jotka aiheuttivat ruoan ja lopettamaan toimet, jotka eivät.
Skinner tutki yksityiskohtaisesti, miten eläimet muuttivat käyttäytymistään vahvistamisen ja rankaisemisen avulla, ja hän kehitti termejä, jotka selittivät toiminnallisen oppimisen prosesseja (taulukko 8.1, ”miten positiivinen ja negatiivinen vahvistaminen ja rankaiseminen vaikuttavat käyttäytymiseen”). Skinner käytti termiä vahvistaja tarkoittamaan mitä tahansa tapahtumaa, joka vahvistaa tai lisää käyttäytymisen todennäköisyyttä, ja termiä rankaisija tarkoittamaan mitä tahansa tapahtumaa, joka heikentää tai vähentää käyttäytymisen todennäköisyyttä. Ja hän käytti termejä positiivinen ja negatiivinen viitata siihen, onko vahvistaminen oli esitetty tai poistettu, vastaavasti. Positiivinen vahvistaminen siis vahvistaa vastetta esittämällä vasteen jälkeen jotain miellyttävää, ja negatiivinen vahvistaminen vahvistaa vastetta vähentämällä tai poistamalla jotain epämiellyttävää. Esimerkiksi se, että lapselle annetaan kiitosta kotitehtävien suorittamisesta, on myönteistä vahvistusta, kun taas aspiriinin käyttö päänsäryn aiheuttaman kivun lievittämiseksi merkitsee negatiivista vahvistusta. Molemmissa tapauksissa vahvistaminen lisää todennäköisyyttä, että käyttäytymistä tapahtuu tulevaisuudessa uudelleen.
Operant conditioning term | Description | Outcome | Example |
---|---|---|---|
positiivinen vahvistaminen | Lisää tai lisää miellyttävää ärsykettä | käyttäytyminen vahvistuu | antaa oppilaalle palkinnon sen jälkeen, kun hän on saanut kympin kokeesta |
negatiivinen vahvistaminen | epämiellyttävän ärsykkeen vähentäminen tai poistaminen | käyttäytyminen vahvistuu | kipua poistavien kipulääkkeiden käyttö lisää todennäköisyyttä, että särkylääkkeitä taas |
positiivinen rangaistus | läsnä tai lisätä epämiellyttävää ärsykettä | käytös heikkenee | antaa oppilaalle ylimääräisiä läksyjä sen jälkeen, kun hän käyttäytyi huonosti luokassa |
negatiivinen rangaistus | vähennä tai poista miellyttävä ärsyke | käyttäytyminen on heikentynyt | nuoren tietokoneen ottaminen pois sen jälkeen, kun hän ei ole saanut kotiintuloaikaa |
vahvistaminen, joko positiivinen tai negatiivinen, toimii lisäämällä todennäköisyyttä käyttäytymistä. Rangaistuksella taas tarkoitetaan mitä tahansa tapahtumaa, joka heikentää tai vähentää käyttäytymisen todennäköisyyttä. Positiivinen rangaistus heikentää vastetta esittämällä vasteen jälkeen jotain epämiellyttävää, kun taas negatiivinen rangaistus heikentää vastetta alentamalla tai poistamalla jotain miellyttävää. Lapsi, joka on kotiarestissa taisteltuaan sisaruksen kanssa (positiivinen rangaistus) tai joka menettää mahdollisuuden mennä välitunnille saatuaan huonon arvosanan (negatiivinen rangaistus), ei todennäköisesti toista näitä käyttäytymismalleja.
vaikka ero vahvistuksen (joka lisää käyttäytymistä) ja rangaistuksen (joka vähentää sitä) välillä on yleensä selvä, joissakin tapauksissa on vaikea määrittää, onko vahvistin positiivinen vai negatiivinen. Kuumana päivänä viileä tuuli voidaan nähdä positiivisena vahvistimena (koska se tuo viileää ilmaa) tai negatiivisena vahvistimena (koska se poistaa kuumaa ilmaa). Muissa tapauksissa vahvistaminen voi olla sekä positiivista että negatiivista. Joku voi polttaa savuketta sekä siksi, että se tuottaa mielihyvää (positiivista vahvistusta), että siksi, että se poistaa nikotiinin himon (negatiivista vahvistusta).
on myös tärkeää huomata, että vahvistaminen ja rankaiseminen eivät ole vain toistensa vastakohtia. Positiivisen vahvistuksen käyttö käyttäytymisen muuttamisessa on lähes aina tehokkaampaa kuin rangaistuksen käyttäminen. Tämä johtuu siitä, että positiivinen vahvistaminen saa henkilön tai eläimen tuntemaan olonsa paremmaksi, mikä auttaa luomaan positiivisen suhteen vahvistuksen antajaan. Arkielämässä tehokkaita myönteisen vahvistamisen muotoja ovat sanallinen kehuminen tai hyväksyntä, aseman tai arvostuksen myöntäminen sekä suora rahallinen korvaus. Rangaistus taas aiheuttaa todennäköisemmin vain tilapäisiä muutoksia käyttäytymisessä, koska se perustuu pakottamiseen ja luo tyypillisesti negatiivisen ja kontradiktorisen suhteen vahvistuksen antajaan. Kun rangaistuksen antaja poistuu tilanteesta, ei-toivottu käytös todennäköisesti palaa.
monimutkaisten käyttäytymismallien luominen Operanttisen ehdollistamisen avulla
Ehkä muistat katsoneesi elokuvaa tai olleesi näyttelyssä, jossa eläin — ehkä koira, hevonen tai delfiini — teki joitakin melko uskomattomia asioita. Kouluttaja antoi käskyn ja delfiini ui altaan pohjalle, otti nenäänsä sormuksen, hyppäsi vedestä ilmassa olevan vanteen kautta, sukelsi uudelleen altaan pohjalle, otti toisen sormuksen ja vei sitten molemmat Sormukset altaan reunalla olevalle kouluttajalle. Eläin koulutettiin temppuun, ja sen kouluttamiseen käytettiin operantin ehdollistamisen periaatteita. Mutta nämä monimutkaiset käyttäytymismallit ovat kaukana niistä yksinkertaisista ärsyke-vastesuhteista, joita olemme tähän mennessä tarkastelleet. Miten vahvistamista voidaan käyttää tällaisten monimutkaisten käyttäytymismallien luomiseen?
yksi tapa laajentaa operanttioppimisen käyttöä on muuttaa vahvistuksen soveltamisaikataulua. Tähän pisteeseen olemme vain keskustelleet jatkuva vahvistaminen aikataulu, jossa haluttu vastaus vahvistetaan joka kerta, kun se tapahtuu; aina kun koira vierii, se saa esimerkiksi keksin. Jatkuva vahvistaminen johtaa suhteellisen nopeaan oppimiseen, mutta myös halutun käyttäytymisen nopeaan häviämiseen vahvistimen kadottua. Ongelmana on, että koska organismi on tottunut saamaan vahvistuksen jokaisen käytöksen jälkeen, vastaaja voi luovuttaa nopeasti, kun sitä ei näy.
useimmat reaalimaailman vahvistimet eivät ole jatkuvia, vaan ne tapahtuvat osittaisella (tai ajoittaisella) vahvistusohjelmalla — aikataululla, jossa vasteita joskus vahvistetaan ja joskus ei. Jatkuvaan vahvistamiseen verrattuna osittaisvahvistusaikataulut johtavat hitaampaan alkuvaiheen oppimiseen, mutta ne johtavat myös suurempaan vastustuskykyyn sukupuuttoa vastaan. Koska vahvistus ei ilmesty jokaisen käytöksen jälkeen, oppijalta kestää kauemmin todeta, että palkkiota ei enää tule, ja siten häviäminen on hitaampaa. Osittaisvahvistusaikataulujen neljä tyyppiä on tiivistetty taulukossa 8.2, ” Vahvistusaikataulut.”
Vahvistusaikataulu | selitys | reaalimaailman esimerkki |
---|---|---|
kiinteä suhde | käyttäytyminen vahvistuu tietyn vastemäärän jälkeen. | Tehdastyöntekijät, joille maksetaan heidän tuottamiensa tuotteiden määrän mukaan |
muuttuja-suhde | käyttäytyminen vahvistuu keskimääräisen, mutta ennalta arvaamattoman vastemäärän jälkeen. | kolikkopelien ja muiden rahapelien voitot |
Vakioväli | käyttäytyminen vahvistuu ensimmäisen vasteen osalta tietyn ajan kuluttua. | kuukausipalkkaa ansaitsevat |
vaihteleva-intervalli | käyttäytyminen vahvistuu ensimmäisen vasteen osalta, kun keskimääräinen, mutta arvaamaton, aika on kulunut. | henkilö, joka tarkistaa sähköpostiviestejä |
Osittaisvahvistusaikataulut määräytyvät sen mukaan, onko vahvistaminen esitetty vahvistamisen välillä kuluvan ajan perusteella (aikaväli) vai eliön aikaansaamien vasteiden lukumäärän perusteella (suhde), ja sen perusteella, tapahtuuko vahvistaminen säännöllisessä (kiinteässä) vai ennakoimattomassa (muuttuvassa) aikataulussa. Kiinteävälisessä aikataulussa vahvistaminen tapahtuu, kun ensimmäinen vaste tehdään tietyn ajan kuluttua. Esimerkiksi yhden minuutin määräaikaisella aikataululla eläin saa vahvistuksen joka minuutti, olettaen, että se osallistuu käyttäytymiseen vähintään kerran minuutin aikana. Kuten kuvasta 8.6, ”esimerkkejä eri Osittaisvahvistusaikataulujen mukaisesti koulutettujen eläinten Vastemalleista”, kiinteiden jaksojen mukaisilla eläimillä on taipumus hidastaa vastemalliaan heti vahvistuksen jälkeen, mutta lisätä käyttäytymistä uudelleen seuraavan vahvistuksen ajan lähestyessä. (Useimmat opiskelijat opiskelevat tentteihin samalla tavalla.) Vaihtelevissa intervalliaikatauluissa vahvistimet esiintyvät intervalliaikataulussa, mutta ajoitus vaihtelee keskimääräisen intervallin ympärillä, jolloin vahvistimen todellinen ulkonäkö on arvaamaton. Yksi esimerkki voisi olla sähköpostisi tarkistaminen: sinua vahvistetaan vastaanottamalla viestejä, joita tulee keskimäärin vaikkapa 30 minuutin välein, mutta vahvistaminen tapahtuu vain satunnaisesti. Intervallivahvistusaikataulut tuottavat yleensä hitaita ja tasaisia vastausnopeuksia.
kiinteäsuhdeohjelmassa käyttäytyminen vahvistuu tietyn vastemäärän jälkeen. Rotan käytös voi vahvistua esimerkiksi sen jälkeen, kun se on painanut avainta 20 kertaa, tai myyjä voi saada bonuksen, kun hän on myynyt 10 tuotetta. Kuten näette kuvassa 8.6, ”esimerkkejä Vastemalleja eläinten koulutettu eri osittainen vahvistaminen aikataulut,” kun organismi on oppinut toimimaan mukaisesti kiinteän suhde aikataulu, se pysähtyy vain lyhyesti, kun vahvistaminen tapahtuu ennen paluuta korkea reagointikykyä. Vaihteleva suhdeluku antaa vahvistuksia tietyn, mutta keskimääräisen vastausmäärän jälkeen. Rahan voittaminen peliautomaateista tai lottokupongilla on esimerkki vahvistuksesta, joka tapahtuu vaihtelevassa suhteessa. Esimerkiksi hedelmäpeli (KS. Kuva 8.7, ”hedelmäpeli”) voidaan ohjelmoida tarjoamaan voitto keskimäärin joka 20.kerta, kun käyttäjä vetää kahvasta. Suhdeaikatauluilla on taipumus tuottaa suuria vastausprosentteja, koska vahvistaminen lisääntyy vastausten määrän kasvaessa.
kompleksisia käyttäytymismalleja syntyy myös muotoilulla, joka ohjaa eliön käyttäytymistä haluttuun lopputulokseen käyttämällä peräkkäistä approksimaatiota lopulliseen haluttuun käyttäytymiseen. Skinner hyödynsi tätä menetelmää laajasti laatikoissaan. Hän saattoi esimerkiksi kouluttaa rotan painamaan tankoa kaksi kertaa saadakseen ruokaa, antamalla ensin ruokaa, kun eläin liikkui baarin lähellä. Kun tuo käytös oli opittu, Skinnari alkoi tarjota ruokaa vasta, kun rotta kosketti baaritiskiä. Edelleen muotoiltuna raudoitus rajoittui vain siihen, kun rotta painoi tankoa, siihen, kun se painoi tankoa ja kosketti sitä toisen kerran, ja lopulta vain siihen, kun se painoi tankoa kahdesti. Vaikka se voi kestää kauan, tällä tavalla operatiivinen ehdollistaminen voi luoda käyttäytymisketjuja, jotka vahvistuvat vasta niiden valmistuttua.
eläinten vahvistaminen, jos ne tekevät oikean eron samankaltaisten ärsykkeiden välillä, antaa tutkijoille mahdollisuuden testata eläinten oppimiskykyä, ja niiden tekemät erot ovat joskus huomattavia. Kyyhkyset on koulutettu erottamaan toisistaan Jaska Jokusen ja muiden Peanuts-hahmojen kuvat (Cerella, 1980) sekä eri musiikki-ja taiteenlajit (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).
käyttäytymistä voidaan kouluttaa myös toissijaisten vahvistimien avulla. Siinä missä ensisijainen vahvistin sisältää ärsykkeitä, joita organismi luonnollisesti suosii tai joista se nauttii, kuten ruokaa, vettä ja kivun lievitystä, toissijainen vahvistin (jota joskus kutsutaan ehdollistuneeksi vahvistajaksi) on neutraali tapahtuma, joka on liittynyt ensisijaiseen vahvistimeen klassisen ehdollistumisen kautta. Esimerkki toissijaisesta vahvistimesta olisi eläintenkouluttajan antama pilli, joka on aikojen saatossa yhdistetty ensisijaiseen vahvistimeen, ruokaan. Esimerkki arjen toissijaisesta vahvistajasta on raha. Me nautimme siitä, että meillä on rahaa, ei niinkään itse ärsykettä varten, vaan pikemminkin niitä ensisijaisia vahvistajia varten (asioita, joita rahalla voi ostaa), joihin se liittyy.
Key Takeaways
- B. F. Skinner laajensi Thorndiken ajatuksia kehittääkseen joukon periaatteita operanttisen ehdollistumisen selittämiseksi.
- positiivinen vahvistaminen vahvistaa vastetta esittämällä jotain, joka on tyypillisesti miellyttävää vasteen jälkeen, kun taas negatiivinen vahvistaminen vahvistaa vastetta vähentämällä tai poistamalla jotain, joka on tyypillisesti epämiellyttävää.
- positiivinen rangaistus heikentää vastetta esittämällä vasteen jälkeen jotain tyypillisesti epämiellyttävää, kun taas negatiivinen rangaistus heikentää vastetta vähentämällä tai poistamalla jotain tyypillisesti miellyttävää.
- vahvistaminen voi olla joko osittaista tai jatkuvaa. Osittaisvahvistusaikataulut määräytyvät sen mukaan, onko vahvistaminen esitetty vahvistusten välillä kuluvan ajan perusteella (aikaväli) vai eliön aikaansaamien vasteiden lukumäärän perusteella (suhde), ja sen perusteella, tapahtuuko vahvistaminen säännöllisessä (kiinteässä) vai ennakoimattomassa (muuttuvassa) aikataulussa.
- monimutkaisia käyttäytymismalleja voi syntyä muotoilemalla, eli ohjaamalla organismin käyttäytymistä haluttuun lopputulokseen käyttämällä peräkkäistä approksimaatiota lopulliseen haluttuun käyttäytymiseen.
harjoitukset ja kriittinen ajattelu
- antavat arkielämästä esimerkin jokaisesta seuraavista: positiivinen vahvistaminen, negatiivinen vahvistaminen, positiivinen rangaistus, negatiivinen rangaistus.
- harkitse vahvistustekniikoita, joilla voisit kouluttaa koiran ottamaan kiinni ja hakemaan sille heittämäsi Frisbeen.
- katso seuraavat kaksi videota ajankohtaisista televisio-ohjelmista. Osaatko määritellä, mitä oppimistapoja osoitetaan?
- the Office: http://www.break.com/usercontent/2009/11/the-office-altoid – experiment-1499823
- The Big Bang Theory : http://www.youtube.com/watch?v=JA96Fba-WHk
Cerella, J. (1980). Kyyhkynen analysoi kuvia. Hahmontunnistus, 12, 1-6.
Thorndike, E. L. (1898). Animal intelligence: an experimental study of the associative processes in animals. Washington, DC: American Psychological Association.
Kuvan Attribuutit
Kuva 8. 6: Sovitettu Kassinista (2003).