8.2 schimbarea comportamentului prin întărire și pedeapsă: condiționarea operantă – Introducere în Psihologie – Ediția 1 Canadiană

obiective de învățare
cum întărirea și pedepsirea influențează comportamentul: cercetarea lui Thorndike și Skinner
crearea unor comportamente complexe prin condiționarea operantă
idei cheie
exercițiile și gândirea critică
Atribuții Imagine

obiective de învățare

schițează principiile condiționării operante.
explicați modul în care învățarea poate fi modelată prin utilizarea programelor de întărire și a întăritorilor secundari.

în condiționarea clasică, organismul învață să asocieze noi stimuli cu răspunsuri biologice naturale, cum ar fi salivarea sau frica. Organismul nu învață ceva nou, ci mai degrabă începe să efectueze un comportament existent în prezența unui nou semnal. Condiționarea operantă, pe de altă parte, este învățarea care are loc pe baza consecințelor comportamentului și poate implica învățarea de noi acțiuni. Condiționarea operantă apare atunci când un câine se rostogolește la comandă, deoarece a fost lăudat pentru că a făcut acest lucru în trecut, când un bătăuș din sala de școală își amenință colegii de clasă, deoarece acest lucru îi permite să-și facă drumul și când un copil primește note bune, deoarece părinții ei amenință să o pedepsească dacă nu o face. În condiționarea operantă, organismul învață din consecințele propriilor acțiuni.

cum întărirea și pedepsirea influențează comportamentul: cercetarea lui Thorndike și Skinner

psihologul Edward L. Thorndike (1874-1949) a fost primul om de știință care a studiat sistematic condiționarea operantă. În cercetările sale, Thorndike (1898) a observat pisici care fuseseră plasate într-o „cutie de puzzle” din care încercau să scape („Video Clip: cutia de Puzzle a lui Thorndike”). La început, pisicile s-au zgâriat, s-au mușcat și s-au lovit la întâmplare, fără nicio idee despre cum să iasă. Dar în cele din urmă, și accidental, au apăsat maneta care a deschis ușa și a ieșit la premiul lor, o bucată de pește. Data viitoare când pisica a fost constrânsă în cutie, a încercat mai puține răspunsuri ineficiente înainte de a efectua evadarea cu succes și, după mai multe încercări, pisica a învățat să facă aproape imediat răspunsul corect.

observarea acestor schimbări în comportamentul pisicilor l-a determinat pe Thorndike să-și dezvolte legea efectului, principiul că răspunsurile care creează un rezultat tipic plăcut într-o anumită situație sunt mai susceptibile să apară din nou într-o situație similară, în timp ce răspunsurile care produc un rezultat tipic neplăcut sunt mai puțin susceptibile să apară din nou în situație (Thorndike, 1911). Esența legii efectului este că răspunsurile reușite, deoarece sunt plăcute, sunt „ștampilate” de experiență și astfel apar mai frecvent. Răspunsurile nereușite, care produc experiențe neplăcute, sunt „șterse” și ulterior apar mai rar.

când Thorndike și-a pus pisicile într-o cutie de puzzle, a descoperit că au învățat să se angajeze în comportamentul important de evadare mai repede după fiecare proces. Thorndike a descris învățarea care urmează întăririi în ceea ce privește legea efectului.

uita-te la: „caseta de Puzzle Thorndike lui” : http://www.youtube.com/watch?v=BDujDOLre-8

influentul psiholog comportamental B. F. Skinner (1904-1990) s-a extins asupra ideilor lui Thorndike pentru a dezvolta un set mai complet de principii pentru a explica condiționarea operantă. Skinner a creat medii special concepute cunoscute sub numele de camere operante (numite de obicei cutii Skinner) pentru a studia sistematic învățarea. O cutie Skinner (camera operantă) este o structură suficient de mare pentru a se potrivi unei rozătoare sau păsări și care conține o bară sau o cheie pe care organismul o poate apăsa sau ciuguli pentru a elibera alimente sau apă. De asemenea, conține un dispozitiv pentru înregistrarea răspunsurilor animalului (figura 8.5).

cel mai de bază dintre experimentele lui Skinner a fost destul de similar cu cercetarea lui Thorndike cu pisici. Un șobolan plasat în cameră a reacționat așa cum s-ar putea aștepta, alergând în jurul cutiei și adulmecând și zgâriind podeaua și pereții. În cele din urmă, șobolanul a nimerit o pârghie, pe care a apăsat-o pentru a elibera pelete de alimente. Data viitoare, șobolanul a luat puțin mai puțin timp pentru a apăsa maneta, iar la încercări succesive, timpul necesar pentru a apăsa maneta a devenit din ce în ce mai scurt. Curând șobolanul apăsa maneta cât de repede putea mânca mâncarea care apărea. Așa cum a prezis legea efectului, șobolanul a învățat să repete acțiunea care a adus mâncarea și să înceteze acțiunile care nu au făcut-o.

Skinner a studiat, în detaliu, modul în care animalele și-au schimbat comportamentul prin întărire și pedeapsă și a dezvoltat termeni care explicau procesele de învățare operantă (tabelul 8.1, „modul în care întărirea și pedeapsa pozitive și Negative influențează comportamentul”). Skinner a folosit termenul întăritor pentru a se referi la orice eveniment care întărește sau crește probabilitatea unui comportament, iar termenul pedepsitor pentru a se referi la orice eveniment care slăbește sau scade probabilitatea unui comportament. Și a folosit termenii pozitiv și negativ pentru a se referi la faptul dacă a fost prezentată sau, respectiv, eliminată o întărire. Astfel, întărirea pozitivă întărește un răspuns prezentând ceva plăcut după răspuns, iar întărirea negativă întărește un răspuns prin reducerea sau eliminarea a ceva neplăcut. De exemplu, oferirea unui copil de laudă pentru finalizarea temelor sale reprezintă o întărire pozitivă, în timp ce luarea aspirinei pentru a reduce durerea unei dureri de cap reprezintă o întărire negativă. În ambele cazuri, întărirea face mai probabil ca comportamentul să apară din nou în viitor.

Figura 8.5 Cutie Skinner. B. F. Skinner a folosit o cutie Skinner pentru a studia învățarea operantă. Cutia conține o bară sau o cheie pe care organismul o poate apăsa pentru a primi alimente și apă și un dispozitiv care înregistrează răspunsurile organismului.

Tabelul 8.1 modul în care întărirea și pedeapsa pozitive și Negative influențează comportamentul.
termen de condiționare operantă	descriere	rezultat	exemplu

consolidarea pozitivă	adăugarea sau creșterea unui stimul plăcut	comportamentul este consolidat	acordarea unui premiu unui student după ce primește un A la un test
armare negativă	reducerea sau eliminarea unui stimul neplăcut	comportamentul este întărit	luarea de analgezice care elimină durerea crește probabilitatea de a lua analgezice din nou
pedeapsă pozitivă	prezentați sau adăugați un stimul neplăcut	comportamentul este slăbit	oferind unui elev teme suplimentare după ce se comportă greșit în clasă
pedeapsă negativă	reduceți sau eliminați un stimul plăcut	comportamentul este slăbit	luând computerul unui adolescent după ce acesta ratează starea de asediu

consolidarea, fie pozitivă, fie negativă, funcționează prin creșterea probabilității unui comportament. Pedeapsa, pe de altă parte, se referă la orice eveniment care slăbește sau reduce probabilitatea unui comportament. Pedeapsa pozitivă slăbește un răspuns prezentând ceva neplăcut după răspuns, în timp ce pedeapsa negativă slăbește un răspuns prin reducerea sau eliminarea a ceva plăcut. Un copil care este pedepsit după ce s-a luptat cu un frate (pedeapsă pozitivă) sau care pierde ocazia de a merge la pauză după ce a obținut o notă slabă (pedeapsă negativă) este mai puțin probabil să repete aceste comportamente.

deși distincția dintre întărire (care crește comportamentul) și pedeapsă (care o scade) este de obicei clară, în unele cazuri este dificil să se determine dacă un întăritor este pozitiv sau negativ. Într-o zi fierbinte, o briză rece ar putea fi văzută ca un întăritor pozitiv (pentru că aduce aer rece) sau un întăritor negativ (pentru că elimină aerul cald). În alte cazuri, armarea poate fi atât pozitivă, cât și negativă. Se poate fuma o țigară atât pentru că aduce plăcere (întărire pozitivă), cât și pentru că elimină pofta de nicotină (întărire negativă).

de asemenea, este important să rețineți că întărirea și pedeapsa nu sunt pur și simplu opuse. Utilizarea întăririi pozitive în schimbarea comportamentului este aproape întotdeauna mai eficientă decât utilizarea pedepsei. Acest lucru se datorează faptului că întărirea pozitivă face ca persoana sau animalul să se simtă mai bine, ajutând la crearea unei relații pozitive cu persoana care furnizează întărirea. Tipurile de întărire pozitivă care sunt eficiente în viața de zi cu zi includ lauda sau aprobarea verbală, acordarea statutului sau prestigiului și plata financiară directă. Pedeapsa, pe de altă parte, este mai probabil să creeze doar schimbări temporare în comportament, deoarece se bazează pe constrângere și creează de obicei o relație negativă și contradictorie cu persoana care furnizează întărirea. Atunci când persoana care oferă pedeapsa părăsește situația, comportamentul nedorit este probabil să revină.

crearea unor comportamente complexe prin condiționarea operantă

poate vă amintiți că ați vizionat un film sau ați fost la un spectacol în care un animal — poate un câine, un cal sau un delfin — a făcut unele lucruri destul de uimitoare. Antrenorul a dat o comandă și delfinul a înotat până la fundul piscinei, a ridicat un inel pe nas, a sărit din apă printr-un cerc în aer, s-a scufundat din nou în fundul piscinei, a ridicat un alt inel și apoi a dus ambele inele la antrenor la marginea piscinei. Animalul a fost instruit să facă trucul, iar principiile condiționării operante au fost folosite pentru a-l antrena. Dar aceste comportamente complexe sunt departe de simplele relații stimul-răspuns pe care le-am luat în considerare până acum. Cum poate fi folosită întărirea pentru a crea comportamente complexe ca acestea?

o modalitate de a extinde utilizarea învățării operante este de a modifica programul pe care se aplică întărirea. În acest moment am discutat doar un program de întărire continuă, în care răspunsul dorit este întărit de fiecare dată când apare; ori de câte ori câinele se rostogolește, de exemplu, primește un biscuit. Consolidarea continuă are ca rezultat o învățare relativ rapidă, dar și dispariția rapidă a comportamentului dorit odată ce întăritorul dispare. Problema este că, deoarece organismul este obișnuit să primească întărirea după fiecare comportament, respondentul poate renunța rapid atunci când nu apare.

majoritatea armatorilor din lumea reală nu sunt continue; ele apar pe un program de armare parțial (sau intermitent) — un program în care răspunsurile sunt uneori întărite și alteori nu. În comparație cu armarea continuă, programele de armare parțială duc la o învățare inițială mai lentă, dar duc și la o rezistență mai mare la dispariție. Deoarece întărirea nu apare după fiecare comportament, este nevoie de mai mult timp pentru ca elevul să determine că recompensa nu mai vine și, prin urmare, dispariția este mai lentă. Cele patru tipuri de programe de armare parțială sunt rezumate în tabelul 8.2, „programe de armare.”

Tabelul 8.2 Programe De Armare.
programul de armare	explicație	exemplu din lumea reală

raportul fix	comportamentul este consolidat după un anumit număr de răspunsuri.	lucrătorii din fabrică care sunt plătiți în funcție de numărul de produse pe care le produc
raportul variabil	comportamentul este consolidat după un număr mediu, dar imprevizibil, de răspunsuri.	recompense de la slot machines și alte jocuri de noroc
comportamentul cu interval fix	este consolidat pentru primul răspuns după ce a trecut o anumită perioadă de timp.	persoanele care câștigă un salariu lunar
comportamentul cu interval variabil	este consolidat pentru primul răspuns după ce a trecut o perioadă de timp medie, dar imprevizibilă.	persoana care verifică mesajele prin e-mail

programele parțiale de armare sunt determinate de faptul dacă armarea este prezentată pe baza timpului care trece între armare (interval) sau pe baza numărului de răspunsuri pe care organismul le angajează (raport) și dacă armarea are loc într-un program regulat (fix) sau imprevizibil (variabil). Într-un program cu interval fix, întărirea are loc pentru primul răspuns efectuat după ce a trecut o anumită perioadă de timp. De exemplu, pe un interval fix de un minut, animalul primește o întărire în fiecare minut, presupunând că se angajează în comportament cel puțin o dată în timpul minutului. După cum puteți vedea în figura 8.6, „Exemple de modele de răspuns ale animalelor antrenate în diferite programe de întărire parțială”, animalele aflate în programe cu interval fix tind să încetinească răspunsul imediat după întărire, dar apoi să crească din nou comportamentul pe măsură ce timpul următoarei întăriri se apropie. (Majoritatea studenților studiază pentru examene în același mod.) Într-un program cu intervale variabile, întăritorii apar într-un program de intervale, dar calendarul este variat în jurul intervalului mediu, făcând aspectul real al întăritorului imprevizibil. Un exemplu ar putea fi verificarea e-mailului: sunteți întărit prin primirea de mesaje care vin, în medie, să zicem, la fiecare 30 de minute, dar întărirea are loc numai la momente aleatorii. Programele de întărire a intervalelor tind să producă rate lente și constante de răspuns.

figura 8.6 Exemple de modele de răspuns ale animalelor antrenate în conformitate cu diferite programe de întărire parțială. Programele bazate pe numărul de răspunsuri (tipuri de raporturi) induc o rată de răspuns mai mare decât programele bazate pe timpul scurs (tipuri de intervale). De asemenea, programele imprevizibile (tipuri variabile) produc răspunsuri mai puternice decât programele previzibile (tipuri fixe).

într-un program cu raport fix, un comportament este consolidat după un anumit număr de răspunsuri. De exemplu, comportamentul unui șobolan poate fi întărit după ce a apăsat o tastă de 20 de ori sau un agent de vânzări poate primi un bonus după ce a vândut 10 produse. După cum puteți vedea în Figura 8.6, „Exemple de modele de răspuns ale animalelor antrenate în diferite programe de întărire parțială”, odată ce organismul a învățat să acționeze în conformitate cu programul cu raport fix, se va întrerupe doar pentru scurt timp când are loc întărirea înainte de a reveni la un nivel ridicat de reacție. Un program de raport variabil oferă întăritori după un număr specific, dar mediu de răspunsuri. Câștigarea de bani de la slot machines sau pe un bilet de loterie este un exemplu de consolidare care are loc pe un program de raport variabil. De exemplu, un slot machine (a se vedea figura 8.7, „Slot Machine”) pot fi programate pentru a oferi o victorie la fiecare 20 de ori utilizatorul trage mânerul, în medie. Programele de raport tind să producă rate ridicate de răspuns, deoarece întărirea crește odată cu creșterea numărului de răspunsuri.

Figura 8.7 Slot Machine. Slot machines sunt exemple de un program de armare raport variabil.

comportamentele complexe sunt, de asemenea, create prin modelare, procesul de ghidare a comportamentului unui organism către rezultatul dorit prin utilizarea aproximării succesive la un comportament final dorit. Skinner a folosit pe scară largă această procedură în cutiile sale. De exemplu, el ar putea antrena un șobolan să apese un bar de două ori pentru a primi mâncare, furnizând mai întâi hrană atunci când animalul s-a mutat lângă bar. Când acest comportament a fost învățat, Skinner ar începe să furnizeze hrană numai atunci când șobolanul a atins bara. Modelarea ulterioară a limitat armarea doar la momentul în care șobolanul a apăsat bara, la momentul în care a apăsat bara și a atins-o a doua oară și, în final, doar la momentul în care a apăsat bara de două ori. Deși poate dura mult timp, în acest fel condiționarea operantă poate crea lanțuri de comportamente care sunt întărite numai atunci când sunt finalizate.

întărirea animalelor dacă discriminează corect între stimuli similari permite oamenilor de știință să testeze capacitatea animalelor de a învăța, iar discriminările pe care le pot face sunt uneori remarcabile. Porumbeii au fost instruiți să distingă între imaginile lui Charlie Brown și celelalte personaje Peanuts (Cerella, 1980) și între diferite stiluri de muzică și artă (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

comportamentele pot fi, de asemenea, instruite prin utilizarea de întăritori secundari. În timp ce un întăritor primar include stimuli care sunt preferați în mod natural sau de care se bucură organismul, cum ar fi mâncarea, apa și ameliorarea durerii, un întăritor secundar (uneori numit întăritor condiționat) este un eveniment neutru care a devenit asociat cu un întăritor primar prin condiționarea clasică. Un exemplu de întăritor secundar ar fi fluierul dat de un dresor de animale, care a fost asociat de-a lungul timpului cu întăritorul primar, mâncarea. Un exemplu de întăritor secundar de zi cu zi este banii. Ne place să avem bani, nu atât pentru stimulul în sine, ci mai degrabă pentru întăritorii primari (lucrurile pe care banii le pot cumpăra) cu care sunt asociați.

idei cheie

Edward Thorndike a dezvoltat legea efectului: principiul că răspunsurile care creează un rezultat tipic plăcut într-o anumită situație sunt mai susceptibile să apară din nou într-o situație similară, în timp ce răspunsurile care produc un rezultat tipic neplăcut sunt mai puțin susceptibile să apară din nou în situație.
B. F. Skinner a extins ideile lui Thorndike pentru a dezvolta un set de principii pentru a explica condiționarea operantă.
întărirea pozitivă întărește un răspuns prezentând ceva care este de obicei plăcut după răspuns, în timp ce întărirea negativă întărește un răspuns prin reducerea sau eliminarea a ceva care este de obicei neplăcut.
pedeapsa pozitivă slăbește un răspuns prezentând ceva tipic neplăcut după răspuns, în timp ce pedeapsa negativă slăbește un răspuns prin reducerea sau eliminarea a ceva care este de obicei plăcut.
armarea poate fi parțială sau continuă. Programele de armare parțială sunt determinate de faptul dacă armarea este prezentată pe baza timpului care trece între întăriri (interval) sau pe baza numărului de răspunsuri pe care organismul le angajează (raport) și dacă armarea are loc pe un program regulat (fix) sau imprevizibil (variabil).
comportamentele complexe pot fi create prin modelare, procesul de ghidare a comportamentului unui organism către rezultatul dorit prin utilizarea unei aproximări succesive la un comportament final dorit.

exercițiile și gândirea critică

dau un exemplu din viața de zi cu zi a fiecăruia dintre următoarele: întărire pozitivă, întărire negativă, pedeapsă pozitivă, pedeapsă negativă.
luați în considerare tehnicile de întărire pe care le-ați putea folosi pentru a antrena un câine pentru a prinde și a recupera un Frisbee pe care îl aruncați.
urmăriți următoarele două videoclipuri din emisiunile de televiziune actuale. Puteți determina ce proceduri de învățare sunt demonstrate?
1. Biroul: http://www.break.com/usercontent/2009/11/the-office-altoid – experiment-1499823
2. Teoria Big Bang : http://www.youtube.com/watch?v=JA96Fba-WHk

Cerella, J. (1980). Analiza porumbelului a imaginilor. Recunoaștere Model, 12, 1-6.

Thorndike, E. L. (1898). Inteligența animalelor: un studiu experimental al proceselor asociative la animale. Washington, DC: Asociația Psihologică Americană.

Atribuții Imagine

Figura 8.6: Adaptare după Kassin (2003).

Introducere în Psihologie – Ediția 1 Canadiană

obiective de învățare

cum întărirea și pedepsirea influențează comportamentul: cercetarea lui Thorndike și Skinner

crearea unor comportamente complexe prin condiționarea operantă

idei cheie

exercițiile și gândirea critică

Atribuții Imagine

Lasă un răspuns Anulează răspunsul

Mean, Median, Mode, Range Calculator

Maryland crește

Introducere în Psihologie – Ediția 1 Canadiană

obiective de învățare

cum întărirea și pedepsirea influențează comportamentul: cercetarea lui Thorndike și Skinner

crearea unor comportamente complexe prin condiționarea operantă

idei cheie

exercițiile și gândirea critică

Atribuții Imagine

Lasă un răspuns Anulează răspunsul

More:

Mean, Median, Mode, Range Calculator

Maryland crește