Introduzione alla psicologia-1st Canadian Edition

Obiettivi formativi

  1. Delineare i principi del condizionamento operante.
  2. Spiega come l’apprendimento può essere modellato attraverso l’uso di programmi di rinforzo e rinforzi secondari.

Nel condizionamento classico l’organismo impara ad associare nuovi stimoli con risposte biologiche naturali come la salivazione o la paura. L’organismo non impara qualcosa di nuovo, ma piuttosto inizia a svolgere un comportamento esistente in presenza di un nuovo segnale. Il condizionamento operante, d’altra parte, è l’apprendimento che avviene in base alle conseguenze del comportamento e può comportare l’apprendimento di nuove azioni. Il condizionamento operante si verifica quando un cane rotola a comando perché è stato elogiato per averlo fatto in passato, quando un bullo della scuola minaccia i suoi compagni di classe perché così facendo gli permette di ottenere la sua strada, e quando un bambino ottiene buoni voti perché i suoi genitori minacciano di punirla se non lo fa. Nel condizionamento operante l’organismo impara dalle conseguenze delle proprie azioni.

Come il rinforzo e la punizione influenzano il comportamento: La ricerca di Thorndike e Skinner

Lo psicologo Edward L. Thorndike (1874-1949) fu il primo scienziato a studiare sistematicamente il condizionamento operante. Nella sua ricerca Thorndike (1898) ha osservato i gatti che erano stati collocati in una “scatola di puzzle” da cui hanno cercato di fuggire (“Video Clip: Scatola di puzzle di Thorndike”). In un primo momento i gatti graffiato, bit, e schiacciato a casaccio, senza alcuna idea di come uscire. Ma alla fine, e accidentalmente, hanno premuto la leva che ha aperto la porta ed è uscito al loro premio, un pezzo di pesce. La prossima volta che il gatto è stato costretto all’interno della scatola, ha tentato meno delle risposte inefficaci prima di eseguire la fuga di successo, e dopo diverse prove il gatto ha imparato a fare quasi immediatamente la risposta corretta.

L’osservazione di questi cambiamenti nel comportamento dei gatti ha portato Thorndike a sviluppare la sua legge di effetto, il principio che le risposte che creano un risultato tipicamente piacevole in una situazione particolare hanno maggiori probabilità di ripetersi in una situazione simile, mentre le risposte che producono un risultato tipicamente spiacevole hanno meno probabilità di ripetersi nella situazione (Thorndike, 1911). L’essenza della legge di effetto è che le risposte di successo, perché sono piacevoli, sono “timbrate” dall’esperienza e quindi si verificano più frequentemente. Le risposte non riuscite, che producono esperienze spiacevoli, vengono “eliminate” e successivamente si verificano meno frequentemente.

Quando Thorndike mise i suoi gatti in una scatola di puzzle, scoprì che imparavano a impegnarsi nell’importante comportamento di fuga più velocemente dopo ogni prova. Thorndike ha descritto l’apprendimento che segue il rinforzo in termini di legge di effetto.

Orologio: “Scatola di puzzle di Thorndike” : http://www.youtube.com/watch?v=BDujDOLre-8

L’influente psicologo comportamentale B. F. Skinner (1904-1990) ha ampliato le idee di Thorndike per sviluppare un insieme più completo di principi per spiegare il condizionamento operante. Skinner ha creato ambienti appositamente progettati noti come camere operanti (di solito chiamati Skinner box) per studiare sistematicamente l’apprendimento. Una Skinner box (camera operante) è una struttura abbastanza grande da contenere un roditore o un uccello e che contiene una barra o una chiave che l’organismo può premere o beccare per rilasciare cibo o acqua. Contiene anche un dispositivo per registrare le risposte dell’animale (Figura 8.5).

Il più basilare degli esperimenti di Skinner era abbastanza simile alla ricerca di Thorndike sui gatti. Un topo posto nella camera reagì come ci si potrebbe aspettare, correndo per la scatola e annusando e artigliando il pavimento e le pareti. Alla fine il ratto si imbatté in una leva, che premette per rilasciare pellet di cibo. La volta successiva, il ratto impiegò un po ‘ meno tempo per premere la leva, e nelle prove successive, il tempo impiegato per premere la leva divenne sempre più breve. Presto il topo premeva la leva più velocemente che poteva mangiare il cibo che appariva. Come previsto dalla legge di effetto, il ratto aveva imparato a ripetere l’azione che ha portato il cibo e cessare le azioni che non lo hanno fatto.

Skinner ha studiato, in dettaglio, come gli animali hanno cambiato il loro comportamento attraverso il rinforzo e la punizione, e ha sviluppato termini che spiegavano i processi di apprendimento operante (Tabella 8.1, “Come il rinforzo e la punizione positivi e negativi influenzano il comportamento”). Skinner ha usato il termine reinforcer per riferirsi a qualsiasi evento che rafforza o aumenta la probabilità di un comportamento, e il termine punisher per riferirsi a qualsiasi evento che indebolisce o diminuisce la probabilità di un comportamento. E ha usato i termini positivo e negativo per riferirsi a se un rinforzo è stato presentato o rimosso, rispettivamente. Pertanto, il rinforzo positivo rafforza una risposta presentando qualcosa di piacevole dopo la risposta, e il rinforzo negativo rafforza una risposta riducendo o rimuovendo qualcosa di spiacevole. Ad esempio, dare un elogio a un bambino per aver completato i compiti rappresenta un rinforzo positivo, mentre l’assunzione di aspirina per ridurre il dolore di un mal di testa rappresenta un rinforzo negativo. In entrambi i casi, il rinforzo rende più probabile che il comportamento si verifichi di nuovo in futuro.

Figura 8.5 Scatola Skinner. B. F. Skinner ha usato una scatola di Skinner per studiare l’apprendimento operante. La scatola contiene una barra o una chiave che l’organismo può premere per ricevere cibo e acqua e un dispositivo che registra le risposte dell’organismo.
Tabella 8.1 Come il rinforzo positivo e negativo e la punizione influenzano il comportamento.
condizionamento termine Descrizione Risultato Esempio
Il rinforzo positivo Aggiungere o aumentare un piacevole stimolo Comportamento è rinforzato Dare a uno studente un premio dopo che lui o lei ottiene un Un un test
rinforzo Negativo Ridurre o rimuovere uno stimolo spiacevole Comportamento è rinforzato Prendere antidolorifici che eliminano il dolore, aumenta la probabilità che si avrà antidolorifici di nuovo
punizione Positiva Presente o aggiungere uno stimolo spiacevole Comportamento è indebolito Dando uno studente extra compiti a casa dopo che lui o lei si comporta male in classe
Punizione negativa Ridurre o rimuovere un piacevole stimolo Comportamento è indebolito portando via un computer teen dopo che lui o lei manca il coprifuoco

di Rinforzo, positivo o negativo, funziona aumentando la probabilità di un comportamento. La punizione, d’altra parte, si riferisce a qualsiasi evento che indebolisce o riduce la probabilità di un comportamento. La punizione positiva indebolisce una risposta presentando qualcosa di spiacevole dopo la risposta, mentre la punizione negativa indebolisce una risposta riducendo o rimuovendo qualcosa di piacevole. Un bambino che è a terra dopo aver combattuto con un fratello (punizione positiva) o che perde l’opportunità di andare in pausa dopo aver ottenuto un voto scarso (punizione negativa) ha meno probabilità di ripetere questi comportamenti.

Sebbene la distinzione tra rinforzo (che aumenta il comportamento) e punizione (che lo diminuisce) sia generalmente chiara, in alcuni casi è difficile determinare se un rinforzo è positivo o negativo. In una giornata calda una brezza fresca potrebbe essere vista come un rinforzo positivo (perché porta aria fresca) o un rinforzo negativo (perché rimuove l’aria calda). In altri casi, il rinforzo può essere sia positivo che negativo. Si può fumare una sigaretta sia perché porta piacere (rinforzo positivo) sia perché elimina la brama di nicotina (rinforzo negativo).

È anche importante notare che il rinforzo e la punizione non sono semplicemente opposti. L’uso del rinforzo positivo nel cambiamento del comportamento è quasi sempre più efficace dell’uso della punizione. Questo perché il rinforzo positivo fa sentire meglio la persona o l’animale, contribuendo a creare una relazione positiva con la persona che fornisce il rinforzo. I tipi di rinforzo positivo che sono efficaci nella vita di tutti i giorni includono la lode verbale o l’approvazione, l’assegnazione di status o prestigio e il pagamento finanziario diretto. La punizione, d’altra parte, è più probabile che crei solo cambiamenti temporanei nel comportamento perché si basa sulla coercizione e in genere crea una relazione negativa e contraddittoria con la persona che fornisce il rinforzo. Quando la persona che fornisce la punizione lascia la situazione, è probabile che il comportamento indesiderato ritorni.

Creare comportamenti complessi attraverso il condizionamento operante

Forse ti ricordi di guardare un film o di essere in uno spettacolo in cui un animale — forse un cane, un cavallo o un delfino — ha fatto cose piuttosto sorprendenti. L’allenatore diede un comando e il delfino nuotò fino al fondo della piscina, prese un anello sul naso, saltò fuori dall’acqua attraverso un cerchio nell’aria, si tuffò di nuovo sul fondo della piscina, raccolse un altro anello, e poi portò entrambi gli anelli all’allenatore sul bordo della piscina. L’animale è stato addestrato a fare il trucco e i principi del condizionamento operante sono stati usati per addestrarlo. Ma questi comportamenti complessi sono ben lontani dalle semplici relazioni stimolo-risposta che abbiamo considerato finora. Come si può usare il rinforzo per creare comportamenti complessi come questi?

Un modo per espandere l’uso dell’apprendimento operante è modificare il programma su cui viene applicato il rinforzo. A questo punto abbiamo discusso solo un programma di rinforzo continuo, in cui la risposta desiderata viene rinforzata ogni volta che si verifica; ogni volta che il cane rotola, per esempio, ottiene un biscotto. Il rinforzo continuo si traduce in un apprendimento relativamente veloce ma anche in una rapida estinzione del comportamento desiderato una volta che il rinforzo scompare. Il problema è che poiché l’organismo è abituato a ricevere il rinforzo dopo ogni comportamento, il rispondente può rinunciare rapidamente quando non appare.

La maggior parte dei rinforzi del mondo reale non sono continui; si verificano su un programma di rinforzo parziale (o intermittente)-un programma in cui le risposte sono talvolta rinforzate e talvolta no. Rispetto al rinforzo continuo, i programmi di rinforzo parziale portano a un apprendimento iniziale più lento, ma portano anche a una maggiore resistenza all’estinzione. Poiché il rinforzo non appare dopo ogni comportamento, ci vuole più tempo per lo studente per determinare che la ricompensa non sta più arrivando, e quindi l’estinzione è più lenta. I quattro tipi di piani di rinforzo parziali sono riassunti nella tabella 8.2, ” Piani di rinforzo.”

Tabella 8.2 Programmi di rinforzo.
Programma di rinforzo Spiegazione Esempio del mondo reale
Il comportamento a rapporto fisso viene rafforzato dopo un numero specifico di risposte. Operai che vengono pagati in base al numero di prodotti che producono
Rapporto variabile Il comportamento viene rafforzato dopo un numero medio, ma imprevedibile, di risposte. Vincite da slot machine e altri giochi d’azzardo
Intervallo fisso Il comportamento viene rinforzato per la prima risposta dopo un determinato periodo di tempo. Persone che guadagnano uno stipendio mensile
Intervallo variabile Il comportamento viene rinforzato per la prima risposta dopo che è trascorso un tempo medio, ma imprevedibile. Persona che controlla la posta per i messaggi

Parziale rinforzo orari sono determinati dal fatto che l’armatura è presentato sulla base del tempo che intercorre tra il rinforzo (intervallo) o sulla base del numero di risposte che l’organismo si impegna in (rapporto), e dal fatto che il rinforzo si verifica su un fisso o imprevedibili (variabile) pianificazione. In un programma a intervalli fissi, il rinforzo si verifica per la prima risposta effettuata dopo un determinato periodo di tempo. Ad esempio, su un programma a intervalli fissi di un minuto l’animale riceve un rinforzo ogni minuto, supponendo che si impegni nel comportamento almeno una volta durante il minuto. Come si può vedere nella Figura 8.6, “Esempi di modelli di risposta da parte di animali addestrati con diversi programmi di rinforzo parziale”, gli animali con orari a intervalli fissi tendono a rallentare la loro risposta immediatamente dopo il rinforzo, ma poi aumentano di nuovo il comportamento man mano che il tempo del rinforzo successivo si avvicina. (La maggior parte degli studenti studia per gli esami allo stesso modo.) In un programma di intervallo variabile, i rinforzi appaiono su un programma di intervallo, ma i tempi sono variati intorno all’intervallo medio, rendendo imprevedibile l’aspetto effettivo del rinforzo. Un esempio potrebbe essere il controllo della tua email: sei rinforzato ricevendo messaggi che arrivano, in media, diciamo, ogni 30 minuti, ma il rinforzo si verifica solo in momenti casuali. I programmi di rinforzo dell’intervallo tendono a produrre tassi lenti e costanti di risposta.

Figura 8.6 Esempi di modelli di risposta da parte di animali addestrati in base a diversi programmi di rinforzo parziale. Le pianificazioni basate sul numero di risposte (tipi di rapporto) inducono un tasso di risposta maggiore rispetto alle pianificazioni basate sul tempo trascorso (tipi di intervallo). Inoltre, le pianificazioni imprevedibili (tipi variabili) producono risposte più forti di quelle prevedibili (tipi fissi).

In una pianificazione a rapporto fisso, un comportamento viene rafforzato dopo un numero specifico di risposte. Ad esempio, il comportamento di un ratto può essere rafforzato dopo aver premuto un tasto 20 volte, o un venditore può ricevere un bonus dopo aver venduto 10 prodotti. Come si può vedere in Figura 8.6, “Esempi di modelli di risposta da parte di animali addestrati in base a diversi programmi di rinforzo parziale”, una volta che l’organismo ha imparato ad agire in conformità con il programma a rapporto fisso, si fermerà solo brevemente quando si verifica il rinforzo prima di tornare ad un alto livello di reattività. Un programma a rapporto variabile fornisce rinforzi dopo un numero specifico ma medio di risposte. Vincere denaro da slot machine o su un biglietto della lotteria è un esempio di rinforzo che si verifica su un programma a rapporto variabile. Ad esempio, una slot machine (vedi Figura 8.7, “Slot Machine”) può essere programmato per fornire una vittoria ogni 20 volte l’utente tira la maniglia, in media. I programmi di rapporto tendono a produrre alti tassi di risposta perché il rinforzo aumenta all’aumentare del numero di risposte.

Cifra 8.7 Slot Machine. Le slot machine sono esempi di un programma di rinforzo a rapporto variabile.

I comportamenti complessi sono creati anche attraverso la modellatura, il processo di guidare il comportamento di un organismo al risultato desiderato attraverso l’uso di approssimazione successiva a un comportamento finale desiderato. Skinner fece ampio uso di questa procedura nelle sue scatole. Per esempio, poteva addestrare un topo a premere una barra due volte per ricevere cibo, fornendo prima cibo quando l’animale si muoveva vicino alla barra. Quando quel comportamento era stato appreso, Skinner avrebbe cominciato a fornire cibo solo quando il ratto toccato la barra. L’ulteriore sagomatura limitava il rinforzo solo quando il ratto premeva la barra, quando premeva la barra e la toccava una seconda volta, e infine solo quando premeva la barra due volte. Anche se può richiedere molto tempo, in questo modo il condizionamento operante può creare catene di comportamenti che vengono rinforzati solo quando sono completati.

Rafforzare gli animali se discriminano correttamente tra stimoli simili consente agli scienziati di testare la capacità di apprendimento degli animali, e le discriminazioni che possono fare a volte sono notevoli. I piccioni sono stati addestrati a distinguere tra le immagini di Charlie Brown e gli altri personaggi dei Peanuts (Cerella, 1980) e tra diversi stili di musica e arte (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

I comportamenti possono anche essere addestrati attraverso l’uso di rinforzi secondari. Mentre un rinforzo primario include stimoli che sono naturalmente preferiti o goduti dall’organismo, come cibo, acqua e sollievo dal dolore, un rinforzo secondario (a volte chiamato rinforzo condizionato) è un evento neutro che è stato associato a un rinforzo primario attraverso il condizionamento classico. Un esempio di rinforzo secondario sarebbe il fischio dato da un addestratore di animali, che è stato associato nel tempo con il rinforzo primario, il cibo. Un esempio di un rinforzo secondario quotidiano è il denaro. Ci piace avere denaro, non tanto per lo stimolo in sé, ma piuttosto per i rinforzi primari (le cose che il denaro può comprare) con cui è associato.

Take away chiave

  • Edward Thorndike ha sviluppato la legge di effetto: il principio che le risposte che creano un risultato tipicamente piacevole in una situazione particolare hanno maggiori probabilità di ripetersi in una situazione simile, mentre le risposte che producono un risultato tipicamente spiacevole hanno meno probabilità di ripetersi nella situazione.
  • B. F. Skinner espanse le idee di Thorndike per sviluppare una serie di principi per spiegare il condizionamento operante.
  • Il rinforzo positivo rafforza una risposta presentando qualcosa che è tipicamente piacevole dopo la risposta, mentre il rinforzo negativo rafforza una risposta riducendo o rimuovendo qualcosa che è tipicamente sgradevole.
  • La punizione positiva indebolisce una risposta presentando qualcosa di tipicamente spiacevole dopo la risposta, mentre la punizione negativa indebolisce una risposta riducendo o rimuovendo qualcosa che è tipicamente piacevole.
  • Il rinforzo può essere parziale o continuo. I programmi di rinforzo parziale sono determinati dal fatto che il rinforzo sia presentato in base al tempo trascorso tra i rinforzi (intervallo) o in base al numero di risposte in cui l’organismo si impegna (rapporto) e dal fatto che il rinforzo avvenga su un programma regolare (fisso) o imprevedibile (variabile).
  • Comportamenti complessi possono essere creati attraverso la modellatura, il processo di guidare il comportamento di un organismo al risultato desiderato attraverso l’uso di approssimazione successiva a un comportamento finale desiderato.

Esercizi e pensiero critico

  1. Fai un esempio dalla vita quotidiana di ciascuno dei seguenti: rinforzo positivo, rinforzo negativo, punizione positiva, punizione negativa.
  2. Considera le tecniche di rinforzo che potresti usare per addestrare un cane a catturare e recuperare un Frisbee che lanci ad esso.
  3. Guarda i seguenti due video degli attuali programmi televisivi. Puoi determinare quali procedure di apprendimento vengono dimostrate?
    1. L’ufficio: http://www.break.com/usercontent/2009/11/the-office-altoid – esperimento-1499823
    2. La teoria del Big Bang: http://www.youtube.com/watch?v=JA96Fba-WHk

Cerella, J. (1980). L’analisi del piccione delle immagini. Pattern Recognition, 12, 1-6.

Thorndike, E. L. (1898). Intelligenza animale: Uno studio sperimentale dei processi associativi negli animali. Washington, DC: American Psychological Association.

Attribuzioni di immagini

Figura 8.6: Adattato da Kassin (2003).

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

More: