Objectifs d’apprentissage
- Décrivez les principes du conditionnement opérant.
- Expliquez comment l’apprentissage peut être façonné grâce à l’utilisation de programmes de renforcement et de renforts secondaires.
Dans le conditionnement classique, l’organisme apprend à associer de nouveaux stimuli à des réponses biologiques naturelles telles que la salivation ou la peur. L’organisme n’apprend pas quelque chose de nouveau mais commence plutôt à effectuer un comportement existant en présence d’un nouveau signal. Le conditionnement opérant, d’autre part, est un apprentissage qui se produit sur la base des conséquences du comportement et peut impliquer l’apprentissage de nouvelles actions. Un conditionnement opérant se produit lorsqu’un chien se retourne sur commande parce qu’il a été loué pour l’avoir fait dans le passé, lorsqu’un intimidateur de salle de classe menace ses camarades de classe parce que cela lui permet de se débrouiller, et lorsqu’un enfant obtient de bonnes notes parce que ses parents menacent de la punir si elle ne le fait pas. En conditionnant opérant, l’organisme apprend des conséquences de ses propres actions.
Comment le renforcement et la punition influencent le comportement: Les recherches de Thorndike et Skinner
Le psychologue Edward L. Thorndike (1874-1949) a été le premier scientifique à étudier systématiquement le conditionnement opérant. Dans ses recherches, Thorndike (1898) a observé des chats qui avaient été placés dans une « boîte à casse-tête » d’où ils tentaient de s’échapper (« Clip Vidéo: La boîte à casse-tête de Thorndike »). Au début, les chats se grattaient, se mordaient et se tapaient au hasard, sans aucune idée de la façon de s’en sortir. Mais finalement, et accidentellement, ils ont appuyé sur le levier qui a ouvert la porte et sont sortis de leur prix, un morceau de poisson. La prochaine fois que le chat a été contraint dans la boîte, il a tenté moins de réponses inefficaces avant d’effectuer l’évasion réussie, et après plusieurs essais, le chat a appris à faire presque immédiatement la bonne réponse.
L’observation de ces changements dans le comportement des chats a conduit Thorndike à développer sa loi d’effet, le principe selon lequel les réponses qui créent un résultat typiquement agréable dans une situation particulière sont plus susceptibles de se reproduire dans une situation similaire, alors que les réponses qui produisent un résultat typiquement désagréable sont moins susceptibles de se reproduire dans la situation (Thorndike, 1911). L’essence de la loi de l’effet est que les réponses réussies, parce qu’elles sont agréables, sont « imprégnées » par l’expérience et se produisent donc plus fréquemment. Les réponses infructueuses, qui produisent des expériences désagréables, sont « éliminées » et se produisent ensuite moins fréquemment.
Lorsque Thorndike a placé ses chats dans une boîte de puzzle, il a constaté qu’ils apprenaient à adopter plus rapidement le comportement d’évasion important après chaque essai. Thorndike a décrit l’apprentissage qui suit le renforcement en termes de loi d’effet.
Regarder: « Boîte de puzzle de Thorndike » : http://www.youtube.com/watch?v=BDujDOLre-8
L’influent psychologue comportemental B. F. Skinner (1904-1990) a développé les idées de Thorndike pour développer un ensemble plus complet de principes pour expliquer le conditionnement opérant. Skinner a créé des environnements spécialement conçus connus sous le nom de chambres opérantes (généralement appelées boîtes Skinner) pour étudier systématiquement l’apprentissage. Une boîte de Skinner (chambre opérante) est une structure assez grande pour accueillir un rongeur ou un oiseau et qui contient une barre ou une clé sur laquelle l’organisme peut appuyer ou picorer pour libérer de la nourriture ou de l’eau. Il contient également un dispositif pour enregistrer les réponses de l’animal (Figure 8.5).
La plus fondamentale des expériences de Skinner était assez similaire aux recherches de Thorndike sur les chats. Un rat placé dans la chambre a réagi comme on pouvait s’y attendre, se précipitant autour de la boîte et reniflant et griffant le sol et les murs. Finalement, le rat a heurté un levier sur lequel il a appuyé pour libérer des boulettes de nourriture. La fois suivante, le rat a mis un peu moins de temps à appuyer sur le levier, et lors des essais successifs, le temps nécessaire pour appuyer sur le levier est devenu de plus en plus court. Bientôt, le rat pressait le levier aussi vite qu’il pouvait manger la nourriture qui apparaissait. Comme prévu par la loi d’effet, le rat avait appris à répéter l’action qui a provoqué la nourriture et à cesser les actions qui ne l’ont pas fait.
Skinner a étudié, en détail, comment les animaux changeaient leur comportement par le renforcement et la punition, et il a développé des termes qui expliquaient les processus d’apprentissage opérant (Tableau 8.1, « Comment le renforcement et la Punition Positifs et Négatifs Influencent le Comportement »). Skinner a utilisé le terme renforçateur pour désigner tout événement qui renforce ou augmente la probabilité d’un comportement, et le terme punisher pour désigner tout événement qui affaiblit ou diminue la probabilité d’un comportement. Et il a utilisé les termes positif et négatif pour indiquer si un renforcement a été présenté ou retiré, respectivement. Ainsi, le renforcement positif renforce une réponse en présentant quelque chose d’agréable après la réponse, et le renforcement négatif renforce une réponse en réduisant ou en supprimant quelque chose de désagréable. Par exemple, féliciter un enfant pour avoir terminé ses devoirs représente un renforcement positif, tandis que prendre de l’aspirine pour réduire la douleur d’un mal de tête représente un renforcement négatif. Dans les deux cas, le renforcement augmente les chances que le comportement se reproduise à l’avenir.
Terme de conditionnement opérant | Description | Résultat | Exemple |
---|---|---|---|
Renforcement positif | Ajouter ou augmenter un stimulus agréable | Le comportement est renforcé | Donner un prix à un étudiant après qu’il a obtenu un A à un test |
Renforcement négatif | Réduire ou supprimer un stimulus désagréable | Le comportement est renforcé | La prise d’analgésiques qui éliminent la douleur augmente la probabilité que vous preniez analgésiques à nouveau |
Punition positive | Présenter ou ajouter un stimulus désagréable | Le comportement est affaibli | Donner des devoirs supplémentaires à un élève après qu’il se soit mal conduit en classe |
Punition négative | Réduire ou supprimer un stimulus agréable | Le comportement est affaibli | Enlever l’ordinateur d’un adolescent après qu’il ait manqué le couvre-feu |
Le renforcement, qu’il soit positif ou négatif, agit en augmentant la probabilité d’un comportement. La punition, d’autre part, fait référence à tout événement qui affaiblit ou réduit la probabilité d’un comportement. La punition positive affaiblit une réponse en présentant quelque chose de désagréable après la réponse, tandis que la punition négative affaiblit une réponse en réduisant ou en supprimant quelque chose d’agréable. Un enfant qui est mis à la terre après s’être battu avec un frère ou une sœur (punition positive) ou qui perd l’occasion d’aller à la récréation après avoir obtenu une mauvaise note (punition négative) est moins susceptible de répéter ces comportements.
Bien que la distinction entre le renforcement (qui augmente le comportement) et la punition (qui le diminue) soit généralement claire, dans certains cas, il est difficile de déterminer si un renforcement est positif ou négatif. Par une journée chaude, une brise fraîche pourrait être considérée comme un renfort positif (car elle apporte de l’air frais) ou un renfort négatif (car elle élimine l’air chaud). Dans d’autres cas, le renforcement peut être à la fois positif et négatif. On peut fumer une cigarette à la fois parce qu’elle apporte du plaisir (renforcement positif) et parce qu’elle élimine l’envie de nicotine (renforcement négatif).
Il est également important de noter que le renforcement et la punition ne sont pas simplement opposés. L’utilisation du renforcement positif dans le changement de comportement est presque toujours plus efficace que le recours à la punition. C’est parce que le renforcement positif fait que la personne ou l’animal se sent mieux, aidant à créer une relation positive avec la personne qui fournit le renforcement. Les types de renforcement positif efficaces dans la vie quotidienne comprennent la louange ou l’approbation verbale, l’attribution d’un statut ou d’un prestige et le paiement financier direct. La punition, en revanche, est plus susceptible de ne créer que des changements temporaires de comportement car elle est basée sur la coercition et crée généralement une relation négative et contradictoire avec la personne qui fournit le renfort. Lorsque la personne qui fournit la punition quitte la situation, le comportement indésirable est susceptible de revenir.
Créer des comportements complexes grâce à un Conditionnement opérant
Peut—être vous souvenez—vous d’avoir regardé un film ou assisté à un spectacle dans lequel un animal – peut-être un chien, un cheval ou un dauphin – a fait des choses assez étonnantes. L’entraîneur a donné un ordre et le dauphin a nagé au fond de la piscine, a pris un anneau sur son nez, a sauté hors de l’eau à travers un cerceau en l’air, a plongé à nouveau au fond de la piscine, a ramassé un autre anneau, puis a emmené les deux anneaux à l’entraîneur au bord de la piscine. L’animal a été entraîné pour faire l’affaire, et les principes du conditionnement opérant ont été utilisés pour l’entraîner. Mais ces comportements complexes sont loin des relations simples stimulus-réponse que nous avons envisagées jusqu’à présent. Comment le renforcement peut-il être utilisé pour créer de tels comportements complexes ?
Une façon d’étendre l’utilisation de l’apprentissage opérant consiste à modifier le calendrier sur lequel le renforcement est appliqué. À ce stade, nous n’avons discuté que d’un calendrier de renforcement continu, dans lequel la réponse souhaitée est renforcée à chaque fois qu’elle se produit; chaque fois que le chien roule, par exemple, il reçoit un biscuit. Le renforcement continu entraîne un apprentissage relativement rapide mais également une extinction rapide du comportement souhaité une fois que le renforçateur disparaît. Le problème est que parce que l’organisme est habitué à recevoir le renfort après chaque comportement, le répondant peut abandonner rapidement lorsqu’il n’apparaît pas.
La plupart des renforts du monde réel ne sont pas continus; ils se produisent selon un calendrier de renforcement partiel (ou intermittent) – un calendrier dans lequel les réponses sont parfois renforcées et parfois non. Par rapport au renforcement continu, les programmes de renforcement partiel conduisent à un apprentissage initial plus lent, mais ils conduisent également à une plus grande résistance à l’extinction. Parce que le renforcement n’apparaît pas après chaque comportement, il faut plus de temps à l’apprenant pour déterminer que la récompense ne vient plus, et donc l’extinction est plus lente. Les quatre types de plans de renforcement partiel sont résumés dans le tableau 8.2, « Plans de renforcement. »
Calendrier de renforcement | Explication | Exemple réel |
---|---|---|
Le comportement à rapport fixe | est renforcé après un nombre spécifique de réponses. | Ouvriers d’usine payés en fonction du nombre de produits qu’ils fabriquent |
Le comportement à rapport variable | est renforcé après un nombre moyen, mais imprévisible, de réponses. | Gains des machines à sous et autres jeux de hasard |
Le comportement à intervalle fixe | est renforcé pour la première réponse après un laps de temps spécifique. | Personnes qui gagnent un salaire mensuel |
Le comportement à intervalle variable | est renforcé pour la première réponse après un laps de temps moyen, mais imprévisible. | Personne qui vérifie les e-mails pour les messages |
Les calendriers de renforcement partiel sont déterminés par le fait que le renforcement est présenté sur la base du temps qui s’écoule entre le renforcement (intervalle) ou sur la base du nombre de réponses auxquelles l’organisme s’engage (rapport), et par le fait que le renforcement se produit selon un calendrier régulier (fixe) ou imprévisible (variable). Dans un programme à intervalle fixe, le renforcement se produit pour la première réponse effectuée après un laps de temps spécifique. Par exemple, sur un horaire à intervalle fixe d’une minute, l’animal reçoit un renfort toutes les minutes, en supposant qu’il s’engage dans le comportement au moins une fois au cours de la minute. Comme vous pouvez le voir à la Figure 8.6, « Exemples de modèles de réponse par des animaux Entraînés selon différents programmes de renforcement partiel », les animaux soumis à des programmes à intervalles fixes ont tendance à ralentir leur réponse immédiatement après le renforcement, mais à augmenter à nouveau le comportement à mesure que l’heure du prochain renforcement se rapproche. (La plupart des étudiants étudient de la même manière pour les examens.) Dans un calendrier à intervalles variables, les renforts apparaissent sur un calendrier d’intervalles, mais le calendrier varie autour de l’intervalle moyen, ce qui rend l’apparence réelle du renfort imprévisible. Un exemple pourrait être la vérification de votre e-mail: vous êtes renforcé en recevant des messages qui arrivent, en moyenne, par exemple, toutes les 30 minutes, mais le renforcement ne se produit qu’à des moments aléatoires. Les programmes de renforcement par intervalles ont tendance à produire des taux de réponse lents et réguliers.
Dans un programme à ratio fixe, un comportement est renforcé après un nombre spécifique de réponses. Par exemple, le comportement d’un rat peut être renforcé après avoir appuyé 20 fois sur une touche, ou un vendeur peut recevoir un bonus après avoir vendu 10 produits. Comme vous pouvez le voir sur la figure 8.6, « Exemples de modèles de réponse par des animaux Entraînés selon différents calendriers de renforcement partiel », une fois que l’organisme a appris à agir conformément au calendrier à ratio fixe, il ne s’arrêtera que brièvement lorsque le renforcement se produit avant de revenir à un niveau élevé de réactivité. Un programme à ratio variable fournit des renforts après un nombre spécifique mais moyen de réponses. Gagner de l’argent sur des machines à sous ou sur un billet de loterie est un exemple de renforcement qui se produit selon un calendrier à ratio variable. Par exemple, une machine à sous (voir Figure 8.7, « Machine à sous ») peut être programmé pour fournir une victoire toutes les 20 fois que l’utilisateur tire la poignée, en moyenne. Les calendriers de ratios ont tendance à produire des taux de réponse élevés parce que le renforcement augmente à mesure que le nombre de réponses augmente.
Des comportements complexes sont également créés par la mise en forme, processus qui consiste à guider le comportement d’un organisme vers le résultat souhaité par l’utilisation d’approximations successives d’un comportement final souhaité. Skinner a largement utilisé cette procédure dans ses boîtes. Par exemple, il pouvait entraîner un rat à appuyer deux fois sur une barre pour recevoir de la nourriture, en fournissant d’abord de la nourriture lorsque l’animal se déplaçait près de la barre. Lorsque ce comportement avait été appris, Skinner ne commençait à fournir de la nourriture que lorsque le rat touchait la barre. Une mise en forme ultérieure limitait le renfort uniquement lorsque le rat pressait la barre, lorsqu’il pressait la barre et la touchait une deuxième fois, et enfin uniquement lorsqu’il pressait la barre deux fois. Bien que cela puisse prendre beaucoup de temps, un conditionnement opérant peut ainsi créer des chaînes de comportements qui ne sont renforcés que lorsqu’ils sont terminés.
Renforcer les animaux s’ils discriminent correctement entre des stimuli similaires permet aux scientifiques de tester la capacité d’apprentissage des animaux, et les discriminations qu’ils peuvent faire sont parfois remarquables. Les pigeons ont été formés pour faire la distinction entre les images de Charlie Brown et des autres personnages de Peanuts (Cerella, 1980), et entre différents styles de musique et d’art (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).Les comportements
peuvent également être entraînés grâce à l’utilisation de renforts secondaires. Alors qu’un renforçateur primaire comprend des stimuli qui sont naturellement préférés ou appréciés par l’organisme, tels que la nourriture, l’eau et le soulagement de la douleur, un renforçateur secondaire (parfois appelé renforçateur conditionné) est un événement neutre qui est devenu associé à un renforçateur primaire par le conditionnement classique. Un exemple de renfort secondaire serait le sifflet donné par un dresseur d’animaux, qui a été associé au fil du temps au renfort primaire, la nourriture. Un exemple de renforcement secondaire quotidien est l’argent. Nous aimons avoir de l’argent, pas tant pour le stimulus lui-même, mais plutôt pour les renforçateurs primaires (les choses que l’argent peut acheter) auxquels il est associé.
Principaux points à retenir
- Edward Thorndike a développé la loi de l’effet: le principe selon lequel les réponses qui créent un résultat généralement agréable dans une situation particulière sont plus susceptibles de se reproduire dans une situation similaire, tandis que les réponses qui produisent un résultat généralement désagréable sont moins susceptibles de se reproduire dans la situation.
- B. F. Skinner a développé les idées de Thorndike pour développer un ensemble de principes pour expliquer le conditionnement opérant.
- Le renforcement positif renforce une réponse en présentant quelque chose qui est généralement agréable après la réponse, tandis que le renforcement négatif renforce une réponse en réduisant ou en supprimant quelque chose qui est généralement désagréable.
- La punition positive affaiblit une réponse en présentant quelque chose de typiquement désagréable après la réponse, tandis que la punition négative affaiblit une réponse en réduisant ou en supprimant quelque chose qui est généralement agréable.
- Le renforcement peut être partiel ou continu. Les calendriers de renforcement partiel sont déterminés par le fait que le renforcement est présenté sur la base du temps qui s’écoule entre les renforts (intervalle) ou sur la base du nombre de réponses auxquelles l’organisme s’engage (rapport), et par le fait que le renforcement se produit selon un calendrier régulier (fixe) ou imprévisible (variable).
- Des comportements complexes peuvent être créés par la mise en forme, processus qui consiste à guider le comportement d’un organisme vers le résultat souhaité par l’utilisation d’approximations successives d’un comportement final souhaité.
Les exercices et la pensée critique
- Donnent un exemple de la vie quotidienne de chacun des éléments suivants: renforcement positif, renforcement négatif, punition positive, punition négative.
- Considérez les techniques de renforcement que vous pourriez utiliser pour entraîner un chien à attraper et à récupérer un frisbee que vous lui lancez.
- Regardez les deux vidéos suivantes des émissions de télévision actuelles. Pouvez-vous déterminer quelles procédures d’apprentissage sont démontrées?
- Le bureau: http://www.break.com/usercontent/2009/11/the-office-altoid – expérience-1499823
- La Théorie du Big Bang : http://www.youtube.com/watch?v=JA96Fba-WHk
Cerella, J. (1980). L’analyse des images du pigeon. Reconnaissance de formes, 12, 1-6.
Thorndike, E. L. (1898). Intelligence animale: Une étude expérimentale des processus associatifs chez les animaux. Washington, DC: Association américaine de psychologie.
Attributions de l’image
Figure 8.6: Adapté de Kassin (2003).