Introdução à Psicologia – 1ª Edição Canadiana

Objetivos

  1. Destaques os princípios do condicionamento operante.
  2. explicar como a aprendizagem pode ser moldada através da utilização de programas de reforço e de reforçadores secundários.

no condicionamento clássico, o organismo aprende a associar novos estímulos com respostas biológicas naturais como salivação ou medo. O organismo não aprende algo novo, mas começa a realizar um comportamento existente na presença de um novo sinal. Condicionamento operante, por outro lado, é a aprendizagem que ocorre com base nas consequências do comportamento e pode envolver a aprendizagem de novas ações. Condicionamento operante ocorre quando um cão rola no comando porque tem sido elogiado por fazê-lo no passado, quando um valentão da escola ameaça seus colegas de classe porque fazê-lo permite que ele obtenha o seu caminho, e quando uma criança recebe boas notas porque seus pais ameaçam puni-la se ela não o fizer. No condicionamento operante o organismo aprende com as consequências de suas próprias ações.

How Reinforcement and Punishment Influence Behaviour: the Research of Thorndike and Skinner

psicólogo Edward L. Thorndike (1874-1949) was the first scientist to systematicly study operant condicioning. In his research Thorndike (1898) observed cats who had been placed in a “puzzle box” from which they tried to escape (“Video Clip: Thorndike’s Puzzle Box”). No início, os gatos arranharam, morderam, e swatterly, sem qualquer idéia de como sair. Mas eventualmente, e acidentalmente, eles pressionaram a alavanca que abriu a porta e saiu para o seu prêmio, um pedaço de peixe. A próxima vez que o gato foi restringido dentro da caixa, ele tentou menos das respostas ineficazes antes de realizar a fuga bem sucedida, e depois de vários ensaios o gato aprendeu a quase imediatamente fazer a resposta correta.

Observando-se essas alterações em gatos’ comportamento do diodo emissor de Thorndike para desenvolver a sua lei do efeito, o princípio de que as respostas que criar um normalmente agradável resultado em uma determinada situação mais provável de ocorrer novamente em situação semelhante, considerando que as respostas que produzem normalmente desagradável resultado são menos prováveis de ocorrer novamente na situação (Thorndike, 1911). A essência da lei do efeito é que respostas bem sucedidas, porque elas são agradáveis, são “estampadas” pela experiência e, portanto, ocorrem mais frequentemente. Respostas mal sucedidas, que produzem experiências desagradáveis, são “erradicadas” e subsequentemente ocorrem com menos frequência.

quando Thorndike colocou seus gatos em uma caixa de quebra-cabeça, ele descobriu que eles aprenderam a se envolver no importante comportamento de fuga mais rápido após cada julgamento. Thorndike descreveu a aprendizagem que segue o reforço em termos da lei do efeito.

Watch: “Thorndike’s Puzzle Box” : http://www.youtube.com/watch?v=BDujDOLre-8

o influente psicólogo comportamental B. F. Skinner (1904-1990) expandiu as ideias de Thorndike para desenvolver um conjunto mais completo de princípios para explicar condicionamento operante. Skinner criou ambientes especialmente concebidos conhecidos como câmaras operantes (geralmente chamados de caixas Skinner) para estudar sistematicamente a aprendizagem. Uma caixa de Esfolador (Câmara operante) é uma estrutura que é grande o suficiente para caber em um roedor ou ave e que contém uma barra ou chave que o organismo pode pressionar ou bicar para liberar comida ou água. Ele também contém um dispositivo para registrar as respostas do animal (figura 8.5).

o mais básico dos experimentos de Skinner foi bastante semelhante à pesquisa de Thorndike com gatos. Um rato colocado na câmara reagiu como seria de esperar, correndo sobre a caixa e cheirando e arranhando o chão e as paredes. Eventualmente, o rato bateu em cima de uma alavanca, que ele pressionou para libertar pellets de alimentos. Da próxima vez, o rato levou um pouco menos de tempo para pressionar a alavanca, e em ensaios sucessivos, o tempo que levou para pressionar a alavanca tornou-se mais curto e mais curto. Logo o rato estava pressionando a alavanca o mais rápido que podia comer a comida que apareceu. Como previsto pela lei de efeito, o rato tinha aprendido a repetir a ação que provocou o alimento e cessou as ações que não o fizeram.

Skinner estudou, em detalhe, como os animais mudaram seu comportamento através do reforço e punição, e ele desenvolveu Termos que explicaram os processos de aprendizagem de operantes (tabela 8.1, “como o reforço positivo e negativo e punição influenciar o comportamento”). Skinner usou o termo “reforçador” para se referir a qualquer evento que fortaleça ou aumente a probabilidade de um comportamento, e o termo “executor” para se referir a qualquer evento que enfraqueça ou diminua a probabilidade de um comportamento. E ele usou os Termos positivo e negativo para se referir a se um reforço foi apresentado ou removido, respectivamente. Assim, o reforço positivo fortalece uma resposta apresentando algo agradável após a resposta, e o reforço negativo fortalece uma resposta reduzindo ou removendo algo desagradável. Por exemplo, dar a uma criança louvor por completar seu trabalho de casa representa um reforço positivo, enquanto tomar aspirina para reduzir a dor de uma dor de cabeça representa um reforço negativo. Em ambos os casos, o reforço torna mais provável que o comportamento volte a ocorrer no futuro.

Figura 8.5 Skinner Box. B. F. Skinner usou uma caixa de Esfolador para estudar a aprendizagem operante. A caixa contém uma barra ou chave que o organismo pode pressionar para receber comida e água, e um dispositivo que registra as respostas do organismo.
Quadro 8.1 Como o reforço e a punição positivos e negativos influenciam o comportamento.
condicionamento operante termo Descrição Resultado Exemplo
Reforço positivo Adicionar ou aumentar uma agradável estímulo Comportamento é reforçado Dando um estudante de um prêmio depois que ele ou ela recebe Um a um teste de
o reforço Negativo Reduzir ou remover um estímulo desagradável Comportamento é reforçado Tomar analgésicos que eliminar a dor aumenta a probabilidade de que você vai tomar analgésicos novamente
Positivo punição Presente ou adicionar um estímulo desagradável Comportamento é enfraquecida Dando um aluno extra lição de casa depois que ele ou ela se comporta mal em classe
Negativo punição Reduzir ou remover um agradável estímulo Comportamento é enfraquecida Tirar um adolescente computador depois que ele ou ela sente falta do toque de recolher

Reforço, positivo ou negativo, obras, aumentando a probabilidade de um comportamento. A punição, por outro lado, refere-se a qualquer evento que enfraquece ou reduz a probabilidade de um comportamento. A punição positiva enfraquece uma resposta ao apresentar algo desagradável após a resposta, enquanto a punição negativa enfraquece uma resposta ao reduzir ou remover algo agradável. Uma criança que está de castigo após lutar com um irmão (punição positiva) ou que perde a oportunidade de ir para o intervalo depois de obter um grau pobre (punição negativa) é menos propenso a repetir esses comportamentos.Embora a distinção entre o reforço (que aumenta o comportamento) e a punição (que o diminui) seja geralmente clara, em alguns casos é difícil determinar se um reforço é positivo ou negativo. Em um dia quente uma brisa fresca pode ser vista como um reforçador positivo (porque traz ar fresco) ou um reforçador negativo (porque ele remove ar quente). Noutros casos, o reforço pode ser tanto positivo como negativo. Pode-se fumar um cigarro tanto porque traz prazer (reforço positivo) e porque elimina o desejo de nicotina (reforço negativo).

também é importante notar que o reforço e a punição não são simplesmente opostos. A utilização de um reforço positivo na mudança de comportamento é quase sempre mais eficaz do que a utilização da punição. Isto porque o reforço positivo faz com que a pessoa ou animal se sinta melhor, ajudando a criar um relacionamento positivo com a pessoa que fornece o reforço. Os tipos de reforço positivo que são eficazes na vida quotidiana incluem elogios verbais ou aprovação, a concessão de estatuto ou prestígio, e pagamento financeiro directo. A punição, por outro lado, é mais provável de criar apenas mudanças temporárias no comportamento, porque é baseada na coerção e normalmente cria uma relação negativa e adversa com a pessoa que fornece o reforço. Quando a pessoa que fornece a punição deixa a situação, o comportamento indesejado é susceptível de voltar.

criando comportamentos complexos através de condicionamento operante

talvez você se lembre de assistir a um filme ou estar em um show em que um animal — talvez um cão, um cavalo, ou um golfinho — fez algumas coisas incríveis. O treinador deu um comando e o golfinho nadou para o fundo da piscina, pegou um anel no nariz, pulou para fora da água através de um aro no ar, mergulhou novamente para o fundo da piscina, pegou um outro anel e, em seguida, tomou tanto dos anéis para o treinador na beira da piscina. O animal foi treinado para fazer o truque, e os princípios do condicionamento operante foram usados para treiná-lo. Mas esses comportamentos complexos estão muito longe das relações simples estímulo-resposta que temos considerado até agora. Como pode o reforço ser usado para criar comportamentos complexos como estes?

uma maneira de expandir o uso de aprendizagem de operantes é modificar o cronograma em que o reforço é aplicado. Até este ponto só discutimos um cronograma de reforço contínuo, no qual a resposta desejada é reforçada cada vez que ocorre; sempre que o cão rebola, por exemplo, recebe um biscoito. O reforço contínuo resulta numa aprendizagem relativamente rápida, mas também numa rápida extinção do comportamento desejado, uma vez que o reforço desaparece. O problema é que como o organismo é usado para receber o reforço após cada comportamento, o respondedor pode desistir rapidamente quando não aparece.

a maioria dos reforçadores do mundo real não são contínuos; ocorrem num esquema de reforço parcial (ou intermitente) — um esquema no qual as respostas são por vezes reforçadas e por vezes não. Em comparação com o reforço contínuo, os programas de reforço parcial levam a uma aprendizagem inicial mais lenta, mas também levam a uma maior resistência à extinção. Como o reforço não aparece depois de cada comportamento, leva mais tempo para o aluno determinar que a recompensa já não está chegando, e assim a extinção é mais lenta. Os quatro tipos de esquemas de reforço parcial são resumidos na tabela 8.2, ” esquemas de reforço.”

Quadro 8.2 Esquemas De Reforço.
Reforço agenda Explicação exemplo do mundo Real
razão Fixa Comportamento é reforçado após um número específico de respostas. trabalhadores de fábricas que são pagos de acordo com o número de produtos que produzem
a relação variável o comportamento é reforçado após um número médio, mas imprevisível, de respostas. pagamentos de máquinas de fenda e outros jogos de azar
o comportamento do intervalo fixo é reforçado para a primeira resposta após uma determinada quantidade de tempo ter passado. pessoas que ganham um salário mensal
o comportamento do intervalo variável é reforçado para a primeira resposta após ter passado uma quantidade média, mas imprevisível, de tempo. Pessoa que verifica e-mail para mensagens de

Parcial reforço horários são determinados pelo fato de o reforço é apresentada em função do tempo decorrido entre o reforço (intervalo) ou em função do número de respostas que o organismo se envolve em (razão), e, pelo facto de o reforço ocorre regularmente (fixo) ou imprevisíveis (variável) agenda. Em um cronograma de intervalo fixo, o reforço ocorre para a primeira resposta feita após uma quantidade específica de tempo passou. Por exemplo, em um cronograma de um minuto de intervalo fixo o animal recebe um reforço a cada minuto, assumindo que ele se envolve no comportamento pelo menos uma vez durante o minuto. Como você pode ver na figura 8.6, “exemplos de padrões de resposta por animais treinados sob diferentes horários de reforço parcial,” animais sob horários de intervalo fixo tendem a abrandar a sua resposta imediatamente após o reforço, mas, em seguida, aumentar o comportamento novamente à medida que o tempo do próximo reforço se aproxima. (A maioria dos alunos estuda para os exames da mesma forma.) Em um cronograma de intervalo variável, os reforçadores aparecem em um cronograma de intervalo, mas o timing é variado em torno do intervalo médio, tornando a aparência real do reforçador imprevisível. Um exemplo pode ser verificar o seu e-mail: você é reforçado por receber mensagens que vêm, em média, digamos, a cada 30 minutos, mas o reforço ocorre apenas em momentos aleatórios. Os esquemas de reforço de intervalos tendem a produzir taxas de resposta lentas e estáveis.

figura 8.6 exemplos de padrões de Resposta de animais treinados em diferentes esquemas de reforço parcial. Os esquemas baseados no número de respostas (tipos de razão) induzem maior taxa de resposta do que os esquemas baseados no tempo decorrido (tipos de intervalo). Além disso, os horários imprevisíveis (tipos variáveis) produzem respostas mais fortes do que os horários previsíveis (tipos fixos).

num esquema de rácio fixo, um comportamento é reforçado após um número específico de respostas. Por exemplo, o comportamento de um rato pode ser reforçado depois de ter pressionado uma tecla 20 vezes, ou um vendedor pode receber um bónus depois de ter vendido 10 produtos. Como pode ver na Figura 8.6, “Exemplos de Padrões de Resposta por Animais Treinados em Diferentes Parcial Reforço Horários,” uma vez que o organismo aprendeu a agir em conformidade com a razão fixa de agenda, ele fará uma pausa de apenas brevemente quando reforço ocorre antes de retornar a um elevado nível de capacidade de resposta. Um programa de rácio variável fornece reforçadores após um número específico mas médio de respostas. Ganhar dinheiro de máquinas de fenda ou em um bilhete de loteria é um exemplo de reforço que ocorre em um cronograma de rácio variável. Por exemplo, uma máquina de fenda (ver Figura 8.7,” Slot Machine”) pode ser programado para fornecer uma vitória a cada 20 vezes que o usuário puxa o cabo, em média. Os esquemas de rácio tendem a produzir taxas elevadas de resposta porque o reforço aumenta à medida que o número de respostas aumenta.

Figura 8.7 Máquina De Fenda. As máquinas de fenda são exemplos de um esquema de reforço de razão variável.

comportamentos complexos também são criados através da formação, o processo de orientar o comportamento de um organismo para o resultado desejado através do uso de aproximação sucessiva a um comportamento final desejado. Skinner fez uso extensivo deste procedimento em suas caixas. Por exemplo, ele poderia treinar um rato para pressionar um bar duas vezes para receber comida, primeiro fornecendo comida quando o animal se movia perto do bar. Quando esse comportamento tinha sido aprendido, Skinner começaria a fornecer comida apenas quando o rato tocasse no bar. Ainda moldando limitou o reforço apenas quando o rato pressionou a barra, para quando pressionou a barra e tocou-lhe uma segunda vez, e finalmente apenas quando pressionou a barra duas vezes. Embora possa levar muito tempo, desta forma o condicionamento operante pode criar cadeias de comportamentos que só são reforçados quando são completados.

reforçar os animais se eles discriminam corretamente entre estímulos semelhantes permite que os cientistas testem a capacidade dos animais para aprender, e as discriminações que eles podem fazer são por vezes notáveis. Os pombos foram treinados para distinguir entre imagens de Charlie Brown e os outros Amendoim caracteres (Cerella, 1980), e entre diferentes estilos de música e arte (Porter & Neuringer, 1984; Watanabe, Sakamoto & Wakita, 1995).

os comportamentos também podem ser treinados através do uso de reforçadores secundários. Enquanto um reforço primário inclui estímulos que são naturalmente preferidos ou apreciados pelo organismo, como alimentos, água e alívio da dor, um reforço secundário (às vezes chamado de reforço condicionado) é um evento neutro que se tornou associado com um reforço primário através do condicionamento clássico. Um exemplo de um reforço secundário seria o apito dado por um treinador de animais, que tem sido associado ao longo do tempo com o reforço primário, a alimentação. Um exemplo de um reforço secundário diário é o dinheiro. Nós gostamos de ter dinheiro, não tanto para o estímulo em si, mas sim para os reforçadores primários (as coisas que o dinheiro pode comprar) com que está associado.

Pedidas

  • Edward Thorndike desenvolvido a lei do efeito: o princípio de que as respostas que criar um normalmente agradável resultado em uma determinada situação mais provável de ocorrer novamente em situação semelhante, considerando que as respostas que produzem normalmente desagradável resultado são menos prováveis de ocorrer novamente na situação.
  • B. F. Skinner expandiu as ideias de Thorndike para desenvolver um conjunto de princípios para explicar o condicionamento operante.
  • reforço positivo fortalece uma resposta apresentando algo que é tipicamente agradável após a resposta, enquanto reforço negativo fortalece uma resposta reduzindo ou removendo algo que é tipicamente desagradável.A punição positiva enfraquece uma resposta ao apresentar algo tipicamente desagradável após a resposta, enquanto a punição negativa enfraquece uma resposta ao reduzir ou remover algo que é tipicamente agradável.
  • as armaduras podem ser parciais ou contínuas. Os esquemas parciais de reforço são determinados se o reforço é apresentado com base no tempo que decorre entre os reforços (intervalo) ou com base no número de respostas que o organismo engaja em (razão), e se o reforço ocorre com um esquema regular (fixo) ou imprevisível (variável).Comportamentos complexos podem ser criados através da formação, o processo de orientar o comportamento de um organismo para o resultado desejado através do uso de aproximação sucessiva a um comportamento final desejado.

Exercícios de Pensamento Crítico e

  1. Dar um exemplo da vida diária de cada um dos seguintes: reforço positivo, reforço negativo, punição positiva, negativa punição.
  2. considere as técnicas de reforço que você pode usar para treinar um cão para pegar e recuperar um Frisbee que você joga para ele.
  3. assistir os seguintes dois vídeos de programas de televisão atuais. Pode determinar quais os procedimentos de aprendizagem que estão a ser demonstrados?
    1. Escritório: http://www.break.com/usercontent/2009/11/the-office-altoid- experiência-1499823
    2. A Teoria do Big Bang : http://www.youtube.com/watch?v=JA96Fba-WHk

Cerella, J. (1980). A análise de imagens do pombo. Reconhecimento De Padrões, 12, 1-6.

Thorndike, E. L. (1898). Animal intelligence: An experimental study of the associative processes in animals. Washington, DC: American Psychological Association.

Imputações De Imagem

Figura 8.6: Adaptado de Kassin (2003).

Deixe uma resposta

O seu endereço de email não será publicado.

More: