학습 목표
- 작동 조건화의 원칙을 개략적으로 설명합니다.
- 보강 스케줄 및 보조 보강재를 사용하여 학습이 어떻게 형성 될 수 있는지 설명하십시오.
고전적인 컨디셔닝에서 유기체는 새로운 자극을 타액 분비 또는 두려움과 같은 자연적인 생물학적 반응과 연관시키는 법을 배웁니다. 유기체는 새로운 것을 배우는 것이 아니라 새로운 신호가있는 상태에서 기존의 행동을 수행하기 시작합니다. 반면에 조작 조건화는 행동의 결과에 따라 발생하며 새로운 행동의 학습을 포함 할 수있는 학습입니다. 조작 컨디셔닝은 개가 과거에 그렇게 한 것에 대해 칭찬 받았기 때문에 명령에 따라 굴러 갈 때,학교 방 깡패가 동급생을 위협 할 때,그리고 부모가 그녀를 처벌하겠다고 위협하기 때문에 아이가 좋은 성적을 얻을 때 발생합니다. 작동 조건화에서 유기체는 자신의 행동의 결과로부터 배운다.
강화와 처벌이 행동에 미치는 영향:손다이크와 스키너의 연구
심리학자 에드워드 엘 손다이크(1874-1949)는 조작 조건화를 체계적으로 연구한 최초의 과학자였다. 그의 연구에서 쏜 다이크(1898)는 탈출을 시도한”퍼즐 상자”에 배치 된 고양이를 관찰했습니다(“비디오 클립:쏜 다이크의 퍼즐 상자”). 처음에 고양이는 긁힌,비트,그리고 우연히 때렸다,나가하는 방법의 어떤 생각없이. 그러나 결국,그리고 실수로,그들은 문을 열고 자신의 상,물고기의 스크랩에 종료 레버를 눌렀습니다. 다음에 고양이가 상자 안에 갇혔을 때,성공적인 탈출을 수행하기 전에 비효율적 인 반응을 덜 시도했으며,여러 번의 시험 후에 고양이는 거의 즉시 올바른 반응을 얻는 법을 배웠습니다.
이러한 고양이 행동의 변화를 관찰하면 쏜다이크는 특정한 상황에서 전형적으로 유쾌한 결과를 만들어내는 반응이 비슷한 상황에서 다시 발생할 가능성이 더 높고,전형적으로 불쾌한 결과를 만들어내는 반응이 상황에서 다시 발생할 가능성이 더 적다는 원칙(쏜다이크,1911)을 개발하게 되었다. 효력의 법률의 본질은 그들이 즐겁기 때문에,성공적인 응답이 경험에 의해”안으로”각인되고 이렇게 더 빈번하게 생긴다 이다. 불쾌한 경험을 만들어내는 실패한 응답은”스탬프 처리”되고 이후에 덜 자주 발생합니다.
쏜다이크가 고양이들을 퍼즐 상자에 넣었을 때,그는 고양이들이 각 시험 후에 중요한 탈출 행동에 더 빨리 참여하는 법을 배웠다는 것을 발견했다. 손다이크는 효과의 법칙의 관점에서 강화를 따르는 학습을 설명했다.
손목 시계:”손다이크의 퍼즐 상자” : http://www.youtube.com/watch?v=BDujDOLre-8
영향력있는 행동 심리학자 학사. 스키너(1904-1990)는 조작 조건화를 설명하기 위해보다 완벽한 원칙을 개발하기 위해 손 다이크의 아이디어를 확장했습니다. 스키너는 체계적으로 학습을 연구하기 위해 운영 챔버(일반적으로 스키너 박스라고 함)로 알려진 특수 설계된 환경을 만들었습니다. ㅏ 스키너 상자(조작 챔버)는 설치류 또는 새에 맞게 충분히 크고 유기체가 물이나 물을 방출하기 위해 누르거나 펙 할 수있는 막대 또는 키가 포함 된 구조입니다. 또한 동물의 반응을 기록하는 장치가 포함되어 있습니다(그림 8.5).
스키너의 가장 기본적인 실험은 쏜다이크의 고양이 연구와 매우 유사했다. 챔버에 배치 된 쥐가 예상대로 반응하여 상자에 대해 당황하고 바닥과 벽을 킁킁 거리며 소리를냅니다. 결국 쥐는 음식 알약을 방출하기 위해 눌러 진 레버를 우연히 발견했습니다. 다음에 쥐가 레버를 누르는 데 시간이 좀 덜 걸렸고,연속적인 실험에서 레버를 누르는 데 걸리는 시간이 점점 짧아졌습니다. 곧 쥐는 나타난 음식을 먹을 수있는 한 빨리 레버를 누르고있었습니다. 효과 법칙에 의해 예측 된 바와 같이,쥐는 음식을 가져온 행동을 반복하고 그렇지 않은 행동을 중단하는 법을 배웠습니다.
스키너는 강화와 처벌을 통해 동물이 어떻게 행동을 변화 시켰는지 자세히 연구했으며,조작 학습 과정을 설명하는 용어를 개발했다(표 8.1,”긍정적이고 부정적인 강화와 처벌이 행동에 미치는 영향”). 스키너는 강화제라는 용어를 사용하여 행동의 가능성을 강화하거나 증가시키는 모든 사건을 지칭하고 처벌 자라는 용어는 행동의 가능성을 약화 시키거나 감소시키는 모든 사건을 지칭합니다. 그리고 그는 긍정적이고 부정적인 용어를 사용하여 보강이 각각 제시되었는지 또는 제거되었는지 여부를 나타냅니다. 따라서 긍정적 인 강화는 반응 후에 즐거운 것을 제시함으로써 반응을 강화하고 부정적인 강화는 불쾌한 것을 줄이거 나 제거하여 반응을 강화합니다. 예를 들면,그의 숙제를 완료하기를 위해 아이에게 칭찬을 줌것은 긍정적인 증강을 대표한다,두통의 고통을 감소하기 위하여 아스피린을 가지고 가는것이 부정적인 증강을 대표하더라도 반면. 두 경우 모두,강화는 행동이 미래에 다시 발생할 가능성이 더 높습니다.
피연산자 조건화 용어 | 설명 | 결과 | 예 |
---|---|---|---|
긍정적 인 강화 | 쾌적한 자극 추가 또는 증가 | 행동이 강화된다 | 학생에게 시험에 합격 한 후 상을 수여 |
부정적인 강화 | 불쾌한 자극 감소 또는 제거 | 행동 강화 | 통증을 제거하는 진통제를 복용하면 복용 가능성이 높아집니다 다시 진통제 |
긍정적 처벌 | 불쾌한 자극 제시 또는 추가 | 행동이 약화됨 | 학생이 수업 중에 잘못된 행동을 한 후 숙제를 추가로 제공 |
부정적인 처벌 | 쾌적한 자극 감소 또는 제거 | 행동이 약화됨 | 십대 자녀가 통금 시간을 놓친 후 컴퓨터를 빼앗음 |
긍정 부정 증강은,행동의 가능성을 증가해서,일한다. 반면에 처벌은 행동의 가능성을 약화 시키거나 감소시키는 모든 사건을 말합니다. 긍정적 인 처벌은 반응 후에 불쾌한 것을 제시함으로써 반응을 약화시키는 반면 부정적인 처벌은 즐거운 것을 줄이거 나 제거하여 반응을 약화시킵니다. 형제 자매(긍정적 인 처벌)와 싸우거나 가난한 학년(부정적인 처벌)을받은 후 쉬는 시간에 갈 기회를 잃은 어린이는 이러한 행동을 반복 할 가능성이 적습니다.
강화(행동을 증가 시킴)와 처벌(행동을 감소 시킴)의 구별은 일반적으로 분명하지만,어떤 경우에는 강화자가 긍정적인지 부정적인지 판단하기가 어렵습니다. 더운 날에는 시원한 바람이 긍정적 인 강화제(시원한 공기를 가져 오기 때문에)또는 부정적인 강화제(뜨거운 공기를 제거하기 때문에)로 볼 수 있습니다. 다른 경우 보강은 긍정적이거나 부정적 일 수 있습니다. 담배를 피우는 것은 즐거움(긍정적 인 강화)과 니코틴에 대한 갈망을 없애기 때문에(부정적인 강화)담배를 피울 수 있습니다.
강화와 처벌은 단순히 반대되는 것이 아니라는 점에 주목하는 것도 중요하다. 행동을 변화시키는 데 긍정적 인 강화를 사용하는 것은 거의 항상 처벌을 사용하는 것보다 효과적입니다. 이것은 긍정적 인 보강이 사람이나 동물의 기분을 좋게 만들어 보강을 제공하는 사람과 긍정적 인 관계를 형성하도록 돕기 때문입니다. 일상 생활에서 효과적인 긍정적 인 강화 유형에는 구두 칭찬 또는 승인,지위 또는 명성 수여,직접 재정적 지불이 포함됩니다. 반면에 처벌은 강압에 기반하고 일반적으로 강화를 제공하는 사람과 부정적이고 적대적인 관계를 형성하기 때문에 행동에 일시적인 변화 만 일으킬 가능성이 더 큽니다. 처벌을 제공하는 사람이 상황을 떠날 때 원치 않는 행동이 돌아올 가능성이 높습니다.
조작 조건화를 통해 복잡한 행동 만들기
아마도 당신은 영화를 보거나 동물(아마도 개,말 또는 돌고래)이 꽤 놀라운 일을 한 쇼에 있었던 것을 기억할 것입니다. 조련사는 명령을 내리고 돌고래는 수영장의 바닥에 수영하고,그것의 코에 반지를 줍고,공기에 있는 굴렁쇠를 통해서 물 밖으로 뛰어오르고,수영장의 바닥에 다시 급강하하고,다른 반지를 줍고,수영장의 가장자리에 조련사에게 그 후에 반지의 둘 다 가지고 갔다. 그 동물은 그 트릭을 할 수 있도록 훈련 받았고,그것을 훈련시키기 위해 작동 조건화의 원칙이 사용되었습니다. 그러나 이러한 복잡한 행동은 우리가 지금까지 고려한 단순한 자극-반응 관계와는 거리가 멀다. 이와 같은 복잡한 행동을 만들기 위해 보강을 어떻게 사용할 수 있습니까?
연산 학습의 사용을 확장하는 한 가지 방법은 보강이 적용되는 일정을 수정하는 것입니다. 이 시점에서 우리는 원하는 응답이 발생할 때마다 강화되는 지속적인 보강 일정을 논의했습니다; 예를 들어,개가 굴러 갈 때마다 비스킷을 얻습니다. 지속적인 강화는 상대적으로 빠른 학습뿐만 아니라 강화자가 사라지면 원하는 행동의 급속한 멸종을 초래합니다. 문제는 유기체가 모든 행동 후에 보강을받는 데 익숙하기 때문에 응답자가 나타나지 않을 때 빨리 포기할 수 있다는 것입니다.
대부분의 실제 보강자는 연속적이지 않으며 부분적(또는 간헐적)보강 일정에 따라 발생합니다. 지속적인 보강에 비해 부분 보강 일정 느린 초기 학습으로 이어질 하지만 그들은 또한 멸종에 더 큰 저항으로 이어질. 보강은 모든 행동 후에 나타나지 않기 때문에 학습자가 보상이 더 이상 오지 않는다고 판단하는 데 더 오래 걸리므로 멸종이 더 느립니다. 네 가지 유형의 부분 보강 일정은 표 8.2,”보강 일정에 요약되어 있습니다.”
보강 일정 | 설명 | 실제 사례 |
---|---|---|
고정 비율 | 동작은 특정 수의 응답 후에 강화됩니다. | 자신이 생산하는 제품의 수에 따라 지불 공장 노동자 |
가변 비율 | 동작은 평균이지만 예측할 수없는 응답 수 후에 강화됩니다. | 슬롯 머신과 기회의 다른 게임에서 보수 |
고정 간격 | 특정 시간이 경과한 후 첫 번째 응답에 대해 동작이 강화됩니다. | 월급을 받는 사람 |
가변 간격 | 평균이지만 예측할 수없는 시간이 경과 한 후 첫 번째 응답에 대해 동작이 강화됩니다. | 이메일에서 메시지를 확인하는 사람 |
부분 보강 일정은 보강 사이에 경과한 시간(간격)또는 유기체가 관여하는 반응 수(비율)를 기준으로 보강이 제공되는지 여부와 보강이 정규(고정)또는 예측할 수없는(가변)일정에서 발생하는지 여부에 따라 결정됩니다. 고정 간격 일정에서 특정 시간이 경과 한 후 첫 번째 응답에 대해 보강이 발생합니다. 예를 들어,1 분 고정 간격 일정에 따라 동물은 1 분 동안 적어도 한 번 행동에 관여한다고 가정 할 때마다 보강을받습니다. 그림 8.6 에서 볼 수 있듯이,”다른 부분 보강 일정에 따라 훈련 된 동물에 의한 반응 패턴의 예”고정 간격 일정에 따라 동물은 보강 직후 반응을 늦추지 만 다음 보강 시간이 가까워지면 행동을 다시 증가시키는 경향이 있습니다. (대부분의 학생들은 같은 방법으로 시험을 봅니다.)가변 간격 일정에서 보강재는 간격 일정에 표시되지만 타이밍은 평균 간격 주위로 다양하여 보강재의 실제 모양을 예측할 수 없습니다. 보기는 너의 전자 우편을 검사한:너는 오는 메시지를,평균에,말하자면,각 30 분 받어서 강화된다,그러나 증강은 무작위 시간에 단 생긴다. 간격 보강 일정은 느리고 꾸준한 응답 속도를 생성하는 경향이 있습니다.
고정 비율 일정에서 특정 수의 응답 후에 동작이 강화됩니다. 예를 들어,쥐의 행동은 키를 20 번 누른 후 강화되거나 영업 사원이 10 개의 제품을 판매 한 후 보너스를받을 수 있습니다. 그림 8 에서 볼 수 있듯이.6,”다른 부분 보강 일정에 따라 훈련 된 동물에 의한 반응 패턴의 예,”일단 유기체가 고정 비율 일정에 따라 행동하는 것을 알게되면,높은 수준의 반응성으로 돌아 가기 전에 보강이 발생할 때만 잠시 일시 중지됩니다. 가변 비율 일정은 특정하지만 평균 응답 수 후에 보강재를 제공합니다. 슬롯 머신이나 복권에서 돈을 얻는 것은 가변 비율 일정에 따라 발생하는 강화의 예입니다. 예를 들어,슬롯 머신(그림 참조 8.7,”슬롯 머신”)는 사용자가 핸들을 끌어마다 20 회 승리를 제공하도록 프로그래밍 할 수있다,평균. 비율 일정은 응답 수가 증가함에 따라 보강이 증가하기 때문에 응답 비율이 높은 경향이 있습니다.
복잡한 행동은 또한 형성을 통해 생성되며,이는 최종 원하는 행동에 대한 연속적인 근사치를 사용하여 유기체의 행동을 원하는 결과로 안내하는 과정입니다. 스키너는 자신의 상자에서이 절차의 광범위한 사용을했다. 예를 들어,그는 쥐가 바를 두 번 눌러 음식을 받도록 훈련시킬 수 있으며,동물이 바 근처로 이동할 때 먼저 음식을 제공 할 수 있습니다. 그 행동을 알게되었을 때,스키너는 쥐가 바에 닿았을 때만 음식을 제공하기 시작했습니다. 추가 형성은 쥐가 막대를 눌렀을 때만,막대를 눌렀을 때만,그리고 마지막으로 막대를 두 번 눌렀을 때만 보강재를 제한했습니다. 시간이 오래 걸릴 수 있지만,이러한 방식으로 작동 조건화는 완료 될 때만 강화되는 행동 사슬을 만들 수 있습니다.
비슷한 자극을 정확하게 구별하면 동물을 강화하면 과학자들은 동물의 학습 능력을 테스트 할 수 있으며,동물이 할 수있는 차별은 때때로 놀랍습니다. 비둘기는 찰리 브라운의 이미지와 다른 땅콩 캐릭터(세렐라,1980)와 다양한 스타일의 음악과 예술(포터&뉴린저,1984)을 구별하도록 훈련 받았습니다; 와타나베,사카모토&와키 타,1995).
행동은 또한 보조 강화제의 사용을 통해 훈련 될 수 있습니다. 1 차적인 보강자가 고통에서 음식 물 및 기복과 같은 유기체에 의해 자연적으로 선호되거나 즐기는 자극을 포함하더라도 반면,(때때로 조절된 보강자에게에게 불리는)이차 보강자는 고아한 조절을 통해 1 차적인 보강자와 연관되게 된 중립 사건입니다. 보조 강화제의 예는 동물 조련사에 의해 주어진 호각 것,이는 기본 강화제와 시간이 지남에 연결 된,음식. 일상적인 보조 강화제의 예는 돈입니다. 우리는 자극 그 자체를 위해서가 아니라 오히려 그것이 연관되어있는 1 차 강화제(돈이 살 수있는 것들)를 위해 돈을 갖는 것을 즐긴다.
주요 테이크 아웃
- 에드워드 손다이크는 효과의 법칙을 개발:원리는 특정 상황에서 일반적으로 즐거운 결과를 생성 응답은 비슷한 상황에서 다시 발생할 가능성이 더 높습니다 반면,일반적으로 불쾌한 결과를 생성 응답은 상황에서 다시 발생할 가능성이 적습니다.
- 스키너는 조작 조건화를 설명하는 일련의 원칙을 개발하기 위해 손다이크의 아이디어를 확장했다.
- 긍정적 강화는 반응 후에 전형적으로 유쾌한 것을 제시함으로써 반응을 강화시키는 반면,부정적 강화는 전형적으로 불쾌한 것을 줄이거 나 제거함으로써 반응을 강화시킨다.
- 긍정적인 처벌은 반응 이후에 전형적으로 불쾌한 것을 제시함으로써 반응을 약화시키는 반면,부정적인 처벌은 전형적으로 유쾌한 것을 줄이거 나 제거함으로써 반응을 약화시킨다.
- 보강은 부분적이거나 연속적일 수 있다. 부분 보강 일정은 보강이 보강(간격)사이에 경과한 시간 또는 유기체가 관여하는 반응 수(비율)를 기준으로 보강이 제공되는지 여부와 보강이 정규(고정)또는 예측할 수없는(가변)일정에서 발생하는지 여부에 따라 결정됩니다.
- 복잡한 행동은 최종 원하는 행동에 대한 연속적인 근사치를 사용하여 유기체의 행동을 원하는 결과로 안내하는 과정 인 형성을 통해 생성 될 수 있습니다.
연습과 비판적 사고
- 긍정적 인 강화,부정적인 강화,긍정적 인 처벌,부정적인 처벌 각각의 일상 생활에서 예를 들어보십시오.
- 당신이 잡아 당신이 그것을 던져 프리즈 비를 검색하는 개를 훈련하는 데 사용할 수있는 보강 기술을 고려하십시오.
- 현재 텔레비전 쇼에서 다음 두 비디오를 시청하십시오. 어떤 학습 절차가 시연되고 있는지 결정할 수 있습니까?
- 사무실:http://www.break.com/usercontent/2009/11/the-office-altoid-실험-1499823
- 빅뱅 이론: http://www.youtube.com/watch?v=JA96Fba-WHk
세 렐라,제이(1980). 비둘기의 그림 분석. 패턴 인식,12,1-6.
손다이크,엘.(1898). 동물 지능:동물의 연관 과정에 대한 실험적 연구. 워싱턴,직류:미국 심리학 협회.
이미지 속성
그림 8.6: 각색 카신(2003).