Ánh nắng mùa hè chiếu sáng rực rỡ trên một dải bãi biển hoang vắng. Đột nhiên, một cái đầu xám nhỏ xuất hiện từ cát, sau đó là cái thứ hai và thứ ba. Chẳng bao lâu, bãi biển đầy ắp rùa con loggerhead. Mặc dù chỉ mới chào đời vài phút, những con rùa non này biết chính xác phải làm gì. Vây của chúng không hiệu quả lắm trong việc di chuyển trên cát nóng, nhưng chúng vẫn tiếp tục tiến lên, theo bản năng. Một số con nhanh chóng bị các con mòng biển bay lượn trên đầu bắt gọn và những con khác trở thành bữa trưa cho các con cua ma đói bụng chui ra từ hang của chúng. Mặc dù gặp nhiều nguy hiểm như vậy, rùa non vẫn quyết tâm rời khỏi tổ an toàn của chúng và tìm đến đại dương.
Không xa dải bãi biển này, Ben và con trai của anh ấy, Julian, đang chèo ra biển trên những tấm ván lướt sóng. Một con sóng ập đến. Julian cúi người trên ván, sau đó nhảy lên và lướt sóng vài giây trước khi mất thăng bằng . Anh trồi lên từ nước kịp lúc để xem cha mình lướt trên mặt sóng.

Khác với rùa con, vốn biết cách tìm đến biển và bơi mà không cần sự giúp đỡ từ cha mẹ, chúng ta không được sinh ra với khả năng biết bơi (hay lướt sóng). Tuy nhiên, chúng ta tự hào về khả năng học hỏi của mình. Thực tế, trong hàng nghìn năm và xuyên suốt các nền văn hóa, chúng ta đã tạo ra các tổ chức dành riêng cho việc học tập. Nhưng bạn đã bao giờ tự hỏi chính xác làm thế nào chúng ta học hỏi? Những quá trình nào đang hoạt động khi chúng ta dần biết những gì chúng ta biết? Chương này tập trung vào những cách chính mà qua đó học tập diễn ra.

— Trích dịch từ cuốn sách Psychology 2e trên Openstax

— Phần trước: Điều kiện hóa cổ điển

Điều kiện hóa hành vi

Phần trước của chương này tập trung vào loại học tập liên kết được gọi là điều kiện hóa cổ điển. Hãy nhớ rằng trong điều kiện hóa cổ điển, một điều gì đó trong môi trường kích hoạt một phản xạ tự động, và các nhà nghiên cứu huấn luyện sinh vật để phản ứng với một kích thích khác. Bây giờ chúng ta chuyển sang loại học tập liên kết thứ hai, điều kiện hóa hành vi (operant conditioning). Trong điều kiện hóa hành vi, sinh vật học cách liên kết một hành vi và kết quả của nó. Một hậu quả dễ chịu làm cho hành vi đó có nhiều khả năng được lặp lại trong tương lai. Ví dụ, Spirit, một con cá heo tại Thủy cung Quốc gia ở Baltimore, lộn ngược trong không trung khi huấn luyện viên thổi còi. Kết quả là nó được cho ăn cá.

So sánh giữa điều kiện hóa cổ điển và điều kiện hóa hành vi

Nhà tâm lý học B. F. Skinner nhận thấy rằng điều kiện hóa cổ điển bị giới hạn bởi các hành vi hiện có mà phản xạ được khơi gợi, và nó không giải thích được các hành vi mới như việc đi xe đạp. Ông đề xuất một lý thuyết về cách các hành vi này xuất hiện. Skinner tin rằng hành vi được thúc đẩy bởi các kết quả mà chúng ta nhận được cho hành vi đó: sự củng cố và trừng phạt. Ý tưởng của ông rằng học tập là kết quả của các hậu quả dựa trên luật của hiệu ứng, lần đầu tiên được đề xuất bởi nhà tâm lý học Edward Thorndike. Theo luật của hiệu ứng (law of effect), các hành vi được theo sau bởi các kết quả thỏa mãn sinh vật có nhiều khả năng được lặp lại, và các hành vi được theo sau bởi các hậu quả không dễ chịu có ít khả năng được lặp lại hơn (Thorndike, 1911). Về cơ bản, nếu một sinh vật làm điều gì đó mang lại kết quả mong muốn, sinh vật đó có nhiều khả năng sẽ làm lại điều đó. Nếu một sinh vật làm điều gì đó không mang lại kết quả mong muốn, sinh vật đó ít có khả năng sẽ làm lại điều đó. Một ví dụ về luật của hiệu ứng là trong việc làm. Một trong những lý do (và thường là lý do chính) chúng ta đi làm là vì chúng ta được trả lương. Nếu chúng ta không nhận được lương, chúng ta có thể sẽ ngừng đi làm—thậm chí ngay cả chúng ta yêu công việc của mình.

Dựa trên nền tảng là luật của hiệu ứng của Thorndike, Skinner bắt đầu tiến hành các thí nghiệm khoa học trên động vật (chủ yếu là chuột và chim bồ câu) để xác định cách các sinh vật học thông qua điều kiện hóa hành vi (Skinner, 1938). Ông đặt những động vật này vào một phòng điều kiện hóa hành vi, được biết đến với tên gọi “hộp Skinner” (Hình 6.10). Một hộp Skinner chứa một cái cần (cho chuột) hoặc một đĩa (cho chim bồ câu) mà động vật có thể nhấn hoặc mổ để nhận phần thưởng thức ăn thông qua bộ phân phối. Các loa và đèn có thể được kết hợp với các hành vi nhất định. Một máy ghi lại số lần phản ứng của động vật.

Hình 6.10: (a) B. F. Skinner đã phát triển điều kiện hóa hành vi để nghiên cứu có hệ thống cách các hành vi được củng cố hoặc suy yếu tùy theo hậu quả của chúng. (b) Trong một hộp Skinner, một con chuột nhấn cần trong một phòng điều kiện hóa hành vi để nhận phần thưởng thức ăn. (nguồn (a): chỉnh sửa từ tác phẩm của "Silly rabbit"/Wikimedia Commons)

Khi thảo luận về điều kiện hóa hành vi, chúng ta sử dụng một số từ ngữ hằng ngày—tích cực (positive), tiêu cực (negative), củng cố (reinforcement), và trừng phạt (punishment)—theo một cách đặc biệt. Trong điều kiện hóa hành vi, tích cực không có nghĩa là tốt và tiêu cực không có nghĩa là xấu. Thay vào đó, tích cực có nghĩa là bạn thêm vào một cái gì đó, và tiêu cực có nghĩa là bạn lấy đi một cái gì đó. Củng cố có nghĩa là bạn đang tăng cường một hành vi, và trừng phạt có nghĩa là bạn đang giảm bớt một hành vi. Củng cố có thể là tích cực hoặc tiêu cực, và trừng phạt cũng có thể là tích cực hoặc tiêu cực. Tất cả các biện pháp củng cố (tích cực hoặc tiêu cực) đều tăng khả năng phản ứng hành vi. Tất cả các biện pháp trừng phạt (tích cực hoặc tiêu cực) đều giảm khả năng phản ứng hành vi. Bây giờ, hãy kết hợp bốn thuật ngữ này: củng cố tích cực, củng cố tiêu cực, trừng phạt tích cực, và trừng phạt tiêu cực

Củng cố tích cực và tiêu cực và trừng phạt

Củng cố

Cách hiệu quả nhất để dạy một người hoặc động vật một hành vi mới là sử dụng củng cố tích cực. Trong củng cố tích cực (positive reinforcement), một kích thích mong muốn được thêm vào để tăng cường hành vi.

Ví dụ, bạn nói với con trai năm tuổi của mình, Jerome, rằng nếu cậu bé dọn dẹp phòng, cậu bé sẽ được nhận một món đồ chơi. Jerome nhanh chóng dọn dẹp phòng vì cậu bé muốn một bộ đồ nghệ thuật mới. Hãy tạm dừng một chút. Một số người có thể nói, “Tại sao tôi nên thưởng cho con mình vì làm những gì được mong đợi?” Nhưng thực tế là chúng ta liên tục và nhất quán được thưởng trong cuộc sống của mình. Các khoản lương của chúng ta là phần thưởng, cũng như điểm số cao và sự chấp nhận vào trường học mà chúng ta mong muốn. Được khen ngợi vì làm tốt công việc và vượt qua bài kiểm tra lái xe cũng là phần thưởng. Củng cố tích cực như một công cụ học tập cực kỳ hiệu quả. Người ta phát hiện rằng một trong những cách hiệu quả nhất để tăng thành tích ở các khu vực học tập có điểm đọc dưới trung bình là trả tiền cho trẻ em để đọc. Cụ thể, các học sinh lớp hai ở Dallas được trả 2 đô la mỗi lần họ đọc một cuốn sách và vượt qua một bài kiểm tra ngắn về cuốn sách đó. Kết quả là sự tăng đáng kể trong khả năng đọc hiểu (Fryer, 2010). Bạn nghĩ gì về chương trình này? Nếu Skinner còn sống ngày nay, ông có lẽ sẽ nghĩ rằng đây là một ý tưởng tuyệt vời. Ông là người ủng hộ mạnh mẽ việc sử dụng các nguyên tắc điều kiện hóa hành vi để ảnh hưởng đến hành vi của học sinh ở trường. Thực tế, ngoài hộp Skinner, ông còn phát minh ra cái gọi là máy dạy học được thiết kế để thưởng các bước nhỏ trong học tập (Skinner, 1961)—một tiền thân sớm của học tập hỗ trợ máy tính. Máy dạy học của ông kiểm tra kiến thức của học sinh khi họ làm việc qua các môn học khác nhau. Nếu học sinh trả lời đúng, họ sẽ nhận được củng cố tích cực ngay lập tức và có thể tiếp tục; nếu họ trả lời sai, họ không nhận được bất kỳ củng cố nào. Ý tưởng là học sinh sẽ dành thêm thời gian học tài liệu để tăng cơ hội được củng cố lần sau (Skinner, 1961).

Trong củng cố tiêu cực (negative reinforcement), một kích thích không mong muốn được lấy đi để tăng cường hành vi. Ví dụ, các nhà sản xuất ô tô sử dụng các nguyên tắc củng cố tiêu cực trong hệ thống dây đai an toàn của họ, phát ra tiếng “bíp bíp bíp” cho đến khi bạn thắt dây an toàn. Âm thanh khó chịu dừng lại khi bạn thể hiện hành vi mong muốn, tăng khả năng rằng bạn sẽ thắt dây an toàn trong tương lai. Củng cố tiêu cực cũng thường được sử dụng trong việc huấn luyện ngựa. Người cưỡi ngựa áp dụng áp lực—bằng cách kéo cương hoặc siết chặt chân—và sau đó giảm áp lực khi ngựa thực hiện hành vi mong muốn, chẳng hạn như quay hoặc tăng tốc. Áp lực là kích thích tiêu cực mà ngựa muốn loại bỏ.

Trừng phạt

Nhiều người nhầm lẫn giữa củng cố tiêu cực với trừng phạt trong điều kiện hóa hành vi, nhưng chúng là hai cơ chế rất khác nhau. Hãy nhớ rằng củng cố, ngay cả khi là tiêu cực, luôn luôn tăng cường hành vi. Ngược lại, trừng phạt (punishment) luôn luôn giảm bớt hành vi. Trong trừng phạt tích cực (positive punishment), bạn thêm vào một kích thích không mong muốn để giảm bớt hành vi. Một ví dụ về trừng phạt tích cực là mắng mỏ một học sinh để ngăn học sinh đó nhắn tin trong lớp. Trong trường hợp này, một kích thích (lời mắng mỏ) được thêm vào để giảm bớt hành vi (nhắn tin trong lớp). Trong trừng phạt tiêu cực (negative punishment), bạn lấy đi một kích thích dễ chịu để giảm bớt hành vi. Ví dụ, khi một đứa trẻ cư xử không đúng mực, cha mẹ có thể lấy đi món đồ chơi yêu thích của trẻ. Trong trường hợp này, một kích thích (đồ chơi) được lấy đi để giảm bớt hành vi.

Trừng phạt, đặc biệt là khi nó được thực hiện ngay lập tức, là một cách để giảm bớt hành vi không mong muốn. Ví dụ, hãy tưởng tượng con trai năm tuổi của bạn, Brandon, chạy ra đường để đuổi theo một quả bóng. Bạn yêu cầu Brandon viết 100 lần “Tôi sẽ không chạy ra đường” (trừng phạt tích cực). Có khả năng cậu bé sẽ không lặp lại hành vi này. Mặc dù các chiến lược như vậy phổ biến ngày nay, trong quá khứ trẻ em thường phải chịu các hình phạt thể chất, chẳng hạn như đánh đòn. Điều quan trọng là phải nhận thức được một số nhược điểm khi sử dụng hình phạt thể chất đối với trẻ em. Đầu tiên, hình phạt có thể dạy trẻ sợ hãi. Brandon có thể trở nên sợ hãi đường phố, nhưng cậu bé cũng có thể trở nên sợ hãi người đã thực hiện hình phạt—bạn, cha mẹ của cậu. Tương tự, những trẻ em bị giáo viên trừng phạt có thể trở nên sợ hãi giáo viên và cố gắng tránh trường học (Gershoff et al., 2010). Do đó, hầu hết các trường học ở Hoa Kỳ đã cấm trừng phạt thân thể. Thứ hai, hình phạt có thể khiến trẻ trở nên hung hăng hơn và dễ dàng hành vi chống đối xã hội và phạm pháp (Gershoff, 2002). Chúng thấy cha mẹ của chúng dùng đến việc đánh đòn khi tức giận và thất vọng, vì vậy, khi chúng tức giận và thất vọng, chúng cũng có thể hành động như vậy. Ví dụ, nếu bạn đánh đòn con mình khi bạn tức giận với hành vi sai trái của chúng, chúng có thể bắt đầu đánh bạn bè của mình khi họ không chia sẻ đồ chơi.

Mặc dù trừng phạt tích cực có thể hiệu quả trong một số trường hợp, Skinner gợi ý rằng việc sử dụng trừng phạt nên được cân nhắc với các tác động tiêu cực có thể có. Các nhà tâm lý học và chuyên gia nuôi dạy con ngày nay ưu tiên củng cố hơn là trừng phạt—họ khuyên rằng bạn nên bắt gặp con mình làm điều gì đó tốt và thưởng cho chúng vì điều đó.

Định hình hành vi

Trong các thí nghiệm điều kiện hóa hành vi của mình, Skinner thường sử dụng một phương pháp gọi là định hình hành vi. Thay vì chỉ thưởng cho hành vi mục tiêu, trong định hình hành vi (shaping), chúng ta thưởng cho các bước tiếp cận dần dần của hành vi mục tiêu. Tại sao cần phải định hình hành vi? Hãy nhớ rằng để củng cố có hiệu quả, sinh vật phải thể hiện hành vi trước. Định hình hành vi cần thiết vì rất hiếm khi một sinh vật sẽ thể hiện bất cứ điều gì ngoài các hành vi đơn giản nhất một cách tự nhiên. Trong định hình hành vi, các hành vi được chia thành nhiều bước nhỏ, có thể đạt được. Các bước cụ thể trong quá trình này bao gồm:

  1. Củng cố bất kỳ phản ứng nào giống với hành vi mong muốn.
  2. Sau đó củng cố phản ứng giống hành vi mong muốn hơn. Bạn sẽ không còn củng cố phản ứng đã được củng cố trước đó nữa.
  3. Tiếp theo, bắt đầu củng cố phản ứng giống hành vi mong muốn hơn nữa.
  4. Tiếp tục củng cố các bước tiếp cận gần hơn và gần hơn với hành vi mong muốn.
  5. Cuối cùng, chỉ củng cố hành vi mong muốn.

Định hình hành vi thường được sử dụng trong việc dạy một hành vi phức tạp hoặc chuỗi hành vi. Skinner đã sử dụng định hình để dạy chim bồ câu không chỉ các hành vi tương đối đơn giản như mổ vào đĩa trong hộp Skinner, mà còn nhiều hành vi thú vị và kỳ lạ, như quay vòng, đi theo hình số tám, và thậm chí chơi bóng bàn; kỹ thuật này được các huấn luyện viên động vật sử dụng phổ biến ngày nay. Một phần quan trọng của định hình là sự phân biệt kích thích. Hãy nhớ lại những con chó của Pavlov—ông huấn luyện chúng phản ứng với âm thanh của chuông, và không phải với các âm thanh tương tự khác. Sự phân biệt này cũng quan trọng trong điều kiện hóa hành vi và trong việc định hình hành vi.

Thật dễ dàng để thấy cách định hình hành vi hiệu quả trong việc dạy các hành vi cho động vật, nhưng định hình hoạt động như thế nào với con người? Hãy xem xét các bậc cha mẹ có mục tiêu là dạy con mình học cách dọn dẹp phòng của mình. Họ sử dụng định hình để giúp con làm chủ các bước tiến tới mục tiêu. Thay vì yêu cầu trẻ thực hiện toàn bộ nhiệm vụ, họ chia nhỏ nhiệm vụ thành các bước nhỏ và củng cố từng bước. Đầu tiên, trẻ dọn dẹp một món đồ chơi. Thứ hai, trẻ dọn dẹp năm món đồ chơi. Thứ ba, trẻ chọn dọn mười món đồ chơi hoặc cất sách vở và quần áo của mình. Thứ tư, trẻ dọn dẹp mọi thứ trừ hai món đồ chơi. Cuối cùng, trẻ dọn dẹp toàn bộ phòng của mình.

Củng cố sơ cấp và thứ cấp

Phần thưởng như nhãn dán, lời khen ngợi, tiền, đồ chơi, và nhiều thứ khác có thể được sử dụng để củng cố học tập. Hãy quay lại với những con chuột của Skinner. Làm thế nào mà những con chuột học cách nhấn cần trong hộp Skinner? Chúng được thưởng thức ăn mỗi khi chúng nhấn cần. Đối với động vật, thức ăn là một phần thưởng hiển nhiên.

Vậy, phần thưởng tốt cho con người là gì? Đối với việc con bạn dọn dẹp phòng, đó là lời hứa sẽ nhận được một món đồ chơi. Còn Sydney, cầu thủ bóng đá thì sao? Nếu bạn cho Sydney một viên kẹo mỗi khi cô ấy ghi bàn, bạn đang sử dụng củng cố sơ cấp (primary reinforcer). Củng cố sơ cấp là những củng cố có tính chất tự nhiên. Những loại củng cố này không cần phải học. Nước, thức ăn, giấc ngủ, nơi ở, tình dục, và sự chạm vào, trong số những thứ khác, là củng cố sơ cấp. Niềm vui cũng là một củng cố sơ cấp. Các sinh vật không mất đi động lực cho những thứ này. Đối với hầu hết mọi người, nhảy xuống một hồ nước mát vào một ngày nóng nực sẽ là củng cố và hồ nước mát sẽ là củng cố tự nhiên—nước sẽ làm mát người (một nhu cầu vật lý), cũng như mang lại niềm vui.

Củng cố thứ cấp (secondary reinforcer) không có giá trị nội tại và chỉ có tính củng cố khi được liên kết với củng cố sơ cấp. Lời khen ngợi, liên kết với sự yêu thương, là một ví dụ về củng cố thứ cấp, như khi bạn gọi to “Cú sút tuyệt vời!” mỗi khi Sydney ghi bàn. Một ví dụ khác, tiền, chỉ có giá trị khi bạn có thể sử dụng nó để mua những thứ khác—hoặc là những thứ đáp ứng nhu cầu cơ bản (thức ăn, nước uống, nơi ở—tất cả đều là củng cố sơ cấp) hoặc các củng cố thứ cấp khác. Nếu bạn đang ở trên một hòn đảo xa xôi giữa Thái Bình Dương và bạn có một đống tiền, tiền sẽ không hữu ích nếu bạn không thể tiêu nó. Còn các miếng nhãn dán thì sao? Chúng cũng là củng cố thứ cấp.

Đôi khi, thay vì nhãn dán trên bảng, một loại token được sử dụng. Token, cũng là củng cố thứ cấp, sau đó có thể được đổi lấy phần thưởng và giải thưởng. Toàn bộ hệ thống quản lý hành vi, được gọi là nền kinh tế token, được xây dựng xung quanh việc sử dụng các loại token củng cố này. Các nền kinh tế token đã được chứng minh là rất hiệu quả trong việc thay đổi hành vi trong nhiều bối cảnh khác nhau như trường học, nhà tù, và bệnh viện tâm thần. Ví dụ, một nghiên cứu của Adibsereshki và Abkenar (2014) đã phát hiện rằng việc sử dụng nền kinh tế token làm tăng các hành vi xã hội thích hợp và giảm các hành vi không thích hợp ở một nhóm học sinh lớp tám. Các nghiên cứu tương tự cho thấy những tiến bộ rõ rệt về hành vi và thành tích học tập cho các nhóm từ lớp một đến trung học, và đại diện cho nhiều loại khả năng và khuyết tật khác nhau. Ví dụ, trong các nghiên cứu liên quan đến học sinh nhỏ tuổi, khi trẻ em trong nghiên cứu thể hiện hành vi thích hợp (không đánh hoặc cắn), chúng nhận được một token “tay yên lặng”. Khi chúng đánh hoặc cắn, chúng mất một token. Trẻ em sau đó có thể đổi một số lượng token nhất định để có thời gian chơi.

Biến đổi hành vi ở trẻ em

Các bậc cha mẹ và giáo viên thường sử dụng việc điều chỉnh hành vi để thay đổi hành vi của trẻ. Điều chỉnh hành vi sử dụng các nguyên tắc của điều kiện hóa hành vi để đạt được sự thay đổi hành vi, sao cho các hành vi không mong muốn được thay thế bằng các hành vi được xã hội chấp nhận hơn. Một số giáo viên và phụ huynh tạo ra một bảng dán nhãn, trong đó liệt kê một số hành vi . Bảng dán nhãn là một dạng của nền kinh tế điểm thưởng, như đã được mô tả trong văn bản. Mỗi khi trẻ thực hiện hành vi, chúng sẽ nhận được một nhãn dán, và sau một số lượng nhãn dán nhất định, chúng sẽ nhận được một phần thưởng hoặc củng cố. Mục tiêu là tăng cường các hành vi chấp nhận được và giảm bớt hành vi xấu. Hãy nhớ rằng, tốt nhất là củng cố các hành vi mong muốn, thay vì sử dụng hình phạt. Trong lớp học, giáo viên có thể củng cố một loạt các hành vi, từ việc học sinh giơ tay, đi lại yên tĩnh trong hành lang, đến việc nộp bài tập về nhà. Ở nhà, cha mẹ có thể tạo ra một bảng hành vi để thưởng cho trẻ khi thực hiện các việc như dọn đồ chơi, đánh răng và giúp đỡ trong bữa ăn tối. Để việc điều chỉnh hành vi có hiệu quả, việc củng cố cần phải được liên kết với hành vi; sự củng cố phải quan trọng đối với trẻ và được thực hiện một cách nhất quán.

Hình 6.11: Bảng dán nhãn là một hình thức củng cố tích cực và là công cụ để điều chỉnh hành vi. Khi trẻ đạt được một số lượng nhãn dán nhất định cho việc thể hiện hành vi mong muốn, cô bé sẽ được thưởng một chuyến đi đến tiệm kem. (nguồn: Abigail Batchelder)

Time-out là một kỹ thuật phổ biến khác được sử dụng để điều chỉnh hành vi với trẻ em. Nó hoạt động dựa trên nguyên tắc của hình phạt tiêu cực. Khi một đứa trẻ thể hiện hành vi không mong muốn, chúng sẽ bị loại bỏ khỏi hoạt động mong muốn đang diễn ra (Hình 6.12). Ví dụ, giả sử Sophia và anh trai Mario đang chơi với các khối xây dựng. Sophia ném một số khối vào anh trai, bạn cảnh báo cô bé rằng cô bé sẽ phải chịu hình phạt time-out nếu cô bé lặp lại hành vi đó. Vài phút sau, cô bé ném thêm các khối vào Mario. Bạn đưa Sophia ra khỏi phòng trong vài phút. Khi cô bé quay lại, cô bé không còn ném các khối nữa.

Có một số điểm quan trọng mà bạn nên biết nếu bạn dự định thực hiện time-out như một kỹ thuật điều chỉnh hành vi. Đầu tiên, hãy đảm bảo rằng đứa trẻ đang bị loại bỏ khỏi một hoạt động mong muốn và được đặt vào một vị trí ít mong muốn hơn. Nếu hoạt động đó không hấp dẫn với đứa trẻ, kỹ thuật này sẽ phản tác dụng vì đứa trẻ sẽ thích bị loại bỏ khỏi hoạt động hơn. Thứ hai, thời gian của time-out là quan trọng. Quy tắc chung là một phút cho mỗi tuổi của đứa trẻ. Sophia năm tuổi; do đó, cô bé sẽ phải ngồi time-out trong năm phút. Đặt hẹn giờ giúp trẻ biết phải ngồi bao lâu trong time-out. Cuối cùng, như là người chăm sóc, hãy giữ bình tĩnh khi chỉ đạo con bạn vào time-out; phớt lờ con bạn trong suốt thời gian time-out (vì sự chú ý của người chăm sóc có thể củng cố hành vi sai trái); và dành cho trẻ một cái ôm hoặc một lời khen ngợi khi time-out kết thúc.

Hình 6.12: Time-out là một hình thức trừng phạt tiêu cực phổ biến được sử dụng bởi người chăm sóc. Khi một đứa trẻ cư xử không đúng, chúng bị loại khỏi một hoạt động mong muốn trong một nỗ lực để giảm hành vi không mong muốn. Ví dụ, (a) một đứa trẻ có thể đang chơi trên sân chơi với bạn bè và đẩy một đứa trẻ khác; (b) đứa trẻ cư xử sai sẽ bị loại khỏi hoạt động trong một khoảng thời gian ngắn. (nguồn a: sửa đổi từ tác phẩm của Simone Ramella; nguồn b: sửa đổi từ tác phẩm của “Spring Dew”/Flickr)

Lịch trình củng cố

Hãy nhớ rằng, cách tốt nhất để dạy một người hoặc động vật một hành vi là sử dụng củng cố tích cực. Ví dụ, Skinner đã sử dụng củng cố tích cực để dạy chuột nhấn cần gạt trong hộp Skinner. Ban đầu, con chuột có thể ngẫu nhiên nhấn cần gạt trong khi khám phá hộp, và ra một viên thức ăn. Sau khi ăn viên thức ăn, bạn nghĩ con chuột đói sẽ làm gì tiếp theo? Nó nhấn cần gạt một lần nữa và nhận được một viên thức ăn khác. Mỗi khi con chuột nhấn cần gạt, ra một viên thức ăn. Khi một sinh vật nhận được củng cố mỗi lần nó thể hiện hành vi, điều này được gọi là củng cố liên tục (continuous reinforcement). Lịch trình củng cố này là cách nhanh nhất để dạy ai đó một hành vi, và nó đặc biệt hiệu quả trong việc huấn luyện một hành vi mới. Hãy xem lại con chó đang học cách ngồi trước đó trong chương. Bây giờ, mỗi lần nó ngồi, bạn cho nó một phần thưởng. Thời gian rất quan trọng ở đây: bạn sẽ thành công nhất nếu bạn đưa phần thưởng ngay sau khi nó ngồi, để nó có thể liên kết giữa hành vi mục tiêu (ngồi) và hậu quả (nhận phần thưởng).

Khi một hành vi đã được huấn luyện, các nhà nghiên cứu và huấn luyện viên thường chuyển sang một loại lịch trình củng cố khác—củng cố một phần. Trong củng cố một phần (partial reinforcement), còn được gọi là củng cố ngắt quãng, người hoặc động vật không nhận được củng cố mỗi lần họ thực hiện hành vi mong muốn. Có một số loại lịch trình củng cố một phần khác nhau (Bảng 6.3). Những lịch trình này được mô tả là hoặc cố định hoặc biến đổi, và là hoặc khoảng thời gian hoặc tỷ lệ. Cố định đề cập đến số lượng phản ứng giữa các lần củng cố, hoặc thời gian giữa các lần củng cố, được thiết lập và không thay đổi. Biến đổi đề cập đến số lượng phản ứng hoặc thời gian giữa các lần củng cố, thay đổi hoặc không cố định. Khoảng thời gian có nghĩa là lịch trình dựa trên thời gian giữa các lần củng cố, và tỷ lệ có nghĩa là lịch trình dựa trên số lượng phản ứng giữa các lần củng cố.

Lịch trình củng cố

Bây giờ chúng ta hãy kết hợp bốn thuật ngữ này. Một lịch trình củng cố cố định khoảng thời gian (fixed interval reinforcement schedule) là khi hành vi được thưởng sau một khoảng thời gian nhất định. Ví dụ, June trải qua một ca phẫu thuật lớn tại bệnh viện. Trong quá trình hồi phục, cô ấy dự kiến sẽ cảm thấy đau và sẽ cần thuốc giảm đau theo toa. June được cho một dây truyền IV với thuốc giảm đau do bệnh nhân kiểm soát. Bác sĩ của cô đặt một giới hạn: một liều mỗi giờ. June bấm nút khi đau trở nên khó chịu, và cô nhận được một liều thuốc. Vì phần thưởng (giảm đau) chỉ xảy ra theo khoảng thời gian cố định, không có lý do gì để thể hiện hành vi khi nó không được thưởng.
Với một lịch trình củng cố biến đổi khoảng thời gian (variable interval reinforcement schedule), người hoặc động vật nhận được củng cố dựa trên các khoảng thời gian thay đổi, không dự đoán được. Giả sử Manuel là quản lý tại một nhà hàng thức ăn nhanh. Thỉnh thoảng có người từ bộ phận kiểm soát chất lượng đến nhà hàng của Manuel. Nếu nhà hàng sạch sẽ và dịch vụ nhanh chóng, tất cả nhân viên trong ca đó sẽ nhận được một khoản thưởng 20 đô la. Manuel không bao giờ biết khi nào người kiểm soát chất lượng sẽ xuất hiện, vì vậy anh ấy luôn cố gắng giữ nhà hàng sạch sẽ và đảm bảo rằng nhân viên của mình cung cấp dịch vụ nhanh chóng và lịch sự. Năng suất của anh ấy liên quan đến dịch vụ nhanh chóng và giữ cho nhà hàng sạch sẽ là ổn định vì anh ấy muốn đội của mình nhận được khoản thưởng.
Với một lịch trình củng cố cố định tỷ lệ (fixed ratio reinforcement schedule), có một số lượng phản ứng nhất định phải xảy ra trước khi hành vi được thưởng. Carla bán kính tại một cửa hàng kính mắt và cô ấy nhận được hoa hồng mỗi khi bán được một cặp kính. Cô ấy luôn cố gắng bán thêm các cặp kính cho mọi người, bao gồm cả kính mát có độ hoặc một cặp kính dự phòng, để cô ấy có thể tăng hoa hồng. Cô ấy không quan tâm nếu người đó thực sự cần kính mát có độ, Carla chỉ muốn có thêm hoa hồng. Chất lượng của những gì Carla bán không quan trọng vì hoa hồng của cô ấy không dựa trên chất lượng; chỉ dựa trên số lượng cặp kính bán được. Sự phân biệt này trong chất lượng hiệu suất có thể giúp xác định phương pháp củng cố nào là phù hợp nhất cho một tình huống cụ thể. Các tỷ lệ cố định phù hợp hơn để tối ưu hóa số lượng đầu ra, trong khi khoảng thời gian cố định, trong đó phần thưởng không dựa trên số lượng, có thể dẫn đến đầu ra chất lượng cao hơn.

Trong một lịch trình củng cố biến đổi tỷ lệ (variable ratio reinforcement schedule), số lượng phản ứng cần thiết cho một phần thưởng thay đổi. Đây là lịch trình củng cố một phần mạnh mẽ nhất. Một ví dụ về lịch trình củng cố biến đổi tỷ lệ là cờ bạc. Hãy tưởng tượng Sarah—một người phụ nữ thông minh, tiết kiệm—đến Las Vegas lần đầu tiên. Cô ấy không phải là người đánh bạc, nhưng vì tò mò cô ấy đặt một đồng xu vào máy đánh bạc, và sau đó là một đồng xu khác, và một đồng xu khác nữa. Không có gì xảy ra. Sau hai đô la đồng xu, sự tò mò của cô ấy bắt đầu phai mờ, và cô ấy gần như bỏ cuộc. Nhưng sau đó, máy đánh bạc phát sáng, chuông reo lên và Sarah nhận được 50 đồng xu trở lại. Thế là được rồi! Sarah quay lại đặt đồng xu vào máy với sự quan tâm mới, và vài phút sau cô ấy đã sử dụng hết tất cả các đồng xu kiếm được và đang lỗ 10 đô la. Bây giờ có lẽ là thời điểm hợp lý để bỏ cuộc. Tuy nhiên, cô ấy tiếp tục đặt tiền vào máy đánh bạc vì cô ấy không bao giờ biết khi nào phần thưởng tiếp theo sẽ đến. Cô ấy tiếp tục nghĩ rằng với đồng xu tiếp theo cô ấy có thể thắng 50 đô la, hoặc 100 đô la, hoặc thậm chí nhiều hơn. Bởi vì lịch trình củng cố trong hầu hết các loại cờ bạc có lịch trình biến đổi tỷ lệ, người ta tiếp tục cố gắng và hy vọng rằng lần tới họ sẽ thắng lớn. Đây là một trong những lý do cờ bạc gây nghiện—và khó bị dập tắt.

Trong điều kiện hóa hoạt động, sự dập tắt của một hành vi được củng cố xảy ra tại một thời điểm nào đó sau khi củng cố ngừng, và tốc độ mà điều này xảy ra phụ thuộc vào lịch trình củng cố. Trong một lịch trình biến đổi tỷ lệ, điểm dập tắt đến rất chậm, như đã mô tả ở trên. Nhưng trong các lịch trình củng cố khác, dập tắt có thể đến nhanh chóng. Ví dụ, nếu June bấm nút cho thuốc giảm đau trước thời gian được bác sĩ phê duyệt, không có thuốc nào được cấp phát. Cô ấy đang ở trong một lịch trình củng cố cố định khoảng thời gian (dùng thuốc hàng giờ), vì vậy dập tắt xảy ra nhanh chóng khi củng cố không đến vào thời điểm dự kiến. Trong số các lịch trình củng cố, biến đổi tỷ lệ là sản xuất nhiều nhất và khó bị dập tắt nhất. Cố định khoảng thời gian là ít sản xuất nhất và dễ bị dập tắt nhất.

Hình 6.13: Bốn lịch trình củng cố cho ra các kiểu phản ứng khác nhau. Lịch trình biến đổi tỷ lệ là không dự đoán được và cho ra tốc độ phản ứng cao và ổn định, với ít hoặc không có sự tạm dừng sau củng cố (ví dụ: người chơi cờ bạc). Một lịch trình cố định tỷ lệ là dự đoán được và cho ra tốc độ phản ứng cao, với một khoảng tạm dừng ngắn sau củng cố (ví dụ: nhân viên bán kính mắt). Lịch trình biến đổi khoảng thời gian là không dự đoán được và cho ra tốc độ phản ứng trung bình, ổn định (ví dụ: quản lý nhà hàng). Lịch trình cố định khoảng thời gian cho ra một mô hình phản ứng hình vòm sò, phản ánh một khoảng dừng đáng kể sau củng cố (ví dụ: bệnh nhân phẫu thuật).

Nhận thức và học tập tiềm ẩn

Các nhà hành vi học nghiêm ngặt như Watson và Skinner tập trung hoàn toàn vào việc nghiên cứu hành vi hơn là nhận thức (chẳng hạn như suy nghĩ và kỳ vọng). Thực tế, Skinner là một tín đồ nghiêm ngặt đến mức các ý tưởng của ông được coi là hành vi chủ nghĩa cực đoan (radical behaviorism). Skinner coi tâm trí là một “hộp đen”—một thứ hoàn toàn không thể biết được—và do đó, một thứ không nên được nghiên cứu. Tuy nhiên, một nhà hành vi học khác, Edward C. Tolman, có một quan điểm khác. Các thí nghiệm của Tolman với chuột cho thấy các sinh vật có thể học ngay cả khi chúng không nhận được củng cố ngay lập tức (Tolman & Honzik, 1930; Tolman, Ritchie, & Kalish, 1946). Phát hiện này mâu thuẫn với ý tưởng phổ biến vào thời điểm đó rằng củng cố phải là ngay lập tức để việc học diễn ra, do đó gợi ý một khía cạnh nhận thức đối với việc học.

Trong các thí nghiệm, Tolman đặt những con chuột đói vào một mê cung mà không có phần thưởng nào cho việc tìm đường qua nó. Ông cũng nghiên cứu một nhóm so sánh được thưởng thức ăn khi hoàn thành mê cung. Khi những con chuột không được củng cố khám phá mê cung, chúng phát triển một bản đồ nhận thức (cognitive map): một hình ảnh tinh thần của bố trí của mê cung. Sau 10 phiên trong mê cung mà không có củng cố, thức ăn được đặt trong hộp mục tiêu ở cuối mê cung. Ngay khi những con chuột nhận thức được thức ăn, chúng có thể tìm đường qua mê cung nhanh chóng, cũng nhanh như nhóm so sánh, nhóm đã được thưởng thức ăn ngay từ đầu. Đây được gọi là học tiềm ẩn (latent learning): học mà xảy ra nhưng không thể quan sát được trong hành vi cho đến khi có lý do để thể hiện nó.

Hình 6.15: Nhà tâm lý học Edward Tolman phát hiện rằng chuột sử dụng bản đồ nhận thức để điều hướng qua mê cung. Bạn đã từng làm việc qua các cấp độ khác nhau trên một trò chơi điện tử chưa? Bạn đã học khi nào nên rẽ trái hay phải, di chuyển lên hay xuống. Trong trường hợp đó, bạn đang dựa vào một bản đồ nhận thức, giống như những con chuột trong mê cung. (nguồn: sửa đổi từ tác phẩm của "FutUndBeidl"/Flickr)

Học tiềm ẩn cũng xảy ra ở con người. Trẻ em có thể học bằng cách quan sát hành động của cha mẹ chúng nhưng chỉ thể hiện nó vào một thời điểm sau, khi vật liệu học được cần thiết. Ví dụ, giả sử rằng cha của Ravi lái xe đưa cậu ấy đến trường mỗi ngày. Bằng cách này, Ravi học đường từ nhà đến trường, nhưng cậu ấy chưa bao giờ tự lái xe đến đó, vì vậy cậu ấy chưa có cơ hội thể hiện rằng cậu ấy đã học đường. Một buổi sáng cha của Ravi phải đi sớm để dự một cuộc họp, vì vậy ông không thể lái xe đưa Ravi đến trường. Thay vào đó, Ravi đi xe đạp của mình theo đúng con đường mà cha cậu ấy đã đi bằng xe ô tô. Điều này thể hiện học tiềm ẩn. Ravi đã học đường đến trường, nhưng không có nhu cầu thể hiện kiến thức này trước đó.