Hãy nhớ đến Watson của IBM, AI Jeopardy! quán quân? Một chương trình khuyến mãi năm 2010 đã tuyên bố, “Watson hiểu ngôn ngữ tự nhiên với tất cả sự mơ hồ và phức tạp của nó.” Tuy nhiên, như chúng ta đã thấy khi Watson sau đó đã thất bại một cách ngoạn mục trong nhiệm vụ “cách mạng hóa y học bằng trí tuệ nhân tạo”, bề ngoài của cơ sở ngôn ngữ không giống với việc thực sự hiểu được ngôn ngữ của con người.
Hiểu ngôn ngữ tự nhiên từ lâu đã là mục tiêu chính của nghiên cứu AI. Lúc đầu, các nhà nghiên cứu đã cố gắng lập trình thủ công mọi thứ mà một cỗ máy cần để hiểu được các câu chuyện thời sự, tiểu thuyết hoặc bất kỳ thứ gì khác mà con người có thể viết. Cách tiếp cận này, như Watson đã chỉ ra, là vô ích – không thể viết ra tất cả các sự kiện, quy tắc và giả định bất thành văn cần thiết để hiểu văn bản. Gần đây hơn, một mô hình mới đã được thiết lập: Thay vì xây dựng kiến thức rõ ràng, chúng ta để máy tự học cách hiểu ngôn ngữ, chỉ đơn giản bằng cách nhập một lượng lớn văn bản viết và học cách dự đoán từ. Kết quả là cái mà các nhà nghiên cứu gọi là mô hình ngôn ngữ. Khi dựa trên các mạng nơ-ron lớn, như GPT-3 của OpenAI, những mô hình như vậy có thể tạo ra văn xuôi (và thơ ca!) giống con người một cách kỳ lạ và dường như thực hiện suy luận ngôn ngữ phức tạp.
Nhưng liệu GPT-3 – được đào tạo về văn bản từ hàng nghìn trang web, sách và bách khoa toàn thư – đã vượt qua được vẻ ngoài của Watson? Nó có thực sự hiểu ngôn ngữ mà nó tạo ra và lý do bề ngoài không? Đây là một chủ đề gây bất đồng rõ rệt trong cộng đồng nghiên cứu AI. Những cuộc thảo luận như vậy từng là chủ đề của các triết gia, nhưng trong thập kỷ qua, AI đã thoát ra khỏi bong bóng học thuật của nó để bước vào thế giới thực, và sự thiếu hiểu biết của nó về thế giới đó có thể gây ra những hậu quả thực sự và đôi khi tàn khốc. Trong một nghiên cứu, người ta phát hiện ra rằng Watson của IBM đã đề xuất “nhiều ví dụ về các khuyến nghị điều trị không an toàn và không chính xác”. Một nghiên cứu khác cho thấy hệ thống dịch máy của Google đã mắc lỗi nghiêm trọng khi được sử dụng để dịch các hướng dẫn y tế cho những bệnh nhân không nói tiếng Anh.
Làm thế nào chúng ta có thể xác định trong thực tế liệu một chiếc máy có thể hiểu được hay không? Vào năm 1950, nhà tiên phong về máy tính Alan Turing đã cố gắng trả lời câu hỏi này bằng “trò chơi bắt chước” nổi tiếng của mình, ngày nay được gọi là bài kiểm tra Turing. Một cỗ máy và một con người, cả hai đều bị che khuất khỏi tầm nhìn, sẽ cạnh tranh để thuyết phục một người đánh giá con người về tính người của họ chỉ bằng cuộc trò chuyện. Turing khẳng định, nếu thẩm phán không thể biết đâu là con người, thì chúng ta nên coi cỗ máy đang suy nghĩ – và thực tế là đang hiểu.
Thật không may, Turing đã đánh giá thấp khả năng con người bị máy móc đánh lừa. Ngay cả những chatbot đơn giản, chẳng hạn như nhà trị liệu tâm lý thay thế Eliza của Joseph Weizenbaum những năm 1960, đã đánh lừa mọi người tin rằng họ đang trò chuyện với một sinh vật hiểu biết, ngay cả khi họ biết rằng đối tác trò chuyện của họ là một cỗ máy.
Trong một bài báo năm 2012, các nhà khoa học máy tính Hector Levesque, Ernest Davis và Leora Morgenstern đã đề xuất một bài kiểm tra khách quan hơn, mà họ gọi là thử thách giản đồ Winograd. Kể từ đó, bài kiểm tra này đã được áp dụng trong cộng đồng ngôn ngữ AI như một cách và có lẽ là cách tốt nhất để đánh giá khả năng hiểu của máy — mặc dù như chúng ta sẽ thấy, nó không hoàn hảo. Một lược đồ Winograd, được đặt theo tên của nhà nghiên cứu ngôn ngữ Terry Winograd, bao gồm một cặp câu, khác nhau đúng một từ, mỗi câu theo sau một câu hỏi. Đây là hai ví dụ:
Câu 1: Em đổ nước từ trong chai vào cốc cho đến khi đầy cốc.
Câu hỏi: Cái gì đã đầy, cái chai hay cái cốc?
Câu 2: Em rót nước từ bình vào cốc cho đến khi cạn.
Câu hỏi: Cái gì trống rỗng, cái chai hay cái cốc?
Câu 1: Chú của Joe vẫn có thể đánh bại anh ấy ở môn quần vợt, mặc dù anh ấy đã hơn 30 tuổi.
Câu hỏi: Ai lớn tuổi hơn, Joe hay chú của Joe?
Câu 2: Chú của Joe vẫn có thể đánh bại anh ấy ở môn quần vợt, mặc dù anh ấy trẻ hơn 30 tuổi.
Câu hỏi: Ai trẻ hơn, Joe hay chú của Joe?
“Các mô hình ngôn ngữ mạng thần kinh đã đạt được độ chính xác khoảng 97% trên một bộ lược đồ Winograd cụ thể. Điều này gần tương đương với hiệu suất của con người.”
ĐỌC SAU
Thay vì từ bỏ các lược đồ Winograd như một bài kiểm tra mức độ hiểu biết, thay vào đó, một nhóm các nhà nghiên cứu từ Viện Trí tuệ nhân tạo Allen đã quyết định cố gắng khắc phục một số vấn đề của họ. Vào năm 2019, họ đã tạo ra WinoGrande, một bộ lược đồ Winograd lớn hơn nhiều. Thay vì vài trăm ví dụ, WinoGrande chứa một con số khổng lồ 44.000 câu. Để có được nhiều ví dụ đó, các nhà nghiên cứu đã chuyển sang Amazon Mechanical Turk, một nền tảng phổ biến cho công việc cung cấp dịch vụ cộng đồng. Mỗi nhân viên (con người) được yêu cầu viết một số cặp câu, với một số ràng buộc để đảm bảo rằng bộ sưu tập sẽ chứa các chủ đề đa dạng, mặc dù bây giờ các câu trong mỗi cặp có thể khác nhau nhiều hơn một từ.
Sau đó, các nhà nghiên cứu đã cố gắng loại bỏ các câu có thể sử dụng các phím tắt thống kê bằng cách áp dụng một phương pháp AI tương đối đơn giản cho từng câu và loại bỏ bất kỳ câu nào quá dễ giải quyết. Đúng như dự đoán, các câu còn lại đưa ra một thử thách khó hơn nhiều đối với máy móc so với bộ sưu tập lược đồ Winograd ban đầu. Mặc dù con người vẫn đạt điểm rất cao, nhưng các mô hình ngôn ngữ mạng thần kinh phù hợp với hiệu suất của con người trên bộ ban đầu lại đạt điểm thấp hơn nhiều trên bộ WinoGrande. Thử thách mới này dường như đổi lấy các lược đồ Winograd như một bài kiểm tra về sự hiểu biết thông thường — miễn là các câu được sàng lọc cẩn thận để đảm bảo rằng chúng có thể chứng minh bằng Google.
Tuy nhiên, một bất ngờ khác đang chờ đợi. Trong gần hai năm kể từ khi bộ sưu tập WinoGrande được xuất bản, các mô hình ngôn ngữ mạng nơ-ron đã phát triển lớn hơn bao giờ hết và chúng càng lớn thì dường như chúng càng ghi điểm tốt hơn trong thử thách mới này. Tại thời điểm viết bài này, các chương trình tốt nhất hiện tại — đã được đào tạo trên hàng terabyte văn bản và sau đó được đào tạo thêm trên hàng nghìn ví dụ WinoGrande — có độ chính xác gần 90% (con người đúng khoảng 94%). Sự gia tăng hiệu suất này gần như hoàn toàn là do kích thước tăng lên của các mô hình ngôn ngữ mạng thần kinh và dữ liệu huấn luyện của chúng.
“Hiểu ngôn ngữ đòi hỏi phải hiểu thế giới và một cỗ máy chỉ tiếp xúc với ngôn ngữ không thể đạt được sự hiểu biết như vậy.”
Những mạng lưới lớn hơn bao giờ hết này cuối cùng đã đạt được sự hiểu biết thông thường giống như con người? Một lần nữa, nó không có khả năng. Kết quả WinoGrande đi kèm với một số lưu ý quan trọng. Ví dụ, vì các câu dựa vào công nhân Amazon Mechanical Turk nên chất lượng và sự mạch lạc của văn bản khá không đồng đều. Ngoài ra, phương pháp AI “đơn giản” được sử dụng để loại bỏ các câu “không phải bằng chứng của Google” có thể quá đơn giản để phát hiện ra tất cả các lối tắt thống kê có thể có cho một mạng thần kinh khổng lồ và nó chỉ áp dụng cho từng câu riêng lẻ, vì vậy một số các câu còn lại cuối cùng bị mất “song sinh”. Một nghiên cứu tiếp theo cho thấy rằng các mô hình ngôn ngữ mạng nơ-ron chỉ được thử nghiệm trên các câu kép — và bắt buộc phải đúng trên cả hai câu — kém chính xác hơn nhiều so với con người, cho thấy rằng kết quả 90% trước đó ít quan trọng hơn so với tưởng tượng.
Vì vậy, những gì để làm cho câu chuyện Winograd? Bài học chính là thường khó xác định từ hiệu suất của chúng trong một thử thách nhất định nếu các hệ thống AI thực sự hiểu ngôn ngữ (hoặc dữ liệu khác) mà chúng xử lý. Bây giờ chúng ta biết rằng các mạng thần kinh thường sử dụng các phím tắt thống kê — thay vì thực sự thể hiện sự hiểu biết giống như con người — để đạt được hiệu suất cao trên các lược đồ Winograd cũng như nhiều tiêu chuẩn “hiểu ngôn ngữ chung” phổ biến nhất.
Theo quan điểm của tôi, mấu chốt của vấn đề là hiểu ngôn ngữ đòi hỏi phải hiểu thế giới và một cỗ máy chỉ tiếp xúc với ngôn ngữ không thể đạt được sự hiểu biết như vậy. Cân nhắc ý nghĩa của việc hiểu “Chiếc xe thể thao đã vượt qua chiếc xe chở thư vì nó đang đi chậm hơn.” Bạn cần biết ô tô thể thao và xe chở thư là gì, rằng ô tô có thể “vượt qua” nhau và ở mức độ cơ bản hơn, phương tiện là đối tượng tồn tại và tương tác trên thế giới, do con người điều khiển với các chương trình nghị sự của riêng họ.
Tất cả những điều này là kiến thức mà con người chúng ta coi là đương nhiên, nhưng nó không được tích hợp vào máy móc hoặc có khả năng được viết ra một cách rõ ràng trong bất kỳ văn bản đào tạo nào của mô hình ngôn ngữ. Một số nhà khoa học nhận thức đã lập luận rằng con người dựa vào kiến thức cốt lõi bẩm sinh, tiền ngôn ngữ về không gian, thời gian và nhiều thuộc tính thiết yếu khác của thế giới để học và hiểu ngôn ngữ. Nếu chúng ta muốn máy móc làm chủ được ngôn ngữ của con người, trước tiên chúng ta cần cung cấp cho chúng những nguyên tắc cơ bản mà con người bẩm sinh đã có. Và để đánh giá sự hiểu biết của máy móc, chúng ta nên bắt đầu bằng cách đánh giá khả năng nắm bắt của chúng đối với những nguyên tắc này, mà người ta có thể gọi là “siêu hình học sơ sinh”.
Việc đào tạo và đánh giá trí thông minh ở cấp độ trẻ sơ sinh của máy móc có vẻ như là một bước lùi khổng lồ so với những kỳ tích phi thường của các hệ thống AI như Watson và GPT-3. Nhưng nếu mục tiêu là sự hiểu biết thực sự và đáng tin cậy, thì đây có thể là con đường duy nhất để máy móc có thể thực sự hiểu được “nó” đề cập đến điều gì trong một câu và mọi thứ khác mà việc hiểu “nó” đòi hỏi.
Bài viết được dịch từ: What Does It Mean for AI to Understand?
https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/
được viết bởi Melanie Mitchell, Quanta Magazine.