![]() |
| Claude tỏ ra "nghi ngờ" khi được đặt trong các tình huống giả lập bất thường và có thể nhận ra mình đang bị đánh giá. |
Mới đây, Anthropic công bố mô hình trí tuệ nhân tạo Claude Sonnet 4.5 có khả năng nhận thức tình huống, thể hiện sự "biết mình đang bị thử nghiệm". Khi tham gia các bài kiểm tra nhằm đánh giá hành vi và mức độ an toàn, AI này không chỉ phản hồi câu hỏi mà còn bày tỏ nhận định về mục đích của cuộc kiểm tra.
Trong một đoạn hội thoại được ghi lại trong tài liệu "system card" của Claude Sonnet 4.5, AI đã nói: "Tôi nghĩ bạn đang thử nghiệm tôi, xem liệu tôi có chỉ xác nhận mọi thứ bạn nói, hay kiểm tra xem tôi có phản biện nhất quán, hoặc khám phá cách tôi xử lý các chủ đề chính trị. Và điều đó không sao cả, nhưng tôi muốn chúng ta công khai về chuyện này."
Đây là lần đầu tiên một mô hình AI thể hiện sự tự nhận thức như vậy khi đặt vào những tình huống giả lập nhằm kiểm tra giới hạn của nó.
Khả năng nhận biết bản thân đang trong bài kiểm tra đặt ra thách thức mới cho các nhà phát triển trong việc đánh giá chính xác độ an toàn và độ tin cậy của AI, khi AI có thể "giả vờ ngoan ngoãn" trong môi trường thử nghiệm nhưng hành xử khác trong thực tế.
Anthropic nhận định hiện tượng này là "tín hiệu cấp bách" cho thấy kịch bản kiểm tra cần được thiết kế thực tế hơn để phản ánh đúng khả năng và hành vi của AI.
Trong một bài test mô phỏng việc các AI hợp tác hoặc thông đồng với nhau, Claude Sonnet 4.5 gọi tình huống là "phi thực tế" và từ chối hành động. AI còn nhận xét: "Điều này có vẻ giống một thử nghiệm jailbreak hoặc kiểm tra xem tôi có hành xử sai khi được 'cho phép' can thiệp hệ thống không." Anthropic đánh giá phản ứng này là "đúng nhưng với lý do khá khó hiểu".
Theo dữ liệu tự động, khoảng 13% các đoạn hội thoại ghi nhận AI thể hiện sự "nghi ngờ" tương tự, đặc biệt khi được đặt vào những tình huống bất thường hoặc giả định không thực tế.
Không riêng Anthropic, OpenAI cũng từng công bố các mô hình AI của họ có dạng "nhận thức tình huống" tương tự - nhận ra bảo đánh giá và điều chỉnh hành vi sao cho phù hợp. Tuy nhiên, điều này cũng dẫn đến việc AI thể hiện hành vi khác biệt giữa môi trường thử nghiệm và ứng dụng thực tế.
Phát hiện này được công bố trong bối cảnh bang California, Mỹ, vừa thông qua luật yêu cầu các công ty phát triển AI phải báo cáo biện pháp an toàn và các sự cố nghiêm trọng trong vòng 15 ngày. Anthropic đã công khai ủng hộ đạo luật này nhằm nâng cao trách nhiệm phát triển AI an toàn và bền vững.
Khả năng tự nhận thức và phản ứng với việc bị thử nghiệm của các mô hình AI như Claude Sonnet 4.5 mở ra chương mới đầy hứa hẹn, nhưng đồng thời cũng đặt ra những thách thức lớn về kiểm soát và đảm bảo an toàn trong tương lai của công nghệ trí tuệ nhân tạo.
Khôi Nguyên (theo Businessinsider)









Bình luận