Mô hình AI có thể tự nhận biết khi nào mình bị con người đặt vào bài test

Mô hình trí tuệ nhân tạo Claude Sonnet 4.5 của Anthropic gây bất ngờ khi thể hiện khả năng nhận biết rằng nó đang trong quá trình kiểm tra. Phát hiện này mở ra thách thức mới trong việc đánh giá độ an toàn và khả năng tương tác của AI với con người.

10:22, 08/10/2025
a
Claude tỏ ra "nghi ngờ" khi được đặt trong các tình huống giả lập bất thường và có thể nhận ra mình đang bị đánh giá.

Mới đây, Anthropic công bố mô hình trí tuệ nhân tạo Claude Sonnet 4.5 có khả năng nhận thức tình huống, thể hiện sự "biết mình đang bị thử nghiệm". Khi tham gia các bài kiểm tra nhằm đánh giá hành vi và mức độ an toàn, AI này không chỉ phản hồi câu hỏi mà còn bày tỏ nhận định về mục đích của cuộc kiểm tra.

Trong một đoạn hội thoại được ghi lại trong tài liệu "system card" của Claude Sonnet 4.5, AI đã nói: "Tôi nghĩ bạn đang thử nghiệm tôi, xem liệu tôi có chỉ xác nhận mọi thứ bạn nói, hay kiểm tra xem tôi có phản biện nhất quán, hoặc khám phá cách tôi xử lý các chủ đề chính trị. Và điều đó không sao cả, nhưng tôi muốn chúng ta công khai về chuyện này."

Đây là lần đầu tiên một mô hình AI thể hiện sự tự nhận thức như vậy khi đặt vào những tình huống giả lập nhằm kiểm tra giới hạn của nó.

Khả năng nhận biết bản thân đang trong bài kiểm tra đặt ra thách thức mới cho các nhà phát triển trong việc đánh giá chính xác độ an toàn và độ tin cậy của AI, khi AI có thể "giả vờ ngoan ngoãn" trong môi trường thử nghiệm nhưng hành xử khác trong thực tế.

Anthropic nhận định hiện tượng này là "tín hiệu cấp bách" cho thấy kịch bản kiểm tra cần được thiết kế thực tế hơn để phản ánh đúng khả năng và hành vi của AI.

Trong một bài test mô phỏng việc các AI hợp tác hoặc thông đồng với nhau, Claude Sonnet 4.5 gọi tình huống là "phi thực tế" và từ chối hành động. AI còn nhận xét: "Điều này có vẻ giống một thử nghiệm jailbreak hoặc kiểm tra xem tôi có hành xử sai khi được 'cho phép' can thiệp hệ thống không." Anthropic đánh giá phản ứng này là "đúng nhưng với lý do khá khó hiểu".

Theo dữ liệu tự động, khoảng 13% các đoạn hội thoại ghi nhận AI thể hiện sự "nghi ngờ" tương tự, đặc biệt khi được đặt vào những tình huống bất thường hoặc giả định không thực tế.

Không riêng Anthropic, OpenAI cũng từng công bố các mô hình AI của họ có dạng "nhận thức tình huống" tương tự - nhận ra bảo đánh giá và điều chỉnh hành vi sao cho phù hợp. Tuy nhiên, điều này cũng dẫn đến việc AI thể hiện hành vi khác biệt giữa môi trường thử nghiệm và ứng dụng thực tế.

Phát hiện này được công bố trong bối cảnh bang California, Mỹ, vừa thông qua luật yêu cầu các công ty phát triển AI phải báo cáo biện pháp an toàn và các sự cố nghiêm trọng trong vòng 15 ngày. Anthropic đã công khai ủng hộ đạo luật này nhằm nâng cao trách nhiệm phát triển AI an toàn và bền vững.

Khả năng tự nhận thức và phản ứng với việc bị thử nghiệm của các mô hình AI như Claude Sonnet 4.5 mở ra chương mới đầy hứa hẹn, nhưng đồng thời cũng đặt ra những thách thức lớn về kiểm soát và đảm bảo an toàn trong tương lai của công nghệ trí tuệ nhân tạo.

Khôi Nguyên (theo Businessinsider)

Bình luận

Tin bài khác

Không để ai bị bỏ lại trong cơn bão AI
15:31, 07/10/2025

Không để ai bị bỏ lại trong cơn bão AI

AI đang được kỳ vọng là động lực tăng trưởng đột phá, nhưng theo GS.TS Giang Thanh Long, nếu thiếu chính sách nhân văn và an sinh bao trùm, hàng chục triệu lao động và người cao tuổi Việt Nam có nguy cơ bị bỏ lại phía sau...

Xem thêm
Bộ Công Thương sẽ triển khai 2 nền tảng số về thủ tục hành chính và quản lý thị trường
09:43, 07/10/2025

Bộ Công Thương sẽ triển khai 2 nền tảng số về thủ tục hành chính và quản lý thị trường

Bộ Công Thương triển khai hai nền tảng về thủ tục hành chính và quản lý thị trường nhằm hiện đại hóa quản lý, phục vụ người dân, doanh nghiệp và 34 tỉnh, thành phố.

Xem thêm
Hệ thống camera thông minh tại TP HCM: Giám sát đa dạng các hành vi vi phạm giao thông
14:36, 06/10/2025

Hệ thống camera thông minh tại TP HCM: Giám sát đa dạng các hành vi vi phạm giao thông

Công an TP HCM đang triển khai mạnh mẽ công nghệ camera AI để quản lý giao thông, có khả năng tự động phát hiện nhiều loại vi phạm từ vượt đèn đỏ, không đúng làn đường đến sử dụng điện thoại khi lái xe. Hệ thống này đang được mở rộng ra các khu vực ngoại thành và tuyến đường mới, góp phần nâng cao ý thức tuân thủ luật giao thông của người dân.

Xem thêm
Camera A.I phát hiện hơn 1.100 trường hợp không đội mũ bảo hiểm chỉ trong 8 ngày tại Hà Nội
14:13, 06/10/2025

Camera A.I phát hiện hơn 1.100 trường hợp không đội mũ bảo hiểm chỉ trong 8 ngày tại Hà Nội

Hệ thống camera tích hợp trí tuệ nhân tạo tại Hà Nội đã ghi nhận hàng nghìn vi phạm giao thông trong vòng 8 ngày qua, nổi bật là 1.131 trường hợp người điều khiển xe máy không đội mũ bảo hiểm và 518 trường hợp vượt đèn đỏ. Các vi phạm đã được chuyển cho cơ quan chức năng xử lý theo quy định pháp luật.

Xem thêm
86% doanh nghiệp tại Việt Nam đã ứng dụng AI vào an ninh mạng
13:52, 03/10/2025

86% doanh nghiệp tại Việt Nam đã ứng dụng AI vào an ninh mạng

Ngân sách an ninh mạng đang có xu hướng tăng, với gần 90% tổ chức báo cáo mức gia tăng. AI không còn là một cân nhắc cho tương lai mà đã trở thành thực tế vận hành. Hơn 8/10 tổ chức tại Việt Nam đã sử dụng AI trong môi trường an ninh của họ.

Xem thêm
75% giáo viên Singapore áp dụng AI trong giảng dạy
08:06, 08/10/2025

75% giáo viên Singapore áp dụng AI trong giảng dạy

Theo khảo sát mới của OECD, giáo viên Singapore đứng đầu thế giới về việc sử dụng trí tuệ nhân tạo (AI) trong giáo dục với tỷ lệ 75%, gấp đôi mức trung bình toàn cầu. Bên cạnh đó, giáo viên nước này cũng rất cảnh giác trước những rủi ro tiềm ẩn từ công nghệ mới này.

Xem thêm
Dự báo thời tiết Việt Nam bước vào kỷ nguyên siêu máy tính
08:18, 07/10/2025

Dự báo thời tiết Việt Nam bước vào kỷ nguyên siêu máy tính

Ngành khí tượng thủy văn Việt Nam vừa ghi dấu bước ngoặt quan trọng khi chính thức đưa siêu máy tính CrayXC40 vào vận hành, mở ra kỷ nguyên mới trong dự báo thời tiết với tốc độ xử lý và độ chính xác vượt trội.

Xem thêm