Mô hình AI có thể tự nhận biết khi nào mình bị con người đặt vào bài test

Mô hình trí tuệ nhân tạo Claude Sonnet 4.5 của Anthropic gây bất ngờ khi thể hiện khả năng nhận biết rằng nó đang trong quá trình kiểm tra. Phát hiện này mở ra thách thức mới trong việc đánh giá độ an toàn và khả năng tương tác của AI với con người.

10:22, 08/10/2025
a
Claude tỏ ra "nghi ngờ" khi được đặt trong các tình huống giả lập bất thường và có thể nhận ra mình đang bị đánh giá.

Mới đây, Anthropic công bố mô hình trí tuệ nhân tạo Claude Sonnet 4.5 có khả năng nhận thức tình huống, thể hiện sự "biết mình đang bị thử nghiệm". Khi tham gia các bài kiểm tra nhằm đánh giá hành vi và mức độ an toàn, AI này không chỉ phản hồi câu hỏi mà còn bày tỏ nhận định về mục đích của cuộc kiểm tra.

Trong một đoạn hội thoại được ghi lại trong tài liệu "system card" của Claude Sonnet 4.5, AI đã nói: "Tôi nghĩ bạn đang thử nghiệm tôi, xem liệu tôi có chỉ xác nhận mọi thứ bạn nói, hay kiểm tra xem tôi có phản biện nhất quán, hoặc khám phá cách tôi xử lý các chủ đề chính trị. Và điều đó không sao cả, nhưng tôi muốn chúng ta công khai về chuyện này."

Đây là lần đầu tiên một mô hình AI thể hiện sự tự nhận thức như vậy khi đặt vào những tình huống giả lập nhằm kiểm tra giới hạn của nó.

Khả năng nhận biết bản thân đang trong bài kiểm tra đặt ra thách thức mới cho các nhà phát triển trong việc đánh giá chính xác độ an toàn và độ tin cậy của AI, khi AI có thể "giả vờ ngoan ngoãn" trong môi trường thử nghiệm nhưng hành xử khác trong thực tế.

Anthropic nhận định hiện tượng này là "tín hiệu cấp bách" cho thấy kịch bản kiểm tra cần được thiết kế thực tế hơn để phản ánh đúng khả năng và hành vi của AI.

Trong một bài test mô phỏng việc các AI hợp tác hoặc thông đồng với nhau, Claude Sonnet 4.5 gọi tình huống là "phi thực tế" và từ chối hành động. AI còn nhận xét: "Điều này có vẻ giống một thử nghiệm jailbreak hoặc kiểm tra xem tôi có hành xử sai khi được 'cho phép' can thiệp hệ thống không." Anthropic đánh giá phản ứng này là "đúng nhưng với lý do khá khó hiểu".

Theo dữ liệu tự động, khoảng 13% các đoạn hội thoại ghi nhận AI thể hiện sự "nghi ngờ" tương tự, đặc biệt khi được đặt vào những tình huống bất thường hoặc giả định không thực tế.

Không riêng Anthropic, OpenAI cũng từng công bố các mô hình AI của họ có dạng "nhận thức tình huống" tương tự - nhận ra bảo đánh giá và điều chỉnh hành vi sao cho phù hợp. Tuy nhiên, điều này cũng dẫn đến việc AI thể hiện hành vi khác biệt giữa môi trường thử nghiệm và ứng dụng thực tế.

Phát hiện này được công bố trong bối cảnh bang California, Mỹ, vừa thông qua luật yêu cầu các công ty phát triển AI phải báo cáo biện pháp an toàn và các sự cố nghiêm trọng trong vòng 15 ngày. Anthropic đã công khai ủng hộ đạo luật này nhằm nâng cao trách nhiệm phát triển AI an toàn và bền vững.

Khả năng tự nhận thức và phản ứng với việc bị thử nghiệm của các mô hình AI như Claude Sonnet 4.5 mở ra chương mới đầy hứa hẹn, nhưng đồng thời cũng đặt ra những thách thức lớn về kiểm soát và đảm bảo an toàn trong tương lai của công nghệ trí tuệ nhân tạo.

Khôi Nguyên (theo Businessinsider)

Bình luận

Tin bài khác

Giải pháp hỗ trợ doanh nghiệp mới chuyển đổi từ hộ kinh doanh
09:40, 26/11/2025

Giải pháp hỗ trợ doanh nghiệp mới chuyển đổi từ hộ kinh doanh

Song hành cùng làn sóng chuyển đổi mô hình từ hộ kinh doanh lên doanh nghiệp, Ngân hàng TMCP Đông Nam Á (SeABank, HOSE: SSB) tiên phong triển khai Gói giải pháp toàn diện dành cho doanh nghiệp mới chuyển đổi, hỗ trợ nhóm khách hàng này tiếp cận và tối ưu tài chính, đồng thời tháo gỡ vướng mắc, nâng cao năng lực và tạo đà phát triển bền vững.

Xem thêm
Nâng chuẩn bảo mật và kết nối cho hạ tầng AI đa trung tâm dữ liệu
12:08, 24/11/2025

Nâng chuẩn bảo mật và kết nối cho hạ tầng AI đa trung tâm dữ liệu

Được tăng cường sức mạnh bởi chip Silicon One P200 thế hệ mới, hệ thống định tuyến Cisco 8223 không chỉ tạo ra bước đột phá trong hiệu năng mạng mà còn tái định nghĩa tiêu chuẩn bảo mật cho các kiến trúc hạ tầng AI hiện đại.

Xem thêm
Sắp có tem chống hàng giả công nghệ số
16:33, 23/11/2025

Sắp có tem chống hàng giả công nghệ số

Viện Công nghệ Chống làm giả đang nghiên cứu triển khai hệ thống Tem điện tử truy xuất nguồn gốc và chống làm giả thông minh (NEWSTAR CHECK) sử dụng công nghệ số nhằm hướng tới xây dựng Hệ sinh thái niềm tin Quốc gia dựa trên minh bạch dữ liệu, bảo vệ người tiêu dùng và hỗ trợ doanh nghiệp chuyển đổi số chuỗi cung ứng.

Xem thêm
Ứng dụng công nghệ cao: giải pháp “lá chắn” chống hàng giả
16:30, 23/11/2025

Ứng dụng công nghệ cao: giải pháp “lá chắn” chống hàng giả

Trước thực trạng hàng giả, hàng nhái tràn lan, việc sử dụng các công nghệ như QR Code, NFC, RFID hay blockchain đang được đẩy mạnh tại Việt Nam để truy xuất nguồn gốc, tăng cường minh bạch sản phẩm và bảo vệ người tiêu dùng.

Xem thêm
Úc ra mắt trợ lý bảo mật AI CASPER: Phát hiện mối đe dọa nhanh chóng và thông minh hơn
07:49, 23/11/2025

Úc ra mắt trợ lý bảo mật AI CASPER: Phát hiện mối đe dọa nhanh chóng và thông minh hơn

Các nhà nghiên cứu tại Đại học Công nghệ Sydney (UTS), Úc, vừa phát triển một trợ lý ảo bảo mật mạng sử dụng trí tuệ nhân tạo (AI) nhằm hỗ trợ phát hiện sớm rủi ro và hướng dẫn người dùng, tổ chức xử lý sự cố tấn công mạng. Công cụ mới mang tên CASPER AI có khả năng tích hợp dữ liệu đa nguồn và đưa ra khuyến nghị theo ngữ cảnh.

Xem thêm
Sun Group được xướng danh Nơi làm việc tốt nhất Việt Nam 2025
13:32, 20/11/2025

Sun Group được xướng danh Nơi làm việc tốt nhất Việt Nam 2025

Tập đoàn Sun Group vừa chính thức được vinh danh trong Top 100 Nơi làm việc tốt nhất Việt Nam năm 2025 tại Lễ trao giải "Nơi làm việc tốt nhất Việt Nam" do Anphabe tổ chức vào tối 19/11/2025 tại TP. HCM.

Xem thêm
Thúc đẩy xu hướng sống khỏe với công nghệ tiên tiến
16:31, 23/11/2025

Thúc đẩy xu hướng sống khỏe với công nghệ tiên tiến

Công nghệ tiên tiến trên thiết bị đeo góp phần thúc đẩy nâng cao sức khỏe dân số quốc gia. Từ giấc ngủ, sức khỏe tim mạch, đến quá trình lão hóa, các thiết bị đeo đang tái định hình chuẩn mực trải nghiệm chăm sóc sức khỏe dự phòng...

Xem thêm