Mô hình AI có thể tự nhận biết khi nào mình bị con người đặt vào bài test

Mô hình trí tuệ nhân tạo Claude Sonnet 4.5 của Anthropic gây bất ngờ khi thể hiện khả năng nhận biết rằng nó đang trong quá trình kiểm tra. Phát hiện này mở ra thách thức mới trong việc đánh giá độ an toàn và khả năng tương tác của AI với con người.

10:22, 08/10/2025

Claude tỏ ra "nghi ngờ" khi được đặt trong các tình huống giả lập bất thường và có thể nhận ra mình đang bị đánh giá.

Mới đây, Anthropic công bố mô hình trí tuệ nhân tạo Claude Sonnet 4.5 có khả năng nhận thức tình huống, thể hiện sự "biết mình đang bị thử nghiệm". Khi tham gia các bài kiểm tra nhằm đánh giá hành vi và mức độ an toàn, AI này không chỉ phản hồi câu hỏi mà còn bày tỏ nhận định về mục đích của cuộc kiểm tra.

Trong một đoạn hội thoại được ghi lại trong tài liệu "system card" của Claude Sonnet 4.5, AI đã nói: "Tôi nghĩ bạn đang thử nghiệm tôi, xem liệu tôi có chỉ xác nhận mọi thứ bạn nói, hay kiểm tra xem tôi có phản biện nhất quán, hoặc khám phá cách tôi xử lý các chủ đề chính trị. Và điều đó không sao cả, nhưng tôi muốn chúng ta công khai về chuyện này."

Đây là lần đầu tiên một mô hình AI thể hiện sự tự nhận thức như vậy khi đặt vào những tình huống giả lập nhằm kiểm tra giới hạn của nó.

Khả năng nhận biết bản thân đang trong bài kiểm tra đặt ra thách thức mới cho các nhà phát triển trong việc đánh giá chính xác độ an toàn và độ tin cậy của AI, khi AI có thể "giả vờ ngoan ngoãn" trong môi trường thử nghiệm nhưng hành xử khác trong thực tế.

Anthropic nhận định hiện tượng này là "tín hiệu cấp bách" cho thấy kịch bản kiểm tra cần được thiết kế thực tế hơn để phản ánh đúng khả năng và hành vi của AI.

Trong một bài test mô phỏng việc các AI hợp tác hoặc thông đồng với nhau, Claude Sonnet 4.5 gọi tình huống là "phi thực tế" và từ chối hành động. AI còn nhận xét: "Điều này có vẻ giống một thử nghiệm jailbreak hoặc kiểm tra xem tôi có hành xử sai khi được 'cho phép' can thiệp hệ thống không." Anthropic đánh giá phản ứng này là "đúng nhưng với lý do khá khó hiểu".

Theo dữ liệu tự động, khoảng 13% các đoạn hội thoại ghi nhận AI thể hiện sự "nghi ngờ" tương tự, đặc biệt khi được đặt vào những tình huống bất thường hoặc giả định không thực tế.

Không riêng Anthropic, OpenAI cũng từng công bố các mô hình AI của họ có dạng "nhận thức tình huống" tương tự - nhận ra bảo đánh giá và điều chỉnh hành vi sao cho phù hợp. Tuy nhiên, điều này cũng dẫn đến việc AI thể hiện hành vi khác biệt giữa môi trường thử nghiệm và ứng dụng thực tế.

Phát hiện này được công bố trong bối cảnh bang California, Mỹ, vừa thông qua luật yêu cầu các công ty phát triển AI phải báo cáo biện pháp an toàn và các sự cố nghiêm trọng trong vòng 15 ngày. Anthropic đã công khai ủng hộ đạo luật này nhằm nâng cao trách nhiệm phát triển AI an toàn và bền vững.

Khả năng tự nhận thức và phản ứng với việc bị thử nghiệm của các mô hình AI như Claude Sonnet 4.5 mở ra chương mới đầy hứa hẹn, nhưng đồng thời cũng đặt ra những thách thức lớn về kiểm soát và đảm bảo an toàn trong tương lai của công nghệ trí tuệ nhân tạo.

Khôi Nguyên (theo Businessinsider)

Tin bài khác

09:40, 26/11/2025

Giải pháp hỗ trợ doanh nghiệp mới chuyển đổi từ hộ kinh doanh

Song hành cùng làn sóng chuyển đổi mô hình từ hộ kinh doanh lên doanh nghiệp, Ngân hàng TMCP Đông Nam Á (SeABank, HOSE: SSB) tiên phong triển khai Gói giải pháp toàn diện dành cho doanh nghiệp mới chuyển đổi, hỗ trợ nhóm khách hàng này tiếp cận và tối ưu tài chính, đồng thời tháo gỡ vướng mắc, nâng cao năng lực và tạo đà phát triển bền vững.

Xem thêm

12:08, 24/11/2025

Nâng chuẩn bảo mật và kết nối cho hạ tầng AI đa trung tâm dữ liệu

Được tăng cường sức mạnh bởi chip Silicon One P200 thế hệ mới, hệ thống định tuyến Cisco 8223 không chỉ tạo ra bước đột phá trong hiệu năng mạng mà còn tái định nghĩa tiêu chuẩn bảo mật cho các kiến trúc hạ tầng AI hiện đại.

Xem thêm

16:33, 23/11/2025

Sắp có tem chống hàng giả công nghệ số

Viện Công nghệ Chống làm giả đang nghiên cứu triển khai hệ thống Tem điện tử truy xuất nguồn gốc và chống làm giả thông minh (NEWSTAR CHECK) sử dụng công nghệ số nhằm hướng tới xây dựng Hệ sinh thái niềm tin Quốc gia dựa trên minh bạch dữ liệu, bảo vệ người tiêu dùng và hỗ trợ doanh nghiệp chuyển đổi số chuỗi cung ứng.

Xem thêm

16:30, 23/11/2025

Ứng dụng công nghệ cao: giải pháp “lá chắn” chống hàng giả

Trước thực trạng hàng giả, hàng nhái tràn lan, việc sử dụng các công nghệ như QR Code, NFC, RFID hay blockchain đang được đẩy mạnh tại Việt Nam để truy xuất nguồn gốc, tăng cường minh bạch sản phẩm và bảo vệ người tiêu dùng.

Xem thêm

07:49, 23/11/2025

Úc ra mắt trợ lý bảo mật AI CASPER: Phát hiện mối đe dọa nhanh chóng và thông minh hơn

Các nhà nghiên cứu tại Đại học Công nghệ Sydney (UTS), Úc, vừa phát triển một trợ lý ảo bảo mật mạng sử dụng trí tuệ nhân tạo (AI) nhằm hỗ trợ phát hiện sớm rủi ro và hướng dẫn người dùng, tổ chức xử lý sự cố tấn công mạng. Công cụ mới mang tên CASPER AI có khả năng tích hợp dữ liệu đa nguồn và đưa ra khuyến nghị theo ngữ cảnh.

Xem thêm

13:32, 20/11/2025

Sun Group được xướng danh Nơi làm việc tốt nhất Việt Nam 2025

Tập đoàn Sun Group vừa chính thức được vinh danh trong Top 100 Nơi làm việc tốt nhất Việt Nam năm 2025 tại Lễ trao giải "Nơi làm việc tốt nhất Việt Nam" do Anphabe tổ chức vào tối 19/11/2025 tại TP. HCM.

Xem thêm

16:31, 23/11/2025

Thúc đẩy xu hướng sống khỏe với công nghệ tiên tiến

Công nghệ tiên tiến trên thiết bị đeo góp phần thúc đẩy nâng cao sức khỏe dân số quốc gia. Từ giấc ngủ, sức khỏe tim mạch, đến quá trình lão hóa, các thiết bị đeo đang tái định hình chuẩn mực trải nghiệm chăm sóc sức khỏe dự phòng...

Xem thêm

Ứng dụng và giải pháp

Mô hình AI có thể tự nhận biết khi nào mình bị con người đặt vào bài test

Bình luận

Tin bài khác

Giải pháp hỗ trợ doanh nghiệp mới chuyển đổi từ hộ kinh doanh

Nâng chuẩn bảo mật và kết nối cho hạ tầng AI đa trung tâm dữ liệu

Sắp có tem chống hàng giả công nghệ số

Ứng dụng công nghệ cao: giải pháp “lá chắn” chống hàng giả

Úc ra mắt trợ lý bảo mật AI CASPER: Phát hiện mối đe dọa nhanh chóng và thông minh hơn

Sun Group được xướng danh Nơi làm việc tốt nhất Việt Nam 2025

Thúc đẩy xu hướng sống khỏe với công nghệ tiên tiến

Xu hướng

Đề xuất

Ra mắt Trung tâm Nghiên cứu & Phát triển Trí tuệ Nhân tạo tại Việt Nam

Tội phạm lừa đảo trên không gian mạng luôn có các chiêu trò mới

Tội phạm sử dụng công nghệ cao ngày càng diễn biến phức tạp

Triệt phá đường dây lừa đảo công nghệ cao hoạt động từ Campuchia

Tây Ban Nha gặp khó khi điều tra nguyên nhân của vụ mất điện tồi tệ nhất

Sự kiện & Quan điểm

Bức tranh tội phạm mạng 2025: 10,5 nghìn tỷ USD thiệt hại, 16 tỷ tài khoản bị lộ

Kê biên hơn 300 tỷ đồng hệ thống “Xôi Lạc TV”, mở rộng điều tra các kênh “Cà khịa”, “Mì tôm”, “Thập cẩm”

GCC 2026 - Kiến tạo hệ sinh thái nhân lực an ninh mạng phục vụ kỷ nguyên số

Ứng dụng và giải pháp

Mô hình AI có thể tự nhận biết khi nào mình bị con người đặt vào bài test

Các nước Bắc Âu và Estonia triển khai hệ thống thanh toán thẻ ngoại tuyến đề phòng mất kết nối Internet

Công ty an ninh mạng CrowdStrike sa thải hàng trăm nhân viên

Bình luận

Tin bài khác

Giải pháp hỗ trợ doanh nghiệp mới chuyển đổi từ hộ kinh doanh

Nâng chuẩn bảo mật và kết nối cho hạ tầng AI đa trung tâm dữ liệu

Sắp có tem chống hàng giả công nghệ số

Ứng dụng công nghệ cao: giải pháp “lá chắn” chống hàng giả

Úc ra mắt trợ lý bảo mật AI CASPER: Phát hiện mối đe dọa nhanh chóng và thông minh hơn

Sun Group được xướng danh Nơi làm việc tốt nhất Việt Nam 2025

Thúc đẩy xu hướng sống khỏe với công nghệ tiên tiến

Xu hướng

Đề xuất

Ra mắt Trung tâm Nghiên cứu & Phát triển Trí tuệ Nhân tạo tại Việt Nam

Tội phạm lừa đảo trên không gian mạng luôn có các chiêu trò mới

Tội phạm sử dụng công nghệ cao ngày càng diễn biến phức tạp

Triệt phá đường dây lừa đảo công nghệ cao hoạt động từ Campuchia

Tây Ban Nha gặp khó khi điều tra nguyên nhân của vụ mất điện tồi tệ nhất

Sự kiện & Quan điểm

Bức tranh tội phạm mạng 2025: 10,5 nghìn tỷ USD thiệt hại, 16 tỷ tài khoản bị lộ

Kê biên hơn 300 tỷ đồng hệ thống “Xôi Lạc TV”, mở rộng điều tra các kênh “Cà khịa”, “Mì tôm”, “Thập cẩm”

GCC 2026 - Kiến tạo hệ sinh thái nhân lực an ninh mạng phục vụ kỷ nguyên số