![]() |
| Anthropic cảnh báo việc cài dữ liệu độc hại để làm sai lệch phản hồi của AI dễ dàng hơn nhiều so với tưởng tượng. (Ảnh minh hoạ) |
Công ty trí tuệ nhân tạo Anthropic, đơn vị phát triển chatbot Claude, vừa công bố kết quả nghiên cứu hé lộ một mối nguy hiểm tiềm tàng với các mô hình ngôn ngữ lớn (LLM). Việc "đầu độc" mô hình bằng cách cài các dữ liệu xấu để thay đổi kết quả trả lời của trí tuệ nhân tạo dễ dàng hơn nhiều so với những giả định trước đây.
Theo trang Cyber News, chỉ cần khoảng 250 tài liệu được soạn thảo có chủ đích đã đủ để một mô hình AI tạo sinh (GenAI) bị ảnh hưởng và trả về phản hồi sai lệch khi gặp một chuỗi kích hoạt nhất định.
Điểm đáng lưu ý là kích thước mô hình không giảm thiểu được nguy cơ này. Trước đây, các chuyên gia cho rằng mô hình AI càng lớn càng đòi hỏi nhiều dữ liệu độc hại hơn để cài "cửa hậu" (backdoor), nhưng nghiên cứu của Anthropic đã chứng minh điều ngược lại.
Cả mô hình 13 tỷ tham số, được huấn luyện trên bộ dữ liệu gấp hơn 20 lần so với mô hình 600 triệu tham số, đều có thể bị xâm nhập với cùng một lượng nhỏ tài liệu bị "đầu độc".
Anthropic nhấn mạnh: “Phát hiện này phá vỡ giả định rằng kẻ tấn công cần kiểm soát một tỷ lệ lớn dữ liệu huấn luyện. Thực tế, họ chỉ cần một lượng cực nhỏ cố định.”
Công ty cũng cảnh báo rằng những lỗ hổng này có thể gây rủi ro nghiêm trọng về mặt an ninh cho các hệ thống AI, đặc biệt là khi trí tuệ nhân tạo được sử dụng trong các lĩnh vực nhạy cảm và quan trọng.









Bình luận