Tin tặc đã phá vỡ nền tảng công nghệ trí tuệ nhân tạo (AI) của Google và đã được nhận một khoản tiền thưởng.
Khi các công ty gấp rút triển khai trợ lý AI, trình phân loại và vô số công cụ khác được hỗ trợ bởi mô hình ngôn ngữ lớn (LLM), câu hỏi đặt ra là những công nghệ kể trên có thực sự được xây dựng một cách an toàn hay không?

Các nhà nghiên cứu của Lupin & Holmes đã có quyền truy cập sớm vào bản xem trước của bản cập nhật Gemini (là một chatbot trí tuệ nhân tạo được phát hành bởi Google) tiếp theo và cố gắng hack nó. Nhóm các nhà nghiên cứu này trước đây đã tham dự cuộc thi bảo mật AI của riêng Google, đó là LLM bugSWAT 2024 và đã giành được 50.000 đô la sau khi bẻ khóa mã nguồn, đồng thời tìm thấy các lỗ hổng nghiêm trọng trong mô hình AI hàng đầu của Google. Sau đó, họ lại làm được điều đó một lần nữa.
Bẻ khóa hộp AI của Google
Joseph “rez0” Thacker, Justin “Rhynorater” Gardner và Roni “Lupin” Carta đã bắt tay vào thử nghiệm giới hạn của môi trường mã hóa Gemini. Họ nhanh chóng nhận ra có thể liệt kê các tệp bên trong hộp cát, trước đây vốn là một điều không thể.
Điều đó dẫn họ đến một tệp nhị phân khổng lồ 579MB mà lẽ ra không thể truy cập được. Nhưng việc đánh cắp một tệp lớn từ một hệ thống bị khóa? Điều đó đòi hỏi sự khéo léo.
Sử dụng kết hợp giữa tập lệnh Python và Caido, một công cụ kiểm tra bảo mật, họ đã trích xuất tệp nhị phân thành từng phần. Những gì họ tìm thấy bên trong thật đáng ngạc nhiên, đó là
Mã nguồn nội bộ của Google: các đoạn mã của Google3, kho lưu trữ mã riêng của công ty.
API nội bộ của Gemini: một công cụ cho phép AI sử dụng Google Flights hoặc YouTube.
Protos bảo mật: về cơ bản là bản thiết kế phân loại nội bộ và bảo vệ dữ liệu của Google.
Thoạt nhìn, chúng có vẻ vô hại, nhưng việc rò rỉ các tệp này có thể cung cấp cái nhìn khá chi tiết về kiến trúc nội bộ của Google.
Các nhà nghiên cứu cho biết "Chúng tôi đã báo cáo những vụ rò rỉ này vì chúng tôi biết rằng Google coi chúng là thông tin cực kỳ bí mật và không bao giờ được tiết lộ".
Những kẻ tấn công cũng đã sử dụng quy trình suy luận của chính AI để chống lại chính nó. Lấy cảm hứng từ một bài báo nghiên cứu có tên ReAct, họ đã thao túng chuỗi thực thi suy nghĩ của Gemini để cố gắng khiến AI cấp cho họ nhiều quyền truy cập hơn.
"Với sự trợ giúp của Nhóm bảo mật Google, chúng tôi đã thử nghiệm ý tưởng này và quan sát thấy rằng, tùy thuộc vào các yếu tố như hạt giống thế hệ và nhiệt độ, đôi khi chúng tôi có thể truy cập vào thứ có vẻ là sandbox (là một kỹ thuật quan trọng được sử dụng để cô lập các ứng dụng và đảm bảo tính bảo mật của máy tính hoặc điện thoại) đặc quyền hơn", các nhà nghiên cứu cho biết.
Họ không hoàn toàn thoát khỏi sandbox (hộp cát), nhưng họ đã tiến đủ gần để khiến Google phải thực sự lo lắng.
"Mặc dù các thử nghiệm của chúng tôi bị hạn chế, nhưng ý tưởng cốt lõi vẫn có một số tiềm năng thực sự nếu chúng tôi tiến xa hơn", các chuyên gia nghiên cứu của Lupin & Holmes cho biết.
Google đã ngay lập tức vá các lỗ hổng và các nhà nghiên cứu đã được trả tiền. Tuy nhiên, đây chỉ là phần nổi của tảng băng chìm về bảo mật AI.
Các mô hình này không chỉ tạo ra văn bản, chúng còn truy cập vào các hệ thống nội bộ, trích xuất dữ liệu nhạy cảm và đưa ra các quyết định trong thế giới thực. Khi chúng sai hoặc khi tin tặc tìm ra cách khai thác chúng, hậu quả có thể rất thảm khốc.