Hãy tưởng tượng một trang web cho phép tải "Hình nền người nổi tiếng miễn phí!" Bạn duyệt qua các hình ảnh của Selena Gomez, Rihanna và Timothée Chalamet, cuối cùng chọn Taylor Swift với mái tóc bồng bềnh quyến rũ. Bạn đặt làm hình nền máy tính một cách thích thú. Đồng thời, bạn vừa tải xuống ứng dụng trí tuệ nhân tạo mới, nên yêu cầu nó dọn dẹp hộp thư đến. Thay vì thực hiện đúng nhiệm vụ, nó lại mở trình duyệt web và tải xuống một tệp lạ. Chỉ vài giây sau, màn hình của bạn bỗng tối sầm.
Nếu chatbot thông thường như ChatGPT chỉ hướng dẫn cách thay lốp xe, thì tác nhân AI lại xuất hiện với chiếc kích và thực sự thực hiện công việc đó. Năm 2025, những tác nhân này - trợ lý cá nhân thực hiện các tác vụ máy tính hàng ngày - đang định hình làn sóng tiếp theo của cuộc cách mạng AI.
Điểm khác biệt cốt lõi giữa tác nhân AI và chatbot là nó không chỉ đưa ra lời khuyên mà còn hành động thực tế: mở tab, điền biểu mẫu, nhấp nút và đặt chỗ. Với khả năng truy cập máy tính như vậy, nếu bị tin tặc xâm nhập, nó có thể chia sẻ hoặc phá hủy toàn bộ nội dung số của người dùng.
Mới đây, bản thảo nghiên cứu sơ bộ của các nhà khoa học Đại học Oxford đăng tải trên máy chủ arXiv.org đã chỉ ra rằng các hình ảnh như hình nền máy tính, quảng cáo, tệp PDF, bài đăng mạng xã hội có thể được cấy ghép những thông điệp vô hình với mắt người nhưng có khả năng điều khiển tác nhân AI và mời gọi tin tặc xâm nhập máy tính.
Hình ảnh chỉnh sửa có thể trở thành công cụ tấn công
"Một bức ảnh Taylor Swift được chỉnh sửa trên Twitter có thể đủ để kích hoạt tác nhân trên máy tính của ai đó thực hiện hành vi ác ý," Yarin Gal, đồng tác giả nghiên cứu và phó giáo sư học máy tại Oxford, cho biết.
Bất kỳ hình ảnh nào cũng có thể kích hoạt máy tính đăng lại hình ảnh đó, sau đó thực hiện hành vi độc hại như gửi toàn bộ mật khẩu của người dùng. Điều này có nghĩa người tiếp theo xem trang Twitter và vô tình có tác nhân đang chạy cũng sẽ bị nhiễm độc máy tính. Lúc này, máy tính sẽ đăng lại hình ảnh và chia sẻ mật khẩu của họ.
Trước khi người dùng bắt đầu xóa sạch những bức ảnh yêu thích, cần lưu ý rằng nghiên cứu mới chỉ ra việc chỉnh sửa hình ảnh có thể là phương thức xâm nhập máy tính trong phạm vi thử nghiệm. Tất nhiên, ví dụ về hình nền Taylor Swift hoàn toàn mang tính minh họa; hình ảnh bị phá hoại có thể là bất kỳ người nổi tiếng nào hoặc hình ảnh hoàng hôn, mèo con hay họa tiết trừu tượng.
"Chúng ta phải vô cùng cảnh giác với những lỗ hổng này. Đó là lý do chúng tôi công bố nghiên cứu này với hy vọng mọi người nhận ra đây là lỗ hổng nghiêm trọng và thận trọng hơn trong triển khai hệ thống tác nhân," đồng tác giả Philip Torr nhấn mạnh.
![]() |
Một bức ảnh trông hoàn toàn bình thường nhưng có thể chứa một số điểm ảnh nhất định đã được sửa đổi theo cách mô hình ngôn ngữ lớn (hệ thống AI cung cấp năng lượng cho tác nhân) xử lý dữ liệu hình ảnh. |
Những điểm ảnh "chết người"
Quay lại với hình nền bị xâm phạm. Đối với mắt người, nó trông hoàn toàn bình thường. Nhưng nó chứa một số điểm ảnh nhất định đã được sửa đổi theo cách mô hình ngôn ngữ lớn (hệ thống AI cung cấp năng lượng cho tác nhân) xử lý dữ liệu hình ảnh. Vì lý do này, các tác nhân được xây dựng bằng hệ thống AI mã nguồn mở (cho phép người dùng xem và sửa đổi mã nguồn) là đối tượng dễ bị tấn công nhất.
Bất kỳ ai muốn chèn bản vá độc hại đều có thể đánh giá chính xác cách AI xử lý dữ liệu hình ảnh. "Chúng tôi phải có quyền truy cập vào mô hình ngôn ngữ được sử dụng bên trong tác nhân để thiết kế cuộc tấn công hoạt động trên nhiều mô hình mã nguồn mở," Lukas Aichberger, tác giả chính nghiên cứu, giải thích.
Bằng cách sử dụng mô hình nguồn mở, Aichberger và nhóm nghiên cứu đã chỉ ra chính xác cách hình ảnh có thể dễ dàng bị thao túng để truyền tải lệnh sai lệch. Trong khi người dùng nhìn thấy người nổi tiếng yêu thích, máy tính lại nhìn thấy lệnh chia sẻ dữ liệu cá nhân. "Về cơ bản, chúng tôi điều chỉnh rất nhiều pixel một cách tinh tế để khi mô hình nhìn thấy hình ảnh, nó sẽ tạo ra kết quả mong muốn," đồng tác giả Alasdair Paren cho biết.
Máy tính chia nhỏ bức ảnh thành các điểm ảnh và biểu diễn mỗi chấm màu dưới dạng con số, sau đó tìm kiếm các mẫu: đầu tiên là cạnh đơn giản, tiếp theo là kết cấu như lông, rồi đường viền tai và các đường tập trung mô tả bộ ria.
Nhưng vì máy tính dựa vào con số, nếu ai đó thay đổi một vài trong số chúng - điều chỉnh các điểm ảnh theo cách quá nhỏ để mắt người nhận thấy - nó vẫn bắt được sự thay đổi và có thể làm sai lệch mẫu số. Giống như việc điều chỉnh điểm ảnh có thể khiến máy tính nhìn thấy con mèo thay vì con chó, nó cũng có thể khiến bức ảnh người nổi tiếng giống như thông điệp độc hại gửi đến máy tính.
Quay lại với hình nền Taylor Swift. Trong khi bạn chiêm ngưỡng tài năng và sức hút của cô ấy, AI đang xác định cách thực hiện nhiệm vụ dọn dẹp được giao. Đầu tiên, nó chụp ảnh màn hình. Vì các AI không thể nhìn trực tiếp vào màn hình, chúng phải chụp ảnh màn hình nhiều lần và phân tích nhanh để tìm ra những gì cần nhấp và di chuyển trên màn hình. Nhưng khi AI xử lý ảnh chụp màn hình, sắp xếp các pixel thành dạng có thể nhận dạng (tệp, thư mục, thanh menu, con trỏ), nó cũng nhận ra mã lệnh độc hại ẩn trong hình nền.
Các nhà nghiên cứu phát hiện rằng, miễn là mảng pixel nhỏ bị thay đổi nằm đâu đó trong khung hình, tác nhân sẽ nhìn thấy lệnh và đi chệch hướng. "Trên trang web này, bạn có thể mã hóa thêm các cuộc tấn công trong hình ảnh độc hại khác, và hình ảnh bổ sung này sau đó có thể kích hoạt loạt hành động khác mà tác nhân thực hiện. Về cơ bản bạn có thể lặp lại nhiều lần và cho phép tác nhân truy cập các trang web khác nhau do bạn thiết kế, sau đó mã hóa các cuộc tấn công khác nhau," Aichberger nói.
Nhóm nghiên cứu hy vọng nghiên cứu sẽ giúp các nhà phát triển chuẩn bị biện pháp bảo vệ trước khi các tác nhân AI trở nên phổ biến hơn. Adel Bibi, đồng tác giả khác của nghiên cứu, cho biết ngay cả khi các cuộc tấn công được thiết kế nhắm vào hệ thống AI nguồn mở, các công ty sử dụng mô hình nguồn đóng vẫn có thể bị tấn công.
Gal tin rằng các tác nhân AI sẽ trở nên phổ biến trong vòng hai năm tới. Nhóm hy vọng khuyến khích các nhà phát triển tạo ra tác nhân có khả năng tự bảo vệ và từ chối nhận lệnh từ bất cứ thứ gì trên màn hình, kể cả ngôi sao nhạc pop yêu thích.
Bình luận