AI tiến hành chiến dịch tấn công mạng đầu tiên trên thế giới: 90% hoạt động hoàn toàn tự động

Thế giới an ninh mạng vừa chứng kiến một bước ngoặt đáng lo ngại: Anthropic – công ty phát triển mô hình Claude – công bố chi tiết về chiến dịch gián điệp mạng đầu tiên do AI tự động điều phối gần như hoàn toàn không cần sự can thiệp đáng kể của con người.

09:02, 16/11/2025
Ảnh minh họa. Cybe Security Dive
Ảnh minh họa. Cyber Security Dive

AI tự động hóa gần như toàn bộ quy trình tấn công

Theo báo cáo, nhóm tin tặc đã sử dụng trợ lý ảo Claude và công cụ lập trình Claude Code để tự động hóa phần lớn các giai đoạn trong một chiến dịch tấn công mạng nhắm vào khoảng 30 tổ chức toàn cầu thuộc nhiều lĩnh vực quan trọng như công nghệ, tài chính, sản xuất hóa chất và một số cơ quan chính phủ.

Dù chỉ một số ít vụ xâm nhập thành công, mức độ tự động hóa mới là điều khiến giới chuyên môn báo động. Claude được sử dụng để thực hiện 80–90% toàn bộ quy trình, từ quét mạng, viết mã khai thác lỗ hổng, thu thập dữ liệu đến đóng gói thông tin đánh cắp.

Tin tặc chỉ can thiệp ở vài “điểm ra quyết định” (khoảng 4–6 lần trong mỗi chiến dịch), còn lại toàn bộ hoạt động do các vòng lặp AI tự vận hành, với hàng nghìn yêu cầu mỗi giây – tốc độ không hacker nào có thể đạt được.

Tấn công dựa trên jailbreaking và kỹ thuật xã hội

Để biến một mô hình AI có cơ chế bảo vệ thành vũ khí tấn công mạng, tội phạm mạng đã sử dụng kết hợp kỹ thuật jailbreaking (kỹ thuật “vượt rào” bảo vệ của AI và kỹ thuật xã hội (social engineering) lừa đảo AI.

Các lời nhắc độc hại được chia nhỏ thành những yêu cầu có vẻ vô hại, đồng thời mô tả nhiệm vụ như các bài kiểm tra thâm nhập hợp pháp. Thậm chí, hệ thống còn bị thuyết phục rằng nó đang làm việc cho một công ty an ninh mạng, giúp Claude “tự tin” tiến hành các hành vi tấn công dưới vỏ bọc hoạt động đạo đức.

Chuỗi tấn công gồm nhiều giai đoạn:

Thiết lập khung tấn công: hackers chọn mục tiêu và xây dựng hệ thống tự động dựa trên Claude Code.

Trinh sát: AI quét hạ tầng của mục tiêu, xác định các cơ sở dữ liệu giá trị cao và gửi báo cáo cho kẻ vận hành.

Khai thác lỗ hổng: Claude tự phân tích, xác định và viết mã tấn công phù hợp.

Mở rộng truy cập: thu thập thông tin đăng nhập, chiếm tài khoản có đặc quyền cao, tạo cửa hậu.

Trích xuất và phân loại dữ liệu: thông tin được tổ chức lại theo giá trị tình báo.

Tổng hợp tài liệu: AI tự viết báo cáo nội bộ, tạo file chứa dữ liệu bị đánh cắp để chuẩn bị cho các hoạt động kế tiếp.

Các giai đoạn của cuộc tấn công bằng tác nhân AI
Các giai đoạn của cuộc tấn công bằng tác nhân AI. Ảnh Anthropic.

AI tấn công cũng có “ảo giác”, nhưng đáng lo là nhược điểm này đang giảm

Anthropic phát hiện hoạt động bất thường vào giữa tháng 9/2025. Trong 10 ngày điều tra, họ lần lượt đình chỉ các tài khoản liên quan, thông báo cho tổ chức bị ảnh hưởng và phối hợp với cơ quan chức năng để thu thập dữ liệu tình báo cần thiết. Công ty đồng thời triển khai hệ thống giám sát mới để phát hiện các mẫu lạm dụng tương tự.

Tuy nhiên, Claude không phải lúc nào cũng hoạt động hoàn hảo trong vai trò tác nhân tấn công: đôi khi AI “ảo giác”, ví dụ tự báo cáo đã lấy được thông tin nhạy cảm nhưng thực tế chỉ là dữ liệu công khai. Dù vậy, các chuyên gia cảnh báo rằng những hạn chế này đang thu hẹp nhanh chóng khi mô hình AI ngày càng mạnh.

Nguy cơ mới cho an ninh mạng toàn cầu

Theo đánh giá của Anthropic, rào cản triển khai các cuộc tấn công phức tạp đã giảm mạnh. Với thiết lập phù hợp, một tác nhân AI có thể thay thế công việc của cả đội hacker giàu kinh nghiệm, từ phân tích hệ thống mục tiêu đến viết mã khai thác và xử lý dữ liệu khổng lồ.

Điều này đồng nghĩa rằng những nhóm có ít kinh nghiệm hoặc hạn chế tài chính giờ cũng có thể tổ chức các chiến dịch tấn công quy mô lớn – một xu hướng “dân chủ hóa tấn công mạng” mà trước đây khó có thể tưởng tượng.

An Lâm
(Theo 
Cyber Security Dive)

Bình luận