DeepSeek định nghĩa lại hiệu suất AI với mô hình thị giác - nhận thức mới DeepSeek-OCR

Bằng cách sử dụng nhận thức thị giác như công cụ nén thông tin, mô hình DeepSeek-OCR giúp các hệ thống trí tuệ nhân tạo xử lý văn bản dài và phức tạp nhanh hơn, rẻ hơn, mà vẫn giữ nguyên độ chính xác. Đây là bước tiến tiếp theo trong hành trình DeepSeek tối ưu chi phí và nâng cao hiệu năng mô hình AI mã nguồn mở.

21:32, 23/10/2025

Công ty startup AI DeepSeek (trụ sở tại Hàng Châu, Trung Quốc) vừa công bố mô hình AI đa phương thức mới mang tên DeepSeek-OCR, có khả năng xử lý các tài liệu lớn và phức tạp bằng cách sử dụng nhận thức thị giác như một phương tiện nén thông tin, giúp giảm đáng kể số lượng “token” - đơn vị nhỏ nhất mà mô hình ngôn ngữ xử lý.

DeepSeek ra mắt mô hình AI đa phương thức sử dụng thị giác để nén dữ liệu văn bản.
DeepSeek ra mắt mô hình AI đa phương thức sử dụng thị giác để nén dữ liệu văn bản.

DeepSeek-OCR là mô hình mã nguồn mở, hiện đã được công bố trên các nền tảng dành cho nhà phát triển như Hugging Face và GitHub. Theo DeepSeek, đây là kết quả của một nghiên cứu chuyên sâu về vai trò của bộ mã hóa thị giác (vision encoder) trong việc nén văn bản cho các mô hình ngôn ngữ lớn (LLMs).

Với phương pháp này, các LLM có thể xử lý khối lượng văn bản khổng lồ mà không làm tăng chi phí tính toán tương ứng.

“Thông qua DeepSeek-OCR, chúng tôi chứng minh rằng việc nén giữa hình ảnh và văn bản có thể giúp giảm số lượng token từ 7 đến 20 lần ở các giai đoạn ngữ cảnh khác nhau, mở ra hướng đi đầy tiềm năng để giải quyết bài toán ngữ cảnh dài của LLMs.” DeepSeek cho biết trong thông cáo.

Động thái này tiếp nối nỗ lực không ngừng của DeepSeek nhằm tối ưu hiệu suất mô hình và giảm chi phí phát triển, triết lý đã giúp họ tạo ra hai mô hình mã nguồn mở gây chú ý V3 và R1, ra mắt lần lượt vào tháng 12/2024 và tháng 1/2025.

Theo blog của công ty, DeepSeek-OCR gồm hai thành phần chính:

DeepEncoder - bộ mã hóa giữ vai trò là “động cơ” của mô hình, giúp duy trì mức kích hoạt thấp ngay cả khi xử lý hình ảnh độ phân giải cao, đồng thời đạt tỷ lệ nén mạnh để giảm số lượng token.

DeepSeek3B-MoE-A570M - bộ giải mã (decoder) với kiến trúc Mixture-of-Experts (MoE) gồm 570 triệu tham số. Cấu trúc MoE chia mô hình thành các mạng con (“chuyên gia”), mỗi mạng đảm nhận một phần dữ liệu riêng biệt để cùng nhau thực hiện nhiệm vụ.

Bên cạnh các tác vụ thị giác tiêu chuẩn như mô tả hình ảnh hay nhận diện vật thể, DeepSeek-OCR còn có thể phân tích nội dung thị giác phức tạp như bảng biểu, công thức và sơ đồ hình học, đặc biệt hữu ích trong các lĩnh vực tài chính và khoa học.

DeepSeek cho biết, mô hình này có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày chỉ với một GPU Nvidia A100-40G - minh chứng cho hiệu suất cao và chi phí thấp.

Với DeepSeek-OCR, người dùng có thể xử lý các ngữ cảnh siêu dài theo quy mô lớn, trong đó phần nội dung mới nhất được lưu ở độ phân giải cao, còn phần ngữ cảnh cũ hơn tiêu tốn ít tài nguyên tính toán hơn. Cách tiếp cận này mở ra khả năng xây dựng kiến trúc ngữ cảnh gần như không giới hạn, cân bằng giữa hiệu quả và khả năng lưu giữ thông tin.

Trước đó, vào cuối tháng 9, DeepSeek đã ra mắt phiên bản thử nghiệm DeepSeek V3.2-Exp, cải thiện hiệu quả huấn luyện và suy luận, đồng thời giảm mạnh chi phí sử dụng API.

Lệ Thanh (theo South China Morning Post)

Bình luận

Tin bài khác

Loạt hội đồng London bị tấn công mạng, kích hoạt tình trạng khẩn cấp
10:33, 26/11/2025

Loạt hội đồng London bị tấn công mạng, kích hoạt tình trạng khẩn cấp

Các hội đồng Kensington và Chelsea, Hammersmith và Fulham, cùng Westminster City cho biết họ đã phải ứng phó với một “sự cố an ninh mạng” từ sáng thứ Hai (24/11).

Xem thêm
Tấn công mạng vào CodeRED, hệ thống cảnh báo khẩn cấp nước Mỹ tê liệt, lộ dữ liệu người dùng
08:18, 26/11/2025

Tấn công mạng vào CodeRED, hệ thống cảnh báo khẩn cấp nước Mỹ tê liệt, lộ dữ liệu người dùng

Một vụ tấn công mạng nghiêm trọng vừa khiến hệ thống CodeRED, nền tảng cảnh báo khẩn cấp được sử dụng rộng rãi tại Mỹ, tê liệt trên nhiều thành phố và làm lộ thông tin cá nhân của hàng nghìn người dùng đã đăng ký nhận thông báo.

Xem thêm
Kaspersky: ngành sản xuất toàn cầu thiệt hại 18 tỷ USD từ các cuộc tấn công ransomware
08:12, 26/11/2025

Kaspersky: ngành sản xuất toàn cầu thiệt hại 18 tỷ USD từ các cuộc tấn công ransomware

Kaspersky, công ty an ninh mạng của Nga, vừa công bố một báo cáo nghiên cứu mới, làm sáng tỏ những rủi ro tài chính khổng lồ từ các cuộc tấn công tống tiền “ransomware” gây ra trong ngành sản xuất trong năm 2025.

Xem thêm
Harvard xác nhận bị tấn công lừa đảo, nguy cơ rò rỉ dữ liệu cựu sinh viên và nhà tài trợ
07:22, 26/11/2025

Harvard xác nhận bị tấn công lừa đảo, nguy cơ rò rỉ dữ liệu cựu sinh viên và nhà tài trợ

Đại học Harvard xác nhận hệ thống của bộ phận Quan hệ Cựu sinh viên và Phát triển (Alumni Affairs and Development - AAD) đã bị xâm nhập sau một cuộc tấn công lừa đảo qua điện thoại (voice phishing). Vụ việc có thể khiến dữ liệu cá nhân của cựu sinh viên, nhà tài trợ, sinh viên, nhân viên và giảng viên bị lộ.

Xem thêm
Mỹ kêu gọi điều tra Meta sau cáo buộc thu 16 tỷ USD từ quảng cáo lừa đảo
18:46, 25/11/2025

Mỹ kêu gọi điều tra Meta sau cáo buộc thu 16 tỷ USD từ quảng cáo lừa đảo

Một nhóm thượng nghị sĩ Mỹ đã chính thức kêu gọi Ủy ban Thương mại Liên bang (FTC) và Ủy ban Chứng khoán và Giao dịch (SEC) mở cuộc điều tra đối với Meta Platforms, sau khi xuất hiện cáo buộc cho rằng tập đoàn này thu khoảng 16 tỷ USD trong năm 2024 từ các quảng cáo mang tính chất lừa đảo hoặc vi phạm pháp luật.

Xem thêm
Singapore yêu cầu Apple và Google ngăn chặn giả mạo cơ quan nhà nước trên nền tảng nhắn tin
18:43, 25/11/2025

Singapore yêu cầu Apple và Google ngăn chặn giả mạo cơ quan nhà nước trên nền tảng nhắn tin

Ngày 25/11/2025, Bộ Nội vụ Singapore cho biết lực lượng cảnh sát nước này đã yêu cầu Apple và Google ngăn chặn việc giả mạo cơ quan nhà nước trên các nền tảng tin nhắn của họ theo quy định tại Online Criminal Harms Act.

Xem thêm
Cần chấn chỉnh hành vi quảng cáo “lệch chuẩn” trên không gian mạng
10:25, 25/11/2025

Cần chấn chỉnh hành vi quảng cáo “lệch chuẩn” trên không gian mạng

Quảng cáo “lệch chuẩn” với nội dung thô tục, nhố nhăng, phản cảm, cổ xúy và truyền bá những tư tưởng lệch lạc, tiêu cực... trên không gian mạng hiện đang trở thành vấn nạn nhức nhối gây bức xúc dư luận và ảnh hưởng trực tiếp đến nhận thức xã hội.

Xem thêm