Công ty startup AI DeepSeek (trụ sở tại Hàng Châu, Trung Quốc) vừa công bố mô hình AI đa phương thức mới mang tên DeepSeek-OCR, có khả năng xử lý các tài liệu lớn và phức tạp bằng cách sử dụng nhận thức thị giác như một phương tiện nén thông tin, giúp giảm đáng kể số lượng “token” - đơn vị nhỏ nhất mà mô hình ngôn ngữ xử lý.
![]() |
| DeepSeek ra mắt mô hình AI đa phương thức sử dụng thị giác để nén dữ liệu văn bản. |
DeepSeek-OCR là mô hình mã nguồn mở, hiện đã được công bố trên các nền tảng dành cho nhà phát triển như Hugging Face và GitHub. Theo DeepSeek, đây là kết quả của một nghiên cứu chuyên sâu về vai trò của bộ mã hóa thị giác (vision encoder) trong việc nén văn bản cho các mô hình ngôn ngữ lớn (LLMs).
Với phương pháp này, các LLM có thể xử lý khối lượng văn bản khổng lồ mà không làm tăng chi phí tính toán tương ứng.
“Thông qua DeepSeek-OCR, chúng tôi chứng minh rằng việc nén giữa hình ảnh và văn bản có thể giúp giảm số lượng token từ 7 đến 20 lần ở các giai đoạn ngữ cảnh khác nhau, mở ra hướng đi đầy tiềm năng để giải quyết bài toán ngữ cảnh dài của LLMs.” DeepSeek cho biết trong thông cáo.
Động thái này tiếp nối nỗ lực không ngừng của DeepSeek nhằm tối ưu hiệu suất mô hình và giảm chi phí phát triển, triết lý đã giúp họ tạo ra hai mô hình mã nguồn mở gây chú ý V3 và R1, ra mắt lần lượt vào tháng 12/2024 và tháng 1/2025.
Theo blog của công ty, DeepSeek-OCR gồm hai thành phần chính:
DeepEncoder - bộ mã hóa giữ vai trò là “động cơ” của mô hình, giúp duy trì mức kích hoạt thấp ngay cả khi xử lý hình ảnh độ phân giải cao, đồng thời đạt tỷ lệ nén mạnh để giảm số lượng token.
DeepSeek3B-MoE-A570M - bộ giải mã (decoder) với kiến trúc Mixture-of-Experts (MoE) gồm 570 triệu tham số. Cấu trúc MoE chia mô hình thành các mạng con (“chuyên gia”), mỗi mạng đảm nhận một phần dữ liệu riêng biệt để cùng nhau thực hiện nhiệm vụ.
Bên cạnh các tác vụ thị giác tiêu chuẩn như mô tả hình ảnh hay nhận diện vật thể, DeepSeek-OCR còn có thể phân tích nội dung thị giác phức tạp như bảng biểu, công thức và sơ đồ hình học, đặc biệt hữu ích trong các lĩnh vực tài chính và khoa học.
DeepSeek cho biết, mô hình này có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày chỉ với một GPU Nvidia A100-40G - minh chứng cho hiệu suất cao và chi phí thấp.
Với DeepSeek-OCR, người dùng có thể xử lý các ngữ cảnh siêu dài theo quy mô lớn, trong đó phần nội dung mới nhất được lưu ở độ phân giải cao, còn phần ngữ cảnh cũ hơn tiêu tốn ít tài nguyên tính toán hơn. Cách tiếp cận này mở ra khả năng xây dựng kiến trúc ngữ cảnh gần như không giới hạn, cân bằng giữa hiệu quả và khả năng lưu giữ thông tin.
Trước đó, vào cuối tháng 9, DeepSeek đã ra mắt phiên bản thử nghiệm DeepSeek V3.2-Exp, cải thiện hiệu quả huấn luyện và suy luận, đồng thời giảm mạnh chi phí sử dụng API.
Lệ Thanh (theo South China Morning Post)









Bình luận