DeepSeek định nghĩa lại hiệu suất AI với mô hình thị giác - nhận thức mới DeepSeek-OCR

Bằng cách sử dụng nhận thức thị giác như công cụ nén thông tin, mô hình DeepSeek-OCR giúp các hệ thống trí tuệ nhân tạo xử lý văn bản dài và phức tạp nhanh hơn, rẻ hơn, mà vẫn giữ nguyên độ chính xác. Đây là bước tiến tiếp theo trong hành trình DeepSeek tối ưu chi phí và nâng cao hiệu năng mô hình AI mã nguồn mở.

21:32, 23/10/2025

Công ty startup AI DeepSeek (trụ sở tại Hàng Châu, Trung Quốc) vừa công bố mô hình AI đa phương thức mới mang tên DeepSeek-OCR, có khả năng xử lý các tài liệu lớn và phức tạp bằng cách sử dụng nhận thức thị giác như một phương tiện nén thông tin, giúp giảm đáng kể số lượng “token” - đơn vị nhỏ nhất mà mô hình ngôn ngữ xử lý.

DeepSeek ra mắt mô hình AI đa phương thức sử dụng thị giác để nén dữ liệu văn bản.

DeepSeek-OCR là mô hình mã nguồn mở, hiện đã được công bố trên các nền tảng dành cho nhà phát triển như Hugging Face và GitHub. Theo DeepSeek, đây là kết quả của một nghiên cứu chuyên sâu về vai trò của bộ mã hóa thị giác (vision encoder) trong việc nén văn bản cho các mô hình ngôn ngữ lớn (LLMs).

Với phương pháp này, các LLM có thể xử lý khối lượng văn bản khổng lồ mà không làm tăng chi phí tính toán tương ứng.

“Thông qua DeepSeek-OCR, chúng tôi chứng minh rằng việc nén giữa hình ảnh và văn bản có thể giúp giảm số lượng token từ 7 đến 20 lần ở các giai đoạn ngữ cảnh khác nhau, mở ra hướng đi đầy tiềm năng để giải quyết bài toán ngữ cảnh dài của LLMs.” DeepSeek cho biết trong thông cáo.

Động thái này tiếp nối nỗ lực không ngừng của DeepSeek nhằm tối ưu hiệu suất mô hình và giảm chi phí phát triển, triết lý đã giúp họ tạo ra hai mô hình mã nguồn mở gây chú ý V3 và R1, ra mắt lần lượt vào tháng 12/2024 và tháng 1/2025.

Theo blog của công ty, DeepSeek-OCR gồm hai thành phần chính:

DeepEncoder - bộ mã hóa giữ vai trò là “động cơ” của mô hình, giúp duy trì mức kích hoạt thấp ngay cả khi xử lý hình ảnh độ phân giải cao, đồng thời đạt tỷ lệ nén mạnh để giảm số lượng token.

DeepSeek3B-MoE-A570M - bộ giải mã (decoder) với kiến trúc Mixture-of-Experts (MoE) gồm 570 triệu tham số. Cấu trúc MoE chia mô hình thành các mạng con (“chuyên gia”), mỗi mạng đảm nhận một phần dữ liệu riêng biệt để cùng nhau thực hiện nhiệm vụ.

Bên cạnh các tác vụ thị giác tiêu chuẩn như mô tả hình ảnh hay nhận diện vật thể, DeepSeek-OCR còn có thể phân tích nội dung thị giác phức tạp như bảng biểu, công thức và sơ đồ hình học, đặc biệt hữu ích trong các lĩnh vực tài chính và khoa học.

DeepSeek cho biết, mô hình này có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày chỉ với một GPU Nvidia A100-40G - minh chứng cho hiệu suất cao và chi phí thấp.

Với DeepSeek-OCR, người dùng có thể xử lý các ngữ cảnh siêu dài theo quy mô lớn, trong đó phần nội dung mới nhất được lưu ở độ phân giải cao, còn phần ngữ cảnh cũ hơn tiêu tốn ít tài nguyên tính toán hơn. Cách tiếp cận này mở ra khả năng xây dựng kiến trúc ngữ cảnh gần như không giới hạn, cân bằng giữa hiệu quả và khả năng lưu giữ thông tin.

Trước đó, vào cuối tháng 9, DeepSeek đã ra mắt phiên bản thử nghiệm DeepSeek V3.2-Exp, cải thiện hiệu quả huấn luyện và suy luận, đồng thời giảm mạnh chi phí sử dụng API.

Lệ Thanh (theo South China Morning Post)

Tin bài khác

10:33, 26/11/2025

Loạt hội đồng London bị tấn công mạng, kích hoạt tình trạng khẩn cấp

Các hội đồng Kensington và Chelsea, Hammersmith và Fulham, cùng Westminster City cho biết họ đã phải ứng phó với một “sự cố an ninh mạng” từ sáng thứ Hai (24/11).

Xem thêm

08:18, 26/11/2025

Tấn công mạng vào CodeRED, hệ thống cảnh báo khẩn cấp nước Mỹ tê liệt, lộ dữ liệu người dùng

Một vụ tấn công mạng nghiêm trọng vừa khiến hệ thống CodeRED, nền tảng cảnh báo khẩn cấp được sử dụng rộng rãi tại Mỹ, tê liệt trên nhiều thành phố và làm lộ thông tin cá nhân của hàng nghìn người dùng đã đăng ký nhận thông báo.

Xem thêm

08:12, 26/11/2025

Kaspersky: ngành sản xuất toàn cầu thiệt hại 18 tỷ USD từ các cuộc tấn công ransomware

Kaspersky, công ty an ninh mạng của Nga, vừa công bố một báo cáo nghiên cứu mới, làm sáng tỏ những rủi ro tài chính khổng lồ từ các cuộc tấn công tống tiền “ransomware” gây ra trong ngành sản xuất trong năm 2025.

Xem thêm

07:22, 26/11/2025

Harvard xác nhận bị tấn công lừa đảo, nguy cơ rò rỉ dữ liệu cựu sinh viên và nhà tài trợ

Đại học Harvard xác nhận hệ thống của bộ phận Quan hệ Cựu sinh viên và Phát triển (Alumni Affairs and Development - AAD) đã bị xâm nhập sau một cuộc tấn công lừa đảo qua điện thoại (voice phishing). Vụ việc có thể khiến dữ liệu cá nhân của cựu sinh viên, nhà tài trợ, sinh viên, nhân viên và giảng viên bị lộ.

Xem thêm

18:46, 25/11/2025

Mỹ kêu gọi điều tra Meta sau cáo buộc thu 16 tỷ USD từ quảng cáo lừa đảo

Một nhóm thượng nghị sĩ Mỹ đã chính thức kêu gọi Ủy ban Thương mại Liên bang (FTC) và Ủy ban Chứng khoán và Giao dịch (SEC) mở cuộc điều tra đối với Meta Platforms, sau khi xuất hiện cáo buộc cho rằng tập đoàn này thu khoảng 16 tỷ USD trong năm 2024 từ các quảng cáo mang tính chất lừa đảo hoặc vi phạm pháp luật.

Xem thêm

18:43, 25/11/2025

Singapore yêu cầu Apple và Google ngăn chặn giả mạo cơ quan nhà nước trên nền tảng nhắn tin

Ngày 25/11/2025, Bộ Nội vụ Singapore cho biết lực lượng cảnh sát nước này đã yêu cầu Apple và Google ngăn chặn việc giả mạo cơ quan nhà nước trên các nền tảng tin nhắn của họ theo quy định tại Online Criminal Harms Act.

Xem thêm

10:25, 25/11/2025

Cần chấn chỉnh hành vi quảng cáo “lệch chuẩn” trên không gian mạng

Quảng cáo “lệch chuẩn” với nội dung thô tục, nhố nhăng, phản cảm, cổ xúy và truyền bá những tư tưởng lệch lạc, tiêu cực... trên không gian mạng hiện đang trở thành vấn nạn nhức nhối gây bức xúc dư luận và ảnh hưởng trực tiếp đến nhận thức xã hội.

Xem thêm

Phòng và chống tấn công

DeepSeek định nghĩa lại hiệu suất AI với mô hình thị giác - nhận thức mới DeepSeek-OCR

Bình luận

Tin bài khác

Loạt hội đồng London bị tấn công mạng, kích hoạt tình trạng khẩn cấp

Tấn công mạng vào CodeRED, hệ thống cảnh báo khẩn cấp nước Mỹ tê liệt, lộ dữ liệu người dùng

Kaspersky: ngành sản xuất toàn cầu thiệt hại 18 tỷ USD từ các cuộc tấn công ransomware

Harvard xác nhận bị tấn công lừa đảo, nguy cơ rò rỉ dữ liệu cựu sinh viên và nhà tài trợ

Mỹ kêu gọi điều tra Meta sau cáo buộc thu 16 tỷ USD từ quảng cáo lừa đảo

Singapore yêu cầu Apple và Google ngăn chặn giả mạo cơ quan nhà nước trên nền tảng nhắn tin

Cần chấn chỉnh hành vi quảng cáo “lệch chuẩn” trên không gian mạng

Xu hướng

Đề xuất

Ra mắt Trung tâm Nghiên cứu & Phát triển Trí tuệ Nhân tạo tại Việt Nam

Tội phạm lừa đảo trên không gian mạng luôn có các chiêu trò mới

Tội phạm sử dụng công nghệ cao ngày càng diễn biến phức tạp

Triệt phá đường dây lừa đảo công nghệ cao hoạt động từ Campuchia

Tây Ban Nha gặp khó khi điều tra nguyên nhân của vụ mất điện tồi tệ nhất

Sự kiện & Quan điểm

Mỗi lá phiếu là sự thể hiện quyền làm chủ của nhân dân

Không gian mạng rực rỡ tinh thần Ngày hội non sông

Bầu cử trong kỷ nguyên số: Khi dữ liệu dân cư và định danh điện tử tham gia quản trị quốc gia

7 Thượng nghị sĩ Mỹ đòi điều tra về an ninh dữ liệu liên quan đến DeepSeek
Cộng hòa Séc cấm DeepSeek trong cơ quan nhà nước vì lo ngại an ninh mạng
DeepSeek của Trung Quốc bị cấm trên các thiết bị của chính phủ Mỹ

Phòng và chống tấn công

DeepSeek định nghĩa lại hiệu suất AI với mô hình thị giác - nhận thức mới DeepSeek-OCR

Các nước Bắc Âu và Estonia triển khai hệ thống thanh toán thẻ ngoại tuyến đề phòng mất kết nối Internet

Công ty an ninh mạng CrowdStrike sa thải hàng trăm nhân viên

Bình luận

Tin bài khác

Loạt hội đồng London bị tấn công mạng, kích hoạt tình trạng khẩn cấp

Tấn công mạng vào CodeRED, hệ thống cảnh báo khẩn cấp nước Mỹ tê liệt, lộ dữ liệu người dùng

Kaspersky: ngành sản xuất toàn cầu thiệt hại 18 tỷ USD từ các cuộc tấn công ransomware

Harvard xác nhận bị tấn công lừa đảo, nguy cơ rò rỉ dữ liệu cựu sinh viên và nhà tài trợ

Mỹ kêu gọi điều tra Meta sau cáo buộc thu 16 tỷ USD từ quảng cáo lừa đảo

Singapore yêu cầu Apple và Google ngăn chặn giả mạo cơ quan nhà nước trên nền tảng nhắn tin

Cần chấn chỉnh hành vi quảng cáo “lệch chuẩn” trên không gian mạng

Xu hướng

Đề xuất

Ra mắt Trung tâm Nghiên cứu & Phát triển Trí tuệ Nhân tạo tại Việt Nam

Tội phạm lừa đảo trên không gian mạng luôn có các chiêu trò mới

Tội phạm sử dụng công nghệ cao ngày càng diễn biến phức tạp

Triệt phá đường dây lừa đảo công nghệ cao hoạt động từ Campuchia

Tây Ban Nha gặp khó khi điều tra nguyên nhân của vụ mất điện tồi tệ nhất

Sự kiện & Quan điểm

Mỗi lá phiếu là sự thể hiện quyền làm chủ của nhân dân

Không gian mạng rực rỡ tinh thần Ngày hội non sông

Bầu cử trong kỷ nguyên số: Khi dữ liệu dân cư và định danh điện tử tham gia quản trị quốc gia