像人一樣閱讀文檔！DeepSeek發布新一代OCR模型，識別性能提升近4%

2026-03-30 上海社會新聞楊浦

【像人一樣閱讀文檔！DeepSeek發布新一代OCR模型，識別性能提升近4%】

文章圖片

太平洋科技快訊】1 月 27 日消息， DeepSeek 今日發布新一代文檔識別模型 DeepSeek-OCR 2 ，在前代基礎上通過視覺編碼器設計的創新實現識別性能提升。
研究團隊提出名為 DeepEncoder V2 的全新編碼器架構，能夠根據圖像語義動態調整視覺信息處理順序，使模型在進行文字識別前先對視覺內容進行智能排序。這一“視覺因果流”技術改變了傳統模型按照固定柵格順序處理圖像的方式，更貼近人類基于語義邏輯的跳躍式閱讀習慣。
具體實現上，研究團隊采用類語言模型結構替代了基于 CLIP 的視覺編碼模塊，在編碼器內部引入可學習的“因果流查詢 token” 。該設計同時包含雙向注意力與因果注意力兩種處理模式：原始視覺信息通過雙向注意力進行全局感知，而查詢標記則通過因果注意力逐步建立語義順序，實現對視覺 token 的動態重排。最終只有經過語義重排的查詢 token 會被送入基于混合專家架構的語言模型解碼，在保持與前代相近資源開銷的前提下完成識別任務。
性能測試顯示，在 OmniDocBench v1.5 基準評估中， DeepSeek-OCR 2 整體得分達到 91.09% ，較前代提升 3.73% 。其閱讀順序準確度有所改善，編輯距離從 0.085 降至 0.057 。實際應用數據顯示，在線用戶日志圖像的重復率從 6.25% 降至 4.17% ，批處理PDF數據的重復率從 3.69% 降至 2.88% ，在復雜文檔場景中展現出更強的結構理解能力和運行穩定性。

推薦閱讀

上一篇：換代風暴來襲：海信電視E8S定義RGB-Mini LED新紀元

下一篇：未來幾年輕薄本的最佳答案？英特爾Arc B390核顯3A游戲表現亮眼