像人一樣閱讀文檔!DeepSeek發布新一代OCR模型,識別性能提升近4%

【像人一樣閱讀文檔!DeepSeek發布新一代OCR模型,識別性能提升近4%】像人一樣閱讀文檔!DeepSeek發布新一代OCR模型,識別性能提升近4%

文章圖片

像人一樣閱讀文檔!DeepSeek發布新一代OCR模型,識別性能提升近4%

太平洋科技快訊】1 月 27 日消息 , DeepSeek 今日發布新一代文檔識別模型 DeepSeek-OCR 2 , 在前代基礎上通過視覺編碼器設計的創新實現識別性能提升 。
研究團隊提出名為 DeepEncoder V2 的全新編碼器架構 , 能夠根據圖像語義動態調整視覺信息處理順序 , 使模型在進行文字識別前先對視覺內容進行智能排序 。 這一“視覺因果流”技術改變了傳統模型按照固定柵格順序處理圖像的方式 , 更貼近人類基于語義邏輯的跳躍式閱讀習慣 。
具體實現上 , 研究團隊采用類語言模型結構替代了基于 CLIP 的視覺編碼模塊 , 在編碼器內部引入可學習的“因果流查詢 token” 。 該設計同時包含雙向注意力與因果注意力兩種處理模式:原始視覺信息通過雙向注意力進行全局感知 , 而查詢標記則通過因果注意力逐步建立語義順序 , 實現對視覺 token 的動態重排 。 最終只有經過語義重排的查詢 token 會被送入基于混合專家架構的語言模型解碼 , 在保持與前代相近資源開銷的前提下完成識別任務 。
性能測試顯示 , 在 OmniDocBench v1.5 基準評估中 , DeepSeek-OCR 2 整體得分達到 91.09% , 較前代提升 3.73% 。 其閱讀順序準確度有所改善 , 編輯距離從 0.085 降至 0.057 。 實際應用數據顯示 , 在線用戶日志圖像的重復率從 6.25% 降至 4.17% , 批處理PDF數據的重復率從 3.69% 降至 2.88% , 在復雜文檔場景中展現出更強的結構理解能力和運行穩定性 。

    推薦閱讀