重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

文章圖片

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

文章圖片

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

文章圖片

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

文章圖片

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

文章圖片

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

文章圖片

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

文章圖片

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

文章圖片

重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個

一圖勝千言!DeepSeek-OCR模型大膽探索視覺-文本壓縮邊界 。 通過少量視覺token解碼出10倍以上的文本信息 , 這款端到端VLM架構不僅在OmniDocBench基準上碾壓GOT-OCR2.0 , 還為LLM的長上下文問題提供高效解決方案 。
DeepSeek再發新模型!
Github上 , DeepSeek新建了DeepSeek-OCR倉庫 , 目的是探索視覺-文本壓縮的邊界 。
常言道:一圖勝萬言 。 對LLM也是如此!
在理論上 , DeepSeek-OCR模型初步驗證了「上下文光學壓縮」的可行性——
從少量視覺token中 , 模型能夠有效解碼出超過其數量10倍的文本token 。
也就是說 , 包含文檔文本的單張圖像 , 能以遠少于等效文本的token量來表征豐富信息 。
這表明通過視覺token進行光學壓縮可以實現更高的壓縮比 。
作為連接視覺與語言的中間模態 , OCR任務是視覺-文本壓縮范式理想的試驗場——
【重磅,DeepSeek再開源:視覺即壓縮,100個token干翻7000個】它在視覺與文本表征之間建立了天然的壓縮-解壓縮映射關系 , 同時提供可量化的評估指標 。
在OCR任務上 , DeepSeek-OCR有較高實用價值:在OmniDocBench基準測試中 , 僅用100個視覺token即超越GOT-OCR2.0(每頁256token);以少于800個視覺token的表現 , 優于MinerU2.0(平均每頁6000+token) 。
圖(a)展示了在Fox基準測試中的壓縮比(真實文本token數/模型使用的視覺token數);圖(b)展示了在OmniDocBench上的性能對比
在實際應用中 , 單張A100-40G顯卡 , 可支持每日20萬頁以上的大語言模型/視覺語言模型訓練數據生成 。
新模型還能解析圖表、化學方程式、簡單幾何圖形和自然圖像:
在不同歷史上下文階段中 , DeepSeek-OCR的視覺-文本壓縮可減少7–20 倍的token , 為解決大語言模型的長上下文問題提供了可行方向 。
這一范式為重新思考視覺與語言模態的協同融合 , 進而提升大規模文本處理與智能體系統的計算效率 , 開辟了新的可能 。
這一發現將有力推動視覺語言模型與大語言模型的未來發展 。
Github:https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR

開源神器DeepSeek-OCR , 探索上下文光學壓縮當前開源VLM(視覺語言模型)采用了三種主要的視覺編碼器架構 , 但各有各的缺陷 。
隨著VLM的進步 , 許多端到端的OCR模型應運而生 , 根本性地改變了傳統的管道架構 , 簡化了OCR系統 。
但有個核心問題:
對于一個包含1000個字的文檔 , 至少需要多少個視覺token來解碼?
這個問題對于研究「一畫勝千言」的原則具有重要意義 。
DeepSeek-OCR意在回答這一問題 。 它采用統一的端到端VLM架構 , 由編碼器和解碼器組成 。
編碼器(即DeepEncoder)負責提取圖像特征 , 并對視覺表示進行token化與壓縮處理 。 解碼器則根據圖像token和提示信息生成所需結果 。

編碼器:DeepEncoder創新架構為了驗證「上下文光學壓縮」(context optical compression)的可行性 , 視覺編碼器需要滿足以下特性:
能處理高分辨率圖像; 在高分辨率下保持較低的激活開銷; 生成較少的視覺token; 支持多分辨率輸入; 參數規模適中 。研究者提出了全新的視覺編碼器DeepEncoder 。 DeepEncoder參數量約為3.8億 , 主要由串聯連接的SAM-base和CLIP-large構成 。
視覺感知特征提取器 , 主要使用窗口注意力(window attention) ,主架構為8000萬參數的SAM-base(patch-size 16);
視覺知識特征提取器 , 采用密集全局注意力(dense global attention) , 主架構為3億參數CLIP-large 。
在這兩個組件之間是一個2層卷積模塊 , 對視覺token進行16×下采樣 。
DeepEncoder會壓縮圖像打下 , 比如將輸入大小為1024×1024的圖像劃分為1024/16×1024/16=4096個patch token 。
編碼器的前半部分由窗口注意力主導且只有80M參數 , 因此激活內存消耗是可接受的 。
在進入全局注意力模塊之前 , 4096個token通過壓縮模塊 , 最終token數量會減為4096/16=256 , 從而使得整體的激活內存消耗可控 。
假設有一張包含1000個光學字符的圖像 , 要想測試解碼需要多少個視覺token , 就要求模型能夠支持可變數量的視覺token 。
也就是說 , DeepEncoder需要支持多種分辨率 。
動態插值位置編碼可滿足上述需求 。
研究者設計了多個分辨率模式 , 以便在模型訓練過程中同時支持多種分辨率 , 從而實現單個DeepSeek-OCR模型支持多個分辨率的能力 。
如下圖4所示 , DeepEncoder主要支持兩種輸入模式:原生分辨率和動態分辨率 。 每種模式下又包含多個子模式 。
原生分辨率支持四種子模式:Tiny、Small、Base和Large 。
動態分辨率由兩種原生分辨率組合而成 。
支持動態分辨率主要是為了應對超高分辨率輸入(例如報紙圖像)的應用需求 。 瓦片化(tiling)是一種二級窗口注意力方法 , 可以進一步有效減少激活內存消耗 。
在Gundam模式下 , DeepEncoder輸出的視覺token數量為n×100+256 , 其中n為瓦片的數量
Gundam模式與四種原生分辨率模式一起訓練 , 以實現一個模型支持多種分辨率的目標 。
值得注意的是 , Gundam-master模式(1024×1024的局部視圖+1280×1280 的全局視圖)是通過在已訓練的DeepSeek-OCR模型上繼續訓練得到的 。
下表1總結了各模式下的分辨率和token數 。

解碼器:DeepSeek-3B-MoE解碼器使用DeepSeekMoE , 具體為DeepSeek-3B-MoE 。
在推理過程中 , 該模型激活了6個路由專家和2個共享專家 , 總計激活了約5.7億參數 。
3B的DeepSeekMoE非常適合于以領域為中心的視覺語言模型(VLM)研究——
它能夠獲得3B模型的表達能力 , 同時享有類似500M小型模型的推理效率 。

具體結果在Fox基準集 , 研究者驗證DeepSeek-OCR在文本密集型文檔上的壓縮與解壓能力 , 初步探索「上下文光學壓縮」的可行性與邊界 。
如下表2所示 , 在10×壓縮比內 , 模型的解碼精度可達約97% , 這一結果極具潛力 。
而且輸出格式仍與Fox基準的格式并不完全一致 , 因此實際性能可能略高于測試結果 。
未來 , 或可通過文本到圖像(text-to-image)方法實現接近10×無損上下文壓縮 。
當壓縮比超過10×時 , 性能開始下降 , 原因可能有二:
長文檔布局更復雜; 長文本在512×512或640×640分辨率下出現模糊 。第一個問題可以通過將文本渲染到單頁布局來緩解 , 而第二個問題則可能成為一種「遺忘機制」(forgetting mechanism)的自然表現 。
當壓縮比接近20× 時 , 模型精度仍可維持在60%左右 。
這些結果表明 , 光學上下文壓縮(optical contexts compression)是一種極具前景且值得深入研究的方向 。
更重要的是 , 這種方法不會帶來額外的計算開銷 , 因為它能夠直接利用VLM基礎設施——
多模態系統本身就內置視覺編碼器 , 從而具備天然的支持條件 。
DeepSeek-OCR還很實用 , 能夠為LLM/VLM預訓練構建數據 。
在實際部署中 , DeepSeek-OCR使用20個計算節點(每節點配備8張A100-40G GPU)每日可為LLM/VLM生成3300萬頁訓練數據 。
為了量化OCR性能 , 研究者在OmniDocBench上測試了DeepSeek-OCR , 結果如表3所示 。
在僅需100個視覺token(640×640分辨率)的情況下 , DeepSeek-OCR超越了使用256個token的GOT-OCR2.0; 在400個token(其中285個有效 token , 1280×1280分辨率)的情況下 , 模型在該基準測試中達到了與現有最先進模型相當的性能; 使用不到800個token(Gundam 模式) , DeepSeek-OCR超過了需要近7000個視覺token的MinerU2.0 。這些結果表明 , DeepSeek-OCR 在實際應用中非常強大 , 且由于更高的 token 壓縮 , 模型具有更高的研究上限 。
如下表4所示 , 某些類型的文檔 , 只需要非常少的token即可獲得令人滿意的性能 。
對于書籍和報告類型文檔 , DeepSeek-OCR僅需100個視覺token即可達到良好的性能 。 這可能是因為這類文檔中的大多數文本token數量在1000以內 , 意味著視覺token壓縮比不超過10× 。
除了解析圖表、化學方程式、簡單幾何圖形和自然圖像外 , 對于PDF文檔 , DeepSeek-OCR可以處理近100種語言 。
如下圖11所示 , DeepSeek-OCR不僅在常見語言處理上表現出色 , 而且在多語言處理能力上也具有廣泛的適用性 , 進一步增強了其在全球范圍內的應用潛力 。
DeepSeek-OCR具有某種程度的通用圖像理解能力 。
相關的可視化結果如圖12所示 , 展示了該模型在圖像描述、物體檢測和語境定位(grounding)等任務中的表現 。
詳細結果和內容 , 見下列參考資料 。

參考資料https://github.com/deepseek-ai/DeepSeek-OCR
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
本文來自微信公眾號“新智元” , 作者:KingHZ, 36氪經授權發布 。

    推薦閱讀