重磅，DeepSeek再開源：視覺即壓縮，100個token干翻7000個

2026-03-29 宇樹科技

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

一圖勝千言！DeepSeek-OCR模型大膽探索視覺-文本壓縮邊界。通過少量視覺token解碼出10倍以上的文本信息，這款端到端VLM架構不僅在OmniDocBench基準上碾壓GOT-OCR2.0 ，還為LLM的長上下文問題提供高效解決方案。
DeepSeek再發新模型！
Github上， DeepSeek新建了DeepSeek-OCR倉庫，目的是探索視覺-文本壓縮的邊界。
常言道：一圖勝萬言。對LLM也是如此！
在理論上， DeepSeek-OCR模型初步驗證了「上下文光學壓縮」的可行性——
從少量視覺token中，模型能夠有效解碼出超過其數量10倍的文本token 。
也就是說，包含文檔文本的單張圖像，能以遠少于等效文本的token量來表征豐富信息。
這表明通過視覺token進行光學壓縮可以實現更高的壓縮比。
作為連接視覺與語言的中間模態， OCR任務是視覺-文本壓縮范式理想的試驗場——
【重磅，DeepSeek再開源：視覺即壓縮，100個token干翻7000個】它在視覺與文本表征之間建立了天然的壓縮-解壓縮映射關系，同時提供可量化的評估指標。
在OCR任務上， DeepSeek-OCR有較高實用價值：在OmniDocBench基準測試中，僅用100個視覺token即超越GOT-OCR2.0（每頁256token）；以少于800個視覺token的表現，優于MinerU2.0（平均每頁6000+token）。
圖(a)展示了在Fox基準測試中的壓縮比（真實文本token數/模型使用的視覺token數）；圖(b)展示了在OmniDocBench上的性能對比
在實際應用中，單張A100-40G顯卡，可支持每日20萬頁以上的大語言模型/視覺語言模型訓練數據生成。
新模型還能解析圖表、化學方程式、簡單幾何圖形和自然圖像：
在不同歷史上下文階段中， DeepSeek-OCR的視覺-文本壓縮可減少7–20 倍的token ，為解決大語言模型的長上下文問題提供了可行方向。
這一范式為重新思考視覺與語言模態的協同融合，進而提升大規模文本處理與智能體系統的計算效率，開辟了新的可能。
這一發現將有力推動視覺語言模型與大語言模型的未來發展。
Github：https://github.com/deepseek-ai/DeepSeek-OCR
HuggingFace：https://huggingface.co/deepseek-ai/DeepSeek-OCR

開源神器DeepSeek-OCR ，探索上下文光學壓縮當前開源VLM（視覺語言模型）采用了三種主要的視覺編碼器架構，但各有各的缺陷。
隨著VLM的進步，許多端到端的OCR模型應運而生，根本性地改變了傳統的管道架構，簡化了OCR系統。
但有個核心問題：
對于一個包含1000個字的文檔，至少需要多少個視覺token來解碼？
這個問題對于研究「一畫勝千言」的原則具有重要意義。
DeepSeek-OCR意在回答這一問題。它采用統一的端到端VLM架構，由編碼器和解碼器組成。
編碼器（即DeepEncoder）負責提取圖像特征，并對視覺表示進行token化與壓縮處理。解碼器則根據圖像token和提示信息生成所需結果。

編碼器：DeepEncoder創新架構為了驗證「上下文光學壓縮」（context optical compression）的可行性，視覺編碼器需要滿足以下特性：
能處理高分辨率圖像；在高分辨率下保持較低的激活開銷；生成較少的視覺token；支持多分辨率輸入；參數規模適中。研究者提出了全新的視覺編碼器DeepEncoder 。 DeepEncoder參數量約為3.8億，主要由串聯連接的SAM-base和CLIP-large構成。
視覺感知特征提取器，主要使用窗口注意力（window attention），主架構為8000萬參數的SAM-base（patch-size 16）；
視覺知識特征提取器，采用密集全局注意力（dense global attention），主架構為3億參數CLIP-large 。
在這兩個組件之間是一個2層卷積模塊，對視覺token進行16×下采樣。
DeepEncoder會壓縮圖像打下，比如將輸入大小為1024×1024的圖像劃分為1024/16×1024/16=4096個patch token 。
編碼器的前半部分由窗口注意力主導且只有80M參數，因此激活內存消耗是可接受的。
在進入全局注意力模塊之前， 4096個token通過壓縮模塊，最終token數量會減為4096/16=256 ，從而使得整體的激活內存消耗可控。
假設有一張包含1000個光學字符的圖像，要想測試解碼需要多少個視覺token ，就要求模型能夠支持可變數量的視覺token 。
也就是說， DeepEncoder需要支持多種分辨率。
動態插值位置編碼可滿足上述需求。
研究者設計了多個分辨率模式，以便在模型訓練過程中同時支持多種分辨率，從而實現單個DeepSeek-OCR模型支持多個分辨率的能力。
如下圖4所示， DeepEncoder主要支持兩種輸入模式：原生分辨率和動態分辨率。每種模式下又包含多個子模式。
原生分辨率支持四種子模式：Tiny、Small、Base和Large 。
動態分辨率由兩種原生分辨率組合而成。
支持動態分辨率主要是為了應對超高分辨率輸入（例如報紙圖像）的應用需求。瓦片化（tiling）是一種二級窗口注意力方法，可以進一步有效減少激活內存消耗。
在Gundam模式下， DeepEncoder輸出的視覺token數量為n×100+256 ，其中n為瓦片的數量
Gundam模式與四種原生分辨率模式一起訓練，以實現一個模型支持多種分辨率的目標。
值得注意的是， Gundam-master模式（1024×1024的局部視圖+1280×1280 的全局視圖）是通過在已訓練的DeepSeek-OCR模型上繼續訓練得到的。
下表1總結了各模式下的分辨率和token數。

解碼器：DeepSeek-3B-MoE解碼器使用DeepSeekMoE ，具體為DeepSeek-3B-MoE 。
在推理過程中，該模型激活了6個路由專家和2個共享專家，總計激活了約5.7億參數。
3B的DeepSeekMoE非常適合于以領域為中心的視覺語言模型（VLM）研究——
它能夠獲得3B模型的表達能力，同時享有類似500M小型模型的推理效率。

具體結果在Fox基準集，研究者驗證DeepSeek-OCR在文本密集型文檔上的壓縮與解壓能力，初步探索「上下文光學壓縮」的可行性與邊界。
如下表2所示，在10×壓縮比內，模型的解碼精度可達約97% ，這一結果極具潛力。
而且輸出格式仍與Fox基準的格式并不完全一致，因此實際性能可能略高于測試結果。
未來，或可通過文本到圖像（text-to-image）方法實現接近10×無損上下文壓縮。
當壓縮比超過10×時，性能開始下降，原因可能有二：
長文檔布局更復雜；長文本在512×512或640×640分辨率下出現模糊。第一個問題可以通過將文本渲染到單頁布局來緩解，而第二個問題則可能成為一種「遺忘機制」（forgetting mechanism）的自然表現。
當壓縮比接近20× 時，模型精度仍可維持在60%左右。
這些結果表明，光學上下文壓縮（optical contexts compression）是一種極具前景且值得深入研究的方向。
更重要的是，這種方法不會帶來額外的計算開銷，因為它能夠直接利用VLM基礎設施——
多模態系統本身就內置視覺編碼器，從而具備天然的支持條件。
DeepSeek-OCR還很實用，能夠為LLM/VLM預訓練構建數據。
在實際部署中， DeepSeek-OCR使用20個計算節點（每節點配備8張A100-40G GPU）每日可為LLM/VLM生成3300萬頁訓練數據。
為了量化OCR性能，研究者在OmniDocBench上測試了DeepSeek-OCR ，結果如表3所示。
在僅需100個視覺token（640×640分辨率）的情況下， DeepSeek-OCR超越了使用256個token的GOT-OCR2.0；在400個token（其中285個有效 token ， 1280×1280分辨率）的情況下，模型在該基準測試中達到了與現有最先進模型相當的性能；使用不到800個token（Gundam 模式）， DeepSeek-OCR超過了需要近7000個視覺token的MinerU2.0 。這些結果表明， DeepSeek-OCR 在實際應用中非常強大，且由于更高的 token 壓縮，模型具有更高的研究上限。
如下表4所示，某些類型的文檔，只需要非常少的token即可獲得令人滿意的性能。
對于書籍和報告類型文檔， DeepSeek-OCR僅需100個視覺token即可達到良好的性能。這可能是因為這類文檔中的大多數文本token數量在1000以內，意味著視覺token壓縮比不超過10× 。
除了解析圖表、化學方程式、簡單幾何圖形和自然圖像外，對于PDF文檔， DeepSeek-OCR可以處理近100種語言。
如下圖11所示， DeepSeek-OCR不僅在常見語言處理上表現出色，而且在多語言處理能力上也具有廣泛的適用性，進一步增強了其在全球范圍內的應用潛力。
DeepSeek-OCR具有某種程度的通用圖像理解能力。
相關的可視化結果如圖12所示，展示了該模型在圖像描述、物體檢測和語境定位（grounding）等任務中的表現。
詳細結果和內容，見下列參考資料。

參考資料https://github.com/deepseek-ai/DeepSeek-OCR
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
本文來自微信公眾號“新智元” ，作者：KingHZ， 36氪經授權發布。

推薦閱讀

上一篇：2025年底選折疊屏哪個牌子好華為全形態折疊屏矩陣重塑折疊屏體驗

下一篇：凱文·凱利現身Rokid，押注智能眼鏡成“下一代iPhone”