美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片

美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

文章圖片


Token , 這下真成了智能世界的基本單位 。
不是被定義出來的“詞元” , 而是被一套全新的統一Token架構 , 直接壓進了現實建模的最底層 。

過去一年 , 幾乎所有頭部大模型玩家 , 都在忙著重寫多模態的底層架構 。
從谷歌、OpenAI到國內的字節、MiniMax , 大家在實踐中逐漸形成共識——不走原生多模態 , 已經不夠、不行了 。
但問題是 , 原生多模態到底該怎么走?到目前為止 , 業界并沒有一個統一答案 。
直到這一次 , 一直悶頭搞AI的美團LongCat , 歘的一下亮出新解法:
把圖片、語音 , 統統當成Token來預測 。
聽起來有點離譜 , 但他們不僅這么做了 , 而且——
還做成了 。
真原生、真統一先回答一個基本問題:為什么要做原生多模態?
理由雖然很多 , 但核心只有一個:
目前業界主流的多模態大模型 , 本質上采用的是一套“拼湊式架構”——語言模型當底座 , 視覺、語音當外掛 。
這種架構下 , 理解靠連續特征對齊(比如要理解圖片就得把圖片轉成語言能看懂的信號)、生成靠擴散模型 , 兩套系統各說各話 , 根本談不上真正的統一 。
結果就是 , 中間“傳話人”一多 , 算力消耗飆升 , 信息也一路跑偏、流失 。
而原生多模態 , 則從一開始就用一套統一的方式 , 把所有模態一起建模——不需要拼接、不需要傳話翻譯 , 所有模態共用同一套“語言” 。
而這 , 正是美團LongCat做的事 。
至于為什么說他們采用的方式很“離譜” , 原因在于 , 他們把“離散自回歸”直接搬到了圖像和語音這種連續信號上 。
眾所周知 , 依賴離散自回歸建模 , “預測下一個Token”讓大語言模型一戰成名 。
但當這套范式被搬到視覺上時 , 問題也隨之出現:
圖片是連續信號 , 不能像文本那樣天然離散 , 一旦強行切成Token(類似把一張圖分成幾塊) , 模型就會丟信息“變弱” 。
因此 , 行業長期認為 , 離散視覺建模存在“性能天花板” 。
但隨著美團LongCat一篇新論文的出現 , 這一認知被打破了——
文本、圖像、語音 , 可以被統一壓進同一個離散Token空間 , 用一套自回歸邏輯從頭建模 , 而且模型效果可以媲美主流頂尖模型 。

從論文中可以看到 , 為這套理念提供支撐的 , 正是美團LongCat首創的離散原生自回歸架構——DiNA(Discrete Native Autoregressive ) 。
DiNA核心只做一件事——把文字、圖像、語音都變成同一種東西 , 即離散Token 。
這樣一來 , 無論模型是讀文字、看圖片還是聽聲音 , 本質上都是在預測下一個Token 。
聽起來是不是仍有點抽象?不妨看看下面這張架構運行圖 。
簡單來說 , DiNA的一個完整“小周天” , 大致會經歷以下三個過程:
輸入側:文本、圖像、語音各自經過自家Tokenizer , 統一把原始信號轉成離散Token; 中間:所有Token匯入一個不區分模態的學習器 , 它只處理Token序列 , 所有理解、推理、生成都在這里完成; 輸出側:處理完的Token再通過各自的De-Tokenizer還原成圖像、音頻、文本 。
這種架構設計帶來的好處顯而易見:
以前都是各管各的(文字模型管文字、圖片模型管圖片) , 現在所有模態都共享同一個自回歸骨干 。
這意味著 , 甭管處理哪種模態 , 模型都用同一套參數、同一個注意力機制、同一個損失函數 。
而這 , 無疑可以讓模型在訓練時更穩定 , 部署時更輕量 。
訓練時 , 多模態數據互相補充 , 梯度信號更穩 , 不容易跑偏;部署時 , 一個模型頂三個 , 顯存省了 , 速度也快了 。
空口無憑 。
美團LongCat用LongCat-Flash-Lite MoE(總參數685億 , 激活僅30億)做基座 , 在這個框架上訓練出LongCat-Next 。
結果發現 , DiNA的MoE路由在訓練中逐漸學會了“分工”——不同專家開始偏好處理不同模態 , 激活的專家數量也比純語言模型時更多 , 這說明模型正在用更大容量支撐能力擴展 。
說白了就是 , 為了多干活 , 找了更多專家 。

再一個 , 前面提到了理解和生成的割裂問題(需要兩套系統) 。
而在DiNA這里 , 它倆也變成了“預測下一個Token”這一件事——數學形式完全一樣 , 只是輸入輸出互換 。
看到圖片 , 預測文字是“理解”;看到文字 , 預測圖片是“生成” 。 理解和生成一個模型全搞定 。
至于具體效果嘛?實驗數據很能說明問題:
統一模型的理解損失僅比純理解模型高0.006 , 而生成損失比純生成模型低0.02 。
這說明什么?理解不僅沒拖累生成 , 反而表現出協同潛力 。
以及最后還有很重要的一點 , 那就是真·原生 。
以前的多模態模型 , 本質上天天干的是“對齊”的活兒——不同模態之間“對話”需要靠“翻譯傳話” 。
而現在 , 美團LongCat發現:
把不同模態的Token丟進t-SNE可視化之后 , 它們不是各占一角 , 而是混在一起 , 自然交融 , 而且不同的專家模塊開始自動偏好處理圖像、文字或語音 。
這說明 , 模型不是在“拼湊”多模態 , 而是在內部長出了一個統一的多模態世界 。

說到這里 , 懂行的朋友可能就問了:
OK , 現在我們已經知道DiNA架構長什么樣、具體怎么運作的了 , 但這里還有一個關鍵問題沒有被提到:
它是怎么把不同模態離散成Token的?文本不必多說 , 至少得說清圖像和語音咋處理的 。
而這 , 就要談到美團LongCat的另一項自研了 。
所以 , 怎么“離散”的?一般來說 , 基于以下兩點理由 , 離散建模一直被人說“不行”:
表征容量有限:離散Token就那么幾個 , 怕裝不下太多信息; 離散化損失:離散化過程會丟東西 , 比如一旦把連續信號切成塊 , 細節就容易漏掉 。但美團LongCat就說了 , 這些還真不是關鍵 。
真正決定上限的 , 是離散Token本身是否具備語義完備性(Semantic Completeness) 。
換言之 , 問題不在“要不要離散” , 而在離散后的Token本身到底夠不夠“有內容”——既懂大意 , 又摳細節 。

所以現在問題就變成了:怎么構建合適的表征基?。 ?
先說視覺 。
對此 , 美團LongCat想了兩招 。
第一招:先把基礎打好 , 讓信息在被離散前盡可能豐富、準確 。
他們拿出語義對齊編碼器SAE(Semantic-and-Aligned Encoder) , 用來從圖像中提煉高信息密度、多屬性的特征 。
不同于傳統對比學習(如SigLIP那種“看文字和圖片是否匹配”) , SAE是通過大規模視覺-語言監督 , 像做閱讀理解一樣 , 把圖像描述、視覺問答、視覺推理統統學一遍 。
結果就是 , 它提取的特征既有“這是什么”的語義 , 又有“長什么樣”的細節 。
第二招:甩出自研視覺分詞器dNaViT , 把SAE提煉出來的特征 , 逐級量化成離散Token 。

怎么個逐級量化?dNaViT這里采用的是8層殘差向量量化(RVQ) , 通俗來講就是“分層打包” 。
既然細節很多 , 那就第一層打包輪廓、第二層打包顏色、第三層打包紋理……
每一層只負責上一層沒包進去的“剩余信息” 。
8層補下去之后 , 最后可以實現高達28倍的極致像素空間壓縮 。
光壓縮還不算完 , 到了還原圖像的時候 , dNaViT還有一套雙軌解碼器來為還原質量“保駕護航” 。
結構像素解碼器:搭出低分辨率錨點圖 , 保布局; 擴散像素細化器:注入高頻紋理細節 , 讓畫面更完整清晰 。到這里 , 美團LongCat就完成了視覺離散的幾個關鍵步驟——SAE“先看懂”、dNaViT再壓縮和還原 。
發現沒 , 和語言模型的Tokenizer一樣 , dNaViT也把圖像的理解和生成放在同一套Token序列里閉環流轉了 。

不過更關鍵的還在于 , 在LongCat-Next中:
視覺Token化這個過程完成的是圖像到離散ID的映射 , 真正的特征是原生學習的 。
意思是 , 視覺Token化這個過程只負責把圖像轉成ID編號 , 至于這個編號代表什么含義 , 是模型自己學出來的 , 不是別人硬塞給它的 。
在美團LongCat看來 , 這種從“借用模態”到“內生模態”的轉變 , 是原生多模態建模的核心 。
還是舉一個例子 。
從dNaViT的架構圖可以看到 , 雖然左邊輸入了三張尺寸完全不同的圖像 , 但經過中間的離散和右下邊的還原后 , 輸出的尺寸和輸入完全一致 , 細節也沒丟 。
這就是“原生分辨率”的含義——無需任何額外動作(縮放、裁剪、填充) , dNaViT可以實現任意分辨率的圖像編碼與解碼 。

再說語音 。
語音的離散思路和視覺基本一致——
先用OpenAI的Whisper編碼器提取聲音特征 , 然后用RVQ切成離散Token , 最后用解碼器還原聲音 。

唯一比較狠的一點是 , 在文本引導音頻的統一建模下 , LongCat-Next同時支持并行生成與串行生成兩種策略 , 使得模型可以在生成速度與語音準確性之間靈活權衡 。
想“快”(如實時語音對話):可以走并行生成 , 延遲更低; 想“準”(如后期配音):可以走串行生成 , 雖然過程慢一點 , 但文本對音頻的指導作用更強 。至于什么情況選哪個 , 也都是模型自己來決定 。
通過隨機延遲對齊——訓練時隨機切換“一起出”和“先后出” , 模型能自己學會平衡速度和準確度 , 實現又快又準 。

至此 , 美團LongCat在LongCat-Next身上看到了:
離散表示并非信息的退化形式 , 而可以成為統一理解與生成的完備表達載體 。
通過“離散”這種方式 , 文字、圖像、語音可以變成“同一種Token”——原生多模態的底層統一 , 由此實現 。
跑分和背后的發現具體效果可以看LongCat-Next的跑分情況 。
這個基于LongCat-Flash-Lite(MoE)訓練的模型 , 沒有像傳統模型那樣給不同任務設計不同的專家模塊 , 而是采用“與模態無關”的MoE——由模型自行決定如何為各模態分配訓練資源 。

結果大家也都看到了 , 憑借這套離散原生框架 , LongCat-Next在視覺理解、圖像生成、音頻、智能體等多個維度上 , 都展現出與多模專用模型相當甚至領先的性能 。

老實說 , 雖然LongCat-Next的成績不錯 , 但我還是有點懷疑“離散”是否真能work 。
于是立馬讓模型識別一下桌面上的小白盒(反光下比較模糊):

沒想到LongCat-Next成功識別了耳機盒上的所有關鍵參數:



當然 , 如果細扒每一項成績 , 你會發現背后還藏著這樣幾個關鍵點:
發現1:離散視覺沒有天花板前文也提到 , 行業長期認為離散模型在做細粒度文本識別時 , 天然就不如連續模型 。
因為離散化本身就是一個信息壓縮和丟失的過程 , 而細粒度文本識別恰恰對信息保真度要求極高 。
但LongCat-Next這次用實力挑戰了這一觀點 。
證據之一是 , 在OmniDocBench這個涵蓋學術論文、財報、行政表格等各種復雜文檔的多模態基準測試上 , LongCat-Next的成績不僅超越同類多模態模型 , 還超過了專門做視覺理解的模型 。
更重要的是 , 美團LongCat通過對照實驗發現 , 離散視覺的性能瓶頸并非來自“離散化本身” , 而是來自數據規模 。
在相同設置下對比離散模型(Discrete)和連續模型(Continuous)可以發現:
小數據下 , 離散模型確實弱于連續模型;但隨著數據規模不斷擴大 , 二者的性能差距會持續縮小 。
繼續擴大數據規模 , 離散模型甚至可以和連續模型性能接近一致(near-parity) 。

照理說 , 如果離散化本身存在不可突破的性能上限 , 那么隨著數據增加 , 這一差距理應在某個階段停止收斂 , 但實驗中并未觀察到這一“收斂停滯” 。
所以論文給出了一個判斷——
離散建模并不存在內在性能天花板 , 其上限更多取決于數據規模與表征質量 。
發現2:理解和生成可以協同原理就不必多說了 , 咱直接亮成績:
在考察長文本渲染能力的LongText-Bench上(側重生成) , LongCat-Next拿下93.15的高分 。
與此同時 , 它還在考察數學推理能力的MathVista上(側重理解) , 斬獲83.1的領先成績 。
理解和生成齊高 , 這說明理解不僅沒有損害生成 , 反而表現出協同潛力 。
這也很好理解 。 以前它們分屬兩套系統 , 各有各的優化目標;現在卻被拉到了一起 , 理解學到的東西直接服務生成 , 兩者天然同向、越學越強 。

發現3:經過原生多模態訓練后 , 不會折損文本能力以前多模態訓練就像“端水” , 要小心翼翼在各種模態的能力之間取得平衡 。
但LongCat-Next就不一樣了 。
圖像、音頻能力配上后 , 文本能力也沒被削弱——
在純文本任務上 , LongCat-Next在MMLU-Pro和C-Eval上分別斬獲77.02和86.80的領先成績 。
而且工具調用、代碼能力等個個不差 。
還是那句話 , 當模型學會用同一種方式理解圖像、聲音和文字時 , 它對世界的理解無疑更上一層樓 。
美團LongCat用實驗初步證明:
當不同模態都用同一套離散Token體系后 , 模型不再需要為不同模態、不同任務分別設計機制 , 而是可以用一套可擴展的方式去建模整個世界 。
在這個意義上 , 離散建模并非一種妥協 , 而是另一條可擴展路徑 。
這件事意味著什么?不止于此 。
把視角再往前推一步 , 你會發現一個有意思的“隔空呼應”:這項研究 , 幾乎正對上了LeCun和謝賽寧等人的判斷 。
LeCun就不必多說了 , 誰都知道他一直批評“純文本LLM無法實現AGI”;謝賽寧則在對談張小珺時表示 , 語言本身是人類文明高度提煉的結構 , 相當于一種“捷徑”或“拐杖” , 過度依賴語言會限制AI對真實世界的學習 。
而要突破語言模型的局限性 , 統一的多模態預訓練 , 正是那條繞不開的路 。
在近期公開的論文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》中 , LeCun等人決定不再把視覺當作輔助輸入 , 而是推進統一的多模態預訓練——
讓視覺和語言一樣 , 成為模型里的“first-class citizen” 。

而美團LongCat這一步 , 正是把這條思路進一步推向工程化落地的體現——
在不推翻LLM、自回歸這些成熟體系的前提下 , 他們直接把圖像、語音、文字統統壓進了Token序列 , 并且做到了工業級可用 。
怎么個工業可用?答案是:開源 。
沒錯 , 美團LongCat這次不僅公開了技術論文 , 而且還把LongCat-Next及其分詞器開!源!了!
不過要想使用LongCat-Next , 除了硬件上需要至少3張80GB顯存的專業顯卡(如英偉達A100/H100) , 軟件配置要求如下:

到這一步 , 當一套方案不僅在論文里成立 , 而且已經以開源的形式跑通工程閉環時 , 它對業界的意義除了多了一個新框架外 , 更重要的其實還在于——驗證了一條新路徑 。
細究之下 , 在通往“原生多模態”的這條路上:
有人在做融合 , 語言模型當底座 , 視覺、語音當外掛 , 一心想讓不同模態更好協同;也有人更進一步做早期融合+MoE , 不再依賴預訓練編碼器 , 從零開始聯合訓練 , 讓模型內部自己長出視覺和聽覺 。
而美團LongCat更為直接——不走融合 , 不做對齊 , 直接把所有模態統統變成Token 。
此時 , 模型面對的就不再是“多模態” , 而是同一種可以被預測、被生成的序列 。
某種程度上來說——
模態這個東西本身 , 也正在消失 。
Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdfGitHub: https://github.com/meituan-longcat/LongCat-NextHuggingFace: https://huggingface.co/meituan-longcat/LongCat-Nextblog: https://longcat.chat/longcat-next/intro
— 完 —
量子位 QbitAI
【美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測】關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀