Lumina-DiMOO:多模態擴散語言模型重塑圖像生成與理解

Lumina-DiMOO:多模態擴散語言模型重塑圖像生成與理解

文章圖片

Lumina-DiMOO:多模態擴散語言模型重塑圖像生成與理解

文章圖片

Lumina-DiMOO:多模態擴散語言模型重塑圖像生成與理解

文章圖片




上海人工智能實驗室推出了一款革新的多模態生成理解一體化的擴散語言模型 ——Lumina-DiMOO 。 基于離散擴散建模(Discrete Diffusion Modeling) , Lumina-DiMOO 打破了多模態任務之間的壁壘 , 在同一離散擴散框架下 , 完成從 文本→圖像、圖像→圖像、圖像→文本的全棧能力閉環 。





論文標題:Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding 論文鏈接:arxiv.org/pdf/2510.06308 GitHub 地址:Alpha-VLLM/Lumina-DiMOO 關鍵詞:多模態生成與理解統一、擴散語言模型
過去:自回歸生成的瓶頸

從 Chameleon 到 Lumina-mGPT , 再到 Janus-Pro—— 主流 “多模態統一模型” , 幾乎都基于 自回歸(AR)架構 。 這些模型的架構存在顯著缺陷:

生成太慢:逐 token 生成 , 導致圖像生成通常需要幾分鐘; 生成質量受限:圖像細節的表現力較弱 , 尤其是在高分辨率生成時 , 精細度無法保證; 任務間無法無縫銜接:多模態的生成和理解任務往往分開處理 , 導致模型的通用性和效率受到制約 。


然而 , Lumina-DiMOO 采用了純離散擴散框架 , 徹底解決了上述問題 。 在這個全新的架構中 , 我們通過并行化的雙向注意力機制和靈活的采樣策略 , 實現了跨多任務的高效融合 , 不僅加速了生成過程 , 還提升了生成質量 。

現在:擴散語言模型的崛起

Lumina-DiMOO , 作為一款全新推出的多模態擴散語言模型 , 憑借其創新的離散擴散架構 , 不僅在圖像生成和文本生成之間架起了無縫橋梁 , 還在理解和生成任務中實現了跨模態的一體化 。 與傳統自回歸(AR)模型相比 , Lumina-DiMOO 大幅提升了生成速度和精度 , 成為多模態領域的技術突破 。

1. 離散擴散架構:核心創新與優勢

Lumina-DiMOO 使用了最新的離散擴散架構(Discrete Diffusion Model) , 通過并行生成和雙向注意力機制 , 使得圖像生成和理解任務不再互相獨立 , 而是能夠在同一個框架中高效運作 。 這一創新架構打破了傳統的生成 - 理解邊界 , 在一個框架中同時實現文本生成圖像、圖像編輯、風格遷移、圖像理解等任務 。

2. 高效生成:并行預測與加速

與大多數傳統的自回歸模型不同 , Lumina-DiMOO 通過并行生成的方式大大加快了推理過程 。 通過一次性處理多個 token 的生成任務 , Lumina-DiMOO 能夠在每個時間步驟并行預測 , 并在圖像生成任務中從完全 mask 的 token 開始 , 逐步解碼生成圖像或文本 。 這種方式不僅加速了生成過程 , 還有效提升了生成質量 , 確保了任務間的高效協同 。



3. 雙向注意力機制:深入理解與生成

雙向注意力機制(Bidirectional Attention)是 Lumina-DiMOO 另一個關鍵的技術特點 。 該機制讓模型不僅能夠理解文本的上下文關系 , 還能捕捉圖像之間的結構和細節 。 這種跨模態的注意力機制確保了文本和圖像任務的高度一致性 , 同時提升了模型在理解和生成過程中處理多模態信息的能力 。

4. 聯合優化:全局性能提升

Lumina-DiMOO 還采用了全局優化策略 , 在訓練過程中通過聯合損失函數優化整體性能 。 通過這種方法 , Lumina-DiMOO 不僅優化了文本生成圖像、圖像編輯、理解等任務的表現 , 還確保了模型的高效統一和多任務能力 , 使其能夠在多個任務之間無縫切換 。

加速采樣:Max-Logit 緩存技術的革新應用

在 Lumina-DiMOO 的推理過程中 , Max-Logit 緩存技術顯著提升了生成效率和速度 。 該技術通過緩存那些 “穩定” 或 “不容易變化” 的 token , 避免了不必要的重復計算 , 從而加速了推理過程 。 具體而言 , 在生成每個 token 時 , 模型評估其概率分布 , 并將高置信度的 token 進行緩存 , 只有當 token 變化較大時才重新計算 。 通過并行推理和高效的緩存機制 , Max-Logit 技術不僅加快了推理速度 , 還保證了生成質量 , 尤其在高分辨率生成任務中 , 能夠保留圖像的細節與準確性 。 此外 , 該技術的引入大幅降低了計算成本 , 使得 Lumina-DiMOO 在保持高質量生成的同時 , 具備了更高的推理效率和更低的計算開銷 。

模型的 “自我演化”:Self-GRPO



更令人驚喜的是 , 團隊提出了一個全新的自我強化框架 ——Self-GRPO 。 它把 “圖像生成” 和 “多模態理解” 整合進一條強化學習軌跡 , 讓模型在生成中學會理解 , 在理解中反哺生成 。 訓練過程中 , 模型會自評答案正確率、計算獎勵、再反向優化 , 從而完成 “生成 - 推理 - 校正” 的閉環 。 這意味著 Lumina-DiMOO 已不僅是一個多模態模型 , 更像一個具備 自主反思能力的智能體雛形 。

成績單:全面 SOTA
【Lumina-DiMOO:多模態擴散語言模型重塑圖像生成與理解】
Lumina-DiMOO 在多項權威評測中奪魁:

UniGenBench(由騰訊混元維護):開源模型第一名 GenEval:綜合得分 0.88 , 超越 GPT-4o、BAGEL、Janus-Pro 等頂尖模型 DPG、OneIG-EN、TIIF:在語義一致性、布局理解、屬性綁定、推理等維度全面領先 。
未來展望

Lumina-DiMOO 讓我們再次接近 “原生多模態智能” 的理想 。
它能讀、能寫、能畫、能思考 —— 真正實現從感知到創造的統一閉環 。
正如團隊所言:

“我們希望模型不只是理解世界 , 更能創造世界 。 ”

—— 來自 Alpha-VLLM 團隊的又一次大膽嘗試 。

    推薦閱讀