LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

文章圖片

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

文章圖片

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

文章圖片

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

文章圖片

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

文章圖片

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

文章圖片

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

文章圖片

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」

文章圖片

LeCun預言成真!790年長視頻,煉出最強開源「世界模型」
編輯:桃子 好困
【新智元導讀】AI第三種Scaling范式來臨!多模態原生世界模型Emu3.5出世 , 340億參數 , 基于790年長視頻數據完成訓練 。 即生3D世界 , 每張圖片推理速度飆升20倍 。


2025年 , 「世界模型」成為了AI巨頭們廝殺的戰場 。
谷歌發布的Genie 3 , 一句話即可生成一個720p實時模擬的新世界 。 甚至 , 網友將其稱之為「游戲引擎2.0時代」 。
李飛飛World Labs團隊也推出了一款實時生成世界模型——RTFM , 僅用一塊H100渲染出3D世界 。

此外 , 還有Meta FAIR打造的「代碼世界模型」(CWM)、Runway的「通用世界模型」(GWM)、特斯拉的神經網絡模擬器等 , AI界玩家們都在積極布局 。
尤其是 , 多模態領域的「世界模型」 , 成為了他們加碼的核心點 。

一直以來 , 李飛飛、LeCun等站隊「世界模型」AI大佬們認為 , 僅憑語言 , AI是無法復制人類智能 , 還需要理解和模擬物理解釋 。
世界模型 , 便是終極答案 。 它可以模仿人類對周圍環境形成的「心智模型」來預測世界 。
就在上周 , 人工智能領域再次迎來一枚深水炸彈 。
北京智源研究院(BAAI)正式發布了其悟界·Emu系列的最新成果——Emu3.5 。
在技術交流會上 , 智源研究院院長王仲遠博士將其定位為「開啟多模態世界大模型新紀元」的里程碑 。
「并不一定所有的大模型技術路線都要完全跟隨別人已經走過的路 , 我們自己也在開創一些新的技術路徑 。 」王仲遠表示 , 「Emu系列是我們自己走出來的技術路線 , 我們是引領性的 。 」
與當前主流的、將理解與生成分開處理的「模塊拼接式」多模態模型(如LLM+CLIP及DiT架構)不同 , Emu3.5回歸「第一性原理」 , 像人類一樣從連續、長時程的視覺經驗中學習 , 用統一的自回歸架構實現了對多模態世界的原生理解與生成 。
「通過悟界·Emu3 , 我們驗證了自回歸架構實現多模態理解與生成大一統的可行性 , 」王仲遠表示 , 「從Emu3到Emu3.5 , 我們證明了多模態也存在一個Scaling的范式 。 」
這個340億參數的模型 , 在長文本渲染、復雜圖像編輯、視覺故事生成等多個維度上 , 其表現足以讓業界驚嘆「Wow」 。 更重要的是 , 它所展現出的對物理世界動態、因果、時空、邏輯的深刻理解 , 預示著AI正加速從數字世界邁向物理世界 。
智源公開了長達45頁的詳盡技術報告 , 將其數據處理、模型架構、訓練方式、推理加速等技術細節全盤托出 。

項目主頁:https://zh.emu.world
技術報告:https://arxiv.org/pdf/2510.26583
這背后 , 是智源對「引領人工智能原始創新」的堅持 , 也是對未來技術路線的自信 。
悟界·Emu3.5為當前全球大模型競賽中的幾個根本性問題 , 提供了一條來自中國的、邏輯自洽且潛力巨大的原創解法:

  • 多模態應該如何統一?——通過原生的、端到端的自回歸「Next-State Prediction」范式
  • 世界模型應該學習什么?——學習蘊含了長時程、高一致性等世界知識的長視頻數據
  • 如何實現規模化?——借助「預訓練+多模態RL」的第三種Scaling范式 , 復用現有LLM基礎設施
  • 如何落地?——通過DiDA等推理加速技術 , 解決效率瓶頸



第一性原理 , 像人一樣學習
從Next-Token到Next-State


「人類的學習 , 不是從文本學習開始的 。 」王仲遠在發布會上反復強調這個觀點 。
嬰兒睜開眼 , 首先感知的是視覺世界 , 通過觀察、交互 , 逐步理解物理規律、因果關系 。 語言是在這個基礎上發展起來的、用于溝通和泛化的工具 。
當前的大語言模型(LLM)在耗盡互聯網文本數據后 , 增長已顯疲態 。 而多模態領域 , 技術路線尚未收斂 。 主流的視頻和圖像生成模型 , 如Sora、Nano Banana , 大多采用Diffusion Transformer(DiT)等混合架構 , 本質上仍是「拼裝」——理解和生成模塊分離 , 難以實現真正的、統一的智能 。
Emu系列從誕生之初 , 就選擇了另一條更艱難但更本質的道路:原生多模態 。
Emu3.5繼承并極大地發展了這一理念 。 它采用了一個極其簡潔但強大的統一范式:預測下一個狀態(Next-State Prediction) 。
與LLM預測下一個文本Token類似 , Emu3.5將圖像、文本、乃至動作指令都「Token化」 , 置于一個統一的序列中 , 然后用一個單一的、端到端的自回歸Transformer模型來預測序列中的下一個Token 。
這個「Token」可以是一段文字描述 , 也可以是構成圖像的一個「視覺詞塊」 , 甚至可以是一個指導機器人手臂運動的指令 。
這種架構的優越性是顯而易見的:
  • 統一性:它徹底打破了理解與生成的壁壘 。 模型在生成圖像時 , 是基于對上下文(包括之前的圖像和文字)的深刻理解 。
  • 可擴展性:它能完美復用為LLM構建的、已極其成熟的訓練、推理和強化學習基礎設施 。 這意味著 , 所有在LLM上驗證過的Scaling Law和優化技術 , 理論上都可以在Emu3.5上「再來一遍」 。
「我們終于可以在多模態大模型上實現Scaling up了 。 」王仲遠對此充滿信心 。

第三種Scaling范式
790年長視頻數據與大規模多模態RL


如果說統一的架構是骨架 , 那么海量且高質量的數據就是血肉 。
Emu3.5的訓練數據量堪稱恐怖:超過13萬億多模態Token 。
其核心 , 不再是短視頻剪輯或靜態的圖文對 , 而是累計時長達790年的互聯網長視頻 , 涵蓋了紀錄片、教學視頻、Vlog、游戲動畫等 。
「長視頻里有語音、有交互的文本 , 它有一個長的上下文 , 有一致性 。 」Emu系列研發負責人王鑫龍解釋道 。 相比孤立的數據點 , 長視頻天然蘊含了豐富的時空連續性、因果邏輯和上下文一致性 , 是學習世界模型的絕佳養料 。
為了消化這些海量數據 , 智源團隊構建了一套復雜的自動化數據處理流水線 , 包括場景分割、語音轉文字(ASR)、關鍵幀提取、質量評估、冗余去除和多模態摘要生成等 。
在訓練上 , Emu3.5的路徑清晰而堅定:
  • 大規模預訓練
在超過10萬億Token上進行第一階段預訓練 , 讓模型學會基礎的多模態對齊和生成能力 。 整個訓練過程「非常穩定」 , 在多個未見過的下游任務驗證集上 , 損失函數隨著算力投入穩步下降 , 這正是「Scaling范式」存在的有力證據 。
  • 大規模多模態強化學習(RL)
這是Emu3.5的另一大創舉 。 眾所周知 , 強化學習是激發LLM(如GPT-4o、DeepSeek-R1)推理和遵循指令能力的關鍵 。 但將其應用于更復雜、序列更長的多模態領域 , 困難重重 。
得益于統一的自回歸架構 , Emu3.5首次實現了統一多任務、多模態的強化學習 。 團隊構建了一個包含通用獎勵(如美學、圖文一致性)和任務特定獎勵(如OCR準確率、人臉ID保持)的復雜獎勵系統 , 通過GRPO算法 , 在統一的獎勵空間內進行優化 。

這套「大規模長視頻預訓練 + 大規模多模態RL」的組合拳 , 被王仲遠稱為繼語言模型預訓練、后訓練之后的「第三種Scaling范式」 。 它指明了一條道路:通過不斷增加視頻數據、模型參數和算力 , 多模態世界模型的能力將可預見地持續提升 。



黑科技DiDA
自回歸模型推理飆升20倍


自回歸模型「一個Token一個Token」的生成方式 , 導致其在生成高清圖像(通常一張圖就需要數千個Token)時速度很慢 。 這也是為什么Diffusion模型在生成領域長期占據主導地位 。
為了攻克這一難題 , Emu3.5團隊研發了名為離散擴散自適應(Discrete Diffusion Adaptation DiDA)的黑科技 。
DiDA的核心思想是 , 在模型完成大規模的自回歸預訓練和后訓練之后 , 通過一個輕量級的「適應」階段 , 將其從「逐個Token預測」的模式 , 轉換為「并行生成」的模式 。

具體來說 , 它借鑒了離散擴散的思想 , 將圖像生成過程變成一個「去噪」過程:模型不再是從左到右生成 , 而是一次性生成所有「帶噪聲」的視覺Token , 然后在幾個步驟內并行地、雙向地修正它們 , 最終恢復出清晰的圖像 。
效果如何?每張圖片的推理速度提升約20倍 , 且幾乎沒有性能損失!
這意味著 , Emu3.5的自回歸模型 , 在推理效率上首次能夠與頂級的閉源Diffusion模型(如Midjourney)相媲美 。 這不僅是工程上的巨大勝利 , 更從根本上解決了原生多模態架構的商業化落地瓶頸 。



從圖像編輯到具身操作 , 開源最優


理論的先進性最終要靠效果說話 。 Emu3.5交出的答卷 , 足以讓任何從業者感到興奮 。
  • 頂級的Any-to-Image生成與編輯:
Emu3.5不僅能生成帶有復雜公式、中英文對聯的高質量圖片 , 其圖像編輯能力更是達到了新的高度 。 在ImgEdit、GEdit-Bench等權威benchmarks上 , Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在內的所有公開模型 。
    • 高層語義理解:
    • 將指定的人物、特定的場景和任意物品進行組合 , Emu3.5可以創作出一個符合邏輯的全新世界 , 展現了其強大的想象力和世界構建能力 。


  • 數字與空間理解:
  • 指令「將圖片中標號為4的物體換成電影海報」 , 模型能精準定位并替換 。

  • 視角變換:
  • 給定一張建筑正面圖 , 指令「切換到俯視圖」 , 模型能像擁有3D建模能力一樣 , 合理地生成新視角 。

  • 長時序、高一致性的「世界學習」能力:
這部分能力 , 是Emu3.5作為「世界模型」的核心體現 , 也是它與其他生成模型拉開代差的地方 。 在與Gemini 2.5 Flash Image的并列生成對比中 , Emu3.5在視覺敘事、視覺指導、世界探索和具身操作等任務上的勝率均顯著更高 。
    • 視覺敘事(Visual Narrative):
    • 給定一個主題 , Emu3.5能生成一系列圖文并茂、情節連貫、主角形象高度一致的繪本故事 。 這得益于其長序列建模能力 , 解決了傳統模型生成多圖時「張張換人」的痛點

給圖里的寶寶寫個故事 , 要講他夏天晚上和螢火蟲玩
    • 視覺指導(Visual Guidance):
    • 如何倒水?如何疊衣服?Emu3.5能像一本活的說明書 , 通過「圖片+文字」的步驟 , 清晰地展示一個任務的全過程

模型輸出結果:如何用黏土和顏料手工制作一個宇航員模型

模型輸出結果:如何從種子開始種羽衣甘藍?
  • 世界探索(World Exploration):
用戶可以用文字定義一個場景 , 如「一個陽光明媚的現代客廳」 , 然后通過「向左轉」、「向前走」等指令 , 模型會生成符合邏輯的、連續的探索畫面 , 仿佛置身于一個可交互的虛擬世界 。 這部分前面的視頻已經展示了 。
  • 具身操作(Embodied Manipulation):
這是Emu3.5最具想象力的應用之一 。 給定一個任務 , 如「用松靈機械臂把桌面收拾好 , 12 步完成」 , 模型能生成一個包含12個步驟的、由松靈機器人手臂執行的圖文序列 。 它不僅規劃了子任務 , 還生成了每個關鍵步驟的視覺狀態 。 這為解決具身智能領域「數據稀缺」的痛點提供了全新的思路——用世界模型生成海量的、泛化的仿真數據 。

智源研究院不僅發布了模型 , 更公開了詳盡的技術報告 。 這種開放的姿態 , 旨在邀請全球社區共同探索這條由中國開創的新路 。 「我們希望這條路后續成為主流的路 。 」王仲遠說 , 「登珠穆朗瑪峰南坡和北坡也許都可以登頂 , 我們希望我們走的是大家認可的一條路 。 」
Emu3.5的參數僅為340億 , 使用的視頻數據不到互聯網公開數據的1% 。 它的能力上限 , 遠未觸及 。
未來隨著模型規模、數據規模的進一步擴大 , 這個「世界模型基座」還將帶來怎樣的驚喜 , 我們拭目以待 。
參考資料:
https://zh.emu.world/
【LeCun預言成真!790年長視頻,煉出最強開源「世界模型」】https://arxiv.org/pdf/2510.26583

    推薦閱讀