LeCun預言成真！790年長視頻，煉出最強開源「世界模型」

2026-04-25 ai 新疆無人駕駛

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：桃子好困
【新智元導讀】AI第三種Scaling范式來臨！多模態原生世界模型Emu3.5出世， 340億參數，基于790年長視頻數據完成訓練。即生3D世界，每張圖片推理速度飆升20倍。

2025年，「世界模型」成為了AI巨頭們廝殺的戰場。
谷歌發布的Genie 3 ，一句話即可生成一個720p實時模擬的新世界。甚至，網友將其稱之為「游戲引擎2.0時代」。
李飛飛World Labs團隊也推出了一款實時生成世界模型——RTFM ，僅用一塊H100渲染出3D世界。

此外，還有Meta FAIR打造的「代碼世界模型」（CWM）、Runway的「通用世界模型」（GWM）、特斯拉的神經網絡模擬器等， AI界玩家們都在積極布局。
尤其是，多模態領域的「世界模型」，成為了他們加碼的核心點。

一直以來，李飛飛、LeCun等站隊「世界模型」AI大佬們認為，僅憑語言， AI是無法復制人類智能，還需要理解和模擬物理解釋。
世界模型，便是終極答案。它可以模仿人類對周圍環境形成的「心智模型」來預測世界。
就在上周，人工智能領域再次迎來一枚深水炸彈。
北京智源研究院（BAAI）正式發布了其悟界·Emu系列的最新成果——Emu3.5 。
在技術交流會上，智源研究院院長王仲遠博士將其定位為「開啟多模態世界大模型新紀元」的里程碑。
「并不一定所有的大模型技術路線都要完全跟隨別人已經走過的路，我們自己也在開創一些新的技術路徑。」王仲遠表示，「Emu系列是我們自己走出來的技術路線，我們是引領性的。」
與當前主流的、將理解與生成分開處理的「模塊拼接式」多模態模型（如LLM+CLIP及DiT架構）不同， Emu3.5回歸「第一性原理」，像人類一樣從連續、長時程的視覺經驗中學習，用統一的自回歸架構實現了對多模態世界的原生理解與生成。
「通過悟界·Emu3 ，我們驗證了自回歸架構實現多模態理解與生成大一統的可行性，」王仲遠表示，「從Emu3到Emu3.5 ，我們證明了多模態也存在一個Scaling的范式。」
這個340億參數的模型，在長文本渲染、復雜圖像編輯、視覺故事生成等多個維度上，其表現足以讓業界驚嘆「Wow」。更重要的是，它所展現出的對物理世界動態、因果、時空、邏輯的深刻理解，預示著AI正加速從數字世界邁向物理世界。
智源公開了長達45頁的詳盡技術報告，將其數據處理、模型架構、訓練方式、推理加速等技術細節全盤托出。

項目主頁：https://zh.emu.world
技術報告：https://arxiv.org/pdf/2510.26583
這背后，是智源對「引領人工智能原始創新」的堅持，也是對未來技術路線的自信。
悟界·Emu3.5為當前全球大模型競賽中的幾個根本性問題，提供了一條來自中國的、邏輯自洽且潛力巨大的原創解法：

多模態應該如何統一？——通過原生的、端到端的自回歸「Next-State Prediction」范式
世界模型應該學習什么？——學習蘊含了長時程、高一致性等世界知識的長視頻數據
如何實現規模化？——借助「預訓練+多模態RL」的第三種Scaling范式，復用現有LLM基礎設施
如何落地？——通過DiDA等推理加速技術，解決效率瓶頸

第一性原理，像人一樣學習
從Next-Token到Next-State

「人類的學習，不是從文本學習開始的。」王仲遠在發布會上反復強調這個觀點。
嬰兒睜開眼，首先感知的是視覺世界，通過觀察、交互，逐步理解物理規律、因果關系。語言是在這個基礎上發展起來的、用于溝通和泛化的工具。
當前的大語言模型（LLM）在耗盡互聯網文本數據后，增長已顯疲態。而多模態領域，技術路線尚未收斂。主流的視頻和圖像生成模型，如Sora、Nano Banana ，大多采用Diffusion Transformer（DiT）等混合架構，本質上仍是「拼裝」——理解和生成模塊分離，難以實現真正的、統一的智能。
Emu系列從誕生之初，就選擇了另一條更艱難但更本質的道路：原生多模態。
Emu3.5繼承并極大地發展了這一理念。它采用了一個極其簡潔但強大的統一范式：預測下一個狀態（Next-State Prediction）。
與LLM預測下一個文本Token類似， Emu3.5將圖像、文本、乃至動作指令都「Token化」，置于一個統一的序列中，然后用一個單一的、端到端的自回歸Transformer模型來預測序列中的下一個Token 。
這個「Token」可以是一段文字描述，也可以是構成圖像的一個「視覺詞塊」，甚至可以是一個指導機器人手臂運動的指令。
這種架構的優越性是顯而易見的：

統一性：它徹底打破了理解與生成的壁壘。模型在生成圖像時，是基于對上下文（包括之前的圖像和文字）的深刻理解。

可擴展性：它能完美復用為LLM構建的、已極其成熟的訓練、推理和強化學習基礎設施。這意味著，所有在LLM上驗證過的Scaling Law和優化技術，理論上都可以在Emu3.5上「再來一遍」。

「我們終于可以在多模態大模型上實現Scaling up了。」王仲遠對此充滿信心。

第三種Scaling范式
790年長視頻數據與大規模多模態RL

如果說統一的架構是骨架，那么海量且高質量的數據就是血肉。
Emu3.5的訓練數據量堪稱恐怖：超過13萬億多模態Token 。
其核心，不再是短視頻剪輯或靜態的圖文對，而是累計時長達790年的互聯網長視頻，涵蓋了紀錄片、教學視頻、Vlog、游戲動畫等。
「長視頻里有語音、有交互的文本，它有一個長的上下文，有一致性。」Emu系列研發負責人王鑫龍解釋道。相比孤立的數據點，長視頻天然蘊含了豐富的時空連續性、因果邏輯和上下文一致性，是學習世界模型的絕佳養料。
為了消化這些海量數據，智源團隊構建了一套復雜的自動化數據處理流水線，包括場景分割、語音轉文字（ASR）、關鍵幀提取、質量評估、冗余去除和多模態摘要生成等。
在訓練上， Emu3.5的路徑清晰而堅定：

大規模預訓練

在超過10萬億Token上進行第一階段預訓練，讓模型學會基礎的多模態對齊和生成能力。整個訓練過程「非常穩定」，在多個未見過的下游任務驗證集上，損失函數隨著算力投入穩步下降，這正是「Scaling范式」存在的有力證據。

大規模多模態強化學習（RL）

這是Emu3.5的另一大創舉。眾所周知，強化學習是激發LLM（如GPT-4o、DeepSeek-R1）推理和遵循指令能力的關鍵。但將其應用于更復雜、序列更長的多模態領域，困難重重。
得益于統一的自回歸架構， Emu3.5首次實現了統一多任務、多模態的強化學習。團隊構建了一個包含通用獎勵（如美學、圖文一致性）和任務特定獎勵（如OCR準確率、人臉ID保持）的復雜獎勵系統，通過GRPO算法，在統一的獎勵空間內進行優化。

這套「大規模長視頻預訓練 + 大規模多模態RL」的組合拳，被王仲遠稱為繼語言模型預訓練、后訓練之后的「第三種Scaling范式」。它指明了一條道路：通過不斷增加視頻數據、模型參數和算力，多模態世界模型的能力將可預見地持續提升。

黑科技DiDA
自回歸模型推理飆升20倍

自回歸模型「一個Token一個Token」的生成方式，導致其在生成高清圖像（通常一張圖就需要數千個Token）時速度很慢。這也是為什么Diffusion模型在生成領域長期占據主導地位。
為了攻克這一難題， Emu3.5團隊研發了名為離散擴散自適應（Discrete Diffusion Adaptation DiDA）的黑科技。
DiDA的核心思想是，在模型完成大規模的自回歸預訓練和后訓練之后，通過一個輕量級的「適應」階段，將其從「逐個Token預測」的模式，轉換為「并行生成」的模式。

具體來說，它借鑒了離散擴散的思想，將圖像生成過程變成一個「去噪」過程：模型不再是從左到右生成，而是一次性生成所有「帶噪聲」的視覺Token ，然后在幾個步驟內并行地、雙向地修正它們，最終恢復出清晰的圖像。
效果如何？每張圖片的推理速度提升約20倍，且幾乎沒有性能損失！
這意味著， Emu3.5的自回歸模型，在推理效率上首次能夠與頂級的閉源Diffusion模型（如Midjourney）相媲美。這不僅是工程上的巨大勝利，更從根本上解決了原生多模態架構的商業化落地瓶頸。

從圖像編輯到具身操作，開源最優

理論的先進性最終要靠效果說話。 Emu3.5交出的答卷，足以讓任何從業者感到興奮。

頂級的Any-to-Image生成與編輯：

Emu3.5不僅能生成帶有復雜公式、中英文對聯的高質量圖片，其圖像編輯能力更是達到了新的高度。在ImgEdit、GEdit-Bench等權威benchmarks上， Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在內的所有公開模型。

高層語義理解：
將指定的人物、特定的場景和任意物品進行組合， Emu3.5可以創作出一個符合邏輯的全新世界，展現了其強大的想象力和世界構建能力。

數字與空間理解：
指令「將圖片中標號為4的物體換成電影海報」，模型能精準定位并替換。

視角變換：
給定一張建筑正面圖，指令「切換到俯視圖」，模型能像擁有3D建模能力一樣，合理地生成新視角。

長時序、高一致性的「世界學習」能力：

這部分能力，是Emu3.5作為「世界模型」的核心體現，也是它與其他生成模型拉開代差的地方。在與Gemini 2.5 Flash Image的并列生成對比中， Emu3.5在視覺敘事、視覺指導、世界探索和具身操作等任務上的勝率均顯著更高。

視覺敘事（Visual Narrative）：
給定一個主題， Emu3.5能生成一系列圖文并茂、情節連貫、主角形象高度一致的繪本故事。這得益于其長序列建模能力，解決了傳統模型生成多圖時「張張換人」的痛點

給圖里的寶寶寫個故事，要講他夏天晚上和螢火蟲玩

視覺指導（Visual Guidance）：
如何倒水？如何疊衣服？Emu3.5能像一本活的說明書，通過「圖片+文字」的步驟，清晰地展示一個任務的全過程

模型輸出結果：如何用黏土和顏料手工制作一個宇航員模型

模型輸出結果：如何從種子開始種羽衣甘藍？

世界探索（World Exploration）：

用戶可以用文字定義一個場景，如「一個陽光明媚的現代客廳」，然后通過「向左轉」、「向前走」等指令，模型會生成符合邏輯的、連續的探索畫面，仿佛置身于一個可交互的虛擬世界。這部分前面的視頻已經展示了。

具身操作（Embodied Manipulation）：

這是Emu3.5最具想象力的應用之一。給定一個任務，如「用松靈機械臂把桌面收拾好， 12 步完成」，模型能生成一個包含12個步驟的、由松靈機器人手臂執行的圖文序列。它不僅規劃了子任務，還生成了每個關鍵步驟的視覺狀態。這為解決具身智能領域「數據稀缺」的痛點提供了全新的思路——用世界模型生成海量的、泛化的仿真數據。

智源研究院不僅發布了模型，更公開了詳盡的技術報告。這種開放的姿態，旨在邀請全球社區共同探索這條由中國開創的新路。「我們希望這條路后續成為主流的路。」王仲遠說，「登珠穆朗瑪峰南坡和北坡也許都可以登頂，我們希望我們走的是大家認可的一條路。」
Emu3.5的參數僅為340億，使用的視頻數據不到互聯網公開數據的1% 。它的能力上限，遠未觸及。
未來隨著模型規模、數據規模的進一步擴大，這個「世界模型基座」還將帶來怎樣的驚喜，我們拭目以待。
參考資料：
https://zh.emu.world/
【LeCun預言成真！790年長視頻，煉出最強開源「世界模型」】https://arxiv.org/pdf/2510.26583

推薦閱讀

上一篇：2025年最后兩個月，可期待的蘋果系統更新與硬件產品匯總！

下一篇：高智商 ≠ 高財商？50天實盤測試：LMArena 高分王者可能是「韭菜」