LeCun的世界模型單GPU就能跑了

LeCun的世界模型單GPU就能跑了

文章圖片

LeCun的世界模型單GPU就能跑了

文章圖片

LeCun的世界模型單GPU就能跑了

文章圖片

LeCun的世界模型單GPU就能跑了

文章圖片

LeCun的世界模型單GPU就能跑了

文章圖片

LeCun的世界模型單GPU就能跑了

文章圖片

LeCun的世界模型單GPU就能跑了

文章圖片

LeCun的世界模型單GPU就能跑了

LeCun世界模型最新進展 , 開源了一套極簡訓練方案 , 單GPU就能跑 。
這套方案叫LeWorldModel , 它基于JEPA架構 , 實現像素輸入直接預測未來 , 速度快到離譜 , 完整規劃僅需1秒 。

它能只看像素畫面、不用復雜技巧、單GPU就能穩定訓練 , 學會預測 “我做這個動作 , 世界會變成什么樣” , 用來幫機器人、智能體做規劃和控制 , 又快又穩又好用 。

實際效果也很不錯:
速度飛起:規劃速度比大模型方案快48倍 , 1秒內搞定 。 參數很?。 褐揮?500萬參數 , 所有訓練與規劃實驗均在單張NVIDIA L40S顯卡上完成 , 幾小時即可訓完 。 控制很強:在推箱子、機械臂、導航等 2D/3D 任務里 , 超過之前的端到端方法 , 和大模型方案打得有來有回 。 懂物理: latent里藏著位置、角度等物理信息 , 還能識別 “不合物理” 的怪事(比如物體突然瞬移 , 它會覺得 “很意外”) 。 技術架構:把JEPA簡化到本質團隊介紹 , 以往的JEPA方法通過啟發式方法或技巧(例如EMA、停止梯度法、預訓練表示、掩碼或復雜的損失函數)來避免模型崩潰 。
然而 , 這些技巧使得JEPA訓練不穩定且難以進行 。

而LeWM的思路是把JEPA簡化到本質:用編碼器把圖片變特征 , 用預測器根據動作猜下一個特征 , 再用高斯正則防止坍塌 , 全程端到端、極簡穩定訓練 。
其架構只用到兩個核心組件——編碼器+預測器:
編碼器:把畫面壓縮成一小串數字(latent特征) 。
預測器:根據當前特征 + 你要做的動作 , 預測下一刻的特征 。

最關鍵的創新在于 , 它只用了兩個損失:
預測損失:讓預測器盡量猜對下一幀的真實特征 , 用簡單的MSE均方誤差 。 作用是讓模型學會世界的動態規律 。
SIGReg正則損失:強制讓所有特征向量服從標準高斯分布 。 作用是防止模型 “擺爛坍塌”(所有畫面輸出一樣的特征) 。
所以最終的總損失 = 預測損失 + λ × SIGReg正則損失 。

正則化權重 λ是唯一需要調優的超參數 , 極大簡化了訓練流程 , 完全不需要以往的額外方法 , 這也是LeWM穩定、好用的根本原因 。
實驗結果:完勝此前JEPA方法先放結論:LeWM完勝之前的端到端JEPA 方法(PLDM) , 和依賴大模型預訓練的DINO?WM打成平手甚至更強 , 同時訓練更簡單、速度更快、參數更小 。
團隊在4個經典機器人/控制任務上進行測試 , 并與DINO-WM和PLDM這兩種基于JEPA的最先進方法進行比較 。
4個任務分別是Push-T(推箱子)、Reacher(機械臂夠目標)、OGBench-Cube(3D 機械臂抓方塊)、Two-Room(2D 導航) 。

結果顯示:
Push-T(推箱子):LeWM最強 , 成功率96% , 比PLDM高18% , 甚至超過帶體感輸入的DINO-WM; Reacher(機械臂夠目標):LeWMPLDM , 和DINO-WM接近; OGBench-Cube(3D機械臂抓方塊):LeWM略輸DINO-WM , 但依然很強; Two-Room(2D導航):LeWM稍弱 , 但物理信息依然學得很好 。
在2D和3D任務中 , LeWM縮小了與基于基礎模型的世界模型(例如 DINO-WM)之間的差距 , 同時優于端到端基線PLDM 。
值得注意的是 , LeWM的規劃速度比DINO-WM快48倍:不到1秒vs約47秒 。
原因是LeWM能把觀測數據縮小約200倍 , AI預測未來時算得更快、更省力 , 讓基于特征的世界規劃幾乎可以實時運行 。

此外 , LeWM是真懂物理 。
模型把畫面變成一串數字(latent) , 團隊在訓練好的LeWM后面 , 接入一個簡單的小探測器 , 讓它只靠latent數字 , 去預測機器人/方塊的位置、方塊的角度、機械臂指尖坐標 。
結果位置預測幾乎100%準確 , 角度預測也非常準 , 比之前的PLDM強很多 , 和大模型DINO差不多 。

為了直觀展示LeWM的學習效果 , 團隊還額外訓練了一個用于可視化的小解碼器 , 展示了三類畫面:真實視頻、模型 “看到”的還原視頻、以及模型的未來預測視頻 。

可以看到 , LeWM不僅能準確理解當前場景 , 還能正確預測物體接下來的運動 , 真正抓住了環境的核心結構與變化規律 。
不僅如此 , 它還能識別 “違反物理規律” 的怪事 。
團隊做了個實驗 , 故意制造兩種 “擾動場景” , 看模型會不會覺得不對勁:
視覺擾動:物體突然變色; 物理擾動:物體直接瞬移到隨機位置 , 違背物理定律 。模型面對“變色”的反應是平平無奇 , 而面對“物理違規” , 驚訝值直接爆表 。

團隊背景一作Lucas Maes , Mila的三年級博士生 , 導師是Damien Scieur 。
目前在布朗大學擔任訪問研究員 , 與Randall Balestriero合作研究世界模型 。

其工作重點是通過各種方法改進JEPA, 包括基于梯度的規劃、分層時間抽象、目標規范和物理理解 。
Quentin Le Lidec , 紐約大學柯朗數學研究所的博士后研究員 , 與Yann LeCun合作研究機器人世界模型 。
目前的研究重點是利用人工智能解決物理世界中的問題 , 曾為Pinocchio、 Simple和stable-worldmodel等開源項目做出貢獻 。

Damien Scieur , 現任三星研究員 , 曾任普林斯頓大學博士后 , 主要方向是優化算法 。

Randall Balestriero , 布朗大學計算機科學助理教授 , 長期深耕人工智能與深度學習領域 。

2013年起研究可學習信號處理 , 他參與的技術曾用于NASA火星車火星地震探測 。
2021年獲萊斯大學博士學位 , 后進入Meta AI做博士后 , 師從Yann LeCun 。
【LeCun的世界模型單GPU就能跑了】項目主頁:https://le-wm.github.io/github地址:https://github.com/lucas-maes/le-wm論文地址:https://arxiv.org/pdf/2603.19312v1

    推薦閱讀