英偉達研究：看完44000小時人類視頻后，機器人學會想象物理世界

2026-04-08 人工智能 Google openai 機器人英偉達

文章圖片

文章圖片

在走向通用人工智能的道路上，機器人領域長期面臨著“莫拉維克悖論”的限制：許多對人類來說很困難的事， AI 卻很擅長；而許多對人類來說輕而易舉的事， AI 反而做不到。

例如，讓計算機在智力測試或棋類游戲中擊敗人類或許相對容易，但要讓機器人像一歲孩子那樣具備對物理世界的感知和運動本能，卻難如登天。

近年來，大語言模型展現了對人類知識的壓縮與生成能力，但在物理交互層面，如何讓智能體理解“動作”與“環境”之間復雜的因果關系，始終是具身智能尚未攻克的難題。

近日，英偉達（NVIDIA）與其通用具身智能研究團隊（GEAR）共 30 個作者聯合發布了一項代號為 DreamDojo 的最新研究成果，試圖從根本上影響機器人學習物理世界的方式。

圖 | 團隊論文：DreamDojo：基于大規模人類視頻的通用機器人世界模型（來源：GitHub）

這項工作并沒有依賴傳統的、昂貴的機器人遙操作數據堆疊，而是另辟蹊徑，構建了一個包含 44000 小時、第一人稱視角人類視頻的龐大數據庫，并以此訓練出了一個能夠通用化的機器人世界模型。

這一模型不僅能夠逼真地生成物理交互視頻，更關鍵的是，它讓機器人首次具備了可控的“想象力” 。即在執行動作之前，在潛意識中預演人類世界物理后果的能力。

（來源：論文）

世界模型的概念已經并不新鮮。從早期的游戲環境模擬到自動駕駛中的軌跡預測，預測未來狀態一直是智能決策的核心。然而，在開放世界的機器人操作任務中，世界模型的構建面臨著獨特的挑戰。與有著清晰規則的電子游戲或結構化道路不同，家庭、工廠或辦公室等非結構化環境充滿了不確定性。

例如一個看似簡單的“抓取水杯”動作，涉及物體材質、摩擦力、液體晃動以及機械臂動力學等無數變量。此前的視頻生成模型，如 OpenAI 的 Sora 或 Google 的 Genie ，雖然在畫面生成質量上取得了突破，但它們大多缺乏精確的動作控制接口，難以直接服務于機器人的決策回路。

而此次 DreamDojo 的核心突破就在于此，它證明了通過大規模的人類視頻預訓練，結合創新的“潛在動作”（Latent Actions）表征，可以有效地彌合人類與機器人之間的“具身差異”（Embodiment Gap），從而讓機器人獲得對物理規律的通用理解。

借力人類視頻突破數據缺口

長期以來，制約機器人基礎模型發展的最大瓶頸在于數據。盡管互聯網上充斥著萬億級別的文本和圖像數據，但高質量的“機器人操作數據” 。即包含精確動作指令（Action Labels）和環境反饋的序列數據卻極度稀缺。目前主流的機器人數據集，如 Open X-Embodiment ，雖然匯集了多個實驗室的數據，但在場景多樣性和物理交互的豐富度上，仍遠不足以覆蓋真實世界的復雜性。

英偉達團隊意識到，單純依靠擴大機器人實體數據的采集規模是不現實的。采集成本高昂、硬件損耗大、場景布置繁瑣，這些因素限制了數據的增長速度。相比之下，人類在日常生活中每時每刻都在與物理世界交互，而這些交互過程如果被記錄下來，本身就是蘊含著豐富物理知識的寶庫。

為了挖掘這一寶庫，研究團隊構建了名為 DreamDojo-HV（Human

推薦閱讀

上一篇：歐盟再揮反壟斷大棒：谷歌涉嫌操縱廣告定價，恐面臨超400億美元天價罰單

下一篇：別再迷信 Mac 了：用 AMD “暴力馴服”本地智能體OpenClaw