英偉達研究:看完44000小時人類視頻后,機器人學會想象物理世界

英偉達研究:看完44000小時人類視頻后,機器人學會想象物理世界

文章圖片

英偉達研究:看完44000小時人類視頻后,機器人學會想象物理世界

文章圖片

英偉達研究:看完44000小時人類視頻后,機器人學會想象物理世界

在走向通用人工智能的道路上 , 機器人領域長期面臨著“莫拉維克悖論”的限制:許多對人類來說很困難的事 , AI 卻很擅長;而許多對人類來說輕而易舉的事 , AI 反而做不到 。

例如 , 讓計算機在智力測試或棋類游戲中擊敗人類或許相對容易 , 但要讓機器人像一歲孩子那樣具備對物理世界的感知和運動本能 , 卻難如登天 。

近年來 , 大語言模型展現了對人類知識的壓縮與生成能力 , 但在物理交互層面 , 如何讓智能體理解“動作”與“環境”之間復雜的因果關系 , 始終是具身智能尚未攻克的難題 。

近日 , 英偉達(NVIDIA)與其通用具身智能研究團隊(GEAR)共 30 個作者聯合發布了一項代號為 DreamDojo 的最新研究成果 , 試圖從根本上影響機器人學習物理世界的方式 。


圖 | 團隊論文:DreamDojo:基于大規模人類視頻的通用機器人世界模型(來源:GitHub)

這項工作并沒有依賴傳統的、昂貴的機器人遙操作數據堆疊 , 而是另辟蹊徑 , 構建了一個包含 44000 小時、第一人稱視角人類視頻的龐大數據庫 , 并以此訓練出了一個能夠通用化的機器人世界模型 。

這一模型不僅能夠逼真地生成物理交互視頻 , 更關鍵的是 , 它讓機器人首次具備了可控的“想象力” 。 即在執行動作之前 , 在潛意識中預演人類世界物理后果的能力 。


(來源:論文)

世界模型的概念已經并不新鮮 。 從早期的游戲環境模擬到自動駕駛中的軌跡預測 , 預測未來狀態一直是智能決策的核心 。 然而 , 在開放世界的機器人操作任務中 , 世界模型的構建面臨著獨特的挑戰 。 與有著清晰規則的電子游戲或結構化道路不同 , 家庭、工廠或辦公室等非結構化環境充滿了不確定性 。

例如一個看似簡單的“抓取水杯”動作 , 涉及物體材質、摩擦力、液體晃動以及機械臂動力學等無數變量 。 此前的視頻生成模型 , 如 OpenAI 的 Sora 或 Google 的 Genie , 雖然在畫面生成質量上取得了突破 , 但它們大多缺乏精確的動作控制接口 , 難以直接服務于機器人的決策回路 。

而此次 DreamDojo 的核心突破就在于此 , 它證明了通過大規模的人類視頻預訓練 , 結合創新的“潛在動作”(Latent Actions)表征 , 可以有效地彌合人類與機器人之間的“具身差異”(Embodiment Gap) , 從而讓機器人獲得對物理規律的通用理解 。

借力人類視頻突破數據缺口

長期以來 , 制約機器人基礎模型發展的最大瓶頸在于數據 。 盡管互聯網上充斥著萬億級別的文本和圖像數據 , 但高質量的“機器人操作數據” 。 即包含精確動作指令(Action Labels)和環境反饋的序列數據卻極度稀缺 。 目前主流的機器人數據集 , 如 Open X-Embodiment , 雖然匯集了多個實驗室的數據 , 但在場景多樣性和物理交互的豐富度上 , 仍遠不足以覆蓋真實世界的復雜性 。

英偉達團隊意識到 , 單純依靠擴大機器人實體數據的采集規模是不現實的 。 采集成本高昂、硬件損耗大、場景布置繁瑣 , 這些因素限制了數據的增長速度 。 相比之下 , 人類在日常生活中每時每刻都在與物理世界交互 , 而這些交互過程如果被記錄下來 , 本身就是蘊含著豐富物理知識的寶庫 。

為了挖掘這一寶庫 , 研究團隊構建了名為 DreamDojo-HV(Human

    推薦閱讀