RoboScience打造具身世界模型,用物體3D點云軌跡打開物理認知的黑箱

RoboScience打造具身世界模型,用物體3D點云軌跡打開物理認知的黑箱

文章圖片

RoboScience打造具身世界模型,用物體3D點云軌跡打開物理認知的黑箱

文章圖片

RoboScience打造具身世界模型,用物體3D點云軌跡打開物理認知的黑箱

機器人前瞻(公眾號:robot_pro)
作者 | 許麗思
編輯 | 漠影
如果機器人能在行動之前 , 先“預演”未來——發生什么接觸、物體會如何移動、軌跡是否合理——它會變得更聰明嗎?
機器人前瞻3月23日報道 , 近日 , RoboScience推出了「具身世界模型」 。 它不是簡單地生成好看的視頻 , 而是讓機器人在數字世界中構建一個可交互、可預測、符合物理規律的“想象空間” , 可以無限試錯、預演未來、評估風險 , 再到真實世界中從容執行 。
當前 , 行業內的世界模型大多聚焦在兩個方向:一是2D視頻生成 , 預測下一幀像素卻不懂三維空間;二是3D靜態重建 , 能還原空間結構卻無法預測物體如何隨時間運動 。 RoboScience的「具身世界模型」選擇第三條路——3D動態世界模型:在三維空間中 , 預測物體隨時間的連續運動軌跡 。
「具身世界模型」是RoboScience VLOA大模型的兩大核心引擎之一 , 與「通用操作模型」共同構成通往通用具身智能的完整閉環 。 前者負責理解物理世界、預演未來軌跡 , 后者則將想象轉化為精準動作 。

一、以物體為中心的3D點云軌跡:讓思考可見該「具身世界模型」接收自然語言指令與視覺圖像作為輸入 , 可以處理單視角或多視角圖像 , 在復雜場景中精準定位目標物體及其未來運動狀態 。
與傳統方法預測下一幀像素不同 , 「具身世界模型」關注物體狀態的語義變化——物體在三維空間中的位置、姿態、形變、與周圍環境的交互關系 。 它將場景分解為一個個物體 , 分別預測其未來的運動路徑 。
最終輸出是描述物體未來運動路徑的3D點云軌跡:一串帶有時間戳的三維點序列 , 每個點包含位置坐標、姿態信息、時間步和預測置信度 。
為什么是3D點云?因為它顯式可解釋 , 可以直觀看到模型預測的路徑;它在真實三維空間中建模 , 天然滿足幾何約束;而且軌跡可直接作為下游操作模型的輸入 , 實現從感知到執行的無損傳遞 。
「具身世界模型」生成的視頻及其3D點云軌跡
這些3D點云軌跡并非憑空產生 , 而是通過一個專為動態三維世界設計的神經網絡架構 , 從輸入的視覺圖像和語言指令中端到端生成 。
下圖展示了「具身世界模型」的內部結構:
「具身世界模型」架構圖
「具身世界模型」會先將RGB觀測、3D點云先驗與任務指令分別編碼為可計算的語義與空間表征 , 再送入世界因果Transformer對任務條件下的未來世界演化進行建模 , 形成統一的潛在世界表征;隨后 , 模型通過解碼過程輸出場景與目標物體的3D flow , 并可沿可選分支進一步生成未來操作視頻 , 從而把“看見當下、理解指令、預測未來”連成一條完整鏈路 。
這一架構賦予模型三大核心亮點:
亮點一:
跨物體泛化——理解物理屬性
無論是光滑的洗發水瓶、透明的棉簽盒 , 還是不同樣式、顏色的飲料盒與包裝——面對材質、形狀、尺寸各異的物體 , 模型均能精準預測其運動軌跡 。
這體現的是模型對物體物理屬性的深刻理解:它知道硬質物體如何被抓取、軟質物體會如何形變、不同材質的物體需要怎樣的接近角度 。 模型無需針對每個新物體重新訓練 , 而是將對物理世界的通用理解遷移到未見過的物體上 。
多物體抓取演示
在同一個收納場景中 , 模型針對棉簽盒、瓶子等不同物品生成適配的抓取與展示動作 。
面對桌面上的檸檬茶盒、咖啡膠囊盒、橙色汽水瓶、袋裝咖啡 , 模型為每個物體生成精準的運動軌跡 。
亮點二:
動態過程建?!胂笪锢碜兓?br /> 給定第一人稱視角的第一幀圖像 , 模型能“想象”出后續倒水的完整過程——水壺如何傾斜、水流如何注入杯子、杯中的水位如何上升 。
即使倒水動作涉及液體動態和精細操作 , 模型依然能生成符合物理規律的3D點云軌跡 。 這一能力遠超單純“補全視頻”的范疇 , 是真正對物理未來的建模 。
▎第一人稱視角操作演示
模型預測水壺向碗中倒水的完整過程 , 包括傾斜角度、水流注入和水位上升 。
模型預測手持白色馬克杯放上餐盤的運動軌跡 。
亮點三:
指令跟隨與個體區分——理解語義意圖
模型不僅能識別物體 , 更能理解指令中的語義差異:對象是誰、動作是什么、意圖有何不同 。 這是跨模態語義對齊與細粒度實例區分能力的體現 。
模型生成機械臂將白色馬克杯和裝有食物的小綠碗分別放入橙色碗中的不同操作 。
模型預測機械臂從洗衣籃中分別取出棕色衣物和熒光黃色衣物放入洗衣機的不同操作 。
通過以上的可視化案例 , 其讓世界模型從一個“黑箱”變成了一個可解釋、可調試、可信賴的認知引擎 。 每個視頻中的軌跡變化 , 都是模型內部思考的直接映射 。

二、四大能力:讓想象更真實上述案例所展現的跨物體泛化、動態過程建模、指令跟隨等能力 , 根植于模型內在的四項核心技術特性 。 這些特性確?!妇呱硎澜缒P汀共粌H是“想象” , 更是“可靠的想象” 。
·物理約束滿足:所有軌跡嚴格滿足動力學、碰撞、穩定性等真實世界物理約束 。 倒水案例中 , 水壺傾斜角度與水流軌跡的匹配、水面的平穩上升 , 都體現模型對重力、流體行為的精準把握 。 這是2D視頻生成無法做到的——2D世界沒有重力方向 , 而我們的模型在三維空間中真正“理解”物理定律 。
·原生支持物理多解性建模:真實世界充滿不確定性 。 本方案利用擴散模型的生成特性 , 在潛在空間內構建物理演化的概率分布 , 從而能夠推演出同一任務下多種合理的軌跡方案 。 這種對不確定性的建模能力 , 為具身智能在復雜場景下的決策安全性提供了堅實的底層支撐 。
·長時序空間一致性:在復雜多步驟任務中 , 模型能保持預測狀態在時間和空間上的全局連續 。 倒水視頻長達數秒的預測中 , 物體相對位置始終合理 , 沒有幻覺 。
·硬件解耦:模型核心與具體機器人結構解耦 , 生成的規劃可無損遷移至任何形態機器人本體——無論是機械臂、人形機器人還是靈巧手 , 都能理解同樣的物體軌跡 。
正是這四項核心技術特性 , 讓「具身世界模型」的每一次“想象”都有據可依、有律可循 。
「具身世界模型」的能力也會隨著訓練次數的迭代持續進化 。 下圖展示了模型在預訓練過程中 , 隨著訓練次數的增加 , 模型能力在多個關鍵指標上的提升 。
模型訓練迭代過程中的指標變化趨勢 , Content Alignment、Subjective Quality、Photometric Consistency和Motion Smoothness在微調過程中均持續提升 。 ?表示最終checkpoint , 標注給出了最終分數及其相對初始模型的提升幅度 。
從基礎模型到最終 checkpoint 的性能增益 , 左圖表示各指標的絕對提升 , 右圖表示相對提升百分比 。 Photometric Consistency 的提升最大 , 其次是 Motion Smoothness 。
可以看到 , 投喂的數據和投入的算力越多模型對物理世界的理解就就越精準生成的未來軌跡就越貼近真實 。
這正是具身智能領域的Scaling Law——模型的成長性是可預測、可持續的 。 隨著我們以每周數十萬小時的速度持續擴充視頻數據集 , 世界模型的能力將持續進化 , 為機器人提供越來越可靠的“想象空間” 。
而在完整VLOA架構中 , 具身世界模型扮演“認知大腦”角色——理解物理世界、預測物體狀態、生成可執行的3D點云軌跡 。 這個軌跡通過Object Trajectory(物體軌跡)接口 , 傳遞給下一個核心模塊:通用操作模型 。
值得一提的是 , 支撐兩大模型持續進化的底層基石 , 是規模與質量并重的數據體系 。
該公司通過全自動數據標注與清洗pipeline , 從海量互聯網視頻中篩選與物體狀態變化、物理交互相關的高價值內容 , 已累積超過100萬小時高維多模態操作相關的視頻數據(上千萬video clips) , 并以每周數十萬小時的速度持續增長 , 目標是到2026年底構建千萬小時級的全球領先視頻數據集 , 為「具身世界模型」的持續進化提供不竭燃料 。
同時 , 在「通用操作模型」數據方面 , 其基于自研的多模態物理引擎 , 已積累10B(100億次)高質量全空間物體操作數據集 , 目標是到2026年構建超過1T(1萬億次)的操作數據集 。
今天 , 其展示了具身世界模型如何用3D點云軌跡打開物理認知的黑箱 。 但這只是故事的一半——如何將這些想象軌跡轉化為機器人手部精確的接觸點、合適的力控、流暢的動作?如何適配不同形態機器人?這正是 《VLOA系列解讀(二):通用操作模型》 即將揭曉的答案 。
【RoboScience打造具身世界模型,用物體3D點云軌跡打開物理認知的黑箱】而承載這些能力的 , 是該公司同步研發的機器人本體產品 。 它們是VLOA大模型技術的最佳載體 , 也是智能真正落地物理世界的最終形態 。

    推薦閱讀