HSImul3R:給三維交互重建裝上物理大腦

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片

HSImul3R:給三維交互重建裝上物理大腦

文章圖片



在具身智能狂飆突進的今天 , 讓機器人像人一樣在復雜場景中靈活交互 , 已成為學術界與工業界的共同愿景 。 其中的核心挑戰在于人體 - 場景交互建模 , 這需要深入理解人體運動、空間布局以及交互的穩定性 。 從圖像或視頻中重建人體 - 場景交互(HSI) , 不僅能提供高保真的監督信號 , 還能幫助構建可擴展的、仿真就緒(Simulation-ready)的數據集 。
然而 , 現有方法普遍存在 “感知 - 仿真鴻溝”(Perception–Simulation Gap):許多在視覺上極其逼真的人體交互重建結果 , 一旦丟進物理仿真器 , 就會因為違背物理定律(如身體穿透物體、重心不穩等)而瞬間崩塌 。 這一鴻溝很大程度上源于人體與環境建模的分離 。 現有研究很少捕捉兩者間明確的物理耦合 , 而是分為三個獨立方向:1) 3D 場景重建(如 NeRF 3DGS) , 側重環境幾何而忽視人體動力學;2) 人體動作估計 , 雖具魯棒性但在隔離狀態下重建 , 缺乏物理接觸或環境約束;3) 交互建模 , 通常受限于規模和物理驗證不足 。 盡管近期出現了一些統一框架 , 但仍主要在 2D 圖像空間優化 , 優先考慮視覺對齊而非幾何與物理的有效性 。 因此 , 重建結果缺乏尺度和接觸精度 , 無法用于仿真部署 。
為了彌合這一鴻溝 , 來自南洋理工大學 S-Lab , ACE Robotics , 和上海人工智能實驗室的研究團隊推出了 HSImul3R—— 一個仿真就緒的人體 - 場景交互 3D 重建框架 。 該框架將重建表述為一個雙向物理感知優化問題 。 物理仿真器充當 “主動監督者” , 實現人體運動與場景幾何之間的閉環優化 。
正向優化:在固定場景幾何下細化人體運動 。 利用 3D 生成模型的結構先驗建立尺度一致的對齊后 , 他們將重建結果集成到模擬器中 , 進行針對場景的強化學習 , 利用物理信號(如關鍵點跟蹤一致性和幾何接觸約束)優化運動穩定性 。 反向優化:在經物理驗證的動作下細化場景幾何 。 針對結構缺陷導致的穩定性問題 , 他們提出了直接仿真獎勵優化(DSRO) , 利用仿真器反饋的獎勵來增強重力穩定性和交互可行性 。此外 , 他們采集構建了 HSIBench 數據集 , 包含 19 類物體、50 多個運動序列及 300 個獨特交互實例 。

想深入了解 HSImul3R 的技術細節?我們已經為你準備好了完整的論文、項目主頁!

論文標題:HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions arXiv: https://arxiv.org/abs/2603.15612 Project Page:https://yukangcao.github.io/HSImul3R/ GitHub:https://github.com/yukangcao/HSImul3R方法

以日常采集到的視頻或圖片作為輸入 , HSImul3R 通過 Physics-in-the-loop 的優化管線實現了模擬就緒的人體 - 場景交互重建 。 本文以圖片輸入的情況作為講解 。 首先 , 他們提出了在重建管線中注入顯式 3D 生成先驗 , 以實現更優的人體 - 場景對齊 。 隨后:(1)在正向優化中 , 作者提出了場景針對性強化學習 , 通過優化人體運動來提高在仿真器中的交互穩定性 。 (2)在反向優化中 , 作者引入了直接仿真獎勵優化(DSRO) , 利用仿真器關于穩定性的反饋來精細化場景幾何 。
具體而言 , 他們根據仿真的穩定性反饋定義了四種結果類型:第一類:物體在重力作用下無法保持自穩;第二類:物體在人體交互過程中失去平衡;第三類:物體雖能達到穩定狀態 , 但不能和人體產生有意義的交互;第四類:物體和人體實現了穩定的交互 。
人體 - 場景交互重建與對齊

通過顯式 3D 結構先驗進行對齊:盡管完成了上述初步對齊 , 兩個關鍵問題依然存在:
(1) 重建的場景幾何常包含結構錯誤 , 如組件斷開、表面缺失或非封閉拓撲;
(2) 人體 - 場景對齊僅依賴于基于 2D 投影的監督 , 缺乏 3D 幾何感知且易受遮擋影響 。
這些缺陷不可避免地導致物理仿真器中的物理不穩定和漂移 。 為解決這些挑戰 , 作者利用預訓練生成模型的 3D 結構先驗來修正場景幾何 , 并施加更穩健的交互約束 。







正向優化:基于場景的人體動作優化
在完成人體 - 場景交互的初始 3D 重建和對齊后 , 下一步是確保其在物理仿真器中具有穩定的動力學表現 。 一種直接的方法是采用運動跟蹤技術將重建的人體姿態重定向并放到仿真器中 。 然而 , 這樣直接仿真原始重建結果的做法往往無法產生穩定的交互 。 在許多情況下 , 人形機器人會無意中碰撞附近的物體 , 導致物體與身體分離并獨立靜置于地面 。 這種不穩定性是因為傳統的 3D 重建未考慮重力與交互力 , 無法驗證姿態與物體放置在物理上是否可實現 。
為解決此問題 , 作者在基于強化學習的運動跟蹤中引入了針對場景的監督信號 。



反向優化:仿真器引導的物體精細化
盡管帶有場景針對性強化學習的正向優化增強了仿真穩定性 , 作者仍觀察到穩定性比例尚不理想 。 研究發現 , 該問題很大程度上源于顯式 3D 生成先驗的質量不一 , 主要原因有二:(1) 生成的物體常包含結構缺陷(尤其是細長幾何體) , 例如桌椅缺失腿部 , 導致其在無交互的情況下也無法在仿真器中自穩;(2) 輸入圖像中人體造成的嚴重遮擋常導致生成的物體出現表面畸變或異常凸起 。 這些局限使得人形機器人在仿真中難以建立穩定且符合物理規律的接觸 。
直接仿真獎勵優化 (DSRO):受 DSO 啟發 , 他們提出了直接仿真獎勵優化(DSRO) , 這是一種利用物理仿真反饋作為監督信號來精細化 3D 顯式物體生成的創新方法 。 不同于依賴人工標注或 3D 真值的方法 , DSRO 直接利用仿真結果來評估生成物體及其與人體交互的物理合理性 。
形式上 , 我們將 DSRO 目標定義為:



穩定性由三個標準判定:(1) 物體必須在模擬器重力作用下保持直立和物理穩定;(2) 重建場景必須達到穩定的最終狀態;(3) 交互必須包含實際接觸 , 而非物體獨立靜置于地面 。
HSIBench 數據集及仿真實驗

為了支持本框架的訓練與基準測試 , 作者們構建了一個專門針對人體 - 場景交互的數據集 ——HSIBench 。 該數據集通過系統性地采集交互場景構建而成 , 邀請了三名志愿者(兩男一女)與多種物體進行交互 , 包括 8 把椅子、3 張桌子和 3 個沙發 。
HSIBench 共記錄了 300 個獨特的 HSI 案例 , 每個案例均從 16 個不同視角進行拍攝 , 以提供豐富的多視圖監督信號 。 上圖中 , 作者提供了部分數據的示例圖和仿真結果 。
真機實驗

除了仿真模擬之外 , 作者們基于 HSImul3R 優化的人體運動軌跡 , 實現了 sim-to-real 的真機實驗 。 其中 , 他們首先利用 GMR 將人體動作重定向至 宇樹 G1 人形機器人的形態 。 這些重定向后的動作隨后被用作擴散引導強化學習(Diffusion-guided RL)的先驗 , 在 IsaacGym 仿真器中訓練全身控制策略 。 該框架允許智能體在強化學習訓練階段利用擴散模型的生成先驗來學習穩健的平衡能力 。 訓練完成后 , 生成的控制策略通過 Unitree SDK 直接部署到 G1 人形機器人硬件上 。
如上圖所示 , 該策略在 宇樹 G1 真機上的成功部署表明 , HSImul3R 精細化后的動作能夠實現穩定的機器人 - 場景交互 。 該框架為利用 YouTube 等平臺的海量低成本數據來增強大規模具身智能模型的訓練數據提供了可擴展的基礎 。
總結
本文介紹了 HSImul3R , 一個能夠從非校準稀疏視角中重建仿真就緒人體 - 場景交互的框架 。 該方法方法集成了:(1) 接觸感知交互模型 , 旨在緩解 3D 重建中的人與場景穿模的問題;(2) 場景針對性強化學習策略 , 用以提升仿真器內的交互穩定性;(3) 直接仿真獎勵優化(DSRO)方案 , 利用仿真反饋微調圖生 3D 生成模型 , 從而提高仿真成功率 。 此外 , 作者們采集了 HSIBench 數據集以支持訓練與評估 。 實驗證明 , HSImul3R 在穩定仿真與高質量 3D 重建方面均達到了高保真效果 , 性能顯著優于現有最先進方法 。
盡管 HSImul3R 在仿真就緒重建領域邁出了第一步 , 但仍存在以下局限:
1. 成功率仍有提升空間:尤其是在涉及復雜交互或多物體(超過三個)的場景下;
【HSImul3R:給三維交互重建裝上物理大腦】2. 交互深度不足:在部分失敗案例中 , 人體與物體趨向于各自獨立站立 , 而非產生有意義的實質性交互;
3. 模型偏見:微調后的圖生 3D 模型不可避免地繼承了原始 MIDI 數據集及 HSIBench 的偏見 , 這可能限制其在域外場景的泛化能力 。

    推薦閱讀