中山大學HCP Lab聯合拓元智慧提出高效世界模型DDP-WM

2026-04-08 ai 互聯網義烏電商個體工商戶

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

基于預訓練視覺表征構建世界模型已成為具身智能領域的前沿研究方向。以 DINO-WM 為代表的先進研究成果表明，基于視覺 Transformer (ViT) 的架構能夠精確捕捉復雜的物理動態，并展現出強大的零樣本規劃能力。然而，這種不區分運動物體和靜態背景、對所有圖像塊應用自注意力的密集計算范式導致了高昂的計算開銷，使得決策速度成為實際部署中一個巨大的挑戰。

具體來說，目前最先進的此類模型 (DINO-WM) 在處理 Push-T 等典型操作任務時，其模型預測控制 (MPC) 的單個決策循環耗時高達兩分鐘。顯然，這種延遲對于需要與物理世界持續高頻交互的現實場景應用而言是不可接受的，阻礙了機器人的大規模、低成本端側設備部署。

近期，中山大學人機物智能融合實驗室 (HCP Lab) 聯合拓元智慧 X-Era AI 提出了一種新型的高效世界模型框架：DDP-WM (Disentangled Dynamics Prediction World Model) 。該框架的核心思想是解耦動態預測。通過一套系統化的設計，將計算資源精確分配給場景中不同屬性的動態特性，從而在推理速度大幅提升的同時，還能顯著提升復雜操縱任務的規劃成功率。例如，將 Push-T 任務的規劃速度提升 9 倍的同時，成功率從 90% 提升至 98% 。該工作為設計高效、高保真度的世界模型提供了一條新途徑。

論文標題：DDP-WM: Disentangled Dynamics Prediction for Efficient World Models 論文鏈接：https://arxiv.org/abs/2602.01780 代碼鏈接：https://github.com/HCPLab-SYSU/DDP-WM
I. 動機
DDP-WM 的設計源于對現有稠密計算范式的模型在當前主流任務上工作模式的洞察。大多數場景的物理交互過程中，實際發生變化的區域面積占比很?。灰簿褪撬?，絕大部分的計算都浪費在對靜態背景的無效重復計算上。

為直觀地揭示這種計算冗余的本質，該研究團隊對密集模型的內部工作機制及其處理的動態數據進行了深入分析。圖 1(a) 使用主成分分析 (PCA) 可視化模型預測器中每一層特征的演變。例子中我們可以看到，在多層高成本計算的整個過程中，靜態背景區域的那些 token 幾乎沒有特征上的變化，直接證明了大量的計算能力浪費在了重復無效計算上。

圖 1(a)：密集模型中特征演變的 PCA 可視化，揭示了靜態背景區域中大量的冗余計算。

這種現象的根本在于：大規模預訓練的視覺基礎模型潛在空間表征，對于稀疏的運動變化所產生差異具有固有的稀疏性。將輸入到真實世界模型的相鄰兩幀的特征圖進行相減后可視化（圖 1(b)），只有極小部分特征能看到顯著變化。物理世界中稀疏的運動動態反映在特征層面上是高度稀疏且結構化的，這與前文觀察到的靜態背景區域 token 層間一致性是相符的。

【中山大學HCP Lab聯合拓元智慧提出高效世界模型DDP-WM】
圖1(b)：相鄰真實特征之間差異的 PCA 可視化，展示了物理世界動力學在特征層面的固有稀疏性。

基于這種洞察， DDP-WM 確立了其解耦動態預測 (DDP) 的核心設計理念。該理念認為，觀測場景的潛在狀態演化可以從根本上分解為兩種不同的動態：一種是稀疏的主動態，由物理交互直接引起而發生在少數前景物體上；另一種是上下文驅動的背景更新，由主動態引發而發生在更廣泛的區域內。

II. 架構：動態分配系統

圖 2：DDP-WM 框架概述。

如圖 2 所示，預測過程首先用高效的歷史信息融合模塊，通過單層交叉注意力將速度、加速度等高階動態信息注入到當前幀特征里，為之后精確預測提供必要的上下文信息。富含歷史信息的 tokens 經過動態定位網絡來識別下一幀中的主動態所在區域；識別出的主動態區域通過強大的稀疏主動態預測器，變換成下一幀的主動態特征；其余背景 tokens 在低秩校正模塊中，在主動態 tokens 的指導下高效地修正背景上的細微變化。

2.1 動態定位：精確識別主要動態區域
動態定位網絡的功能是高效、準確地識別出下一幀中發生稀疏的主動態。輸入歷史信息融合后的 token 序列到輕量級視覺 Transformer (ViT) ，輸出一個稀疏的二值掩碼 M ，該掩碼用于標記出預期會發生核心物理交互的圖像塊，把計算資源引向最重要的部分。

2.2 稀疏預測：將計算能力集中于核心變化
主動態是物理交互的核心，其變化通常復雜且非線性，需要強大的模型能力才能捕捉。 DDP-WM 使用了一個強大的稀疏主動態預測器。該模塊也使用多層 ViT 架構，但是它的所有計算資源只用于動態定位網絡識別出來的稀疏前景特征子集。這樣 DDP-WM 就避免了把計算能力浪費在大面積的靜態背景上，從而可以讓更深、更強的模型來對真正的物理過程進行建模。另外，該模塊采用自適應長度調整的方式，可以適應不同的場景中動態變化的稀疏輸入序列長度，使得模型能應對大幅度運動導致的大面積畫面變化，在硬件效率和計算精度之間取得良好的平衡。

2.3 背景更新：低成本自洽校正
DDP-WM 對被視為近似靜態的大面積背景區域采用了一種高效的更新策略：用一個專門設計的低秩校正模塊 (LRM) 來執行低成本的自洽校正。其核心是一個單向交叉注意力機制，允許來自前一幀的背景特征查詢主預測器新生成的前景特征。通過這種方式，背景特征可以以最小的計算開銷進行微調，從而反映前景物體運動引起的全局上下文變化。這種設計確保了整個潛在特征空間在演化過程中的一致性和平滑性，對下游規劃任務至關重要。

III. 實驗驗證：效率與性能的雙重優勢
為了全面評估 DDP-WM 框架的有效性，研究團隊在五個具有不同動態特性和任務復雜度的仿真環境中進行了廣泛的實驗。這些環境涵蓋了從簡單的導航（PointMaze、Wall）到精確的桌面操作 (Push-T) ，再到柔性體 (Rope) 和多體系統 (Granular) 之間復雜的交互等各種場景。評估主要集中在規劃成功率 (SR)、倒角距離 (CD) 和模型預測控制 (MPC) 的計算效率等核心指標上。

3.1 性能超越現有最佳基準
實驗結果表明， DDP-WM 在所有任務上的規劃性能均達到或超過當前最先進的密集世界模型 DINO-WM 。如表 1 所示， DDP-WM 在 PointMaze 和 Wall 導航任務中分別取得了 100% 和 98% 的高成功率。在具有挑戰性的剛體操作任務 Push-T 中， DDP-WM 的 MPC 成功率達到 98% ，顯著優于 DINO-WM 的 90% 。這表明 DDP-WM 提供的高精度預測能夠為規劃器提供更好的決策支持。

表 1 ：五種仿真環境下 MPC 規劃性能對比

在更為復雜的繩索和顆粒任務中，難以定義二元成功狀態；因此，倒角距離被用作評估操作精度的指標。 DDP-WM 在這兩項任務中也取得了最低的倒角距離，這展現了其強大的理解高自由度非剛體變形和復雜多體動力學的能力。規劃性能的提升源于高保真的預測建模質量。動圖中可以看到，稠密 DINO-WM 在多步預測后，其生成的 T 形物塊出現了明顯的視覺偽影，例如邊緣模糊羽化、或違背物理常識的軟體狀扭曲變形；也就是說，對物體剛體特性不能夠準確地表征。而 DDP-WM 則在整個過程中保持物塊銳利邊界和物理一致的旋轉姿態。這證明聚焦預測核心變化區域能夠顯著提升預測質量。

3.2 效率實現數量級提升
實驗數據從三個方面來度量 DDP-WM 的效率提升：理論計算成本 (FLOPs)、實際推理吞吐量、端到端 MPC 決策延遲。動態復雜的 Push-T 任務中， DDP-WM 的單步前向推理 FLOPs 為 2.5G ， DINO-WM 的單步前向推理 FLOPs 為 23G ，兩者之比約為 0.108 。該理論上的優勢被轉化成了實際推理速度的提高。在單步推理吞吐量測試中， DDP-WM 在 Push-T 任務上實現了每秒 1563 個樣本的吞吐量，相比 DINO-WM 提升了 9.2 倍。如此顯著的速度優越性在整個 MPC 決策循環中能夠更顯著地體現；比如，在需要 30 次 CEM 迭代的 Push-T 任務中， DDP-WM 的單次決策時間從 DINO-WM 的兩分鐘顯著縮短至 16 秒，這就使得更高頻率的實時機器人控制成為了可能。

3.3 消融實驗
為對框架中各設計元素的有效性進行驗證，研究團隊對 Push-T 任務進行了一系列消融實驗。其核心結果是：當去除低秩校正模塊 (LRM) ，并只進行稀疏預測，而將靜態區域的特征嚴格保持與上一幀不變時，雖然開環預測仍然能夠保持超越稠密預測的高保真建模，但是模型的 MPC 成功率從 98% 急劇下降到 70% 。這說明 LRM 解決的并非簡單的開環預測精度問題。

IV. 分析：閉環規劃中的挑戰與低秩校正
消融實驗揭示了一個關鍵現象：雖然簡單的稀疏化方案（即去掉 LRM 的版本，僅預測前景并直接復制背景）在多步開環預測中表現良好，但在閉環規劃中性能急劇下降。研究團隊對不同模型為規劃器生成的優化景觀進行了可視化分析。

4.1 優化景觀

圖 6：MPC 成本函數景觀對比。（左圖）移除 LRM 后的稀疏模型生成了一個崎嶇不平、噪聲較大的成本景觀。（右圖）完整的 DDP-WM 模型提供了一個平滑且易于優化的漏斗狀地形。

移除 LRM 之后，模型產生的代價地形崎嶇不平，噪聲大，峰形呈鋸齒狀，沒有明顯的全局最小值（圖 6(a)）。這種地形上任何基于采樣的優化器都無法找到有效的下降方向，在閉環規劃中就會失敗。相反的是，帶有 LRM 的 DDP-WM 模型生成的代價地形非常平滑，并且有明顯的漏斗狀宏觀結構，中間有一個深的、唯一的最小值（圖 6(b)）。這種地形給優化算法提供了一個清晰的引力井，從而可以穩定地收斂到最優解。

4.2 低秩結構
研究團隊進一步假設，這種看似復雜的全局背景更新本質上是低秩的。為了驗證這一核心假設并檢驗 LRM 是否成功學習到這種結構，研究團隊對由真實特征圖做差得到的背景更新特征圖和 LRM 模塊生成的背景更新特征圖進行了主成分分析 (PCA) 。結果發現，真實更新特征圖的累積解釋方差曲線隨著主成分數量的增加，呈現出急劇上升、快速飽和的趨勢（圖 7），有力地證明了真實特征圖的更新過程本身就是低秩的。另外也可以看到， LRM 模塊生成的更新特征圖的 PCA 曲線和真實值曲線非常相似。

圖 7：LRM 成功學習到真實的低維結構。（左圖）LRM 預測的更新特征的 PCA 分析（右圖）真實更新特征的PCA 分析。

V. 總結與展望
DDP-WM 的成功表明，通過基于對潛在空間的運動模式的深刻洞察進行有針對性的結構設計，完全可以在不犧牲甚至超越現有 SOTA 的前提下，顯著提高世界模型預測速度。這項工作對于推動具身智能走向實際應用有重大意義。 DDP-WM 把對計算資源的依賴降低了一個數量級之后，就有可能在更輕量級的邊緣硬件上部署更高頻、更復雜的模型來進行規劃，從而為工業生產和家政服務等實際場景中部署先進的自主機器人鋪平道路。

推薦閱讀

上一篇：瀏覽器還值得再做一遍嗎？

下一篇：TCL登錄MWC 26：AI時代的屏幕是什么樣的