NTU MARS Lab提出A2A新范式,實現機器人高性能單步動作生成

NTU MARS Lab提出A2A新范式,實現機器人高性能單步動作生成

文章圖片

NTU MARS Lab提出A2A新范式,實現機器人高性能單步動作生成

文章圖片

NTU MARS Lab提出A2A新范式,實現機器人高性能單步動作生成

文章圖片

NTU MARS Lab提出A2A新范式,實現機器人高性能單步動作生成

文章圖片

NTU MARS Lab提出A2A新范式,實現機器人高性能單步動作生成

文章圖片

NTU MARS Lab提出A2A新范式,實現機器人高性能單步動作生成


在機器人領域 , 擴散策略(Diffusion Policy)已經成為了標準模仿學習策略和 VLA 動作生成范式 , 但其「從隨機噪聲中迭代解噪」的機制帶來了不容忽視的推理延遲 。 如果機器人不再從隨機高斯噪聲開始「盲猜」 , 是否可以基于「剛剛做了什么」來預測「下一步做什么」呢?
新加坡南洋理工大學 MARS Lab 提出 Action-to-Action (A2A) Flow Matching 新范式:以歷史機器人軌跡而非隨機噪聲作為生成起點 , 打破了生成速度與精度的雙重瓶頸 , 實現了更高訓練效率、極速推理響應及卓越的泛化表現 。
https://mp.weixin.qq.com/s/mrSUcVLUAUqghdP1Mn1IDw

Website:https://lorenzo-0-0.github.io/A2A_Flow_Matching ArXiv:https://arxiv.org/pdf/2602.07322 Code:https://github.com/JIAjindou/A2A_Flow_Matching背景
擴散策略已成為機器人多模態動作建模的主流方法 , 但其依賴從隨機噪聲中進行多步迭代解噪 , 推理延遲較高 , 在實時控制場景中構成關鍵瓶頸 。 雖然現有工作嘗試優化噪聲初始化 , 但仍未擺脫「從噪聲到數據」的長程生成路徑 。
這種「去噪」思維源自圖像生成 , 但并不完全適用于機器人控制 。 與缺乏先驗的圖像合成不同 , 機器人擁有持續反饋的自身狀態信號 , 具有顯著的物理一致性與運動連續性 。 A2A 的核心洞察在于:既然擴散模型本質是學習分布間的映射 , 為何不將起點更換為信息密度更高、距離目標分布更近的歷史狀態先驗?
核心范式
A2A 策略的設計邏輯極具直覺:將動作生成的基準從「隨機噪聲」切換為「動作歷史」 。

傳統擴散策略往往采取 Noise-to-Action 機制 , 而 A2A 則直接在更具相關性的歷史與未來動作分布間建立聯系 。 為了更進一步拉近分布距離 , 我們在潛空間完成 Flow Matching 學習 。 具體地 , 在 Flow 訓練目標函數中

與傳統 Flow Matching 不同之處在于 , 我們將初始分布由高斯噪聲替換為歷史 Action 的編碼信號 , 進而使得流型梯度極易被神經網絡捕捉 。
【NTU MARS Lab提出A2A新范式,實現機器人高性能單步動作生成】實驗證明 , 這種設計使得起點與終點的物理距離極近且分布高度對齊 。 得益于極短的傳輸路徑 , A2A 僅憑輕量級 MLP 架構與單步 Euler 積分即可快速生成高質量動作 。

評估
在多項仿真(ManiSkill RLBench LIBERO)與真實 Franka 機器人任務中 , A2A 展現出了極佳的訓練效率、推理速度、以及泛化能力 。
首先訓練效率方面 , A2A 展現出極快的收斂速度 , 僅需少量訓練輪次即可達到穩定的 100% 成功率 。 在 5 類仿真任務中 , 其成功率全面領先于 8 種主流方法 , 并在有限數據下也能夠維持高性能表現 。


此外 , 推理速度方面 , A2A 實現了亞毫秒級的極致推理速度 , 平均延遲僅約 1ms , 在單步推理模式下延遲更是低至 0.56ms , 比傳統擴散策略快 20 倍 , 比常規流匹配方法(10 步)快 5 倍 。

最后 , A2A 極大提升了視覺泛化性 。 例如 , 實驗中將抓取木塊換成從未見過的發光方塊 , 傳統擴散和流匹配策略均會徹底失效 , 而 A2A 仍可維持 80% 的高成功率 。

無論是面對場景隨機化(Level 1)、燈光擾動(Level 2)還是視角切換(Level 3) , A2A 的成功率均領先于現有算法。 這歸功于 A2A 的解耦策略 , 將動作歷史作為穩固的先驗 , 減少了對易受干擾視覺特征的依賴 。

提升空間與發展潛力
A2A 目前訓練過程涉及多個訓練目標 , 如何進一步簡化訓練目標值得進一步探索 。 此外 , A2A 的邏輯普適于各類具有時間連續性的任務 。 研究團隊將其擴展至視頻生成領域 , 提出了 F2F(Frames-to-Frames) 范式 。 通過在潛空間將歷史幀映射至未來幀 , F2F 生成的圖像質量指標(PSNR、SSIM 等)顯著優于傳統的確定性回歸基準 , 展現了廣闊的具身智能應用前景 。
主要作者信息
賈金豆:新加坡南洋理工大學 MARS Lab 博士后 , 研究方向包括 VLA、擴散生成模型等 。 以第一作者在 IJRR、TRO、ICLR oral、RAL、TAES、CEP、ICRA 等期刊會議上發表多篇論文 。 個人主頁:https://jiajindou.github.io/ 。
李根:新加坡南洋理工大學 MARS Lab 博士后 , 研究方向包括具身智能、VLA 等 。 在 NMI、CVPR、ICCV 等頂級期刊與會議發表多篇論文 。 個人主頁:https://reagan1311.github.io/ 。
楊劍飛:新加坡南洋理工大學機械與宇航學院和電子與電氣工程學院雙聘助理教授 , 博士生導師 , MARS Lab 主任 , 主要研究方向為多模態具身智能 。 曾在加州大學伯克利分校、哈佛大學和東京大學進行學術研究 。 個人主頁:https://marsyang.site/ 。

    推薦閱讀