為什么給機器人裝上昂貴的觸覺傳感器,反而讓它變笨了?

為什么給機器人裝上昂貴的觸覺傳感器,反而讓它變笨了?

文章圖片

為什么給機器人裝上昂貴的觸覺傳感器,反而讓它變笨了?

文章圖片

為什么給機器人裝上昂貴的觸覺傳感器,反而讓它變笨了?

文章圖片

為什么給機器人裝上昂貴的觸覺傳感器,反而讓它變笨了?

文章圖片

為什么給機器人裝上昂貴的觸覺傳感器,反而讓它變笨了?

文章圖片



這項工作由伊利諾伊大學香檳分校 (UIUC)、哈佛大學、哥倫比亞大學和麻省理工學院 (MIT) 的合作完成。

論文標題:Multi-Modal Manipulation via Policy Consensus 論文鏈接:https://arxiv.org/pdf/2509.23468 主頁鏈接:https://policyconsensus.github.io/為什么特征拼接 (Feature Concatenation)會在機器人感知和決策中失效?
想象一下 , 你在黑漆漆的背包里找鑰匙 。 你的眼睛此時毫無用處 , 全靠指尖的觸覺 , 這對你來說輕而易舉, 但在機器人領域 , 這卻是一個非常困難的問題 。
殘酷的真相: 目前的機器人學習主流的多傳感器融合的算法(Feature Concatenation)在處理這種任務時徹底失敗了 。 我們的實驗數據顯示 , 當你給機器人加上觸覺數據試圖讓它更聰明時 , 它的抓取成功率竟然從 35% 暴跌至 5%!為什么? 因為傳統的方法把偶爾出現的關鍵觸覺信號當作了 “噪音” 直接過濾掉了 。
當前方法的局限性
目前的多模態機器人學習方法通常使用特征拼接 (Feature Concatenation):提取所有傳感器的嵌入 (embeddings) , 將其拼接成一個大向量 , 然后輸入到一個單一的神經網絡策略中。

這種方法看似合理 , 但存在兩個根本缺陷:
問題 1:稀疏模態被視為噪聲
例如 , 一個機器人從不透明袋子中取記號筆的任務 。 90% 的過程中依靠視覺接近 , 但一旦進入袋子 , 視覺變得無用 , 觸覺變得至關重要。 特征拼接會將統計上罕見的信號(觸覺)視為噪聲 。 在訓練中 , 網絡會降低觸覺信息的權重 , 專注于總是活躍的視覺特征。 我們的實驗結果:在遮擋抓取任務中 , RGB + 觸覺的拼接基線僅達到 5% 的成功率 , 而僅使用 RGB 卻有 35% 。 增加觸覺信息反而因其被視為干擾噪聲而降低了性能!問題 2:無法靈活添加或移除模態
特征拼接缺乏模塊化 。 如果想添加新傳感器或移除故障傳感器 , 必須從頭開始重新訓練整個策略 , 因為所有模態在特征層面緊密耦合。 這導致了昂貴的重訓練成本 , 且系統在單個傳感器故障時會發生災難性故障。我們的解決方案:組合策略 (Compositional Policies)
我們的解決方案是重新思考模態的結合方式 。 我們不將所有傳感器強制輸入單一網絡 , 而是為每個模態訓練單獨的專家策略 , 并學習如何在策略層面組合它們的動作預測。
工作原理
模態特定專家 (Modality-Specific Experts):為每個感官模態(RGB、觸覺、點云等)訓練作為擴散策略實例化的基于能量的策略表示。 每個專家專注于自己的感官流 , 互不干擾。 即使是 “稀疏” 模態(如觸覺)也有自己的專用網絡 , 使其能高度專注于接觸動力學。 模態內分解 (Intra-Modality Factorization):在模態內部進一步分解為互補的子策略 。 例如 , 視覺可分為粗略幾何推理和細粒度細節;觸覺可分為初始接觸檢測和持續力控制。 學習共識權重 (Learn Consensus Weights):一個路由器網絡 (Router) 學習預測共識權重 , 決定每個模態對最終動作的影響程度。
組合式策略框架概述
為什么這能解決問題
解決稀疏性:每個專家學習自己的動作分布 , 互不干擾 。 觸覺專家不再與視覺競爭表示模型的表征能力 , 從而在富含接觸的操作中變得高度專業化 。
模塊化設計:專家是獨立訓練的 。 添加新傳感器只需訓練一個新的專家 , 并使用固定權重或快速微調將其與現有專家組合 , 無需重訓練整個系統。
簡單的實現(implementation)方式:組合多個策略對應于概率分布相乘 , 在擴散模型(基于分數的能量模型)中 , 這等同于簡單的分數函數相加 (summing score functions)。
增量學習:即插即用的傳感器
為了展示模塊化 , 我們完全獨立地訓練了 RGB 和觸覺策略 , 然后使用固定的相等權重將它們組合 , 沒有進行任何聯合訓練 。
盡管從未一起訓練 , 組合后的策略成功完成了單獨策略都無法處理的遮擋記號筆抓取任務。 這對于現實世界的部署(傳感器逐步添加或更換)具有深遠的意義。
魯棒性與自適應性
運行時擾動:在執行過程中突然搶走物體 , 機器人能適應并完成任務 。

傳感器損壞:遮擋一個攝像頭模擬故障 , 路由器簡單地將權重轉移到剩余的功能傳感器上 , 表現保持穩定 。

物體重新定位:移動任務相關物體 , 策略能成功泛化 。


統計結果對比
我們使用了配備雙 RealSense 攝像頭和 FlexiTac 觸覺傳感器的 UR5e 機器人進行驗證。
RLBench 模擬任務:在四個操作任務上 , 我們的方法平均成功率為 66% , 顯著優于單模態策略 (49%) 和特征拼接 (56%)。
真實世界:
遮擋記號筆抓?。 ╫ccluded marker picking):我們的方法成功率為 65% , 而 RGB-only 為 35% , 拼接方法僅為 5%(拼接方法反而沒法很好的利用觸覺確定物體是否被抓?。 ?。 勺子重定向 (Spoon Reorientation):一種靈巧的手內操作任務 。 我們的方法成功率為 75% , 拼接方法僅為 21%。 拼圖插入 (Puzzle Insertion):需要毫米級精度 。 我們的方法任務成功率為 52% , 拼接方法為 40%。
總結
【為什么給機器人裝上昂貴的觸覺傳感器,反而讓它變笨了?】通過從特征級拼接轉向策略級組合 , 我們為模態稀疏性問題提供了一個系統性的解決方案 , 同時實現了增量學習和魯棒部署。 我們的 core insights 很簡單:讓每個模態擁有自己的 “專家” 并學習各自的相對影響力 , 而不是將所有傳感器強制輸入單一網絡 。

    推薦閱讀