Google DeepMind推出DemoStart自主強化學習方法

2026-04-25

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

一直以來，研究人員都在試圖開發出能夠在現實環境中安全、高效地執行復雜任務（如多指手操作）的機器人技能。傳統的機器人學習方法往往需要大量的實際數據，這不僅耗時耗力，還存在安全風險。因此，仿真環境下的學習并結合后續的仿真到現實（sim-to-real）遷移成為了一個有效的替代方案。近日，谷歌DeepMind團隊提出了一種名為DemoStart的新型自主強化學習方法，該方法能夠在只有少量示范和稀疏獎勵的情況下，讓裝備有機械手臂的機器人在仿真環境中學習復雜的操作技能，并成功實現了零樣本的仿真到現實遷移。
℅oogle DeepMind推出DemoStart技術
DemoStart方法是一種結合了示范引導與稀疏獎勵的強化學習框架，目的是通過自動化課程設計，提高機器人在仿真環境中的操作技能學習效率，并最終實現這些技能從仿真到現實的零樣本遷移。該方法的核心在于通過少量且可能不完全優化的示范來指導強化學習算法的探索過程，從而找到解決復雜操作任務的有效策略。

DemoStart從20個模擬演示開始生成了強化學習教程
研究人員表示， DemoStart方法首先利用提供的示范數據，將示范中的每個狀態轉換為一系列不同難度的任務參數（TP）。這些任務參數在后續強化學習過程中作為學習的起點，通過動態調整學習任務的難度，引導策略逐步逼近最優解。與傳統強化學習方法相比， DemoStart不需要復雜的獎勵函數設計，僅需一個簡單的稀疏獎勵信號即可指導學習過程，大大降低了任務設計的難度和成本。
此外， DemoStart還通過一種稱為零方差過濾（ZVF）的機制來優化學習過程。 ZVF通過分析策略在當前任務參數下的表現穩定性，篩選出那些既能提供有效學習信號又不會導致訓練過程陷入局部最優的任務參數。這種機制有助于策略在保持一定探索性的同時，穩步提高性能。

在實現過程中， DemoStart采用了一種分布式行動者-學習者架構，其中行動者在仿真環境中執行策略并收集經驗數據，而學習者則根據這些數據進行策略更新。為了實現仿真到現實的遷移， DemoStart還引入了一種策略蒸餾技術，將基于仿真特征的策略轉換為基于視覺的策略，從而使得訓練出的策略能夠在真實環境中執行。
【Google DeepMind推出DemoStart自主強化學習方法】―emoStart技術集成三個關鍵機制
研究人員表示， DemoStart技術集成了三個關鍵機制，分別為示范引導的任務參數化、零方差過濾的優化選擇與策略蒸餾的視覺遷移。具體來看， DemoStart方法能夠利用示范數據來生成一系列不同難度的任務參數（TP）。在仿真環境中，通過記錄并保存示范過程中每個時間步的環境狀態，可以生成多個起始狀態作為任務參數。這些起始狀態分布在示范的不同位置，從而構成了一個從易到難的任務序列。

通過將這些任務參數作為強化學習的起點， DemoStart能夠逐步引導策略從簡單的任務開始學習，逐漸挑戰更復雜的任務，最終實現復雜操作技能的掌握。
另一個關鍵機制是零方差過濾（ZVF），它通過對任務參數進行篩選，優化學習過程中的經驗數據選擇。 ZVF機制通過分析策略在當前任務參數下的表現穩定性，即策略在某些任務參數下是否有時成功有時失敗，來識別出那些既不過于簡單也不過于困難的任務參數。這些任務參數能夠提供有效的學習信號，幫助策略在保持探索性的同時穩步提高性能。通過丟棄那些成功率始終為0或1的任務參數， ZVF避免了策略陷入局部最優或無法獲得學習信號的情況，從而提高了學習效率。

為了實現從仿真到現實的零樣本遷移， DemoStart引入了策略蒸餾技術。在仿真環境中，首先訓練一個基于特征的策略，該策略能夠高效地完成各種操作任務。然后，通過策略蒸餾過程，將這個基于特征的策略轉換為一個基于視覺的策略。
蒸餾過程中，利用行為克隆方法從教師策略（基于特征的策略）生成的數據中學習一個學生策略（基于視覺的策略），使得學生策略能夠僅依靠視覺輸入和機器人本體感覺信息來執行操作任務。這種轉換不僅保留了教師策略的高效性，還使得策略能夠在真實環境中運行，因為真實環境中的機器人通常只能通過視覺和本體感覺來獲取環境信息。通過策略蒸餾， DemoStart實現了從仿真到現實的平滑遷移，為機器人在現實中的應用提供了可能。
―emoStart方法實現細節解析
DemoStart方法采用分布式行動者-學習者架構來實現高效的數據收集和策略更新。在架構中，多個行動者并行運行在仿真環境中，每個行動者負責執行當前策略并收集經驗數據。收集到的經驗數據被發送到中心化的學習者，學習者根據這些數據來更新策略。

實驗設置：模擬（頂部）和真實（底部）機器人環境和任務
這種架構的優勢在于能夠充分利用多核處理器的計算能力，加速數據收集和策略更新的速度。同時，由于行動者和學習者之間的解耦，使得系統更加靈活和可擴展，可以根據需要增加或減少行動者的數量來調整系統性能。

訓練分布從演示的結束轉移到演示的開始
在策略蒸餾階段，為了訓練基于視覺的策略，需要從基于特征的策略中生成大量的訓練數據。這些數據通常以軌跡的形式存在，每條軌跡包含一系列狀態、動作和獎勵信息。

為了確保蒸餾過程的穩定性和高效性， DemoStart方法對訓練數據進行了一系列預處理。首先，從基于特征的策略中篩選出成功的軌跡，這些軌跡代表了策略在不同任務參數下的有效行為。然后，對每條軌跡進行標注，標記出每個時間步的視覺輸入、本體感覺信息和相應的動作。最后，將這些標注好的軌跡組合成訓練數據集，用于訓練基于視覺的策略。

拾取放置成功率隨情節持續時間而變化
在訓練基于視覺的策略時， DemoStart方法利用多個相機來捕捉環境的視覺信息。這些相機被固定在機器人周圍的不同位置，以確保能夠全面覆蓋機器人的工作空間。為了處理來自多個相機的視覺輸入， DemoStart采用了一種多模態編碼方法，將每個相機的圖像輸入到獨立的卷積神經網絡中進行特征提取。然后，將提取到的特征向量進行拼接和融合，作為視覺策略的輸入。
此外，為了進一步提高策略的魯棒性和適應性， DemoStart還引入了域隨機化技術來模擬不同光照條件、相機視角和物體外觀的變化。通過在訓練過程中不斷變化這些視覺因素，使得策略能夠學習到更加泛化的視覺表示，從而更好地適應真實環境中的各種不確定性。
ㄊ擋釪emoStart在三指機械手上的任務執行能力
為了驗證DemoStart方法的有效性，研究人員在配備有三指機械手（DEX-EE Hand）的Kuka LBR iiwa14機器人上進行測試，真實環境中的設置被精確復制到仿真環境中，使用MuJoCo物理引擎進行模擬。機器人需要完成的任務包括插頭提升、插頭插入、立方體定向、螺母螺栓螺紋連接以及螺絲刀放入杯子等。

在仿真環境中， DemoStart在多個任務上均取得了超過98%的成功率，遠超基于示范直接學習的策略。與標準的強化學習基線相比， DemoStart僅使用極少量的示范就達到了出色的性能，顯示出其高效的學習能力。

在插頭插入任務中， DemoStart方法通過少量示范和稀疏獎勵，成功引導策略學習到了高效的插頭插入行為。策略不僅學會了如何準確地定位和插入插頭，還能夠在面對不同初始狀態時表現出良好的泛化能力。在實驗過程中，研究人員觀察到策略逐漸從依賴示范行為轉變為發現更加高效和魯棒的操作方式，充分證明了DemoStart方法在強化學習過程中的探索和優化能力。

為了進一步驗證DemoStart方法的仿真到現實遷移能力，研究人員將訓練好的策略通過策略蒸餾技術轉換為基于視覺的策略，并在真實機器人上進行了測試。實驗結果顯示，經過蒸餾的策略在真實環境中依然保持了較高的成功率，特別是在插頭插入和插頭提升任務中，成功率分別達到了64%和97% ，顯著優于僅依賴示范學習的方法。

此外研究人員還對DemoStart方法進行了詳細的消融實驗，以分析不同機制對性能的影響。結果顯示，零方差過濾機制在提升策略性能和穩定性方面發揮了關鍵作用，而策略蒸餾技術則是實現仿真到現實遷移的核心。通過結合這些機制， DemoStart方法成功地實現了在少量數據和稀疏獎勵條件下的高效強化學習，為機器人操作技能的自動化學習提供了一種新的解決方案。
ń嵊鎘胛蠢矗?
DemoStart是一種創新的自主強化學習方法，能夠在只有少量示范和稀疏獎勵的情況下訓練出高性能的機器人操作技能，并實現零樣本的仿真到現實遷移，該方法不僅簡化了任務設計過程，還有效提高了學習效率。隨著未來研究的不斷推進， DemoStart有望在更多復雜機器人操作任務中發揮重要作用。

推薦閱讀

上一篇：問題徹底解決，13代酷睿選哪個型號？抄底建議買這三款：口碑公認

下一篇：未來最賺錢的商業模式，肯定是高深精準做事