通研院重磅成果!一套策略讓人形機器人學會后空翻、霹靂舞,準確率超90%

通研院重磅成果!一套策略讓人形機器人學會后空翻、霹靂舞,準確率超90%

文章圖片

通研院重磅成果!一套策略讓人形機器人學會后空翻、霹靂舞,準確率超90%

文章圖片

通研院重磅成果!一套策略讓人形機器人學會后空翻、霹靂舞,準確率超90%

智東西
作者 | 江宇
編輯 | 漠影
今年春晚 , 人形機器人再次成為舞臺上的焦點 。
相比去年顫顫巍巍地扭秧歌 , 宇樹人形機器人已經能夠流暢地完成武術、雙節棍、醉拳等一系列表演 , 一波絲滑操作讓全網直呼驚艷 , 也讓大眾真切感受到人形機器人技術的進步 。
隨著人形機器人運動能力持續突破 , 一些支撐這些極限動作的關鍵技術也開始浮出水面 。
近日 , 北京通用人工智能研究院(簡稱“通研院”)發布并開源新一代人形機器人通用運動框架OmniXtreme(通極) 。
該框架讓機器人能夠通過一套統一策略完成包括后空翻、托馬斯全旋、武術踢擊等在內的多種高動態動作 , 并在真實機器人上實現了超過90%的成功率 。
該成果提出了一種新的訓練路徑:不再為每個動作單獨訓練策略 , 而是通過生成式模型與強化學習結合的方式 , 讓機器人掌握一整類極限運動能力 。
通研院研究員賈寶雄在接受智東西采訪時稱:“過去很多機器人控制模型都需要針對單個動作反復調參 。 OmniXtreme的核心目標 , 就是找到一種統一策略 , 讓機器人能夠學習并泛化不同類型的極限動作 。 ”

一、從“太奶”到“武神” , 人形機器人的運動能力躍遷這一輪人形機器人的火熱出圈 , 可以追溯到2024年的北京大學春季運動會 。 當時 , 北京大學智能學院學生方陣中的機器人因步態緩慢、動作僵硬 , 被網友戲稱為“太奶機器人” 。
2024年4月 , 北京大學春季運動會智能學院學生方陣
此后兩年 , 人形機器人運動控制能力快速迭代 。
2025年蛇年春晚 , 機器人已經可以完成扭秧歌等舞蹈動作 , 但整體動作仍然偏機械 。 同年8月 , 在首屆世界人形機器人運動會上 , 通研院團隊憑借融合探戈、太極、恰恰的舞蹈表演 , 獲得單機舞蹈比賽冠軍 。
2025年8月 , 通研院在首屆世界人形機器人運動會上獲得單機舞蹈比賽冠軍
到2026年春晚 , 《武bot》節目中機器人完成武術動作 , 運動能力進一步突破 。
在賈寶雄看來 , 這一變化背后是一種“技術破壁” , 他對智東西形容這一過程時用了一個詞:“破次元壁” 。 “以前機器人更多停留在實驗室或者科研展示中 , 很少有人會覺得它能做到現在這種程度 。 但隨著算法和硬件快速迭代 , 我們逐漸接受機器人不僅能跳舞 , 還能完成很多高難度動作 。 ”

二、一套算法完成極限動作 , OmniXtreme解決“多動作控制難題”讓機器人完成翻騰、倒立、霹靂舞等高動態動作 , 一直是機器人控制領域的難題 。
近年來 , 強化學習成為主流技術路線 。 通過大規模仿真訓練 , 機器人可以逐漸學會復雜動作 。 但當動作種類越來越多時 , 系統往往會面臨新的問題——動作越多 , 控制精度越下降 。
OmniXtreme試圖解決的正是這個問題 , 該框架采用一種兩階段學習機制 。
第一階段 , 研究團隊先為不同動作訓練多個“專家策略” , 再利用生成式建模方法 , 將這些專家能力融合為統一策略 。 這一過程借鑒了生成模型中的Flow Matching技術 , 使系統能夠學習“動作分布” , 而不是簡單的動作映射 。
機器人執行OmniXtreme(通極)框架完成極限運動動作
【通研院重磅成果!一套策略讓人形機器人學會后空翻、霹靂舞,準確率超90%】賈寶雄用一個類比解釋這一過程:“可以把它理解為先讓機器人去模仿很多頂級舞者的動作 , 然后再在這個基礎上通過強化學習不斷調整 , 使它能夠在真實環境中穩定完成這些動作 。 ”
相比傳統強化學習需要不斷通過獎勵函數逼近目標動作 , 生成式模型在一開始就能建立更完整的動作表達 , 因此在多動作場景下具有更好的泛化能力 。

二、跨過Sim2Real , 人形機器人終于能在真實世界翻跟頭在人形機器人研究中 , Sim2Real(仿真到真實)一直是核心挑戰 。 很多動作在仿真環境中可以完成 , 但部署到真實機器人時往往會失敗 。
OmniXtreme的第二階段訓練 , 重點解決的正是這一問題 。 研究團隊在強化學習過程中加入了大量真實物理因素 , 例如:
?電機扭矩—速度關系建模
?制動功率限制
?電池能量傳遞模型
?更真實的執行器物理模擬
這些設計顯著提升了策略在真實機器人上的可執行性 。 賈寶雄告訴智東西 , 過去很多團隊在部署時需要通過網線連接主機進行控制 , 而OmniXtreme的目標是實現完全上機運行 。
“真正的難點不只是算法本身 , 還包括模型推理效率和硬件適配 。 如果這些問題解決 , 再加上穩定的控制模型 , 就可以實現現在這種真實部署效果 。 ”實驗結果顯示 , 在真實機器人測試中 , 該方法在多種高動態動作任務上的成功率超過90% 。
真機部署成功率
在不少人看來 , 翻跟頭、跳舞等動作更像“炫技” , 似乎與實際應用關系不大 。 對此 , 賈寶雄給出了另一種解釋:“從科研角度來說 , 如果機器人能完成這些極限動作 , 那么在人類能做到的工作場景里 , 它通常也能勝任 。 ”
他將這一過程比作“先強身健體” , 還補充道:“如果機器人能夠掌握人類極限運動的控制能力 , 那么在工業、服務等場景中的任務執行 , 其實反而會更容易 。 ”
因此 , 極限運動能力往往被視為機器人控制能力的“上限測試” 。

四、 企業做本體、研究院做大腦 , 一條人形機器人研發路徑浮現值得一提的是 , 這項研究的主要作者均來自北京通用人工智能研究院通用人工智能協同攻關合作體人才培養計劃(簡稱“通計劃”)的聯培博士生 。
在研發模式上 , 通研院采用了一種分工協作的路徑:企業負責機器人本體 , 研究院負責核心智能算法 。 例如 , 通研院與宇樹科技合作建設具身智能聯合實驗室展開協同研究 。
2025年9月 , 通研院在國際機器人學習大會CoRL獲杰出論文獎
賈寶雄介紹 , 很多技術突破其實來自雙方工程師之間的交流 , “有些仿真和現實之間的差距 , 是我們和硬件工程師一起討論后才發現的 。 ”
在產業化方面 , 通研院還孵化了具身智能創業公司德塔智能(Delta Intelligence) 。 德塔智能通過通研院積累的技術能力 , 在工業制造、巡檢、家居等場景中探索人形機器人的實際應用 。 目前相關技術已經在電網巡檢、汽車制造等場景開展測試 。
支撐這套路徑的 , 還有通研院的人才機制 。 OmniXtreme的研發團隊主要來自通研院“通計劃”博士生培養項目 。 該項目由通研院聯合全國多所高校開展 , 目前已培養300余名人工智能領域博士生 。
賈寶雄介紹稱 , 團隊目前約有10至20名博士生參與人形機器人研究 , “很多學生既在研究院做算法 , 也會去企業和工程師一起解決真實問題 。 ”

結語:下一步是讓機器人真正走進現實在賈寶雄看來 , 人形機器人接下來有兩個方向會同時推進 。
一方面 , 技術仍然會繼續挑戰更高難度動作 , 例如跑酷、復雜環境運動等 。 另一方面 , 機器人也需要逐漸進入真實生活場景 。
“未來機器人既可能像現在這樣參與比賽 , 也可能成為日常生活中的助手 , ”他說 。
當運動能力、感知能力和自主決策能力逐漸融合 , 人形機器人距離真正進入現實世界 , 也許只差最后一次“破壁” 。

    推薦閱讀