大事不好!機器人學會預測未來了

大事不好!機器人學會預測未來了

文章圖片

大事不好!機器人學會預測未來了

文章圖片

大事不好!機器人學會預測未來了

文章圖片

大事不好!機器人學會預測未來了

文章圖片

大事不好!機器人學會預測未來了

文章圖片

大事不好!機器人學會預測未來了

文章圖片

大事不好!機器人學會預測未來了

金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
不得了 , 機器人現在開始學會腦補未來了 。
這就是螞蟻靈波又又又又(連續第4天)開源的狠活兒——
全球首個用于通用機器人控制的因果視頻-動作世界模型 , LingBot-VA 。

怎么個腦補法?
簡單來說啊 , 以前的機器人(尤其是基于VLA的)干活兒 , 主打一個條件反射:眼睛看到什么 , 手立刻就動一下 。
這叫“觀察-反應”模式 。
但LingBot-VA就不一樣了 , 它通過自回歸視頻預測打破了這種思考方式 , 在動手之前 , 腦子里先把未來幾秒的畫面推演出來 。
說實話 , 用想象力做決策 , 在機器人控制這塊還是相當新鮮的 。
但這不是LingBot-VA唯一的亮點 , 還包括:
記憶不丟失:做長序列任務(比如做早餐)時 , 它會記得自己剛才干了什么 , 狀態感知極強 。 高效泛化:只要給幾十個演示樣本 , 它就能適應新任務;換個機器人本體 , 也能hold住 。
因此在LingBot-VA的加持下 , 像清洗細小的透明試管這種高精度任務 , 機器人已經是可以輕松拿捏:

視頻地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
正如我們剛才提到的 , 今天是螞蟻靈波連續第四天開源 。
如果說前幾天的開源是給機器人加強了眼睛(LingBot-Depth)、大腦(LingBot-VLA)和世界模擬器(LingBot-World) , 那么今天的LingBot-VA , 就是讓這具軀殼真正擁有了靈魂——
一個行動中的世界模型 , 讓想象真正落到執行層面 。
如此一來 , 通用機器人的天花板 , 算是被螞蟻靈波往上頂了一截 。
正如網友所述:
從預測到執行;說實話這是巨大的飛躍 。

讓想象力先行一步LingBot-VA在架構設計上選擇了一條更進一步的路徑 。
在傳統的VLA(視覺-語言-動作)范式中 , 模型通常會將視覺理解、物理變化推理、低層動作控制這三項復雜任務放在同一個神經網絡中處理 , 這在學術界被稱為表征纏繞(Representation Entanglement) 。
為了追求更高的樣本效率和更強的泛化能力 , LingBot-VA選擇把這團亂麻解開 , 提出了一套全新的解題思路:先想象世界 , 再反推動作 。
為了實現這個想法 , 螞蟻靈波團隊采用了一個兩步走的策略:
視頻世界模型:先預測未來的視覺狀態(接下來會發生什么) 。逆向動力學(Inverse Dynamics):基于視覺的變化 , 反推出應該執行什么動作(為了達到這個畫面 , 手該怎么動) 。這與傳統VLA有著本質區別:它不直接從“現在”跳到“動作” , 而是要經過一下“未來”這個步驟 。
如何實現?螞蟻靈波團隊主要將三個架構層面作為突破口 。

首先就是視頻與動作的自回歸交錯序列 。
在LingBot-VA的模型里 , 視頻Token和動作Token被放進了同一條時間序列里 。
為了保證邏輯嚴密 , 團隊引入了因果注意力(Causal Attention) 。 這就像給模型定了一條死規矩:只能用過去的信息 , 絕對不能偷看未來 。
同時 , 借助KV-cache技術 , 模型擁有了超強的長期記憶 。 它清楚地知道自己三步之前做了什么 , 任務絕對不會失憶 。

其次是Mixture-of-Transformers (MoT) 的分工協作 。
這一步主要是為了解決我們前面提到的表征纏繞的問題 。
我們可以把過程理解為“左右互搏” , 但又很默契的一種配合:
視頻流:寬而深 , 負責繁重的視覺推演 。 動作流:輕而快 , 負責精準的運動控制 。這兩個流共享注意力機制 , 信息互通 , 但在各自的表征空間里保持獨立 。
這樣一來 , 視覺的復雜性不會干擾動作的精準度 , 動作的簡單性也不會拉低視覺的豐富度 。
最后就是工程設計相關的工作 。
畢竟光有理論是不好使的 , “實踐才是檢驗真理的唯一標準”:
部分去噪(Partial Denoising):做動作預測時 , 其實不需要每一次都把未來畫面渲染得高清無碼 。 模型學會了從帶有噪點的中間狀態里提取關鍵信息 , 計算效率大大提升 。 異步推理(Asynchronous Inference):機器人在執行當前動作的時候 , 模型已經在后臺瘋狂計算下一步了 。 推理和執行并行 , 延遲感幾乎消失 。 FDM 接地(Grounding):為了防止模型想象力脫離現實 , 系統會用真實的觀測數據不斷校正想象 , 避免出現開放式的幻覺漂移 。 實驗結果與能力驗證在了解完理論之后 , 我們再來看實驗效果 。
螞蟻靈波團隊在真機實驗和仿真基準上 , 對LingBot-VA進行了全方位的實測 。
在真機測試中 , LingBot-VA覆蓋了三類最具挑戰性的任務 。
首先是長時序任務 , 比如準備早餐(烤面包、倒水、擺盤)、拆快遞(拿刀、劃箱、開蓋) 。

視頻地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
這些任務步驟繁多 , 但凡中間有一步有誤 , 那可以說是滿盤皆輸 。 從LingBot-VA的表現來看 , 一個字 , 穩 。
即便是不小心失敗了 , 機器人也會記得進度 , 嘗試重來 。
第二類是高精度任務 , 比如擦試管、擰螺絲 。

視頻地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
這要求動作精度達到毫米級 , 得益于MoT架構 , 動作流不再受視覺噪聲的干擾 , 手極穩 。
剛才我們已經看了擦拭管的案例 , 再來看個擰螺絲的:
第三類任務是針對可變形物體 , 例如折衣服、折褲子 。

視頻地址:https://mp.weixin.qq.com/s/xqE6C72usddKMc4EH89myA
這些任務的難點在于物體處于一個隨時變化的狀態 , 但LingBot-VA通過視頻推演 , 預判了布料的形變 , 操作行云流水 。
除此之外 , LingBot-VA在RoboTwin 2.0和LIBERO這兩個硬核仿真基準上 , 也是很能打的 。
尤其是在RoboTwin 2.0的雙臂協作任務中 , 無論是簡單的固定場景(Easy) , 還是復雜的隨機場景(Hard) , LingBot-VA都展現出了不錯的實力:
RoboTwin 2.0 (Easy):成功率92.93% , 比第二名高出4.2% 。 RoboTwin 2.0 (Hard):成功率91.55% , 比第二名高出4.6% 。
而且有一個趨勢非常明顯:
任務越難、序列越長(Horizon變大) , LingBot-VA的領先優勢就越大 。
在 Horizon=3 的長任務中 , 它的優勢甚至擴大到了9%以上 。
而在LIBERO基準測試中 , LingBot-VA更是拿下了98.5%的平均成功率 , 刷新了SOTA記錄 。

總結一下 , 通過這些實驗 , 我們可以清晰地看到LingBot-VA的三個核心特質:
長期記憶:在一個來回擦盤子的計數任務中 , 普通VLA模型擦著擦著就忘了擦了幾下 , 開始亂擦;LingBot-VA 則精準計數 , 擦完即停 。 這就是KV-cache的起到的作用 。 少樣本適應:面對全新的任務 , 只需提供50條左右的演示數據 , 稍微微調一下 , 它就能學會 。 這比那些動輒需要成千上萬條數據的模型 , 效率高了幾個數量級 。 泛化能力:訓練時用的是某種杯子 , 測試時換個形狀、換個顏色 , 或者把杯子隨便擺個位置 , 它依然能準確識別并操作 。 【大事不好!機器人學會預測未來了】
連續四天開源 , 已經產生影響把時間軸拉長 , 回看這四天的連續開源 , 我們會發現螞蟻靈波下了一盤大棋 。
因為這四個開源項目拼湊在一起 , 就會形成一條非常清晰的技術主線:
Day 1: LingBot-Depth——解決“看清”的問題 。 讓感知能夠更加清晰 。 Day 2: LingBot-VLA——解決“連接”的問題 。 打通語言、視覺到動作的通用接口 。 Day 3: LingBot-World——解決“理解”的問題 。 構建可預測、可想象的世界模型 。 Day 4: LingBot-VA——解決“行動”的問題 。 把世界模型真正嵌入控制閉環 , 讓想象指導行動 。這四塊拼圖湊在一起 , 釋放了一個強烈的信號:
通用機器人正在全面走向視頻時代 。
視頻 , 不再僅僅是訓練用的數據素材 , 它正在成為推理的媒介 , 成為連接感知、記憶、物理和行動的統一表征 。
這對于整個行業來說 , 價值是巨大的 。
對通用機器人來說 , 長任務、復雜場景、非結構化環境 , 這些曾經的硬傷 , 現在有了系統性的解法 。
從具身智能路線來看 , 世界模型不再是一個可選項 , 它正式成為了機器人的中樞能力 , 從“能動”進化到“會想再動” 。
并且螞蟻靈波的持續不斷地開源動作 , 不僅僅是提供了代碼、模型這么簡單 , 更是一條可復現、可擴展的技術范式 。
而蝴蝶效應也在行業中開始顯現 。
就在這兩天 , 谷歌宣布通過Project Genie項目讓更多人體驗Genie 3;宇樹科技宣布開源UnifoLM-VLA-0……
海外媒體也對螞蟻靈波的開源動作有了不小關注 , 點評道:
螞蟻集團發布了名為LingBot-World的高質量機器人AI模擬環境 。 這家中國金融科技公司完善了一套完整的開源工具包 , 用于物理AI系統的開發 。 這也是在全球機器人領域主導權爭奪戰中的一項戰略性舉措 。

嗯 , 螞蟻靈波的壓力是給到位了 。
總而言之 , LingBot-VA的出現 , 標志著世界模型第一次真正站上了機器人控制的主舞臺 。
項目地址:https://technology.robbyant.com/lingbot-va
GitHub地址:https://github.com/robbyant/lingbot-va
項目權重:https://huggingface.co/robbyant/lingbot-vahttps://www.modelscope.cn/collections/Robbyant/LingBot-va
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀