通義實驗室開源Mobile-Agent-v3刷新10項GUI基準SOTA

通義實驗室開源Mobile-Agent-v3刷新10項GUI基準SOTA

文章圖片

通義實驗室開源Mobile-Agent-v3刷新10項GUI基準SOTA

文章圖片

通義實驗室開源Mobile-Agent-v3刷新10項GUI基準SOTA

文章圖片

通義實驗室開源Mobile-Agent-v3刷新10項GUI基準SOTA

文章圖片



【通義實驗室開源Mobile-Agent-v3刷新10項GUI基準SOTA】覆蓋桌面、移動和 Web , 7B 模型超越同類開源選手 , 32B 模型挑戰 GPT-4o 與 Claude 3.7 , 通義實驗室全新 Mobile-Agent-v3 現已開源 。

一眼看到實力:關鍵成績速覽 。


備注:分數來源于公開基準 , 包括桌面 + 移動環境的任務規劃、定位、推理、執行等全鏈路能力

開源地址:https://github.com/X-PLUG/MobileAgent
背景:為什么 GUI Agent 要這么強?

GUI 智能體 , 就像你的跨平臺虛擬操作員 , 能看懂屏幕、點鼠標、敲鍵盤、滑手機 , 在辦公、測試、RPA 等場景自動執行任務 。 然而 , 要實現這一愿景 , 現有方案卻面臨重重挑戰 。 它們往往能力割裂 , 比如精于定位 UI 元素卻拙于長任務規劃 , 或難以融入靈活的多智能體框架 。

同時 , 許多方案嚴重依賴特定的硬件和操作系統 , 適配成本高昂;而依賴閉源模型的方案則缺乏靈活性 , 遇到全新任務時常常束手無策 。

更現實的是 , 高昂的推理成本、多圖輸入帶來的延遲以及部署困難 , 都成為阻礙 GUI 智能體廣泛應用的瓶頸 。

亮點一
GUI-Owl + Mobile-Agent-v3 + 云環境


這是一個基于云環境的全鏈路開源解決方案 —— 它既是當前最強的開源單體 GUI Agent 模型 , 也包含為其深度優化的多智能體框架 。 我們通過搭建覆蓋 Android、Ubuntu、macOS、Windows 的多操作系統云環境基礎設施 , 并結合阿里云的云手機與云電腦 , 實現了直接在云端沙箱中運行、調試、采集數據的全新范式 。

在大多數 GUI Agent 方案中 , 采集高質量訓練數據是最大的瓶頸 , 不僅慢 , 而且貴 。 為此 , 我們沒有走傳統的人工標注老路 , 而是直接打造了一整套跨平臺的云環境基礎設施與一套名為「自我進化 GUI 軌跡生產鏈路」的數據閉環系統 。 這套系統讓 GUI-Owl 和 Mobile-Agent-v3 自己生成任務軌跡、篩選出正確軌跡 , 再反過來對自身進行迭代優化 , 將人類的參與降到最低 , 形成一個跨平臺、自動化、可持續的數據生產與模型優化循環 。


整個流程的核心是讓模型在實踐中自我成長 。首先 , 系統會在覆蓋 Android、Ubuntu、macOS 和 Windows 的云端環境中動態構建虛擬實驗室 , 確保每次任務都在貼近真實用戶場景的干凈快照中運行 。 隨后 , 高質量的任務生成模塊會為模型「出題」 , 它針對移動端 , 通過人工標注的有向無環圖(DAG)來模擬真實 App 流程 , 并用 LLM 生成多約束的自然語言指令;而對于元素更密集的桌面端 , 它則結合可訪問性樹(Accessibility Tree)與深度搜索鏈來挖掘復雜軟件的操作路徑 , 確保生成的任務既真實又可控 。

有了任務 , GUI-Owl 模型和 Mobile-Agent-v3 框架便開始在虛擬環境中執行操作 , 產出完整的交互軌跡 。 然而 , 并非所有軌跡都是完美的 。 因此 , 一個精密的軌跡正確性評估模塊會介入 , 它包含一個「Step-Level Critic」 , 能細致分析每一步操作前后的界面變化 , 判斷其有效性;還有一個「Trajectory-Level Critic」 , 采用純文本和多模態雙通道機制 , 從全局視角評估整個任務是否成功 。 只有通過雙重校驗的軌跡才會被采納 。

對于那些模型反復嘗試依舊失敗的困難任務 , 系統還會啟動困難任務指南生成模塊 。 它會分析已有的成功軌跡(可能來自人工或其他模型) , 用 VLM 提煉出每一步的關鍵動作描述 , 并由 LLM 總結成一份「通關攻略」 。 這份指南將在后續嘗試中作為提示 , 有效提高成功率 。 最后 , 所有經過篩選和強化的優質軌跡數據 , 都會被用于對 GUI-Owl 進行強化學習微調 , 讓模型的能力在真實交互中穩步增強 , 最終實現真正的自我進化 。

亮點二:全棧 GUI 能力構建
從「看得懂」到「想得全」到「做得準」

GUI-Owl 在安卓和桌面兩端同時拿下 SOTA , 關鍵在于我們為其構建了全棧式的 GUI 能力 , 確保它不僅「看得懂」 , 更能「想得全」、「做得準」 , 并具備天然的泛化與適配能力 。

首先是極致的 UI 元素定位(Grounding)能力 。為了讓模型精準找到屏幕上的目標 , 我們構建了涵蓋功能、外觀、布局等多維信息的復合型 Grounding 數據集 。 我們不僅融合了 InternVL、UI-Vision 等多個主流開源數據集 , 還創新地利用 Accessibility Tree 自動生成帶有功能描述的標注數據 , 并輔以多模態模型補全外觀和布局信息 。

特別針對元素密集的 PC 界面 , 我們開創性地使用 SAM 對截圖進行子區域分割 , 再讓 MLLM 在小范圍內進行精細定位 , 有效解決了定位難題 。 所有數據都經過嚴格清洗 , 包括與 Omniiparser V2 的檢測結果進行比對篩選 , 并用 LLM 將生硬的指令改寫得更自然 , 確保了訓練數據的質量與真實性 。


其次是深度的長任務規劃(Task Planning)與動作語義理解(Action Semantics) 。為了應對復雜任務 , GUI-Owl 的規劃能力來自兩個方面:一方面 , 它能從歷史成功軌跡中「蒸餾」出經驗 , 形成可復用的任務執行手冊;另一方面 , 它也從 Qwen3-235B 這樣的大規模語言模型中學習跨應用、跨功能的通用規劃知識 , 使其面對全新場景也能從容制定計劃 。

更重要的是 , 模型通過學習海量的「操作前 / 后」截圖對比 , 深刻理解了每個動作與界面狀態變化之間的因果關系 , 真正做到了知其然 , 更知其所以然 。

最后 , 我們為其注入了強大的穩健推理(Robust Reasoning)與泛化適配能力 。GUI-Owl 不只是機械地模仿操作 , 而是理解其背后的決策邏輯 。 我們開創性地從 Mobile-Agent-v3 多智能體框架中蒸餾推理數據 , 讓單一模型學會從管理者、執行者、反思者等多個角色的視角進行思考 , 顯著減少了決策盲區 。

同時 , 結合離線提示式拒絕采樣和迭代式的在線訓練 , 模型的推理能力在真實任務中被反復打磨和驗證 。 這種全面的訓練方式 , 使得 GUI-Owl 不再是為某個特定框架「定制」的 , 而是天然具備了跨環境、跨角色的泛化能力 。

實驗證明 , 即使將其「即插即用」到從未訓練過的第三方 Agent 框架中 , 其性能依舊遠超其他專用或通用模型 。


亮點三:可擴展環境強化學習(RL)
讓模型「更穩、更聰明、更貼近真實使用」

僅靠離線數據還不足以讓一個 GUI Agent 在真實環境中長期穩定運行 , 它需要真正「泡在環境里」邊做邊學 。 為此 , 我們專門為 GUI-Owl 設計了一套可擴展的環境級強化學習(RL)體系 , 旨在讓模型「更穩、更聰明、更貼近真實使用」 。

我們的 RL 訓練基礎設施在設計上兼顧了靈活性與效率 。 它采用統一的任務插件接口 , 無論是「一步到位」的短任務還是跨應用的長鏈路任務 , 都能無縫接入 。 其核心是將經驗生成(Rollout)與策略更新完全解耦 , 這意味著我們可以將數據采集部署在為推理優化的硬件上以最大化吞吐量 , 同時在訓練端保持策略更新的穩定性 , 從而在優化質量、速度與成本之間取得最佳平衡 。


針對 GUI 自動化任務獎勵信號稀疏且延遲的特性 , 我們引入了 Trajectory-aware Relative Policy Optimization (TRPO) 算法 。 該算法不再試圖為每一步操作精確分配獎勵 , 而是在整個任務完成后 , 對整條軌跡進行一次性評估 , 并根據成功、失敗或格式錯誤給予一個明確的軌跡級獎勵 。 這個獎勵信號經過歸一化處理后 , 會均勻地分配到該軌跡的每一個步驟上 , 從而有效緩解了長任務中棘手的「信用分配問題」 , 讓模型能夠從最終結果中穩定地學習 。

為了進一步提升學習效率 , 我們還引入了 Replay Buffer 機制 , 它會緩存歷史上成功的案例 。 當某一輪訓練中全是失敗的嘗試時 , 系統會自動從緩存中「注入」一個成功樣本 , 確保模型在每個批次都能學到正向反饋 。 這些專門的優化 , 使得 GUI-Owl 在在線環境中能夠持續提升長任務的成功率 , 表現更接近真實用戶所需的高穩定性 。


總結

GUI-Owl 的發布 , 為開源社區帶來了一個能力強大的原生端到端多模態 GUI 智能體 。 它不僅在 AndroidWorld、OSWorld 等關鍵基準上刷新了開源模型的記錄 , 其 32B 版本更是在多項評測中展現了超越閉源頂級模型的實力 。 更重要的是 , 它以單一模型之身 , 即可勝任復雜的單體任務與多智能體協作中的不同角色 , 顯著降低了部署和資源開銷 。

而 Mobile-Agent-v3 框架則是為充分釋放 GUI-Owl 潛力而生的最佳拍檔 。 它通過精巧的多智能體協作機制 , 進一步提升了模型的跨任務執行能力 , 結合云端沙箱的靈活性 , 使其能夠快速適應并解決各類新場景下的自動化難題 。

一句話總結:開源 , Mobile-Agent-v3 也能跑在最前面 。

    推薦閱讀