華為發布業界首個擴散語言模型Agent,部分場景提速8倍!

華為發布業界首個擴散語言模型Agent,部分場景提速8倍!

文章圖片

華為發布業界首個擴散語言模型Agent,部分場景提速8倍!

文章圖片

華為發布業界首個擴散語言模型Agent,部分場景提速8倍!

文章圖片

華為發布業界首個擴散語言模型Agent,部分場景提速8倍!

文章圖片


允中 發自 凹非寺
量子位 | 公眾號 QbitAI
大模型通往現實世界的“最后三公里” , Agent已然成為最具代表性的入場券 。
但當下的共識發生了微妙的變化:
衡量一個Agent夠不夠強 , 早已不再看它能不能“答對問題” , 而是看它在面對多輪推理、工具調用及復雜協作時 , 能否用最短的路徑、最少的交互預算 , 穩定地搞定任務 。
在這一背景下 , 一個長期被行業忽視的底層命題浮出水面:
當Agent的框架、工具、數據和訓練方式都保持一致時 , 僅僅改變語言模型的生成范式(Autoregressive vs Diffusion) , 是否會系統性地改變Agent的規劃與行為模式?
近日 , 來自華為諾亞方舟實驗室、華為先進計算與存儲實驗室、UCL、南洋理工大學、清華大學和北京大學的研究團隊 , 在最新工作《DLLM Agent: See Farther Run Faster》中 , 對這一問題給出了迄今為止最“對照實驗式”的回答 。
他們發現 , 僅僅是把“底座”換成了擴散式大模型(DLLM) , Agent就像突然開了“上帝視角” , 執行速度不僅提升了30%以上 , 甚至在部分復雜任務中跑出了8倍于傳統AR模型的效率 。
文章鏈接:https://arxiv.org/pdf/2602.07451
官方網頁:https://noah-dllm.github.io/
核心結論一覽在完全相同的Agent工作流、訓練數據和交互預算下 , 研究發現:
在準確率基本持平的前提下 , DLLM Agent端到端執行速度平均提升30%以上; 在成功解題的條件下 , DLLM Agent使用更少的交互輪次和工具調用; DLLM展現出更強的planner能力:更早收斂到正確軌跡、回溯和冗余更少; 這種優勢并非僅來自并行解碼速度 , 而是體現在Agent級別的規劃與決策行為上 。 一個“極端公平”的對照實驗設計為了避免“框架差異”、“提示工程”、“數據不一致”等干擾因素 , 作者采用了非常嚴格的對照實驗設置:
使用同一個Agent框架:DeepDiver(多智能架構 , 層級式規劃 , https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver); 使用同一套工具接口與解析規則; 使用完全相同的Agent任務進行繼續訓練; 統一context長度上限(32K)、最大交互輪數、tool call上限; 唯一變化因素:Agent背后的生成范式Autoregressive LLM(AR):openpangu 7b-v1
Diffusion Large Language Model(DLLM):openpangu diffusion 7b , 這個模型是從openpangu 7b-v1續訓得到的 , 模型的基礎推理能力相似 。
這意味著 , 實驗中觀察到的行為差異 , 不能歸因于數據/模型的基礎能力或workflow , 而只能來自生成范式本身 。
不過 , 考慮到生成范式的不同 , 針對多輪長鏈交互的DLLM訓練 , 作者使用了針對性調整的Mask策略和Attention裁剪策略 , 提升了DLLM Agent訓練和推理的一致性 。
同樣的終點 , 更短的路徑在構建了對照平臺后 , 研究團隊將關注點轉向了核心指標:即DLLM這種生成范式的改變 , 究竟能在多大程度上提升Agent的實戰表現?
實驗結果證明 , DLLM Agent的優勢并非僅僅來自“算得快” , 更在于它在復雜規劃中“走得直” 。
1、BrowseComp-zh基準測試:效率的全面跨越
研究團隊在包含110條任務的BrowseComp-zh(中文多輪Web瀏覽)子集上 , 完成了性能測試 。

通過對海量測試結果的深度復盤 , 研究人員觀察到了幾個關鍵規律:
DLLM Agent在準確率持平的情況下 ,
平均工具調用次數顯著減少; Agent軌跡平均更短; 端到端延遲下降約30% 。但同時也暴露出一個現實問題:原生DLLM更容易產生結構化tool-call錯誤 。
此外 , 作者還展示了DLLM Agent和AR Agent在Information Seeker完成問題上的分布 , 可以清晰地看到DLLM Agent在處理問題時 , 往往能以更少的交互次數完成同樣的任務 。

2、案例實錄:8.18倍速度落差的背后
為了更直觀地展現這種“走直路”的能力 , 可以看一個典型的多約束檢索案例(涉及動物命名+中國互聯網公司+團隊合并+軟硬件等多個維度) , query如下:

結果發現 , 盡管AR Agent和DLLM Agent最終都給出了正確答案 , 但其執行邏輯卻展現出巨大的差異 , 不僅表現在端到端有8.18×的速度差異上(如下表):

也表現在具體的planner執行過程上——
DLLM Agent的planner質量更高 , 從而在部分case上表現出來遠超過基礎模型的效率差異的端到端性能收益 。

DLLM為何是天生的“強Planner”?論文并未停留在表面的數據對比 , 而是深入分析了entropy和confidence與擴散過程中的內部動態 , 試圖從生成范式的底層原理 , 來解釋DLLM為何在規劃上更具優勢 。
一、Planner Agent:先全局、后細節
在任務拆解階段 , DLLM Planner表現出獨特的兩階段特征 , 這與人類先構思大綱再填補內容的思維方式不謀而合:
階段一:并行提取關鍵信息
用戶問題中的4個核心約束 , 往往在1–2個diffusion step內就能被同時識別 。
階段二:逐步細化任務結構
在已有全局框架下 , 再逐步補充具體的邏輯細節 。
這與AR的差異 , 主要體現在:
AR必須按token順序“邊想邊寫”; 一旦早期判斷偏差 , 往往只能通過多輪todo/re-plan/verification來修正 。這也直接解釋了 , 為什么AR Agent在實驗中更容易產生多個todo_v1/todo_v2冗余規劃文檔的原因 。 下圖詳細解釋了planner在這個過程中的變化:

二、Information Seeker:先定方向 , 再填參數
在具體的工具調用階段 , DLLM的生成模式呈現出一種極其穩定的結構化傾向:
它會首先確定調用哪個工具; 隨后 , 并行生成參數與細節; 整個tool-call被視為一個整體“動作塊” , 并在生成過程中被反復refinement 。相比之下 , AR Agent的生成過程更像是一條不可回頭的流水線:函數名→參數1→參數2→ …
一旦前面的token出現語法或邏輯錯誤 , AR無法原地修正 , 只能寄希望于下一輪tool call來補救 。

三、注意力演化:確定性的迅速鎖定
研究團隊通過對擴散過程中Mask Token的熵(Entropy)演化 , 以及不同階段Attention的集中與分散的分析 , 得出了更深層的結論:
在DLLM的生成過程中 , 高不確定性集中在決策的早期階段; 一旦高層決策形成 , 后續細節的生成會表現出極高的收斂速度; attention機制呈現出更明顯的“全局 → 局部”協調模式 , 這與AR僅僅追求token-level的局部最優決策 , 形成了鮮明對比 。不過 , 作者并沒有回避DLLM的不足之處——
Diffusion模型在處理Agent場景時 , 對結構化輸出更敏感 。
通過設計訓推一致的Mask策略與Attention策略(如context-clean corruption和span-aware attention mask) , 可以提升DLLM Agent的推理性能 。
這意味著 , 要充分發揮DLLM的潛力 , 并不能將其作為AR的簡單替代品 , 而需要針對Agent的交互場景 , 重新對齊接口與訓練目標 。
生成范式重塑Agent設計維度這項工作為Agent研究提供了一個全新的視角——
生成范式本身 , 會深刻塑造Agent的行為方式 。
在完全相同的數據基底與技術框架下 , DLLM Agent展現出了超越傳統自回歸模型的執行效率:
更早形成全局計劃 更少走彎路 更快速度結束任務這使得Diffusion不再只是“另一種生成模型” , 而成為構建高效Agent的一個全新設計維度 。
下方Demo直觀展示了DLLM Agent在效率上的顯著優勢(同類對比示例可參考原論文中的Case1):



【華為發布業界首個擴散語言模型Agent,部分場景提速8倍!】

    推薦閱讀