華為發布業界首個擴散語言模型Agent，部分場景提速8倍！

2026-02-27 清華大學機器人人工智能創投圈人機交互英諾天使基金

文章圖片

文章圖片

文章圖片

文章圖片

允中發自凹非寺
量子位 | 公眾號 QbitAI
大模型通往現實世界的“最后三公里” ， Agent已然成為最具代表性的入場券。
但當下的共識發生了微妙的變化：
衡量一個Agent夠不夠強，早已不再看它能不能“答對問題” ，而是看它在面對多輪推理、工具調用及復雜協作時，能否用最短的路徑、最少的交互預算，穩定地搞定任務。
在這一背景下，一個長期被行業忽視的底層命題浮出水面：
當Agent的框架、工具、數據和訓練方式都保持一致時，僅僅改變語言模型的生成范式（Autoregressive vs Diffusion），是否會系統性地改變Agent的規劃與行為模式？
近日，來自華為諾亞方舟實驗室、華為先進計算與存儲實驗室、UCL、南洋理工大學、清華大學和北京大學的研究團隊，在最新工作《DLLM Agent: See Farther Run Faster》中，對這一問題給出了迄今為止最“對照實驗式”的回答。
他們發現，僅僅是把“底座”換成了擴散式大模型（DLLM）， Agent就像突然開了“上帝視角” ，執行速度不僅提升了30%以上，甚至在部分復雜任務中跑出了8倍于傳統AR模型的效率。
文章鏈接：https://arxiv.org/pdf/2602.07451
官方網頁：https://noah-dllm.github.io/
核心結論一覽在完全相同的Agent工作流、訓練數據和交互預算下，研究發現：
在準確率基本持平的前提下， DLLM Agent端到端執行速度平均提升30%以上；在成功解題的條件下， DLLM Agent使用更少的交互輪次和工具調用； DLLM展現出更強的planner能力：更早收斂到正確軌跡、回溯和冗余更少；這種優勢并非僅來自并行解碼速度，而是體現在Agent級別的規劃與決策行為上。一個“極端公平”的對照實驗設計為了避免“框架差異”、“提示工程”、“數據不一致”等干擾因素，作者采用了非常嚴格的對照實驗設置：
使用同一個Agent框架：DeepDiver（多智能架構，層級式規劃， https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver）；使用同一套工具接口與解析規則；使用完全相同的Agent任務進行繼續訓練；統一context長度上限（32K）、最大交互輪數、tool call上限；唯一變化因素：Agent背后的生成范式Autoregressive LLM（AR）：openpangu 7b-v1
Diffusion Large Language Model（DLLM）：openpangu diffusion 7b ，這個模型是從openpangu 7b-v1續訓得到的，模型的基礎推理能力相似。
這意味著，實驗中觀察到的行為差異，不能歸因于數據/模型的基礎能力或workflow ，而只能來自生成范式本身。
不過，考慮到生成范式的不同，針對多輪長鏈交互的DLLM訓練，作者使用了針對性調整的Mask策略和Attention裁剪策略，提升了DLLM Agent訓練和推理的一致性。
同樣的終點，更短的路徑在構建了對照平臺后，研究團隊將關注點轉向了核心指標：即DLLM這種生成范式的改變，究竟能在多大程度上提升Agent的實戰表現？
實驗結果證明， DLLM Agent的優勢并非僅僅來自“算得快” ，更在于它在復雜規劃中“走得直” 。
1、BrowseComp-zh基準測試：效率的全面跨越
研究團隊在包含110條任務的BrowseComp-zh（中文多輪Web瀏覽）子集上，完成了性能測試。

通過對海量測試結果的深度復盤，研究人員觀察到了幾個關鍵規律：
DLLM Agent在準確率持平的情況下，
平均工具調用次數顯著減少； Agent軌跡平均更短；端到端延遲下降約30% 。但同時也暴露出一個現實問題：原生DLLM更容易產生結構化tool-call錯誤。
此外，作者還展示了DLLM Agent和AR Agent在Information Seeker完成問題上的分布，可以清晰地看到DLLM Agent在處理問題時，往往能以更少的交互次數完成同樣的任務。

2、案例實錄：8.18倍速度落差的背后
為了更直觀地展現這種“走直路”的能力，可以看一個典型的多約束檢索案例（涉及動物命名+中國互聯網公司+團隊合并+軟硬件等多個維度）， query如下：

結果發現，盡管AR Agent和DLLM Agent最終都給出了正確答案，但其執行邏輯卻展現出巨大的差異，不僅表現在端到端有8.18×的速度差異上（如下表）：

也表現在具體的planner執行過程上——
DLLM Agent的planner質量更高，從而在部分case上表現出來遠超過基礎模型的效率差異的端到端性能收益。

DLLM為何是天生的“強Planner”？論文并未停留在表面的數據對比，而是深入分析了entropy和confidence與擴散過程中的內部動態，試圖從生成范式的底層原理，來解釋DLLM為何在規劃上更具優勢。
一、Planner Agent：先全局、后細節
在任務拆解階段， DLLM Planner表現出獨特的兩階段特征，這與人類先構思大綱再填補內容的思維方式不謀而合：
階段一：并行提取關鍵信息
用戶問題中的4個核心約束，往往在1–2個diffusion step內就能被同時識別。
階段二：逐步細化任務結構
在已有全局框架下，再逐步補充具體的邏輯細節。
這與AR的差異，主要體現在：
AR必須按token順序“邊想邊寫”；一旦早期判斷偏差，往往只能通過多輪todo/re-plan/verification來修正。這也直接解釋了，為什么AR Agent在實驗中更容易產生多個todo_v1/todo_v2冗余規劃文檔的原因。下圖詳細解釋了planner在這個過程中的變化：

二、Information Seeker：先定方向，再填參數
在具體的工具調用階段， DLLM的生成模式呈現出一種極其穩定的結構化傾向：
它會首先確定調用哪個工具；隨后，并行生成參數與細節；整個tool-call被視為一個整體“動作塊” ，并在生成過程中被反復refinement 。相比之下， AR Agent的生成過程更像是一條不可回頭的流水線：函數名→參數1→參數2→ …
一旦前面的token出現語法或邏輯錯誤， AR無法原地修正，只能寄希望于下一輪tool call來補救。

三、注意力演化：確定性的迅速鎖定
研究團隊通過對擴散過程中Mask Token的熵（Entropy）演化，以及不同階段Attention的集中與分散的分析，得出了更深層的結論：
在DLLM的生成過程中，高不確定性集中在決策的早期階段；一旦高層決策形成，后續細節的生成會表現出極高的收斂速度； attention機制呈現出更明顯的“全局 → 局部”協調模式，這與AR僅僅追求token-level的局部最優決策，形成了鮮明對比。不過，作者并沒有回避DLLM的不足之處——
Diffusion模型在處理Agent場景時，對結構化輸出更敏感。
通過設計訓推一致的Mask策略與Attention策略（如context-clean corruption和span-aware attention mask），可以提升DLLM Agent的推理性能。
這意味著，要充分發揮DLLM的潛力，并不能將其作為AR的簡單替代品，而需要針對Agent的交互場景，重新對齊接口與訓練目標。
生成范式重塑Agent設計維度這項工作為Agent研究提供了一個全新的視角——
生成范式本身，會深刻塑造Agent的行為方式。
在完全相同的數據基底與技術框架下， DLLM Agent展現出了超越傳統自回歸模型的執行效率：
更早形成全局計劃更少走彎路更快速度結束任務這使得Diffusion不再只是“另一種生成模型” ，而成為構建高效Agent的一個全新設計維度。
下方Demo直觀展示了DLLM Agent在效率上的顯著優勢（同類對比示例可參考原論文中的Case1）：

【華為發布業界首個擴散語言模型Agent，部分場景提速8倍！】

推薦閱讀

上一篇：1700個OpenClaw技巧，我用多鄰國的方式學會的！

下一篇：全球首家無人公司開業！OpenClaw 24小時不休，瘋狂碾壓打工人