中國聯通提出新框架MeanCache,刷新多模態生成模型推理加速基準

中國聯通提出新框架MeanCache,刷新多模態生成模型推理加速基準

文章圖片

中國聯通提出新框架MeanCache,刷新多模態生成模型推理加速基準

文章圖片

中國聯通提出新框架MeanCache,刷新多模態生成模型推理加速基準

文章圖片

中國聯通提出新框架MeanCache,刷新多模態生成模型推理加速基準

文章圖片

中國聯通提出新框架MeanCache,刷新多模態生成模型推理加速基準

文章圖片

中國聯通提出新框架MeanCache,刷新多模態生成模型推理加速基準

文章圖片



【中國聯通提出新框架MeanCache,刷新多模態生成模型推理加速基準】作者和團隊介紹:本文第一作者是高煥霖 , 通訊作者為趙放和廉士國 , 所有作者均來自聯通數據智能有限公司(中國聯通數據科學與人工智能研究院)- 元景大模型研發團隊和南京大學 , 專注于聯通元景大模型研發 。
FLUX 、Qwen-Image 等多模態生成模型的推理速度一直是工業級多模態模型落地的痛點 。 傳統的特征緩存(Feature Caching)方案在追求高倍率加速時 , 常因瞬時速度的劇烈波動導致軌跡漂移 。
針對這一痛點 , 中國聯通數據科學與人工智能研究院與南京大學研究團隊 , 在此前工作 LeMiCa(NeurIPS 2025 Spotlight)的基礎上繼續深耕 , 推出了進階加速框架 MeanCache 。
該工作不僅承襲了團隊在擴散模型加速領域的深厚積淀 , 更在技術上實現了跨越:受到 MeanFlow 啟發 , MeanCache 首次將 “平均速度” 視角引入緩存推理 , 通過 JVP 修正精準校正了生成軌跡 , 實現了 4x 以上的推理提速 。 該成果已入選人工智能頂會 ICLR 2026 , 目前 , 論文、代碼均已開源 。

論文標題:MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference 論文鏈接:https://arxiv.org/pdf/2601.19961 項目主頁:https://unicomai.github.io/MeanCache/ 代碼地址:https://github.com/UnicomAI/MeanCache技術創新:平均速度驅動的緩存新范式
MeanCache 的核心貢獻在于將緩存加速從 “瞬時速度” 轉向了 “平均速度” , 主要包含以下兩個核心技術點:
JVP 驅動的平均速度

該建模方式將緩存視角從單一的 “點” 擴展到了 “區間” , 通過提供更穩定的引導信號 , 有效地校正了高倍率加速下的軌跡偏離 。

軌跡穩定調度策略
“什么時候該緩存?” 以往的方法多依賴固定步長或手動閾值 。 MeanCache 將推理過程建模為一個多重圖(Multigraph)尋優問題 。
它將每個時間步視為節點 , 將預測均值速度與真實值之間的穩定性偏差定義為邊權:

節點和邊組成多重圖 , 然后再通過峰值抑制最短路徑(Peak-Suppressed Shortest Path)算法 , 在給定的計算預算下 , 計算規則下最優的緩存策略:

實驗結果:刷新 SOTA 加速表現
文生圖
在商業級文生圖模型 Qwen-Image 和 FLUX.1 [dev
分別實現最高 4x 加速 , 在 Image Reward 和感知指標上取得了 SOTA 的表現 。

從視覺效果上看 , 隨著加速比的增大 , MeanCache 生成的圖片在內容一致性方面表現更好 。

文生視頻
在視頻生成模型 HunyuanVideo 上也實現了 3.6x 加速和 SOTA 的指標提升 。

在對視頻的定性分析上 , MeanCache 也表現出更好的加速效果 , 不論是畫質還是內容一致性方面 。

語義一致性:更進一步 , 針對 rare-word(如下圖 \"Peristeronic\")的高難度生僻 Prompt 的測試下 , MeanCache 展現了更強的語義魯棒性 。

業界頂級團隊推薦
同時 , MeanCache 已支持最新的阿里通義 Z-Image 和 Qwen-Image-2512 文生圖模型 , 并獲得了 Z-Image 團隊的官方主頁推薦 , 社區已支持 ComfyUI 。

總結與展望
MeanCache 作為一種輕量化、免訓練的 Flow Matching 加速框架 , 創新性地提出了 “平均速度緩存” 與 “軌跡穩定性調度” 方案 。 該方案在確保圖像高保真度與內容一致性的基礎上 , 顯著提升了大模型的推理效率 。聯通元景大模型團隊將以此為基石 , 持續深耕模型推理加速及復雜場景生成領域 。 我們致力于為業界貢獻更多元化的技術視角 , 進一步降低工業級生成模型的使用門檻與算力成本 。

    推薦閱讀