Self-Forcing++：讓自回歸視頻生成模型突破 4 分鐘時長極限

2026-03-26 人工智能微軟 ai管家

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

本工作由加州大學洛杉磯分校與字節 Seed 等團隊聯合完成。

在擴散模型持續引領視覺生成浪潮的今天，圖像生成早已臻于極致，但視頻生成仍被一個關鍵瓶頸困住——時長限制。目前多數模型還停留在數秒短視頻的生成， Self-Forcing++ 讓視頻生成首次跨入 4 分鐘高質量長視頻時代，且無需任何長視頻數據再訓練。先展示一段 100 秒的生成視頻：

論文標題：Self-Forcing++: Towards Minute-Scale High-Quality Video Generation 論文地址：https://arxiv.org/abs/2510.02283 項目主頁： https://self-forcing-plus-plus.github.io 代碼：https://github.com/justincui03/Self-Forcing-Plus-Plus
https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4
研究背景：為什么長視頻生成如此困難？
在擴散模型驅動的視覺生成領域，從 Sora、Wan、Hunyuan-Video 到 Veo ，視頻模型正不斷逼近真實世界。然而幾乎所有主流模型都有一個共同限制：只能生成數秒的短片段。

這背后的原因在于架構層面的「先天缺陷」：

Transformer 的非因果性 —— 傳統擴散 Transformer (DiT) 需要同時看到所有幀，無法自然地逐幀擴展；
訓練-推理不匹配 —— 模型在訓練時只見過 5 秒短片，卻在推理時要生成幾十秒甚至幾分鐘；
誤差累積 —— 教師模型在每一幀提供強監督，但學生模型在長序列中沒有應對逐步誤差的能力；
過曝與凍結 —— 長時間生成后常出現畫面靜止、亮度漂移、運動中斷等「災難性崩塌」。
這些問題共同導致：即使最先進的自回歸視頻擴散模型，也難以在 10 秒以上保持畫面一致與運動連貫。

核心思想：教師模型即世界模型
Self-Forcing++ 的關鍵洞察是：

【Self-Forcing++：讓自回歸視頻生成模型突破 4 分鐘時長極限】教師模型雖然只會生成 5 秒視頻，但它依然掌握糾錯長視頻失真的能力。

研究者利用這一點，讓學生模型先自己生成長視頻（即使這些視頻已經開始「崩壞」），再用教師模型來糾正它的錯誤。

經過這種「生成→失真→再糾錯→再學習」循環，模型逐步學會了在長時間尺度下自我修復和穩態生成。這一機制讓 Self-Forcing++ 無需任何長視頻標注，就能把生成時長從 5 秒擴展到 100 秒，甚至 4 分鐘 15 秒（達到位置編碼極限的 99.9%）。

技術解析：關鍵的三步讓模型穩定生成超長視頻

1?? 反向噪聲初始化（Backward Noise Initialization）

在傳統短視頻蒸餾中，模型每次都從隨機噪聲生成。

Self-Forcing++ 改為在長視頻 roll-out 后，把噪聲重新注入到已生成的序列中，使后續幀與前文保持時間連續性。

這一步相當于讓模型「重啟但不失憶」，避免時間割裂。

2?? 擴展分布匹配蒸餾（Extended DMD）

作者將原本只在 5 秒窗口內進行的教師-學生分布對齊，擴展為滑動窗口蒸餾：

學生先生成 100 秒長視頻 → 隨機抽取其中任意 5 秒片段 → 用教師分布校正該片段。

這樣，教師不必生成長視頻，也能「局部監督」學生的長序列表現，從而實現長期一致性學習。

3?? 滾動 KV 緩存（Rolling KV Cache）

以往自回歸模型（如 CausVid）在推理時使用滾動緩存，但訓練時卻仍用固定窗口，造成嚴重偏差。

Self-Forcing++ 在訓練階段也同步采用滾動緩存，實現真正的訓練-推理對齊，徹底消除了「曝光漂移」和「幀重復」的問題。

進一步優化：
強化學習加持的時間平滑

在部分極長視頻中，模型仍可能出現突然跳幀或場景突變。

研究者借鑒強化學習中的 Group Relative Policy Optimization (GRPO) 框架，引入光流平滑獎勵（Optical-Flow Reward），讓模型通過懲罰光流突變來學習更自然的運動過渡。結果顯示：光流方差顯著下降，視頻流暢度顯著提升。整體的算法可以歸納為下面的流程。

實驗結果：在 50、75 和 100 秒的視頻生成評測上全面超越基線
測試設置

模型規模：1.3B 參數（與 Wan2.1-T2V 相同）對比方法：CausVid、SkyReels-V2、MAGI-1、Self-Forcing 等評估指標：VBench + 新提出的 Visual Stability（視覺穩定性）
主要成果

以下表格展示的是在 VBench 上和使用 Gemini-2.5-pro (Visual Stability) 上的測試結果。

如下圖所示，在 0-100 秒的生成結果上， Self-Forcing++ 都能保持很好的穩定性，基線模型大多數都會經歷嚴重的質量下降，比如過曝光和錯誤累積。

可視化展示：更多的超長視頻展示
https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4

https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4
在這些長視頻中， Self-Forcing++ 始終保持穩定亮度與自然運動，視覺效果幾乎無明顯劣化。

Scaling 現象：訓練算力 ×25 → 255 秒視頻
作者進一步探究「算力與時長」關系，在可視化生成過程中有以下發現：

這說明可能無需長視頻數據，只要擴展訓練預算，即可延展生成時長。

局限與展望
雖然自回歸視頻生成已經能達到分鐘級別，但是目前依舊有以下問題有待提高：

長時記憶缺失：極長場景下，仍可能丟失被遮擋物體的狀態；訓練效率較慢：自回歸訓練成本高，比 teacher-forcing 訓練速度慢。?
更多演示視頻和我們的方法請參考我們的主頁。

推薦閱讀

上一篇：極限更高、游戲都能滿幀，iPhone 17系列性能測試

下一篇：告別繁瑣！讓AI當你的“生活管家”，是種怎樣的體驗？