Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時長極限

Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時長極限

文章圖片

Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時長極限

文章圖片

Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時長極限

文章圖片

Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時長極限

文章圖片

Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時長極限

文章圖片




本工作由加州大學洛杉磯分校與字節 Seed 等團隊聯合完成 。

在擴散模型持續引領視覺生成浪潮的今天 , 圖像生成早已臻于極致 , 但視頻生成仍被一個關鍵瓶頸困住——時長限制 。 目前多數模型還停留在數秒短視頻的生成 , Self-Forcing++ 讓視頻生成首次跨入 4 分鐘高質量長視頻時代 , 且無需任何長視頻數據再訓練 。 先展示一段 100 秒的生成視頻:



論文標題:Self-Forcing++: Towards Minute-Scale High-Quality Video Generation 論文地址:https://arxiv.org/abs/2510.02283 項目主頁: https://self-forcing-plus-plus.github.io 代碼:https://github.com/justincui03/Self-Forcing-Plus-Plus
https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4
研究背景: 為什么長視頻生成如此困難?
在擴散模型驅動的視覺生成領域 , 從 Sora、Wan、Hunyuan-Video 到 Veo , 視頻模型正不斷逼近真實世界 。 然而幾乎所有主流模型都有一個共同限制:只能生成數秒的短片段 。

這背后的原因在于架構層面的「先天缺陷」:

Transformer 的非因果性 —— 傳統擴散 Transformer (DiT) 需要同時看到所有幀 , 無法自然地逐幀擴展;
訓練-推理不匹配 —— 模型在訓練時只見過 5 秒短片 , 卻在推理時要生成幾十秒甚至幾分鐘;
誤差累積 —— 教師模型在每一幀提供強監督 , 但學生模型在長序列中沒有應對逐步誤差的能力;
過曝與凍結 —— 長時間生成后常出現畫面靜止、亮度漂移、運動中斷等「災難性崩塌」 。
這些問題共同導致:即使最先進的自回歸視頻擴散模型 , 也難以在 10 秒以上保持畫面一致與運動連貫 。

核心思想: 教師模型即世界模型
Self-Forcing++ 的關鍵洞察是:

【Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時長極限】教師模型雖然只會生成 5 秒視頻 , 但它依然掌握糾錯長視頻失真的能力 。

研究者利用這一點 , 讓學生模型先自己生成長視頻(即使這些視頻已經開始「崩壞」) , 再用教師模型來糾正它的錯誤 。

經過這種「生成→失真→再糾錯→再學習」循環 , 模型逐步學會了在長時間尺度下自我修復和穩態生成 。 這一機制讓 Self-Forcing++ 無需任何長視頻標注 , 就能把生成時長從 5 秒擴展到 100 秒 , 甚至 4 分鐘 15 秒(達到位置編碼極限的 99.9%) 。

技術解析: 關鍵的三步讓模型穩定生成超長視頻


1?? 反向噪聲初始化(Backward Noise Initialization)

在傳統短視頻蒸餾中 , 模型每次都從隨機噪聲生成 。

Self-Forcing++ 改為在長視頻 roll-out 后 , 把噪聲重新注入到已生成的序列中 , 使后續幀與前文保持時間連續性 。

這一步相當于讓模型「重啟但不失憶」 , 避免時間割裂 。

2?? 擴展分布匹配蒸餾(Extended DMD)

作者將原本只在 5 秒窗口內進行的教師-學生分布對齊 , 擴展為滑動窗口蒸餾:

學生先生成 100 秒長視頻 → 隨機抽取其中任意 5 秒片段 → 用教師分布校正該片段 。

這樣 , 教師不必生成長視頻 , 也能「局部監督」學生的長序列表現 , 從而實現長期一致性學習 。

3?? 滾動 KV 緩存(Rolling KV Cache)

以往自回歸模型(如 CausVid)在推理時使用滾動緩存 , 但訓練時卻仍用固定窗口 , 造成嚴重偏差 。

Self-Forcing++ 在訓練階段也同步采用滾動緩存 , 實現真正的訓練-推理對齊 , 徹底消除了「曝光漂移」和「幀重復」的問題 。

進一步優化:
強化學習加持的時間平滑

在部分極長視頻中 , 模型仍可能出現突然跳幀或場景突變 。

研究者借鑒強化學習中的 Group Relative Policy Optimization (GRPO) 框架 , 引入光流平滑獎勵(Optical-Flow Reward) , 讓模型通過懲罰光流突變來學習更自然的運動過渡 。 結果顯示:光流方差顯著下降 , 視頻流暢度顯著提升 。 整體的算法可以歸納為下面的流程 。

實驗結果: 在 50、75 和 100 秒的視頻生成評測上全面超越基線
測試設置

模型規模:1.3B 參數(與 Wan2.1-T2V 相同) 對比方法:CausVid、SkyReels-V2、MAGI-1、Self-Forcing 等 評估指標:VBench + 新提出的 Visual Stability(視覺穩定性)
主要成果

以下表格展示的是在 VBench 上和使用 Gemini-2.5-pro (Visual Stability) 上的測試結果 。




如下圖所示 , 在 0-100 秒的生成結果上 , Self-Forcing++ 都能保持很好的穩定性 , 基線模型大多數都會經歷嚴重的質量下降 , 比如過曝光和錯誤累積 。



可視化展示: 更多的超長視頻展示
https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4

https://mp.weixin.qq.com/s/7ND9vWX1xnj3EQjcA1C_oA?click_id=4
在這些長視頻中 , Self-Forcing++ 始終保持穩定亮度與自然運動 , 視覺效果幾乎無明顯劣化 。

Scaling 現象: 訓練算力 ×25 → 255 秒視頻
作者進一步探究「算力與時長」關系 , 在可視化生成過程中有以下發現:



這說明可能無需長視頻數據 , 只要擴展訓練預算 , 即可延展生成時長 。

局限與展望
雖然自回歸視頻生成已經能達到分鐘級別 , 但是目前依舊有以下問題有待提高:

長時記憶缺失:極長場景下 , 仍可能丟失被遮擋物體的狀態; 訓練效率較慢:自回歸訓練成本高 , 比 teacher-forcing 訓練速度慢 。?
更多演示視頻和我們的方法請參考我們的主頁 。

    推薦閱讀