「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

文章圖片

「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

文章圖片

「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

文章圖片

「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

文章圖片

「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

文章圖片

「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

文章圖片

「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩

文章圖片



當 Sora 讓世界看到了 AI 生成視頻的驚艷效果 , 一個更深層的問題浮出水面:如何讓生成的視頻不只是「看起來像」 , 而是真正理解并遵循物理世界的規律?這正是「視頻世界模型」(Video World Model)要解決的核心挑戰 。 當生成時長從幾秒擴展到幾分鐘 , 模型不僅要畫面逼真 , 更要在長時間尺度上保持結構、行為與物理規律的一致性 。 然而 , 誤差累積與語義漂移往往導致長視頻出現畫面退化與邏輯崩壞 —— 這已成為衡量世界模型能力的關鍵瓶頸 。
圍繞這一挑戰 , 上海人工智能實驗室聯合復旦大學、南京大學、南洋理工大學 S-Lab 等單位提出了 LongVie 2—— 一個能夠生成長達 5 分鐘高保真、可控視頻的世界模型框架 。

LongVie 2 可自回歸生成 3-5 分鐘的超長可控視頻
論文:https://arxiv.org/pdf/2512.13604 項目主頁:https://vchitect.github.io/LongVie2-project/ GitHub:https://github.com/Vchitect/LongVie 視頻演示:https://www.youtube.com/watch?v=ln1kMNYj50Y
什么是理想的視頻世界模型?
一個理想的視頻世界模型 , 不應只是「生成得更久」 , 而應同時具備以下三項核心能力:
全面可控性(Comprehensive Controllability):能夠在長時間生成過程中穩定響應多種控制信號 , 保持場景結構與運動意圖不漂移; 長期視覺保真(Long-term Fidelity):隨著時間推進 , 畫面質量不發生明顯退化 , 不出現紋理崩塌或細節丟失; 長程上下文一致性(Long-context Consistency):跨片段、跨時間保持語義、身份與物理規律的一致 , 避免「換世界式」斷裂 ?,F有世界模型的瓶頸在哪里?
本文系統調研了當前主流的視頻世界模型 , 發現一個共同問題:隨著生成時長的增加 , 模型的可控性、視覺保真度與時間一致性會同步下降 。

現有模型在長時間生成時的退化問題
LongVie 2:三階段遞進式訓練
為系統性解決上述挑戰 , LongVie 2 設計了一套逐層遞進的三階段訓練策略 , 從控制、穩定性到時間一致性層層強化:

LongVie 2 三階段訓練流程
階段一:DenseSparse 多模態控制
通過引入稠密信號(如深度圖)與稀疏信號(如關鍵點軌跡) , 為模型提供穩定且可解釋的世界約束 。 這使生成過程不再完全依賴隱式記憶 , 從源頭提升長程可控性 。
階段二:退化感知訓練(Degradation-aware Training)
長視頻生成中 , 質量衰減幾乎不可避免 。 LongVie 2 的核心創新在于:在訓練階段主動「制造困難」——

退化感知訓練示意圖
利用 VAE 的多次 encode-decode 模擬重建誤差; 通過 加噪 + Diffusion 去噪 構造退化圖像 。以此作為訓練信號 , 使模型學會在不完美輸入下保持穩定生成 , 顯著增強長期視覺保真度 。
階段三:歷史上下文建模
在生成過程中顯式引入歷史片段信息 , 并通過針對性 loss 約束相鄰片段的銜接 , 使跨片段過渡更加自然順暢 , 有效緩解長視頻中的語義斷裂與邏輯跳變問題 。

三階段訓練效果對比
一圖看懂 LongVie 2 框架
通過多模態控制、退化感知訓練與歷史上下文建模的協同設計 , LongVie 2 將長視頻生成從「片段拼接」提升為持續演化的世界建模過程:

LongVie 2 整體框架
從左至右 , LongVie 2 首先將跨片段的稠密(深度)與稀疏(關鍵點)控制視頻做全局歸一化 , 并為所有片段采用統一的噪聲初始化 。 隨后在每一片段生成時 , 將全局歸一化后的控制信號、上一片段的末幀與文本提示送入模型 , 逐步生成完整的長視頻 。
LongVie 2 能力展示
該研究將LongVie 2與 Go-With-The-Flow 和 Diffusion As Shader 進行了對比 。 結果顯示 , LongVie 2 在可控性方面表現顯著優于現有方法:
【「視頻世界模型」新突破:AI連續生成5分鐘,畫面也不崩】
與現有方法的可控性對比


消融實驗也充分驗證了三階段訓練的有效性:

消融實驗結果
LongVGenBench
首個可控超長視頻評測基準
當前缺乏面向可控長視頻生成的標準化評測 。 為此 , 本文提出 LongVGenBench—— 首個專為超長視頻生成設計的基準數據集 , 包含 100 個時長超過 1 分鐘的高分辨率視頻 , 覆蓋真實世界與合成環境的多樣場景 , 旨在推動該方向的系統研究與公平評測 。
定量評估與用戶主觀測評結果顯示 , LongVie 2 在多項指標上達到 SOTA 水平 , 并獲得最高用戶偏好度:


定量評測結果與用戶研究

    推薦閱讀