告別「偏科」,UniVid實現視頻理解與生成一體化

告別「偏科」,UniVid實現視頻理解與生成一體化

文章圖片

告別「偏科」,UniVid實現視頻理解與生成一體化

文章圖片

告別「偏科」,UniVid實現視頻理解與生成一體化

文章圖片

告別「偏科」,UniVid實現視頻理解與生成一體化

文章圖片

告別「偏科」,UniVid實現視頻理解與生成一體化

文章圖片

告別「偏科」,UniVid實現視頻理解與生成一體化
【告別「偏科」,UniVid實現視頻理解與生成一體化】


在視頻生成與理解的賽道上 , 常常見到分頭發力的模型:有的專注做視頻生成 , 有的專注做視頻理解(如問答、分類、檢索等) 。 而最近 , 一個開源項目 UniVid , 提出了一個「融合」方向:把理解 + 生成融為一體 —— 他們希望用一個統一的模型 , 兼顧「看懂視頻」+「生成視頻」的能力 。





這就像把「看圖識物」和「畫圖創作」兩件事 , 交給同一個大腦去做:理解一段文字 + 理解已有視頻內容 → 再「畫」出新的、連貫的視頻 —— 這在技術上挑戰極大 。





  • 論文標題:UniVid: The Open-Source Unified Video Model
  • 論文地址:https://arxiv.org/abs/2509.24200


UniVid 想解決什么問題?


UniVid 嘗試把視頻「理解」與「生成」融合為一體 , 構建出一個真正通用的統一視頻模型(Unified Video Model) , 一個既能「理解」又能「生成」的視頻多模態模型 。


核心創新
1.統一結構:Adapter-based Unified Architecture





在傳統方案中 , 理解模型和生成模型是完全分開的系統 , 訓練開銷大、互通困難 。 要把它們融合 , 需要重新訓練一個龐大的聯合模型 , 成本極高 。


本文采用適配器(Adapter)插入機制 , 在已有多模態大語言模型中插入輕量模塊 , 使其具備視頻生成能力 。 這樣 , 理解模塊 + 生成模塊可以共享大部分參數 , 只需訓練少量新增參數 。


優勢:
  • 顯著降低訓練開銷與算力成本;
  • 提高模型擴展性:已有理解能力的模型能「平滑地」插入生成能力;
  • 兼顧理解與生成 , 不犧牲已有強大的視覺 / 語言理解基礎 。


2. 溫控對齊:Temperature Modality Alignment
在跨模態(文本 → 視頻)生成中 , 文本與視覺之間表示尺度、語義強度往往不匹配 。 若直接融合注意力或特征 , 很容易出現「提示偏移」(Prompt Drift):生成的視頻越偏離最初的文字意圖 。


本文提出模態溫度對齊機制(Temperature Modality Alignment) 。 在跨模態注意力層中對不同模態(文本 / 視覺特征)引入溫度系數(類似 softmax 溫度調節) , 動態調節它們的注意力權重與融合強度 。 在生成過程的早期階段 , 更高權重給文本提示以加強語義引導;在后期階段 , 則逐漸讓視覺特征主導細節優化 。


這能夠有效減少提示偏移 , 提高語義一致性;讓模型在「理解 → 生成」過程中過渡更自然;保證最終視頻既符合提示 , 又具備高質量視覺細節 。


3. 金字塔反射:Pyramid Reflection





視頻是時序數據 , 理解和建模長時域依賴(遠幀之間的關聯)成本極高 。 傳統 Transformer 全幀注意力的計算量呈平方級增長 , 難以擴展 。


本文提出金字塔反射機制(Pyramid Reflection):
  • 在理解任務中采用 Reflector 模塊 , 通過動態選擇關鍵幀 , 并在金字塔層次上進行「反射 / 聚合」操作;
  • 將幀序列映射到不同時間尺度 , 自底向上或自頂向下反射信息 , 使模型能在多個尺度上捕捉時序關系 。


在視頻 QA / 時序理解任務中 , PR 模塊結合 Actor – Evaluator – Reflector 循環結構 , 讓模型能用最少的幀達到準確推理結果 。


實驗結果:打敗 SOTA?
UniVid 在視頻生成與理解兩大方向上 , 都達到了同級模型最優表現 。


1. 視頻生成:VBench 全維度刷新記錄
測試基準:VBench-Long , 是目前最嚴格的視頻生成綜合評測集 , 涵蓋多個維度:


  • 技術質量(Technical Quality)
  • 美學質量(Aesthetic Quality)
  • 語義一致性(Semantic Fidelity)
  • 對象 / 動作 / 場景 / 時序等細粒度指標





UniVid 的成績不僅在總分上超越所有主流視頻生成模型 , 更在關鍵維度上超越同級:


  • Temporal Consistency(時序一致性):99.88(幾乎滿分);
  • Motion Smoothness(運動平滑度):99.25;
  • Semantic Alignment(語義一致性):80.58(領先 EasyAnimate 的 77.01);
  • Imaging Quality(影像質量):73.03(顯著高于其他模型) 。


UniVid 在生成的同時 , 極大提升了語義契合度與畫面連貫性 。



與頂尖視頻生成模型的比較


2. 視頻理解:多項問答任務登頂
在視頻問答(Video Question Answering Video-QA)任務中 , UniVid 同樣登頂多個主流基準 。





UniVid 在 MSVD-QA 和 ActivityNet-QA 上均創造新紀錄 , 并在更復雜的長時序視頻上展現出卓越的時序推理與語義理解能力 。



與頂尖視頻生成模型的比較


Demo 展示


為了讓大家更直觀地理解 UniVid 的能力 , 研究團隊還準備了視頻 Demo , 涵蓋視頻生成和視頻理解兩類任務 。


視頻生成:


https://mp.weixin.qq.com/s/Ri2wC8tgwut-deKbF2VxZw
從左到右的 prompt 分別是:
  • Mouse with large teeth aggressively eating cheese.
  • A white cat in sunglasses relaxes on a surfboard at the beach under a sunny sky.
  • Ten fluffy kittens eat breakfast together in warm sunlight.


視頻理解:


https://mp.weixin.qq.com/s/Ri2wC8tgwut-deKbF2VxZw
應用價值與意義


1. 視頻創作與生成
在影視、廣告、短視頻等場景中 , 創作者只需輸入文字腳本或圖像提示 , UniVid 就能自動生成連貫、符合語義邏輯的視頻 。 它能「理解」劇情后再去「創作鏡頭」 , 讓內容生產更自然、更高效 。


2. 視頻理解與分析
UniVid 還能看懂視頻 。 無論是體育賽事、監控畫面還是教學視頻 , 它都能識別動作、人物、事件邏輯 , 生成精準摘要或問答結果 。 讓機器不僅看到畫面 , 更「理解故事」 。


3. 機器人與具身智能
在機器人導航、自動駕駛或智能體系統中 , UniVid 可以理解攝像頭輸入并生成未來場景預測 , 幫助智能體進行規劃與決策 。 它讓機器人不僅「看得到」 , 還能「想得出下一步」 。


4. 開源生態與科研價值
與閉源視頻模型不同 , UniVid 的代碼開源 , 任何研究者或開發者都可自由使用、復現、二次開發 。 它為視頻智能研究提供了一個通用底座 , 也讓產業界能以更低成本構建自己的視頻生成系統 。


作者介紹


羅嘉濱是北京大學軟微與微電子學院在讀博士生 , 研究興趣為多智能體系統、多模態生成、RAG、AI 安全 。 曾參與多項科研項目 , 長期致力于構建安全可信的 AGI 。


林峻輝是北京師范大學在讀本科生 , AI Geek 成員 , 研究興趣為圖像 , 視頻生成與處理 。 曾參與多項科研項目 , 積極探索有趣且有用的計算機視覺模型 。


張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導的本科研究員 。 他的研究興趣扎根于計算機視覺領域 , 專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系 。 張澤宇在多個研究領域擁有豐富的經驗 , 積極探索人工智能基礎和應用領域的前沿進展 。


唐浩現任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者 , 入選國家級海外高水平人才計劃 。 曾獲國家優秀自費留學生獎學金 , 連續三年入選斯坦福大學全球前 2% 頂尖科學家榜單 。 他曾在美國卡耐基梅隆大學、蘇黎世聯邦理工學院、英國牛津大學和意大利特倫托大學工作和學習 。 長期致力于人工智能領域的研究 , 在國際頂級期刊與會議發表論文 100 余篇 , 相關成果被引用超過 10000 次 。 曾獲 ACM Multimedia 最佳論文提名獎 , 現任 ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025 領域主席及多個人工智能會議和期刊審稿人 。


  • 更多信息參見個人主頁: https://ha0tang.github.io/

    推薦閱讀