告別「偏科」，UniVid實現視頻理解與生成一體化

2026-04-17 一加科技一加ace

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

【告別「偏科」，UniVid實現視頻理解與生成一體化】

在視頻生成與理解的賽道上，常常見到分頭發力的模型：有的專注做視頻生成，有的專注做視頻理解（如問答、分類、檢索等）。而最近，一個開源項目 UniVid ，提出了一個「融合」方向：把理解 + 生成融為一體 —— 他們希望用一個統一的模型，兼顧「看懂視頻」+「生成視頻」的能力。

這就像把「看圖識物」和「畫圖創作」兩件事，交給同一個大腦去做：理解一段文字 + 理解已有視頻內容 → 再「畫」出新的、連貫的視頻 —— 這在技術上挑戰極大。

論文標題：UniVid: The Open-Source Unified Video Model
論文地址：https://arxiv.org/abs/2509.24200

UniVid 想解決什么問題？

UniVid 嘗試把視頻「理解」與「生成」融合為一體，構建出一個真正通用的統一視頻模型（Unified Video Model），一個既能「理解」又能「生成」的視頻多模態模型。

核心創新
1.統一結構：Adapter-based Unified Architecture

在傳統方案中，理解模型和生成模型是完全分開的系統，訓練開銷大、互通困難。要把它們融合，需要重新訓練一個龐大的聯合模型，成本極高。

本文采用適配器（Adapter）插入機制，在已有多模態大語言模型中插入輕量模塊，使其具備視頻生成能力。這樣，理解模塊 + 生成模塊可以共享大部分參數，只需訓練少量新增參數。

優勢：

顯著降低訓練開銷與算力成本；
提高模型擴展性：已有理解能力的模型能「平滑地」插入生成能力；
兼顧理解與生成，不犧牲已有強大的視覺 / 語言理解基礎。

2. 溫控對齊：Temperature Modality Alignment
在跨模態（文本 → 視頻）生成中，文本與視覺之間表示尺度、語義強度往往不匹配。若直接融合注意力或特征，很容易出現「提示偏移」（Prompt Drift）：生成的視頻越偏離最初的文字意圖。

本文提出模態溫度對齊機制（Temperature Modality Alignment）。在跨模態注意力層中對不同模態（文本 / 視覺特征）引入溫度系數（類似 softmax 溫度調節），動態調節它們的注意力權重與融合強度。在生成過程的早期階段，更高權重給文本提示以加強語義引導；在后期階段，則逐漸讓視覺特征主導細節優化。

這能夠有效減少提示偏移，提高語義一致性；讓模型在「理解 → 生成」過程中過渡更自然；保證最終視頻既符合提示，又具備高質量視覺細節。

3. 金字塔反射：Pyramid Reflection

視頻是時序數據，理解和建模長時域依賴（遠幀之間的關聯）成本極高。傳統 Transformer 全幀注意力的計算量呈平方級增長，難以擴展。

本文提出金字塔反射機制（Pyramid Reflection）：

在理解任務中采用 Reflector 模塊，通過動態選擇關鍵幀，并在金字塔層次上進行「反射 / 聚合」操作；
將幀序列映射到不同時間尺度，自底向上或自頂向下反射信息，使模型能在多個尺度上捕捉時序關系。

在視頻 QA / 時序理解任務中， PR 模塊結合 Actor – Evaluator – Reflector 循環結構，讓模型能用最少的幀達到準確推理結果。

實驗結果：打敗 SOTA？
UniVid 在視頻生成與理解兩大方向上，都達到了同級模型最優表現。

1. 視頻生成：VBench 全維度刷新記錄
測試基準：VBench-Long ，是目前最嚴格的視頻生成綜合評測集，涵蓋多個維度：

技術質量（Technical Quality）
美學質量（Aesthetic Quality）
語義一致性（Semantic Fidelity）
對象 / 動作 / 場景 / 時序等細粒度指標

UniVid 的成績不僅在總分上超越所有主流視頻生成模型，更在關鍵維度上超越同級：

Temporal Consistency（時序一致性）：99.88（幾乎滿分）；
Motion Smoothness（運動平滑度）：99.25；
Semantic Alignment（語義一致性）：80.58（領先 EasyAnimate 的 77.01）；
Imaging Quality（影像質量）：73.03（顯著高于其他模型）。

UniVid 在生成的同時，極大提升了語義契合度與畫面連貫性。

與頂尖視頻生成模型的比較

2. 視頻理解：多項問答任務登頂
在視頻問答（Video Question Answering Video-QA）任務中， UniVid 同樣登頂多個主流基準。

UniVid 在 MSVD-QA 和 ActivityNet-QA 上均創造新紀錄，并在更復雜的長時序視頻上展現出卓越的時序推理與語義理解能力。

與頂尖視頻生成模型的比較

Demo 展示

為了讓大家更直觀地理解 UniVid 的能力，研究團隊還準備了視頻 Demo ，涵蓋視頻生成和視頻理解兩類任務。

視頻生成：

https://mp.weixin.qq.com/s/Ri2wC8tgwut-deKbF2VxZw
從左到右的 prompt 分別是：

Mouse with large teeth aggressively eating cheese.
A white cat in sunglasses relaxes on a surfboard at the beach under a sunny sky.
Ten fluffy kittens eat breakfast together in warm sunlight.

視頻理解：

https://mp.weixin.qq.com/s/Ri2wC8tgwut-deKbF2VxZw
應用價值與意義

1. 視頻創作與生成
在影視、廣告、短視頻等場景中，創作者只需輸入文字腳本或圖像提示， UniVid 就能自動生成連貫、符合語義邏輯的視頻。它能「理解」劇情后再去「創作鏡頭」，讓內容生產更自然、更高效。

2. 視頻理解與分析
UniVid 還能看懂視頻。無論是體育賽事、監控畫面還是教學視頻，它都能識別動作、人物、事件邏輯，生成精準摘要或問答結果。讓機器不僅看到畫面，更「理解故事」。

3. 機器人與具身智能
在機器人導航、自動駕駛或智能體系統中， UniVid 可以理解攝像頭輸入并生成未來場景預測，幫助智能體進行規劃與決策。它讓機器人不僅「看得到」，還能「想得出下一步」。

4. 開源生態與科研價值
與閉源視頻模型不同， UniVid 的代碼開源，任何研究者或開發者都可自由使用、復現、二次開發。它為視頻智能研究提供了一個通用底座，也讓產業界能以更低成本構建自己的視頻生成系統。

作者介紹

羅嘉濱是北京大學軟微與微電子學院在讀博士生，研究興趣為多智能體系統、多模態生成、RAG、AI 安全。曾參與多項科研項目，長期致力于構建安全可信的 AGI 。

林峻輝是北京師范大學在讀本科生， AI Geek 成員，研究興趣為圖像，視頻生成與處理。曾參與多項科研項目，積極探索有趣且有用的計算機視覺模型。

張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域，專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗，積極探索人工智能基礎和應用領域的前沿進展。

唐浩現任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者，入選國家級海外高水平人才計劃。曾獲國家優秀自費留學生獎學金，連續三年入選斯坦福大學全球前 2% 頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領域的研究，在國際頂級期刊與會議發表論文 100 余篇，相關成果被引用超過 10000 次。曾獲 ACM Multimedia 最佳論文提名獎，現任 ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025 領域主席及多個人工智能會議和期刊審稿人。

更多信息參見個人主頁： https://ha0tang.github.io/

推薦閱讀

上一篇：臺積電預計今年資本支出超過400億美元近7成用于先進制程工藝

下一篇：英偉達麻煩了，阿里大突破，可減少82%的英偉達GPU用量