音頻-視覺全模態的未來預測，FutureOmni給出了首份答卷

2026-02-28 騰訊人工智能 ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

復旦大學、上海創智學院與新加坡國立大學聯合推出首個全模態未來預測評測基準 FutureOmni ，要求模型從音頻 - 視覺線索中預測未來事件，實現跨模態因果和時間推理。包含 919 個視頻和 1034 個多選題問答對，在 13 個全模態模型和 7 個純視頻模型上的評估顯示，當前系統在預測未來事件方面存在顯著困難，最佳準確率僅為 64.8% 。

在日常生活中，人類不僅能理解「發生了什么」，更重要的是能夠預測「將會發生什么」。看到烏云密布、聽到雷聲漸近，我們會主動關窗收衣；看到老師眉頭緊皺，反復強調某個知識點（聽），我們知道接下來可能會有提問；看到球員起跳的動作和聽到觀眾的驚呼，我們能夠預判這是一個精彩的扣籃。

然而，現有的多模態大語言模型（MLLMs）雖然在全方位感知方面展現出強大的能力，但它們從音頻 - 視覺線索中預測未來事件的能力仍然很大程度上未被探索。現有的音視頻模態基準主要關注回顧性理解 ? 「視頻中發生了什么」，而非前瞻性預測 ? 「接下來會發生什么」。

現在，這一空白終于被填補了！復旦大學、上海創智學院與新加坡國立大學聯合發布 FutureOmni ，不僅重新定義了多模態模型的「未來預測」評測范式，更通過精心設計的全模態因果推理任務，首次系統評估模型通過「融合視覺觀察與聽覺線索」來「預測未來」的能力。

論文標題：FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs 論文地址： https://arxiv.org/pdf/2601.13836 代碼地址： https://github.com/OpenMOSS/FutureOmni 數據集地址： https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni 項目主頁： https://openmoss.github.io/FutureOmni
評測范式革命：從回顧理解到未來預測

圖 1：FutureOmni 數據示例。模型需要基于給定的前提事件（premise event），從多個選項中選擇最可能的未來事件（future event）。

當前主流的 MLLMs 評測基準存在兩大局限：（1）現有基準大多關注「發生了什么」，要求模型描述、理解或分析已經發生的事件，無法評估模型預測未來事件的能力。（2）現有方法嚴重依賴于視覺信息，即便使用音頻，也往往作為輔助信息，未能充分挖掘音頻 - 視覺之間的因果關系對預測未來事件的關鍵作用。

這意味著，過去的多模態模型是一個擅長「事后分析」的觀察者，而非一個能未卜先知的智能伙伴。

FutureOmni 提出的全模態未來預測（omni-modal future forecasting）新范式，旨在徹底改變這一現狀。它要求模型能像人類一樣，主動融合音頻對話、環境聲音和視覺觀察，從多模態上下文中推斷出未來最可能發生的事件。

從回顧到預測：不再是回答「視頻中發生了什么」，而是預測「接下來最可能發生什么」。

從單模態到全模態：同時理解音頻中的語義信息（如語音內容、說話人身份、情感傾向）、環境聲音（如門鈴、警報、音樂）以及視覺觀察（畫面中的物體狀態和人物關系）的因果關系。

這不再是簡單的視頻理解，而是讓模型具備了真正的未來預測能力。它就像一個貼心的智能助手，能夠從一段對話、一個動作和周圍的環境中讀懂「潛臺詞」，預測未來最可能的發展。

FutureOmni 數據集：為「未來預測認知」量身打造的大規模評測基準

圖 2：FutureOmni 評測結果。評估了 13 個全模態模型和 7 個視頻模型。

研究團隊構建了 FutureOmni ? 首個大規模全模態未來預測評測基準，包含基于音頻 - 視覺因果關系、日常序列、主題蒙太奇的未來事件預測任務。

海量規模與豐富多樣性

圖 3：FutureOmni 數據統計分布。

919 個視頻， 1034 個多選題問答對 8 個主要領域：教育、緊急情況、監控、日常生活、紀錄片、電影、游戲、卡通 100% 原創視頻率，確保零污染，所有視頻均為首次收集 3 種音頻類型：語音（Speech）、聲音（Sound）、音樂（Music）
八大視頻領域：精心設計的「預測考題」

圖 4：FutureOmni 數據構建流程。

為確保數據的真實性與高質量，研究團隊采用三階段流程：

階段一：視頻收集與篩選。從多個來源收集原始視頻，確保 100% 原創，避免數據污染。階段二：因果對構建。使用 LLM 輔助識別具有明確因果關系的視頻片段，生成高質量的前提 - 結論對。階段三：問題生成與審核。人工和大模型審核質量，確保每個問題都測試模型的未來預測能力。
實驗結果：當前模型在「預測未來」上仍面臨巨大挑戰

研究團隊在 13 個全模態模型和 7 個視頻模型上進行了廣泛評估，揭示了當前系統在未來預測任務上的顯著不足。

整體性能：SOTA 模型依然不合格

圖 5：FutureOmni 評測結果。

結論：即便是最強的 Gemini 3 Flash ，準確率也僅為 64.8% 。開源最強模型 Qwen3-Omni 表現不及格，僅為 53.05% 。視覺大模型 GPT-4o 也只達到 49.70% 。這表明，現有的多模態大模型在面對復雜的全模態未來預測任務時，距離人類水平仍有不小差距。

細粒度分析：語音場景最具挑戰性

圖 6：不同音頻類型（語音、聲音、音樂）對模型性能的影響。

結果顯示： - 語音場景最具挑戰性，模型表現普遍較低（最佳模型 Gemini 3 Flash 僅 60.52%） - 音樂場景相對容易，模型表現較好（Gemini 3 Flash 達到 68.31%） - 聲音場景處于中等難度（Gemini 3 Flash 達到 67.13%）

圖 7：不同視頻時長對模型性能的影響。

模態消融研究：音頻信息至關重要

圖 8：模態消融實驗結果。評估不同模態組合對性能的影響。

關鍵發現：

音頻 + 視頻的組合顯著優于單獨使用視頻。音頻信息對于未來預測至關重要，缺失音頻會導致性能大幅下降。跨模態融合能力是成功預測未來的關鍵。
這證明了 FutureOmni 設計的合理性：未來預測需要同時理解音頻和視覺信息之間的因果關系。

OFF 訓練策略：讓模型真正「學會預測未來」

為了緩解當前模型的局限性，研究團隊提出了全模態未來預測（OFF）策略，并精心策劃了一個 7K 樣本的指令微調數據集。

核心思想

OFF 策略的核心在于：通過專門的未來預測訓練，讓模型不僅提升未來預測能力，還增強通用感知能力。這與傳統的視頻理解訓練不同，它要求模型學習音頻 - 視覺之間的因果關系，并利用這些關系預測未來事件。

訓練效果：顯著提升未來預測和通用能力

圖 9：使用 OFF 策略訓練后，模型在不同音頻類型上的性能提升。

圖 10：使用 OFF 策略訓練后，模型在不同視頻類別上的性能提升。

圖 11： OFF 策略在通用能力基準上的泛化效果。證明未來預測訓練不僅提升了預測能力，還增強了模型的通用感知能力。

關鍵發現：在 FutureOmni 和流行的音頻 - 視覺（如 WorldSense、DailyOmni）以及純視頻（如 Video-MME）基準上的評估表明， OFF 策略顯著提升了未來預測和通用感知能力。

關鍵幀差異分析

圖 12：關鍵幀選擇對未來預測的影響分析。

研究團隊利用注意力可視化技術進一步分析 OFF 泛化的原因，發現該策略顯著增強了模型在深層網絡中對關鍵關鍵幀的聚焦能力。如圖所示，與基線相比， OFF 模型（藍線）在網絡的深層表現出大幅提升的注意力分數差值。這意味著模型學會鎖定包含未來事件線索的關鍵時刻，即使在最終輸出層之前仍能保持對關鍵信息的高度關注。

未來展望：讓 AI 真正「未卜先知」

FutureOmni 為多模態大語言模型的未來預測能力提供了首個系統性評估基準。我們期待：
【音頻-視覺全模態的未來預測，FutureOmni給出了首份答卷】
更多模型參與，希望更多研究團隊在 FutureOmni 上評估他們的模型，共同推動多模態場景下未來預測能力的發展。方法改進，基于研究團隊的發現，開發更強大的未來預測方法，特別是針對語音場景和跨模態因果推理的改進。應用拓展，將未來預測能力應用到實際場景中，如智能助手、自動駕駛、機器人等，讓 AI 真正具備「未卜先知」的能力。

推薦閱讀

上一篇：美國即將爆發人工智能監管大戰

下一篇：這個獲得QQ音樂官方認證的音箱，到底有什么不同？