探索多模態推理邊界，打造「察言觀色會共情」的全模態交互伙伴

2026-04-05 人工智能歐盟

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

本文作者來自螞蟻集團的多模態認知團隊和西安交通大學的人機混合增強智能全國重點實驗室。團隊持續圍繞多模態大模型、內容生成和全模態交互等前沿方向進行研究，致力于構建領先的大模型基礎能力和創新的交互應用體驗。

在科幻作品描繪的未來，人工智能不僅僅是完成任務的工具，更是為人類提供情感陪伴與生活支持的伙伴。在實現這一愿景的探索中，多模態大模型已展現出一定潛力，可以接受視覺、語音等多模態的信息輸入，結合上下文做出反饋。

然而，真正融洽的溝通，需要 AI 可以像人類一樣從外貌、聲音乃至表情動作中感知對方的個人特點和情緒狀態，理解深層訴求，進而做出恰當回應。

現有工作對這類以人為中心場景的深入研究還較少見，既缺乏細粒度的評估，也限制了相關能力的優化。這導致在許多交互應用中「AI 感」依然常見， AI 助手們聽得懂語音卻讀不懂情緒，能回答問題卻不理解用戶的訴求，縱有一身本領卻無法完整表達。

為了填補這一空白，螞蟻集團與西安交通大學聯合提出并開源了 HumanSense ，包含一個專為「理解與交互」設計的全模態評估基準 HumanSense Benchmark ，以及一個支持視聽融合思考的全模態推理模型 HumanSense OmniReasoning ，論文主要包括：

細粒度評測：對人類交互過程進行深度拆解，從基礎感知、復雜感知、上下文理解、反饋策略四層能力階梯構建了 15 項難度遞增的評估任務，共計 3882 個源于真實數據的問答對。其中交互數據覆蓋了面對面交流、文字聊天以及電話訪談等多模態場景，系統地衡量了大模型從「看見聽見」到「理解思考」，再到「恰當回應」的綜合能力。
全模態消融：在能力評估上，綜合對比了前沿的視覺、語音及全模態大模型，發現即使 GPT-4o 等頂尖模型在 HumanSense 上仍與人類表現有近 30% 的差距，能綜合感知視聽信息的全模態模型在高階任務上有明顯優勢。全模態消融實驗進一步明確了音、視、文信息在各項任務中的貢獻度。在社會關系、交流和諧度等任務上，增加音頻輸入帶來了遠超純視覺輸出的表現。證明了語音是交互中不可或缺的信息維度。
全面思考：在優化策略上，作者提出了融合全模態感知的思考能力是提升交互表現的關鍵，并設計了多階段模態、模態遞進的強化訓練方式，可以讓模型不僅局限于圖文推理，在語音、視頻輸入上均有效激發深度思考能力。全模態推理模型處理高階問題時展現出結構化的思維方式，證實了推理拓展并非數理任務的專屬，也是交互體驗的助推劑。
目前，該項目以及相關配套工作已在 GitHub 和 HuggingFace 開源，希望能吸引社區更多關注多模態大模型在以人為中心的交互場景的潛力，推動 AI 交互體驗的革新。

論文標題：HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs 項目地址：https://github.com/antgroup/HumanSense 論文地址：https://arxiv.org/abs/2508.10576 配套工作：https://digital-avatar.github.io/

圖 1：全模態推理模型可以在音視文輸入上均有效激發推理能力，感知對方的特點和情緒，結合上下文深度思考，從而做出恰當反饋

核心亮點

「從感知到反饋」：構建 4 層認知階梯，模擬人類交互中的思維演進

多模態大模型能力的進化是隨著評估范圍的擴增循環演進的，從早期的圖文理解、視頻理解等基準全面提升了模型的感知能力，到后來復雜推理、幻覺控制等基準的加入讓模型思考深度提升，能力邊界擴大。

然而，在全模態交互這個能充分發揮多模態大模型特性的重要場景，相關的研究還比較少見。已有的工作多聚焦在以文本為主的交互體驗提升，和以復雜圖文理解為目的推理增強，缺乏結合全模態感知、推理增強、以及交互優化的綜合思考。

因此，作者提出了 HumanSense ，模擬了人類交互中的思維演進過程，設計了對應的任務體系，包含：

L1L2（感知層）：和諧的交互來自對視覺、語音等信息的細粒度的感知。 L1 層的任務重點關注這些單模態、表層信息的感知，例如人物外貌、表情識別、手勢理解等。在 L2 層級，任務則升級為多模態、長時程的復雜感知，例如需要結合聲音、動作以及長上下文信息綜合判斷的異常行為識別，以及需要結合音視頻綜合判斷的說話人識別等。
L3（理解層）：基于模型感知到的多模態信息， L3 層評估模型能否理解交互內容背后的深層信息。包括需要從語氣、神情、談話內容綜合判斷的社會關系識別，需要結合微表情、語音停頓、肢體動作推測的謊言檢測等。該層級要求模型能融合不同模態感知進行思考，理解需要進一步推斷的深層關系。
L4（反饋層）：最為整個交互鏈條的最后一環， L4 層評估了模型是否可以在復雜的交互場景中生成恰當、共情的回復。數據源自面對面訪談、在線文字聊天、語音訪談等不同模態的真實記錄。例如，在心理咨詢任務中，模型需要扮演心理醫生，根據多輪心理咨詢上下文，充分了解對方的情緒和處境，選擇專業性且溫暖的回復語言。在情感策略任務中，模型需要結合語音和視頻充分感知交互對象的情緒狀態，進而根據交談內容選擇合適的情感反饋。

圖 2：HumanSense 的任務示例，通過層次遞進的任務設計和模態細分的評估任務考查了從感知到交互的多個能力維度

「三位一體」：音頻是情感理解的密鑰，「視覺 + 聽覺 + 文本」相輔相成

作者對包括 GPT-4o、InternVL3、Qwen2.5-Omni 在內的先進的視覺、語音及全模態大模型進行了評測。人類受試者在 HumanSense 子集上取得了 87.5% 的平均準確率，而表現最好的 Qwen2.5-Omni-7B 為 57.8% ，詳見表 1 和圖 3 。

領先的視覺模型（InternVL3 等）在 L2 和部分 L3 任務中表現不錯，說明較強的長視頻記憶和理解能力對感知維度幫助較大。在 L3-L4 的高階任務中，所有視覺模型都在 40-60 之間，說明復雜任務中純視覺信息已難以提供足夠的判斷依據。
【探索多模態推理邊界，打造「察言觀色會共情」的全模態交互伙伴】
全模態模型得益于增加了音頻的輸入，在 L3、L4 兩類高階任務中的表現明顯優于純視覺模型。特別是在謊言檢測（LD）等任務甚至超越了人類水平，更敏銳的發現了真相。對于語音理解和交互場景，電詐識別（FR2）、心理咨詢（PC）任務上全模態模型（Qwen2.5-Omni）指標優于語音大模型（Qwen2-audio），體現了模態之間的相互促進作用。

表 1：支持視覺、音頻和文本輸入的全模態模型在高階理解和交互任務上有明顯優勢。

全模態消融實驗進一步明確了音視文三種模態在各類任務中的作用。如圖 4 ，在社會關系（RR）、對話和諧度（RR）、親密度（FR）等視頻級交互任務上，為模型增加音頻輸入（V+A）能帶來遠超純視覺（V）的表現。這證明了人際交互中語音所包含的對話內容、語氣語調是不可或缺的重要信息。在欺詐檢測（FR）和心理問答（PC）兩個音頻交互任務上，增加文本輸入（A+T）也因提供了更豐富的上下文信息而提升模型的表現。

圖 3：主流全模態模型和視覺語言模型與人類評估的對比

圖 4：全模態模型和語音大模型在全模態消融上的表現

推理是通往「理解和共情」的橋梁：從全模態感知到深度思考

基于模型評估和全模態消融，作者進一步提出了融合全模態感知的思考能力是提升交互表現的有效方法，并驗證通過兩種方式進行驗證。

全模態強化訓練：作者提出一種多階段、模態漸進的強化學習方式，使用 GRPO 算法對 Qwen2.5-Omni 模型進行推理后訓練，教會 AI 結合不同模態的感知線索「一步步想清楚」。
視覺先行，學會「看人」：輸入純視頻幀與問答對，建立基于視覺感知的推理能力，學會對面部特征、肢體語言等判斷能力關鍵個人特點。
語音增強，學會「聽語氣」：輸入音頻片段與問答對，建立基于聽覺感知的推理能力，學會捕捉語音中的情感信號。
邊聽邊看，綜合判斷：輸入完整的音視頻上下文，讓模型學會融合多模態感知進行思考和回答。
免訓練提示詞：作者發現在高階理解和交互任務上，通過全模態強化訓練激發的成功推理內容展現出了相似的思維模式，遵循「感知關鍵特征和情緒 - 理解上下文 - 思考與回應」的鏈條。我們利用這種思維模式構建了簡單的提示詞，發現也可以有效提升評估指標，證明了推理拓展在交互場景的有效性。

圖 5：全模態推理模型在解決深層理解和交互任務時可以感知對方的個人特征、情緒狀態，結合上下文進行深度思考，進而做出恰當反饋

表 2：完整三階段強化訓練后大多數任務都獲得了最佳表現

兩種方法的指標如表 2 所示。對于全模態強化訓練，第一階段的視覺推理訓練對以視覺感知為主的 L1 類任務已產生明顯效果。心理咨詢（PC）、電詐識別（FR2）等語音任務經過第二階段語音推理訓練也獲得了明顯提升。完整三階段強化訓練后大多數任務都獲得了最佳表現。 PE 代表在 base 模型上僅使用提示詞模版推理的評估結果，在熟悉度（FR1）、欺詐識別（FR2）、關系識別（RR1）等任務上也帶來了有效提升。

從「工具」到「伙伴」

HumanSense 旨在挖掘多模態大模型的潛力，探索交互應用的邊界。全模態推理模型有潛力真正扮演人工智能的「大腦」的角色，與豐富的下游能力相結合，打造會「察言觀色能共情」的全模態交互伙伴。

具體來說，全模態推理模型在交互應用中可以不只局限于直接輸出文本回復，而是統一規劃并輸出包含主題、情感策略、表情與肢體動作等相互關聯的結構化內容。例如如下結構：

其中「主題」和「情感策略」會在推理過程中增強「文本回復」等細節表達的準確性，語音、表情、動作等策略可以作為控制信號輸入下游能力模塊，提供可聽可見的真實交互體驗。螞蟻集團的研究團隊近期陸續發布了一系列配套的生成工作，可以實現對下游數字形象、語音的生成內容的精細控制，為有情感有表現的全模態交互打下基礎。

例如，近期已開源的 Ditto-talkinghead 項目（圖 6）通過在擴散模型的生成過程中解耦了面部運動和圖像渲染，實現了基于單張圖像的可控說話人生成。該項目是首個支持實時視頻生成的開源實現，為低延遲實時交互應用的提供了底層能力支持，也吸引了很多社區討論。 VersaAnimator 項目（圖 7）實現了在語音驅動說話人生成同時，通過文本描述來控制視頻中人物的肢體動作，讓數字形象不僅能展現表情變化，還可能通過肢體動作進一步表達語義和傳遞情感。這些配套項目有潛力推動大模型交互應用從單一的任務工具逐步進化為有溫度的生活同伴，為用戶提供有價值的情感支撐和生活支持。

圖 6：Ditto-talkinghead-表情可控的說話頭像實時生成

項目地址：https://digital-avatar.github.io/ai/Ditto/

圖 7：VersaAnimator-支持文本動作編輯的多尺度說話人視頻生成

項目地址：https://digital-avatar.github.io/ai/VersaAnimator/

推薦閱讀

上一篇：Gartner相斌斌：「AI智能體」在中國智慧城市的應用還存在局限性

下一篇：不強化學習也能推理，哈佛采樣算法讓基礎模型比肩GRPO后訓練版本