這題是否需要用圖思考？自適應思考模式切換助力通用視覺推理提升

2026-05-07 創投圈上海機器人人工智能

文章圖片

文章圖片

文章圖片

文章圖片

本文來自復旦大學和阿里巴巴未來生活實驗室，已中稿 ICLR 2026 。

目前的視覺推理方法衍生出了多種思考模式，主要有和 LLM 一致的純文本思考模式以及更加貼近圖片的用圖思考。兩種推理模式在不同的領域各有所長，但現有的工作聚焦于單個思考模式，無法充分利用兩個模式之間的互補性。

因此，本文提出了 mixture-of-visual-thoughts ，一種自適應的推理范式：目標是將不同推理模式整合到一個模型內部并引導其進行自適應的模式選擇。為了讓模型學習這樣的推理范式，研究者引入了一個兩階段的學習框架 AdaVaR ，通過 SFT 學習不同的推理模式，并設計了一個專門的 AdaGRPO 算法來在強化學習設定下引導模型學習如何根據問題選擇合適的推理模式。

論文標題：Mixture-of-Visual-Thoughts:Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning 論文鏈接：https://arxiv.org/pdf/2509.22746 代碼鏈接：https://github.com/Future-Living-Lab/mixture-of-visual-thoughts 3B7B模型：https://huggingface.co/collections/ZejunLi/adavar-models
背景：視覺推理的不同思考模式

目前對于 LVLM (large vision-language model) 的視覺推理方法已經有了大量的探索，其中主流推理范式包括以下兩種：

圖 1: 兩種推理模式的直觀對比。

1. 純文本思考模式：和 LLM 一樣，直接用自然語言描述推理過程；

2.Visually-Grounded 思考模式：通過結構化的信息（主要是 bounding box 等坐標）將推理路徑中的關鍵概念與圖片中的區域對應起來，進一步還可以將對應局部區域進一步裁剪縮放后輸入給模型，幫助其利用局部的信息，即 GPT-o3 中提到的 thinking with images 的概念。

這兩種思考模式不同的設計也讓它們在不同領域上有不同的優劣表現，以下圖幾個基于 Qwen2.5-VL-7B 的推理模型為例（正數 / 負數代表相對基座模型有提升 / 下降）：

圖 2: 基于 Qwen2.5-VL-7B 的不同推理模式模型相對于基座的提升 / 下降。

1. 文本思考模式更善于抽象的視覺問題，比如數學幾何題，但可能會帶來幻覺，也在視覺搜索的 V * 上表現不佳（存在過度思考和 language bias 的問題）；

2.Grounded 模式則更善于定位和利用視覺信息，抑制幻覺，但是在抽象的數學問題上提升不明顯（對于抽象的概念，比如角度，大小等，模型對其進行 grounding 來提供有效的信息）

受啟發于此，本文希望探索這樣的一個問題：“我們是否可以博采眾長，將不同思考模式在不同領域上互補的優勢整合起來，來幫助提升通用的視覺推理能力呢？”

Mixture-of-Visual-Thoughts：
自適應的視覺推理范式

基于這樣的想法，本文提出了 Mixture-of-Visual-Thoughts（簡稱 MoVT），一種自適應的視覺推理范式：我們希望一個統一個推理模型（1）能夠具有不同思考模式；（2）同時能夠根據問題自適應地選擇合適的模式。

本文也基于 MoVT 的范式進行了初步的探索，我們提出了 AdaVaR 學習框架，通過兩個階段的訓練來構建出具有 MoVT 自適應推理能力的模型：

1. 我們在推理序列的開始給不同模式引入了對應的特殊 prefix token ，比如textground ，作為指示符幫助模型區分不同的推理模式，然后通過 SFT 整合數據幫助模型學習不同的思考模式；

2. 我們設計了一個 AdaGRPO 的強化學習算法來引導模型進行模式的選擇。 i. 通過固定模式 prefix token ，我們引導模型對同一個問題使用不同的思考模式生成推理 rollout ， ii. 并設計了特殊的 advantage 計算方法：同時用 rollout-level advantage 增強模型的推理能力，并計算思考模式之間相對的 mode-wise advantage 來引導模型選擇更優的思考模式。

具體方法的介紹和細節請感興趣的讀者參閱下面一節。

我們在多個場景的多個數據集上進行了評測，如圖 2 所示，不同于單模式的模型只是在特定場景表現突出，我們的 AdaVaR 模型在多個任務上都有一致的提升。從 8 個數據集的平均性能來看，我們的 AdaVaR-3B 能夠媲美 Qwen2.5-VL-7B ， AdaVaR-7B 甚至要超越 GPT-4o 的性能。

AdaVaR：思維模式的整合和訓練方法

通過 Prefix Token 統一不同思考模式

首先我們希望讓多個思考模式在同一個模型內共存。為此，我們設計了一種統一的推理序列形式，通過特殊的 mode prefix token 來區分不同模式：

藍色部分就是 mode prefix token ，紅色部分則是對應的思考過程。基于自回歸的生成設定，我們發現生成這樣的推理序列相當于在一次生成中先后完成了（1）根據問題生成 prefix token ，完成模式選擇；（2）根據選擇的模式進行對應的思考。
mode prefix token 的引入幫助模型區分了不同的模式，也支持了后續 RL 算法中對于思考模式的干預。

基于這樣統一的形式，我們對兩種模式收集了對應的數據來進行 SFT ，這樣模型就具有了以兩種模式思考的能力。

AdaGRPO：引導模型進行模式選擇

之后我們希望模型能夠自適應地根據問題選擇合適的推理模式。我們在強化學習的環境下進行這樣的學習，其核心想法是：對同一個問題，模型會分別用兩種模式推理 n 次，與其他方法類似，我們以結果的正確性為導向，基于規則判斷答案的正確與否作為獎勵函數。然后基于 rollout 之間，模式之間的比較，設計雙層次的 advantage 計算方式鼓勵模型生成更好的推理路徑，同時選擇更優的思考模式。

圖 3: AdaGRPO 和 GRPO 的比較。

為此我們設計了 AdaGRPO ，對 GRPO 做出了如下的優化：

1.Prefix-guided Exploration：GRPO 中的 rollout 生成過程是自由的，可能導致模式之間的不均勻探索，比如對同一個問題生成的 2n 條思考過程都是同一個模式。所以 AdaGRPO 中，我們通過固定 mode prefix ，讓模型前 n 條和后 n 條 rollout 分別來自文本思考和 grounded 思考模式；

2.Adaptive Advantage：GRPO 中只計算了 rollout-level advantage A_i = (r_i - Mean) / Std 來提升推理能力，而且給 rollout 里所有的 token 都賦予同樣的 advantage 。為了顯式地引導模式的選擇：

a.AdaGRPO 中以相對勝率刻畫了兩個模式之間相對的優勢 A_t 和 A_v（A_t = 對于該問題，用文本推理模式得到的 reward 要高于 Grounded 模式的概率，反之亦然）;

b. 如上一節中設計的推理序列形式， mode prefix token 和思考過程承擔了不同的作用，于是我們也將不同的 advantage 賦予不同的 token ，將 A_t 和 A_v 賦予 mode prefix token 來鼓勵模式的選擇，將 A_i 賦予思維過程的 token 來提升模型的推理能力

除此之外我們還設計了一個課程學習的數據構造方法。開始時模型在簡單混合的數據上學習（包括幾何題和物體計數任務）；后續則在多個任務混合的數據上學習。題目也會從簡單到難，讓模型逐步學習從簡單到難的推理以及模式選擇。

實驗結果

我們基于 Qwen2.5-VL-3B/7B 構造了我們的 AdaVaR-3B/7B ，在 8 個數據集上與其他基于 Qwen2.5-VL 的推理模型進行了比較：

表 1: 不同模型之間的性能。黃色底代表文本推理模型，綠色底為 Grounded 推理，藍色底為本文的 AdaVaR 模型。

1. 首先評測的結果也支持了之前背景里提到的論述 -- 只基于單思考模式的推理模型通常是特定領域的專家，很難有通用的提升，具體來說：i. 文本推理模型，比如 VLAA-Thinker-3B 和 OVR-7B ，主要在數學任務上表現好，但是物體相關問題回答不好；ii. Grounded 推理模型則在 V * 和 POPE 上都表現不錯，但數學任務上不理想，只有 DeepEyes 有提升，其他都很難保持基座模型的數學推理能力；

2. 而 AdaVaR-3B 和 AdaVaR-7B 是僅有的在所有任務上都優于 Qwen2.5-VL 基座的模型，甚至在 MathVista ， WeMath ， POPE 上都是最優， MMStar 和 MathVision 也是最優 / 次優的表現。

3. 從平均準確率刻畫的總體性能來看， AdaVaR-3B/7B 都是在對應組別最優的模型。 AdaVaR-3B 是唯一一個達到了 Qwen2.5-VL-7B 水平的 3B 模型，而 AdaVaR-7B 甚至要比 GPT-4o 還好。

深入分析自適應推理的機制

進一步我們還深入探究了自適應推理中的機制，希望能回答：

表 2: 對于不同模式，不同階段模型的性能。下標 T 和 G 分別代表固定使用 text 和 grounded 模式。 GRD% 代表自適應的模型選擇 grounded 模式的比例。

Q1: 在一個模型內是否可以，以及如何學習到不同的模式？

首先我們從表 2 可以看到 AdaVaR 模型在 SFT 和 RL 階段上，從性能來看，兩個模式就展現出了截然不同的表現，類似之前提到的文本模式數學能力強， Grounded 模式善于處理物體導向的問題。

Q1.1: 只用一個模式，提高數據的 diversity 是不是就夠了？

A1.1: No 。我們用 AdaVaR 相同的數據訓練了兩個單思考模式的 baselines ， Grounded-SFT-RL 和 Text-SFT-RL 。兩個模型的性能都沒有 AdaVaR 好，說明 MoVT 整合兩種模式的想法是非常有效的。

Q1.2: 兩個模式在同一個模型內部是否會互斥？

A1.2: No 。同樣比較 Grounded-SFT-RL 和 Text-SFT-RL 和 AdaVaR 的兩個模式，我們發現整體上差異并不大，也都相較 SFT 階段有明顯的提升，說明整合到一個模型內并不會抑制單個思考模式的提升。

Q1.3: 是否需要 Mode prefix 來區分不同模式？

A1.3: Yes 。參見表 2 的 Mix-SFT-RL baseline ，我們去掉了 mode prefix ，直接混合兩個模式的數據。這樣做的性能甚至要比單模式推理的模型還差，說明顯式的模式區分是必要的，而且顯式的區分支持了后續在 AdaGRPO 里 prefix-guided exploration 對于模式探索的干預。

Q1.4: 兩個模式是否是互補的？

A1.4: Yes 。表 2 中還計算了 AdaVaR 的 Upper Bound ，即任意一個模式做對的準確率，我們可以看到對于所有數據集，即使是數學題這種文本模式明顯占優的， Upper Bound 也要明顯高于文本模式，這也展示了后續 MoVT 范式的巨大潛力。

Q2: 模型能學到合理的模式選擇能力嗎，怎么學習到的？

對比表 2 中的單模式和自適應模式的表現，我們發現：

1.SFT 以后的模型對于模式的選擇并不是最優，比如 MathVista 上文本模式明顯更好，但是 AdaVaR-SFT 還是選擇了 31% 的 grounded 模式，說明 SFT 階段很難控制模式的選擇；

2. 但是 RL 以后， AdaVaR 的模式選擇就比較合理，在數學問題上選擇文本模式， V * 和 POPE 上選擇 grounded 模式，同時 AdaVaR 在所有任務上，自適應模式都要優于文本 /grounded 的單模式推理，說明了 RL 階段模型學到了合理的模式選擇能力。

Q2.1: 模型是怎么學習到這樣的能力的？

圖 4: 數學問題上的 (a) 訓練 reward 曲線；(b) MathVista 上的表現。

A2.1: 如圖 4 所示，以數學問題為例，我們可以看到，圖 (a) 中兩個模式相對的 reward 高低（表現好壞）引導了圖 (b) 中 GRD% 曲線（模式選擇）的變化。大概可以分為三個學習階段：

1. 初期探索階段：剛開始，因為兩個模式之間的相對好壞還不穩定，此時 GRD 模式甚至在一段時間內更優，導致一開始存在一定的波動；

2. 穩定階段：在 500 步開始， TXT 模式要明顯優于 GRD 模式，模型的選擇也逐步穩定到以 TXT 模式為主，但此時自適應的 ADA 模式要比文本模式還弱，說明模型還沒有學習到具體哪些題目應該使用 GRD 模式

3. 微調階段：在 1500 步后，因為我們使用了分布更廣的數據，幫助模型學習到了更佳精細的推理和模式選擇能力，兩個模式都在提高，并且 ADA 模式最終要優于兩個單模式。

Q2.2: 對于模式選擇的關鍵因素？

A2.2: 我們還發現， AdaGRPO 中的關鍵機制，包括 prefix-guided exploration ， Adaptive advantage ，以及數據的 diversity 和課程學習都非常重要，具體的實驗比較可以參見原論文的 Table 3 。

結論與未來展望

本文說明了 MoVT 這樣，整合多個推理模式的方式能夠是一種構建通用推理能力的可行思路，而 AdaGRPO 則是能夠有效學習模式選擇的算法。更一般來看， MoVT 相當于從思考模式的角度提升了模型生成推理 Rollout 的豐富度，促進了 RL 過程中的 exploration 。本文對于自適應推理的探索也存在一定的局限性，希望未來能有相關工作進行研究：

為了保持兩種模式 Rollout 的一致性，本文中探索的 Grounded 思考模式并未像一些現有的工作額外引入局部的視覺特征，后續如何在統一的框架里整合差異更明顯的思考模式同樣值得探索；
本文目前僅考慮了兩種推理模式，但 MoVT 的框架也可以容納更多的模式，也可以用于學習目前主流關心的思考 / 不思考的自適應切換能力，甚至區分長思考，短思考，是否使用工具等等；
對于未來更多種類的思考模式，勢必會面對更加嚴峻的 exploration-exploitation tradeoff：模式越多，為了平衡模式之間的探索，單個模式的推理數量勢必更少，也會進一步抑制各個模式內部的提升； 【這題是否需要用圖思考？自適應思考模式切換助力通用視覺推理提升】
目前 MoVT 采取的是并行的模式選擇范式，進一步還可以結合搜索機制，考慮線性的模式切換，比如先進行短思考，再考慮是否進行長思考等等更復雜的邏輯，來提升推理模型的上限。

推薦閱讀

上一篇：顯卡價格瘋漲：幸運兒卻以半價搶到RTX 5080/5090！全網羨慕嫉妒

下一篇：首個大規模記憶湖發布，AI Infra跑步進入“記憶”時代