AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

文章圖片

AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

文章圖片

AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

文章圖片

AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升



現有視覺語言大模型(VLMs)在多模態感知和推理任務上仍存在明顯短板:1. 對圖像中的細粒度視覺信息理解有限 , 視覺感知和推理能力未被充分激發;2. 強化學習雖能帶來改進 , 但缺乏高質量、易擴展的 RL 數據 。

AGILE 提出一種全新的自監督學習范式 , 將「智能體交互」遷移至多模態大模型的強化學習訓練中 , 通過「模型生成動作代碼 + 視覺環境反饋」的循環式交互過程 , 讓模型像人一樣邊觀察、邊推理、邊學習 , 從而顯著提升模型視覺感知與邏輯推理能力 。



Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models Paper:https://arxiv.org/pdf/2510.01304 Project Page:https://yuzeng0-0.github.io/AGILE/ Dataset:https://huggingface.co/datasets/YuZeng260/AGILE Code:https://github.com/yuzeng0-0/AGILE 作者單位:中科大、上海 AI Lab、華東師大、港中文

圖 1:AGILE 主要工作框架

方法核心: 交互式智能體 + 拼圖代理任務
為了克服數據瓶頸與可擴展性問題 , 研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務 , 提出 AGILE 。 將拼圖過程建模為「可控、可驗證」的交互式形式:

模型在每一步生成 Python 動作代碼(Swap、Observe、Crop、Zoom); 環境執行代碼、返回視覺反?。 ? 模型根據環境反饋繼續規劃調整拼圖 , 該循環重復至拼圖完成 。
這一閉環交互形成了「觀察–交互–反饋–學習」的智能體訓練范式 , 使 VLMs 能在自監督方式下持續提升感知和推理能力 。

AGILE 的完整流程分為兩個階段:

Cold-Start 階段 , 使用 Gemini 2.5 Pro 生成 1.6K 條高質量專家拼圖交互軌跡 , 教會模型如何正確生成動作代碼與交互邏輯 , 解決初期模型「不會動手」的問題;

Reinforcement Learning 階段 , 在 15.6K 張圖像上訓練拼圖任務 , 采用 GRPO 算法 , 通過準確率、格式規范與交互輪數三重獎勵信號優化策略 。


圖 2:模型拼圖過程中激發出來的感知和推理行為

實驗
研究者們進行了大量實驗 , 驗證了 AGILE 的有效性 , 并得到了多條富有啟發意義的結論:

研究者們設計了系統的拼圖評估數據集 , 涵蓋不同難度(2×2、3×3)與不同初始正確塊數(L0–L7) 。 模型性能以兩種指標衡量:Acc , 所有塊完全放對的比例;Score , 正確拼塊數占總拼塊數的比例 。 在最簡單的 2×2 任務中 , AGILE 使準確率從 9.5% 提升至 82.8% , 比 Gemini 2.5 Pro 高出 36.4 個百分點 。 在更具挑戰性的 3×3 拼圖中 , 也從 0.4% 提升至 20.8% , 標志著模型感知和推理能力大幅躍升 。

表 1:拼圖 Acc 結果 。 LN 表示難度級別 , N 表示初始正確拼圖塊數 。 N 值越小 , 拼圖越亂 , 難度越高 。 最佳結果以粗體顯示 , 次佳結果以下劃線顯示 。

通用能力即泛化性評測:經過拼圖訓練 , 模型在 9 項通用視覺任務中(涵蓋真實世界場景、高分辨率場景、細粒度感知、幻覺和多模態推理)平均提升 3.1% , 展現出強大的泛化能力 。 進一步驗證了拼圖任務作為代理任務對于通用視覺能力的泛化價值 。

【AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升】表 2:不同模型在 9 個基準測試上的性能比較 。 縮寫:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL) , Avg. 表示所有 9 個基準測試的平均性能 。 ? 表示強化學習相對于基礎模型 Qwen2.5-VL-7B 獲得的相對性能提升 。 最佳結果以粗體突出顯示 , 次佳結果以下劃線標出 。

Scaling 實驗:數據規模帶來的持續增益 。 研究者們進一步探究了拼圖數據規模對性能的影響 。 當訓練數據從 0 擴展至 16K 時:拼圖任務準確率從 22.0% → 82.8%;HRBench4K 準確率提升 +2.0%;RealWorldQA 提升 +1.8% 。 表明 AGILE 的訓練在數據量擴增下持續有效 。 由于拼圖環境可自動生成 , AGILE 的數據擴展幾乎零成本、無限擴容 , 為多模態 RL 提供了可持續的自監督范式 。

圖 3:(左圖)訓練數據規模的影響 。 左側 y 軸表示 HRBench4K 和 RealWorldQA 的準確率 , 右側 y 軸表示拼圖任務的準確率 。 (右圖)與常規 QA 數據的比較 , 在兩種實驗設置中 , 樣本總數始終保持在 20K 。

與常規 QA 數據的對比實驗:研究者們替換 20K 常規 QA 數據中的其中 10K 為拼圖數據 , 發現模型可以表現出更好的性能 。 這說明拼圖任務提供了更強的結構感知與監督信號 。 這一發現凸顯了拼圖任務在緩解多模態強化學習數據稀缺方面的潛力 , 并為推進多模態模型開發開辟了一個充滿前景的新方向 。
意義與未來
AGILE = 交互式拼圖代理 + 自監督 RL , 在無需額外人工標注的前提下 , 持續提升 VLMs 的感知與推理能力 。 它證明了「交互式拼圖代理任務」作為突破數據瓶頸、強化 VLMs 的可行性和自監督強化學習范式的潛力 。

    推薦閱讀