拒絕「盲修」:JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力?

拒絕「盲修」:JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力?

文章圖片

拒絕「盲修」:JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力?

文章圖片

拒絕「盲修」:JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力?

文章圖片

拒絕「盲修」:JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力?

文章圖片

拒絕「盲修」:JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力?

文章圖片

拒絕「盲修」:JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力?



在邁向通用人工智能的道路上 , 我們一直在思考一個問題:現有的 Image Editing Agent , 真的「懂」修圖嗎?

大多數基于 LLM/VLM 的智能體 , 本質上更像是一個「盲目的指揮官」 。 它們能流利地寫出修圖代碼或調用 API , 但在按下回車鍵之前 , 它們看不見畫布上的變化 , 也無法像人類設計師那樣 , 盯著屏幕皺眉說:「這張對比度拉太高了 , 得往回收到一點 。 」這種感知與決策的割裂 , 直接導致了「指令幻覺」 , 或者說模型在進行盲目的「腦補」 。 由于缺乏視覺反饋 , 模型往往憑空想象下一步操作 , 導致結果與用戶的初衷南轅北轍 。

此外 , 在傳統強化學習中經常依賴于靜態的獎勵模型 。 隨著模型的不斷訓練 , 它很容易學會如何「討好」這個固定的打分器 , 導致 Reward Hacking——即分數很高 , 但審美并沒有真正提升 。

為了打破這一僵局 , JarvisEvo 應運而生 。 它不僅僅是一個連接 Adobe Lightroom 的自動化工具使用者 , 更是一次大膽的探索:探索 Agent 如何通過「內省」 , 真正實現自我進化 。

【拒絕「盲修」:JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力?】

論文標題:JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization 論文地址: https://www.arxiv.org/pdf/2511.23002 項目主頁: https://jarvisevo.vercel.app/ Github:https://github.com/LYL1015/JarvisEvo Huggingface Daily Paper:https://huggingface.co/papers/2511.23002 作者團隊來自騰訊混元和廈門大學:Yunlong Lin* Linqing Wang* Kunjie Lin* Zixu Lin* Kaixiong Gong Wenbo Li Bin Lin Zhenxi Li Shiyi Zhang Yuyang Peng Wenxun Dai Xinghao Ding? Chunyu Wang? Qinglin Lu?
核心范式轉移: 從「執行者」到「思考者」


JarvisEvo 的核心哲學在于模仿人類專家的慢思考模式 。 一個資深修圖師的工作流永遠是閉環的:觀察原圖 -構思 -嘗試調整 -觀察結果 -評估/反思 -再調整 。 我們將這一直覺轉化為三大技術支柱:

iMCoT:讓思維鏈「長出眼睛」

傳統的思維鏈 (CoT) 是純文本的獨角戲 。 JarvisEvo 引入了 iMCoT (Interleaved Multimodal Chain-of-Thought) , 將視覺反饋強行插入推理循環 。

打破黑盒:每執行一步工具(例如調整色溫) , 系統立刻生成中間渲染圖 。 動態規劃:模型不再是一次性生成所有步驟 , 而是基于當前的視覺狀態來決定下一步 。 它能「看到」上一具體操作帶來的過曝或偏色 , 并即時修正 。


SEPO:左手畫圖 , 右手打分

這是 JarvisEvo 最「性感」的設計 。 既然外部獎勵模型容易被 Hack , 那為什么不讓 Agent 自己訓練自己的審美?我們提出了 SEPO (Synergistic Editor-Evaluator Policy Optimization) , 讓模型在訓練中分飾兩角:

編輯者 (Editor):負責干活 , 目標是修出好圖 。 評估者 (Evaluator):負責挑刺 , 目標是精準打分 。
這就形成了一種類似 GAN 但更復雜的協同進化:編輯者為了拿高分 , 必須提升修圖質量;評估者為了不被人類專家「打臉」 , 必須提升鑒賞能力 。 為了防止模型「作弊」(即模型發現只要生成「100 分」的文本就能降低 Loss) , 我們設計了 SLM (Selective Loss Masking) 機制 。 這相當于老師在改卷時 , 遮住了學生自己寫的「我給自己打滿分」那一行 , 迫使學生只能靠前面的解題過程(推理和工具使用)來真正贏得高分 。

On-Policy Reflection:從錯誤中提煉智慧

JarvisEvo 的第三個殺手锏是它的反思機制 。

在 Stage 2 的訓練中 , 我們構建了一個自動化流水線:當模型偶然修出了一張好圖(高分軌跡) , 而之前某次嘗試失敗了(低分軌跡) , 系統會立刻捕捉這組對比 。

通過引入「導師模型」(如 Gemini/GPT-4) , 我們讓系統分析:「剛才那次為什么失???是因為白平衡參數太激進了嗎?」

這種生成的反思數據 (Reflection Data) 被用于第三階段的微調 。 最終 , JarvisEvo 習得的不僅是「如何修圖」 , 更是「當修壞了時如何自救」 。



硬核工程:ArtEdit 數據集與訓練流水線

為了支撐這套邏輯 , 我們沒有使用通用的微調數據 , 而是從零構建了 ArtEdit:

170K 專業樣本:覆蓋從風光到人像的 10 大類攝影場景 。 全工具鏈覆蓋:完美映射 Adobe Lightroom 的 200+ 個參數 。 雙視角數據:既有修圖軌跡 (ArtEdit-Lr) , 也有人類專家的審美評分 (ArtEdit-Eval) 。
我們的訓練并非一蹴而就 , 而是采用了類似人類學習的三階段課程 (Curriculum Learning):

冷啟動 (SFT):先學會工具怎么用 , 語法怎么寫 。 協同進化 (RL/SEPO):扔掉標準答案 , 在自我探索中通過「左右互搏」提升上限 。 反思微調 (Reflection):針對易錯點進行特訓 , 學會自我糾錯 。


實驗結果
ArtEdit-Bench 評測結果





在嚴苛的 ArtEdit-Bench 評測中 , JarvisEvo 展現了統治力:

內容保真度:相比商業模型 Nano-Banana , L1/L2 誤差降低了 44.96% 。 這意味著它在修圖時不會破壞原圖的畫質細節 。 人類偏好:在盲測中 , JarvisEvo 取得了 49% 的勝率 , 遠超 Nano-Banana 的 28% 。 審美對齊:更有趣的是 , 作為「裁判」 , JarvisEvo 對圖片質量的打分與人類專家的相關性 (SRCC 0.7243) 甚至超過了 Gemini-2.5-Flash 。
視覺效果



在視覺效果上 , JarvisEvo 專為細粒度專業調色而生 。 得益于其深度的意圖理解、多模態推理以及獨特的自我反思閉環 , JarvisEvo 在處理復雜修圖需求時 , 展現出了超越當前所有商業及開源 AIGC 模型的顯著優勢 。

JarvisEvo vs. OpenAI X Adobe PhotoShop



出于好奇跑了一下 OpenAI 的新功能 , 雖然能調 PS , 但感覺更像是 Workflow 的搭建 , 缺乏垂直數據的 Training 。 在我們的 Benchmark 上 , 論指令遵循和修圖審美 , 目前的 JarvisEvo 表現明顯還是要更好很多 。

結語: 不僅是修圖
JarvisEvo 的意義遠超圖像編輯本身 。它驗證了一種「Actor-Critic 協同進化」的通用范式 。 這種讓模型在內部建立「自我批評家」 , 并通過多模態反饋不斷修正行動路徑的方法 , 完全可以復用到復雜代碼生成、數學推理、機器人控制等需要長程規劃的領域 。

我們正在見證 Agent 從「聽話的執行者」向「會反思的創作者」的驚險一躍 。 而 JarvisEvo , 剛剛邁出了這一步 。

    推薦閱讀