拒絕「盲修」：JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力？

2026-02-26 修圖 adobe

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

在邁向通用人工智能的道路上，我們一直在思考一個問題：現有的 Image Editing Agent ，真的「懂」修圖嗎？

大多數基于 LLM/VLM 的智能體，本質上更像是一個「盲目的指揮官」。它們能流利地寫出修圖代碼或調用 API ，但在按下回車鍵之前，它們看不見畫布上的變化，也無法像人類設計師那樣，盯著屏幕皺眉說：「這張對比度拉太高了，得往回收到一點。」這種感知與決策的割裂，直接導致了「指令幻覺」，或者說模型在進行盲目的「腦補」。由于缺乏視覺反饋，模型往往憑空想象下一步操作，導致結果與用戶的初衷南轅北轍。

此外，在傳統強化學習中經常依賴于靜態的獎勵模型。隨著模型的不斷訓練，它很容易學會如何「討好」這個固定的打分器，導致 Reward Hacking——即分數很高，但審美并沒有真正提升。

為了打破這一僵局， JarvisEvo 應運而生。它不僅僅是一個連接 Adobe Lightroom 的自動化工具使用者，更是一次大膽的探索：探索 Agent 如何通過「內省」，真正實現自我進化。

【拒絕「盲修」：JarvisEvo 如何讓 Agent 像人類擁有視覺反思能力？】

論文標題：JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization 論文地址: https://www.arxiv.org/pdf/2511.23002 項目主頁: https://jarvisevo.vercel.app/ Github：https://github.com/LYL1015/JarvisEvo Huggingface Daily Paper：https://huggingface.co/papers/2511.23002 作者團隊來自騰訊混元和廈門大學：Yunlong Lin* Linqing Wang* Kunjie Lin* Zixu Lin* Kaixiong Gong Wenbo Li Bin Lin Zhenxi Li Shiyi Zhang Yuyang Peng Wenxun Dai Xinghao Ding? Chunyu Wang? Qinglin Lu?
核心范式轉移：從「執行者」到「思考者」

JarvisEvo 的核心哲學在于模仿人類專家的慢思考模式。一個資深修圖師的工作流永遠是閉環的：觀察原圖 -構思 -嘗試調整 -觀察結果 -評估/反思 -再調整。我們將這一直覺轉化為三大技術支柱：

iMCoT：讓思維鏈「長出眼睛」

傳統的思維鏈 (CoT) 是純文本的獨角戲。 JarvisEvo 引入了 iMCoT (Interleaved Multimodal Chain-of-Thought) ，將視覺反饋強行插入推理循環。

打破黑盒：每執行一步工具（例如調整色溫），系統立刻生成中間渲染圖。動態規劃：模型不再是一次性生成所有步驟，而是基于當前的視覺狀態來決定下一步。它能「看到」上一具體操作帶來的過曝或偏色，并即時修正。

SEPO：左手畫圖，右手打分

這是 JarvisEvo 最「性感」的設計。既然外部獎勵模型容易被 Hack ，那為什么不讓 Agent 自己訓練自己的審美？我們提出了 SEPO (Synergistic Editor-Evaluator Policy Optimization) ，讓模型在訓練中分飾兩角：

編輯者 (Editor)：負責干活，目標是修出好圖。評估者 (Evaluator)：負責挑刺，目標是精準打分。
這就形成了一種類似 GAN 但更復雜的協同進化：編輯者為了拿高分，必須提升修圖質量；評估者為了不被人類專家「打臉」，必須提升鑒賞能力。為了防止模型「作弊」（即模型發現只要生成「100 分」的文本就能降低 Loss），我們設計了 SLM (Selective Loss Masking) 機制。這相當于老師在改卷時，遮住了學生自己寫的「我給自己打滿分」那一行，迫使學生只能靠前面的解題過程（推理和工具使用）來真正贏得高分。

On-Policy Reflection：從錯誤中提煉智慧

JarvisEvo 的第三個殺手锏是它的反思機制。

在 Stage 2 的訓練中，我們構建了一個自動化流水線：當模型偶然修出了一張好圖（高分軌跡），而之前某次嘗試失敗了（低分軌跡），系統會立刻捕捉這組對比。

通過引入「導師模型」（如 Gemini/GPT-4），我們讓系統分析：「剛才那次為什么失??？是因為白平衡參數太激進了嗎？」

這種生成的反思數據 (Reflection Data) 被用于第三階段的微調。最終， JarvisEvo 習得的不僅是「如何修圖」，更是「當修壞了時如何自救」。

硬核工程：ArtEdit 數據集與訓練流水線

為了支撐這套邏輯，我們沒有使用通用的微調數據，而是從零構建了 ArtEdit：

170K 專業樣本：覆蓋從風光到人像的 10 大類攝影場景。全工具鏈覆蓋：完美映射 Adobe Lightroom 的 200+ 個參數。雙視角數據：既有修圖軌跡 (ArtEdit-Lr) ，也有人類專家的審美評分 (ArtEdit-Eval) 。
我們的訓練并非一蹴而就，而是采用了類似人類學習的三階段課程 (Curriculum Learning)：

冷啟動 (SFT)：先學會工具怎么用，語法怎么寫。協同進化 (RL/SEPO)：扔掉標準答案，在自我探索中通過「左右互搏」提升上限。反思微調 (Reflection)：針對易錯點進行特訓，學會自我糾錯。

實驗結果
ArtEdit-Bench 評測結果

在嚴苛的 ArtEdit-Bench 評測中， JarvisEvo 展現了統治力：

內容保真度：相比商業模型 Nano-Banana ， L1/L2 誤差降低了 44.96% 。這意味著它在修圖時不會破壞原圖的畫質細節。人類偏好：在盲測中， JarvisEvo 取得了 49% 的勝率，遠超 Nano-Banana 的 28% 。審美對齊：更有趣的是，作為「裁判」， JarvisEvo 對圖片質量的打分與人類專家的相關性 (SRCC 0.7243) 甚至超過了 Gemini-2.5-Flash 。
視覺效果

在視覺效果上， JarvisEvo 專為細粒度專業調色而生。得益于其深度的意圖理解、多模態推理以及獨特的自我反思閉環， JarvisEvo 在處理復雜修圖需求時，展現出了超越當前所有商業及開源 AIGC 模型的顯著優勢。

JarvisEvo vs. OpenAI X Adobe PhotoShop

出于好奇跑了一下 OpenAI 的新功能，雖然能調 PS ，但感覺更像是 Workflow 的搭建，缺乏垂直數據的 Training 。在我們的 Benchmark 上，論指令遵循和修圖審美，目前的 JarvisEvo 表現明顯還是要更好很多。

結語：不僅是修圖
JarvisEvo 的意義遠超圖像編輯本身。它驗證了一種「Actor-Critic 協同進化」的通用范式。這種讓模型在內部建立「自我批評家」，并通過多模態反饋不斷修正行動路徑的方法，完全可以復用到復雜代碼生成、數學推理、機器人控制等需要長程規劃的領域。

我們正在見證 Agent 從「聽話的執行者」向「會反思的創作者」的驚險一躍。而 JarvisEvo ，剛剛邁出了這一步。

推薦閱讀

上一篇：阿里最強“PS模型”開源！一手體驗，0元P出氛圍感合影

下一篇：平板市場，還是蘋果、三星的天下，拿走50%以上的份額