DeepImageSearch定義相冊搜索新范式，開啟視覺記憶深度搜索時代

2026-04-17 網絡安全互聯網 openclaw

文章圖片

文章圖片

文章圖片

“時光流轉，誰還用日記本。往事有底片為證。 ”—— 許嵩《攝影藝術》

“找到那次看完那場煙花秀的幾天后，我去海邊拍的那些照片” 。當你腦海中閃過這樣的念頭，沒有任何一個圖像檢索系統能幫上忙。不是因為 AI 看不懂海灘或煙花，而是因為在它眼里，你的幾千上萬張照片只是一堆散亂的圖片，而不是一段連貫的情景記憶。

這背后是一個根本性的范式缺陷：過去所有的圖像檢索技術，無論 Embedding 模型多強大，都在做同一件事，把每張圖片當作孤島，逐張匹配。它們能看懂畫面里的每一個物體，卻讀不懂串起你經歷的時間線索、空間脈絡和事件邏輯組成的復雜人生。

人大高瓴人工智能學院竇志成教授團隊聯合 OPPO 研究院，正式提出了 DeepImageSearch 這一圖像檢索新范式，將其從 “逐張語義匹配” 推向 “語料庫級上下文推理” 的全新范式。

團隊同時構建了該范式首個評測基準 DISBench ，并通過 ImageSeeker 框架對當前所有主流前沿模型進行了系統評測。結果頗為震撼，包括 GPT-5.2、Claude-Opus-4.5、Gemini-3-Pro 在內的最強多模態模型，單次嘗試能完美解決的查詢比例都不超過三成。

當 AI 不再只是匹配單張圖片的內容，而是像你本人一樣，帶著對整段人生經歷的理解去翻閱相冊，相冊搜索才算真正進入了深度搜索時代。而通往這個時代的路，才剛剛被打開。

論文標題：DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories Github 項目主頁：https://github.com/RUC-NLPIR/DeepImageSearch 論文鏈接：https://arxiv.org/abs/2602.10809 Huggingface 數據集：https://huggingface.co/datasets/RUC-NLPIR/DISBench Leaderboard：https://huggingface.co/spaces/RUC-NLPIR/DISBench-Leaderboard
1. 從看圖識物到看懂你的人生劇情：
DeepImageSearch 定義新一代的圖像檢索

DeepImageSearch 的核心洞察，可以用一句話概括：真正的相冊搜索，不是對 1 萬張照片做 1 萬次獨立的圖文匹配，而是需要像偵探一樣，在你的視覺歷史中規劃搜索路徑、串聯散落線索、構建證據鏈，最后把結果直接送到用戶的手上。

過去幾年，圖像檢索的效果隨著視覺 - 語言模型基座的進步也日益增強。系統可以通過直接語義對齊幫你找到 “黃色毛發的貓” ，甚至可以通過 think-then-embed 的范式幫你找到 “穿奧尼爾取得 FMVP 時球衣號碼的冰球運動員照片”（先思考奧尼爾 FMVP 時的號碼是 34 號再生成 embedding）。

但無論能力如何增強，他們都有同一個底層假設：每張圖片被獨立評估，目標僅憑自身的視覺內容就能被識別出來。

DeepImageSearch 打破的正是這個假設。

論文中給了一個很直覺的例子：假設你想找到 “某次音樂節上，只有主唱一個人站在舞臺上” 的照片。你可能去過好幾場音樂節，拍了大量視覺上高度相似的演出照。燈光、舞臺、樂手，外觀幾乎無法區分。這些目標照片本身不攜帶任何獨特的視覺特征，讓你能把它們從其他演出照中挑出來。

但你記得一條線索：那場演出的現場掛著一個藍白色的活動 logo 。

這就是問題的關鍵所在：解決問題所需的證據（藍白色 logo）和最終的目標（主唱獨自在臺上的照片），分散在完全不同的圖片里。模型不能只看目標圖片本身就做出判斷。它必須先找到包含藍白色 logo 的照片，錨定這是 Lokerse 音樂節上 Suede 樂隊的演出，然后再回到這場演出的所有照片中，篩選出符合條件的那幾張。

這不再是一次檢索，而是一次多步探索。如果說傳統檢索是在圖書館按書名找書，那 DeepImageSearch 更像是福爾摩斯破案。線索散落在不同的房間里，每一條都不足以獨立指向答案，唯有將它們串聯起來，真相才會浮出水面。

這就是 DeepImageSearch 定義的范式轉變：圖像檢索從被動的語義匹配，進化為主動的上下文推理探索。模型不再只是搜索工具，而更像一個擁有你全部視覺記憶的私人助手。它理解事件之間的時間脈絡、空間關聯和因果邏輯，能在你人生經歷編織成的網絡中，循著蛛絲馬跡找到答案。

2. DISBench：給 DeepImageSearch 新范式
出一張高難度考卷

新范式提出來了，但要推動研究進展，還需要一套足夠有挑戰性的評測基準。然而，給 DeepImageSearch 出題本身就是一件極其困難的事。

想象一下，你面前擺著一個用戶三四年來積累的數千張照片。你需要發現類似 “這座雕像在半年內的兩次不同旅行中都被拍到了” 這樣隱藏的跨事件關聯，再基于它設計出一道需要多步推理才能解答的題目。讓人類標注員肉眼從頭翻到尾去挖掘這種聯系是成本極其高昂、不可接受的。

研究團隊的解法很巧妙：讓模型先做大規模的自動化挖掘，人類專家再核驗改進。

他們設計了一套人機協作的流水線，先用視覺語言模型自動解析每張照片中的關鍵視覺線索（標志性建筑、顯眼物體、可見文字等），再通過檢索和驗證自動挖掘這些線索在不同事件之間的隱藏關聯，將所有發現組織成一張結構化的記憶圖譜。最后，在這張圖譜上采樣局部子圖，讓大語言模型沿著其中的推理路徑自動生成候選查詢。

簡單來說，最耗費心力的關聯發現交給了模型，最需要判斷力的質量把關留給了人類。

最終的 DISBench（DeepImageSearch-Bench) 包含兩類查詢，考察兩種不同的破案能力：

1. Intra-Event 查詢（占 46.7%）“先定位是哪次活動，再進一步鎖定目標” 。比如音樂節的例子：先通過藍白 logo 錨定是哪場演出，再從中篩出 \"只有主唱一人在臺上\" 的照片。線索指向一個事件，目標藏在事件內部。

2. Inter-Event 查詢（占 53.3%）” 跨越整個相冊的多段經歷，理解他們之間的關聯關系” 。比如 “我曾經在半年內的兩次不同旅行中拍到過有一座非石膏雕像，請找到包含這個雕像的所有照片” 。模型需要在所有旅行照片中全局掃描、識別同一座雕像、核實時間約束，再召回全部相關照片。

整個基準覆蓋 57 位用戶、近 11 萬張照片，平均每位用戶的視覺歷史跨度 3.4 年，每條查詢平均指向 3.84 張目標圖片。而模型在評測時對 \"哪些照片屬于同一事件\" 這樣的內在結構完全不可見。它必須像一個真正的助手一樣，從一片混沌中自主發現結構、串聯線索。

3. ImageSeeker：探索視覺歷史的深度搜索
需要什么樣的 Agent？

DeepImageSearch 定義了一個全新的任務，但一個隨之而來的問題是：要完成這種以個人相冊為代表的視覺歷史深度搜索， agent 到底需要具備什么樣的能力？這在此前是一片空白。沒有人在 “探索視覺歷史” 這個場景下系統性地思考過這個問題。

研究團隊因此設計了 ImageSeeker 框架。它的目標不是追求極致性能，而是作為先驅者做一次系統性的探索：這類任務到底需要什么能力？工具該怎么設計？長程推理中的狀態該怎么管理？這些探索所得到的 insight ，和框架本身一起，為后續研究提供了參考基線。

工具層面：一種能力遠遠不夠。團隊的核心觀察是，模型需要靈活組合四種能力才能應對這個任務：語義檢索（用自然語言在相冊中搜圖）、時空過濾（處理時間和地理位置的精確約束）、視覺確認（把照片調出來仔細看，做細粒度判斷）、以及外部知識補充（解決查詢中涉及的百科類知識）。更關鍵的是，這些能力之間可以協同。 agent 能把一次檢索的結果保存為命名子集，后續在子集內繼續搜索或過濾，使得先縮小范圍，再精確定位的多步推理成為可能。

記憶層面：戰線太長，記不住怎么辦？一次查詢可能需要數十步交互，處理大量圖片很容易撐爆上下文窗口。 ImageSeeker 為此引入了雙層記憶機制。一層是顯式狀態記憶，通過命名子集把中間發現持久化保存，確保多步探索中不丟失已有成果；另一層是壓縮上下文記憶，在對話歷史接近上限時，自動將其提煉為 \"全局目標\" 和 \"當前行動計劃\" 兩部分摘要，在有限的空間內盡可能保留關鍵推理狀態。

4. 最強模型們暫時也無法完美解決好這個問題

ImageSeeker 框架的模塊化設計，使得我們可以將不同的多模態大模型插入同一套工具和記憶機制中，公平地比較它們在這個全新任務上的表現。研究團隊測試了幾乎所有主流前沿模型：閉源陣營的 GPT-4o、GPT-5.2、Gemini-3-Flash/Pro、Claude-Sonnet-4.5/Opus-4.5 ，開源陣營的 Qwen3-VL-235B/32B 和 GLM-4.6V 。

結果是全線受挫：表現最好的 Claude-Opus-4.5 ，一次嘗試的完美率也只有約 29% 。開源最佳的 GLM-4.6V ，綜合得分不到最強閉源模型的四成。要知道，在傳統圖像檢索基準上，這些模型的表現早已逼近天花板，而 DISBench 讓它們集體回到了及格都困難的狀態。

那干脆不用 agent ，直接用最好的 Embedding 模型做傳統檢索行不行呢？更不行。三個代表性 Embedding 模型的表現幾乎等于盲猜，因為個人相冊中存在大量視覺高度相似的照片，傳統檢索會把所有 “看起來像” 的圖片一股腦返回，完全無法區分 “滿足上下文約束的真正目標” 和 “來自其他事件的干擾項” 。這不是模型不夠強的問題，而是范式本身的天花板。

但更值得關注的，是這些模型到底 “笨” 在哪里。研究團隊對失敗案例進行了系統性的人工分析，發現了一個清晰的結論：感知能力已經不是主要短板，規劃和推理才是。

具體來說：最大的錯誤類型是推理出錯，占所有錯誤的 36% 到 50% 。模型已經找到了正確的線索，卻在執行多步計劃的過程中迷了路、丟了約束、或者過早停了下來。其次是視覺判別失敗，比如把不同角度拍攝的同一座建筑誤判為兩座不同的建筑。 AI 不是看不見答案，而是在推理的半路上把答案弄丟了。

還有幾個值得進一步關注的發現：

跨事件推理是核心瓶頸：強模型在單個事件內的搜索明顯優于跨事件搜索（如 Claude-Opus-4.5 的表現直接打了八折），而弱模型則是一視同仁地差。這說明一旦基本的 agent 能力建立起來，真正拉開差距的是長程的跨事件關聯發現能力。

搜得更準不等于答得更好：將檢索用的 Embedding 模型從小換到大，各模型表現并不一致，有的提升、有的反降，但總的差異不大。核心挑戰不在于搜索本身，而在于如何對搜到的結果進行正確的推理和篩選。

模型們有著做對的潛力：通過 Best@k 和 Majority Voting 等方式測試，可以發現總分會隨著測試次數的增加而提升。這表明模型在多次嘗試中是有可能得到正確結果的，但是如何釋放他們的潛力有待后續工作的繼續探索。

5. 結語

回到最開始的問題， “找到那次看完那場煙花秀的幾天后，我去海邊拍的那些照片” 。 DeepImageSearch 告訴我們，這不是一個更好的 Embedding 能解決的問題，而是一個需要理解你人生敘事結構的推理問題。

這篇工作的貢獻可以歸納為三件事：提出了從獨立語義匹配到上下文推理的圖像檢索新范式；構建了第一個評估這種能力的高質量基準 DISBench；并通過 ImageSeeker 框架的系統探索，揭示了當前最強模型在規劃、狀態管理和長程推理上的關鍵短板。

當 AI 真正學會在我們的視覺歷史中 \"讀懂\" 事件之間的脈絡、串聯碎片化的記憶線索，相冊搜索將不再只是一個工具功能，而會成為一個真正理解你人生故事的記憶伙伴。

通往這個時代的路已經被打開，但顯然，我們還有很長的路要走。

作者簡介：

本工作第一作者鄧琛龍，目前就讀于中國人民大學高瓴人工智能學院，博士四年級，目前研究方向聚焦于高效長上下文語言模型與深度搜索智能體。在NeurIPS、ACL、EMNLP、WSDM等國際頂級會議和期刊發表多篇論文，曾擔任ACL 2025和EMNLP 2025審稿周期的領域主席。

【DeepImageSearch定義相冊搜索新范式，開啟視覺記憶深度搜索時代】本文的通信作者竇志成，中國人民大學高瓴人工智能學院長聘教授、博士生導師、副院長。主要研究方向為信息檢索、大模型、智能體、大模型檢索增強、AI搜索、司法智能等。在國際知名學術會議和期刊上發表論文200余篇，帶領團隊研發涉外法治大模型，開源大模型檢索增強工具包FlashRAG、信息智能體系列工作累計獲得GitHub星標1萬余枚。

推薦閱讀

上一篇：已拿到《寒冬將至》劇本，今年全球PC出貨量將下降12%

下一篇：一加16再次被確認：滿血第六代驍龍8+2億潛望，核心規格基本清晰了