DeepImageSearch定義相冊搜索新范式,開啟視覺記憶深度搜索時代

DeepImageSearch定義相冊搜索新范式,開啟視覺記憶深度搜索時代

文章圖片

DeepImageSearch定義相冊搜索新范式,開啟視覺記憶深度搜索時代

文章圖片

DeepImageSearch定義相冊搜索新范式,開啟視覺記憶深度搜索時代

文章圖片




“時光流轉 , 誰還用日記本 。 往事有底片為證 。 ”—— 許嵩《攝影藝術》

“找到那次看完那場煙花秀的幾天后 , 我去海邊拍的那些照片” 。 當你腦海中閃過這樣的念頭 , 沒有任何一個圖像檢索系統能幫上忙 。 不是因為 AI 看不懂海灘或煙花 , 而是因為在它眼里 , 你的幾千上萬張照片只是一堆散亂的圖片 , 而不是一段連貫的情景記憶 。

這背后是一個根本性的范式缺陷:過去所有的圖像檢索技術 , 無論 Embedding 模型多強大 , 都在做同一件事 , 把每張圖片當作孤島 , 逐張匹配 。 它們能看懂畫面里的每一個物體 , 卻讀不懂串起你經歷的時間線索、空間脈絡和事件邏輯組成的復雜人生 。

人大高瓴人工智能學院竇志成教授團隊聯合 OPPO 研究院 , 正式提出了 DeepImageSearch 這一圖像檢索新范式 , 將其從 “逐張語義匹配” 推向 “語料庫級上下文推理” 的全新范式 。

團隊同時構建了該范式首個評測基準 DISBench , 并通過 ImageSeeker 框架對當前所有主流前沿模型進行了系統評測 。 結果頗為震撼 , 包括 GPT-5.2、Claude-Opus-4.5、Gemini-3-Pro 在內的最強多模態模型 , 單次嘗試能完美解決的查詢比例都不超過三成 。

當 AI 不再只是匹配單張圖片的內容 , 而是像你本人一樣 , 帶著對整段人生經歷的理解去翻閱相冊 , 相冊搜索才算真正進入了深度搜索時代 。 而通往這個時代的路 , 才剛剛被打開 。


論文標題:DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories Github 項目主頁:https://github.com/RUC-NLPIR/DeepImageSearch 論文鏈接:https://arxiv.org/abs/2602.10809 Huggingface 數據集:https://huggingface.co/datasets/RUC-NLPIR/DISBench Leaderboard:https://huggingface.co/spaces/RUC-NLPIR/DISBench-Leaderboard
1. 從看圖識物到看懂你的人生劇情:
DeepImageSearch 定義新一代的圖像檢索



DeepImageSearch 的核心洞察 , 可以用一句話概括:真正的相冊搜索 , 不是對 1 萬張照片做 1 萬次獨立的圖文匹配 , 而是需要像偵探一樣 , 在你的視覺歷史中規劃搜索路徑、串聯散落線索、構建證據鏈 , 最后把結果直接送到用戶的手上 。

過去幾年 , 圖像檢索的效果隨著視覺 - 語言模型基座的進步也日益增強 。 系統可以通過直接語義對齊幫你找到 “黃色毛發的貓” , 甚至可以通過 think-then-embed 的范式幫你找到 “穿奧尼爾取得 FMVP 時球衣號碼的冰球運動員照片”(先思考奧尼爾 FMVP 時的號碼是 34 號再生成 embedding) 。

但無論能力如何增強 , 他們都有同一個底層假設:每張圖片被獨立評估 , 目標僅憑自身的視覺內容就能被識別出來 。

DeepImageSearch 打破的正是這個假設 。

論文中給了一個很直覺的例子:假設你想找到 “某次音樂節上 , 只有主唱一個人站在舞臺上” 的照片 。 你可能去過好幾場音樂節 , 拍了大量視覺上高度相似的演出照 。 燈光、舞臺、樂手 , 外觀幾乎無法區分 。 這些目標照片本身不攜帶任何獨特的視覺特征 , 讓你能把它們從其他演出照中挑出來 。

但你記得一條線索:那場演出的現場掛著一個藍白色的活動 logo 。

這就是問題的關鍵所在:解決問題所需的證據(藍白色 logo)和最終的目標(主唱獨自在臺上的照片) , 分散在完全不同的圖片里 。模型不能只看目標圖片本身就做出判斷 。 它必須先找到包含藍白色 logo 的照片 , 錨定這是 Lokerse 音樂節上 Suede 樂隊的演出 , 然后再回到這場演出的所有照片中 , 篩選出符合條件的那幾張 。

這不再是一次檢索 , 而是一次多步探索 。 如果說傳統檢索是在圖書館按書名找書 , 那 DeepImageSearch 更像是福爾摩斯破案 。 線索散落在不同的房間里 , 每一條都不足以獨立指向答案 , 唯有將它們串聯起來 , 真相才會浮出水面 。

這就是 DeepImageSearch 定義的范式轉變:圖像檢索從被動的語義匹配 , 進化為主動的上下文推理探索 。模型不再只是搜索工具 , 而更像一個擁有你全部視覺記憶的私人助手 。 它理解事件之間的時間脈絡、空間關聯和因果邏輯 , 能在你人生經歷編織成的網絡中 , 循著蛛絲馬跡找到答案 。

2. DISBench:給 DeepImageSearch 新范式
出一張高難度考卷

新范式提出來了 , 但要推動研究進展 , 還需要一套足夠有挑戰性的評測基準 。 然而 , 給 DeepImageSearch 出題本身就是一件極其困難的事 。

想象一下 , 你面前擺著一個用戶三四年來積累的數千張照片 。 你需要發現類似 “這座雕像在半年內的兩次不同旅行中都被拍到了” 這樣隱藏的跨事件關聯 , 再基于它設計出一道需要多步推理才能解答的題目 。 讓人類標注員肉眼從頭翻到尾去挖掘這種聯系是成本極其高昂、不可接受的 。

研究團隊的解法很巧妙:讓模型先做大規模的自動化挖掘 , 人類專家再核驗改進 。

他們設計了一套人機協作的流水線 , 先用視覺語言模型自動解析每張照片中的關鍵視覺線索(標志性建筑、顯眼物體、可見文字等) , 再通過檢索和驗證自動挖掘這些線索在不同事件之間的隱藏關聯 , 將所有發現組織成一張結構化的記憶圖譜 。 最后 , 在這張圖譜上采樣局部子圖 , 讓大語言模型沿著其中的推理路徑自動生成候選查詢 。

簡單來說 , 最耗費心力的關聯發現交給了模型 , 最需要判斷力的質量把關留給了人類 。



最終的 DISBench(DeepImageSearch-Bench) 包含兩類查詢 , 考察兩種不同的破案能力:

1. Intra-Event 查詢(占 46.7%)“先定位是哪次活動 , 再進一步鎖定目標” 。比如音樂節的例子:先通過藍白 logo 錨定是哪場演出 , 再從中篩出 \"只有主唱一人在臺上\" 的照片 。 線索指向一個事件 , 目標藏在事件內部 。

2. Inter-Event 查詢(占 53.3%)” 跨越整個相冊的多段經歷 , 理解他們之間的關聯關系” 。比如 “我曾經在半年內的兩次不同旅行中拍到過有一座非石膏雕像 , 請找到包含這個雕像的所有照片” 。 模型需要在所有旅行照片中全局掃描、識別同一座雕像、核實時間約束 , 再召回全部相關照片 。

整個基準覆蓋 57 位用戶、近 11 萬張照片 , 平均每位用戶的視覺歷史跨度 3.4 年 , 每條查詢平均指向 3.84 張目標圖片 。 而模型在評測時對 \"哪些照片屬于同一事件\" 這樣的內在結構完全不可見 。 它必須像一個真正的助手一樣 , 從一片混沌中自主發現結構、串聯線索 。



3. ImageSeeker:探索視覺歷史的深度搜索
需要什么樣的 Agent?

DeepImageSearch 定義了一個全新的任務 , 但一個隨之而來的問題是:要完成這種以個人相冊為代表的視覺歷史深度搜索 , agent 到底需要具備什么樣的能力?這在此前是一片空白 。 沒有人在 “探索視覺歷史” 這個場景下系統性地思考過這個問題 。

研究團隊因此設計了 ImageSeeker 框架 。 它的目標不是追求極致性能 , 而是作為先驅者做一次系統性的探索:這類任務到底需要什么能力?工具該怎么設計?長程推理中的狀態該怎么管理?這些探索所得到的 insight , 和框架本身一起 , 為后續研究提供了參考基線 。

工具層面:一種能力遠遠不夠 。團隊的核心觀察是 , 模型需要靈活組合四種能力才能應對這個任務:語義檢索(用自然語言在相冊中搜圖)、時空過濾(處理時間和地理位置的精確約束)、視覺確認(把照片調出來仔細看 , 做細粒度判斷)、以及外部知識補充(解決查詢中涉及的百科類知識) 。 更關鍵的是 , 這些能力之間可以協同 。 agent 能把一次檢索的結果保存為命名子集 , 后續在子集內繼續搜索或過濾 , 使得先縮小范圍 , 再精確定位的多步推理成為可能 。

記憶層面:戰線太長 , 記不住怎么辦? 一次查詢可能需要數十步交互 , 處理大量圖片很容易撐爆上下文窗口 。 ImageSeeker 為此引入了雙層記憶機制 。 一層是顯式狀態記憶 , 通過命名子集把中間發現持久化保存 , 確保多步探索中不丟失已有成果;另一層是壓縮上下文記憶 , 在對話歷史接近上限時 , 自動將其提煉為 \"全局目標\" 和 \"當前行動計劃\" 兩部分摘要 , 在有限的空間內盡可能保留關鍵推理狀態 。

4. 最強模型們暫時也無法完美解決好這個問題

ImageSeeker 框架的模塊化設計 , 使得我們可以將不同的多模態大模型插入同一套工具和記憶機制中 , 公平地比較它們在這個全新任務上的表現 。 研究團隊測試了幾乎所有主流前沿模型:閉源陣營的 GPT-4o、GPT-5.2、Gemini-3-Flash/Pro、Claude-Sonnet-4.5/Opus-4.5 , 開源陣營的 Qwen3-VL-235B/32B 和 GLM-4.6V 。

結果是全線受挫:表現最好的 Claude-Opus-4.5 , 一次嘗試的完美率也只有約 29% 。 開源最佳的 GLM-4.6V , 綜合得分不到最強閉源模型的四成 。 要知道 , 在傳統圖像檢索基準上 , 這些模型的表現早已逼近天花板 , 而 DISBench 讓它們集體回到了及格都困難的狀態 。

那干脆不用 agent , 直接用最好的 Embedding 模型做傳統檢索行不行呢?更不行 。 三個代表性 Embedding 模型的表現幾乎等于盲猜 , 因為個人相冊中存在大量視覺高度相似的照片 , 傳統檢索會把所有 “看起來像” 的圖片一股腦返回 , 完全無法區分 “滿足上下文約束的真正目標” 和 “來自其他事件的干擾項” 。 這不是模型不夠強的問題 , 而是范式本身的天花板 。



但更值得關注的 , 是這些模型到底 “笨” 在哪里 。 研究團隊對失敗案例進行了系統性的人工分析 , 發現了一個清晰的結論:感知能力已經不是主要短板 , 規劃和推理才是 。

具體來說:最大的錯誤類型是推理出錯 , 占所有錯誤的 36% 到 50% 。 模型已經找到了正確的線索 , 卻在執行多步計劃的過程中迷了路、丟了約束、或者過早停了下來 。 其次是視覺判別失敗 , 比如把不同角度拍攝的同一座建筑誤判為兩座不同的建筑 。 AI 不是看不見答案 , 而是在推理的半路上把答案弄丟了 。

還有幾個值得進一步關注的發現:

跨事件推理是核心瓶頸:強模型在單個事件內的搜索明顯優于跨事件搜索(如 Claude-Opus-4.5 的表現直接打了八折) , 而弱模型則是一視同仁地差 。 這說明一旦基本的 agent 能力建立起來 , 真正拉開差距的是長程的跨事件關聯發現能力 。

搜得更準不等于答得更好:將檢索用的 Embedding 模型從小換到大 , 各模型表現并不一致 , 有的提升、有的反降 , 但總的差異不大 。 核心挑戰不在于搜索本身 , 而在于如何對搜到的結果進行正確的推理和篩選 。

模型們有著做對的潛力:通過 Best@k 和 Majority Voting 等方式測試 , 可以發現總分會隨著測試次數的增加而提升 。 這表明模型在多次嘗試中是有可能得到正確結果的 , 但是如何釋放他們的潛力有待后續工作的繼續探索 。

5. 結語

回到最開始的問題 , “找到那次看完那場煙花秀的幾天后 , 我去海邊拍的那些照片” 。 DeepImageSearch 告訴我們 , 這不是一個更好的 Embedding 能解決的問題 , 而是一個需要理解你人生敘事結構的推理問題 。

這篇工作的貢獻可以歸納為三件事:提出了從獨立語義匹配到上下文推理的圖像檢索新范式;構建了第一個評估這種能力的高質量基準 DISBench;并通過 ImageSeeker 框架的系統探索 , 揭示了當前最強模型在規劃、狀態管理和長程推理上的關鍵短板 。

當 AI 真正學會在我們的視覺歷史中 \"讀懂\" 事件之間的脈絡、串聯碎片化的記憶線索 , 相冊搜索將不再只是一個工具功能 , 而會成為一個真正理解你人生故事的記憶伙伴 。

通往這個時代的路已經被打開 , 但顯然 , 我們還有很長的路要走 。

作者簡介:

本工作第一作者鄧琛龍 , 目前就讀于中國人民大學高瓴人工智能學院 , 博士四年級 , 目前研究方向聚焦于高效長上下文語言模型與深度搜索智能體 。 在NeurIPS、ACL、EMNLP、WSDM等國際頂級會議和期刊發表多篇論文 , 曾擔任ACL 2025和EMNLP 2025審稿周期的領域主席 。

【DeepImageSearch定義相冊搜索新范式,開啟視覺記憶深度搜索時代】本文的通信作者竇志成 , 中國人民大學高瓴人工智能學院長聘教授、博士生導師、副院長 。 主要研究方向為信息檢索、大模型、智能體、大模型檢索增強、AI搜索、司法智能等 。 在國際知名學術會議和期刊上發表論文200余篇 , 帶領團隊研發涉外法治大模型 , 開源大模型檢索增強工具包FlashRAG、信息智能體系列工作累計獲得GitHub星標1萬余枚 。

    推薦閱讀