Gemini 3「開眼」像素級操控！谷歌回應DeepSeek-OCR2

2026-03-28 安全漏洞網絡安全

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：定慧
【新智元導讀】谷歌Google DeepMind剛剛推出新能力，用代碼賦予Gemini 3 Flash「法眼」。
沒想到吧， Google DeepMind剛剛為Gemini 3 Flash推出了一個重量級新能力：Agentic Vision（智能體視覺）。（難道是被DeepSeek-OCR2給刺激到了？）
可以看到，這項技術徹底改變了大語言模型理解世界的方式：
從過去的「猜」變成了如今的「深度調查」。

該能力由Google DeepMind團隊推出，核心產品經理Rohan Doshi表示，傳統的AI模型在處理圖片時，往往只是靜態地看一眼。
【Gemini 3「開眼」像素級操控！谷歌回應DeepSeek-OCR2】如果圖片里的細節太小，比如微處理芯片上的序列號或者遠處模糊的路牌，模型往往只能靠「猜」。
而Agentic Vision引入了一個「思考-行動-觀察」（Think-Act-Observe）的閉環：
模型不再是被動接收像素，而是會根據用戶的需求，主動編寫Python代碼來操縱圖像。

這一能力直接讓Gemini 3 Flash在各類視覺基準測試中實現了5%到10%的性能跨越。

Agentic Vision：智能體視覺新前沿
DeepMind探索的方法概括起來就是：利用代碼執行作為視覺推理的工具，將被動的視覺理解轉化為主動的智能體過程。
什么意思呢？我們知道，目前的SOTA模型通常是一次性處理圖像。
但Agentic Vision引入了一個循環：
1. 思考（Think）：模型分析用戶查詢和初始圖像，制定多步計劃。
2. 行動（Act）：模型生成并執行Python代碼來主動操縱圖像（如裁剪、旋轉、標注）或分析圖像（如運行計算、計數邊界框等）。
3. 觀察（Observe）：變換后的圖像被追加到模型的上下文窗口中。這允許模型在生成最終響應之前，以更好的上下文檢查新數據。

Agentic Vision實戰

通過在API中啟用代碼執行，開發者可以解鎖許多新行為。
Google AI Studio中的演示應用已經展示了這一點。
1. 縮放與檢查（Zooming and inspecting）
Gemini 3 Flash被訓練為在檢測到細粒度細節時進行隱式縮放。
PlanCheckSolver.com是一個AI驅動的建筑計劃驗證平臺，通過啟用Gemini 3 Flash的代碼執行功能來迭代檢查高分辨率輸入，將準確率提高了5% 。
后臺日志視頻展示了這個智能體過程：Gemini 3 Flash生成Python代碼來裁剪和分析特定的補?。 ɡ縹荻ケ咴禱蚪ㄖ糠鄭┳魑巒枷?。
通過將這些裁剪圖追加回其上下文窗口，模型在視覺上確立其推理，以確認是否符合復雜的建筑規范。

2. 圖像標注（Image annotation）
Agentic Vision允許模型通過標注圖像與環境交互。
Gemini 3 Flash不僅僅是描述它看到的內容，還可以執行代碼直接在畫布上繪制以確立其推理。
在下面的例子中，模型被要求數Gemini應用中一只手上的數字。
為了避免計數錯誤，它使用Python在它識別的每個手指上繪制邊界框和數字標簽。
這種「視覺草稿紙」確保其最終答案是基于像素級的完美理解。

3. 視覺數學與繪圖（Visual math and plotting）
Agentic Vision可以解析高密度表格并執行Python代碼來可視化發現。
標準LLM在多步視覺算術中經常產生幻覺。
Gemini 3 Flash通過將計算放到到確定性的Python環境中來繞過這個問題。
在Google AI Studio的演示應用示例中，模型識別原始數據，編寫代碼將之前的SOTA歸一化為1.0 ，并生成專業的Matplotlib條形圖。這用可驗證的執行取代了概率性猜測。

如何上手

Agentic Vision今天已通過Google AI Studio和Vertex AI中的Gemini API提供。
它也開始在Gemini應用中推出（通過從模型下拉菜單中選擇Thinking訪問）。

以下是一個簡單的Python代碼示例，展示了如何調用這一能力：
from google import genaifrom google.genai import typesclient = genai.Client()image = types.Part.from_uri(file_uri=\"https://goo.gle/instrument-img\"mime_type=\"image/jpeg\")response = client.models.generate_content(model=\"gemini-3-flash-preview\"contents=[image \"Zoom into the expression pedals and tell me how many pedals are there?\" config=types.GenerateContentConfig(tools=[types.Tool(code_execution=types.ToolCodeExecution) ))print(response.text)
未來展望
Google表示， Agentic Vision才剛剛開始。
目前， Gemini 3 Flash擅長隱式決定何時放大微小細節。雖然其他功能（如旋轉圖像或執行視覺數學）目前需要顯式的提示引導來觸發，但Google正在努力在未來的更新中使這些行為完全隱式化。
此外， Google還在探索如何為Gemini模型通過更多工具（包括網絡和反向圖像搜索）來進一步確立其對世界的理解，并計劃將此功能擴展到Flash以外的其他模型尺寸。

彩蛋：難道是因為DeepSeek？
這就很有意思了。
DeepSeek前腳剛開源了堪稱「OCR 2.0」的DeepSeek-OCR ，谷歌后腳就發布了Gemini 3的Agentic Vision 。
這真的是巧合嗎？
我們不妨大膽猜測，谷歌這次的「深夜炸場」，極有可能是被DeepSeek逼出來的。
理由有三：
1. 時間點的驚人巧合
1月27日， DeepSeek剛剛發布了DeepSeek-OCR2 ，搭載核心黑科技DeepEncoder V2 。它拋棄了傳統的機械掃描，讓AI學會了像人類一樣「按邏輯順序閱讀」，僅用幾百個Token就實現了對復雜排版和圖表的完美理解。
谷歌同一天立馬拿出Agentic Vision ，仿佛在這場「視覺軍備競賽」中隔空喊話：「你們讓AI看懂邏輯，我們直接讓AI上手操作」。
2. 技術路線的巔峰對決
DeepSeek-OCR2走的是「內功流」，通過DeepEncoder V2模擬人類的視覺注意力機制，動態重組圖像信息，把「看」這個動作做到了極致的輕量化和邏輯化。
而谷歌的Agentic Vision走的是「外設流」，也就是「不光要看清，還要能動手」。 DeepSeek在教AI怎么「用心看」，谷歌在教AI怎么「用手算」。
3. 爭奪視覺AI定義的終局
DeepSeek-OCR2證明了即便是3B的小模型，只要「視覺邏輯」對路，也能吊打大模型。谷歌則試圖用「代碼執行」來降維打擊：你視覺再好也是「看」，我能寫代碼驗證才是「真懂」。
這場仗，本質上是誰能重新定義「機器視覺」——是極致的感知，還是全能的交互？
不管是不是「應激反應」，這場神仙打架，最后爽的還是我們程序員。

推薦閱讀

上一篇：DeepSeek又發新論文：讓AI用“人類思維”理解圖像

下一篇：會議平板選購避坑指南：如何避開參數陷阱，找到團隊效率“真命設備”？