Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

文章圖片

Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

文章圖片

Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

文章圖片

Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

文章圖片

Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

文章圖片

Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2

文章圖片

Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2
編輯:定慧
【新智元導讀】谷歌Google DeepMind剛剛推出新能力 , 用代碼賦予Gemini 3 Flash「法眼」 。
沒想到吧 , Google DeepMind剛剛為Gemini 3 Flash推出了一個重量級新能力:Agentic Vision(智能體視覺) 。 (難道是被DeepSeek-OCR2給刺激到了?)
可以看到 , 這項技術徹底改變了大語言模型理解世界的方式:
從過去的「猜」變成了如今的「深度調查」 。

該能力由Google DeepMind團隊推出 , 核心產品經理Rohan Doshi表示 , 傳統的AI模型在處理圖片時 , 往往只是靜態地看一眼 。
【Gemini 3「開眼」像素級操控!谷歌回應DeepSeek-OCR2】如果圖片里的細節太小 , 比如微處理芯片上的序列號或者遠處模糊的路牌 , 模型往往只能靠「猜」 。
而Agentic Vision引入了一個「思考-行動-觀察」(Think-Act-Observe)的閉環:
模型不再是被動接收像素 , 而是會根據用戶的需求 , 主動編寫Python代碼來操縱圖像 。

這一能力直接讓Gemini 3 Flash在各類視覺基準測試中實現了5%到10%的性能跨越 。


Agentic Vision:智能體視覺新前沿
DeepMind探索的方法概括起來就是:利用代碼執行作為視覺推理的工具 , 將被動的視覺理解轉化為主動的智能體過程 。
什么意思呢?我們知道 , 目前的SOTA模型通常是一次性處理圖像 。
但Agentic Vision引入了一個循環:
1. 思考(Think):模型分析用戶查詢和初始圖像 , 制定多步計劃 。
2. 行動(Act):模型生成并執行Python代碼來主動操縱圖像(如裁剪、旋轉、標注)或分析圖像(如運行計算、計數邊界框等) 。
3. 觀察(Observe):變換后的圖像被追加到模型的上下文窗口中 。 這允許模型在生成最終響應之前 , 以更好的上下文檢查新數據 。


Agentic Vision實戰


通過在API中啟用代碼執行 , 開發者可以解鎖許多新行為 。
Google AI Studio中的演示應用已經展示了這一點 。
1. 縮放與檢查(Zooming and inspecting)
Gemini 3 Flash被訓練為在檢測到細粒度細節時進行隱式縮放 。
PlanCheckSolver.com是一個AI驅動的建筑計劃驗證平臺 , 通過啟用Gemini 3 Flash的代碼執行功能來迭代檢查高分辨率輸入 , 將準確率提高了5% 。
后臺日志視頻展示了這個智能體過程:Gemini 3 Flash生成Python代碼來裁剪和分析特定的補?。 ɡ縹荻ケ咴禱蚪ㄖ糠鄭┳魑巒枷?。
通過將這些裁剪圖追加回其上下文窗口 , 模型在視覺上確立其推理 , 以確認是否符合復雜的建筑規范 。

2. 圖像標注(Image annotation)
Agentic Vision允許模型通過標注圖像與環境交互 。
Gemini 3 Flash不僅僅是描述它看到的內容 , 還可以執行代碼直接在畫布上繪制以確立其推理 。
在下面的例子中 , 模型被要求數Gemini應用中一只手上的數字 。
為了避免計數錯誤 , 它使用Python在它識別的每個手指上繪制邊界框和數字標簽 。
這種「視覺草稿紙」確保其最終答案是基于像素級的完美理解 。

3. 視覺數學與繪圖(Visual math and plotting)
Agentic Vision可以解析高密度表格并執行Python代碼來可視化發現 。
標準LLM在多步視覺算術中經常產生幻覺 。
Gemini 3 Flash通過將計算放到到確定性的Python環境中來繞過這個問題 。
在Google AI Studio的演示應用示例中 , 模型識別原始數據 , 編寫代碼將之前的SOTA歸一化為1.0 , 并生成專業的Matplotlib條形圖 。 這用可驗證的執行取代了概率性猜測 。


如何上手


Agentic Vision今天已通過Google AI Studio和Vertex AI中的Gemini API提供 。
它也開始在Gemini應用中推出(通過從模型下拉菜單中選擇Thinking訪問) 。

以下是一個簡單的Python代碼示例 , 展示了如何調用這一能力:
from google import genaifrom google.genai import typesclient = genai.Client()image = types.Part.from_uri(file_uri=\"https://goo.gle/instrument-img\"mime_type=\"image/jpeg\")response = client.models.generate_content(model=\"gemini-3-flash-preview\"contents=[image \"Zoom into the expression pedals and tell me how many pedals are there?\"
config=types.GenerateContentConfig(tools=[types.Tool(code_execution=types.ToolCodeExecution)
))print(response.text)

未來展望
Google表示 , Agentic Vision才剛剛開始 。
目前 , Gemini 3 Flash擅長隱式決定何時放大微小細節 。 雖然其他功能(如旋轉圖像或執行視覺數學)目前需要顯式的提示引導來觸發 , 但Google正在努力在未來的更新中使這些行為完全隱式化 。
此外 , Google還在探索如何為Gemini模型通過更多工具(包括網絡和反向圖像搜索)來進一步確立其對世界的理解 , 并計劃將此功能擴展到Flash以外的其他模型尺寸 。

彩蛋:難道是因為DeepSeek?
這就很有意思了 。
DeepSeek前腳剛開源了堪稱「OCR 2.0」的DeepSeek-OCR , 谷歌后腳就發布了Gemini 3的Agentic Vision 。
這真的是巧合嗎?
我們不妨大膽猜測 , 谷歌這次的「深夜炸場」 , 極有可能是被DeepSeek逼出來的 。
理由有三:
1. 時間點的驚人巧合
1月27日 , DeepSeek剛剛發布了DeepSeek-OCR2 , 搭載核心黑科技DeepEncoder V2 。 它拋棄了傳統的機械掃描 , 讓AI學會了像人類一樣「按邏輯順序閱讀」 , 僅用幾百個Token就實現了對復雜排版和圖表的完美理解 。
谷歌同一天立馬拿出Agentic Vision , 仿佛在這場「視覺軍備競賽」中隔空喊話:「你們讓AI看懂邏輯 , 我們直接讓AI上手操作」 。
2. 技術路線的巔峰對決
DeepSeek-OCR2走的是「內功流」 , 通過DeepEncoder V2模擬人類的視覺注意力機制 , 動態重組圖像信息 , 把「看」這個動作做到了極致的輕量化和邏輯化 。
而谷歌的Agentic Vision走的是「外設流」 , 也就是「不光要看清 , 還要能動手」 。 DeepSeek在教AI怎么「用心看」 , 谷歌在教AI怎么「用手算」 。
3. 爭奪視覺AI定義的終局
DeepSeek-OCR2證明了即便是3B的小模型 , 只要「視覺邏輯」對路 , 也能吊打大模型 。 谷歌則試圖用「代碼執行」來降維打擊:你視覺再好也是「看」 , 我能寫代碼驗證才是「真懂」 。
這場仗 , 本質上是誰能重新定義「機器視覺」——是極致的感知 , 還是全能的交互?
不管是不是「應激反應」 , 這場神仙打架 , 最后爽的還是我們程序員 。

    推薦閱讀