谷歌Nano Banana 2又刷屏了：又快又便宜，設計師當場破防

2026-04-10 人工智能天河區小鵬汽車人形機器人

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心編輯部
一句話：Pro 級質量， Flash 級價格。
預告了許久的Nano Banana 2 ，終于來了。

谷歌CEO皮查伊發帖聲稱：「這是我們迄今為止最好的圖像模型。」

https://x.com/sundarpichai/status/2027057726170509724
目前該模型已經作為默認圖像模型在 Gemini App、Google Search（覆蓋 141 個國家）和 Flow 上線，同時在 Google AI Studio 和 Vertex AI 提供預覽，也可以在 Google 的 Antigravity 中使用。
這一次升級，核心不只是畫質再抬一檔，而是能力結構發生了明顯變化。
Nano Banana 2 融合了 Gemini 對世界的深度理解，同時利用實時網頁搜索獲取的信息和圖片，因此能夠以極高的保真度來反映真實世界的當前狀況。
皮查伊舉了個「Window Seat」（窗邊座位）的例子。隨便挑世界上任何一個地方的「窗戶視角」，模型就能實時生成那個窗戶往外看的景色，還會自動拉取當地實時天氣，同時支持 2K/4K 高清。
網友使用搜索功能，模型先通過網頁搜索理解鷦鷯到底長什么樣，再生成精美的桌面。

提示詞：使用圖片搜索查找鷦鷯的精準圖像。制作一張精美的壁紙（比例3:2），采用自然的上下漸變效果，并保持極簡構圖。來自X@fofrAI
文本能力，仍然是這一代重點補強的方向。
Nano Banana 2 被明確定位為可以在圖像中生成清晰、可讀、可直接商用的文字內容，無論是營銷物料還是賀卡設計，拿來即用。

來自X@ZHO_ZHO_ZHO
從社區反饋看，文字、排版穩定性，相比前代確實有明顯提升。

來自X@oran_ge（左圖）X@ZeroZ_JQ（右圖）

來自X@karminski3

拉納克普爾耆那教寺廟的柱子， x@tulseedoshi
模型也在更高復雜度場景下展示出一定統籌能力。
沃頓商學院教授@emollick提前體驗了 Nano Banana 2 。「它雖然還不完美，但卻是第一個能以較高的一致性處理極其復雜的圖像和圖表的模型。」
他給出的指令是：
「show me a where's waldo set in ancient Venice but instead of waldo it is an otter wearing a blue striped pilots outfit.」（給我展示一張以古代威尼斯為背景的《威利在哪里》（Where's Waldo）風格的圖片；但要把威利換成一只穿著藍色條紋飛行員制服的水獺。）

X@emollick
如此復雜多元的畫面生成，我仔細瞅了半天，還真找到了，而且，只有一個水?。〉比灰燦忻?，比如長尾巴的小男孩：

【谷歌Nano Banana 2又刷屏了：又快又便宜，設計師當場破防】速度，是這代最直觀的體感升級之一。

用戶反饋，生成 4K 圖像不到一分鐘。

關鍵還便宜！結合官方給出的價格，比 Pro 全面便宜：圖片便宜 25-50% ，文本 token 便宜 70-80% 。
一句話：Pro 級質量， Flash 級價格。

從社區實測來看， Nano Banana 2 的主體一致性表現，也是這一代的亮點之一。
我們簡單體驗了一下，確實做得不錯。

提示詞：保持所有角色和物體與之前（左圖）完全一致。重新布置場景，讓五個角色圍坐在一張圓桌旁，自然互動。九個物件必須全部保留，并且清晰可見。電影級光影，中景，照片級真實感。（右圖是結果）
谷歌表示，在單一工作流中可保持多達 5 個角色的一致性，以及多達 14 個對象的保真度。這讓你可以進行分鏡創作和敘事構建，而無需改變輸入對象的原型外觀。
換句話說，當角色一致性不再頻繁崩壞，分鏡、故事板、連續廣告乃至 IP 視覺資產的自動生成才真正具備可行性。
指令遵循能力同樣明顯收緊。 Nano Banana2 能很好理解如此復雜、包含多重指令的草圖輸入。難怪博主直呼「設計師們，我覺得我們完蛋了！」

@hewarsaber丟給它一張草圖，輸入提示詞：Turn this sketch into a landing page for an Al video platform.Purple and white.Clean and modern.Hero headline: 'AI Video That Speaks Your Script'.Show an Al avatar on the right. Add use case tags below the nav（將此草圖轉化為AI視頻平臺的落地頁。紫色和白色，簡潔現代，醒目的標題：「人工智能視頻，朗讀你的腳本」，在右側顯示人工智能頭像，在導航欄下方添加用例標簽。）
微妙的鏡頭語言控制，執行穩定性也有提升。

提供了3張參考圖片和一個簡單的提示：這里展示的是35mm、50mm和85mm焦距，光圈分別為f/1.2和f/2.0的情況。 x@LinusEkenstam

網友評價，第一個輕松理解如何使用廣角鏡頭拍攝特寫的圖像模型， x@aifilmmaker
在產品規格上，全面控制各種長寬比（包括1:8、 8:1 這種極端畫幅），專為橫幅、故事流和全景內容設計。
分辨率覆蓋 512px 到 4K 。加入低分辨率（512px）快速模式，更適合高頻迭代與大規模流水線。

雖不及 8:1 極端，很多網友在曬的這種全景圖，已經很驚艷。

還有網友讓它生成一個 720 度的 vr 素材圖，加入交互，就得到了一個全景網站。

X@ZeroZ_JQ
值得一提的是，在保持速度的同時，視覺保真度也有所升級。畫面充滿活力的光影、更豐富的紋理和更清晰的細節。
看看這張圖！睫毛根根分明，眼周皮膚、眼睛里的紅血絲都清晰真實，甚至能從眼睛里看到窗外的那只鳥。

https://x.com/chetaslua/status/2026961626549887069?s=20

皮膚細節清晰可見，毛孔，臉頰、鼻頭因冷空氣，自然泛紅。 X@charliejhills
網友還玩出了不少花樣。
博主@fofrAI引用了別人在圖書館隨手拍的一本童書《How to Hold Animals》，然后給模型下提示「Show the jellyfish page from this book」。
模型立刻生成了書里第 42 頁關于水母的內容，風格、排版、插畫質感，看起來就像直接從書里掃描出來的一樣。

https://x.com/fofrAI/status/2027076683010851284
模仿你的筆跡，寫一首詩。

X@Prathkum
居然還能生成 CAD 。
當然，翻車的例子也不少。比如，這個倒立就有問題；郭德綱于謙互換臉，也失敗了。

x@karminski3（左）X@ZHO_ZHO_ZHO（右邊）
生成準確的時鐘，似乎一直是個難題。

X@ZHO_ZHO_ZHO
據說， Google Ads 也已開始接入這一能力——這幾乎等同于公開宣告：圖像生成正在正式進入廣告生產基礎設施。
從更宏觀的產品策略來看，谷歌的意圖已經越來越清晰：不是單純把圖像模型做得更好看，而是把它們全面推入高頻生產基礎設施。
當 Pro 級能力開始系統性下沉到 Flash 檔位，圖像生成的使用頻率，很可能會迎來下一次臺階式躍升。
參考鏈接
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

推薦閱讀

上一篇：五角大樓，為什么和一個AI企業杠上了？

下一篇：vivo X300 Ultra影像配置曝光，帶來新款增距鏡