谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片

谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防

文章圖片


機器之心編輯部
一句話:Pro 級質量 , Flash 級價格 。
預告了許久的Nano Banana 2 , 終于來了 。

谷歌CEO皮查伊發帖聲稱:「這是我們迄今為止最好的圖像模型 。 」

https://x.com/sundarpichai/status/2027057726170509724
目前該模型已經作為默認圖像模型在 Gemini App、Google Search(覆蓋 141 個國家)和 Flow 上線 , 同時在 Google AI Studio 和 Vertex AI 提供預覽 , 也可以在 Google 的 Antigravity 中使用 。
這一次升級 , 核心不只是畫質再抬一檔 , 而是能力結構發生了明顯變化 。
Nano Banana 2 融合了 Gemini 對世界的深度理解 , 同時利用實時網頁搜索獲取的信息和圖片 , 因此能夠以極高的保真度來反映真實世界的當前狀況 。
皮查伊舉了個「Window Seat」(窗邊座位)的例子 。 隨便挑世界上任何一個地方的「窗戶視角」 , 模型就能實時生成那個窗戶往外看的景色 , 還會自動拉取當地實時天氣 , 同時支持 2K/4K 高清 。
網友使用搜索功能 , 模型先通過網頁搜索理解鷦鷯到底長什么樣 , 再生成精美的桌面 。

提示詞:使用圖片搜索查找鷦鷯的精準圖像 。 制作一張精美的壁紙(比例3:2) , 采用自然的上下漸變效果 , 并保持極簡構圖 。 來自X@fofrAI
文本能力 , 仍然是這一代重點補強的方向 。
Nano Banana 2 被明確定位為可以在圖像中生成清晰、可讀、可直接商用的文字內容 , 無論是營銷物料還是賀卡設計 , 拿來即用 。

來自X@ZHO_ZHO_ZHO
從社區反饋看 , 文字、排版穩定性 , 相比前代確實有明顯提升 。

來自X@oran_ge(左圖)X@ZeroZ_JQ(右圖)

來自X@karminski3

拉納克普爾耆那教寺廟的柱子 , x@tulseedoshi
模型也在更高復雜度場景下展示出一定統籌能力 。
沃頓商學院教授@emollick提前體驗了 Nano Banana 2 。 「它雖然還不完美 , 但卻是第一個能以較高的一致性處理極其復雜的圖像和圖表的模型 。 」
他給出的指令是:
「show me a where's waldo set in ancient Venice but instead of waldo it is an otter wearing a blue striped pilots outfit.」(給我展示一張以古代威尼斯為背景的《威利在哪里》(Where's Waldo)風格的圖片;但要把威利換成一只穿著藍色條紋飛行員制服的水獺 。 )

X@emollick
如此復雜多元的畫面生成 , 我仔細瞅了半天 , 還真找到了 , 而且 , 只有一個水?。 〉比灰燦忻?, 比如長尾巴的小男孩:

【谷歌Nano Banana 2又刷屏了:又快又便宜,設計師當場破防】速度 , 是這代最直觀的體感升級之一 。

用戶反饋 , 生成 4K 圖像不到一分鐘 。

關鍵還便宜!結合官方給出的價格 , 比 Pro 全面便宜:圖片便宜 25-50% , 文本 token 便宜 70-80% 。
一句話:Pro 級質量 , Flash 級價格 。

從社區實測來看 , Nano Banana 2 的主體一致性表現 , 也是這一代的亮點之一 。
我們簡單體驗了一下 , 確實做得不錯 。

提示詞:保持所有角色和物體與之前(左圖)完全一致 。 重新布置場景 , 讓五個角色圍坐在一張圓桌旁 , 自然互動 。 九個物件必須全部保留 , 并且清晰可見 。 電影級光影 , 中景 , 照片級真實感 。 (右圖是結果)
谷歌表示 , 在單一工作流中可保持多達 5 個角色的一致性 , 以及多達 14 個對象的保真度 。 這讓你可以進行分鏡創作和敘事構建 , 而無需改變輸入對象的原型外觀 。
換句話說 , 當角色一致性不再頻繁崩壞 , 分鏡、故事板、連續廣告乃至 IP 視覺資產的自動生成才真正具備可行性 。
指令遵循能力同樣明顯收緊 。 Nano Banana2 能很好理解如此復雜、包含多重指令的草圖輸入 。 難怪博主直呼「設計師們 , 我覺得我們完蛋了!」

@hewarsaber丟給它一張草圖 , 輸入提示詞:Turn this sketch into a landing page for an Al video platform.Purple and white.Clean and modern.Hero headline: 'AI Video That Speaks Your Script'.Show an Al avatar on the right. Add use case tags below the nav(將此草圖轉化為AI視頻平臺的落地頁 。 紫色和白色 , 簡潔現代 , 醒目的標題:「人工智能視頻 , 朗讀你的腳本」 , 在右側顯示人工智能頭像 , 在導航欄下方添加用例標簽 。 )
微妙的鏡頭語言控制 , 執行穩定性也有提升 。

提供了3張參考圖片和一個簡單的提示:這里展示的是35mm、50mm和85mm焦距 , 光圈分別為f/1.2和f/2.0的情況 。 x@LinusEkenstam

網友評價 , 第一個輕松理解如何使用廣角鏡頭拍攝特寫的圖像模型 , x@aifilmmaker
在產品規格上 , 全面控制各種長寬比(包括1:8、 8:1 這種極端畫幅) , 專為橫幅、故事流和全景內容設計 。
分辨率覆蓋 512px 到 4K 。 加入低分辨率(512px)快速模式 , 更適合高頻迭代與大規模流水線 。

雖不及 8:1 極端 , 很多網友在曬的這種全景圖 , 已經很驚艷 。

還有網友讓它生成一個 720 度的 vr 素材圖 , 加入交互 , 就得到了一個全景網站 。

X@ZeroZ_JQ
值得一提的是 , 在保持速度的同時 , 視覺保真度也有所升級 。 畫面充滿活力的光影、更豐富的紋理和更清晰的細節 。
看看這張圖!睫毛根根分明 , 眼周皮膚、眼睛里的紅血絲都清晰真實 , 甚至能從眼睛里看到窗外的那只鳥 。

https://x.com/chetaslua/status/2026961626549887069?s=20

皮膚細節清晰可見 , 毛孔 , 臉頰、鼻頭因冷空氣 , 自然泛紅 。 X@charliejhills
網友還玩出了不少花樣 。
博主@fofrAI引用了別人在圖書館隨手拍的一本童書《How to Hold Animals》 , 然后給模型下提示「Show the jellyfish page from this book」 。
模型立刻生成了書里第 42 頁關于水母的內容 , 風格、排版、插畫質感 , 看起來就像直接從書里掃描出來的一樣 。

https://x.com/fofrAI/status/2027076683010851284
模仿你的筆跡 , 寫一首詩 。

X@Prathkum
居然還能生成 CAD 。
當然 , 翻車的例子也不少 。 比如 , 這個倒立就有問題;郭德綱于謙互換臉 , 也失敗了 。

x@karminski3(左)X@ZHO_ZHO_ZHO(右邊)
生成準確的時鐘 , 似乎一直是個難題 。

X@ZHO_ZHO_ZHO
據說 , Google Ads 也已開始接入這一能力——這幾乎等同于公開宣告:圖像生成正在正式進入廣告生產基礎設施 。
從更宏觀的產品策略來看 , 谷歌的意圖已經越來越清晰:不是單純把圖像模型做得更好看 , 而是把它們全面推入高頻生產基礎設施 。
當 Pro 級能力開始系統性下沉到 Flash 檔位 , 圖像生成的使用頻率 , 很可能會迎來下一次臺階式躍升 。
參考鏈接
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

    推薦閱讀