國產Nano Banana開源！用華為AI芯片訓練，1張圖只要1毛錢

2026-05-09 新能源產業新能源武漢

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者 | 李水青
編輯 | 心緣
智東西1月14日報道，今天，首個在國產芯片上完成全程訓練的SOTA（最佳水平）多模態模型開源。
這是智譜聯合華為開源的圖像生成模型GLM-Image 。從數據到訓練的全流程，該模型完全基于昇騰Atlas 800T A2設備和昇思MindSpore AI框架完成構建。
截至今日午間休市，智譜股價上漲16.83% 。
在聚焦文字渲染的CVTG-2K、LongText-Bench榜單上， GLM-Image的得分超越了以谷歌Nano Banana Pro為代表的認知型生成模型。
GLM-Image在文字渲染的CVTG-2K、LongText-Bench榜單中達到開源SOTA水平
GLM-Image實現了圖像生成與語言模型的聯合，核心亮點如下：
1、架構革新，面向「認知型生成」的技術探索：采用創新的「自回歸 + 擴散編碼器」混合架構，兼顧全局指令理解與局部細節刻畫，克服了海報、PPT、科普圖等知識密集型場景生成難題。
2、首個在國產芯片完成全程訓練的SOTA模型：模型自回歸結構基座基于昇騰Atlas 800T A2設備與昇思MindSpore AI框架，驗證了在國產全棧算力底座上訓練前沿模型的可行性。
3、文字渲染開源SOTA：在CVTG-2K（復雜視覺文本生成）和LongText-Bench（長文本渲染）榜單獲得開源第一，尤其擅長漢字生成任務。
4、高性價比與速度優化：API調用模式下，生成一張圖片僅需0.1元，速度優化版本即將更新。
智東西第一時間對GLM-Image進行了體驗，發現模型在漢字生成上準確度很高，優于谷歌Nano Banana Pro以及多款頭部國內模型；能夠較準確理解深層語義和知識概念，并將其轉化為正確的視覺元素；能夠在保證全局構圖的同時較精準刻畫局部細節。
同時， GLM-Image也存在字體風格呈現不準、生成需要等待時間、一些科學概念理解不足等問題；且相比于一些免費選擇，其仍需要收取少量費用。
體驗地址：
https://bigmodel.cn/trialcenter/modeltrial/image
GitHub地址：
https://github.com/zai-org/GLM-Image
技術報告地址：
https://z.ai/blog/glm-image
GLM-Image體驗界面

一、從數據到訓練，首個國產芯片訓練出的SOTA模型GLM-Image自回歸結構基座從早期的數據預處理，到最終的大規模預訓練，全流程均在昇騰Atlas 800T A2設備上完成。
依托昇騰NPU和昇思MindSpore AI框架，使用動態圖多級流水下發、高性能融合算子、多流并行等特性，智譜自研了模型訓練套件，全面優化數據預處理、預訓練、SFT和RL的端到端流程。
具體來說，通過動態圖的多級流水優化機制，團隊將Host側算子下發的關鍵階段流水化并高度重疊，消除下發瓶頸；通過多流并行策略，通信和計算互掩，團隊打破文本梯度同步、圖像特征廣播等操作的通信墻，極致優化性能；使用AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子，團隊同步提升訓練的穩定性和性能。
作為首個在國產芯片上完成全流程訓練的SOTA多模態模型， GLM-Image驗證了在國產全棧算力底座上訓練高性能多模態生成模型的可行性。

二、文字渲染達開源SOTA ，實測漢字生成超Nano Banana ProGLM-Image在文字渲染的權威榜單中達到開源SOTA水平。
CVTG-2K（復雜視覺文字生成）榜單核心考察模型在圖像中同時生成多處文字的準確性。在多區域文字生成準確率上， GLM-Image憑借0.9116的Word Accuracy（文字準確率）成績，位列開源模型第一。在NED（歸一化編輯距離）指標上， GLM-Image同樣以0.9557領先，表明其生成的文字與目標文字高度一致，錯字、漏字情況更少。
LongText-Bench（長文本渲染）榜單考察模型渲染長文本、多行文字的準確性，覆蓋招牌、海報、PPT、對話框等8種文字密集場景，并分設中英雙語測試， GLM-Image以英文0.952、中文0.979的成績位列開源模型第一。
智東西對GLM-Image的實測體驗側重文字渲染能力，對比谷歌Nano Banana Pro、豆包、阿里通義萬相2.6幾款常見同類模型， GLM-Image在文字渲染準確度和細節刻畫上表現較好，但也存在字體風格不準確、科學概念理解不足等問題，不過后面這幾個問題Nano Banana Pro也難幸免。
提示詞1：
設計一個“新中式奶茶店”的商標（Logo）和店鋪外觀概念圖。
Logo部分：需要包含“茶悅”二字，設計要融合傳統書法韻味和現代簡約風格。
店鋪外觀：是一個現代玻璃櫥窗小店，但門頭、招牌或裝飾中要巧妙運用竹元素或山水紋樣。
整體感覺：干凈、雅致、有文化氣息，同時吸引年輕人。
生成建議：“茶悅”二字可以嘗試用細筆觸的行書，搭配一個抽象的茶杯或茶葉形狀。店鋪外觀可以是淺木色和留白為主，用竹格柵做裝飾，玻璃上若有若無地映出山水畫痕跡。
如下圖所示， GLM-Image在漢字生成上比較準確，但未采用“行書”；對文字描述的設計細節呈現準確，抽象的茶杯設計較傳神；對中國文化元素（書法、竹、山水）的理解和現代轉譯能力較強；室內陳設格局清晰，符合商業設計場景要求。
GLM-Image生成的圖片
谷歌Nano Banana Pro沒有能夠準確生成漢字，但對于畫面的呈現也比較準確，室內的陳設清晰且細節豐富，實拍感較強。
Nano Banana Pro生成的圖片
豆包沒有準確生成“茶悅”二字，沒有按要求生成“一個抽象的茶杯或茶葉形狀” ，但在門頭、招牌或裝飾中要巧妙運用了竹元素或山水紋樣，設計比較獨特。
豆包生成的圖片
阿里通義萬相2.6準確生成了“茶悅”二字，也按要求生成了一個抽象的茶杯或茶葉形狀，但字體同樣沒有采用“行書” ，店面的內部構造生成細節相對不多。
阿里通義萬相2.6生成的圖片
提示詞2：
畫一張給小學生看的“光合作用示意圖” 。圖中需要包含一棵有笑臉的植物、一個大太陽、代表二氧化碳（CO?）的箭頭從空氣指向葉子、代表氧氣（O?）的箭頭從葉子中冒出。在圖片下方，用清晰易懂的字體標注解釋：“植物利用陽光、水和二氧化碳，制造出氧氣和養分” 。整體風格需生動可愛，兼具科學性和趣味性。
如下圖所示， GLM-Image保證了全局構圖風格可愛、場景完整，對“光合作用”這一科學概念有一定的理解能力，但氧氣的箭頭打反了，釋放氧氣應該是箭頭向外。
GLM-Image生成的圖片
不過， Nano Banana Pro也沒有做對這道題，氧氣的箭頭也畫反了，且漢字生成上一塌糊涂，全都亂碼了。
Nano Banana Pro生成的圖片
豆包在這道題上完成度較高，不僅準確生成了漢字，還理解了光合作用概念，將抽象概念轉卻轉化為了具象的視覺符號。
豆包生成的圖片
阿里通義萬相2.6也能夠準確生成文字，并且用視覺符號呈現了“光合作用”吸收二氧化碳、釋放氧氣的過程，但仍有一個二氧化碳的箭頭向外打，可能將“呼吸作用”也考慮進來了；比其他模型多表現了根系吸收水分這一部分原理。
阿里通義萬相2.6生成的圖片

三、自回歸 + 擴散編碼器架構創新：讀懂指令，寫對文字當下，以Nano Banana Pro為代表的閉源圖像生成模型，正在推動圖像生成與大語言模型的深度融合。模型在海報、PPT、科普圖等知識密集型場景及高保真細節上的表現，展現了認知型生成模型的技術優勢。
GLM-Image是首個開源的工業表現級離散自回歸圖像生成模型，是智譜面向認知型生成技術范式的一次重要探索。
創新架構，讓模型能夠讀懂寫對。面對傳統模型在“理解復雜指令”與“精準繪制文字”上難以兼顧的問題， GLM-Image 引入了「自回歸+擴散解碼器」混合架構，創新地融合了9B大小的自回歸模型與7B大小的DiT擴散解碼器。
前者利用其語言模型的底座優勢，專注于提升對指令的語義理解和畫面的全局構圖；后者配合Glyph Encoder的文本編碼器，專注于還原圖像的高頻細節和文字筆畫，以此改善模型“提筆忘字”的現象。
GLM-Image還具備多分辨率自適應能力。通過改進Tokenizer策略， GLM-Image能夠自適應處理多種分辨率，原生支持從1024×1024到2048×2048尺寸的任意比例圖像的生成任務，無需重新訓練。
通用pipeline
解碼器結構示意圖

結語：純血國產大模型進擊，從“可用”到“好用”GLM-Image的誕生，標志著國產大模型探索進入了從“可用”到“好用”的關鍵階段。它以“自回歸+擴散”的混合架構破解了“圖文協同”的生成難題，同時憑借在國產昇騰算力上完成全流程訓練的實踐，證明了自主技術棧支撐前沿AI創新的可行性。
【國產Nano Banana開源！用華為AI芯片訓練，1張圖只要1毛錢】作為一款在文字渲染任務上達到開源SOTA的模型，它為海報設計、知識科普等需要精準圖文融合的場景提供了高性價比的新選擇，同時有望為整個AI產業生態的自主化與多元化打基礎。

推薦閱讀

上一篇：告別文字彩邊：2026年OLED子像素排列的“標準回歸”之路

下一篇：不用額外緩存！英偉達開源記憶壓縮方案，128K上下文提速2.7倍