谷歌開源Gemma 4，干掉了13倍體量的Qwen3.5

2026-04-25 ai gpu Google

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯｜冷貓、澤南
本周四晚，谷歌開源了當前開源世界最強的模型家族 Gemma 4 系列。
基于和 Gemini 3 相同的研究成果，新模型在 Arena AI 排行榜上拿到了全球第三的位置，而且超越了參數量比它大 20 倍的模型。更重要的是，這一代 Gemma 使用 Apache 2.0 開源許可證，可實現完全的商用自由。

Gemma 4 是 Google DeepMind 構建的最新開放模型系列，它們是多模態模型，用于處理文本和圖片輸入（小型模型支持音頻輸入）以及生成文本輸出。此版本包含預訓練和指令調優的開放權重模型。 Gemma 4 的上下文窗口最多可容納 25.6 萬 token ，并支持 140 多種語言。
谷歌表示， Gemma 4 同時采用密集型架構和混合專家 (MoE) 架構，非常適合文本生成、編碼和推理等任務。這些模型有四種不同的規模：E2B、E4B、26B A4B 和 31B 。這些模型的大小各異，因此可部署在從高端手機到筆記本電腦和服務器的各種環境中，從而讓更多人能夠使用最先進的 AI 。
其中，體量最大的 31B 版本使用一塊 80GB H100 就能實現完整精度推理，可見其能力水平已經與 Qwen 3.5 397B 相當了。

體量最小的 E4B 和 E2B 專為手機、平板等端側設備本地推理設計，谷歌也與高通、聯發科進行了聯合優化。

總的來說， Gemma 4 引入的功能和架構改進包括：
推理 - 該系列中的所有模型都設計為高能力推理器，具有可配置的思考模式。擴展的多模態功能 - 處理文本、支持可變寬高比和分辨率的圖片（所有型號）、視頻和音頻（在 E2B 和 E4B 型號上原生支持）。多樣化且高效的架構 - 提供不同大小的密集型和混合專家 (MoE) 變體，以實現可伸縮的部署。針對設備端進行了優化 - 較小的模型專為在筆記本電腦和移動設備上高效本地執行而設計。更大的上下文窗口 - 小型模型的上下文窗口為 12.8 萬個 token ，中型模型的上下文窗口為 25.6 萬個 token 。增強的編碼和智能體功能 - 在編碼基準方面取得了顯著改進，同時支持原生函數調用，可打造功能強大的自主代理。原生系統提示支持 - Gemma 4 引入了對 system 角色的原生支持，從而實現更結構化和可控的對話。模型概覽
Gemma 4 模型旨在在各種規模下提供前沿性能，目標部署場景涵蓋移動設備和邊緣設備 (E2B、E4B) 到消費類 GPU 和工作站 (26B A4B、31B) 。它們非常適合推理、智能體工作流、編碼和多模態理解。
這些模型采用混合注意力機制，將局部滑動窗口注意力和全局注意力交織在一起，確保最后一層始終是全局的。這種混合設計可提供輕量級模型的處理速度和低內存占用空間，同時不會犧牲復雜長上下文任務所需的深度感知能力。為了優化長上下文的內存，全局層采用統一的鍵和值，并應用比例 RoPE (p-RoPE) 。

E2B 和 E4B 中的「E」表示「有效」形參。較小的模型采用 Per-Layer Embeddings (PLE) ，以最大限度提高設備端部署中的參數效率。 PLE 不會向模型添加更多層或參數，而是為每個詞法單元的每個解碼器層提供自己的小型嵌入。這些嵌入表很大，但僅用于快速查找，因此激活參數的數量遠小于總數。

26B A4B 中的「A」表示「有效參數」，與模型包含的參數總數相對。通過在推理期間僅激活 40 億個參數子集，混合專家模型運行速度比其 260 億個總參數所暗示的速度快得多。與密集型 310 億參數模型相比，該模型幾乎與 40 億參數模型一樣快，因此是快速推理的絕佳選擇。
谷歌展示了一些 Gemma 4 的模型能力，比如測試它檢測和指向 GUI 元素的能力：「圖像中查看配方元素的邊界框是什么？」

檢測日常物體：

如果要求 Gemma 4 編寫 HTML 代碼來重建用 Gemini 3 創建的頁面， Gemini 生成的網站是這樣的：

Gemma 4 重建的頁面：

參數大小和量化
Gemma 4 模型提供 4 種參數大?。篍2B、E4B、31B 和 26B A4B 。這些模型可以采用默認精度（16 位），也可以通過量化采用較低的精度。不同的尺寸和精度代表著 AI 應用的一系列權衡。參數和位數（精度）較高的模型通常功能更強大，但在處理周期、內存成本和功耗方面運行成本更高。參數和位數（精度）較低的模型功能較少，但可能足以滿足您的 AI 任務的需求。
Gemma 4 推理內存要求
下表詳細列出了使用各種大小的 Gemma 4 模型版本運行推理所需的大致 GPU 或 TPU 內存。

表 1. 加載 Gemma 4 模型所需的大致 GPU 或 TPU 內存，具體取決于參數數量和量化級別。
內存規劃的行動要點
高效架構（E2B 和 E4B）：「E」代表「有效」參數。較小的模型采用每層嵌入 (PLE) 技術，以最大限度地提高設備端部署中的參數效率。 PLE 不會向模型添加更多層，而是為每個詞法單元的每個解碼器層提供自己的小型嵌入。這些嵌入表很大，但僅用于快速查找，因此加載靜態權重所需的總內存高于有效參數數量所暗示的內存。 MoE 架構（26B A4B）： 26B 是混合專家模型。雖然在生成期間每個詞法單元僅激活 40 億個參數，但所有 260 億個參數都必須加載到內存中，以保持快速路由和推理速度。因此，其基準內存要求比 4B 模型更接近于密集型 26B 模型。僅基準權重：上表中的估算值僅考慮了加載靜態模型權重所需的內存。它們不包括支持軟件或上下文窗口所需的額外 VRAM 。上下文窗口（KV 緩存）：內存消耗將根據提示和生成的響應中的詞法單元總數動態增加。除了基準模型權重之外，更大的上下文窗口還需要顯著更多的 VRAM 。微調開銷：微調 Gemma 模型的內存要求遠高于標準推理。您的確切占用空間將很大程度上取決于開發框架、批次大小，以及您是使用全精度調優還是使用參數高效微調 (PEFT) 方法（例如低秩適應 (LoRA)）。基準測試結果
我們針對大量不同的數據集和指標對這些模型進行了評估，以涵蓋文本生成的各個方面。表格中標記的評估結果適用于指令調優模型。

核心功能
Gemma 4 模型可處理文本、視覺和音頻方面的各種任務。主要功能包括：
思考 - 內置推理模式，可讓模型在回答之前進行分步思考。長上下文 - 上下文窗口最多可容納 12.8 萬個 token (E2B/E4B) 和 25.6 萬個 token (26B A4B/31B) 。圖片理解 - 對象檢測、文檔 / PDF 解析、屏幕和界面理解、圖表理解、OCR（包括多語言）、手寫識別和視覺定位。可以處理具有不同寬高比和分辨率的圖片。視頻理解 - 通過處理幀序列來分析視頻。交織的多模態輸入 - 在單個提示中，可以按任意順序自由混合文本和圖片。函數調用 - 原生支持結構化工具使用，可實現智能體工作流。編碼 - 代碼生成、補全和更正。多語言 - 開箱即用，支持 35 種以上的語言，預訓練了 140 種以上的語言。音頻（僅限 E2B 和 E4B）- 自動語音識別 (ASR) 和語音轉譯文翻譯（支持多種語言）。訓練數據集
谷歌使用的預訓練數據集是一個大規模、多樣化的數據集合，涵蓋廣泛的領域和模態，包括網頁文檔、代碼、圖片、音頻，截止日期為 2025 年 1 月。以下是關鍵組成部分：
網頁文檔：各種各樣的網頁文本可確保模型接觸到廣泛的語言風格、主題和詞匯。訓練數據集包含 140 多種語言的內容。代碼：讓模型接觸代碼有助于其學習編程語言的語法和模式，從而提高其生成代碼和理解代碼相關問題的能力。數學：通過數學文本訓練，模型可以學習邏輯推理、符號表示，并能夠回答數學問題。圖片：各種各樣的圖片可讓模型執行圖片分析和視覺數據提取任務。這些多樣化數據源的組合對于訓練強大的模型至關重要，該模型能夠處理各種不同的任務和數據格式。
數據預處理
以下是應用于訓練數據的主要數據清理和過濾方法：
CSAM 過濾：在數據準備流程的多個階段應用了嚴格的 CSAM（兒童性虐待內容）過濾，以確保排除有害和非法內容。敏感數據過濾：為了確保 Gemma 預訓練模型的安全性和可靠性，谷歌使用了自動化技術來過濾掉訓練集中的某些個人信息和其他敏感數據。其他方法：根據內容質量和安全性進行過濾。參考內容：
【谷歌開源Gemma 4，干掉了13倍體量的Qwen3.5】https://deepmind.google/models/gemma/gemma-4/
https://x.com/Google/status/2039736220834480233
https://huggingface.co/blog/gemma4

推薦閱讀

上一篇：2025年中國AI芯片市場：華為20%、海光2%

下一篇：長江存儲總產能將超SK海力士！直沖全球第三