T5Gemma模型再更新，谷歌還在堅持編碼器-解碼器架構

2026-01-16 廣東省人工智能算法 ai 獨角獸

文章圖片

文章圖片

文章圖片

文章圖片

編輯｜冷貓
最近，或許是年底了，谷歌的發布變得有些密集。比如昨天，谷歌發布了在智能 / 成本上全球性價比最高的模型 Gemini 3 Flash 。

在 Gemini 3 Flash 發布后，大家都以為谷歌今年的模型發布已經收官的時候，谷歌卻又掏出了一個讓大家都意想不到的模型更新：T5Gemma 2 。
T5Gemma 系列模型似乎沒能給大眾留下什么深刻印象。今年 7 月，谷歌第一次發布了 T5Gemma 模型系列，并且一口氣發布了 32 個模型。
從模型名稱可以看出， T5Gemma 系列模型與 T5 息息相關。 T5（Text-to-Text Transfer Transformer）是 Google 在 2019 年提出的一種編碼器 - 解碼器（Encoder–Decoder）大模型框架，「編解碼器大模型」的思想源頭，幾乎都能追溯到 T5 。
T5Gemma 使用了「適應（adaptation）」技術將已經完成預訓練的僅解碼器模型轉換為編碼器 - 解碼器架構。
但遺憾的是，「編碼器 - 解碼器架構」始終沒有成為大模型世界的主流，在「僅解碼器」大語言模型快速迭代的大背景下難逃逐漸被邊緣化的命運。
谷歌是為數不多仍在堅持編碼器 - 解碼器架構大模型的玩家。
今年上半年，谷歌發布了開放模型 Gemma 3 系列，性能強大，反響熱烈，衍生出許多基于 Gemma 3 系列模型的優秀工作。這次更新的 T5Gemma 2 模型正是其中之一。

簡而言之：T5Gemma 2，是谷歌新一代編碼器 - 解碼器模型，是首個多模態和長上下文的編碼器 - 解碼器模型，建立在 Gemma 3 的強大功能之上。
主要創新和升級功能包括：
支持多模態擴展長上下文開箱即用，支持 140 多種語言效率提升的架構創新同時，谷歌向社區發布了 270M–270M、1B–1B 以及 4B–4B 三種規模的預訓練模型，是社區中首個支持超長上下文（最高 128K）的高性能編解碼器大語言模型。

論文鏈接: https://arxiv.org/abs/2512.14856 HuggingFace 鏈接: https://huggingface.co/collections/google/t5gemma-2 博客鏈接: https://blog.google/technology/developers/t5gemma-2T5Gemma 2 延續了 T5Gemma 的「適應（adaptation）」訓練路線：將一個預訓練的純解碼器模型適配為編解碼器模型；同時，底座采用 Gemma 3 模型，通過結合 Gemma 3 中的關鍵創新，將這一技術擴展到了視覺 - 語言模型領域。
新架構，新能力
高效的架構創新
T5Gemma 2 不僅僅是一次再訓練。它在繼承 Gemma 3 系列許多強大特性的同時，還進行了重要的架構變更：
1. 詞嵌入綁定
在編碼器與解碼器之間共享詞嵌入參數。這一設計顯著降低了模型的總體參數量，使我們能夠在相同的顯存 / 內存占用下容納更多有效能力 —— 這對全新的 270M–270M 緊湊模型尤為關鍵。
2. 合并注意力
在解碼器中，我們采用了合并注意力機制，將自注意力（self-attention）與交叉注意力（cross-attention）融合為單一、統一的注意力層。這一做法減少了模型參數和架構復雜度，提升了模型并行化效率，同時也有利于推理性能的提升。
新一代模型能力
得益于 Gemma 3 的能力， T5Gemma 2 在模型能力上實現了顯著升級：
1. 多模態能力
T5Gemma 2 模型能夠同時理解和處理圖像與文本。通過引入一個高效的視覺編碼器，模型可以自然地完成視覺問答和多模態推理等任務。
2. 超長上下文
我們對上下文窗口進行了大幅擴展。借助 Gemma 3 的局部 — 全局交替注意力機制（alternating local and global attention）， T5Gemma 2 能夠支持最長達 128K token 的上下文輸入。
3. 大規模多語言支持
通過在規模更大、更加多樣化的數據集上進行訓練， T5Gemma 2 開箱即用即可支持 140 多種語言。
性能結果
T5Gemma 2 為緊湊型編碼器 - 解碼器模型設定了新的標準，在關鍵能力領域表現出色，繼承了 Gemma 3 架構強大的多模態和長上下文特性。

Gemma 3、T5Gemma 和 T5Gemma 2 在五個獨特能力上的預訓練性能。
如上圖所示， T5Gemma 2 展現出以下突出優勢：
強大的多模態性能：在多個基準測試中超越 Gemma 3 。原本僅支持文本的 Gemma 3 基礎模型（270M 與 1B）成功適配為高效的多模態編解碼器模型。卓越的長上下文能力：相較于 Gemma 3 和 T5Gemma ，在生成質量上取得了顯著提升。通過引入獨立的編碼器， T5Gemma 2 在處理長上下文問題時表現更佳。全面提升的通用能力：在代碼、推理和多語言等任務上， T5Gemma 2 整體上均優于其對應規模的 Gemma 3 模型。
訓練后性能。這里的結果僅用于說明，研究團隊對 T5Gemma 2 進行了最小的 SFT ，未使用 RL 。另外請注意，預訓練和訓練后基準是不同的，因此不同圖表中的分數不可比較。

Gemma 3、T5Gemma 與 T5Gemma 2 的詳細預訓練結果。需要注意的是， Gemma 3 的 270M 與 1B 模型，以及 T5Gemma 的 2B–2B 和 9B–9B 模型均為純文本模型。帶有 “?” 標記的結果為近似值，無法在不同論文之間直接比較。

Gemma 3、T5Gemma 與 T5Gemma 2 的詳細后訓練結果。盡管 T5Gemma 2 的后訓練過程相對輕量化，但其在大多數能力維度上仍然優于 Gemma 3 。
實驗結果表明，該適配策略在不同模型架構與不同模態上都具有良好的通用性，同時也驗證了編解碼器架構在長上下文建模方面的獨特優勢。與 T5Gemma 類似， T5Gemma 2 在預訓練階段的性能可達到或超過其 Gemma 3 對應模型，而在后訓練階段則取得了顯著更優的表現。
我們能看到，編碼器 - 解碼器架構下的大模型并不弱于僅解碼器架構的模型，甚至具備自己獨特的優勢。
【T5Gemma模型再更新，谷歌還在堅持編碼器-解碼器架構】谷歌繼續堅持的編碼器 - 解碼器架構，能否打破被邊緣化的現狀，讓我們拭目以待。

推薦閱讀

上一篇：NVIDIA 72GB顯存專業顯卡正式上市！性能提升3.5倍

下一篇：破局商用PC“存量博弈”，鴻蒙電腦企業版重塑商用辦公生產力