T5Gemma模型再更新,谷歌還在堅持編碼器-解碼器架構

T5Gemma模型再更新,谷歌還在堅持編碼器-解碼器架構

文章圖片

T5Gemma模型再更新,谷歌還在堅持編碼器-解碼器架構

文章圖片

T5Gemma模型再更新,谷歌還在堅持編碼器-解碼器架構

文章圖片

T5Gemma模型再更新,谷歌還在堅持編碼器-解碼器架構

文章圖片



編輯|冷貓
最近 , 或許是年底了 , 谷歌的發布變得有些密集 。 比如昨天 , 谷歌發布了在智能 / 成本上全球性價比最高的模型 Gemini 3 Flash 。

在 Gemini 3 Flash 發布后 , 大家都以為谷歌今年的模型發布已經收官的時候 , 谷歌卻又掏出了一個讓大家都意想不到的模型更新:T5Gemma 2 。
T5Gemma 系列模型似乎沒能給大眾留下什么深刻印象 。 今年 7 月 , 谷歌第一次發布了 T5Gemma 模型系列 , 并且一口氣發布了 32 個模型 。
從模型名稱可以看出 , T5Gemma 系列模型與 T5 息息相關 。 T5(Text-to-Text Transfer Transformer) 是 Google 在 2019 年提出的一種編碼器 - 解碼器(Encoder–Decoder)大模型框架 , 「編解碼器大模型」的思想源頭 , 幾乎都能追溯到 T5 。
T5Gemma 使用了「適應(adaptation)」技術將已經完成預訓練的僅解碼器模型轉換為編碼器 - 解碼器架構 。
但遺憾的是 , 「編碼器 - 解碼器架構」始終沒有成為大模型世界的主流 , 在「僅解碼器」大語言模型快速迭代的大背景下難逃逐漸被邊緣化的命運 。
谷歌是為數不多仍在堅持編碼器 - 解碼器架構大模型的玩家 。
今年上半年 , 谷歌發布了開放模型 Gemma 3 系列 , 性能強大 , 反響熱烈 , 衍生出許多基于 Gemma 3 系列模型的優秀工作 。 這次更新的 T5Gemma 2 模型正是其中之一 。

簡而言之:T5Gemma 2, 是谷歌新一代編碼器 - 解碼器模型 , 是首個多模態和長上下文的編碼器 - 解碼器模型 , 建立在 Gemma 3 的強大功能之上 。
主要創新和升級功能包括:
支持多模態 擴展長上下文 開箱即用 , 支持 140 多種語言 效率提升的架構創新同時 , 谷歌向社區發布了 270M–270M、1B–1B 以及 4B–4B 三種規模的預訓練模型 , 是社區中首個支持超長上下文(最高 128K)的高性能編解碼器大語言模型 。

論文鏈接: https://arxiv.org/abs/2512.14856 HuggingFace 鏈接: https://huggingface.co/collections/google/t5gemma-2 博客鏈接: https://blog.google/technology/developers/t5gemma-2T5Gemma 2 延續了 T5Gemma 的「適應(adaptation)」訓練路線:將一個預訓練的純解碼器模型適配為編解碼器模型;同時 , 底座采用 Gemma 3 模型 , 通過結合 Gemma 3 中的關鍵創新 , 將這一技術擴展到了視覺 - 語言模型領域 。
新架構 , 新能力
高效的架構創新
T5Gemma 2 不僅僅是一次再訓練 。 它在繼承 Gemma 3 系列許多強大特性的同時 , 還進行了重要的架構變更:
1. 詞嵌入綁定
在編碼器與解碼器之間 共享詞嵌入參數 。 這一設計顯著降低了模型的總體參數量 , 使我們能夠在相同的顯存 / 內存占用下容納更多有效能力 —— 這對全新的 270M–270M 緊湊模型尤為關鍵 。
2. 合并注意力
在解碼器中 , 我們采用了合并注意力機制 , 將自注意力(self-attention)與交叉注意力(cross-attention)融合為單一、統一的注意力層 。 這一做法減少了模型參數和架構復雜度 , 提升了模型并行化效率 , 同時也有利于推理性能的提升 。
新一代模型能力
得益于 Gemma 3 的能力 , T5Gemma 2 在模型能力上實現了顯著升級:
1. 多模態能力
T5Gemma 2 模型能夠同時理解和處理圖像與文本 。 通過引入一個高效的視覺編碼器 , 模型可以自然地完成視覺問答和多模態推理等任務 。
2. 超長上下文
我們對上下文窗口進行了大幅擴展 。 借助 Gemma 3 的局部 — 全局交替注意力機制(alternating local and global attention) , T5Gemma 2 能夠支持最長達 128K token 的上下文輸入 。
3. 大規模多語言支持
通過在規模更大、更加多樣化的數據集上進行訓練 , T5Gemma 2 開箱即用即可支持 140 多種語言 。
性能結果
T5Gemma 2 為緊湊型編碼器 - 解碼器模型設定了新的標準 , 在關鍵能力領域表現出色 , 繼承了 Gemma 3 架構強大的多模態和長上下文特性 。

Gemma 3、T5Gemma 和 T5Gemma 2 在五個獨特能力上的預訓練性能 。
如上圖所示 , T5Gemma 2 展現出以下突出優勢:
強大的多模態性能:在多個基準測試中超越 Gemma 3 。 原本僅支持文本的 Gemma 3 基礎模型(270M 與 1B) 成功適配為 高效的多模態編解碼器模型 。 卓越的長上下文能力:相較于 Gemma 3 和 T5Gemma , 在生成質量上取得了顯著提升 。 通過引入獨立的編碼器 , T5Gemma 2 在處理長上下文問題時表現更佳 。 全面提升的通用能力:在 代碼、推理和多語言 等任務上 , T5Gemma 2 整體上均優于其對應規模的 Gemma 3 模型 。
訓練后性能 。 這里的結果僅用于說明 , 研究團隊對 T5Gemma 2 進行了最小的 SFT , 未使用 RL 。 另外請注意 , 預訓練和訓練后基準是不同的 , 因此不同圖表中的分數不可比較 。

Gemma 3、T5Gemma 與 T5Gemma 2 的詳細預訓練結果 。 需要注意的是 , Gemma 3 的 270M 與 1B 模型 , 以及 T5Gemma 的 2B–2B 和 9B–9B 模型均為純文本模型 。 帶有 “?” 標記的結果為近似值 , 無法在不同論文之間直接比較 。

Gemma 3、T5Gemma 與 T5Gemma 2 的詳細后訓練結果 。 盡管 T5Gemma 2 的后訓練過程相對輕量化 , 但其在大多數能力維度上仍然優于 Gemma 3 。
實驗結果表明 , 該適配策略在不同模型架構與不同模態上都具有良好的通用性 , 同時也驗證了編解碼器架構在長上下文建模方面的獨特優勢 。 與 T5Gemma 類似 , T5Gemma 2 在預訓練階段的性能可達到或超過其 Gemma 3 對應模型 , 而在后訓練階段則取得了顯著更優的表現 。
我們能看到 , 編碼器 - 解碼器架構下的大模型并不弱于僅解碼器架構的模型 , 甚至具備自己獨特的優勢 。
【T5Gemma模型再更新,谷歌還在堅持編碼器-解碼器架構】谷歌繼續堅持的編碼器 - 解碼器架構 , 能否打破被邊緣化的現狀 , 讓我們拭目以待 。

    推薦閱讀