2B開源模型手機養蝦!谷歌Gemini 3技術下放:支持語音視頻多模態

2B開源模型手機養蝦!谷歌Gemini 3技術下放:支持語音視頻多模態

文章圖片

2B開源模型手機養蝦!谷歌Gemini 3技術下放:支持語音視頻多模態

文章圖片

2B開源模型手機養蝦!谷歌Gemini 3技術下放:支持語音視頻多模態

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
31B開源模型 , 甩開比他大幾十倍的模型 , 擠進競技場開源前三 。
谷歌剛剛放出的Gemma 4有點猛了 。

它贏過的是Qwen3.5-397B和DeepSeek v3.2-671B , 參數量都比它大了10-20倍 。
贏過它的是GLM-5(745B)和Kimi K2.5(1T) , 都是26年最新旗艦 。
31B做到這個份上 , 夠了 。

這次Gemma 4整個系列一共四個尺寸 , 基于Gemini 3同款技術打造 , 全系列支持多模態:
E2B、E4B、26B MoE、31B Dense 。
最小的2B版手機、樹莓派上都能跑 , 而且跑出來的成績 , 也不像是個小模型能干出來的事 。
手機不聯網 , 都能跑多模態龍蝦處理語音、視頻了 。

31B打敗20倍對手 , 26B 只激活3.8B參數四個模型 , 四個定位 , 但有一個共同點 , 效率優先 。
最大的31B Dense模型 , 作為密集模型 , 適合拿去做微調 。
26B MoE模型 , 推理時只激活3.8B , 它排在全球開源第6 , 更追求速度 , 用最少的激活量換取最快的推理 。
他它們的硬件門檻也不高 。
未量化的bfloat16權重 , 單張80GB的H100就能跑起來 。 量化后的版本 , 普通消費級GPU也能本地運行 。

根據谷歌官方博客 , Gemma 4家族重點強化了六大核心能力:
高級推理:支持多步規劃和深度邏輯 , 數學和指令遵循基準測試表現大幅提升
Agent工作流原生支持:內置函數調用、結構化JSON輸出、系統指令原生支持 , 能直接搭自主代理
代碼生成:支持高質量離線代碼生成 , 直接把工作站變成本地AI代碼助手
視覺和音頻處理:全系列可原生處理視頻和圖像 , 支持可變分辨率 , OCR、圖表理解都不在話下;小版本還支持原生音頻輸入
長上下文支持:端側版上下文窗口128K , 大參數版最高256K , 一次性就能讀完整段代碼倉庫
140+語言支持:原生在140多種語言上訓練 , 做全球化應用不用再單獨做本地化
手機離線跑多模態 , 樹莓派也能帶得動再重點說兩個專為端側設計的小模型 。
E2B和E4B里的“E”是Effective的意思 , 也是走的低激活率MoE路子 。
E2B實際上有遠多于2B的參數量 , 但推理時只激活其中2B的部分 。
它們的任務很明確 , 在手機和IoT設備上 , 原生處理音頻和視覺 。
意味著手機可以完全不聯網 , 直接用攝像頭看東西、用麥克風聽聲音 , 然后給你回復 。
零延遲 , 零云端依賴 。
谷歌這次還拉上了自家的Pixel手機 , 以及高通、聯發科一起做了全鏈路優化 , 從芯片到模型到設備 , 整條鏈路打通了 。
回頭看一眼Gemma系列進化路線就更清楚這次更新的價值 。
Gemma 1在2024年2月發布 , 2B和7B兩個尺寸 , 只能處理純文本 。
Gemma 2在同年6月跟上 , 2B、9B、27B , 依然是純文本 。
Gemma 3到2025年3月才開始支持多模態 , 但端側的1B版本能力有限 。
現在E2B和E4B直接把多模態塞進了端側小模型 , 能力邊界完全不一樣了 。
除了多模態 , 這兩個模型還支持完整的智能體工作流 。 函數調用、結構化JSON輸出、系統指令 。
手機可以變成一個完全本地的AI代碼助手 , 耗電養蝦 , token自由 。

Apache 2.0協議 , 社區的呼聲被聽見Gemma 4全面采用Apache 2.0協議 。
可以概括成三個字:隨便用 。
過去 , Google開源模型的許可證一直被詬病”不夠純粹” 。 Gemma一代和二代用的自定義許可協議 , 雖然也允許商用 , 但條款措辭讓法務提心吊膽 。
這次你可以拿它做商業產品 , 不需要給Google交一分錢 。 你可以把模型部署在任何環境 , 公有云、私有機房、邊緣設備 , 都行 。
在官方博客里 , Google DeepMind團隊寫到過去兩年 , 社區反復在GitHub issue、論壇、社交媒體上喊:
我們要 Apache 2.0 。
Google這次聽到了 。
Hugging Face的CEO也第一時間表態 , 他認為這并非一個簡單的許可證變更 , 而是開源AI社區的一個分水嶺 。
Gemma 4在Apache 2.0協議下發布 , 是一個巨大的里程碑 。 我們非常激動能在第一天就在Hugging Face上支持Gemma 4全系列模型 。

截至目前 , Gemma系列模型累計下載量超過 4 億次 。 社區貢獻的模型變體超過10萬個 。
One More Thing開源模型的價值 , 不只是讓開發者少花錢 。
耶魯大學的研究團隊已經用Gemma作為基座模型 , 開發了一個叫Cell2Sentence-Scale的項目 。
他們把單細胞基因表達數據轉化為語言模型的輸入序列 , 讓AI直接”閱讀”細胞狀態 。
結果在癌癥治療靶點發現上 , 找到了幾條此前被傳統方法忽略的新路徑 。

沒有Gemma , 這個項目可能要花幾百萬美元買API調用 。
但現在 , 一個幾十B參數的小模型 , 就推動了真正的科學發現 。
下一次你聽到“AI 改變了什么”這樣的故事 , 起點可能就是一個開源小模型 。
【2B開源模型手機養蝦!谷歌Gemini 3技術下放:支持語音視頻多模態】參考鏈接:[1
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/?utm_medium=socialutm_content=[2
https://x.com/victormustar/status/2039739591276581118?s=20[3
https://x.com/billtheinvestor/status/2039805141876871376?s=20

    推薦閱讀