DeepSeek論文發表16天后,國內團隊已經寫出了模型的「生物字典」

DeepSeek論文發表16天后,國內團隊已經寫出了模型的「生物字典」

文章圖片

DeepSeek論文發表16天后,國內團隊已經寫出了模型的「生物字典」

文章圖片

DeepSeek論文發表16天后,國內團隊已經寫出了模型的「生物字典」

機器之心編輯部
今年 1 月 , DeepSeek 發布了一項名為 Engram(條件記憶)的技術 , 在大模型圈子里掀起不小波瀾 。
它的核心思想很簡單:別讓模型死記硬背常識 , 直接給它一個「外掛記憶庫」 。
具體做法是:把常見的 N-gram , 比如「人工智能」、「光合作用」 , 預先存進一個哈希表 , 模型需要時查表即可 , 省下大量算力專注推理 。
這個思路 , 能不能用在其他領域的模型訓推上?答案是:能 , 且效果驚人 。
就在 Engram 論文(《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》)發布僅 16 天后 , 同樣 base 在杭州的一支研發團隊 , 推出 Gengram(Genomic Engram)模塊 , 把「外掛字典」搬進了基因組世界 。

代碼鏈接: https://github.com/zhejianglab/Gengram 模型鏈接: https://huggingface.co/ZhejiangLab/Gengram 論文鏈接: https://github.com/zhejianglab/Gengram/tree/main/paper傳統方法的困境:為每個堿基「重復造輪子」
當前 , 主流的基因組基礎模型(Genomic Foundation Models GFMs) , 如 Deepmind 的 AlphaGenome 等 , 普遍采用一種叫「單堿基分詞」的策略 , 也就是把 DNA 序列拆成一個個單獨的字母(A/T/C/G)來處理 。
這聽起來非常符合生物學邏輯 , 并且操作精度更高 , 然而代價也是巨大的 。
首先是效率低下 。 要識別一個關鍵功能片段(比如啟動子或剪接位點) , 模型得靠多層注意力機制 , 從零開始「拼湊」出像「TATAAAA」這樣的經典堿基組合(Motif) 。
其次是容易迷失 。 在動輒幾萬甚至幾十萬堿基的長序列中 , 模型常?!钢灰姌淠?, 不見森林」 , 何況人類的基因組是一串長達 30 億字符的連續序列 。
用更容易理解的方式來打個比方:人類學習「魑魅魍魎」時 , 一眼就能理解這是個成語 。 但傳統的基因組模型卻得先分析每個「鬼」字究竟是什么鬼…… 既要區分又要預測 , 最終結果就是既費力 , 又不準 。
Gengram 是怎么工作的?
Gengram 的核心邏輯承襲自 Engram:將「靜態的 Motif 識別」與「動態的上下文推理」進行解耦處理 。
Gengram 預先構建了一個可微分的哈希表 , 存儲所有長度為 1 到 6 的 DNA 片段(稱為 k-mer , 如「ATG」、「CGTA」)對應的語義向量 。 這些 k-mer 很多就是已知的生物學功能單元(比如轉錄因子結合位點) , 相當于給 AI 配了一本《基因組學實用短語手冊》 。
與其他領域相比 , DNA 只有 4 個字母(A/T/C/G)及少量未知堿基(N)構成 , 整個字符集極小 。 Gengram 無需承擔復雜的 Tokenizer 壓縮負擔 , 查表速度極快 , 幾乎不增加計算開銷 。
事實上 , 由于功能重要性不同 , 并非所有 Motif 都需要這本「字典」的加持 。 為此 , Gengram 引入了動態門控機制 。
模型可以結合上下文語境自主決定何時「查字典」:在遇到外顯子、啟動子等關鍵 Motif 區域時激活檢索功能;在通過非編碼背景區域時關閉檢索 , 依賴推理 , 優化資源 。
經團隊測試 , 這個門控目前已經掌握了「什么時候該查詢參考資料 , 什么時候該獨立思考」的判斷能力 。
小模塊 , 大提升
事實上 , Gengram 只是一個僅約 2000 萬參數的輕量化插件 , 對于百億級規模的模型來說微不足道 , 但它帶來的性能提升卻令人振奮 。
在 8k 和 32k 兩個上下文版本中 , 同等訓練設定下 , 應用了 Gengram 的模型幾乎在所有任務里領先未應用的版本 。
其中 , 剪接位點預測 AUC 提升了 16.1%(從 0.776 到 0.901) , 表觀遺傳預測任務(H3K36me3) AUC 提升了 22.6% (從 0.656 到 0.804) 。
這種跨越式的性能飛躍 , 賦予了模型驚人的數據杠桿效應 。
【DeepSeek論文發表16天后,國內團隊已經寫出了模型的「生物字典」】在與多款主流 DNA 基礎模型的橫向測評中 , 集成 Gengram 的模型僅需極小規模的訓練數據 , 和較小的激活參數量 , 便能在核心任務上媲美乃至超越訓練數據規模領先其數十倍的公開模型 , 大幅提升了模型訓練的數據能效比 。
同時 , Gengram 展現出了卓越的通用適配能力 , 能夠跨越 Dense(稠密) 與 MoE(混合專家) 等不同模型架構實現無縫部署 。
無論采用何種注意力機制變體 , Gengram 均能在有效降低訓練損失的同時 , 顯著加速模型收斂 。 特別是針對 MoE 架構中專家負載失衡這一頑疾 , Gengram 通過吸收局部高頻噪聲 , 顯著改善了專家負載均衡 , 實現了模型性能與架構效率的協同跨越 。

跨稀疏度負載均衡:在 Top-2 / 128、64 和 32 專家配置下 , 使用與不使用 Gengram 模塊的負載均衡損失曲線對比 , 表明其在多種稀疏度設置下均能實現穩定性能 。
此外 , 模型開始「涌現」出對 DNA 物理本質的理解 。
當團隊為 Gengram 局部聚合窗口(Local Window Aggregation)測試窗口大小策略時 , 結果顯示:窗口大小參數設置為 21bp 時 , 其性能達到峰值 。
為什么偏偏是 21?
因為 DNA 雙螺旋結構每 10.5 個堿基旋轉一圈 , 而 21 個堿基正好對應兩個完整的螺旋周期 。 這意味著 , 每相隔 21bp 的堿基在物理空間上其實位于螺旋的同一側 , 具備相似的生化環境和特征 。
換句話說 , Gengram 在沒有學習過任何結構生物學知識的前提下 , 通過計算自己悟到了 DNA 序列信息和空間相位規律 。

DNA 雙螺旋結構示意圖展示了 B 型 DNA 的結構參數 , DNA 雙螺旋每 10.5 個堿基對旋轉一圈 。

不同 Gengram 窗口大小下的驗證損失 , 由此選擇了 21 寬度的窗口
范式啟示:Gengram 為 AI 科學模型提供新探索路徑
Gengram 的成功 , 遠不止于解決基因組建模的特定難題 。 它更像一個精巧的概念驗證 , 為如何構建新一代懂科學的 AI 探索了一種新的模式 。
從「暴力記憶」到「結構化知識外掛」:效率范式的轉變 。 傳統 AI 模型增強能力主要靠擴張參數與數據 , 本質是讓網絡更費力地「記住」 一切 。 Gengram 則將領域內確鑿的、結構化的先驗知識(如功能 Motif)做成一個輕量、可查詢的外部知識庫 。 這讓核心模型能從繁瑣的模式記憶中解脫 , 專注于更高級的上下文推理與組合創新 。 這預示著 , 未來科學基礎模型的架構 , 可能是「通用模型核心+多個領域專用插件」的協同形態 。
「歸納偏置」注入:生物物理規律的「硬編碼」 。 通過將 B 型 DNA 雙螺旋每 10.5 個堿基完成一個旋轉周期(即約 21 bp 的雙圈周期)這一結構特性 , 顯式轉化為模型內部的局部窗口機制 , Gengram 成功地將這種物理空間相位的周期性作為先驗知識注入模型 , 使其能夠捕捉特定相位的立體化學模式和蛋白質綁定偏好 。
可解釋性的內生設計:讓 AI 的「思維過程」透明化 。 模型不再僅僅進行隱式的統計擬合 , 而是通過顯式的 Hash 查詢和門控記憶通路 , 在淺層即展現出對 TATA-box、poly (T) 等關鍵功能基元的高度敏感性 , 其內部殘差強度的峰值與基因組功能邊界精準對齊 , 實現了從「黑盒計算」向「具備生物學認知足跡」的演進 。
解決長程依賴的新路徑:從局部最優到全局洞察 。 實驗證明 , Gengram 使得僅在 8K 長度上訓練的模型 , 卻獲得了處理 32K 長序列的優異能力 。 這為基因調控元件預測、表觀遺傳學分析、跨物種進化分析以及復雜的多組學建模等復雜長序列問題 , 開辟了精細化局部感知驅動全局理解的新途徑 。
Gengram 建立了一種將領域特有規律轉化為顯式架構約束的創新范式 , 證明了通過精細化的局部結構化感知可以有效彌補標稱上下文長度的局限 , 實現低成本且高效的長程依賴建模 。
低調的 Genos Team 是啥背景?
盡管論文署名低調地使用了「Genos Team」 , 但從開源代碼庫的 Zhejianglab 和 BGI-HangzhouAI 能夠推斷出這支團隊的硬核背景:一家是坐落在杭州的專注于智能計算的新型研發機構之江實驗室 , 另一家是杭州華大生命科學研究院 。
兩個團隊的融合 , 構建起「AI + 生命科學」的交叉創新壁壘 , 這是純 CS 團隊或純基因團隊無法比擬的優勢 。
論文里的實驗 , 大多基于人類基因組基礎模型 Genos 實現 , 從可公開獲取的信息來看 , Genos 多數指標都超越了目前的業界頂流 Evo-2 。

    推薦閱讀