像調音量一樣調控基因:初創開源AI調控DNA,讓可編程藥物更近了

像調音量一樣調控基因:初創開源AI調控DNA,讓可編程藥物更近了

文章圖片

像調音量一樣調控基因:初創開源AI調控DNA,讓可編程藥物更近了

文章圖片


從 AlphaFold 精準預測蛋白質三維結構 , 到大語言模型解析復雜的基因組語法 。 在過去的幾年里 , 人工智能在生命科學領域的突破令人矚目 。 然而 , 在合成生物學和精準醫療領域 , 除了“閱讀”和“預測”生命密碼 , 關鍵還在于“改寫”與“精準控制” 。 如果我們能像調節音量旋鈕一樣 , 在特定的細胞內極其精準地控制某個基因的表達劑量 , 疾病治療將迎來更高階的突破 。

而基因表達調控元件正是解決這一難題的關鍵 。 它被視為自然界賦予細胞的“開關與旋鈕” , 編碼時空特異性邏輯 , 確?;蛟谡_的時間、正確的細胞中以恰當強度開啟 。 長期以來 , 細胞與基因療法的安全性瓶頸正源于我們對這些元件的控制不足:傳統設計方法多依賴重復已知基序或隨機拼接 , 既難以獲得可靠候選分子 , 也難以實現連續梯度調控 。

3 月 13 日 , Y Combinator 支持的 AI 生物技術初創公司 Origin Bio 宣布 , 向全球科研社區開源 10000 條完全由 AI 設計生成的近端增強子樣序列(proximal enhancer-like sequences pELS) , 并同步上線免費平臺 Switch 。 這將為大規模平行報告基因分析(MPRA)等功能性實驗提供海量的數據儲備 , 有望為傳統的擾動生物學(Perturbation Biology)注入全新的 AI 協作機制 。

公司僅 4 人 , 專注 AI 驅動的調控 DNA 設計

Origin Bio 成立于 2025 年 , 總部位于舊金山 , 近期已入選 Y Combinator Winter 2026 批次 , 團隊規模極小 , 僅有 4 人 。 CEO 亞什·拉托德(Yash Rathod)與 CTO 馬爾哈·比德(Malhar Bhide)均來自伊利諾伊大學厄巴納-香檳分校(UIUC)計算機科學專業 , 曾從事計算機視覺與強化學習研究 , 其中 , 亞什曾獲得 2022 年 OpenCV AI Research Competition 一等獎 , 馬爾哈高中時期就在《科學報告》(Scientific Reports)發表過疾病建模論文 。

2025 年 10 月 8 日 , Origin Bio 正式發布自研模型 Axis , 這是業內首個同時具備生成與預測功能的調控 DNA AI 模型 。 它統一了 DNA-to-DNA、DNA-to-function 與 function-to-DNA 三類任務:既能從頭生成序列或基于提示優化 , 也能預測序列的功能屬性 。

Axis 基于共享 Transformer 骨干網絡實現多任務訓練 , 采用 ENCODE V4 注冊表中的獨立順式調控元件數據進行無污染分割訓練 。 在預測調控元件活性基準測試中 , Axis 平均超越 Google DeepMind 的 AlphaGenome 模型 6.7% 。 在“高結合親和力”的提示下 , Axis 生成的序列中目標轉錄因子結合位點可富集高達 9 倍 。

【像調音量一樣調控基因:初創開源AI調控DNA,讓可編程藥物更近了】
(來源:Origin Bio)

Origin Bio 正致力于“用 AI 打造更安全的細胞與基因療法” , 核心是設計新型調控 DNA 元件 , 如增強子與啟動子 , 實現治療基因表達的精準編程 , 主要面向癌癥、中樞神經系統疾病等需要條件性激活的適應癥 。 未來 , 其希望構建全球最大規模的合成調控序列專有數據集 , 通過高通量實驗驗證積累數百萬條跨多種細胞狀態的功能注釋序列 。

10000 個 AI 設計的生物學“微調旋鈕”

本次發布的 10000 條序列正是由 Axis 針對特定細胞狀態提示生成的 pELS 序列 , 這是一類位于基因轉錄起始位點(TSS)附近約 2 kb 范圍內、能夠顯著增強基因轉錄活性的短 DNA 序列 。 這批 AI 設計的序列專門針對三種在醫學研究中極具代表性的細胞系:SK-N-SH(神經母細胞瘤細胞系)、HepG2(肝細胞癌細胞系)和 K562(紅白血病細胞系) 。

為了讓這批序列在真實科研環境中的可用性更高 , 每條序列均附帶完整質量控制數據和多維度的預測數據 。 其底層序列質量指標包括最差發夾結構穩定性(worst hairpin stability ΔG)、GC 含量、核苷酸組成比例以及最長同聚物(homopolymer)長度 。 并為轉錄因子結合位點(TFBS)提供注釋 , 支持用戶進行高級過濾與可視化 , 幫助研究者理解序列招募特定蛋白質、啟動基因表達的具體機制 。

在跨細胞系活性預測中 , Origin 調用了由哈佛-麻省理工博德研究所(Broad Institute)獨立開發、經過體外驗證的深度卷積神經網絡模型 Malinois 。 該模型能夠僅憑 DNA 序列 , 高精度地預測順式調控元件(CRE)的活性 。

為了直觀展示 DNA 雙鏈分子的空間構象 , Origin 還使用了字節跳動開源的 AlphaFold 3 復現模型 Protenix 。 Protenix 能夠精準預測包括蛋白質、DNA、RNA 在內的復雜生物分子 3D 結構 。


(來源:Origin Bio)

所有序列及其元數據已全部上傳至 Switch 平臺 。 平臺不僅提供瀏覽、下載與可視化功能 , 還將持續托管公司與社區的濕實驗驗證結果 , 支持研究者上傳自身評估數據 , 形成協作積累 。 Origin Bio 明確表示 , 將繼續向庫中添加針對原代細胞與組織的更多設計序列 。

范式轉移:從“二元開關”到“連續調控”

為什么 Origin 要耗費巨大算力去大規模設計并測試這些調控元件庫?答案在于對細胞命運的極致掌控 。

在傳統的擾動生物學中 , 科學家們主要依賴兩種手段來研究基因功能:其一是 CRISPR 等基因敲除(Knockouts)或敲降(Knockdowns)技術 。 這在很大程度上是一種“二元操作” , 基因要么被完全破壞、不表達 , 要么存在 。 其二是化學藥物處理 , 雖然可以通過藥物濃度實現“劑量控制” , 但化學小分子往往缺乏靶向特異性 , 容易同時引發多條信號通路的脫靶效應 。

真實的生命系統遠比“0 和 1”復雜 。 細胞的命運決定本質上是由基因表達的“劑量”驅動的 , 蛋白質的合成數量、時空表達都會影響最終表型 。 公司強調 , 調控 DNA 元件能編碼時空特異性邏輯 , 使藥物更具可編程性 , 從而提升特異性并響應細胞狀態變化 。 這對細胞與基因療法安全性至關重要 。

Origin 通過 AI 設計出具有梯度轉錄強度的調控元件庫 , 這將為擾動生物學代帶來更精細、更高效率的基因調控策略 。 科學家可以對特定基因的表達水平進行連續性的精準控制 , 并基于此系統繪制劑量-響應圖譜 。

例如 , 科學研究表明 , 腫瘤微環境中存在一條極其關鍵的“代謝-表觀遺傳軸”:壞死腫瘤會觸發 T 細胞的“功能性熱量限制” , 進而耗竭核質內的乙酰輔酶 A(acetyl-CoA) 。 這會剝離效應基因和耗竭基因位點上激活性的組蛋白修飾標記 , 從而“塞翁失馬”地保留了 T 細胞的干性 , 這正是產生持久抗腫瘤反應的關鍵狀態 。 白細胞介素-10(IL-10)似乎可以通過類似途徑重編程終末耗竭的 CD8+ T 細胞 , 恢復其抗腫瘤功能 。

目前 , 研究人員還不了解是否存在一個完美的表達閾值 , 能讓 IL-10 剛好將耗竭的腫瘤浸潤淋巴細胞(TILs)翻轉到有利狀態 , 而又不會“用力過猛”引發免疫抑制 。 有了 Origin 提供的梯度調控元件庫 , 研究人員終于可以系統性地繪制這一閾值圖譜 , 徹底告別過去僅靠單一“過表達構建體”盲目猜測的時代 。

再比如 , T 細胞療法的臨床數據中有兩個決定療效的最強預測指標:T 細胞干性以及多克隆腫瘤反應性 。 但在現有的細胞療法制造過程中 , 當 T 細胞在體外大規模擴增時 , 這兩種極其寶貴的特性會迅速流失 。 能夠識別腫瘤的克隆型被選擇性淘汰 , 而剩余的細胞則走向“終末分化” , 失去了持續戰斗的潛力 。

如果科學家能在體外擴增期間 , 利用 AI 設計的梯度調控序列 , 精確滴定干性相關轉錄因子(如 TCF7 或 BACH2)的表達 , 就有望找到一個極其精確的“黃金劑量”:在這個劑量下 , T 細胞既能完美維持自我更新能力 , 又不會犧牲其對腫瘤的殺傷效應潛能 。

開源共建“可編程藥物”的未來

Origin Bio 也承認自家公司在這項研究中的局限性:“需要開展的實驗、有待發現的機制以及將要產生的影響 , 遠遠超出了任何一家單一機構的能力范圍 。 ”

因此 , 隨著 10000 條 AI 設計的序列向全網開放 , Origin 明確表示 , 他們希望全球的科研工作者能將這些序列應用于 MPRA 研究 , 以及 ATAC-seq、ChIP-seq 等遺傳組學功能性檢測實驗中 。 隨著實驗數據的回流 , Origin 承諾將在平臺上公開驗證結果 , 并允許其他科研團隊同步分享他們的數據 。 未來 , 他們還計劃將生成的序列庫擴展到原代細胞和更多組織類型中 。


(來源:X@garrytan)

社交媒體與社區討論迅速展開 , 各路專家對此評價不一 。 Y Combinator CEO Garry Tan 稱“AI×bio 是幾乎未被觸及的領域” 。 斯坦福大學計算基因組學家安舒爾·昆達杰(Anshul Kundaje)則在 X 轉帖評論 , 此次發布“更像是炒作而非嚴肅努力”:三種細胞系區分過于簡單、缺少與開源工具的 benchmark 對比 , 且缺乏濕實驗驗證 。


(來源:X@anshulkundaje)

無論如何 , Origin Bio 或許正在推動 AI 生成調控 DNA 從實驗室走向社區協作的新階段 。 生命科學正從“盲人摸象”式的試錯發現 , 邁向編寫計算機代碼般精準的“可編程生物學”時代 。

參考來源:
https://origin.bio/blogs/switch/
https://origin.bio/
https://www.ycombinator.com/companies/origin-bio
https://origin.bio/introducing-axis
https://x.com/garrytan/status/2032565231847629215
https://x.com/anshulkundaje/status/2033006691873337710

運營/排版:何晨龍

    推薦閱讀