病毒會“逃跑” “語言”露馬腳


病毒會“逃跑” “語言”露馬腳



病毒可能比人們想象得更狡猾,它能不斷偽裝自己,逃避“疫苗獵人”的追捕 。
一直以來,研制對抗流感和艾滋病病毒(HIV)等病毒的有效疫苗之所以如此困難,原因之一是這些病毒的變異非常迅速 。 這使得它們可以通過一種被稱為病毒逃逸的過程,避開特定疫苗產生的抗體 。
美國麻省理工學院研究人員現在設計了一種計算病毒逃逸的新模型 。 該模型基于最初用來分析語言的模型,可以預測病毒表面蛋白的哪些部分更容易發生突變,從而使病毒能夠逃逸,也可以識別出不太可能發生突變的部分,使它們成為新疫苗的良好靶標 。
“病毒逃逸是個大問題 。 ”麻省理工學院計算機科學與人工智能實驗室教授Bonnie Berger說,“流感病毒表面蛋白和HIV病毒包膜表面蛋白的病毒逃逸是造成目前沒有通用疫苗的主要原因 。 這兩種疾病每年都會導致數十萬人死亡 。 ”
在1月15日發表在《科學》上的一項研究中,Berger及同事確定了流感、HIV和新冠病毒疫苗的可能目標 。 研究人員還將該模型用于研究最近在英國和南非出現的新冠病毒新變種 。 研究人員說,尚未經過同行評審的相關分析發現,這些病毒的基因序列應該被進一步調查,以確定它們是否有可能逃脫現有疫苗的影響 。
病毒也有語言
不同類型的病毒以不同的速度發生基因突變,HIV和流感是突變最快的病毒之一 。
“HIV和流感病毒突變得很快,這是它們復制生物學的結果 。 例如,HIV和流感遺傳物質復制的機制容易出錯,從而導致突變 。 ”該研究通訊作者、麻省理工學院生物工程助理教授Bryan Bryson在接受《中國科學報》采訪人員采訪時表示 。
為了讓這些突變促進病毒逃逸,它們必須幫助病毒改變其表面蛋白質的形狀,這樣抗體就不能再與它們結合 。 然而,這種蛋白質不會發生使其失去功能的變化 。
Berger、Bryson以及研究生Brian Hie等人,決定使用一種被稱為語言模型的計算模型對這些標準進行建模 。 這種模型來自自然語言處理(NLP)領域,最初被設計用來分析語言模式,特別是某些單詞同時出現的頻率 。 然后,這些模型就可以預測哪些單詞可以用來完成一個句子,比如要補全“薩莉在()中吃了雞蛋”,NLP模型可能預測“早餐”或“午餐” 。
“我們對NLP語言模型的最新進展感到興奮,這些模型可以通過訓練原始文本來理解人類語言 。 于是,我們認為,由于病毒最豐富的數據只是原始的病毒序列,我們也可以通過訓練語言模型從病毒序列數據集中學習非常復雜的模式 。 ”Bryson說 。
當這種模型應用于生物信息,如基因序列時,語法類似于確定特定序列編碼的蛋白質是否具有功能的規則,語義意義類似于蛋白質是否能夠呈現新的形狀,幫助它逃避抗體 。 因此,使病毒能夠逃脫的突變必須保持序列的語法性,但同時能以一種有用的方式改變蛋白質的結構 。
用序列訓練模型
“如果病毒想要逃離人類的免疫系統,又不想讓自己因突變而死亡或無法復制,換句話說,它既想保持健康,又想充分偽裝自己,以便不會被人體免疫系統檢測到 。 ”Hie說 。
為了模擬這一過程,研究人員訓練了一個NLP模型來分析基因序列中的模式,該模型可以預測具有新功能但仍遵循蛋白質結構生物學規則的新序列 。 這種建模的一個顯著優點是它只需要序列信息,這比獲得蛋白質結構容易得多 。
此外,該模型可以在相對少量的信息上進行訓練——在這項研究中,研究人員使用了6萬條HIV序列、4.5萬條流感序列和4000條冠狀病毒序列 。

推薦閱讀