10月9日,中山大學醫學院(yuan)施(shi)莽教授團(tuan)隊與阿里云李兆(zhao)融團(tuan)隊在《細胞》(Cell)雜志(zhi)上(shang)發表論(lun)文(wen),報告了(le)180個超群、超過16萬種(zhong)全(quan)球RNA病(bing)(bing)(bing)毒(du)(du)的(de)發現。這是迄今為止規模最(zui)大的(de)RNA病(bing)(bing)(bing)毒(du)(du)研(yan)(yan)究(jiu),大幅擴展了(le)全(quan)球RNA病(bing)(bing)(bing)毒(du)(du)的(de)多樣性。該研(yan)(yan)究(jiu)將人工智能(neng)技術(shu)應用于病(bing)(bing)(bing)毒(du)(du)鑒定,發現了(le)傳統方(fang)法未能(neng)發現的(de)病(bing)(bing)(bing)毒(du)(du)“暗物質(zhi)”,探(tan)索(suo)了(le)病(bing)(bing)(bing)毒(du)(du)學研(yan)(yan)究(jiu)的(de)新路徑(jing)。

傳統病毒發現方法遇瓶頸人工智能突破“已知”探“未知”
病毒(du)(du)是(shi)地球生態系統的(de)重(zhong)要組成(cheng)部分(fen),也(ye)與人類的(de)健(jian)康密切相(xiang)關。但是(shi),目前(qian)已知(zhi)的(de)病毒(du)(du)種類仍十分(fen)有限(xian),用更(geng)高效、更(geng)精準的(de)方法發現和鑒定(ding)新病毒(du)(du),一直是(shi)病毒(du)(du)學研究的(de)基礎工作。
最早,人們通(tong)過分(fen)離培養病(bing)毒(du),在(zai)(zai)顯(xian)微鏡下觀察確(que)認病(bing)毒(du)的(de)存在(zai)(zai)。隨著生(sheng)命(ming)組學的(de)發(fa)展,科學家們能夠利用測序技(ji)術,比較未知(zhi)(zhi)病(bing)毒(du)和已知(zhi)(zhi)病(bing)毒(du)核酸序列(lie)的(de)相似性,識別和鑒定(ding)新病(bing)毒(du)。這(zhe)種方法十(shi)分(fen)依賴對病(bing)毒(du)的(de)既(ji)有認知(zhi)(zhi)。
然而,RNA病毒是一種(zhong)高度分化、種(zhong)類(lei)繁多且容易變異的病毒,尤其在(zai)面對缺(que)乏(fa)同(tong)源性(xing)或同(tong)源性(xing)極低的“暗物質病毒”時,這(zhe)種(zhong)序列同(tong)源性(xing)比對的方法(fa)很容易失靈。

使用人工(gong)智能對(dui)全球病(bing)毒圈深(shen)度挖掘并分類
人(ren)工(gong)智能(neng)技術的(de)(de)引入使突破“已知(zhi)”尋找“未(wei)知(zhi)”成(cheng)為(wei)可能(neng)。研(yan)究中(zhong)(zhong)(zhong),團(tuan)隊采用(yong)的(de)(de)核(he)心算法(fa)LucaProt是一種能(neng)夠深(shen)度學習的(de)(de)Transformer模型,在大量(liang)學習病(bing)毒(du)(du)(du)和(he)非病(bing)毒(du)(du)(du)基因組序列(lie)(lie)后(hou),可以自主形(xing)成(cheng)一套關于病(bing)毒(du)(du)(du)的(de)(de)判斷標(biao)準(zhun),從(cong)而在大量(liang)的(de)(de)RNA測序數據集中(zhong)(zhong)(zhong)挖(wa)掘(jue)出(chu)病(bing)毒(du)(du)(du)序列(lie)(lie)。在測試中(zhong)(zhong)(zhong),LucaProt表現出(chu)極高的(de)(de)準(zhun)確性(xing)和(he)特異性(xing),假(jia)(jia)陽(yang)性(xing)率(lv)為(wei)0.014%,假(jia)(jia)陰性(xing)率(lv)為(wei)1.72%。在與其他病(bing)毒(du)(du)(du)挖(wa)掘(jue)工(gong)具(ju)的(de)(de)對比中(zhong)(zhong)(zhong),它也在處理較長序列(lie)(lie)的(de)(de)方面(mian)展現出(chu)優勢。
“人工智能(neng)的(de)算法(fa)模型能(neng)夠(gou)挖掘出(chu)我們之前(qian)忽略或(huo)根本不(bu)知道的(de)病毒,這(zhe)種能(neng)力在(zai)疾病防控(kong)和新病原的(de)快速識別(bie)(bie)中尤為重要。特別(bie)(bie)是在(zai)疫情(qing)暴(bao)發時(shi),人工智能(neng)的(de)速度和精度可以幫(bang)助科(ke)學(xue)家更快地鎖定潛在(zai)病原體。”施莽說。
發現大量全新RNA病毒刷新全球病毒圈認知
利用(yong)LucaProt,研究團隊(dui)對來自(zi)全球生物(wu)環境樣本的10,487份(fen)RNA測序數據進行病毒(du)(du)挖掘(jue),發現了超(chao)過51萬條病毒(du)(du)基因(yin)組,代(dai)表(biao)超(chao)過16萬個(ge)潛在(zai)病毒(du)(du)種(zhong)及180個(ge)RNA病毒(du)(du)超(chao)群(qun)(相當于門或(huo)綱的分類(lei)級別(bie)),使RNA病毒(du)(du)超(chao)群(qun)數量擴容約9倍。其中23個(ge)超(chao)群(qun)無(wu)法(fa)通過序列(lie)同源(yuan)方(fang)法(fa)識別(bie),被稱為病毒(du)(du)圈的“暗物(wu)質”。
“這些病(bing)毒(du)不(bu)僅指感(gan)染(ran)(ran)(ran)人類的(de)(de)(de)病(bing)原體(ti),還包括(kuo)廣泛存在于環境中的(de)(de)(de)、感(gan)染(ran)(ran)(ran)各類生物的(de)(de)(de)病(bing)毒(du)。各種動物、植物、單細(xi)胞原生生物、真菌、細(xi)菌和(he)古菌都可能感(gan)染(ran)(ran)(ran)病(bing)毒(du)。深入了解(jie)環境中的(de)(de)(de)病(bing)毒(du),有助于我(wo)們更好(hao)地(di)理解(jie)整個生態(tai)系統的(de)(de)(de)運作機(ji)制。”論(lun)文第一作者侯(hou)新博(bo)士介紹,“此外,我(wo)們還可以利用(yong)這種方法發現與人類疾病(bing)密切相關的(de)(de)(de)病(bing)毒(du),用(yong)于新發傳染(ran)(ran)(ran)病(bing)的(de)(de)(de)監測和(he)預警。”
依(yi)靠數據挖(wa)掘(jue)出來(lai)的(de)新病毒(du)(du),是(shi)否(fou)會停留在數字層面(mian)?通過對(dui)新發(fa)現(xian)病毒(du)(du)的(de)分析,科學家們對(dui)病毒(du)(du)圈的(de)認知也在不斷深化。

新發(fa)現病毒的遺傳(chuan)多樣性(黃色部分)
在(zai)這項研究中,團隊報告了迄今最(zui)長(chang)的(de)(de)RNA病(bing)毒基(ji)因組(zu)(zu),長(chang)度達(da)到47,250個核苷酸(suan);發現了超出以(yi)往(wang)認知的(de)(de)基(ji)因組(zu)(zu)結構,展現出RNA病(bing)毒基(ji)因組(zu)(zu)進化的(de)(de)靈活性(xing);識別到多種(zhong)病(bing)毒功能(neng)蛋(dan)白(bai),特別是(shi)與細菌(jun)相關的(de)(de)功能(neng)蛋(dan)白(bai),進一步表明(ming)還有更多類(lei)型的(de)(de)RNA噬菌(jun)體亟(ji)待(dai)探索。
研(yan)究指出,新發(fa)現(xian)的病(bing)毒(du)分布在(zai)地球的各類(lei)生態環(huan)境中。總體上,落葉層、濕地、淡水和廢水環(huan)境的病(bing)毒(du)多(duo)樣(yang)(yang)性(xing)最高。然而,在(zai)南極底泥、深(shen)海(hai)熱泉、活性(xing)污泥和鹽堿灘(tan)等極端環(huan)境中,RNA病(bing)毒(du)的多(duo)樣(yang)(yang)性(xing)和豐度并(bing)不低(di),甚(shen)至(zhi)在(zai)深(shen)海(hai)熱泉的高溫環(huan)境中,仍有RNA病(bing)毒(du)在(zai)活躍(yue)復制(zhi)。
“這(zhe)項研究中,病毒(du)的(de)(de)(de)(de)發現運用了人(ren)工(gong)智能的(de)(de)(de)(de)技術(shu),但分(fen)類(lei)仍基于(yu)現有(you)的(de)(de)(de)(de)體系進行。面對遠源的(de)(de)(de)(de)新病毒(du),現有(you)的(de)(de)(de)(de)分(fen)類(lei)體系已經顯得力不從心。未來,這(zhe)一體系在門、綱等更深層(ceng)次的(de)(de)(de)(de)分(fen)類(lei)上(shang),可能會(hui)有(you)大規模(mo)的(de)(de)(de)(de)調整。”施莽說,“我們的(de)(de)(de)(de)研究展示了病毒(du)多樣性的(de)(de)(de)(de)深度,但廣度仍有(you)待(dai)更多樣本(ben)的(de)(de)(de)(de)補充。病毒(du)的(de)(de)(de)(de)多樣性遠超人(ren)類(lei)想象,我們目前所看到的(de)(de)(de)(de)仍是冰山一角。”
人工智能技術廣泛應用或助力破解更多科研難題
LucaProt雖然是一個專(zhuan)門為(wei)RNA病毒發現設計(ji)的模(mo)型,但它同時(shi)融合了對(dui)蛋白質(zhi)序列和(he)隱含結構信息(xi)識別的功(gong)能(neng),也可用于蛋白質(zhi)功(gong)能(neng)的鑒定。在論文中,研(yan)究團(tuan)隊開(kai)源了LucaProt模(mo)型,并通(tong)過(guo)在線網站分(fen)享(xiang)給全球科學家。
“這(zhe)個框架正(zheng)在(zai)逐步(bu)成為該領域的(de)前沿(yan)工具,也(ye)開始被應用到其他類型的(de)蛋白質鑒定和功能(neng)發(fa)現任務上。”阿里云生物計算(suan)總監李(li)兆融表示,人工智能(neng)正(zheng)在(zai)逐步(bu)改變(bian)科學家解決包括病(bing)毒(du)學在(zai)內的(de)各類科學問(wen)題的(de)方式。
中國工程院院士、中國疾控中心(xin)傳染病溯源預(yu)警與智能決策(ce)全國重(zhong)(zhong)點實驗室主(zhu)任徐建國院士表示,LucaProt的(de)成(cheng)功標志著(zhu)人(ren)工智能算法在病毒發現方面的(de)重(zhong)(zhong)大突破。未來,人(ren)工智能方法有望(wang)成(cheng)為微生(sheng)物學領(ling)域的(de)主(zhu)要工具,并可應用(yong)于病毒對人(ren)類(lei)致病性(xing)的(de)預(yu)測。
上(shang)海生物信(xin)息技(ji)術研究中(zhong)心主任(ren)、廣州(zhou)國家實驗室李亦學(xue)研究員認為,LucaProt能(neng)夠從序(xu)列(lie)和空間(jian)結構兩個(ge)水平上(shang),融合提取RNA病毒(du)基(ji)因(yin)組序(xu)列(lie)的(de)長程相關(guan)信(xin)息和組成特(te)征,能(neng)夠先驗地識別數據(ju)中(zhong)RNA病毒(du)組成的(de)模式和特(te)征,這是傳(chuan)統的(de)基(ji)于同(tong)源分析的(de)進化分析方(fang)法難以企及的(de)。因(yin)此(ci)可以看(kan)到,人工智(zhi)能(neng)在解決生物學(xue)科學(xue)問題中(zhong)具有更廣泛(fan)的(de)應(ying)用潛力。
施莽介(jie)紹,這項研(yan)究與阿里(li)云(yun)飛天實驗室的(de)AI4S-生物計(ji)算團隊合(he)作開展,他們專注于生物序列的(de)基(ji)礎模型(xing)研(yan)究。中山大(da)學團隊負責病毒學方面的(de)問題(ti)(ti)(ti),而阿里(li)云(yun)團隊則專注于人(ren)工智(zhi)能(neng)模型(xing)的(de)開發和計(ji)算。“雙方經(jing)常互相拜訪,一起坐下來討論問題(ti)(ti)(ti),幫助彼此理(li)解(jie)對方不熟悉(xi)的(de)領(ling)域(yu)。”施莽說,“我(wo)們希望繼續通過跨領(ling)域(yu)、緊密的(de)科(ke)研(yan)合(he)作,充分利用(yong)云(yun)計(ji)算和人(ren)工智(zhi)能(neng)的(de)優勢,解(jie)決生命科(ke)學領(ling)域(yu)的(de)重要問題(ti)(ti)(ti)。”
① 凡本(ben)(ben)站(zhan)注(zhu)明“稿件(jian)來源(yuan)(yuan):中國教(jiao)育(yu)在線”的所(suo)(suo)有文字(zi)、圖片和音視(shi)頻稿件(jian),版權均屬(shu)本(ben)(ben)網(wang)所(suo)(suo)有,任何媒體(ti)(ti)、網(wang)站(zhan)或個(ge)人未(wei)經本(ben)(ben)網(wang)協議授權不得(de)轉載、鏈(lian)接(jie)、轉貼或以其他(ta)方式(shi)復制發表(biao)。已(yi)經本(ben)(ben)站(zhan)協議授權的媒體(ti)(ti)、網(wang)站(zhan),在下(xia)載使用時必須注(zhu)明“稿件(jian)來源(yuan)(yuan):中國教(jiao)育(yu)在線”,違者本(ben)(ben)站(zhan)將依(yi)法(fa)追究責任。
② 本站(zhan)注明稿件(jian)來(lai)源為其(qi)他媒體的(de)文(wen)/圖等稿件(jian)均(jun)為轉(zhuan)載稿,本站(zhan)轉(zhuan)載出于非商業性的(de)教育和科研之目的(de),并(bing)不(bu)意味著贊同其(qi)觀(guan)點或(huo)證實(shi)其(qi)內容(rong)的(de)真實(shi)性。如轉(zhuan)載稿涉及版權等問題,請作者在兩周內速來(lai)電或(huo)來(lai)函(han)聯(lian)系(xi)。




中國教育在線
