本報(bào)電(華軒)近日,在第二十屆國(guó)際基因組學(xué)大會(huì)上,華大生命科學(xué)研究院與之江實(shí)驗(yàn)室聯(lián)合發(fā)布了百億參數(shù)人類基因組通用基礎(chǔ)模型——Genos。這一針對(duì)人類基因組深度優(yōu)化的基因組基礎(chǔ)模型,可支持高達(dá)百萬堿基對(duì)的超長(zhǎng)上下文分析,并實(shí)現(xiàn)單堿基分辨率的精準(zhǔn)識(shí)別。
Genos的推出標(biāo)志著基因組研究從“讀出”堿基序列邁向“讀懂”生命底層邏輯,有望促進(jìn)臨床疾病診斷、個(gè)人基因組解讀及前沿科學(xué)研究。
要讀懂“生命之書”,首先需要一本完整的“字典”
基因組學(xué)領(lǐng)域內(nèi)的現(xiàn)有模型大多基于一到兩個(gè)參考基因組進(jìn)行訓(xùn)練,難以捕捉人類豐富的遺傳多樣性。而Genos則系統(tǒng)整合了人類泛基因組參考聯(lián)盟、人類基因組結(jié)構(gòu)變異圖譜計(jì)劃等多個(gè)公開資源,匯聚了全球范圍內(nèi)636個(gè)“端粒到端粒”級(jí)別的高質(zhì)量人類基因組作為訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)覆蓋了全球不同人群,旨在從源頭減少數(shù)據(jù)偏見,更全面地代表人類遺傳多樣性。
基因組的語言極其復(fù)雜,一個(gè)微小的單堿基突變,其影響可能由百萬堿基之外的“遙遠(yuǎn)”調(diào)控元件決定。這要求模型既要有“顯微鏡”般的單堿基精度,又要有“廣角鏡”般的百萬級(jí)超長(zhǎng)上下文理解能力。
如同閱讀一部鴻篇巨著,既能一字不差地記住細(xì)節(jié),又能洞悉全局的宏大敘事。Genos通過混合專家(MoE)架構(gòu),助力解決這一難題。MoE架構(gòu)如同一個(gè)擁有眾多頂尖專家的智慧團(tuán)隊(duì),面對(duì)任務(wù)時(shí),總能精準(zhǔn)調(diào)度最相關(guān)的幾位專家協(xié)同處理,而不是調(diào)動(dòng)所有人全部待命。這一“按需激活”的機(jī)制,讓Genos在擁有百億級(jí)參數(shù)的龐大知識(shí)總量的同時(shí),推理成本和資源消耗卻遠(yuǎn)低于同等規(guī)模的模型,真正實(shí)現(xiàn)了“既強(qiáng)大,又好用”。
為了全面驗(yàn)證模型的性能,研發(fā)團(tuán)隊(duì)進(jìn)行了一系列測(cè)試。在基因組元件識(shí)別、遠(yuǎn)程調(diào)控預(yù)測(cè)、突變致病性預(yù)測(cè)等經(jīng)典評(píng)測(cè)任務(wù)里,Genos在超過一半的任務(wù)里比所有現(xiàn)有模型都表現(xiàn)更好,而且長(zhǎng)序列評(píng)測(cè)任務(wù)里,如突變熱點(diǎn)識(shí)別和族群分類上,Genos的表現(xiàn)遠(yuǎn)超同類模型,展現(xiàn)了其強(qiáng)大的上下文分析能力,有效破譯基因組中的“暗物質(zhì)”。
Genos在直接面向臨床應(yīng)用的致病性突變解讀任務(wù)中,實(shí)現(xiàn)了較高的準(zhǔn)確性,當(dāng)結(jié)合021科學(xué)基礎(chǔ)模型后,準(zhǔn)確率更高,為臨床診斷提供了全新的高效工具。綜合多項(xiàng)評(píng)測(cè)結(jié)果,Genos在各項(xiàng)核心任務(wù)中的表現(xiàn)優(yōu)越,證明了其全面的能力。
“共有、共為、共享”,讓前沿科技觸手可及
一個(gè)模型無論多么強(qiáng)大,如果不能被方便地部署和使用,其價(jià)值便大打折扣。Genos是一個(gè)可以走向臨床、走向個(gè)人、走向每一個(gè)實(shí)驗(yàn)室的“實(shí)踐先鋒”,為下游應(yīng)用創(chuàng)新提供了堅(jiān)實(shí)的地基。
今年是人類基因組草圖繪制完成25周年。“共有、共為、共享”,既是人類基因組計(jì)劃的精神傳承,也是Genos的核心理念。
發(fā)布會(huì)上,華大生命科學(xué)研究院宣布,Genos模型將全面開源開放,且同時(shí)提供12億和100億參數(shù)兩個(gè)版本,滿足不同應(yīng)用場(chǎng)景的需求。目前,兩個(gè)版本的模型權(quán)重、架構(gòu)細(xì)節(jié)與完整訓(xùn)練流程,均已在GitHub、Hugging Face、魔搭等平臺(tái)公開發(fā)布,供全球開發(fā)者和科研人員自由使用。同時(shí),在之江實(shí)驗(yàn)室的開放平臺(tái)Zero2X也已發(fā)布。
另外,考慮到并非所有使用者都擁有強(qiáng)大的算力資源,該模型已被深度整合進(jìn)DCS Cloud云平臺(tái)。用戶無需進(jìn)行復(fù)雜的安裝配置,即可一鍵調(diào)用Genos,平臺(tái)為每個(gè)賬戶提供了高達(dá)10萬次的免費(fèi)推理服務(wù),極大地降低了基因組智能分析的門檻。
目前,在科研領(lǐng)域,Genos模型通過與DCS cloud結(jié)合,能僅憑DNA序列“秒級(jí)”預(yù)測(cè)RNA表達(dá)譜,將過去數(shù)周甚至數(shù)月才能完成的生物信息分析流程極大提速。此外,Genos模型也已整合進(jìn)生命科學(xué)數(shù)據(jù)庫(kù)CNGBdb,可幫助用戶精準(zhǔn)預(yù)測(cè)細(xì)胞表達(dá)量,高效篩選和驗(yàn)證關(guān)鍵候選基因,大幅加速科研發(fā)現(xiàn)。






