美國哈佛大學(xué)醫(yī)學(xué)院與西班牙巴塞羅那基因組調(diào)控中心科學(xué)家在24日出版的《自然·遺傳學(xué)》雜志上發(fā)表研究成果稱,他們開發(fā)出一款名為popEVE的人工智能(AI)模型。該模型能精準鎖定人類蛋白質(zhì)中最易導(dǎo)致疾病的突變,這一突破有望徹底改變遺傳疾病的診斷方式。
popEVE的研發(fā)基于數(shù)十萬個不同物種的進化數(shù)據(jù)及全人類群體的遺傳變異信息。龐大的進化記錄使該工具能解析約2萬多種人類蛋白質(zhì)的關(guān)鍵區(qū)域與可變異區(qū)域,從而不僅能識別致病突變,還能對這些突變給人體造成的危害程度進行排序。
每個人的基因組都包含許多微小變異,其中包括改變蛋白質(zhì)單個氨基酸的“錯義突變”。這類突變大多無害,但部分可能引發(fā)嚴重疾病。真正的挑戰(zhàn)在于如何區(qū)分良性變異與有害變異。此外,有害突變的影響程度也各不相同:有的僅引發(fā)輕微癥狀,有的導(dǎo)致嚴重殘疾,有的甚至在兒童期就危及生命。現(xiàn)有AI工具大多只能預(yù)測突變是否危險,卻難以評估其危害程度。
更棘手的是,“罕見突變”缺乏病例參考,即使進行全球范圍的基因測序,這些突變也往往無跡可尋,依賴患者群體數(shù)據(jù)的傳統(tǒng)方法對此束手無策。
popEVE創(chuàng)新性地將進化數(shù)據(jù)與英國生物庫、基因組聚合數(shù)據(jù)庫兩大資源庫相結(jié)合。通過分析健康人群中存在的基因變異,該模型得以校準對人類疾病的預(yù)測。這使科學(xué)家首次建立起能對全蛋白質(zhì)組突變進行危害排序的模型,可幫助醫(yī)生優(yōu)先關(guān)注破壞性最強的變異。
為驗證模型效能,團隊分析了超過3.1萬個患有嚴重發(fā)育障礙的兒童家庭遺傳數(shù)據(jù)。在98%的病例中,popEVE將共同突變標(biāo)記為最具破壞性的變異,其表現(xiàn)優(yōu)于包括“深度思維”公司AlphaMissense在內(nèi)的同類先進工具。而且,在探尋新的致病基因時,popEVE發(fā)現(xiàn)了123個此前被認為與發(fā)育障礙無關(guān)的基因,其中104個僅在個別病例中出現(xiàn)。












