10月22日,國際知名學(xué)術(shù)期刊Genome Biology以“PGG.SNV: understanding the evolutionary and medical implications of human single nucleotide variations in diverse populations”為題,在線發(fā)表了中國科學(xué)院上海營養(yǎng)與健康研究所/馬普計算生物學(xué)研究所徐書華團(tuán)隊基于20萬人基因組的單核苷酸變異數(shù)據(jù)庫——PGG.SNV(https://www.pggsnv.org)。PGG.SNV收錄的基因組數(shù)據(jù)涵蓋了800多個現(xiàn)存人類族群和來源于古DNA研究的100多個已消亡人類族群,總共超過20萬個基因組;因而在代表性人群數(shù)量和樣本量上均超過目前被廣泛使用的由西方學(xué)者主導(dǎo)的gnomAD數(shù)據(jù)庫。PGG.SNV更顯著的科學(xué)價值在于提供了人群、個體、基因和變異多個層面的種群遺傳多樣性和進(jìn)化參數(shù)的估計,有助于更深入地解析人類基因組變異的功能和表型效應(yīng)以及理解其進(jìn)化和醫(yī)學(xué)意義。
該研究通過全基因組深度測序技術(shù)新產(chǎn)生并收集、整合公共人類基因組數(shù)據(jù)獲得2.5億以上人類單核苷酸變異(SNV),并進(jìn)行了變異頻率、基因多樣性、群體分化、功能效應(yīng)、進(jìn)化保守性、自然選擇信號、連鎖不平衡等多方面的解析和注釋。通過對人類孟德爾遺傳疾病關(guān)聯(lián)變異的頻率分析,該研究發(fā)現(xiàn)7%的此前報道的罕見病風(fēng)險變異在很多人群中處于高頻狀態(tài),提示疾病分析中突變的稀有性不是確定該變異與疾病關(guān)聯(lián)的金標(biāo)準(zhǔn);孟德爾疾病突變在不同族群中頻率存在差別,表明不同族群的遺傳負(fù)荷存在差異,因而用西方族群的基因組來研究或預(yù)測其他族群的突變功能和疾病風(fēng)險可能會導(dǎo)致誤判。
即便是對于大多數(shù)出于醫(yī)學(xué)診斷或研究目的或其他興趣僅僅需要簡單查詢基因變異頻率信息的人來講,PGG.SNV數(shù)據(jù)庫也具備獨特的優(yōu)勢。在醫(yī)學(xué)遺傳學(xué)領(lǐng)域的實踐中,人們往往通過突變位點的頻率比較分析來篩選并判別突變是否可能致病。其潛在假設(shè)是孟德爾疾病相關(guān)的致病突變在自然人群中是稀有的。比較廣泛使用的查詢突變頻率的數(shù)據(jù)資源為基于全基因組信息的千人基因組數(shù)據(jù)集和gnomAD數(shù)據(jù)庫以及基于外顯子測序的ExAC數(shù)據(jù)庫。但是以它們?yōu)槲ㄒ粎⒖紒硌芯客蛔兊念l率可能存在以下問題:首先,以上基因組數(shù)據(jù)資源均未能很好地覆蓋代表人類族群的多樣性;其次,gnomAD和ExAC中將近一半的基因組來自西方人群,而遺傳多樣性最高的非洲人群的基因組僅僅占9%,東亞人基因組所占比例則更少,因此此庫存在顯著的西方白人族源偏向性;再次,gnomAD數(shù)據(jù)庫主要以大洲對人群進(jìn)行分類,而缺少基因組對應(yīng)的族群信息。舉例來講,由于缺乏代表性亞洲人群的數(shù)據(jù),gnomAD將亞洲人群分為“韓國人”、“日本人”和“其他東亞人(other East Asian)”,因此它不能精確反饋給用戶每個族群的突變頻率信息。尤其是當(dāng)研究對象為特定的亞洲人群時,gnomAD和ExAC并不是合適的參照數(shù)據(jù)集,對于亞太地區(qū)的研究者來講實際應(yīng)用價值存在較大的局限性。
實際上,亞洲人群的人口數(shù)量和族群多樣性遠(yuǎn)高于歐洲人群。PGG.SNV數(shù)據(jù)庫更好地覆蓋了目前西方學(xué)者主導(dǎo)的數(shù)據(jù)庫所缺乏的東亞和東南亞人群的基因組數(shù)據(jù)。除了廣泛收集和收錄了800多個現(xiàn)代人族群和100多個古人族群組成的20萬人以上基因組突變以外,PGG.SNV數(shù)據(jù)庫還包括了新測得的來自東亞和東南亞的16個族群共1009個全基因組測序的突變信息。這些信息在我國以及周邊國家的實際應(yīng)用中更具有參考價值。因此PGG.SNV數(shù)據(jù)庫的發(fā)布對于我國及周邊國家人群的進(jìn)化遺傳和醫(yī)學(xué)研究具有迫切性和必要性。
為了方便微信用戶通過智能手機查詢特定的變異信息,PGG.SNV數(shù)據(jù)庫同時開通了配套的微信公眾號“PGGbase”,公眾號內(nèi)提供搜索服務(wù),實時獲取變異位點在各群體中的頻率信息,并在線生成頻率分布地圖,為手機用戶提供一個簡便快捷的查詢途徑。
考慮到全球人類基因組數(shù)據(jù)資源發(fā)展不平衡以及我國和周邊國家的人類遺傳資源管理政策變化,未來PGG.SNV基因組變異數(shù)據(jù)庫的發(fā)展將通過廣泛合作、重點收錄和整合我國和亞洲的人類基因組數(shù)據(jù),從(1)持續(xù)增加樣本量和數(shù)據(jù)質(zhì)量、(2)提高樣本的族源多樣性、(3)重視和加強亞洲人群代表性、(4)提升查詢和分析功能以及信息共享等四個方面進(jìn)一步完善和維護(hù)。
該工作由中科院上海營養(yǎng)與健康研究所/馬普計算生物學(xué)所張超(現(xiàn)賓夕法尼亞大學(xué))、高揚(上??萍即髮W(xué))、寧之琳、陸艷、張曉曦(上??萍即髮W(xué))、劉姣姣(上??萍即髮W(xué))、謝波、薛者(現(xiàn)哥本哈根大學(xué))、王曉驥、苑鍇(現(xiàn)Broad研究所)、葛雪玲、潘雨聞、劉暢、田壘(現(xiàn)斯坦福大學(xué))、魯東勝(現(xiàn)安可濟(jì)公司)、Boon-Peng Hoh(曾訪問學(xué)者)等在徐書華研究員的指導(dǎo)下完成,得到了中科院先導(dǎo)專項、國家自然科學(xué)基金委、上海市科委和國家重點研發(fā)計劃等多項基金的資助。(科技處)
文章鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1838-5

圖:PGG.SNV基因組數(shù)據(jù)的人群和地理分布概覽。
(A)PGG.SNV數(shù)據(jù)庫所覆蓋的人類族群的分布和基因組數(shù)量統(tǒng)計;(B)PGG.SNV與gnomAD等數(shù)據(jù)集在基因組數(shù)目上的比較;(C)PGG.SNV與gnomAD等數(shù)據(jù)集在族群數(shù)量上的比較。