11月3日,《核酸研究》(Nucleic Acids Research)在線發(fā)表了中國科學(xué)院上海生科院(人口健康領(lǐng)域)計算生物學(xué)研究所徐書華研究組的研究成果“PGG.Population: a database for understanding genomic diversity and genetic ancestry of human populations”。該研究分析了涵蓋全球范圍107個國家的356個人類族群的基因組多樣性和祖源信息,并發(fā)布了開放獲取的專門數(shù)據(jù)庫——“PGG.Population”(群體基因組學(xué)·族群,網(wǎng)址:https://www.pggpopulation.org/)。PGG.Population是迄今唯一在基因組水平專門解析人類族群遺傳關(guān)系和祖源信息的公開數(shù)據(jù)庫,同時也是目前收集族群數(shù)量最大的群體基因組數(shù)據(jù)庫,為研究人員、臨床醫(yī)生及學(xué)生和公眾理解不同人群的遺傳背景提供一個查詢和分析平臺。
人類族群多樣性的形成是一個遷移、隔離、分化、再接觸和交流的復(fù)雜演化過程。同時,長期對特定環(huán)境的適應(yīng)也可能影響特定的性狀以及基因組局部區(qū)域的多樣性變化。相對來講,人群的基因組多樣性在很大程度上決定了其表型多樣性——這也是族群特異性的表型可以世代傳承的原因。因此,要真正理解人類不同族群在膚色、體質(zhì)以及疾病等性狀上的差異,最終需要回到基因組、追溯人群的演化歷程。眾多大型國際計劃(比如人類單倍體型圖計劃和千人基因組計劃)以及我國此前完成的各類全基因組關(guān)聯(lián)研究(GWAS) 都集中于關(guān)注常見主體人群。而對各地少數(shù)族群(大多是土著人群)的研究還很缺乏。一些研究者逐漸意識到,在一個人群研究中的困惑,往往在另一個人群的研究中找到答案。對比了青藏高原人群的基因組,我們才了解為何平原人群無法像藏族人那樣舒適地生活在高原上。專家認(rèn)為,這就是多樣性的魅力,也是進(jìn)化留給我們的財富。
PGG.Population正是在這樣的大背景下建立起來。研究人員通過測序或者收集眾多人類群體基因組研究數(shù)據(jù),對每個族群的基因組重新整合與分析(包括人群的地理語言歸屬等基本信息、Y染色體與線粒體譜系、群體間親緣關(guān)系、群體遺傳結(jié)構(gòu)、遺傳混合以及自然選擇印記等),同時建立了數(shù)據(jù)庫,以開放獲取的方式向公眾展示每個族群的基因組多樣性與祖源信息。截止目前,該數(shù)據(jù)庫包括7122個個體的基因組數(shù)據(jù),覆蓋來自107個國家的356個族群的,每個族群都有自己的“故事” 。該數(shù)據(jù)庫以理解每個人群的基因組多樣性與遺傳背景為主,同時對其他研究領(lǐng)域也具有重要的學(xué)術(shù)意義和應(yīng)用價值。人類群體基因組數(shù)據(jù)庫建設(shè)任重道遠(yuǎn)。全世界有超過2000多個族群,而該庫目前只包括世界族群的1/6強(qiáng)。 課題組正在收集或產(chǎn)生更多的來自不同族群基因組數(shù)據(jù),以覆蓋更多的族群,以期用于全面探索亞洲人群尤其是東亞、東南亞族群的演化歷史和自然選擇等遺傳和演化問題。同時可供遺傳學(xué)、語言學(xué)、體質(zhì)人類學(xué)、醫(yī)學(xué)等行業(yè)參考和使用,應(yīng)用于生物醫(yī)學(xué)等多個領(lǐng)域的研究。此外,研究者們同時希望公眾通過訪問和查詢該數(shù)據(jù)庫對人類基因組多樣性和人群祖源等方面的知識和信息有更廣泛和深入的理解。
該工作是上海生科院(人口健康領(lǐng)域)計算生物學(xué)研究所徐書華研究組博士研究生張超、高揚(上??萍即髮W(xué))完成,研究人員陸艷、鄧戀以及博士研究生劉姣姣(上??萍即髮W(xué))、馮啟迪、田壘、薛者等參與了該項工作。該項工作得到了中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(B類)、國家自然科學(xué)基金委重大研究計劃及國家杰出青年科學(xué)基金、中科院青年促進(jìn)會、上海市科委等多項基金的資助,同時得到國家遺傳與發(fā)育協(xié)同創(chuàng)新中心支持。
原文鏈接:https://doi.org/10.1093/nar/gkx1032

PGG.Population數(shù)據(jù)庫網(wǎng)站主界面