2020年1月8日,國(guó)際學(xué)術(shù)期刊Nucleic Acids Research正式發(fā)表了中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所/馬普計(jì)算生物學(xué)研究所徐書(shū)華研究組與生物醫(yī)學(xué)大數(shù)據(jù)中心的研究成果“PGG.Han: the Han Chinese genome database and analysis platform”。該研究作為十萬(wàn)人漢族基因組計(jì)劃一期成果,收集并分析了11萬(wàn)漢族人基因組單核苷酸變異數(shù)據(jù),并發(fā)布了漢族人群的遺傳數(shù)據(jù)庫(kù)及在線分析平臺(tái) – “PGG.Han”, http://www.pgghan.org,此舉填補(bǔ)了中國(guó)人群在大規(guī)??捎脜⒖蓟蚪M數(shù)據(jù)集上的空白、并提供了免費(fèi)在線計(jì)算分析平臺(tái)。
眾所周知,不同人群和個(gè)體由于其遺傳背景不同,大多數(shù)性狀或疾病的遺傳基礎(chǔ)和分子機(jī)制存在不同程度的差異。隨著研究的深入和規(guī)模的增長(zhǎng),對(duì)大型人群參考數(shù)據(jù)集的需求越來(lái)越迫切。近年來(lái),世界各國(guó)都在著手建立針對(duì)性的人群特異性參考數(shù)據(jù)集。早在2012年,英國(guó)就啟動(dòng)了萬(wàn)人基因組計(jì)劃(UK10K),并取得了顯著的成果。緊隨其后的美國(guó)精準(zhǔn)醫(yī)學(xué)項(xiàng)目(TOPMed)對(duì)個(gè)體化醫(yī)療的發(fā)展起到了支撐性作用。其他地區(qū)包括亞洲不少?lài)?guó)家也都先后啟動(dòng)了類(lèi)似的國(guó)家計(jì)劃。近年來(lái)的研究也逐步凸顯了大規(guī)模人群特異性參考數(shù)據(jù)集在復(fù)雜疾病的深入解析以及罕見(jiàn)病相關(guān)基因突變的判定等方面的重要性。但是,我國(guó)作為人口大國(guó)以及漢族作為世界上人口最多的族群,長(zhǎng)期以來(lái)尚未建立適合國(guó)情的大型參照數(shù)據(jù)集,這個(gè)狀況直到我國(guó)的精準(zhǔn)醫(yī)學(xué)計(jì)劃啟動(dòng)三年以后也未得到改善。
經(jīng)過(guò)多年的努力和積累,徐書(shū)華研究組聯(lián)合多家研究單位,促成10萬(wàn)人漢族基因組計(jì)劃(The Han100K Initiative)的啟動(dòng)和實(shí)施。Han100K計(jì)劃的成員單位和合作者可以通過(guò)鏈接(https://www.hanchinesegenomes.org/HCGD/about)查詢(xún),并且處于持續(xù)更新中。作為該計(jì)劃一期成果,漢族基因組數(shù)據(jù)庫(kù)及在線分析平臺(tái)(PGG.Han)肩負(fù)著重要使命。PGG.Han是目前唯一針對(duì)漢族人群的、也是最大規(guī)模的、集數(shù)據(jù)存儲(chǔ)、發(fā)布與在線分析為一體的參考基因組數(shù)據(jù)平臺(tái)。當(dāng)前上線的PGG.Han版本主要基于對(duì)早前基因組數(shù)據(jù)的收集和分析整理,更專(zhuān)注于提供平臺(tái)和構(gòu)架,為后期持續(xù)納入的高質(zhì)量深度測(cè)序數(shù)據(jù)奠定基礎(chǔ)。目前PGG.Han的漢族樣本在地理分布上共覆蓋了33個(gè)省級(jí)行政地區(qū)及部分海外漢族群體。PGG.Han不僅提供了漢族人群的精細(xì)人群遺傳結(jié)構(gòu)圖譜和可視化等位基因頻率地圖,更重要的是還整合了三個(gè)實(shí)用性強(qiáng)的在線分析工具;包括祖源推斷(AncestryInference),基因型填補(bǔ)(Genotype Imputation)和全基因組關(guān)聯(lián)分析(GWAS)。這些分析流程由徐書(shū)華研究組設(shè)計(jì)與開(kāi)發(fā),由生物醫(yī)學(xué)大數(shù)據(jù)中心進(jìn)行軟件封裝,并首次提供免費(fèi)公開(kāi)訪問(wèn)和使用。用戶(hù)可以上傳自己的樣本數(shù)據(jù),充分利用數(shù)據(jù)庫(kù)中存儲(chǔ)的漢族自然人群參考數(shù)據(jù)集進(jìn)行在線分析,最終得到可供下載的分析報(bào)告。所有上傳數(shù)據(jù)均受到嚴(yán)格的保護(hù),同時(shí)考慮了非計(jì)算生物學(xué)背景人員的可操作性,并在持續(xù)改善用戶(hù)體驗(yàn)。目前正力圖通過(guò)廣泛合作持續(xù)納入更多高質(zhì)量深度測(cè)序數(shù)據(jù),以及提升該數(shù)據(jù)庫(kù)所依賴(lài)的高性能計(jì)算分析能力。
該工作由中國(guó)科學(xué)院馬普計(jì)算生物學(xué)研究所徐書(shū)華研究組高揚(yáng)(上??萍即髮W(xué))、張超、王曉驥、劉暢、潘雨聞等人,以及生物醫(yī)學(xué)大數(shù)據(jù)中心張國(guó)慶、袁力赟、凌鋆超等人合作完成,得到了中科院先導(dǎo)專(zhuān)項(xiàng)、國(guó)家自然科學(xué)基金委、上海市科委和國(guó)家重點(diǎn)研發(fā)計(jì)劃等多項(xiàng)基金的資助。(科技處)
原文鏈接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz829/5580901

圖示:漢族人群基因組數(shù)據(jù)庫(kù)(PGG.Han)功能構(gòu)架圖