2022年10月16日,國際知名學術(shù)期刊Nucleic Acids Research在線發(fā)表了復旦大學生命科學學院/人類表型組研究院徐書華教授團隊、中國科學院上海營養(yǎng)與健康研究所張國慶研究員、復旦大學生命科學學院樊少華研究員合作開發(fā)的人類基因組結(jié)構(gòu)變異數(shù)據(jù)庫PGG.SV(https://www.biosino.org/pggsv/),文章題為“PGG.SV: a whole-genome-sequencing-based structural variant resource and data analysis platform”。該數(shù)據(jù)庫通過收集全球人群的全基因組測序數(shù)據(jù),專注于基因組結(jié)構(gòu)變異數(shù)據(jù)的挖掘和整合,為人類基因組結(jié)構(gòu)變異的研究提供了一個數(shù)據(jù)獲取、信息查詢和在線分析的綜合平臺。
基因組結(jié)構(gòu)變異(SVs)主要包括基因組上大片段的DNA缺失、插入、片段重復等變異類型,大量研究表明SV與癌癥、自閉癥、神經(jīng)發(fā)育障礙等多種復雜遺傳病有關(guān),近年來在醫(yī)學和遺傳學領域中持續(xù)受到關(guān)注。隨著基因組測序技術(shù)的進步和普及,大量的結(jié)構(gòu)變異被不斷發(fā)現(xiàn)和研究,一些具有強致病性的結(jié)構(gòu)變異也逐漸得到驗證。研究團隊旨在通過構(gòu)建一個具有代表性、多樣性的健康人群基因組結(jié)構(gòu)變異數(shù)據(jù)集,一方面為遺傳病患者的結(jié)構(gòu)變異研究提供可靠的對照樣本,另一方面對變異功能的注釋和預測,也將有效縮小致病性突變的篩選范圍,為相關(guān)領域研究者提供有效的指導和幫助。
由于結(jié)構(gòu)變異在不同地區(qū)和民族之間存在顯著差異和多樣性,而現(xiàn)有的數(shù)據(jù)庫和公共數(shù)據(jù)集各自采用不同分析流程,因此一直缺乏一個具有人群樣本和新一代測序數(shù)據(jù)代表性的結(jié)構(gòu)變異資源和分析平臺,尤其對東亞人群樣本的覆蓋度嚴重不足。研究團隊整合了大規(guī)模的測序數(shù)據(jù),包括全球177個代表性地區(qū)和族群的6,048個全基因組測序數(shù)據(jù),特別是對我國豐富的民族多樣性特征進行了深度分析,首次覆蓋了我國50個少數(shù)民族。截至論文發(fā)表,數(shù)據(jù)庫共收錄了584,277個結(jié)構(gòu)變異,并將在未來持續(xù)增加。此外,PGG.SV首次納入了三代長讀長(long-reads)測序數(shù)據(jù),其在結(jié)構(gòu)變異的檢測中具有更大優(yōu)勢,特別是在插入序列的檢測和判定方面,其效果顯著優(yōu)于二代測序技術(shù)。先前的大規(guī)模結(jié)構(gòu)變異數(shù)據(jù)庫均基于二代測序或基因芯片數(shù)據(jù)構(gòu)建。研究團隊產(chǎn)生和收集了1,030個三代測序基因組,并首次采用三代測序與二代測序結(jié)合的方式構(gòu)建結(jié)構(gòu)變異數(shù)據(jù)庫,從而大幅提升了結(jié)構(gòu)變異檢測結(jié)果的數(shù)量和質(zhì)量。

圖1 PGG.SV數(shù)據(jù)處理流程示意圖
在數(shù)據(jù)庫功能上,PGG.SV提供了簡潔友好的查詢功能,提供不同族群結(jié)構(gòu)變異在基因組位置上的精確展示,以及全球各個族群之間的頻率差異等統(tǒng)計信息。利用研究組先前積累的優(yōu)勢,PGG.SV與徐書華教授團隊此前開發(fā)的PGG.SNV等數(shù)據(jù)庫進行聯(lián)動,借助連鎖不平衡和基因組空間位置信息,將單核苷酸變異(SNV)的詳細結(jié)果與結(jié)構(gòu)變異相結(jié)合,以增強數(shù)據(jù)多樣性的解析功能。此外,PGG.SV提供了豐富的臨床效應分析和預測分析功能,根據(jù)與結(jié)構(gòu)變異存在關(guān)聯(lián)的基因和調(diào)控元件,提供對其潛在表型、功能的預測和富集分析,以及由特定疾病和表型檢索相關(guān)結(jié)構(gòu)變異的工具,以便有臨床研究等需求的用戶使用。
最后,PGG.SV還支持豐富的在線分析和可視化功能。一方面,研究團隊提供對用戶提交的結(jié)構(gòu)變異結(jié)果的比較和注釋,以便使用者了解自己的目標樣本與數(shù)據(jù)庫提供的對照樣本之間的差異;另一方面,研究團隊還提供結(jié)構(gòu)變異可視化功能,能夠在人類基因組上檢索用戶提交的DNA序列、展示相關(guān)變異的基因組位置,以及提供對變異空間結(jié)構(gòu)變化的精細可視化。

圖2 PGG.SV界面示意圖
總體而言,PGG.SV提供了一個高質(zhì)量的人群基因組結(jié)構(gòu)變異數(shù)據(jù)資源,基于新一代測序數(shù)據(jù)對人類基因組結(jié)構(gòu)變異信息檢測和展示進行了大幅度提升,尤其是首次較為全面地覆蓋了東亞人群和中國人群的結(jié)構(gòu)變異多樣性,并提供相關(guān)基因和潛在臨床效應的注釋。此外,該平臺也提供了包括病例對照研究在內(nèi)的多種在線分析功能,以及人類基因組結(jié)構(gòu)變異的可視化工具。
中國科學院上海營養(yǎng)與健康研究所王亦民、凌鋆超和復旦大學人類表型組研究院龔嬌為本文共同第一作者。徐書華教授、張國慶研究員和樊少華研究員為本文共同通訊作者。該研究工作得到了國家基金委基礎科學中心、國家自然科學基金、中國科學院先導專項、英國皇家學會牛頓基金、人類表型組上海市市級重大專項等基金的資助。
原文鏈接:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac905/6761741?login=false