2020年11月19日,Genome Research在線發(fā)表了中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所中科院計(jì)算生物學(xué)重點(diǎn)實(shí)驗(yàn)室(馬普伙伴計(jì)算生物學(xué)研究所)邵振研究組的方法學(xué)論文“MAnorm2 for quantitatively comparing groups of ChIP-seq samples”,報(bào)道了其開發(fā)的新一代MAnorm2計(jì)算模型。該模型能夠?qū)Χ鄻颖綜hIP/ATAC-seq數(shù)據(jù)按照特定標(biāo)簽分組進(jìn)行統(tǒng)計(jì)建模和組間定量比較,可靠地在樣本組層面鑒定組間顯著差異的ChIP/ATAC-seq信號(hào)。
染色質(zhì)免疫共沉淀測(cè)序(ChIP-seq)實(shí)驗(yàn)被廣泛用于刻畫轉(zhuǎn)錄因子結(jié)合和組蛋白修飾的全基因組分布。比較來(lái)自不同細(xì)胞類型的ChIP-seq樣本是刻畫細(xì)胞分化和病變過程中動(dòng)態(tài)轉(zhuǎn)錄和表觀調(diào)控的關(guān)鍵基礎(chǔ)。2012年,邵振與張一婧等合作在Genome Biology發(fā)表了用于兩個(gè)ChIP-seq樣本之間進(jìn)行一對(duì)一定量比較的MAnorm模型。近年來(lái),隨著實(shí)驗(yàn)技術(shù)的發(fā)展和測(cè)序成本的不斷降低,在ChIP-seq樣本組(而非單個(gè)樣本)之間進(jìn)行比較分析已成為越來(lái)越常見的研究需求。一方面,研究者會(huì)產(chǎn)生同一實(shí)驗(yàn)的多個(gè)生物學(xué)重復(fù)來(lái)提高實(shí)驗(yàn)結(jié)果的可信度。另一方面,通過將來(lái)自不同個(gè)體的樣本根據(jù)特定標(biāo)簽(如年齡、性別、患病與否、疾病亞型等)分組進(jìn)行比較,研究者能夠控制個(gè)體差異造成的影響,更可靠地識(shí)別與該標(biāo)簽關(guān)聯(lián)的差異結(jié)合位點(diǎn)。然而,由于ChIP-seq實(shí)驗(yàn)固有的高復(fù)雜度和高噪聲水平,以及不同比較場(chǎng)景所特有的技術(shù)困難,現(xiàn)階段對(duì)多樣本ChIP-seq數(shù)據(jù)進(jìn)行分組定量比較仍然是一個(gè)巨大的計(jì)算方法學(xué)挑戰(zhàn)。
在ChIP-seq數(shù)據(jù)標(biāo)準(zhǔn)化這一步,MAnorm2沿用了MAnorm的核心假設(shè),通過重構(gòu)其信號(hào)強(qiáng)度變換體系,新發(fā)展了以參照樣本為基準(zhǔn)的多樣本并行ChIP-seq信號(hào)標(biāo)準(zhǔn)化流程。進(jìn)一步,針對(duì)多樣本分組比較的需求,MAnorm2搭建了一個(gè)理論上適應(yīng)任意樹狀分組結(jié)構(gòu)的層級(jí)化多樣本標(biāo)準(zhǔn)化策略。在完成標(biāo)準(zhǔn)化后,MAnorm2接下來(lái)針對(duì)每個(gè)基因組區(qū)域上觀察到的ChIP-seq信號(hào)組間差異進(jìn)行統(tǒng)計(jì)檢驗(yàn)。在通常組內(nèi)樣本數(shù)較少的局限下(2-3個(gè)重復(fù)本),為了能更準(zhǔn)確地衡量每一個(gè)基因組區(qū)域上的組內(nèi)樣本間ChIP-seq信號(hào)變化水平(within-group variability),MAnorm2設(shè)計(jì)了一個(gè)經(jīng)驗(yàn)貝葉斯框架,利用擬合均值-方差曲線來(lái)給單個(gè)區(qū)域的組內(nèi)變化水平賦予一個(gè)先驗(yàn)分布,并進(jìn)一步通過平衡先驗(yàn)和后驗(yàn)觀測(cè)來(lái)更準(zhǔn)確地估計(jì)ChIP-seq信號(hào)的組內(nèi)變化水平,從而提高對(duì)組間差異ChIP-seq信號(hào)的靈敏度(圖一)。

圖一:(A)在不同基因組區(qū)域間擬合均值-方差曲線(mean-variance curve;MVC)。(B)根據(jù)不同的統(tǒng)計(jì)指標(biāo)對(duì)基因啟動(dòng)子按照差異H3K4me3 ChIP-seq信號(hào)的可能性進(jìn)行排序,并計(jì)算其中差異表達(dá)基因(differentially expressed genes;DEGs)啟動(dòng)子所占的比例。(C)檢查不同類型的基因啟動(dòng)子上差異H3K4me3的統(tǒng)計(jì)顯著性。虛線對(duì)應(yīng)P值為0.05。
與已有的其他經(jīng)驗(yàn)貝葉斯方法相比,MAnorm2最大的優(yōu)勢(shì)在于考慮了不同樣本組的組內(nèi)ChIP-seq信號(hào)變化水平可能存在系統(tǒng)性差別。這一情形在正常人和癌癥患者之間的比較中經(jīng)常出現(xiàn):由于腫瘤組織或血液樣本本身的異質(zhì)性以及癌癥亞類型和不同患病階段的多樣性,癌癥樣本組的組內(nèi)信號(hào)變化水平往往顯著高于正常樣本組。為了解決這個(gè)問題,MAnorm2通過在建模過程中引入一個(gè)方差比率因子,首先把不同樣本組的全局組內(nèi)信號(hào)變化水平修正至一致,然后使用修正后的方差進(jìn)行均值-方差曲線的擬合和參數(shù)估計(jì)(圖二)。研究人員將MAnorm2與現(xiàn)有的其他ChIP-seq差異分析工具進(jìn)行了系統(tǒng)地比較,發(fā)現(xiàn)MAnorm2展現(xiàn)了明顯更優(yōu)越的使用性能,尤其是當(dāng)進(jìn)行比較的樣本組擁有明顯不同的組內(nèi)變化水平時(shí),例如癌癥和正常樣本相比較。

圖二:(A)對(duì)來(lái)自不同的人的H3K27ac ChIP-seq樣本進(jìn)行主成分分析。這里L(fēng)CL(lymphoblastoid cell line)組包含三個(gè)源于正常人的B細(xì)胞的細(xì)胞系;CLL(chronic lymphocytic leukemia)組包含三個(gè)源于慢性淋巴細(xì)胞白血病患者的B細(xì)胞的細(xì)胞系。(B)關(guān)于來(lái)自不同組的均值和未修正的方差的散點(diǎn)圖。(C)關(guān)于均值和修正后的方差的散點(diǎn)圖,以及由此進(jìn)行下一步統(tǒng)計(jì)建模。
此外,該模型的應(yīng)用場(chǎng)景和統(tǒng)計(jì)模型具有良好的可擴(kuò)展性。在正文中,研究人員不僅展示了MAnorm2在ATAC-seq數(shù)據(jù)差異分析上同樣適用,還將其統(tǒng)計(jì)模型擴(kuò)展到可以同時(shí)比較任意多個(gè)樣本組,并發(fā)現(xiàn)其使用效果優(yōu)于傳統(tǒng)的ANOVA方法。
該研究由中國(guó)科學(xué)院上海營(yíng)養(yǎng)與健康研究所等多家機(jī)構(gòu)合作完成。中科院營(yíng)養(yǎng)健康所博士后涂世奇為該論文第一作者,邵振研究員為通訊作者。中科院植物生理生態(tài)研究所張一婧研究員、美國(guó)西南醫(yī)學(xué)中心徐劍教授和波士頓大學(xué)的David J. Waxman教授對(duì)該研究工作的提出和完善也做出了重要貢獻(xiàn)。該研究獲得了國(guó)家自然科學(xué)基金委(31871280 和31701140)、科技部、中科院等機(jī)構(gòu)的資助。
論文鏈接:https://genome.cshlp.org/content/early/2020/11/18/gr.262675.120