微生物組學(xué)關(guān)聯(lián)分析方法和策略*

2023-10-18 14:04:52呂嘉麗谷冰冰

中國(guó)衛(wèi)生統(tǒng)計(jì) 2023年4期

樊哲呂嘉麗張帥谷冰冰張濤△

【提要】目的微生物組研究中的典型數(shù)據(jù)是由操作分類單元(OTU)計(jì)數(shù)組成,這些數(shù)據(jù)具有零膨脹、過(guò)離散、偏態(tài)等特點(diǎn),常常被研究者忽視。本文旨在介紹微生物組學(xué)數(shù)據(jù)關(guān)聯(lián)分析方法,并提出相關(guān)研究策略。方法根據(jù)微生物組學(xué)數(shù)據(jù)特點(diǎn),本文擬從線性相關(guān)分析和非線性相關(guān)分析的角度,對(duì)近年來(lái)國(guó)內(nèi)外研究者提出的微生物組學(xué)數(shù)據(jù)關(guān)聯(lián)分析的統(tǒng)計(jì)分析方法展開(kāi)討論。結(jié)果根據(jù)各方法的核心思想及優(yōu)缺點(diǎn),總結(jié)統(tǒng)計(jì)分析策略。結(jié)論運(yùn)用本文提出的統(tǒng)計(jì)分析策略,可有效識(shí)別微生物同其他研究指標(biāo)間多種函數(shù)形式的關(guān)聯(lián)。為探討微生物對(duì)人體健康影響,研究微生物的作用機(jī)制提供線索。

近年來(lái),隨著高通量測(cè)序技術(shù)及統(tǒng)計(jì)分析方法的發(fā)展,微生物組學(xué)聯(lián)合代謝組、蛋白組及其他組學(xué)的多組學(xué)關(guān)聯(lián)研究已成為系統(tǒng)生物學(xué)研究新趨勢(shì)[1]。從系統(tǒng)生物學(xué)角度來(lái)看,整合多個(gè)層面組學(xué)數(shù)據(jù),構(gòu)建多組學(xué)關(guān)聯(lián)網(wǎng)絡(luò),能更充分理解各分子間的調(diào)控及因果關(guān)系,為探索疾病深層發(fā)生發(fā)展機(jī)制提供新思路。組學(xué)數(shù)據(jù)通常具有高維的特點(diǎn),在探索分析的階段,可以通過(guò)關(guān)聯(lián)分析的統(tǒng)計(jì)方法,過(guò)濾出有統(tǒng)計(jì)學(xué)意義的變量,從而為后續(xù)的機(jī)制分析篩選出更小范圍的目標(biāo)變量。然而,目前多數(shù)研究在微生物組關(guān)聯(lián)分析中往往忽視了微生物組學(xué)數(shù)據(jù)特點(diǎn)及各相關(guān)性分析方法的適用條件,導(dǎo)致研究結(jié)果產(chǎn)生偏差,出現(xiàn)關(guān)聯(lián)結(jié)論與生物學(xué)結(jié)論不一致的問(wèn)題[2-5]。本文擬對(duì)近年來(lái)國(guó)內(nèi)外研究者提出的微生物組學(xué)關(guān)聯(lián)分析方法進(jìn)行介紹,并系統(tǒng)地總結(jié)各個(gè)方法的核心思想及優(yōu)缺點(diǎn),提出微生物組學(xué)數(shù)據(jù)關(guān)聯(lián)分析的統(tǒng)計(jì)分析策略。

微生物組學(xué)數(shù)據(jù)特點(diǎn)

微生物組學(xué)數(shù)據(jù)通常來(lái)自16S測(cè)序或宏基因組測(cè)序。16S測(cè)序是在提取微生物DNA后,對(duì)微生物16S rRNA基因高變異區(qū)域進(jìn)行聚合酶鏈?zhǔn)椒磻?yīng) (polymerase chain reaction,PCR) 擴(kuò)增和測(cè)序。而宏基因組測(cè)序是對(duì)研究樣本中全部微生物的總DNA進(jìn)行高通量測(cè)序,并且宏基因組測(cè)序有更深的測(cè)序深度,能鑒定到種水平甚至菌株水平的微生物[6]。處理后的序列在一定的相似度水平上聚類為操作分類單元 (operational taxonomic units,OTU),通常將相似水平大于97%的OTU納入后續(xù)生物信息學(xué)和統(tǒng)計(jì)學(xué)分析。

真實(shí)的微生物組學(xué)數(shù)據(jù)(如表1所示)具有以下幾個(gè)特征:① 稀疏性:觀測(cè)單位中,每一個(gè)OTU有部分觀測(cè)值為零,也被稱為零膨脹現(xiàn)象。② 非線性:微生物豐度與其他組學(xué)數(shù)據(jù)或臨床指標(biāo)存在多種多樣的非線性關(guān)系,而不只是單一的線性相關(guān)。③ 高維特點(diǎn):微生物組學(xué)數(shù)據(jù)還具有與其他組學(xué)數(shù)據(jù)相同的高維特點(diǎn),即變量數(shù)大于或遠(yuǎn)大于樣本數(shù)的情況。④ 過(guò)離散:OTU數(shù)據(jù)存在過(guò)離散的現(xiàn)象,即變量的方差大于均值。迄今為止,仍沒(méi)有一種方法或策略能夠應(yīng)對(duì)微生物數(shù)據(jù)的眾多挑戰(zhàn)。

表1 微生物組學(xué)數(shù)據(jù)分布

微生物組學(xué)關(guān)聯(lián)分析常用統(tǒng)計(jì)分析方法

微生物組學(xué)關(guān)聯(lián)分析的研究目的通常包括:①?gòu)母呔S特征中過(guò)濾出少量特征用于后續(xù)機(jī)制研究。②構(gòu)建多組學(xué)關(guān)聯(lián)網(wǎng)絡(luò)。傳統(tǒng)的關(guān)聯(lián)分析方法僅能發(fā)現(xiàn)兩變量之間的單調(diào)關(guān)系,而微生物同其他水平分子之間可能存在多種函數(shù)形式的非線性關(guān)系。因此,根據(jù)研究目的和相關(guān)關(guān)系的形式,微生物組學(xué)相關(guān)性分析方法可分為以下幾類:①傳統(tǒng)關(guān)聯(lián)分析方法:包括傳統(tǒng)單變量相關(guān)統(tǒng)計(jì)方法及其用于微生物組數(shù)據(jù)的擴(kuò)展方法,僅能檢驗(yàn)出線性關(guān)系。②零膨脹模型:檢驗(yàn)變量間的線性關(guān)系,更好地解決了微生物組數(shù)據(jù)偏態(tài),零膨脹和過(guò)離散等問(wèn)題。③基于互信息的方法:檢驗(yàn)變量間的非線性關(guān)聯(lián)關(guān)系,且無(wú)分布要求。④知識(shí)驅(qū)動(dòng)的方法:構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)。本研究對(duì)十種關(guān)聯(lián)分析方法進(jìn)行簡(jiǎn)要的介紹和比較(如表2所示)。

表2 關(guān)聯(lián)分析方法原理及優(yōu)點(diǎn)

1.傳統(tǒng)關(guān)聯(lián)分析方法及其擴(kuò)展方法

線性相關(guān)分析因具有可解釋性強(qiáng)的優(yōu)勢(shì)而經(jīng)常被使用。Pearson相關(guān)以兩變量與各自平均的離差反映兩連續(xù)變量的線性相關(guān)程度[7]。該方法可以定量描述相關(guān)強(qiáng)度與方向,但當(dāng)不滿足正態(tài)性假設(shè)或樣本量小于30時(shí),難以得到可信結(jié)果。Mao等在山羊瘤胃微生物組的多組學(xué)研究中,應(yīng)用單變量相關(guān)方法建立微生物的屬與代謝物之間的Pearson相關(guān)矩陣,發(fā)現(xiàn)瘤胃微生物群落結(jié)構(gòu)的改變與代謝物之間存在明顯的相關(guān)性[8]。然而Pearson方法對(duì)變量分布要求嚴(yán)格,且微生物組數(shù)據(jù)通常呈現(xiàn)偏態(tài)或極偏態(tài)分布,不滿足Pearson方法的使用條件,繼續(xù)使用該方法可能導(dǎo)致檢驗(yàn)效能下降,甚至出現(xiàn)錯(cuò)誤的結(jié)果。

Friedman等在Pearson相關(guān)分析的基礎(chǔ)上進(jìn)行了改進(jìn),提出了成分?jǐn)?shù)據(jù)稀疏關(guān)聯(lián)(sparse correlations for compositional data,SparCC) 方法用于分析微生物成分?jǐn)?shù)據(jù),根據(jù)觀測(cè)值的Dirichlet分布對(duì)關(guān)聯(lián)程度進(jìn)行估計(jì)[9]。微生物組中的成分?jǐn)?shù)據(jù)即相對(duì)豐度數(shù)據(jù),描述單個(gè)物種占整個(gè)樣本微生物群落的百分比,某一樣本內(nèi)所有物種的相對(duì)豐度相加等于百分之百這一特點(diǎn)可能會(huì)導(dǎo)致傳統(tǒng)的關(guān)聯(lián)分析方法得到虛假的關(guān)聯(lián)?；趌asso的成分?jǐn)?shù)據(jù)關(guān)聯(lián)方法(correlation inference for compositional data through lasso,CCLasso)也適用于微生物數(shù)據(jù)關(guān)聯(lián)分析,其原理是在對(duì)成分?jǐn)?shù)據(jù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換后,使用基于懲罰函數(shù)的最小二乘法估計(jì)相關(guān)系數(shù)[10]。SparCC方法用于成分?jǐn)?shù)據(jù)分析,解決了一般方法結(jié)果中正相關(guān)性被抑制的問(wèn)題。You等人通過(guò)模擬研究發(fā)現(xiàn),相較于Pearson方法,在微生物和代謝物關(guān)聯(lián)分析時(shí)使用SparCC和CCLasso兩種方法能更好地控制假陽(yáng)性錯(cuò)誤率[11]。這兩種方法作為傳統(tǒng)方法在微生物組學(xué)中的擴(kuò)展,雖然解決了微生物組數(shù)據(jù)偏態(tài)的問(wèn)題,但忽視了微生物組中數(shù)據(jù)的零膨脹特點(diǎn),觀測(cè)值中過(guò)多的零值可能導(dǎo)致這些方法性能下降。

Spearman秩相關(guān)分析適用于估計(jì)連續(xù)或有序變量間的單調(diào)關(guān)聯(lián)研究,該方法對(duì)變量正態(tài)性不做要求,相比于Pearson相關(guān)其適用范圍更廣[12]。目前,Spearman秩相關(guān)分析在微生物組學(xué)領(lǐng)域中已被廣泛用于識(shí)別微生物與其他水平分子或臨床指標(biāo)之間的關(guān)聯(lián)性[13-15]。Spearman秩相關(guān)是一種非參數(shù)方法,適用范圍比Pearson更廣,但其中仍存在一些問(wèn)題:(1)微生物數(shù)據(jù)中零觀測(cè)值出現(xiàn)的概率通常遠(yuǎn)遠(yuǎn)超出一般計(jì)數(shù)模型(如泊松回歸和負(fù)二項(xiàng)回歸模型)的預(yù)期范圍,如果繼續(xù)使用一般關(guān)聯(lián)分析方法可能得到錯(cuò)誤結(jié)論。(2)Spearman秩相關(guān)方法作為一種非參數(shù)的方法,其統(tǒng)計(jì)檢驗(yàn)效能較低。(3)只能識(shí)別具有單調(diào)性的相關(guān)關(guān)系,對(duì)于微生物關(guān)聯(lián)研究中的多種函數(shù)關(guān)系的非線性相關(guān)不敏感。

2.零膨脹模型

Lambert首次建立了零膨脹泊松回歸模型,它的基本思想是將計(jì)數(shù)數(shù)據(jù)中的零觀測(cè)值歸結(jié)于兩部分,一是來(lái)源于數(shù)據(jù)結(jié)構(gòu)的結(jié)構(gòu)零,二是由分布產(chǎn)生的抽樣零[16]。

零膨脹泊松回歸模型可以看作Bernoulli分布和Poisson分布組成的混合分布,其概率密度函數(shù)為:

Xu等通過(guò)大量的模擬實(shí)驗(yàn),比較了零膨脹模型與常用方法對(duì)具有零膨脹特征的數(shù)據(jù)進(jìn)行建模的性能[17]。模擬研究表明,零膨脹模型可以較好控制一類錯(cuò)誤率,并且具有更高的統(tǒng)計(jì)效能,對(duì)參數(shù)估計(jì)更準(zhǔn)確。

然而,泊松回歸模型假設(shè)事件發(fā)生的期望和方差相等,并且要求事件發(fā)生前后相互獨(dú)立,但微生物數(shù)據(jù)方差通常大于均數(shù),表現(xiàn)出過(guò)離散的現(xiàn)象,往往不符合這一假設(shè),這將導(dǎo)致模型參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤偏小,參數(shù)Wald檢驗(yàn)的假陽(yáng)性率增加。為了解決零膨脹數(shù)據(jù)中的過(guò)度離散問(wèn)題,Martin. Ridout研究了零膨脹負(fù)二項(xiàng)回歸模型,并證明了零膨脹負(fù)二項(xiàng)回歸比零膨脹泊松回歸模型更適合處理離散度高的數(shù)據(jù)[18]。零膨脹負(fù)二項(xiàng)回歸模型以負(fù)二項(xiàng)分布為基礎(chǔ),相比于零膨脹泊松回歸模型,能更好擬合不同離散度的數(shù)據(jù)。Wu等使用零膨脹負(fù)二項(xiàng)回歸模型發(fā)現(xiàn)表皮生長(zhǎng)因子受體陽(yáng)性的女性腸道菌群α多樣性較低,隨著乳腺癌惡化FirmicutesProteobacteria等微生物豐度增加[19]。Schwimmer等用同樣的方法研究了非酒精性脂肪肝患者的腸道微生物,發(fā)現(xiàn)炎癥相關(guān)菌群與非酒精性脂肪發(fā)病及其嚴(yán)重程度存在關(guān)聯(lián),Prevotella的豐度與肝纖維化有關(guān),并且使用菌群構(gòu)建了區(qū)分能力較好的判別模型[20]。

線性相關(guān)是容易解釋的相關(guān)形式,針對(duì)微生物數(shù)據(jù)特點(diǎn),零膨脹模型對(duì)于微生物數(shù)據(jù)線性關(guān)系的檢驗(yàn)效能顯著高于其他方法。但是,零膨脹模型在識(shí)別微生物和其他層面組學(xué)變量或一些臨床指標(biāo)間的復(fù)雜非線性關(guān)聯(lián)中存在局限性。

3.基于互信息的關(guān)聯(lián)分析方法

互信息 (mutual information,MI) 是來(lái)源于信息論中熵的概念,可用于度量?jī)蓚€(gè)隨機(jī)變量之間依賴程度,表明一個(gè)隨機(jī)變量包含關(guān)于另一個(gè)隨機(jī)變量的信息量[21]?；バ畔⒌挠?jì)算中,兩個(gè)隨機(jī)變量(X,Y)的聯(lián)合分布為p(x,y),邊緣分布為p(x),p(y),互信息I(X;Y)是聯(lián)合分布p(x,y)于邊緣分布p(x)p(y)的相對(duì)熵,即

根據(jù)熵的連鎖規(guī)則,有

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

互信息對(duì)樣本的分布類型無(wú)特別要求,可以有效度量變量間線性關(guān)系和非線性關(guān)系,兩個(gè)隨機(jī)變量之間的互信息越大,則兩者之間的相關(guān)性就越強(qiáng)。傳統(tǒng)的互信息中要求變量是離散的且已知雙變量的聯(lián)合概率密度。微生物物種豐度是計(jì)數(shù)數(shù)據(jù),可以先對(duì)微生物進(jìn)行分箱,再計(jì)算互信息。然而傳統(tǒng)互信息方法對(duì)于分箱的方式選擇具有敏感性,不同的分箱方式可能導(dǎo)致結(jié)果差異較大。

Kraskov提出使用基于K近鄰 (K-nearest neighbors,KNN) 的方法計(jì)算兩連續(xù)變量的互信息[22]。該方法無(wú)需知道概率密度函數(shù)形式,避免了對(duì)概率密度函數(shù)的估計(jì),適用于非線性不規(guī)則分布的數(shù)據(jù)。其基本思想是在由隨機(jī)變量X和Y構(gòu)成的空間中首先找到給定樣本的k個(gè)近鄰樣本,再計(jì)算X和Y軸方向上距離小于K近鄰距離的樣本數(shù)目,并據(jù)此進(jìn)行互信息估計(jì)。非參數(shù)方法除了K近鄰方法還包括核密度估計(jì)的互信息[23]。K近鄰和核密度估計(jì)方法將傳統(tǒng)的互信息適用范圍從離散變量擴(kuò)展到連續(xù)變量。Jahagirdar等使用互信息方法構(gòu)建了代謝物-代謝物的關(guān)聯(lián)網(wǎng)絡(luò),并發(fā)現(xiàn)互信息方法與Pearson和Spearman方法分析的結(jié)果存在差異[24]。Numata等使用基于KNN的互信息方法分析擬南芥代謝物濃度數(shù)據(jù),發(fā)現(xiàn)互信息能夠檢測(cè)出Pearson相關(guān)系數(shù)無(wú)法發(fā)現(xiàn)的額外非線性相關(guān)[25]。K近鄰和核密度估計(jì)的互信息的缺點(diǎn)在于沒(méi)有合適的歸一化數(shù)據(jù)預(yù)處理方法,關(guān)聯(lián)強(qiáng)度大小不便于比較。

David N. Reshef在互信息方法的基礎(chǔ)上提出了最大信息系數(shù) (maximal information coefficient,MIC) 的方法[26]。MIC方法首先對(duì)變量X和Y構(gòu)成的散點(diǎn)圖進(jìn)行網(wǎng)格化,并且求出不同網(wǎng)格化方案中的最大互信息值,再對(duì)最大的互信息值進(jìn)行歸一化。MIC的計(jì)算方式如下:

Logares等將MIC方法用于分析海洋表層微生物,發(fā)現(xiàn)原核生物和海洋的溫度與氧氣有關(guān)[27]。Cao等提出了一種共表達(dá)網(wǎng)絡(luò)分析方法,即在加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析 (weighted correlation network analysis,WGCNA) 的基礎(chǔ)上,結(jié)合了Pearson相關(guān)系數(shù)和最大信息系數(shù)作為配對(duì)基因之間的相似性度量,以此構(gòu)建共表達(dá)網(wǎng)絡(luò)。該方法能發(fā)現(xiàn)WGCNA方法所忽略的非線性相關(guān),識(shí)別更多潛在的包含癌癥信息的基因,具有更高的預(yù)測(cè)精度[28]。MIC的優(yōu)點(diǎn)是可用于各種函數(shù)形式的相關(guān)關(guān)系分析,在樣本量足夠大時(shí)能為不同類型單噪聲程度相似的相關(guān)關(guān)系給出相近系數(shù)。但MIC的缺點(diǎn)在于其統(tǒng)計(jì)效能較低,在進(jìn)行大規(guī)模的探索分析時(shí),需要較大的樣本量。

4.知識(shí)驅(qū)動(dòng)的網(wǎng)絡(luò)構(gòu)建方法

Rob Knight提出了microbe-metabolite vectors (mmvec) 神經(jīng)元網(wǎng)絡(luò)方法,該方法專用于微生物組與代謝組數(shù)據(jù),通過(guò)學(xué)習(xí)代謝物和微生物共現(xiàn)概率,確定微生物與代謝物之間的關(guān)系[29]。Mmvec方法通過(guò)給定單個(gè)輸入微生物序列的情況下估計(jì)代謝物響應(yīng)強(qiáng)度,通過(guò)計(jì)算估計(jì)關(guān)聯(lián)與真實(shí)關(guān)聯(lián)的誤差對(duì)模型的權(quán)重進(jìn)行調(diào)整,并進(jìn)行內(nèi)部交叉驗(yàn)證和迭代訓(xùn)練,預(yù)測(cè)微生物和代謝物的關(guān)聯(lián)關(guān)系。Mmvec相比于Pearson,Spearman和SparCC具有更高的F1得分,精確率和召回率。

Borenstein Lab提出了MIMOSA2模型,基于微生物在全基因組代謝模型(genome-scale metabolic models,GEMs)或KEGG中已知的代謝相關(guān)信息,計(jì)算微生物群落代謝能力 (community-wide metabolite potential,CMP)構(gòu)建代謝模型來(lái)估計(jì)群落組成對(duì)代謝物濃度的影響,并評(píng)估CMP與觀測(cè)到的代謝組特征的差異,從而發(fā)現(xiàn)相關(guān)的微生物和代謝物[30-32]。然而mmvec和MIMOSA2方法的適用范圍較小,僅能用于微生物和代謝物的關(guān)聯(lián)分析,從多組學(xué)的角度來(lái)看,微生物可能同其他多個(gè)水平的分子之間存在關(guān)聯(lián)甚至因果調(diào)控關(guān)系。

微生物組學(xué)關(guān)聯(lián)分析策略

多組學(xué)研究設(shè)計(jì)在成為探索疾病發(fā)生發(fā)展深層機(jī)制的有力手段的同時(shí),也為統(tǒng)計(jì)分析帶來(lái)了新的機(jī)遇與挑戰(zhàn)。研究者們?cè)谶M(jìn)行微生物組學(xué)數(shù)據(jù)關(guān)聯(lián)分析過(guò)程中,常常忽略微生物組學(xué)數(shù)據(jù)零膨脹,過(guò)離散等數(shù)據(jù)特點(diǎn),以及相應(yīng)統(tǒng)計(jì)分析方法原理與前提假設(shè),導(dǎo)致采用單一分析方法可能存在檢驗(yàn)效能過(guò)低的問(wèn)題,甚至出現(xiàn)錯(cuò)誤結(jié)果。本文綜合上述分析方法特點(diǎn)及微生物組學(xué)數(shù)據(jù)特點(diǎn),探索了微生物組學(xué)關(guān)聯(lián)分析策略(流程圖如圖1所示),具體總結(jié)如下:

圖1 微生物組學(xué)數(shù)據(jù)關(guān)聯(lián)分析策略流程圖

1.數(shù)據(jù)預(yù)處理。參數(shù)方法對(duì)數(shù)據(jù)分布有嚴(yán)格要求,根據(jù)使用的方法對(duì)數(shù)據(jù)進(jìn)行相應(yīng)預(yù)處理是十分必要的。對(duì)于微生物成分?jǐn)?shù)據(jù),需要進(jìn)行中心對(duì)數(shù)轉(zhuǎn)換:

其他水平分子和臨床指標(biāo)等一般的連續(xù)變量也建議進(jìn)行處理(如標(biāo)準(zhǔn)化,對(duì)數(shù)比轉(zhuǎn)換,BOX-COX變換等),使變量分布為標(biāo)準(zhǔn)正態(tài)或近似標(biāo)準(zhǔn)正態(tài)分布。

2.數(shù)據(jù)特點(diǎn)描述:對(duì)原始的和預(yù)處理后的數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,關(guān)注變量分布情況。此外,還應(yīng)描述微生物組中每個(gè)變量零觀測(cè)值比例,對(duì)零觀測(cè)值比例較高的變量,應(yīng)采用零膨脹模型和非參數(shù)的關(guān)聯(lián)分析方法。

3.線性關(guān)系識(shí)別。針對(duì)微生物數(shù)據(jù)特點(diǎn),零膨脹模型對(duì)于微生物數(shù)據(jù)線性關(guān)系的檢驗(yàn)效能顯著高于其他方法,并且一類錯(cuò)誤率較低。同時(shí),線性相關(guān)形式相較于非線性相關(guān)形式具有更好的生物可解釋性。使用零膨脹負(fù)二項(xiàng)回歸或零膨脹beta回歸模型(分別適用于微生物絕對(duì)豐度數(shù)據(jù)和相對(duì)豐度數(shù)據(jù))對(duì)數(shù)據(jù)進(jìn)行模型擬合,根據(jù)回歸系數(shù)的大小以及回歸系數(shù)的顯著性得到兩個(gè)變量間的(偏)相關(guān)系數(shù)大小及統(tǒng)計(jì)檢驗(yàn)顯著性,若相關(guān)系數(shù)檢驗(yàn)的P值小于設(shè)定置信水平α,則認(rèn)為兩變量間存在線性相關(guān),否則按照存在非線性關(guān)聯(lián)進(jìn)行進(jìn)一步檢驗(yàn)。

4.關(guān)聯(lián)分析。對(duì)上一步識(shí)別為線性相關(guān)的變量對(duì),采用零膨脹模型估計(jì)相關(guān)關(guān)系強(qiáng)弱。對(duì)于不存在線性關(guān)系的變量對(duì),可以通過(guò)非線性相關(guān)分析方法做進(jìn)一步探索。MIC可以發(fā)現(xiàn)多種多樣的相關(guān)函數(shù)形式,Spearman相關(guān)分析方法雖然統(tǒng)計(jì)檢驗(yàn)效能高于MIC,但只能發(fā)現(xiàn)存在單調(diào)關(guān)系的變量。因此可同時(shí)采用MIC和Spearman的方法分別進(jìn)行非線性相關(guān)關(guān)系識(shí)別,計(jì)算變量間的最大信息系數(shù)和相關(guān)系數(shù),并給出系數(shù)檢驗(yàn)的P值,若P值小于置信水平α,則認(rèn)為兩變量間存在非線性相關(guān)。最后,給出線性和非線性相關(guān)的R和P值。

5.多重假設(shè)檢驗(yàn)問(wèn)題處理。高維情境常涉及多重檢驗(yàn)問(wèn)題,傳統(tǒng)的統(tǒng)計(jì)檢驗(yàn)方法中會(huì)產(chǎn)生大量假陽(yáng)性結(jié)果,大大增加假陽(yáng)性錯(cuò)誤[33]。對(duì)于多重檢驗(yàn),在檢驗(yàn)水平固定的情況下,隨著檢驗(yàn)次數(shù)的增加,至少犯一次假陽(yáng)性錯(cuò)誤的概率將會(huì)趨于1。因此需要考慮對(duì)假設(shè)檢驗(yàn)結(jié)果的P值進(jìn)行校正,將校正后的P值控制在某一固定水平及以下。目前常用校正方法包括Bonferroni校正法及FDR校正法[34]。對(duì)于第二步和第三步過(guò)程中的多重假設(shè)檢驗(yàn)問(wèn)題,采用FDR的方法校正P值的閾值。

由于微生物組學(xué)數(shù)據(jù)的復(fù)雜特性,上述分析手段能在一定程度上解決組學(xué)數(shù)據(jù)統(tǒng)計(jì)分析問(wèn)題,但仍存在局限性。由于各變量間存在多種非線性關(guān)系,實(shí)際分析中可能需要結(jié)合多種網(wǎng)絡(luò)構(gòu)建方法[35]?；诨バ畔⒌姆椒m然適用于多種非線性關(guān)系并對(duì)數(shù)據(jù)分布沒(méi)有要求,但是在小樣本條件下檢驗(yàn)效能較低,如何提高關(guān)聯(lián)分析方法適用范圍和檢驗(yàn)效能需要進(jìn)一步研究。此外,橫斷面研究對(duì)于探索微生物與其他水平分子的調(diào)控及因果關(guān)系可能存在證據(jù)不充分的問(wèn)題,縱向研究中的研究策略和研究方法需要進(jìn)一步探討。以上三個(gè)關(guān)鍵科學(xué)問(wèn)題的解決將會(huì)對(duì)微生物組學(xué)關(guān)聯(lián)分析提供新的思路與契機(jī)。