任玉艷, 熊 馨, 賀建峰*
(1. 浙江長(zhǎng)征職業(yè)技術(shù)學(xué)院護(hù)理與健康學(xué)院, 杭州 310012; 2. 昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院, 昆明 650500)
糖尿?。╠iabetes mellitus, DM)是一種因胰島素分泌缺陷或胰島素作用障礙所導(dǎo)致的慢性代謝性疾病[1-2]。在DM中2型糖尿?。╰ype 2 diabetes mellitus, T2DM)所占比率超過(guò)90%, 其中胃腸道病變是嚴(yán)重影響DM患者的主要并發(fā)癥之一[3-5]。研究表明[6-7], 腸道菌群失調(diào)與T2DM的發(fā)生有著一定的聯(lián)系, 但詳細(xì)作用機(jī)制并不十分清楚。目前對(duì)腸道菌群研究中較多的是對(duì)菌群的群落組成和多樣性的分析, 用于研究微生物生態(tài)學(xué)的基本問(wèn)題之一:有多少類(lèi)群或者分類(lèi)操作單元(operational taxonomic units, OTUs)存在?通常采用多變量統(tǒng)計(jì)或者模式識(shí)別方法, 識(shí)別菌群數(shù)據(jù)中的不同結(jié)構(gòu)模式, 如主成分分析(principal component analysis, PCA)[8-10]、主坐標(biāo)分析(principal coordinate analysis, PCoA)[11-13]、圍繞中心點(diǎn)劃分聚類(lèi)[14-15]等。這些方法存在一些固有問(wèn)題, 一方面高多樣性的微生物組學(xué)數(shù)據(jù)往往數(shù)據(jù)集稀疏, 另一方面大多數(shù)分類(lèi)單元僅出現(xiàn)在少數(shù)低豐度的樣品中。此外, 微生物基因樣本的小樣本的固有噪聲比大樣本大。
在腸道微生物菌群結(jié)構(gòu)的比較研究中, 傳統(tǒng)的聚類(lèi)方法如K-means[16]、層次聚類(lèi)[17-18]、分區(qū)聚類(lèi)、基于網(wǎng)格的聚類(lèi)[19-20]等作為非監(jiān)督學(xué)習(xí)算法被廣泛使用。不同的是, 譜聚類(lèi)更適用于具有不同的密度、隨機(jī)的復(fù)雜形狀和不穩(wěn)定的大小的數(shù)據(jù)集, 并且計(jì)算量偏小, 展現(xiàn)出更高的性能。譜聚類(lèi)算法基本可以分為二路譜聚類(lèi)算法和多路譜聚類(lèi)算法這兩種類(lèi)型, 前者主要是以二路譜聚類(lèi)算法(PF算法)為代表且采用圖的二路劃分準(zhǔn)則, 后者主要是以多路譜聚類(lèi)算法(NJW算法)為代表且采用圖的多路劃分準(zhǔn)則[21]。
譜聚類(lèi)算法的相似度矩陣需要高斯核函數(shù)構(gòu)造, 其參數(shù)需人為選定, 且特征向量并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。Zelnik等[22]提出self-tuning譜聚類(lèi)算法, 針對(duì)每個(gè)樣本定義局部尺度參數(shù), 并將自適應(yīng)的局部尺度參數(shù)定義為樣本i與其第p個(gè)近鄰的距離。但是此方法依舊沒(méi)有解決高斯核函數(shù)參數(shù)受經(jīng)驗(yàn)值影響的問(wèn)題。王玲等[23]將相似性度量變?yōu)榛诿芏让舾械南嗨菩远攘? 能在較大尺度范圍內(nèi)得到較好的聚類(lèi)結(jié)果。Xie等[24]提出了基于樣本局部標(biāo)準(zhǔn)差的譜聚類(lèi)算法, 自適應(yīng)的局部尺度參數(shù)a被定義為樣本與其第p個(gè)近鄰距離的標(biāo)準(zhǔn)差, 但參數(shù)p仍依賴(lài)經(jīng)驗(yàn)值[24]。如何解決自適應(yīng)選取參數(shù)的問(wèn)題以構(gòu)造盡可能反映真實(shí)樣本內(nèi)部的相似性矩陣, 以及譜聚類(lèi)算法的聚類(lèi)結(jié)果不穩(wěn)定等問(wèn)題仍需要在該算法基礎(chǔ)上進(jìn)行持續(xù)性研究。
本文以T2DM腸道菌群數(shù)據(jù)集為例, 提出成對(duì)比率幾何平均值(geometric mean of pairwise ratios, GMPR)結(jié)合改進(jìn)的Spectrum算法。首先, 針對(duì)菌群數(shù)據(jù)稀疏問(wèn)題, 采用GMPR進(jìn)行歸一化;然后, 針對(duì)數(shù)據(jù)存在噪聲的問(wèn)題, 因Spectrum算法對(duì)單類(lèi)人群識(shí)別效果不佳, 提出改進(jìn)的Spectrum算法, 通過(guò)構(gòu)造加權(quán)的相似性矩陣可計(jì)算每個(gè)樣本所對(duì)應(yīng)的不同特征值大小在該樣本中所占據(jù)的權(quán)重, 再將拉普拉斯矩陣替換為Hessian矩陣, 避免傳統(tǒng)譜聚類(lèi)的靈敏度問(wèn)題;最后, 結(jié)合ISODATA算法找到最佳聚類(lèi)。使用本文所采用的聚類(lèi)方法進(jìn)行OTUs聚類(lèi)后, 可以找出患病人群與健康人的菌群結(jié)構(gòu)差異, 這些核心菌群在人體菌群中起到關(guān)鍵性的作用。探討腸道菌群與T2DM、2型糖尿病合并腹瀉的關(guān)系, 可能成為治療、預(yù)防這些疾病的一個(gè)突破口;使用信息處理手段識(shí)別T2DM患者腸道菌群數(shù)據(jù)的結(jié)構(gòu)變化, 為疾病的預(yù)防和診療提供了一種新的手段。
本文所采用的T2DM數(shù)據(jù)集均來(lái)源于云南省第一人民醫(yī)院消化科, 經(jīng)云南省第一人民醫(yī)院倫理委員會(huì)批準(zhǔn), 所有受試者均簽署知情同意書(shū)。數(shù)據(jù)集包含140例樣本, 其中包括T2DM(簡(jiǎn)稱(chēng)為D)患者74例, 2型糖尿病合并胃腸自主神經(jīng)病變(簡(jiǎn)稱(chēng)為P)患者27例, 健康人(簡(jiǎn)稱(chēng)為N)39例。試驗(yàn)中使用的數(shù)據(jù)為絕對(duì)豐度數(shù)據(jù)。
GMPR是一種專(zhuān)門(mén)用于解決數(shù)據(jù)零膨脹問(wèn)題的歸一化方法[25], 能夠解決數(shù)據(jù)特征中包含大量零以及測(cè)序深度不一的問(wèn)題。
GMPR用來(lái)計(jì)算給定樣本的尺寸因子Si, 可以對(duì)給定樣本的(相對(duì))庫(kù)大小進(jìn)行估計(jì), 其公式如下:
首先是計(jì)算rij,
其中k代表OTUs數(shù)目,rij代表樣本i和樣本j之間非零計(jì)數(shù)的中值計(jì)數(shù)比,ckj表示為第i個(gè)(i=1, …,n)樣本中第k個(gè)(k=1, …,q)OTUs的計(jì)數(shù)。
再計(jì)算給定樣本i的尺寸因子Si,
簡(jiǎn)單來(lái)說(shuō), GMPR是把OTUs計(jì)數(shù)表中的樣本兩兩間進(jìn)行成對(duì)比較, 將成對(duì)比較結(jié)果合并以獲得最終估計(jì)值。
Spectrum算法[26]把數(shù)據(jù)分析問(wèn)題看作是圖的最優(yōu)分割問(wèn)題, 它在構(gòu)建相似矩陣時(shí)采用自調(diào)整密度感知內(nèi)核, 進(jìn)一步增強(qiáng)最近鄰點(diǎn)之間的相似性, 同時(shí)降低噪聲, 并且Spectrum算法可以實(shí)現(xiàn)尋找分析涉及特征向量分布的最佳聚類(lèi)數(shù)(K), 自動(dòng)找到高斯和非高斯結(jié)構(gòu)的K[26]。
對(duì)于輸入的OTUs利用Spectrum算法中的自適應(yīng)密度感知內(nèi)核, 經(jīng)計(jì)算得到相似性矩陣A*。從A*開(kāi)始, Spectrum算法使用Ng譜聚類(lèi)方法, 同時(shí)使用特征值啟發(fā)式方法來(lái)估計(jì)聚類(lèi)的數(shù)量, 最后利用高斯混合建模(gaussian mixture model, GMM)/K-means對(duì)特征向量矩陣聚類(lèi), 對(duì)OTUs所代表的特征簇進(jìn)行劃分。
改進(jìn)的Spectrum算法是將輸入數(shù)據(jù)通過(guò)加權(quán)的自適應(yīng)密度感知內(nèi)核計(jì)算相似性矩陣A*。從A*開(kāi)始, 該算法使用Ng譜聚類(lèi)方法, 同時(shí)使用特征值啟發(fā)式方法來(lái)估計(jì)聚類(lèi)的數(shù)量, 最后利用ISODATA來(lái)聚類(lèi)最終的特征向量矩陣, 對(duì)OTUs所代表的特征簇進(jìn)行劃分。
1)改進(jìn)Spectrum算法首先是使用加權(quán)的自適應(yīng)密度感知內(nèi)核計(jì)算相似性矩陣, 矩陣A*∈Rn×n。加權(quán)的自適應(yīng)密度感知內(nèi)核為:
其中,d(sisj)*表示Si和Sj(即不同OTUs)之間的歐幾里得距離,σi和σj是局部縮放參數(shù),CNN(sisj)表示點(diǎn)Si和Sj周?chē)蝮w半徑鄰域的連接區(qū)域中的點(diǎn)數(shù)。
2)計(jì)算對(duì)角矩陣D,D中(i,i)元素代表總和A*的第i行, 利用D構(gòu)建Hession矩陣H:
其中,H(r)=(r2-1)I-rA+D。A代表相似度矩陣,D代表對(duì)角矩陣,I代表單位矩陣。在穩(wěn)定點(diǎn), 根據(jù)光譜半徑的值計(jì)算正則化參數(shù)ρ(B)代表非回溯矩陣B的譜半徑。首先計(jì)算譜半徑ρ(B)=mean(d2)/mean(d)-1[28],d代表度。
3)對(duì)H進(jìn)行特征分解并求解特征向量X1,X2, …,Xn+1和特征值λ1,λ2, …,λn+1。
4)判斷特征值的差值, 從第二個(gè)特征值開(kāi)始,n=2, 并選擇最佳k, 其中特征差值最大用k*表示:
5)得到x1,x2, …,xk*,H的k*個(gè)最大特征向量, 然后形成矩陣X(每個(gè)特征向量按列排列)組成k*維空間的n個(gè)向量, 即X=[x1,x2, …,xk*] ∈RN~+k*。
6)將X矩陣按行進(jìn)行歸一化得到矩陣Y:
7)Y的每一行被視為一個(gè)樣本Si, 最后所有樣本利用ISODATA被聚類(lèi)成K*類(lèi), 得到的類(lèi)別標(biāo)簽即原始數(shù)據(jù)點(diǎn)的類(lèi)別標(biāo)簽。
本文提出基于特征貢獻(xiàn)度加權(quán)自適應(yīng)密度感知核函數(shù), 得到的樣本特征的相似度更加準(zhǔn)確。
特征權(quán)重計(jì)算的主要公式如下:
原始數(shù)據(jù)集S={si|si∈S,i=1, 2, …,n}, 其中每個(gè)樣本包含m個(gè)特征(即m個(gè)OTUs), 則可表示為Si={si1,si2, …,sim}。
特征差異度p計(jì)算公式如下:
其中,pm代表每一列特征的變化情況。
特征差異度[29]通常采用方差來(lái)表示特征存在的整體誤差情況, 容易出現(xiàn)偏差。因此, 本文使用了另一種計(jì)算p的方式, 公式如下:
其中,Si表示某一列的數(shù)據(jù), max(si)代表該列的最大值, min(sj)代表該列最小值, avg(si)代表該列的平均值。p值越大代表該特征的差異度越大。
本文計(jì)算特征差異度比值的最大值maxr, 目的是通過(guò)maxr了解是否存在最大最小特征差異度。
特征差異度比值的最大值公式如下:
其中,Pi、Pj分別表示第i列與第j列的特征差異度。
特征權(quán)值w的計(jì)算,w={w1,w2, ...,wm},w表示m個(gè)特征在計(jì)算歐幾里得距離時(shí)的m個(gè)特征貢獻(xiàn)度。本文利用Softmax函數(shù)計(jì)算特征權(quán)重, 其公式如下:
其中,Pi為每個(gè)特征差異度。Pi越小, 代表該特征貢獻(xiàn)度越小。
使用Softmax函數(shù)不僅可以突出最大特征貢獻(xiàn)度, 還可以遏制低于最大值的其余分量[30]。但Softmax函數(shù)會(huì)在某些情況下特征權(quán)重失衡, 此時(shí)采用Sigmoid 函數(shù), 函數(shù)魯棒性強(qiáng), 失衡的特征權(quán)重可被映射到有限的區(qū)間, 平衡特征權(quán)重失衡現(xiàn)象, 因此原本的wi計(jì)算公式也發(fā)生更改, 即:
wi代表每一個(gè)OTUs所對(duì)應(yīng)的權(quán)重大小, 對(duì)每個(gè)特征賦予權(quán)重后, 傳統(tǒng)的歐幾里得距離就可更改為加權(quán)的歐幾里得距離, 其公式如下:
隨即特征Si和特征Sj的自適應(yīng)密度感知內(nèi)核可調(diào)整為:
本文采用Hessian矩陣代替原始譜聚類(lèi)的拉普拉斯矩陣, 可以避免傳統(tǒng)譜聚類(lèi)的靈敏度問(wèn)題[31-32]。
ISODATA算法可以依據(jù)每個(gè)簇的不同現(xiàn)實(shí)情況不斷改變預(yù)期的聚類(lèi)中心數(shù)目K, 主要是通過(guò)分裂和合并這兩種方式來(lái)實(shí)現(xiàn)。分裂可以使得K增加, 合并可以使得K減少。ISODATA中K的變動(dòng)區(qū)間是[K/2, 2K] 。該算法需要額外指定一些參數(shù), 導(dǎo)致一個(gè)合理值的獲得很難被準(zhǔn)確指定。本文中通過(guò)設(shè)置合理的參數(shù), 可以得到一個(gè)較好的試驗(yàn)結(jié)果。
ISODATA算法的基本流程如下:
1)隨機(jī)選取K個(gè)初始聚類(lèi)中心, 它可以不等于所要求的聚類(lèi)中心的數(shù)目, 其初始位置可以從樣本中任意選??;
2)計(jì)算各個(gè)樣本xi到K個(gè)聚類(lèi)中心的距離d,d最短時(shí)就把此時(shí)對(duì)應(yīng)的樣本劃分到聚類(lèi)中心所在的簇中;
3)判斷找出的每個(gè)簇中的對(duì)象數(shù)目是否低于Nmin, 即每個(gè)簇所規(guī)定的最小樣本數(shù)目。一旦低于Nmin則該簇就會(huì)被丟棄, 此時(shí)K=K-1, 并把該簇中的樣本再一次劃分到K-1類(lèi)中距離最短的那一簇中;
4)對(duì)每個(gè)簇ci的聚類(lèi)中心進(jìn)行新一輪的計(jì)算, 即
5)一旦K≤K/2時(shí), 代表簇?cái)?shù)目太少, 進(jìn)行分裂操作;
6)一旦K≥2K時(shí), 代表簇?cái)?shù)目太多, 進(jìn)行合并操作;
7)當(dāng)最大迭代次數(shù)達(dá)到最大時(shí)就停止操作, 否則返回流程2)重新運(yùn)行。
使用ISODATA算法進(jìn)行聚類(lèi)時(shí)可以根據(jù)各個(gè)簇所包含樣本的實(shí)際數(shù)量對(duì)聚類(lèi)中心數(shù)目進(jìn)行調(diào)整。比較方差后發(fā)現(xiàn), 某個(gè)簇中樣本離散程度大時(shí)就對(duì)其進(jìn)行分裂;比較過(guò)聚類(lèi)中心的距離時(shí), 一旦發(fā)現(xiàn)某兩個(gè)簇距離較短則進(jìn)行合并。
為了驗(yàn)證算法聚類(lèi)性能的好壞, 對(duì)T2DM數(shù)據(jù)集不同類(lèi)型人群分別進(jìn)行分析, 將特征值的差值(相鄰的兩個(gè)特征向量所對(duì)應(yīng)的特征值進(jìn)行做差, 即特征值的差值)最大時(shí)所對(duì)應(yīng)的k作為最優(yōu)的聚類(lèi)數(shù)目。如圖1所示, 以T2DM中的D類(lèi)人群為例, 在特征向量為7、8時(shí), 二者之間的特征值差值大約為0.4, 達(dá)到一個(gè)特征值的差值最大, T2DM患者所對(duì)應(yīng)的最佳聚類(lèi)數(shù)目為8, 其余類(lèi)別人群聚類(lèi)情況與圖1類(lèi)似。
為了驗(yàn)證改進(jìn)后Spectrum算法聚類(lèi)性能, 對(duì)T2DM數(shù)據(jù)集不同類(lèi)型人群分別進(jìn)行分析, 得到D、P、N類(lèi)人群的最佳聚類(lèi)數(shù)目如表1所示。
表1 T2DM數(shù)據(jù)集在不同類(lèi)型人群下的聚類(lèi)數(shù)目Tab. 1 Number of clusters of T2DM dataset under different types of populations
本文通過(guò)比較標(biāo)準(zhǔn)化互信息(normalized mutual information, NMI)、戴維森堡丁指數(shù)(Davies-Boulding index, DBI)、Calinski-Harabasz指標(biāo)(CH)、蘭德指數(shù)(Rand index, RI)及調(diào)整蘭德指數(shù)(adjusted Rand index, ARI)來(lái)評(píng)估算法的性能。這些指標(biāo)定義及公式如下所述。
2.2.1 NMI
NMI是確定聚類(lèi)質(zhì)量的常用方法[33]。NMI值越大, 意味著性能越好。設(shè)兩個(gè)隨機(jī)變量x,y的聯(lián)合分布為p(x,y), 邊緣分布分別為p(x),p(y)?;バ畔(X,Y)是聯(lián)合分布p(x,y)與乘積分布p(x)p(y)的相對(duì)熵, 它可以看成是一個(gè)隨機(jī)變量由于已知另一個(gè)隨機(jī)變量而減少的不肯定性, 公式為:
2.2.2 DBI
DBI越小, 類(lèi)內(nèi)距離越小, 聚類(lèi)效果越差[34]。
其中avg(C)含義為簇類(lèi)C的平均距離, |c(diǎn)|表示簇類(lèi)C的個(gè)數(shù), dist(xi,xj)是計(jì)算兩個(gè)樣本xi,xj之間的距離, 其中ui,uj分別為簇類(lèi)Ci,Cj的中心。
2.2.3 CH
CH指標(biāo)主要計(jì)算簇間距離與簇內(nèi)距離的比值[35]。CH(K)值越大, 聚類(lèi)效果越好。公式如下:
2.2.4 RI
RI[36]將聚類(lèi)看成是一系列的決策過(guò)程, 當(dāng)且僅當(dāng)兩個(gè)OTUs特征相似時(shí), 將它們歸入同一簇中。RI需要給定實(shí)際類(lèi)別信息C, 假設(shè)K是聚類(lèi)結(jié)果,a表示在C與K中都是同類(lèi)別的元素對(duì)數(shù),b表示在C與K中都不是同類(lèi)別元素的個(gè)數(shù), 則RI定義如下:
其中, C2nsamples表示數(shù)據(jù)集中可以組成的總元素對(duì)數(shù)。RI取值范圍為[0, 1] , 值越大表示聚類(lèi)效果準(zhǔn)確性越高, 每個(gè)類(lèi)內(nèi)的純度越高。
2.2.5 ARI
為了實(shí)現(xiàn)“在聚類(lèi)結(jié)果隨機(jī)產(chǎn)生的情況下, 指標(biāo)應(yīng)該接近零”, 在RI無(wú)法保證隨機(jī)劃分的聚類(lèi)結(jié)果的RI值接近零的情況下, 利用了具有更高區(qū)分度的ARI[36]:
ARI取值范圍為[-1, 1] , 值越大意味著聚類(lèi)結(jié)果與真實(shí)情況越吻合。
本文所使用的所有聚類(lèi)算法, 同樣也對(duì)D、P、N三類(lèi)人群的OTUs數(shù)據(jù)集的各個(gè)特征進(jìn)行聚類(lèi), 改進(jìn)Spectrum與Spectrum相比, 改進(jìn)Spectrum在D、P、N中NMI、CH、RI、聚類(lèi)數(shù)目均優(yōu)于Spectrum, 除了P中ARI低于Spectrum, 以及DBI在各類(lèi)人群中均不如未改進(jìn)前的算法。GMPR+改進(jìn)Spectrum與GMPR+Spectrum相比, GMPR+改進(jìn)Spectrum在D中除了DBI以外其余各項(xiàng)指標(biāo)均優(yōu)于GMPR+Spectrum。在P、N中, GMPR+改進(jìn)Spectrum中的NMI、CH、RI均好于GMPR+Spectrum, 而P中ARI低于GMPR+Spectrum, 而GMPR+改進(jìn)Spectrum中全部人群中的DBI均不如GMPR+Spectrum。但綜合來(lái)看, 無(wú)論是GMPR+改進(jìn)Spectrum還是改進(jìn)后的Spectrum算法, 即使出現(xiàn)個(gè)別評(píng)價(jià)指標(biāo)不如改進(jìn)前的Spectrum, 總體上來(lái)說(shuō)還是達(dá)到一個(gè)較好的水平, 證明了改進(jìn)后算法的有效性。
利用GMRP+改進(jìn)Spectrum算法對(duì)每一類(lèi)人群進(jìn)行聚類(lèi), 得到T2DM患者、2型糖尿病合并腹瀉患者以及健康人依次被聚為8、10、7類(lèi), 根據(jù)算法中的score值找出每類(lèi)人群中的關(guān)鍵OTUs。score值代表某個(gè)OTUs的方差占全部方差的比重, 實(shí)際也就是某個(gè)特征值占全部特征值總和的比重。score值越大, 貢獻(xiàn)率越大, 說(shuō)明該OTUs所包含的原始變量的信息越強(qiáng)。因此, 將score值大小作為判斷某一個(gè)OTU是否是核心菌群的衡量標(biāo)準(zhǔn)。在D組的每一個(gè)cluster包含的核心細(xì)菌可見(jiàn)圖2。橫軸代表不同細(xì)菌在不同cluster中的score值, 縱軸代表每個(gè)cluster中包含的核心細(xì)菌。不同顏色代表不同的cluster。D、P、N組的不同cluster的核心OTUs詳細(xì)信息形式與圖2一致。
在T2DM數(shù)據(jù)集中,Tepidimonas、厭氧棍狀菌屬(Anaerostipes)、諾卡氏菌屬(Nordella)、地嗜皮菌屬(Geodermatophilus)、Aquicella、糞桿菌屬(Faecalibacterium)、巨單胞菌屬(Megamonas)、大腸埃希菌志賀氏菌屬(Escherichia-Shigella)、嗜鹽單胞菌屬(Halomonas)、Syntrophorhabdus、乳酸桿菌屬(Lactobacillus)、另枝菌屬(Alistipes)、纖毛菌屬(Leptotrichia)等細(xì)菌是2型糖尿病合并腹瀉患者所獨(dú)有的, 而在健康人核心菌群中未發(fā)現(xiàn)這些細(xì)菌。
在T2DM數(shù)據(jù)集中,Reyranella、瘤胃球菌屬(R uminococcaceae_UCG-014)、Rubrobacter、氨基酸球菌屬(Acidaminococcus)、另枝菌屬(Alistipes)、乳酸桿菌屬(Lactobacillus)、Akk菌(Akkermansia)等細(xì)菌是T2DM患者所獨(dú)有的, 而在健康人核心菌群中未發(fā)現(xiàn)這些細(xì)菌。
在T2DM數(shù)據(jù)集中,Tepidimonas、厭氧棍狀菌屬(Anaerorhabdus)、韋榮氏球菌屬(Veillonella)、Nordella、地嗜皮菌屬(Geodermatophilus)、Porphyromonas、普雷沃氏菌屬(Prevotellace_UGG_001)、巨單胞菌屬(Megamonas)、嗜鹽單胞菌屬(Halomonas)、沙雷氏菌屬(Serratia)、纖毛菌屬(Leptotrichia)的這些細(xì)菌是2型糖尿病合并腹瀉患者所獨(dú)有的, 而在T2DM患者核心菌群中未發(fā)現(xiàn)這些細(xì)菌。Reyranella、瘤胃球菌屬(Ruminococcaceae_UGG_0 10)、Rubrobacter、Silanimonas、梭菌(Clostridium_sensu_stricto_1)等細(xì)菌是T2DM患者所獨(dú)有的, 而在2型糖尿病合并腹瀉患者核心菌群中未發(fā)現(xiàn)這些細(xì)菌。
菌群對(duì)比后發(fā)現(xiàn), D、P、N組經(jīng)改進(jìn)后Spectrum方法聚類(lèi)后, 可以識(shí)別出每類(lèi)人群具有的標(biāo)志性細(xì)菌, 可以區(qū)分出健康人、T2DM及2型糖尿病合并腹瀉患者在不同OTUs之間的相似性以及存在的菌群結(jié)構(gòu)差異。
表2 T2DM中不同人群在各個(gè)算法中的各項(xiàng)評(píng)價(jià)指標(biāo)Tab. 2 Evaluation indicators of different people in T2DM in each algorithm
本文采用改進(jìn)Spectrum算法對(duì)T2DM數(shù)據(jù)集進(jìn)行聚類(lèi), 由于腸道菌群在測(cè)序過(guò)程中存在的缺失或者是采樣不足, 導(dǎo)致測(cè)序數(shù)據(jù)出現(xiàn)零膨脹問(wèn)題。因此, 采用GMPR方法對(duì)腸道菌群進(jìn)行歸一化, 有效避免腸道菌群數(shù)據(jù)零膨脹問(wèn)題。然后, 采用改進(jìn)Spectrum算法進(jìn)行腸道菌群結(jié)構(gòu)分析。結(jié)果顯示, GMPR+改進(jìn)Spectrum算法與GMPR+Spectrum、Spectrum等算法在不同類(lèi)型數(shù)據(jù)上相比時(shí), 在聚類(lèi)效果、NMI、CH、RI、ARI上表現(xiàn)良好??偟膩?lái)說(shuō), GMPR+改進(jìn)Spectrum算法在相關(guān)性能上更具有優(yōu)勢(shì)。
經(jīng)GMPR+改進(jìn)Spectrum方法識(shí)別出的核心細(xì)菌中, 發(fā)現(xiàn)乳酸桿菌屬只存在于D的核心細(xì)菌中。Remely等[37]和Larsen等[38]的研究發(fā)現(xiàn)乳酸桿菌屬在T2DM中較高。Murri等[39]也發(fā)現(xiàn)普雷沃氏菌屬在T2DM中較高, 而在本文中目前只發(fā)現(xiàn)了乳酸桿菌屬, 普雷沃氏菌屬或許可以作為一種區(qū)分T2DM與正常人的關(guān)鍵細(xì)菌, 具體的免疫調(diào)節(jié)作用機(jī)制還有待后續(xù)研究。
布勞特氏菌屬的變化對(duì)T2DM 患者的影響, 在Egshatyan等[40]的研究中得到了證實(shí)。該研究表明, 健康人、糖尿病前期與T2DM患者在糞便微生物組成上會(huì)發(fā)生變化, 這些細(xì)菌的變化與T2DM嚴(yán)重程度有關(guān), 布勞特氏菌屬在不同類(lèi)型人群中存在差異, 或許該細(xì)菌可以作為一種關(guān)鍵細(xì)菌針對(duì)臨床的T2DM患者進(jìn)行相應(yīng)的疾病篩查及診斷。
此外, GMPR+Spectrum識(shí)別出T2DM患者核心菌群中的嗜冷桿菌、庫(kù)爾勒海洋桿菌、棲瘤胃解纖維素菌、環(huán)絲菌屬、金黃桿菌屬、厭氧球菌屬, 這些細(xì)菌同樣也是正常人核心菌群中所沒(méi)有的, 但在目前的研究中, 還未發(fā)現(xiàn)以上這些細(xì)菌與T2DM以及2型糖尿病合并腹瀉患者的相關(guān)作用機(jī)制。
不同類(lèi)型人群識(shí)別出的腸道細(xì)菌存在差異, 相關(guān)腸道細(xì)菌的研究機(jī)制目前尚不清楚。細(xì)菌失衡是導(dǎo)致疾病的發(fā)生發(fā)展的主要原因, 也是疾病狀態(tài)的一種現(xiàn)實(shí)反映。在現(xiàn)今醫(yī)療技術(shù)中, 臨床篩查T(mén)2DM以及2型糖尿病合并腹瀉患者仍然面臨各種各樣的困難, 希望本研究發(fā)現(xiàn)的細(xì)菌可以為臨床患者的篩查和診斷提供一些參考。同時(shí), 本試驗(yàn)的局限性在于樣本存在一些個(gè)體差異以及試驗(yàn)數(shù)據(jù)量過(guò)少, 且腸道菌群易受到其他因素的影響, 需要經(jīng)常開(kāi)展多種族、長(zhǎng)期的大型研究。