王俠林+賀建峰
摘要:
隨著宏基因組學的不斷發(fā)展,揭示了微生物菌群在研究中的重要作用。采用K-Means聚類算法對來源于北平頂猴陰道微生物群落OTUs數(shù)據(jù)集的27個樣本進行研究,并與PCA主成分分析法進行對比。K-Means聚類將OTUs數(shù)據(jù)集分成4個Cluster,而PCA將OTUs數(shù)據(jù)集劃分成5個Cluster。此外,結合樣本的元數(shù)據(jù)-pH,發(fā)現(xiàn)樣本間的pH值相似性更能與K-Means聚類的分類保持一致。相較于PCA主成分析方法,K-Means聚類能更精確地對OTUs數(shù)據(jù)集進行分類。
關鍵詞:
K-Means聚類;PCA主成分分析法;微生物群落結構;OTUs數(shù)據(jù)集
DOIDOI:10.11907/rjdk.172732
中圖分類號:TP319
文獻標識碼:A文章編號文章編號:1672-7800(2018)001-0146-03
Abstract:The development of macrogeome has shown that microbial flora plays an important role in the research and development of many aspects. A total of 27 samples from the OTUs data collection of the microbiological community of the North Mongolian monkey were studied by K-Means clustering algorithm and compared with the PCA principal component analysis method. K-Means clustering divides the OTUs data set into four clusters. Interestingly, PCA divides the OTUs data set into five clusters. In addition, combining the sample metadata-pH, it is found that the pH similarity between the samples is more consistent with the classification of K-Means clustering.K-Means clustering classifies the OTUs data sets more accurately than the PCA principal analysis method.
Key Words:K-Means clustering; principal component analysis; microbial community structure; OTUs data set
0引言
微生物群落的種群多樣性一直是微生物生態(tài)學和環(huán)境學科研究的重點。近年來,微生物群落結構成為了研究熱點。群落結構決定了生態(tài)功能的特性和強弱,因此群落結構的高穩(wěn)定性是實現(xiàn)生態(tài)功能的重要因素,群落結構變化也是標記環(huán)境變化的重要指標[1-4]。通過對目標微生物的群落結構和多樣性進行解析并研究其動態(tài)變化,可為挖掘群落功能信息、優(yōu)化群落結構與調(diào)節(jié)群落功能提供可靠依據(jù)。
自新一代高通量測序技術2005年問世以來,以其數(shù)字化信號、高數(shù)據(jù)通量、高準確率以及信息量豐富等優(yōu)點,被廣泛應用于微生物菌群研究中[3-6]。本次研究的菌群數(shù)據(jù)集具有OTUs(Operational Taxonomic Unit)數(shù)量多、數(shù)據(jù)量大、樣本信息復雜以及具有一定稀疏性等特點,且微生物群落數(shù)據(jù)特性與文本分析的變化模式類似。因此,本文提出一種非監(jiān)督學習算法K-Means聚類算法對微生物群落進行研究。
目前,在微生物群落研究中,PCA主成分分析法也是一種常用方法。PCA 主成分分析法是把多指標轉化為少數(shù)幾個綜合指標,使其盡可能多地保留原始變量信息,且彼此不相關[7-8]。但處理結果具有一定模糊性,不能很好地抓住數(shù)據(jù)的真實子空間結構,當遮擋幅值較大時,效果較差。而K-Means聚類算法是一種非監(jiān)督學習的硬聚類算法[9],是典型的基于原型的目標函數(shù)聚類方法的代表。它是以數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標函數(shù),利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則,主要采用誤差平方和準則函數(shù)作為聚類準則函數(shù),以歐式距離作為相似度測度,具有計算速度快、操作簡單、時間復雜度近似線性的特點,適合挖掘大規(guī)模數(shù)據(jù)集,且對大數(shù)據(jù)集分析有較高效率以及可伸縮性[10]。因此,本文采用K-Means聚類分析不同來源或不同時期的微生物群落,并與PCA方法進行對比,使該方法能夠進一步運用于微生物研究。
1材料與方法
1.1數(shù)據(jù)來源
本次數(shù)據(jù)集來源于兩個成年雌性北平頂猴個體PMA和PMB的陰道菌群數(shù)據(jù),共27個樣本。其中,PMA含有13個時間點數(shù)據(jù),PMB含有14個時間點數(shù)據(jù)[11]。
1.2K-Means聚類原理
K-Means聚類[12-13]也稱為K-平均或K-均值,是一種使用最廣泛的聚類算法。它是將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本均值作為該聚類的代表點,算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同類別,使評價聚類性能的準則函數(shù)達到最優(yōu),從而使生成的每個聚類類內(nèi)緊湊,類間獨立。劃分聚類方法對數(shù)據(jù)集進行聚類時包括如下3個要點:
(1)選定某種距離作為數(shù)據(jù)樣本間的相似性度量。由于K-Means聚類算法不適合處理離散型屬性,而對于連續(xù)型屬性比較適合。因此,在計算數(shù)據(jù)樣本之間的距離時,可以根據(jù)實際需要選擇歐式距離、曼哈頓距離或者明考斯距離中的一種作為算法的相似性度量[14],其中最常用的是歐式距離。endprint
(3)根據(jù)一個簇中對象的平均值進行相似度計算,步驟為:①將所有對象隨機分配到k個非空的簇中;②然后計算每個簇的平均值,并用該平均值代表相應的簇;③根據(jù)每個對象與各個簇中心的距離,分配給最近的簇;④最后轉到②,重新計算每個簇的平均值。該過程不斷重復,直到滿足某個準則函數(shù)才停止。
K-Means聚類的具體算法步驟[17]為:①為每個聚類確定一個初始聚類中心,共有k個初始聚類中心;②將樣本集中的樣本按照最小距離原則分配到最鄰近聚類;③使用每個聚類中的樣本均值作為新的聚類中心;④重復步驟②、③,直到聚類中心不再變化;⑤結束,得到k個聚類。
2分析結果
2.1K-Means聚類結果
利用K-Means聚類對北平頂猴OTUs數(shù)據(jù)集的27個樣本進行分析,并通過MEV軟件進行計算處理,最終將OTUs數(shù)據(jù)集分成了4類(見圖1)。圖1(a)、(b)、(c)、(d)分別表示K-Means聚類的4個Cluster。每行表示每個OTUs在不同樣本中的相對豐度,每列表示每個樣本中OTUs的相對豐度。
由圖1可以看出,樣本PMA05、PMB05、PMB13對第1個分類影響最大;PMA01、PMB08對第2個分類影響最大;PMA12、PMA14對第3個分類影響最大;PMA09-11對第4個分類影響最大。表1展示了K-Means的詳細聚類結果。
2.2PCA-主成分分析法
以OTUs數(shù)據(jù)集為評價單元,對其指標數(shù)據(jù)進行標準化處理后作為樣本,利用SPSS 23.0對其進行主成分分析。按照成分因子達到80%~85%即可提取為主成分因子的原則,提取前5個因子作為主成分因子(見表2)。
主成分分析法提取的公共因子,每一載荷量表示主成分與對應變量的相關系數(shù)(見表3)。由表3可以看出,公共因子1載荷量較大的樣本是PMA01-02、PMA04、PMA11-13、PMB01-02、PMB08-09、PMB16;公共因子2載荷量較大的樣本是PMA05、PMB04-06、PMB12-15;公共因子3載荷量較大的樣本是PMA03、PMA14、PMA16;公共因子4載荷量較大的樣本是PMA09;公共因子5載荷量較大的樣本是PMA08。
計算OTU數(shù)據(jù)集各樣本綜合得分(見圖 2)。
2.3NPTM-pH值
NPTM-pH值是所在樣本的pH值,如圖3所示。
根據(jù)pH值的相似性將OTUs數(shù)據(jù)集分為4類,分別用4種不同顏色表示。由圖3可以看出,K-Means聚類的分類結果與樣本pH值的相似性保持一致。
3結語
本文基于K-Means聚類對微生物群落結構進行了研究,K-Means聚類將OTUs數(shù)據(jù)集的27個樣本分成4個Cluster,PCA主成分分析將該樣本分成5個Cluster。結合樣本元數(shù)據(jù),發(fā)現(xiàn)K-Means聚類的分析結果能更好地與pH值的相似性保持一致,說明K-Means聚類更能精確地對OTUs數(shù)據(jù)集進行分類。兩種方法評價結果的差異主要與兩種方法所確定的權重差異、結果數(shù)據(jù)處理差異、方法理論差異等有關,同時與標準化處理方法的差異也有一定關系。但綜合考慮來看,K-Means聚類相對于PCA方法更能有效地區(qū)分微生物群落結構樣本。
參考文獻:
[1]HUMAN MICROBIOME PROJECT C. Structure, function and diversity of the healthy human microbiome[J]. Nature,2016,486:207-214.
[2]HUMAN MICROBIOME PROJECT C. A framework for human microbiome research[J]. Nature,2016,486:215-221.
[3]曹鵬,賀紀正.微生物生態(tài)學理論框架[J].生態(tài)學報,2015(22):7263-7273.
[4]車玉伶,王慧,胡洪營,等.微生物群落結構和多樣性解析技術研究進展[J].生態(tài)環(huán)境,2005(1):127-133.
[5]孫志濱.LDA模型的研究及其在推薦系統(tǒng)中的應用[D].杭州:浙江大學,2016.
[6]盛華芳.基于BIPES分析微生物群落的生物信息學方法的建立[D].廣州:南方醫(yī)科大學,2012.
[7]CHENG FAN LI, YANG YANG DAI,JUN JUAN ZHAO, et al. Remote sensing monitoring of volcanic Ash clouds based on PCA metho[J]. Acta Geophysica,2015,63(2):1-19.
[8]POTEMRA T A. The empirical connection of riometer absorption to solar protons during PCA events[J]. Radio Science,2016,7(5):571-577.
[9]Anna Kijewska,Anna Bluszcz. Research of varying levels of greenhouse gas emissions in European countries using the K-Means method[J]. Atmospheric Pollution Research,2016.
[10]TAKASHI ONODA,MIHO SAKAI,SEIJI YAMADA. Careful seeding method based on independent components analysis for K-Means clustering[J]. Journal of Emerging Technologies in Web Intelligence,2012,4(1):112-115.endprint
[11]ZHU L, LEI AH, ZHENG HY, et al. Longitudinal analysis reveals characteristically high proportions of bacterial vaginosis-associated bacteria and temporal variability of vaginal microbiota in northern pig-tailed macaques (Macaca leonina)[J]. Zoological Research,2015,36(5):285-98.
[12]VINCENT COHENADDAD, PHILIP N KLEIN, CLAIRE MATHIEU. Local search yields approximation schemes for K-Means and k-median in Euclidean and minor-free metrics[J]. Foundations of Computer Science,2016:353-364.
[13]SHAHRIVARI S, JALILI S. Single-pass and linear-time K-Means clustering based on MapReduce[J]. Information Systems,2016,60(C):1-12.
[14]COHENADDAD V, KLEIN P N, MATHIEU C. Local search yields approximation schemes for K-Means and K-Median in euclidean and minor-free metrics[C].Foundations of Computer Science,2016:353-364.
[15]SHI Z, SONG W, TAHERI S. Improved LMD, permutation entropy and optimized K-Means to fault diagnosis for roller bearings[J]. Entropy,2016,18(3):70.
[16]HAMIDA E B, JAVED M A. Channel-aware ECDSA signature verification of basic safety messages with K-Means clustering in VANETs[C].IEEE, International Conference on Advanced Information Networking and Applications. IEEE,2016:603-610.
[17]AHMADIAN S, NOROUZI-FARD A, SVENSSON O, et al. Better guarantees for K-Means and euclidean K-Median by primal-dual algorithms[J]. Sciencewise,2016.
(責任編輯:黃健)endprint