基于KMeans聚類的微生物群落結構研究

2018-02-01 11:36:57王俠林賀建峰

軟件導刊 2018年1期

王俠林+賀建峰

摘要：

隨著宏基因組學的不斷發(fā)展，揭示了微生物菌群在研究中的重要作用。采用K-Means聚類算法對來源于北平頂猴陰道微生物群落OTUs數(shù)據(jù)集的27個樣本進行研究，并與PCA主成分分析法進行對比。K-Means聚類將OTUs數(shù)據(jù)集分成4個Cluster，而PCA將OTUs數(shù)據(jù)集劃分成5個Cluster。此外，結合樣本的元數(shù)據(jù)-pH，發(fā)現(xiàn)樣本間的pH值相似性更能與K-Means聚類的分類保持一致。相較于PCA主成分析方法，K-Means聚類能更精確地對OTUs數(shù)據(jù)集進行分類。

關鍵詞：

K-Means聚類；PCA主成分分析法；微生物群落結構；OTUs數(shù)據(jù)集

DOIDOI：10.11907/rjdk.172732

中圖分類號：TP319

文獻標識碼：A文章編號文章編號：1672-7800（2018）001-0146-03

Abstract：The development of macrogeome has shown that microbial flora plays an important role in the research and development of many aspects. A total of 27 samples from the OTUs data collection of the microbiological community of the North Mongolian monkey were studied by K-Means clustering algorithm and compared with the PCA principal component analysis method. K-Means clustering divides the OTUs data set into four clusters. Interestingly， PCA divides the OTUs data set into five clusters. In addition， combining the sample metadata-pH， it is found that the pH similarity between the samples is more consistent with the classification of K-Means clustering.K-Means clustering classifies the OTUs data sets more accurately than the PCA principal analysis method.

Key Words：K-Means clustering； principal component analysis； microbial community structure； OTUs data set

0引言

微生物群落的種群多樣性一直是微生物生態(tài)學和環(huán)境學科研究的重點。近年來，微生物群落結構成為了研究熱點。群落結構決定了生態(tài)功能的特性和強弱，因此群落結構的高穩(wěn)定性是實現(xiàn)生態(tài)功能的重要因素，群落結構變化也是標記環(huán)境變化的重要指標[1-4]。通過對目標微生物的群落結構和多樣性進行解析并研究其動態(tài)變化，可為挖掘群落功能信息、優(yōu)化群落結構與調(diào)節(jié)群落功能提供可靠依據(jù)。

自新一代高通量測序技術2005年問世以來，以其數(shù)字化信號、高數(shù)據(jù)通量、高準確率以及信息量豐富等優(yōu)點，被廣泛應用于微生物菌群研究中[3-6]。本次研究的菌群數(shù)據(jù)集具有OTUs（Operational Taxonomic Unit）數(shù)量多、數(shù)據(jù)量大、樣本信息復雜以及具有一定稀疏性等特點，且微生物群落數(shù)據(jù)特性與文本分析的變化模式類似。因此，本文提出一種非監(jiān)督學習算法K-Means聚類算法對微生物群落進行研究。

目前，在微生物群落研究中，PCA主成分分析法也是一種常用方法。PCA 主成分分析法是把多指標轉化為少數(shù)幾個綜合指標，使其盡可能多地保留原始變量信息，且彼此不相關[7-8]。但處理結果具有一定模糊性，不能很好地抓住數(shù)據(jù)的真實子空間結構，當遮擋幅值較大時，效果較差。而K-Means聚類算法是一種非監(jiān)督學習的硬聚類算法[9]，是典型的基于原型的目標函數(shù)聚類方法的代表。它是以數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標函數(shù)，利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則，主要采用誤差平方和準則函數(shù)作為聚類準則函數(shù)，以歐式距離作為相似度測度，具有計算速度快、操作簡單、時間復雜度近似線性的特點，適合挖掘大規(guī)模數(shù)據(jù)集，且對大數(shù)據(jù)集分析有較高效率以及可伸縮性[10]。因此，本文采用K-Means聚類分析不同來源或不同時期的微生物群落，并與PCA方法進行對比，使該方法能夠進一步運用于微生物研究。

1材料與方法

1.1數(shù)據(jù)來源

本次數(shù)據(jù)集來源于兩個成年雌性北平頂猴個體PMA和PMB的陰道菌群數(shù)據(jù)，共27個樣本。其中，PMA含有13個時間點數(shù)據(jù)，PMB含有14個時間點數(shù)據(jù)[11]。

1.2K-Means聚類原理

K-Means聚類[12-13]也稱為K-平均或K-均值，是一種使用最廣泛的聚類算法。它是將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本均值作為該聚類的代表點，算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同類別，使評價聚類性能的準則函數(shù)達到最優(yōu)，從而使生成的每個聚類類內(nèi)緊湊，類間獨立。劃分聚類方法對數(shù)據(jù)集進行聚類時包括如下3個要點：

（1）選定某種距離作為數(shù)據(jù)樣本間的相似性度量。由于K-Means聚類算法不適合處理離散型屬性，而對于連續(xù)型屬性比較適合。因此，在計算數(shù)據(jù)樣本之間的距離時，可以根據(jù)實際需要選擇歐式距離、曼哈頓距離或者明考斯距離中的一種作為算法的相似性度量[14]，其中最常用的是歐式距離。endprint

（3）根據(jù)一個簇中對象的平均值進行相似度計算，步驟為：①將所有對象隨機分配到k個非空的簇中；②然后計算每個簇的平均值，并用該平均值代表相應的簇；③根據(jù)每個對象與各個簇中心的距離，分配給最近的簇；④最后轉到②，重新計算每個簇的平均值。該過程不斷重復，直到滿足某個準則函數(shù)才停止。

K-Means聚類的具體算法步驟[17]為：①為每個聚類確定一個初始聚類中心，共有k個初始聚類中心；②將樣本集中的樣本按照最小距離原則分配到最鄰近聚類；③使用每個聚類中的樣本均值作為新的聚類中心；④重復步驟②、③，直到聚類中心不再變化；⑤結束，得到k個聚類。

2分析結果

2.1K-Means聚類結果

利用K-Means聚類對北平頂猴OTUs數(shù)據(jù)集的27個樣本進行分析，并通過MEV軟件進行計算處理，最終將OTUs數(shù)據(jù)集分成了4類（見圖1）。圖1（a）、（b）、（c）、（d）分別表示K-Means聚類的4個Cluster。每行表示每個OTUs在不同樣本中的相對豐度，每列表示每個樣本中OTUs的相對豐度。

由圖1可以看出，樣本PMA05、PMB05、PMB13對第1個分類影響最大；PMA01、PMB08對第2個分類影響最大；PMA12、PMA14對第3個分類影響最大；PMA09-11對第4個分類影響最大。表1展示了K-Means的詳細聚類結果。

2.2PCA-主成分分析法

以OTUs數(shù)據(jù)集為評價單元，對其指標數(shù)據(jù)進行標準化處理后作為樣本，利用SPSS 23.0對其進行主成分分析。按照成分因子達到80%～85%即可提取為主成分因子的原則，提取前5個因子作為主成分因子（見表2）。

主成分分析法提取的公共因子，每一載荷量表示主成分與對應變量的相關系數(shù)（見表3）。由表3可以看出，公共因子1載荷量較大的樣本是PMA01-02、PMA04、PMA11-13、PMB01-02、PMB08-09、PMB16；公共因子2載荷量較大的樣本是PMA05、PMB04-06、PMB12-15；公共因子3載荷量較大的樣本是PMA03、PMA14、PMA16；公共因子4載荷量較大的樣本是PMA09；公共因子5載荷量較大的樣本是PMA08。

計算OTU數(shù)據(jù)集各樣本綜合得分（見圖 2）。

2.3NPTM-pH值

NPTM-pH值是所在樣本的pH值，如圖3所示。

根據(jù)pH值的相似性將OTUs數(shù)據(jù)集分為4類，分別用4種不同顏色表示。由圖3可以看出，K-Means聚類的分類結果與樣本pH值的相似性保持一致。

3結語

本文基于K-Means聚類對微生物群落結構進行了研究，K-Means聚類將OTUs數(shù)據(jù)集的27個樣本分成4個Cluster，PCA主成分分析將該樣本分成5個Cluster。結合樣本元數(shù)據(jù)，發(fā)現(xiàn)K-Means聚類的分析結果能更好地與pH值的相似性保持一致，說明K-Means聚類更能精確地對OTUs數(shù)據(jù)集進行分類。兩種方法評價結果的差異主要與兩種方法所確定的權重差異、結果數(shù)據(jù)處理差異、方法理論差異等有關，同時與標準化處理方法的差異也有一定關系。但綜合考慮來看，K-Means聚類相對于PCA方法更能有效地區(qū)分微生物群落結構樣本。

參考文獻：

[1]HUMAN MICROBIOME PROJECT C. Structure， function and diversity of the healthy human microbiome[J]. Nature，2016，486：207-214.

[2]HUMAN MICROBIOME PROJECT C. A framework for human microbiome research[J]. Nature，2016，486：215-221.

[3]曹鵬，賀紀正.微生物生態(tài)學理論框架[J].生態(tài)學報，2015（22）：7263-7273.

[4]車玉伶，王慧，胡洪營，等.微生物群落結構和多樣性解析技術研究進展[J].生態(tài)環(huán)境，2005（1）：127-133.

[5]孫志濱.LDA模型的研究及其在推薦系統(tǒng)中的應用[D].杭州：浙江大學，2016.

[6]盛華芳.基于BIPES分析微生物群落的生物信息學方法的建立[D].廣州：南方醫(yī)科大學，2012.

[7]CHENG FAN LI， YANG YANG DAI，JUN JUAN ZHAO， et al. Remote sensing monitoring of volcanic Ash clouds based on PCA metho[J]. Acta Geophysica，2015，63（2）：1-19.

[8]POTEMRA T A. The empirical connection of riometer absorption to solar protons during PCA events[J]. Radio Science，2016，7（5）：571-577.

[9]Anna Kijewska，Anna Bluszcz. Research of varying levels of greenhouse gas emissions in European countries using the K-Means method[J]. Atmospheric Pollution Research，2016.

[10]TAKASHI ONODA，MIHO SAKAI，SEIJI YAMADA. Careful seeding method based on independent components analysis for K-Means clustering[J]. Journal of Emerging Technologies in Web Intelligence，2012，4（1）：112-115.endprint

[11]ZHU L， LEI AH， ZHENG HY， et al. Longitudinal analysis reveals characteristically high proportions of bacterial vaginosis-associated bacteria and temporal variability of vaginal microbiota in northern pig-tailed macaques （Macaca leonina）[J]. Zoological Research，2015，36（5）：285-98.

[12]VINCENT COHENADDAD， PHILIP N KLEIN， CLAIRE MATHIEU. Local search yields approximation schemes for K-Means and k-median in Euclidean and minor-free metrics[J]. Foundations of Computer Science，2016：353-364.

[13]SHAHRIVARI S， JALILI S. Single-pass and linear-time K-Means clustering based on MapReduce[J]. Information Systems，2016，60（C）：1-12.

[14]COHENADDAD V， KLEIN P N， MATHIEU C. Local search yields approximation schemes for K-Means and K-Median in euclidean and minor-free metrics[C].Foundations of Computer Science，2016：353-364.

[15]SHI Z， SONG W， TAHERI S. Improved LMD， permutation entropy and optimized K-Means to fault diagnosis for roller bearings[J]. Entropy，2016，18（3）：70.

[16]HAMIDA E B， JAVED M A. Channel-aware ECDSA signature verification of basic safety messages with K-Means clustering in VANETs[C].IEEE， International Conference on Advanced Information Networking and Applications. IEEE，2016：603-610.

[17]AHMADIAN S， NOROUZI-FARD A， SVENSSON O， et al. Better guarantees for K-Means and euclidean K-Median by primal-dual algorithms[J]. Sciencewise，2016.

（責任編輯：黃健）endprint