• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于KMeans聚類的微生物群落結構研究

      2018-02-01 11:36:57王俠林賀建峰
      軟件導刊 2018年1期
      關鍵詞:相似性群落聚類

      王俠林+賀建峰

      摘要:

      隨著宏基因組學的不斷發(fā)展,揭示了微生物菌群在研究中的重要作用。采用K-Means聚類算法對來源于北平頂猴陰道微生物群落OTUs數(shù)據(jù)集的27個樣本進行研究,并與PCA主成分分析法進行對比。K-Means聚類將OTUs數(shù)據(jù)集分成4個Cluster,而PCA將OTUs數(shù)據(jù)集劃分成5個Cluster。此外,結合樣本的元數(shù)據(jù)-pH,發(fā)現(xiàn)樣本間的pH值相似性更能與K-Means聚類的分類保持一致。相較于PCA主成分析方法,K-Means聚類能更精確地對OTUs數(shù)據(jù)集進行分類。

      關鍵詞:

      K-Means聚類;PCA主成分分析法;微生物群落結構;OTUs數(shù)據(jù)集

      DOIDOI:10.11907/rjdk.172732

      中圖分類號:TP319

      文獻標識碼:A文章編號文章編號:1672-7800(2018)001-0146-03

      Abstract:The development of macrogeome has shown that microbial flora plays an important role in the research and development of many aspects. A total of 27 samples from the OTUs data collection of the microbiological community of the North Mongolian monkey were studied by K-Means clustering algorithm and compared with the PCA principal component analysis method. K-Means clustering divides the OTUs data set into four clusters. Interestingly, PCA divides the OTUs data set into five clusters. In addition, combining the sample metadata-pH, it is found that the pH similarity between the samples is more consistent with the classification of K-Means clustering.K-Means clustering classifies the OTUs data sets more accurately than the PCA principal analysis method.

      Key Words:K-Means clustering; principal component analysis; microbial community structure; OTUs data set

      0引言

      微生物群落的種群多樣性一直是微生物生態(tài)學和環(huán)境學科研究的重點。近年來,微生物群落結構成為了研究熱點。群落結構決定了生態(tài)功能的特性和強弱,因此群落結構的高穩(wěn)定性是實現(xiàn)生態(tài)功能的重要因素,群落結構變化也是標記環(huán)境變化的重要指標[1-4]。通過對目標微生物的群落結構和多樣性進行解析并研究其動態(tài)變化,可為挖掘群落功能信息、優(yōu)化群落結構與調(diào)節(jié)群落功能提供可靠依據(jù)。

      自新一代高通量測序技術2005年問世以來,以其數(shù)字化信號、高數(shù)據(jù)通量、高準確率以及信息量豐富等優(yōu)點,被廣泛應用于微生物菌群研究中[3-6]。本次研究的菌群數(shù)據(jù)集具有OTUs(Operational Taxonomic Unit)數(shù)量多、數(shù)據(jù)量大、樣本信息復雜以及具有一定稀疏性等特點,且微生物群落數(shù)據(jù)特性與文本分析的變化模式類似。因此,本文提出一種非監(jiān)督學習算法K-Means聚類算法對微生物群落進行研究。

      目前,在微生物群落研究中,PCA主成分分析法也是一種常用方法。PCA 主成分分析法是把多指標轉化為少數(shù)幾個綜合指標,使其盡可能多地保留原始變量信息,且彼此不相關[7-8]。但處理結果具有一定模糊性,不能很好地抓住數(shù)據(jù)的真實子空間結構,當遮擋幅值較大時,效果較差。而K-Means聚類算法是一種非監(jiān)督學習的硬聚類算法[9],是典型的基于原型的目標函數(shù)聚類方法的代表。它是以數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標函數(shù),利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則,主要采用誤差平方和準則函數(shù)作為聚類準則函數(shù),以歐式距離作為相似度測度,具有計算速度快、操作簡單、時間復雜度近似線性的特點,適合挖掘大規(guī)模數(shù)據(jù)集,且對大數(shù)據(jù)集分析有較高效率以及可伸縮性[10]。因此,本文采用K-Means聚類分析不同來源或不同時期的微生物群落,并與PCA方法進行對比,使該方法能夠進一步運用于微生物研究。

      1材料與方法

      1.1數(shù)據(jù)來源

      本次數(shù)據(jù)集來源于兩個成年雌性北平頂猴個體PMA和PMB的陰道菌群數(shù)據(jù),共27個樣本。其中,PMA含有13個時間點數(shù)據(jù),PMB含有14個時間點數(shù)據(jù)[11]。

      1.2K-Means聚類原理

      K-Means聚類[12-13]也稱為K-平均或K-均值,是一種使用最廣泛的聚類算法。它是將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本均值作為該聚類的代表點,算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同類別,使評價聚類性能的準則函數(shù)達到最優(yōu),從而使生成的每個聚類類內(nèi)緊湊,類間獨立。劃分聚類方法對數(shù)據(jù)集進行聚類時包括如下3個要點:

      (1)選定某種距離作為數(shù)據(jù)樣本間的相似性度量。由于K-Means聚類算法不適合處理離散型屬性,而對于連續(xù)型屬性比較適合。因此,在計算數(shù)據(jù)樣本之間的距離時,可以根據(jù)實際需要選擇歐式距離、曼哈頓距離或者明考斯距離中的一種作為算法的相似性度量[14],其中最常用的是歐式距離。endprint

      (3)根據(jù)一個簇中對象的平均值進行相似度計算,步驟為:①將所有對象隨機分配到k個非空的簇中;②然后計算每個簇的平均值,并用該平均值代表相應的簇;③根據(jù)每個對象與各個簇中心的距離,分配給最近的簇;④最后轉到②,重新計算每個簇的平均值。該過程不斷重復,直到滿足某個準則函數(shù)才停止。

      K-Means聚類的具體算法步驟[17]為:①為每個聚類確定一個初始聚類中心,共有k個初始聚類中心;②將樣本集中的樣本按照最小距離原則分配到最鄰近聚類;③使用每個聚類中的樣本均值作為新的聚類中心;④重復步驟②、③,直到聚類中心不再變化;⑤結束,得到k個聚類。

      2分析結果

      2.1K-Means聚類結果

      利用K-Means聚類對北平頂猴OTUs數(shù)據(jù)集的27個樣本進行分析,并通過MEV軟件進行計算處理,最終將OTUs數(shù)據(jù)集分成了4類(見圖1)。圖1(a)、(b)、(c)、(d)分別表示K-Means聚類的4個Cluster。每行表示每個OTUs在不同樣本中的相對豐度,每列表示每個樣本中OTUs的相對豐度。

      由圖1可以看出,樣本PMA05、PMB05、PMB13對第1個分類影響最大;PMA01、PMB08對第2個分類影響最大;PMA12、PMA14對第3個分類影響最大;PMA09-11對第4個分類影響最大。表1展示了K-Means的詳細聚類結果。

      2.2PCA-主成分分析法

      以OTUs數(shù)據(jù)集為評價單元,對其指標數(shù)據(jù)進行標準化處理后作為樣本,利用SPSS 23.0對其進行主成分分析。按照成分因子達到80%~85%即可提取為主成分因子的原則,提取前5個因子作為主成分因子(見表2)。

      主成分分析法提取的公共因子,每一載荷量表示主成分與對應變量的相關系數(shù)(見表3)。由表3可以看出,公共因子1載荷量較大的樣本是PMA01-02、PMA04、PMA11-13、PMB01-02、PMB08-09、PMB16;公共因子2載荷量較大的樣本是PMA05、PMB04-06、PMB12-15;公共因子3載荷量較大的樣本是PMA03、PMA14、PMA16;公共因子4載荷量較大的樣本是PMA09;公共因子5載荷量較大的樣本是PMA08。

      計算OTU數(shù)據(jù)集各樣本綜合得分(見圖 2)。

      2.3NPTM-pH值

      NPTM-pH值是所在樣本的pH值,如圖3所示。

      根據(jù)pH值的相似性將OTUs數(shù)據(jù)集分為4類,分別用4種不同顏色表示。由圖3可以看出,K-Means聚類的分類結果與樣本pH值的相似性保持一致。

      3結語

      本文基于K-Means聚類對微生物群落結構進行了研究,K-Means聚類將OTUs數(shù)據(jù)集的27個樣本分成4個Cluster,PCA主成分分析將該樣本分成5個Cluster。結合樣本元數(shù)據(jù),發(fā)現(xiàn)K-Means聚類的分析結果能更好地與pH值的相似性保持一致,說明K-Means聚類更能精確地對OTUs數(shù)據(jù)集進行分類。兩種方法評價結果的差異主要與兩種方法所確定的權重差異、結果數(shù)據(jù)處理差異、方法理論差異等有關,同時與標準化處理方法的差異也有一定關系。但綜合考慮來看,K-Means聚類相對于PCA方法更能有效地區(qū)分微生物群落結構樣本。

      參考文獻:

      [1]HUMAN MICROBIOME PROJECT C. Structure, function and diversity of the healthy human microbiome[J]. Nature,2016,486:207-214.

      [2]HUMAN MICROBIOME PROJECT C. A framework for human microbiome research[J]. Nature,2016,486:215-221.

      [3]曹鵬,賀紀正.微生物生態(tài)學理論框架[J].生態(tài)學報,2015(22):7263-7273.

      [4]車玉伶,王慧,胡洪營,等.微生物群落結構和多樣性解析技術研究進展[J].生態(tài)環(huán)境,2005(1):127-133.

      [5]孫志濱.LDA模型的研究及其在推薦系統(tǒng)中的應用[D].杭州:浙江大學,2016.

      [6]盛華芳.基于BIPES分析微生物群落的生物信息學方法的建立[D].廣州:南方醫(yī)科大學,2012.

      [7]CHENG FAN LI, YANG YANG DAI,JUN JUAN ZHAO, et al. Remote sensing monitoring of volcanic Ash clouds based on PCA metho[J]. Acta Geophysica,2015,63(2):1-19.

      [8]POTEMRA T A. The empirical connection of riometer absorption to solar protons during PCA events[J]. Radio Science,2016,7(5):571-577.

      [9]Anna Kijewska,Anna Bluszcz. Research of varying levels of greenhouse gas emissions in European countries using the K-Means method[J]. Atmospheric Pollution Research,2016.

      [10]TAKASHI ONODA,MIHO SAKAI,SEIJI YAMADA. Careful seeding method based on independent components analysis for K-Means clustering[J]. Journal of Emerging Technologies in Web Intelligence,2012,4(1):112-115.endprint

      [11]ZHU L, LEI AH, ZHENG HY, et al. Longitudinal analysis reveals characteristically high proportions of bacterial vaginosis-associated bacteria and temporal variability of vaginal microbiota in northern pig-tailed macaques (Macaca leonina)[J]. Zoological Research,2015,36(5):285-98.

      [12]VINCENT COHENADDAD, PHILIP N KLEIN, CLAIRE MATHIEU. Local search yields approximation schemes for K-Means and k-median in Euclidean and minor-free metrics[J]. Foundations of Computer Science,2016:353-364.

      [13]SHAHRIVARI S, JALILI S. Single-pass and linear-time K-Means clustering based on MapReduce[J]. Information Systems,2016,60(C):1-12.

      [14]COHENADDAD V, KLEIN P N, MATHIEU C. Local search yields approximation schemes for K-Means and K-Median in euclidean and minor-free metrics[C].Foundations of Computer Science,2016:353-364.

      [15]SHI Z, SONG W, TAHERI S. Improved LMD, permutation entropy and optimized K-Means to fault diagnosis for roller bearings[J]. Entropy,2016,18(3):70.

      [16]HAMIDA E B, JAVED M A. Channel-aware ECDSA signature verification of basic safety messages with K-Means clustering in VANETs[C].IEEE, International Conference on Advanced Information Networking and Applications. IEEE,2016:603-610.

      [17]AHMADIAN S, NOROUZI-FARD A, SVENSSON O, et al. Better guarantees for K-Means and euclidean K-Median by primal-dual algorithms[J]. Sciencewise,2016.

      (責任編輯:黃健)endprint

      猜你喜歡
      相似性群落聚類
      一類上三角算子矩陣的相似性與酉相似性
      大學生牙齦炎齦上菌斑的微生物群落
      合成微生物群落在發(fā)酵食品中的應用研究
      淺析當代中西方繪畫的相似性
      河北畫報(2020年8期)2020-10-27 02:54:20
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      低滲透黏土中氯離子彌散作用離心模擬相似性
      基于改進的遺傳算法的模糊聚類算法
      春季和夏季巢湖浮游生物群落組成及其動態(tài)分析
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      長期施用復合微生物肥對農(nóng)田土壤微生物群落的影響
      河南科技(2014年18期)2014-02-27 14:14:54
      大余县| 彩票| 张掖市| 南安市| 渑池县| 桓台县| 鲁山县| 密山市| 信丰县| 永善县| 碌曲县| 安宁市| 平果县| 扶余县| 甘泉县| 漳平市| 乌海市| 历史| 色达县| 富宁县| 鄂伦春自治旗| 长泰县| 新巴尔虎左旗| 喀喇沁旗| 鹤峰县| 利辛县| 哈尔滨市| 南昌市| 平舆县| 库尔勒市| 繁峙县| 奇台县| 纳雍县| 南阳市| 星座| 贞丰县| 徐闻县| 嘉鱼县| 大埔县| 天全县| 芜湖县|