• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于組成成分的元基因組分類算法分析與研究

      2015-03-16 09:53:37葉維帥陶漢
      電腦知識與技術(shù) 2015年1期
      關(guān)鍵詞:聚類算法

      葉維帥 陶漢

      摘要:元基因組學是計算生物學領(lǐng)域的一個重要分支,主要研究環(huán)境中微生物群落的基因組。元基因組分類算法是用計算機程序?qū)σ粋€樣本中的多個不同種屬的微生物基因序列分離開來,以提供給生物學家進行深入研究的參考。元基因組分類算法主要分為兩大類,一是基于同源性的分類,二是基于組成成分的分類?;谕葱苑诸愔饕眯蛄械奈锓N同源性信息,基于組成成分的分類方法通常提取序列的l-mer特征利用計算機科學領(lǐng)域的聚類方法,如k-means聚類。該文介紹基于組成成分的元基因組分類算法及其實例,并分析各實例算法的特點。最后總結(jié)并展望基于組成成分的元基因組算法當前方法及未來可以做的優(yōu)化。

      關(guān)鍵詞:元基因組;組成成分;聚類算法

      中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2015)01-0135-02

      1 生物背景

      元基因組學亦稱宏基因組學,是對微生物基因組的研究,是計算生物學領(lǐng)域的一個分支。計算生物學是利用現(xiàn)有的計算機科學相關(guān)先進技術(shù)(高性能計算機硬件,高效率算法,并行計算等)研究生物科學領(lǐng)域的相關(guān)問題的學科[1]。

      元基因組分類算法是利用計算機通過微生物群落基因組序列數(shù)據(jù)分析該群落的物種結(jié)構(gòu)。 這些微生物通常分布在土壤、深海、動物表皮及腸道等場所,對自然環(huán)境及動物、人體的健康有著重要的間接或直接關(guān)系。研究表明,人體腸道內(nèi)的微生物群落結(jié)構(gòu)發(fā)生異常時可導(dǎo)致IBD疾?。↖nammatory Bowel Disease)[2]。

      元基因組基因序列讀段(reads)通常來自一個微生物群落的多個物種的基因片段,在元基因組的研究過程中,一個重要的步驟是對這些基因片段進行分組,即相近的物種的基因片段聚成一個類,亦稱元基因組分類[3],從而確定該生物群落中有哪些微生物。到目前為止,研究者們提出了多種計算生物學方法來對元基因組分類,主要分為兩大類:一是基于同源性分類方法,二是基于組成成分分類方法。前一種需要用BLAST[4]對目標序列從參考(reference)基因數(shù)據(jù)庫中匹配,找到最匹配的種屬。由于BLAST用在序列對齊的操作上需要花費大量時間,此種方法相對而言效率較低。而且,這種方法較大依賴參考基因數(shù)據(jù)庫,由于大部分微生物的基因組并不存在于該數(shù)據(jù)庫中,所以對匹配的結(jié)果影響較大。但對于已知的微生物基因組,匹配得到的結(jié)果準確度較高。后一種方法無需參考基因數(shù)據(jù)庫,通過提取基因組的l-mer特征,得到特征向量再用聚類方法進行聚類。該類方法不能找到基因組讀段相對應(yīng)的物種,但分類效率及準確度高。

      2 基于組成成分的元基因組分類算法

      AbundanceBin[5]、MetaCluster[6]、Mcluster[7]是三種基于組成成分對元基因組分類的算法代表。

      AbundanceBin是印第安納大學的研究者于2011年發(fā)表在 《計算生物學雜志》 (Journal of Computational Biology)上的一種分類算法。首先,文中假設(shè)基因組的序列讀段服從蘭德-沃特曼模型(Lander-Waterman model)[abudancebin29],也就是每個序列中的堿基的位置服從泊松分布(Poisson distribution)。對于所有的基因組序列,可以認為是一個混合的泊松分布。對于給定的一個元基因組序列數(shù)據(jù)集,該算法首先計算每個序列l(wèi)-mer的數(shù)量,然后用EM算法(Expectation-Maximization)預(yù)測出物種豐度和基因組的大小,最后得到每個序列對應(yīng)的微生物的最后分組。文中對序列長度分別是400bp,75bp及方差分別為50,5的數(shù)據(jù)集做了實驗,l-mer中的l值取20,結(jié)果表明該算法能在較短的時間里取得較高的分類準確度。

      MetaCluster是香港大學王毅(音譯WangYi)等人研究的對元基因分類的算法系列[8]。該系列算法從最初的MetaCluster2.0到2012年發(fā)表的MetaCluster5.0,能夠分別處理不同序列長度、序列錯誤率的元基因組數(shù)據(jù)集。該文中談及的MetaCluster主要指MetaCluster5.0。MetaCluster(MetaCluster5.0)算法對元基因組數(shù)據(jù)集分類主要分為兩個過程。在第一個過程中,首先對元基因組數(shù)據(jù)集進行過濾,得到豐度較大的一組及豐度較小的一組。對豐度較大的一組進行l(wèi)-mer特征提取,此時l取l=4。得到4-mer特征后,對這部分序列進行k-means聚類,得到相對較長的contig(聚類后得到的較長序列)。再對contig進行l(wèi)-mer特征提取,此時l取l=5。得到contig的5元特征后,聚類后得到豐度較大的序列分類結(jié)果。在第二個過程中,完成第一步中過濾得到的豐度較小的一組序列數(shù)據(jù)聚類。對這些序列數(shù)據(jù),首先進行合并來源于同一個長序列的短序列,然后再進行l(wèi)-mer特征提取,l取l=4,再聚類得到兩個過程的最后結(jié)果。文中在平均序列長度為75bp的模擬數(shù)據(jù)集及真實數(shù)據(jù)集上做了實驗,表明MetaCluster在計算時間及內(nèi)在耗用上有較大優(yōu)勢,并且對數(shù)據(jù)集中豐度不同序列有較好的分類效果。

      Mcluster是復(fù)旦大學的研究者于2013年發(fā)表在《IEEE/ACM Transactions on computational biology and bioinformatics》上的算法。該算法提出了基于l-mer(l=4) 特征提取后自動權(quán)重迭代的思想。Mcluster首先提取數(shù)據(jù)集中序列的l-mer特征向量,然后隨機初始化k個中心點,對所有特征設(shè)為一個相同的初始權(quán)重。接下來是兩個需要迭代的步驟。I)計算每個特征向量每個維度相對于k個中心的距離,根據(jù)權(quán)重公式計算每個特征向量的新權(quán)重,并且將其歸到距離最近的中心點所代表的聚類類簇。Ii)計算完所有的特征向量后,得到新的k個聚類類簇,再重新計算得到k個新的中心點。并且重新計算得到新的權(quán)重公式。重復(fù)迭代上述i)、ii)步驟,直到k個中心點達到穩(wěn)定狀態(tài)。該算法在多個模擬數(shù)據(jù)集及一個真實數(shù)據(jù)集上做了實驗,并且和AbundanceBin、MetaCluster算法做了比較。實驗結(jié)果的權(quán)衡標準主要基于三個數(shù)值,一是分類準確度,二是敏感度,三是F-measure(即準確度和敏感度的權(quán)衡值)。在上述三個標準中,Mcluster在模擬數(shù)據(jù)集及真實數(shù)據(jù)集中比AbundanceBin和MetaCluster算法都具有更理想的性能。

      3 總結(jié)及展望

      之前的分類算法大多數(shù)是基于同源性比較,主要用到BLAST序列匹對方法,需要耗費大量的時間和計算資源。AbundanceBin在基于組成成分的元基因組分類算法研究上具有開創(chuàng)性意義,它優(yōu)化了分類的計算時間,并且指引了研究者可以在基于組成成分上進行研究元基因組分類。但AbundanceBin的缺點也比較明顯,即當元基因組數(shù)據(jù)集中包含不同物種并且各物種不同豐度時,分類的效果欠佳。

      MetaCluster的分類效果比AbundanceBin更佳,但其對元基因組數(shù)據(jù)集的要求是序列長度在50bp-128bp(MetaCluster5.0要求)之間,這也讓MetaCluster(5.0)局限于處理較短長度的元基因組數(shù)據(jù)。MCluster處理的數(shù)據(jù)集序列長度在128bp-1000bp間,相比AbundanceBin及MetaCluster在準確率、敏感度、F-measure上都有較好的分類效果,是目前為止綜合分類效果最佳的元基因組分類算法。

      在未來對元基因組分類算法的研究上,有待完善及具有挑戰(zhàn)性的有以下幾點。

      1) 能夠處理較大范圍的數(shù)據(jù)集序列長度。由于基因組測序技術(shù)的發(fā)展,目前多種平臺的測序數(shù)據(jù)的長度在幾十到幾百幾千bp的不等讀段長度,若分類算法只能處理幾十到幾百的序列讀段長度,則有局限性。

      2) l-mer特征提取的l值自適應(yīng)選取。4-mer特征提取在序列長度在500-1000bp時,具有較好的特征向量結(jié)果,但在序列長度為50-100時,特征向量的多數(shù)維度是無效的。并且在序列長度在2000bp以上時,5-mer特征提取能達到更高的準確度。按照數(shù)據(jù)集中平均的序列長度,選取相應(yīng)的l值進行l(wèi)元特征提取能夠優(yōu)化元基因組分類結(jié)果,是未來研究的一個方向。

      總而言之,國內(nèi)外基于組成成分的元基因組分類算法研究在這幾年的研究中取得了一定的成就。在未來的研究中,也仍具有挑戰(zhàn)性的難點等待研究者們?nèi)スタ恕?/p>

      參考文獻:

      [1] John C. Wooley, Adam Godzik, Iddo Friedberg. (2010). A primer on metagenomics. Plos Computational Biology, Feb 2010, Vol 6, Issue 2, e1000667

      [2] Qin J, Li R, Raes J, et al.A human gut microbial gene catalogue established by metagenomic sequencing. Nature, 2010(464):7285.

      [3] Mavromatis K, Ivanova N, Barry K, et al.Use of simulated data sets to evaluate the _delity of metagenomic processing methods. Nature Methods, 2007,4(6):495-500.

      [4] Scott McGinnis, Thomas L. Madden : BLAST: at the core of a powerful and diverse set of sequence analysis tools, Nucleic Acids Research, 2004,32(20).

      [5] Wu Y, Ye Y.A novel abundance-based algorithm for binning metagenomic sequences using l-tuples. Journal of Computational Biology , 2011,18(3):523-534.

      [6] Wang Y, Leung H C, Yiu S M, et al.Metacluster 5.0: a two-round binning approach for metagenomic data for low-abundance species in a noisy sample. Bioinformatics , 2012,28(18), 356-362.

      [7] Liao R, Zhang R, Guan J, et al.A new unsupervised binning approach for metagenomic sequences based on n-grams and automatic feature weighting. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB) (2014).

      [8] http://i.cs.hku.hk/~alse/MetaCluster/.

      猜你喜歡
      聚類算法
      一種基于詞嵌入與密度峰值策略的大數(shù)據(jù)文本聚類算法
      基于關(guān)聯(lián)規(guī)則和復(fù)雜系統(tǒng)熵聚類方法分析張學文治療肝熱血瘀證用藥規(guī)律
      數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
      K—Means聚類算法在MapReduce框架下的實現(xiàn)
      基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
      數(shù)據(jù)挖掘技術(shù)在識別可疑金融交易中的應(yīng)用
      基于改進的K_means算法在圖像分割中的應(yīng)用
      大規(guī)模風電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
      科技視界(2016年8期)2016-04-05 18:39:39
      基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類
      基于MapReduce的DBSCAN聚類算法的并行實現(xiàn)
      江油市| 阿克陶县| 祥云县| 友谊县| 元阳县| 卢湾区| 汉沽区| 广灵县| 邵武市| 那坡县| 秀山| 桦南县| 黄石市| 北川| 神木县| 股票| 平陆县| 伊金霍洛旗| 临澧县| 辰溪县| 江门市| 姚安县| 云安县| 嘉禾县| 分宜县| 东阳市| 宝山区| 定日县| 香格里拉县| 九龙县| 文登市| 开鲁县| 府谷县| 望江县| 射阳县| 保亭| 江都市| 阳原县| 陆丰市| 泽州县| 三门峡市|