劉莉揚,崔鴻飛,田埂
隨著生命科學(xué)及研究技術(shù)的不斷發(fā)展,人們對生命現(xiàn)象的了解更加深入。微生物因為其在工業(yè)、農(nóng)業(yè)、醫(yī)療衛(wèi)生、環(huán)境保護(hù)等各方面的重要地位,被越來越多的研究者關(guān)注。自然狀態(tài)下,微生物幾乎無處不在,無論是在自然環(huán)境如土壤、海洋甚至一些極端環(huán)境(如酸礦水)中,還是在人類和動物的皮膚、口腔、腸道中,微生物都與它們所在的環(huán)境相伴相生。除生存環(huán)境極為廣泛以外,微生物的數(shù)量還極為龐大,以人類為例,人類的基因總數(shù)只占人類身上微生物基因總數(shù)的1% 左右[1]。這些微生物是環(huán)境能量、物質(zhì)代謝的重要中間環(huán)節(jié)和組成部分,它們有些可以代謝生成周圍其他生物所必需的底物,而有些則會代謝生成毒性物質(zhì),導(dǎo)致環(huán)境污染,或者宿主的疾病。因此,對微生物的研究顯得極為重要。
微生物的傳統(tǒng)研究方法主要是依賴將微生物進(jìn)行培養(yǎng)和分離(culture-dependent)。然而,到目前為止,絕大多數(shù)微生物(99% 以上)不能依靠這樣的方式獲得,這極大地限制了人們對微生物的研究。隨著測序技術(shù)和數(shù)據(jù)處理分析能力的飛速發(fā)展,以及人們對微生物之間相互依存的共生互利和平衡關(guān)系的深入認(rèn)識,一種可以對環(huán)境中所有微生物進(jìn)行研究而不依賴培養(yǎng)的新方向——宏基因組學(xué)應(yīng)運而生。
宏基因組(Metagenome),或稱為“元基因組”,于1998年由 Handelsman等[2]在一篇研究土壤微生物的文章中首次提出,當(dāng)時的定義是“微生物群落中的所有基因組的集合”。在此之后,宏基因組的概念漸漸為人們所接受,并涌現(xiàn)了許多針對海洋、土壤、人類腸道等微生物的典型研究工作[3-6],目前的宏基因組研究主要指對細(xì)菌的研究。
宏基因組學(xué)研究與傳統(tǒng)微生物研究方式的最大區(qū)別在于把微生物看成一個整體,擺脫了對單個微生物培養(yǎng)和分離的步驟,直接對環(huán)境中所有的微生物進(jìn)行研究,進(jìn)而可以全面地對所有微生物進(jìn)行分析。隨著宏基因組學(xué)研究技術(shù)的發(fā)展和研究者興趣的不斷增加,對其研究手段和研究對象的重點也不斷發(fā)生著變化,大致可以分為三個階段:①針對 16S rRNA 為主要研究對象的核糖體 RNA 研究;②以環(huán)境中所有遺傳物質(zhì)為研究對象;③以環(huán)境中所有轉(zhuǎn)錄本為主要研究對象的宏轉(zhuǎn)錄組研究。狹義的宏基因組學(xué)研究指第二個階段,本文提到的“宏基因組學(xué)”傾向于廣義的概念,即三個階段的總和。
原核生物的核糖體 RNA,尤其是 16S rRNA,由于其高度保守的序列特性,被當(dāng)做可以鑒別物種的微生物系統(tǒng)發(fā)育的“分子鐘”[7]。第一代測序讀長長、準(zhǔn)確率較高,但通量較低,比較適合對 16S rRNA 進(jìn)行測序及分析。隨著高通量的第二代測序(next generation sequencing,NGS)方法的誕生,由于讀長較短,所以從一次測序 16S rRNA 基因全長,到只針對 16S rRNA 中的某一個或某幾個高變區(qū)進(jìn)行分析和研究[8-11]。
宏基因組包含著環(huán)境微生物的全部遺傳信息,相比于16S rRNA 來說,宏基因組除了群落中各種微生物的分類信息以外,更包含了所有微生物的基因信息。因此,這種數(shù)據(jù)更有助于我們對群落潛在的功能進(jìn)行深入分析。并且通過對基因組大小進(jìn)行均一化(normalization),我們可以對群落中的微生物進(jìn)行相對定量研究[12]。功能基因研究則可以通過測序序列找到特定環(huán)境下富集的功能基因[13]。宏基因組是近年研究的熱點,數(shù)據(jù)量較為龐大,尤其需要高通量的測序技術(shù)和高效的數(shù)據(jù)處理能力作為依托。
宏轉(zhuǎn)錄組數(shù)據(jù)則包含了環(huán)境微生物的全部轉(zhuǎn)錄本信息。與宏基因組中研究“可能的”群落功能、代謝通路差異相比,宏轉(zhuǎn)錄組可以實時、實地的對微生物群落的基因表達(dá)情況進(jìn)行反映[14]。在新一代測序技術(shù)出現(xiàn)以前,利用傳統(tǒng)測序技術(shù)發(fā)展出了使用 EST 序列來發(fā)現(xiàn)新基因的方法,比較方便地得到了大量的基因序列的信息[15]。新一代測序技術(shù)的出現(xiàn),給宏轉(zhuǎn)錄組的研究帶來了新的機(jī)遇,但是由于原核生物的mRNA 較易分解、rRNA 含量極高,高質(zhì)量的樣本制備比較困難,因此現(xiàn)在的研究仍屬于起步階段[16]。
世界第一臺自動化測序儀誕生于1987年,由美國ABI公司制造,其原理基于Sanger 測序法[17]。Sanger 測序因其較長的讀長(~1000 bp)和較高的測序質(zhì)量(99.999%),從 20 世紀(jì) 90年代開始,就被廣泛應(yīng)用在生物信息學(xué)研究當(dāng)中,并在人類基因組計劃(human genome program,HGP)[18]中發(fā)揮了巨大的作用。但 Sanger 測序法由于測序通量太低,速度較慢,漸漸不能滿足日益增多的數(shù)據(jù)需求[19]。第二代高通量測序則避免了 Sanger 測序中所需的繁瑣的克隆過程,大大減少了工作量,提高了效率。隨著測序技術(shù)的不斷發(fā)展,單分子測序的技術(shù),如HeliScope[20]、Picbio[21]等測序技術(shù)逐漸開始發(fā)展。但由于技術(shù)并未十分成熟,測序正確率尚有待提高,而且成本較高,單分子測序技術(shù)尚未被廣泛使用。
高通量測序技術(shù)是現(xiàn)今應(yīng)用最廣泛的測序技術(shù),其特點是成本低、通量高、速度快,可以快速產(chǎn)生大量的數(shù)據(jù)。高通量測序技術(shù)的讀長普遍較短,目前三個應(yīng)用較多的主流平臺中, Roche 454 GS FLX Tianium能測 450~800 bp,Illumina HiSeq 2000能測 150 bp(單向),其新推出的MiSeq 平臺最長可測至 250 bp(單向),SOLiD 5500xl能測 75 bp(單向)。它們的測序深度可以在一定程度上彌補讀長較短所帶來的問題,深入并且快速的測序過程也使它們得以成為現(xiàn)今應(yīng)用最廣泛的測序技術(shù)(表1)。
原核生物的16S rRNA 基因,由于其具有鑒別物種信息的作用,被廣泛地應(yīng)用在了微生物群落物種多樣性的分析上。16S rRNA的數(shù)據(jù)庫資源較為豐富,如 RDP[22]、Greengene[23]、SILVA[24]等都是一些比較成熟、不斷完善并被廣泛使用的數(shù)據(jù)庫,并有一些自帶的分類工具(比如 RDP數(shù)據(jù)庫的RDP classifer等)便于分析使用。
在鑒定物種方面,兩條 16S rRNA 基因的比對差異小于3%,則可以認(rèn)為是同一個物種(species);差異小于5%,則可認(rèn)為是同一個屬(genus);差異小于10%,則可認(rèn)為是同一個科(family)。通常研究者將環(huán)境微生物群落中的16S rRNA 區(qū)域通過 PCR 進(jìn)行擴(kuò)增和測序,并將測得的序列比對到已有的16S rRNA 數(shù)據(jù)庫中,通過數(shù)據(jù)庫中的海量數(shù)據(jù),對每條 16S rRNA的分類位置進(jìn)行標(biāo)定,從而得到微生物群落的物種構(gòu)成、各個物種的豐度等信息。此外,鑒于已知的16S rRNA 數(shù)據(jù)庫中信息有限,用比對已有數(shù)據(jù)庫的方法無法對未知的16S rRNA 進(jìn)行估計,因此還可以將 16S rRNA 序列聚類成分類操作邏輯單元(operational taxonomic unit,OTU),利用 OTU的數(shù)目、各個 OTU的序列數(shù)來分析估計物種多樣性和豐度。此外,第一代測序由于測序長度較長,所以多采用全長的16S rRNA 測序進(jìn)行分析。而第二代的高通量測序,由于其讀長較短,無法覆蓋全長,因此許多研究都對 16S rRNA的一個或幾個高變區(qū)進(jìn)行測序分析。盡管不分析全長序列,由于高通量測序的覆蓋深度非常高,對物種多樣性的分析仍十分有利。
由于16S rRNA的分析目前已比較成熟,所以已有很多相關(guān)的研究,包括人體環(huán)境(如皮膚、口腔、腸道、女性陰道等),自然環(huán)境(土壤、海洋等)的各類環(huán)境微生物群落進(jìn)行分析。2008年,美國科羅拉多大學(xué)的Fierer等[25]采集了 51個健康年輕人的手部皮膚表面的微生物樣本并利用 Roche 454 GS FLX 測序儀對其 16S rRNA 進(jìn)行了測序,研究了性別、用手習(xí)慣(即是否左撇子)、洗手習(xí)慣等對手表面細(xì)菌群落多樣性的影響。2009年,Lazarevic等[8]采集了 3個健康成年人的口腔微生物,對其 V5 區(qū)域進(jìn)行擴(kuò)增并用 Illumina 進(jìn)行測序,把 V5 區(qū)域當(dāng)作分類標(biāo)志,對人類口腔微生物群落的多樣性進(jìn)行了分析。同年,Turnbaugh等[9]采集了 31 對同卵雙生和23 對異卵雙生的雙胞胎以及其母親的糞便樣本,進(jìn)行腸道微生物研究,分析環(huán)境、肥胖情況等對人體腸道微生物的影響。該研究除用Sanger 測序法測了全長的16S rRNA 序列以外,還用 454 GS FLX 測序儀對 16S rRNA的V2和V6 區(qū)進(jìn)行了深度測序,并以此為分類標(biāo)志進(jìn)行物種多樣性的分析。除人體微生物的研究以外,環(huán)境微生物也是一個大的研究方向。如2007年,Roesch等[10]利用 454 GS FLX 測序技術(shù),對來自西半球的4個土壤樣本中微生物 16S rRNA的V9 高變區(qū)進(jìn)行了測序,并對其生物多樣性進(jìn)行了分析。
值得一提的是,16S rRNA的應(yīng)用也可與我國傳統(tǒng)中醫(yī)緊密聯(lián)系起來。2012年,清華大學(xué)的Jiang等[11]邀請了19 位患有慢性萎縮胃炎的志愿者,并通過傳統(tǒng)的舌苔情況,參照其癥狀進(jìn)行判斷,將志愿者分為寒癥、熱證,并與另外8 位健康志愿者同時進(jìn)行舌苔樣本的采集,用 Illumina GAIIx 測序平臺對其微生物的V6 高變區(qū)進(jìn)行測序,分析舌苔微生物群落與寒熱癥之間的關(guān)系,并認(rèn)為舌苔微生物群落可以作為人體健康狀態(tài)的一個標(biāo)志。
高通量測序技術(shù)在基于16S rRNA的微生物群落分析中的要點在于產(chǎn)生測序覆蓋深度極深的16S rRNA的測序數(shù)據(jù),并通過比對或聚類的分析方法,對數(shù)據(jù)來源的微生物物種進(jìn)行分析,并估計微生物群落的物種構(gòu)成。相信隨著高通量測序技術(shù)的發(fā)展,可測序列長度會越來越長,更多研究在分析 16S rRNA 時會選擇進(jìn)行全長分析,從而在微生物群落研究中得到精確的結(jié)果。
表1 三大測序平臺基本情況比較
對 16S rRNA的測序可以快捷地對環(huán)境微生物的群落構(gòu)成進(jìn)行深入的分析,除了物種多樣性以外,希望得到更多的信息,比如基因信息等。在原核生物中,已知的物種只占極少的一部分,對已知物種的功能、代謝等的研究相比于未知微生物依然是微不足道的。只了解環(huán)境微生物的物種信息,遠(yuǎn)不能滿足對于環(huán)境微生物群落與環(huán)境之間關(guān)系的探究,而且原核生物的變異速度很快,即使是同一個種級別內(nèi)部的兩個菌株在功能上都可能有非常大的區(qū)別[7]。因此研究環(huán)境微生物的全基因組就顯得非常必要。
在第一代測序的條件下,由于測序速度和成本的限制,對環(huán)境內(nèi)所有微生物的全基因組進(jìn)行深度測序并不方便,而高通量測序則使之變成了可能。從環(huán)境微生物所有遺傳信息中,可以分析和預(yù)測出該環(huán)境微生物群落可能的功能,其與環(huán)境可能的相互作用關(guān)系。
針對這種宏基因組的數(shù)據(jù)的分析,一般分為基于比對(alignment-based)的方法和不基于比對(alignment-free)的方法。基于比對的方法把測序得到的所有讀段比對到已知的微生物核苷酸數(shù)據(jù)庫上,如 NCBI的NT 數(shù)據(jù)庫(利用Blastp等工具),或者是蛋白質(zhì) NR 數(shù)據(jù)庫(利用 Blastx等工具),得到環(huán)境微生物在物種或功能基因上的豐度信息,進(jìn)而結(jié)合一些功能基因、代謝通路、信號通路等數(shù)據(jù)庫,對研究者感興趣的部分進(jìn)行分析。事實上,在基于比對的方法中,高通量測序所得的序列較短,而這種短序列直接進(jìn)行比對的效果往往不理想[26],并且大量的原始數(shù)據(jù)進(jìn)行比對會耗費很多時間,因此需要在比對前進(jìn)行序列拼接,將其拼接成較長的序列,提高分析效率和分析效果。此外,還可以用一些工具對序列進(jìn)行基因預(yù)測(如 Metagene[27]、GeneMark[28]、FragGeneScan[29]等)?;诒葘μ幚砀咄繙y序的宏基因組數(shù)據(jù)的應(yīng)用非常多,2010年,華大基因在Nature 發(fā)表文章,對人體腸道微生物基因組研究計劃(MetaHIT)進(jìn)行了總結(jié)[30]。該研究為研究人體腸道微生物群落與人類健康之間的關(guān)系,采集了 124個歐洲人的糞便樣本,其中包括 25個炎癥性腸?。╥nflammatory bowel disease,IBD)患者和99個健康志愿者的樣本,并用Illumina 測序平臺進(jìn)行了測序,產(chǎn)生了 567.7 G的測序數(shù)據(jù),并對序列進(jìn)行了拼接、注釋、功能基因的分類、多態(tài)性分析等研究。2012年,華大基因在Nature 發(fā)表了一篇研究人體腸道微生物與II 型糖尿病之間關(guān)系的文章[31]。該研究收集了 345個中國人的腸道微生物樣本,用 Illumina測序平臺對其進(jìn)行了深度測序,并在全基因組關(guān)聯(lián)研究(genome wide association studies,GWAS)的基礎(chǔ)上,開發(fā)了一種叫做全宏基因組相關(guān)聯(lián)研究(metagenome wide association studies,MGWAS)的方法,對 II 型糖尿病與腸道微生物失調(diào)之間的關(guān)系進(jìn)行了深入的研究。
基于比對的方法準(zhǔn)確性較高,由于已知的數(shù)據(jù)庫有限,且比對花費的時間成本非常高。所以,在基于比對的方法之外,也產(chǎn)生了很多不基于比對的方法和應(yīng)用。不基于比對的方法大多根據(jù)序列特征,以連續(xù) k個堿基組成的短的寡核苷酸序列(k 字詞、k-mer、k-tuple)作為特征,統(tǒng)計這些特征在序列中出現(xiàn)的頻數(shù),并構(gòu)建所有 4k個 k 字詞的頻數(shù)(頻率)向量。已有研究表明這種k 字詞在微生物基因組中的出現(xiàn)頻率可以分辨微生物的不同物種[32]。基于k 字詞的方法大多數(shù)被應(yīng)用在快速對測序序列進(jìn)行物種分類的方面(binning),這種方法的基本思想是將序列的k 字詞出現(xiàn)頻數(shù)(頻率)向量與數(shù)據(jù)庫中的微生物各個物種的k 字詞向量作比較,將相近的劃歸為一組,如 AbundanceBin[33]、MetaCluster[34]等都是基于這種方法進(jìn)行序列的物種劃分的工具。此外 k 字詞的方法也可以應(yīng)用于分析樣本之間的差異。如 Willner等[35]于2009年發(fā)表文章,對 86個宏基因組樣本,分別用長度 k=2、3、4的k 字詞進(jìn)行了統(tǒng)計,為每個宏基因組樣本構(gòu)建一個 k 字詞的頻數(shù)(頻率)向量,并對 86個樣本的向量進(jìn)行主成分分析、層次聚類等分析和觀察。不基于比對的方法避開了復(fù)雜的計算量,在對于宏基因組的這種以未知物種為主的分析,k 字詞分析的優(yōu)勢非常明顯,將成為宏基因組的一個重要的研究方向。
高通量測序在宏基因組分析中的應(yīng)用,由于分析方法的多樣性,要點也不一而同。但總的來說,基于比對的方法一般需要進(jìn)行序列拼接、基因預(yù)測、基因比對進(jìn)而對群落的基因功能進(jìn)行分析,而不基于比對的方法一般直接對序列特征進(jìn)行統(tǒng)計。
宏基因組可以詳細(xì)地展示環(huán)境微生物群落中的所有遺傳信息。為了精確地了解環(huán)境中正在發(fā)生的代謝過程,宏轉(zhuǎn)錄組的概念越來越多地被研究者們重視起來。相較于單純的微生物基因組信息,宏轉(zhuǎn)錄組記錄了特定時間、特定地點的微生物群落的表達(dá)譜。在活的微生物中,在某個特定時間,也并非全部基因都參與表達(dá),而是隨著環(huán)境、生長周期的變化,一部分基因有選擇地被激活,進(jìn)行表達(dá)。宏轉(zhuǎn)錄組學(xué)可以實時地記錄這些活躍的基因及它們的表達(dá)量。在宏基因組中,一些已經(jīng)死亡卻尚未被分解的微生物的遺傳信息依然可以被檢測到,這些微生物本身已經(jīng)不主動參與到環(huán)境的代謝當(dāng)中,但是由于它們被檢測到,從而對研究的結(jié)果產(chǎn)生一定影響。
宏轉(zhuǎn)錄組學(xué)的主要方法是對環(huán)境微生物樣本中的mRNA 進(jìn)行提取和擴(kuò)增,反轉(zhuǎn)錄成為cDNA 并進(jìn)行測序。宏轉(zhuǎn)錄組的實驗難度較大,一方面是由于原核生物的轉(zhuǎn)錄和翻譯同時進(jìn)行,mRNA 幾乎沒有修飾,容易被降解,半衰期極短(約為分鐘量級),因此制備高質(zhì)量的樣品庫是實驗成功的關(guān)鍵。另一方面,由于原核生物的rRNA 占全部RNA的比例非常大(約 70%~90%)[16,36-37],因此在制備樣品時通常需要去掉 rRNA,以降低測序成本,有效地去除樣本中的rRNA 也成為了一個重要課題。
宏轉(zhuǎn)錄組學(xué)從 2007年開始,已經(jīng)有很多的相關(guān)研究,幾乎所有的研究都是由高通量測序提供的數(shù)據(jù)。如 2010年,Poroyko等[38]用 454GS FLX 測序平臺對兩組小豬(一組為母乳喂養(yǎng),另一組為配方奶喂養(yǎng))的腸道微生物進(jìn)行了轉(zhuǎn)錄組測序;2012年,Xiong等[39]對非肥胖者糖尿病(non-obese diabetic,NOD)的老鼠進(jìn)行研究,設(shè)計了 8 種微生物植入無菌老鼠的腸道,培養(yǎng)后以不同試劑盒制備樣品,并用 Illumina 平臺進(jìn)行轉(zhuǎn)錄組測序。隨著實驗技術(shù)的發(fā)展,已經(jīng)有越來越多的宏轉(zhuǎn)錄組數(shù)據(jù)相繼發(fā)表出來。
高通量測序在宏轉(zhuǎn)錄組中的應(yīng)用,要點與在宏基因組分析中的應(yīng)用類似。但由于技術(shù)尚在摸索之中,現(xiàn)階段的難點依然在于測序前樣品的制備和保存。
由于宏基因組研究在組裝微生物基因組和研究相似基因序列功能上的局限,當(dāng)研究深入到一定的水平以后,研究者又對群體中每一個細(xì)菌的作用和不同細(xì)菌的相互關(guān)聯(lián)產(chǎn)生興趣。以單細(xì)胞分離、擴(kuò)增為主要方法的單細(xì)胞測序方法應(yīng)運而生[40-42]。單細(xì)胞宏基因組,是指將環(huán)境里所有微生物進(jìn)行單個細(xì)胞的分離,而后通過全基因組擴(kuò)增,或者提取RNA 反轉(zhuǎn)錄后進(jìn)行擴(kuò)增,來研究群體里單個細(xì)胞的基因組和轉(zhuǎn)錄組,進(jìn)而得到整個群體更加完整的信息。單細(xì)胞的研究,在很多方面具有較大的優(yōu)勢,但在技術(shù)上還是遇到了一些問題。微生物群落巨大,分離單細(xì)胞本身就是一個非常有挑戰(zhàn)性的工作,目前主要應(yīng)用的方法,是利用流式細(xì)胞儀,將細(xì)胞通過各種染色方法進(jìn)行染色,通過各種染色特性來進(jìn)行區(qū)分,而細(xì)胞的染色特征可能因為不同的狀態(tài)而存在差異,因此存在分離不純的問題[42];在擴(kuò)增技術(shù)上目前還沒有實現(xiàn)突破,有擴(kuò)增帶來的偏向性(bias),組裝基因組形成了一定的困難[41];隨著單分子測序技術(shù)的不斷發(fā)展,未來單分子和單細(xì)胞的結(jié)合,必將會為宏基因組研究帶來新的突破。
高通量測序技術(shù)通量高、速度快,適合宏基因組的深度測序研究。已經(jīng)有相當(dāng)多的宏基因組研究工作建立在高通量測序技術(shù)上,揭示微生物與環(huán)境之間的關(guān)系。同時,高通量測序讀長短、數(shù)據(jù)量大的特點,對于宏基因組數(shù)據(jù)的處理也是一個挑戰(zhàn),催生出許多宏基因組特有的算法和工具。隨著高通量測序技術(shù)的發(fā)展,為宏基因組學(xué)研究帶來更多的機(jī)會。未來的高通量測序技術(shù),除了進(jìn)一步發(fā)展其通量高的優(yōu)勢以外,讀長也會逐漸增加,同時測序錯誤率也會更低,現(xiàn)階段研究中遇到的問題將逐步得到解決和改善。此外,目標(biāo)為單分子測序的第三代測序技術(shù)的發(fā)展,也會帶來全新的數(shù)據(jù)特點,宏基因組學(xué)研究將有更多的機(jī)會和發(fā)展空間。
[1]Ley RE, Peterson DA, Gordon JI.Ecological and evolutionary forces shaping microbial diversity in the human intestine.Cell, 2006, 124(4):837-848.
[2]Handelsman J, Rondon MR, Brady SF, et al.Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products.Chem Biol, 1998, 5(10):R245-R249.
[3]Dusko Ehrlich S, MetaHIT consortium.Metagenomics of the intestinal microbiota: potential applications.Gastroenterol Clin Biol,2010, 34 Suppl 1:S23-S28.
[4]Turnbaugh PJ, Ley RE, Hamady M, et al.The human microbiome project.Nature, 2007, 449(7164):804-810.
[5]Gilbert JA, Meyer F, Jansson J, et al.The Earth Microbiome Project:Meeting report of the "1 EMP meeting on sample selection and acquisition" at Argonne National Laboratory October 62010.Stand Genomic Sci, 2010, 3(3):249-253.
[6]Williamson SJ, Rusch DB, Yooseph S, et al.The Sorcerer II Global Ocean Sampling Expedition: metagenomic characterization of viruses within aquatic microbial samples.PLoS One, 2008, 3(1):e1456.
[7]Woese CR.Bacterial evolution.Microbiol Rev, 1987, 51(2):221-271.
[8]Lazarevic V, Whiteson K, Huse S, et al.Metagenomic study of the oral microbiota by Illumina high-throughput sequencing.J Microbiol Methods, 2009, 79(3):266-271.
[9]Turnbaugh PJ, Hamady M, Yatsunenko T, et al.A core gut microbiome in obese and lean twins.Nature, 2009, 457(7228):480-484.
[10]Roesch LF, Fulthorpe RR, Riva A, et al.Pyrosequencing enumerates and contrasts soil microbial diversity.ISME J, 2007, 1(4):283-290.
[11]Jiang B, Liang X, Chen Y, et al.Integrating next-generation sequencing and traditional tongue diagnosis to determine tongue coating microbiome.Sci Rep, 2012, 2:936.
[12]Frank JA, Sorensen SJ.Quantitative metagenomic analyses based on average genome size normalization.Appl Environ Microbiol, 2011,77(7):2513-2521.
[13]Allen HK, Moe LA, Rodbumrer J, et al.Functional metagenomics reveals diverse beta-lactamases in a remote Alaskan soil.ISME J,2009, 3(2):243-251.
[14]Gilbert JA, Field D, Huang Y, et al.Detection of large numbers of novel sequences in the metatranscriptomes of complex marine microbial communities.PLoS One, 2008, 3(8):e3042.
[15]Tartar A, Wheeler MM, Zhou X, et al.Parallel metatranscriptome analyses of host and symbiont gene expression in the gut of the termite Reticulitermes flavipes.Biotechnol Biofuels, 2009, 2:25.
[16]Chappell L.Finding a needle in a haystack.Microbial metatranscriptomes.Nat Rev Microbiol, 2012, 10(7):446.
[17]Ner SS, Goodin DB, Pielak GJ, et al.A rapid droplet method for Sanger dideoxy sequencing.Biotechniques, 1988, 6(5):408, 410, 412.
[18]Human genome program.Science, 1989, 246(4932):873-874.
[19]Shendure J, Ji H.Next-generation DNA sequencing.Nat Biotechnol,2008, 26(10):1135-1145.
[20]Harris TD, Buzby PR, Babcock H, et al.Single-molecule DNA sequencing of a viral genome.Science, 2008, 320(5872):106-109.
[21]Eid J, Fehr A, Gray J, et al.Real-time DNA sequencing from single polymerase molecules.Science, 2009, 323(5910):133-138.
[22]Cole JR, Wang Q, Cardenas E, et al.The Ribosomal Database Project:improved alignments and new tools for rRNA analysis.Nucleic Acids Res, 2009, 37(Database issue):D141-D145.
[23]DeSantis TZ, Hugenholtz P, Larsen N, et al.Greengenes, a chimera-checked 16S rRNA gene database and workbench compatible with ARB.Appl Environ Microbiol, 2006, 72(7):5069-5072.
[24]Quast C, Pruesse E, Yilmaz P, et al.The SILVA ribosomal RNA gene database project: improved data processing and web-based tools.Nucleic Acids Res, 2013, 41(Database issue):D590-D596.
[25]Fierer N, Hamady M, Lauber CL, et al.The influence of sex,handedness, and washing on the diversity of hand surface bacteria.Proc Natl Acad Sci U S A, 2008, 105(46):17994-17999.
[26]Prakash T, Taylor TD.Functional assignment of metagenomic data:challenges and applications.Brief Bioinform, 2012, 13(6):711-727.
[27]Noguchi H, Park J, Takagi T.MetaGene: prokaryotic gene finding from environmental genome shotgun sequences.Nucleic Acids Res,2006, 34(19):5623-5630.
[28]Zhu W, Lomsadze A, Borodovsky M.Ab initio gene identification in metagenomic sequences.Nucleic Acids Res, 2010, 38(12):e132.
[29]Rho M, Tang H, Ye Y.FragGeneScan: predicting genes in short and error-prone reads.Nucleic Acids Res, 2010, 38(20):e191.
[30]Qin J, Li R, Raes J, et al.A human gut microbial gene catalogue established by metagenomic sequencing.Nature, 2010, 464(7285):59-65.
[31]Qin J, Li Y, Cai Z, et al.A metagenome-wide association study of gut microbiota in type 2 diabetes.Nature, 2012, 490(7418):55-60.
[32]Pride DT, Meinersmann RJ, Wassenaar TM, et al.Evolutionary implications of microbial genome tetranucleotide frequency biases.Genome Res, 2003, 13(2):145-158.
[33]Wu YW, Ye Y.A novel abundance-based algorithm for binning metagenomic sequences using l-tuples.J Comput Biol, 2011, 18(3):523-534.
[34]Wang Y, Leung HC, Yiu SM, et al.MetaCluster 5.0: a two-round binning approach for metagenomic data for low-abundance species in a noisy sample.Bioinformatics, 2012, 28(18):i356-i362.
[35]Willner D, Thurber RV, Rohwer F.Metagenomic signatures of 86 microbial and viral metagenomes.Environ Microbiol, 2009, 11(7):1752-1766.
[36]Giannoukos G, Ciulla DM, Huang K, et al.Efficient and robust RNA-seq process for cultured bacteria and complex community transcriptomes.Genome Biol, 2012, 13(3):R23.
[37]Schmieder R, Lim YW, Edwards R.Identification and removal of ribosomal RNA sequences from metatranscriptomes.Bioinformatics,2012, 28(3):433-435.
[38]Poroyko V, White JR, Wang M, et al.Gut microbial gene expression in mother-fed and formula-fed piglets.PLoS One, 2010, 5(8):e12459.
[39]Xiong X, Frank DN, Robertson CE, et al.Generation and analysis of a mouse intestinal metatranscriptome through Illumina based RNA-sequencing.PLoS One, 2012, 7(4):e36009.
[40]Mason OU, Hazen TC, Borglin S, et al.Metagenome,metatranscriptome and single-cell sequencing reveal microbial response to Deepwater Horizon oil spill.ISME J, 2012, 6(9):1715-1727.
[41]Chitsaz H, Yee-Greenbaum JL, Tesler G, et al.Efficient de novo assembly of single-cell bacterial genomes from short-read data sets.Nat biotechnol, 2011, 29(10):915-921.
[42]Stepanauskas R, Sieracki ME.Matching phylogeny and metabolism in the uncultured marine bacteria, one cell at a time.Proc Natl Acad Sci U S A, 2007, 104(21):9052-9057.