張廣毅
摘 要:宏基因組即環(huán)境微生物遺傳物質(zhì)的總稱,該技術通過測序并對比分析微生物菌落的DNA序列,以理解環(huán)境微生物的組成及其與環(huán)境的相互作用。宏基因組技術可以通過免培養(yǎng)的方式了解復雜生物系統(tǒng)中的微生物群落,克服了傳統(tǒng)實驗室培養(yǎng)方法的一些缺點。宏基因組中,基于標簽基因(16S rRNA基因)分析和基于全基因組分析是微生物實驗中最常用的兩種手段,本文重點對全基因組測序和標簽序列測序進行說明和對比。全宏基因組技術是全面了解微生物的分子進化、基因組成和基因調(diào)控等方面的重要微生物實驗工具,而標簽基因測序更適合于設置為本科教學實驗。
關鍵詞:宏基因組;微生物實驗;菌落
目前,多數(shù)本科微生物實驗教學主要包括典型微生物觀察、培養(yǎng)基配置、微生物培養(yǎng)與分離等,主要依靠顯微鏡對微生物個體形態(tài)觀察,而對環(huán)境中微生物菌落的結構、代謝功能等缺少了解,同時綜合性、設計性實驗較少,難以滿足一流本科的建設需求。隨著高通量測序技術的發(fā)展,宏基因組越來越廣泛地應用于微生物相關的科研、教學當中。另外,環(huán)境中絕大多數(shù)微生物無法通過傳統(tǒng)的培養(yǎng)分離獲得,因此,宏基因組學成為研究環(huán)境微生物的主流方法?;跇撕灮颍?6S rRNA)的分析和基于全基因組的分析是微生物實驗中最常用的兩種手段,論文介紹了各自特點并探討其作為本科微生物實驗的可能性。
宏基因組數(shù)據(jù)分析的主要任務是:對環(huán)境微生物群落物種組成結構進行鑒定,對環(huán)境微生物群落的功能進行分析,比較不同環(huán)境中微生物群落的差異。即對宏基因組樣本進行分析與比較,通過對宏基因組樣本數(shù)據(jù)的分析,可以獲得環(huán)境微生物樣本的分類學構成、各類微生物的相對豐度及復雜微生物群落的功能等信息,在此基礎上的比較可以進一步發(fā)現(xiàn)不同環(huán)境下微生物的差異,揭示微生物群落與環(huán)境之間的相互作用。
1 全基因組測序
微生物全基因組測序相對于標簽序列(典型的標簽序列為16S rRNA測序)的測序數(shù)據(jù),其包含了群落中所有基因組數(shù)據(jù),是整個基因組序列。通過整個基因序列的基因信息,在數(shù)據(jù)庫中對比分析微生物群落的種群結構與功能信息。
環(huán)境微生物所有基因組序列數(shù)據(jù)集合獲取的方法如下:首先將微生物基因從樣本中提取出來;隨后通過超聲等方法將基因序列打斷生成DNA片段,建立DNA片段文庫并進行測序;然后對DNA序列數(shù)據(jù)進行質(zhì)量評估和預處理,去除質(zhì)量較低的數(shù)據(jù)及噪聲影響;宏基因組還需對預處理后的數(shù)據(jù)進行拼裝,拼裝前的短序列稱為reads,拼接后的長序列稱為contig;最后通過數(shù)據(jù)庫檢測、對比、分析處理宏基因組序列。
微生物群落中,所有微生物的遺傳信息都來自于全基因組序列數(shù)據(jù),通過宏基因組測序數(shù)據(jù)分析,可以比較全面的獲取環(huán)境微生物樣本的信息,如微生物菌落組成、各組成菌種的豐度以及微生物各基因的代謝功能信息。另外,全基因組序列數(shù)據(jù)從理論上是包括16S rRNA序列數(shù)據(jù)的。有實驗人員從獲取的宏基因組測序數(shù)據(jù)中讀取到了群落的16S rRNA數(shù)據(jù),說明宏基因組測序數(shù)據(jù)廣度遠遠大于標簽序列數(shù)據(jù)信息。近年來,隨著高通量測序技術的高速發(fā)展以及測序技術的成本的下降,微生物實驗教學及科研人員可以更廣泛地獲得宏基因組測序數(shù)據(jù)。
2 標簽序列測序
標簽序列(tag sequence)也被稱為擴增子序列,在長期的進化過程中,有部分長度適中的DNA序列高度保守,同時又含有一定的可變區(qū)。核糖體RNA就具有上述特征,16S rRNA廣泛存在于原核微生物中,由于它們堿基長度合適(約1500 Kb),具有高度保守性,常用于系統(tǒng)發(fā)生學的研究,所以這一類的序列被統(tǒng)稱為標簽序列。
實驗室條件下,絕大多數(shù)微生物無法培養(yǎng)。為了能夠突破傳統(tǒng)的實驗室培養(yǎng)微生物的限制且獲取環(huán)境中比較完成的微生物數(shù)據(jù),直接從環(huán)境中獲取微生物的基因就變得很重要。其簡要過程如下:首先采集微生物樣品并提取其中所有DNA序列,然后以高可變區(qū)堿基序列為模板設計引物,對樣品DNA進行PCR擴增,對擴增后的16S rRNA基因序列進行測序;對獲取的原始數(shù)據(jù)需進行二次處理,去除測序準確度低以及部分二聚體序列;最后,通過以上步驟得到的基因序列數(shù)據(jù)即可用于后續(xù)的數(shù)據(jù)庫對比分析。
將16S rRNA基因序列數(shù)據(jù)輸入至已建立的16S rRNA序列數(shù)據(jù)庫進行比對分析,即可獲取數(shù)據(jù)庫中己知的微生物物種信息。16S rRNA基因序列分析時通常通過序列間的差異性,即遠近關系,通過聚類等切分為不同的操作分類單元(operational taxonomic units,OTUs),將劃分后的數(shù)據(jù)輸入至Greengene、RDP和SILVA等己知的序列數(shù)據(jù)庫,即可得到OTU的分類學信息,通過一定的算法即可獲取環(huán)境中微生物菌群的物種結構目錄。不同的相似性比例標準閾值(通常為97%),可以獲取不同精度的分類單元。標簽序列技術的局限性在于:16S rRNA數(shù)據(jù)易于估計低稀有物種的種類,但對物種豐度數(shù)據(jù)的判斷不是十分準確,因為各種因素影響擴增過程,擴增后數(shù)據(jù)存在偏差;另一問題是,此類數(shù)據(jù)通常只能估計微生物菌落結構,缺少其他基因如代謝功能等數(shù)據(jù)。
3 兩種方法的比較
通過16S rRNA基因序列,能夠了解到環(huán)境中到底有哪些微生物存在,以及它們各自在群落中的數(shù)量比例;基于這種微生物群落結構的信息,進而就能夠?qū)ξ⑸镏g以及微生物與環(huán)境的關系進行分析說明。
基于標簽序列(16S rRNA)的宏基因組測序數(shù)據(jù)的樣本比較方法較為簡單且成本較低,但是,16S rRNA基因序列僅僅代表生物體當中許多基因的一種,其所提供的基因信息僅僅是很小一部分,有很多局限性,如此類數(shù)據(jù)集以OTU頻率為主要特征,僅能提供微生物群落中的種群結構和豐度信息,對于宏基因組樣本基因功能差異的分析就顯得力不從心,無法獲得環(huán)境微生物當中所關心的功能信息。
隨著高通量測序技術的不斷發(fā)展,全宏基因組數(shù)據(jù)的獲得難度及成本不斷降低。與單一基因序列16S rRNA數(shù)據(jù)相比,全宏基因組數(shù)據(jù)即提取出微生物群落中菌群的全部遺傳信息,這無疑是一種更全面地表征環(huán)境微生物樣本的方法。對比分析全宏基因組數(shù)據(jù)不僅可以獲取微生物群落的結構組成信息(物種的組成和豐度等),而且可以獲得較全面的代謝功能信息。例如,微生物蛋白質(zhì)編碼基因,生物代謝反應功能酶的表達,乃至更詳盡的代謝反應網(wǎng)絡。由于全宏基因組數(shù)據(jù)包含了微生物中的所有遺傳信息,故可以通過一定的手段,從高質(zhì)量的全宏基因組數(shù)據(jù)提取出特定的核酸序列,如16S rRNA數(shù)據(jù),通過這種途徑可以較好地避免擴增偏差。目前,實際的宏基因組學研究中往往同時使用16S rRNA基因測序和宏基因組測序數(shù)據(jù)。
4 結論
宏基因組分析包括標簽基因(16S rRNA)分析和全基因組分析。相比于單一的16S rRNA數(shù)據(jù),全宏基因組數(shù)據(jù)包括了群落中菌群的全部遺傳信息,能更好地表征環(huán)境微生物樣本,但是目前成本較高、數(shù)據(jù)量大、分析復雜,適用于科學研究。雖然16S rRNA數(shù)據(jù)單一,但能夠培養(yǎng)鍛煉學生熟悉主流的微生物分子生物學技術,使學生接觸現(xiàn)代的微生物技術發(fā)展及表征手段,加深微生物理論課堂中“遺傳與變異”相關章節(jié)的理解與掌握。
參考文獻
[1]羅幸.宏基因組分類分析方法的研宄和應用[D].東南大學,2015.
[2]程福東,丁嘯,李晟,等.宏基因組樣本數(shù)據(jù)的分析比較與分類[D].生物技術通報,2016,32(5):1-10.
[3]Yuan C,Lei J,Cole J,et al.Reconstructing 16S rRNA genes in metagenomic data [J].Bioinformatics,2015,31(12):35-43.
[4]Jaccard P.Etude comparative de la distribution florale dans une portion des Alpes et du Jura[M].Impr.Corbaz,1901.
[5]ShinJ,Lee S,Go M J,et al.Analysis of the mouse gut microbiome using full-length 16S rRNA amplicon sequencing[J].Sci Rep,2016,(6):29681.
[6]Chang Q,Luan Y,Chen T,et al.Computational methods for the analysis of tag sequences in metagenomics studies[J].Frontiers in Bio-science(Scholar Edition),2012,(4):1333-1343.
[7]Yang B,Wang Y,Qian P Y.Sensitivity and correlation of hypervariable regions in 16S rRNA genes in phylogenetic analysis[J]. BMC Bioinformatics, 2016,(17):135.
[8]Yilmaz P,Parfrey L W,Yarza P,et al.The SILVA and "All-species Living Tree Project (LTP)" taxonomic frameworks[J]. Nucleic Acids Res, 2014, 42(Database issue): D643-648.
[9]Brooks JP,Edwards D J,Harwich M D,et al.The truth about metagenomics: quantifying and counteracting bias in 16S rRNA studies[J]. Bmc Microbiology,2015,(15).
[10] 張軍毅,朱冰川,徐超,等.基于分子標記的宏基因組16S rRNA基因高變區(qū)選擇策略[J].應用生態(tài)學報,2015,26(11):3545-3553.
[11] 黃循柳,黃仕杰,郭麗瓊,等.宏基因組學研究進展[J].微生物學通報,2009,36(07):1058-1066.