田李 張穎 趙云峰
DNA測序技術(shù)在生命科學的發(fā)展中起著越來越重要的作用。新一代測序技術(shù)是一種革命性的技術(shù),它的出現(xiàn)使得科研人員能夠以相對較少的經(jīng)費獲得以往望塵莫及的海量DNA序列,從根本上改變了人們研究生命科學的方式[1]?,F(xiàn)階段,生命科學的研究已經(jīng)從以往研究單一基因轉(zhuǎn)變?yōu)檠芯空麄€基因組,其中既包括了基礎研究中的基因組、轉(zhuǎn)錄組和表觀遺傳,也涉及了應用研究中的醫(yī)學診斷和農(nóng)作物育種等[2]。本文回顧了DNA測序技術(shù)的演化,并論述了其在生命科學研究中的應用。
Sanger 等在20世紀70年代中期發(fā)明了DNA末端終止法測序技術(shù),他的發(fā)明第一次為人們開啟了解讀生命遺傳密碼的大門,Sanger 本人也因此獲得了1980年諾貝爾化學獎[3]。DNA末端終止法測序技術(shù)的基本原理是:通過在DNA聚合酶、模板、放射性同位素標記的引物、dNTP 和ddNTP 的作用下發(fā)生延伸反應,由于ddNTP 的存在,會形成長度不一的DNA延伸片段;然后采用平板凝膠電泳,用4條電泳道來分離4個反應的所得產(chǎn)物,便可以按順序讀出相應的DNA序列。在那個年代,測序主要依靠手工操作,難以自動化,并且依賴電泳技術(shù),試劑消耗也大,這些都極大限制了測序的通量。
其后在此技術(shù)原理的基礎上產(chǎn)生了幾次變革,主要技術(shù)上的變化有以下三點:(1)采用具有顏色的熒光染料取代了放射性同位素標記;(2)采用毛細管電泳技術(shù)取代了平板凝膠電泳技術(shù);(3)并行化程度更高。這其中應用最廣泛的是ABI公司的3730測序儀,它可以在一次運行中分析96個樣本,讀長最多可以超過1000bp。這一代測序技術(shù)在人類基因組計劃的后期階段起到了關(guān)鍵的作用,加速了人類基因組計劃的完成[4]。但是,由于其對電泳分離技術(shù)的依賴,使其難以進一步提高分析的速度和通過微型化降低測序成本,因此在2005年后,除了在PCR 產(chǎn)物測序和病毒的基因組測序中繼續(xù)發(fā)揮重要作用,其他均已較少采用。但由于其在原始數(shù)據(jù)質(zhì)量(準確率高達99.999%)以及序列讀長方面具有的優(yōu)勢,它還將與新的測序平臺并存。
高通量測序技術(shù)進入市場,使DNA測序技術(shù)在2005年發(fā)生了重要轉(zhuǎn)折,改變了測序的規(guī)模化進程。Illumina、Roche和ABI公司都推出了各自的新一代DNA測序儀,主要技術(shù)革新有以下幾點:(1)采用矩陣分析技術(shù),實現(xiàn)了大規(guī)模并行化,使得矩陣上的DNA樣本可以被同時并行分析;(2)不再采用電泳技術(shù),使得DNA測序儀得以微型化,測序成本大大降低;(3)邊合成邊測序,測序速度大幅提高。與Sanger測序相比,第二代測序技術(shù)單次運行產(chǎn)出序列數(shù)據(jù)量大,所以又被通稱為高通量測序技術(shù)。其技術(shù)原理是:首先構(gòu)建DNA模板文庫,將DNA固定在芯片表面或微球表面;然后通過擴增形成DNA簇或擴增微球;最后利用聚合酶或者連接酶進行一系列循環(huán)的反應操作,通過CCD相機采集每個循環(huán)反應中產(chǎn)生的光學事件信息,從而獲得DNA片段的序列。
1.2.1 Illumina Genome Analyzer Illumina公司于2007年以6億美元收購基因測序公司Solexa,推出了成熟商業(yè)產(chǎn)品 Genome Analyzer[5]。該技術(shù)利用單鏈DNA兩端的非對稱接頭將DNA片段固定在芯片表面形成寡核苷酸橋,并將該芯片放置于流通池內(nèi),完成DNA模板文庫構(gòu)建步驟。經(jīng)過多個PCR循環(huán)擴增出大量的復制產(chǎn)物,每一簇復制產(chǎn)物都分別固定在芯片表面的特定位置上。然后,測序引物雜交到擴增產(chǎn)物中的接頭上,開始合成測序反應。在每一輪的測序循環(huán)中,DNA聚合酶和標記不同熒光基團的4種核苷酸被同時加入到流通池中,按照堿基互補配對的原則延伸一個核苷酸。此時采集熒光基團所發(fā)出的熒光圖像,就可以獲得模板中這一位置的DNA序列信息。為防止額外的延伸,每個核苷酸的3'羥基是被封閉起來的,然后打開3'端,繼續(xù)進行下一輪反應并重復多次,以獲得約50個堿基的DNA序列。
1.2.2 Roche 454 Genome Sequencer 該技術(shù)將固化引物的微球與單鏈DNA相結(jié)合,構(gòu)建DNA模板文庫[6]。調(diào)整微球與文庫片段的比例,以保證大多數(shù)微球只能結(jié)合1個單鏈DNA分子。油與水溶液混合形成油包水結(jié)構(gòu)乳滴,利用微乳滴PCR來生成擴增產(chǎn)物。經(jīng)過多輪循環(huán),每個微球表面都結(jié)合了大量相同的DNA片段。富集微球并轉(zhuǎn)移到帶有規(guī)則微孔陣列的微孔板上,每個微孔只能容納1個微球。微孔板的其中一面可以進行測序反應,另一面則與CCD光學檢測系統(tǒng)相接觸。
序列測定同樣采用邊合成邊測序[7]。三磷酸核苷結(jié)合到DNA鏈上會釋放出焦磷酸,此時通過熒光素酶和ATP硫?;府a(chǎn)生級聯(lián)反應會釋放出光信號。454利用該光學信號來進行檢測。具體方法是順次向微孔板中加入4種dNTP 中的一種,監(jiān)測每個微孔之中是否釋放出光信號,表明該dNTP 是否連接到DNA片段上,以此明確DNA模板上的互補堿基。1.2.3 Life Technologies SOLiD System 與454類似,SOLiD也采用微乳滴PCR 的方法擴增DNA模板[8],并將擴增微球固定在玻璃基板上形成高通量的陣列。SOLiD采用連接反應進行邊合成邊測序。將通用引物與連在微球上的DNA文庫模板雜交,然后進行一系列的連接反應。每個連接反應都發(fā)生在DNA延伸鏈和帶有熒光標記的單鏈八核苷酸探針池中的某一探針之間。八核苷酸探針的堿基與特定的熒光顏色有明確的對應關(guān)系。經(jīng)過一系列復雜的連接,酶切和下一引物結(jié)合的反應循環(huán)后,獲取熒光圖象,即可根據(jù)堿基與熒光之間的對應關(guān)系讀出DNA序列信息。
第二代技術(shù)是目前市場上主流的DNA測序技術(shù),已經(jīng)廣泛地應用于各項研究領域中。較第一代測序技術(shù)而言,測量通量明顯提高。第二代測序技術(shù)極大地推進了基因組相關(guān)研究的進展,以前讓研究者望塵莫及的基因組測序工作,現(xiàn)在幾乎每一個實驗室都可以開展。但是其不足之處也日益凸顯。首先,第二代測序讀長較短[9]。這一缺點對后續(xù)的序列拼接,組裝以及注釋等生物信息學分析帶來了很大困難。SOLiD 測序儀和Illumina公司的測序儀讀取的單一序列長度一般介于75-100bp,Roche 公司的454測序儀可以達到700bp的讀長,相應的其通量僅僅為0.7Gb,因此其成本偏高。其次,第二代測序技術(shù)原理是建立在PCR的基礎上,但是擴增后得到的DNA分子片段的數(shù)目和擴增前DNA分子片段的數(shù)目比例有相對偏差,在分析基因表達方面存在較大的弊端[10]。因此序列讀長較短和需要模板擴增步驟,成為第二代測序技術(shù)最集中的弊端所在。這樣就需要開發(fā)出不經(jīng)過擴增的單分子測序、讀長超過以往的新型測序技術(shù),第三代測序技術(shù)便應運而生。
第三代測序技術(shù)的技術(shù)標志就是單分子測序和長讀長。這得益于物理、化學、材料等學科的發(fā)展及其與生命科學的融合。第三代測序技術(shù)通過在單一DNA分子組成的陣列上進行合成測序。在一個表面積限定的介質(zhì)上使用單個分子,可以增加獨立分析的DNA片段的數(shù)量,也意味著不再進行昂貴的DNA擴增步驟了,因此,可以使數(shù)據(jù)產(chǎn)出量更高,并且將進一步降低測序的成本。但同時該技術(shù)也帶來了一些新的挑戰(zhàn),主要集中在單分子水平光學信號的檢測方面。主要的問題是要降低沒有參與到實際化學反應中的游離熒光分子的背景干擾。解決原則主要是將檢測局限在測序反應發(fā)生的實際位置附近。下面以在商業(yè)化中應用較好的Pacific Biosciences公司的單分子實時測序儀SMRT加以闡述[11,12]。
SMRT單分子實時測序儀以SMRT芯片為載體進行測序反應。SMRT芯片是一種帶有很多零模式波導孔的金屬片,在該納米孔的底部區(qū)域錨定有DNA聚合酶。由于零模式波導孔直徑只有幾十個納米,其直徑低于光的波長,所以光線無法透射。這樣就創(chuàng)造了一個體積很小的檢測空間。測序時,被打斷成許多小的片段的基因組DNA分散到不同的零模式波導納米孔中。當孔底部聚合反應發(fā)生時,不同熒光標記的dNTP會在小孔的熒光探測區(qū)域中被DNA聚合酶滯留數(shù)十毫秒,在這期間,熒光標記會在激光束的激發(fā)下發(fā)出相應的熒光,根據(jù)熒光的種類就可以判定該位置核苷酸的種類。
目前,SMRT技術(shù)的平均讀長已經(jīng)提升至3000bp左右,在這一點上遠遠優(yōu)于二代測序技術(shù),所以在序列拼接和需要跨越重復區(qū)域的DNA組裝中有著極大優(yōu)勢。另外,讀長的增加也使需要測序覆蓋深度隨之下降,進一步降低了測序的成本。但是因為是單分子測序,測序中產(chǎn)生的任何一個錯誤都會被真實地記錄下來,這就造成了SMRT測序儀最致命的問題。具體來說,測序錯誤可能是會出現(xiàn)堿基的插入和缺失錯誤:堿基缺失錯誤是由于在某些時刻堿基摻入DNA鏈的速度過快,超過了相機最大的拍攝幀數(shù);插入錯誤是由于在某些時刻DNA聚合酶隨機的選擇一些dNTP,但并未真正將這些dNTP摻入DNA鏈中。這些測序錯誤導致SMRT測序儀的準確性僅有85%,相比第二代測序技術(shù)至少99.5%的測序準確率,確實是很大的短板。但這些錯誤是隨機的,并不會隨著讀長的增加而增加。未來隨著測序試劑的優(yōu)化以及每個納米孔可獲得的數(shù)據(jù)量的增加,測序錯誤會隨著測序覆蓋深度的增加逐漸被降低,相信單分子測序技術(shù)可以在不斷的發(fā)展過程中克服其劣勢[13]。
在上述第二代測序和第三代測序技術(shù)中,DNA序列都是在熒光等發(fā)光物質(zhì)的協(xié)助下,通過DNA聚合酶將不同的dNTP連接到DNA鏈上,讀取此過程中釋放出的不同光學信號而間接確定的。這些方法都需要昂貴的光學監(jiān)測系統(tǒng),并依賴DNA聚合酶讀取堿基序列,這些項目都增加了測序的成本。因此開發(fā)出不使用生物化學試劑,直接讀取DNA序列信息的新型測序方法是非??扇〉?,由此構(gòu)成了第四代測序技術(shù)的主要思想。
第四代測序技術(shù)中的代表當屬納米孔測序,它不需要對DNA樣品進行任何生物或化學方面的處理,而采用物理方法直接讀出其堿基序列[14,15]。其基本原理可概括為:單個堿基通過納米孔通道時,就會引起通道電學性質(zhì)的變化,并且由于ATGC這4種不同的堿基存在電學性質(zhì)差異,使得它們穿越納米孔時所引起的電學參數(shù)的變化量也不同。因此,不同的電學參數(shù)變化量就對應通過納米孔的相應堿基。由此可見,第四代測序技術(shù)特點是完全拋棄了在復雜的DNA聚合酶的生化反應中進行DNA序列的讀取,而是利用不同堿基的電學性質(zhì)差異,通過納米孔等直接對堿基穿過電極時的電流變化進行測量實現(xiàn)的。從目前的情況來看,研究人員已經(jīng)在納米孔的制造和DNA分子的控制上取得了一定的進展,但是目前第四代測序技術(shù)所取得的成果還都處在實驗室階段并且存在著其局限性,但是最近的研究工作表明未來新一代的DNA測序平臺可能將在其中產(chǎn)生[16]。
回顧上述四代測序平臺的技術(shù)的發(fā)展,可以看出,生物化學技術(shù)和固態(tài)技術(shù)的融合推動了DNA測序技術(shù)的進步。現(xiàn)階段,技術(shù)的融合有從生物化學手段向物理手段發(fā)展的趨勢[17],相信這一趨勢將繼續(xù)持續(xù)下去。下一代DNA測序技術(shù)將可能不再使用生物化學的方法,而物理手段納米技術(shù)將有可能發(fā)揮更大的作用。未來基于納米孔的DNA測序技術(shù),當線性DNA通過納米孔時,核苷酸序列就會被確定下來。這樣可以同時實現(xiàn)長讀長和高通量。理論上一個納米孔結(jié)構(gòu)單次測序讀長可能僅僅受到線狀DNA鏈的長度限制;而表面積很小的芯片上也可以容納不計其數(shù)的納米孔。因此,預計新一代的測序技術(shù)在具有超高通量的同時,其讀長也將輕易超過以長讀長聞名的第一代測序技術(shù)。
基因組從頭測序是在沒有任何現(xiàn)有的DNA序列資料的情況下,直接對某個物種的基因組進行測序。第一代測序技術(shù)在1990年啟動的人類基因組計劃和多種模式生物,如擬南芥(Arabidopsis thaliana)[18]、線蟲(Caenorhabditis elegans)[19]和小鼠(Mus musculus)[20]全基因組測序中起了重要的作用。但是,測序速度慢、成本高和通量低的第一代測序技術(shù)遠遠不能滿足人們對大量生物基因組解析的需求,因此第二代測序技術(shù)出現(xiàn)后,人們開始選擇使用新一代測序技術(shù)進行全基因組從頭測序。熊貓(Ailuropoda melanoleura)基因組[21]的從頭測序是第一次完全采用第二代測序技術(shù)完成的大型物種的全基因組從頭測序,標志著第二代測序技術(shù)和拼接組裝技術(shù)登上了基因組從頭測序的歷史舞臺。2011年以來,第二代測序技術(shù)快速發(fā)展。伴隨著測序所需的成本的降低和測序時間的縮短,采用第二代測序技術(shù)從頭測序的全基因組猶如雨后春筍般出現(xiàn),基因組學研究也迎來了革命性突破。不過第二代測序技術(shù)測序讀長短,這就要求必須有足夠的覆蓋度才能完成基因組序列的拼接。第三代測序技術(shù)具有讀長長的特點,在基因組測序中能降低測序后contig的數(shù)量,大大減少了后續(xù)的基因組組裝的工作量,節(jié)省大量的測序成本和時間。科學家僅僅用0.5×的第三代測序平臺的測序數(shù)據(jù)結(jié)合38×的第二代測序的數(shù)據(jù),就完成了馬達加斯加指猴基因組序列的組裝[22]?,F(xiàn)階段,三代測序技術(shù)均有其優(yōu)勢與局限性。因此從根本上說,要完成特定物種的基因組從頭測序,必須進行合理評估以選擇合適的測序平臺。
基因組重測序是針對已知基因組序列的物種而言,重新測序的對象是該物種具有不同性狀的其他個體。通過基因組重測序并進行差異信息分析,人們能夠快速的進行很多有意義的研究,具有重大的科研價值和產(chǎn)業(yè)價值。具體來說主要有以下幾點:(1)在群體水平研究物種的進化歷史和對環(huán)境的適應性。對種內(nèi)具有不同表型的個體進行基因組重測序,可以在全基因組水平上找到群體內(nèi)個體間的DNA差異,包括大量的SNPs和結(jié)構(gòu)變異(structure variations,SVs)等變異信息,而這些差異可能與這些個體的表型差異存在關(guān)聯(lián)性,從而明確基因組是如何進化以使物種適應不同環(huán)境等問題。Lam等[23]對14株栽培大豆和17株野生大豆進行了全基因組重測序,通過比較分析,鑒定出了栽培大豆中獲得以及丟失的18萬多個遺傳變異位點,且栽培大豆相對于野生大豆有著更低水平的遺傳多樣性,這可能與人類的選擇有關(guān)。(2)基因組重測序可以在全基因組水平掃描出與動植物重要性狀相關(guān)的變異位點,是育種研究中迅速有效的新方法。Zheng 等[24]采用基因組重測序技術(shù),對950份世界范圍內(nèi)的水稻栽培種進行了遺傳分析,鑒定出18個與粒重和開花期相關(guān)聯(lián)的候選基因,為水稻的進一步遺傳育種提供了理論基礎。(3)遺傳突變、適應進化和表型篩選是創(chuàng)造出帶有優(yōu)良性狀突變體的有力工具,基因組重測序技術(shù)有利于突變位點的定位和鑒定。Ashelford等[25]對一個擬南芥突變體的回交系進行基因組重測序,成功鑒定出在 AtNFXL-2基因中引起該突變表型的SNP位點。
轉(zhuǎn)錄組測序(RNA-seq)是從總RNA 中富集出單鏈mRNA 經(jīng)反轉(zhuǎn)錄得到雙鏈cDNA,而后對其進行高通量測序分析。第二代測序技術(shù)發(fā)展后,RNA-seq在新基因發(fā)現(xiàn)、可變剪切位點識別、基因表達和小RNA測序及其靶標mRNA的識別上都有重要應用。而第三代測序技術(shù)擁有實時測序的特點,可以直接對RNA進行測序,免除了將RNA轉(zhuǎn)變成DNA的過程,更加促進了RNA-seq的發(fā)展。下面將逐一作出闡述。
2.3.1 mRNA測序 Chen等[26]采用 RNA-seq對飛蝗(Brugia malayi)的轉(zhuǎn)錄組進行了測序,對獲得的21.5 Gb的序列進行了拼接,共得到7萬多轉(zhuǎn)錄本,由此鑒定出11490 個蝗蟲蛋白的編碼基因,從基因組范圍內(nèi)全面解析了飛蝗的核心基因集。Li 等[27]使用RNA-seq分析了玉米葉片的轉(zhuǎn)錄組,得到約120 Mb的轉(zhuǎn)錄組數(shù)據(jù),結(jié)合玉米基因組序列,預測了基因的結(jié)構(gòu)和可變剪接事件。結(jié)果顯示,大部分玉米基因存在不同的mRNA可變剪接事件,這表明可變剪接事件比預期的更常見。這些數(shù)據(jù)為研究遠比預期復雜的玉米轉(zhuǎn)錄調(diào)節(jié)機制提供了廣泛的依據(jù)。
2.3.2 基因表達分析 隨著測序技術(shù)的進步,科學家們越來越多的采用數(shù)字基因表達譜(digital gene expression,DGE)技術(shù)進行基因差異表達分析。該技術(shù)的基本原理是將mRNAs反轉(zhuǎn)錄成cDNAs,然后將cDNAs進行雙酶切,使得一條mRNA對應一個相應的短DNA標簽,而后采用高通量測序和分析流程,經(jīng)過生物信息分析比較不同樣本間各種標簽條數(shù),找出差異的表達標簽,從而明確差異基因表達。
Wang等[28]利用數(shù)字基因表達譜技術(shù)分析了野生型棉花和它的突變體基因表達情況發(fā)現(xiàn),在野生型和突變體之間,磷酸酶基因、纖維素合成酶基因和脫氫酶基因表達差異水平最大,而上述基因都參與了棉纖維細胞的發(fā)育過程,從而證實了在纖維早期發(fā)育中基因轉(zhuǎn)錄調(diào)控的高度復雜性。Hao等[29]首先對紅豆杉通過RNA-seq技術(shù)對其轉(zhuǎn)錄組進行了從頭測序組裝,并基于生物信息學分析和同源蛋白的搜索,鑒定出2萬多個紅豆杉單一基因序列;然后使用數(shù)字基因表達譜技術(shù)分析了根、莖和葉3種組織中基因差異表達情況,鑒定出一批紅豆杉組織特異性基因和紫杉烷生物合成途徑的重要基因。
2.3.3 小RNA測序及其靶標mRNA的識別 Guo等[30]采用高通量RNA-seq測序,分析了常規(guī)條件下和H2O2脅迫處理條件下的水稻幼苗的miRNAs組。通過生物信息學分析發(fā)現(xiàn),有7個miRNAs家族在H2O2脅迫處理條件下呈現(xiàn)出明顯的差異表達。這些miRNAs的靶基因參與了包括養(yǎng)分運輸、轉(zhuǎn)錄調(diào)控、細胞增殖和細胞程序化凋亡不同的代謝過程和細胞周期調(diào)控,說明多樣化的miRNAs形成了一個復雜的植物氧化應激反應的調(diào)控網(wǎng)絡。除此之外,在水稻中還發(fā)現(xiàn)了32個尚未鑒定出的miRNAs,并且首次發(fā)現(xiàn)了一個前體位于植物外顯子小RNA,說明植物也可以使用某些外顯子作為miRNA的來源。
明確了全基因組范圍內(nèi)的miRNAs組后,鑒定miRNAs的靶標mRNAs可以對其生物學功能展開詳細的研究。隨著測序技術(shù)的發(fā)展,現(xiàn)在可以采用RNA-seq技術(shù)用于miRNAs的靶標mRNAs配對關(guān)系的發(fā)現(xiàn),這一方法被稱為降解組測序。其基本原理是:在植物體內(nèi)大多數(shù)的miRNAs剪切mRNA的位點是兩者互補區(qū)域的第10位核苷酸,經(jīng)剪切后靶mRNA產(chǎn)生了3'剪切片段和5'剪切片段;其中3'剪切片段含有5'單磷酸基團,可用于下游高通量測序;而含有帽子結(jié)構(gòu)的5'剪切片段和含有5'帽子結(jié)構(gòu)的尚未降解的mRNA缺少5'單磷酸基團,無法進入下游的高通量測序。因此,對3'端降解片段進行高通量測序并進行比較分析后,可以直觀地發(fā)現(xiàn)在某個mRNA的某個位點上會出現(xiàn)一個波峰,該mRNA便是miRNAs的靶標mRNA,波峰位置便是候選的miRNA剪切位點。Zhou等[31]利用降解組測序在水稻中鑒定miRNAs 靶基因,發(fā)現(xiàn)了87個miRNAs的177個靶標mRNAs。這些靶標mRNAs在水稻的基因表達調(diào)控中發(fā)揮重要作用,構(gòu)成了復雜的調(diào)節(jié)網(wǎng)絡。
2.3.4 第三代測序技術(shù)與RNA測序 利用第三代測序平臺,可以免除將RNA轉(zhuǎn)變成cDNA的步驟,實現(xiàn)RNA的直接測序[32]。這是因為第三代測序平臺為單分子測序平臺,將DNA聚合酶換為反轉(zhuǎn)錄酶便可對RNA直接進行測序,利用該技術(shù)已成功對釀酒酵母的RNA進行了直接測序[33]。
表觀遺傳學是研究在非基因序列改變前提下,DNA甲基化和組蛋白修飾等所導致的基因表達水平變化。而隨著測序技術(shù)的發(fā)展,產(chǎn)生了表觀基因組學,它是在基因組水平上對表觀遺傳學改變的研究。DNA甲基化修飾、組蛋白修飾是表觀基因組學的重要研究內(nèi)容。
2.4.1 DNA甲基化修飾 亞硫酸氫鹽可以使DNA中沒有發(fā)生甲基化的胞嘧啶轉(zhuǎn)變?yōu)槟蜞奏?,甲基化的胞嘧啶則可以保持不變。利用上述原理,對亞硫酸氫鹽處理過的基因組測序并且與未經(jīng)處理的序列相比較,就可以得到全基因組范圍內(nèi)單堿基分辨率水平的甲基化圖譜,這就是全基因組甲基化測序技術(shù)。
Xiang 等[34]利用全基因組甲基化測序技術(shù),對家蠶的2個個體進行了測序,得到了家蠶絲腺的甲基化圖譜,共找出17萬個甲基化位點,其中絕大部分位于GC島,0.11%的胞嘧啶發(fā)生了甲基化修飾。在這些甲基化位點中,基因內(nèi)部的甲基化占了很大一部分;而在基因啟動區(qū)域、rDNA 區(qū)域和轉(zhuǎn)座元件區(qū)域甲基化程度很低。說明在高等生物中發(fā)揮重要調(diào)控作用的啟動子區(qū)甲基化、核糖體rDNA甲基化和轉(zhuǎn)座子區(qū)的甲基化未在昆蟲中進化出來,家蠶甲基化譜的成功繪制為解析昆蟲類的表觀遺傳調(diào)控提供了重要資料。
第三代測序技術(shù)對DNA聚合酶的工作狀態(tài)進行了實時監(jiān)測,聚合酶每合成一個堿基都要消耗一個時間段,而當DNA模板的堿基帶有甲基化等修飾時,聚合酶的速度就會慢下來。通過這一原理就可以判斷DNA模板的這個位置是否存在甲基化修飾,為表觀遺傳學研究開辟了一條新路[35]。
2.4.2 組蛋白修飾 染色質(zhì)免疫共沉淀(Chromatin immunoprecipitaion,ChIP)是研究體內(nèi)DNA與蛋白相互作用的一種方法,開始往往用在解析轉(zhuǎn)錄因子在基因組范圍內(nèi)的結(jié)合位點上。近年來,將該技術(shù)與新一代測序技術(shù)相結(jié)合后產(chǎn)生了染色質(zhì)免疫共沉淀-測序(ChIP-seq)技術(shù),在表觀遺傳學中發(fā)揮了重要作用。先通過ChIP富集與特定組蛋白修飾相結(jié)合的DNA片段,然后進入高通量測序流程,最后將獲得的所有DNA序列標簽定位到基因組上,從而獲得不同修飾的組蛋白在全基因組范圍內(nèi)的DNA結(jié)合區(qū)段信息。Wang等[36]采用ChIP-seq技術(shù),對玉米幼苗的4種組蛋白修飾(H3K4me3、H3K27me3、H3K36me3和 H3K9ac)進 行 了 詳 盡的研究,表明其中3種組蛋白修飾(H3K4me3、H3K9ac和H3K36me3)正調(diào)控基因表達;而組蛋白修飾H3K27me3負調(diào)控基因表達。
DNA測序技術(shù)的發(fā)展已經(jīng)成為生物學領域最前沿的領域之一。從測序技術(shù)上來看,已經(jīng)商業(yè)化的前三代測序技術(shù)由于之間功能上的互補性,它們將長期共存;而第四代測序技術(shù)指明了未來測序技術(shù)的發(fā)展方向。 從應用方面來看,快速而廉價的DNA測序能力將使基因組學成為研究生物學問題的常規(guī)方法,引領我們開辟一系列新的研究領域。
[1]周曉光, 任魯風, 李運濤, 等. 下一代測序技術(shù):技術(shù)回顧與展望[J]. 中國科學:生命科學, 2010, 40(1):23-37.
[2]岳桂東, 高強, 羅龍海, 等. 高通量測序技術(shù)在動植物研究領域中的應用[J]. 中國科學:生命科學, 2012, 42(2):107-124.
[3]Sanger F. Sequences, sequences, and sequences[J]. Annual Review of Biochemistry, 1988, 57(1):1-29.
[4]McPherson JD, Marra M, Hillier LD, et al. A physical map of the human genome[J]. Nature, 2001, 409(6822):934-941.
[5]Fedurco M, Romieu A, Williams S, et al. BTA, a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies[J]. Nucleic Acids Research, 2006, 34(3):e22.
[6]Margulies M, Egholm M, Altman WE, et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 2005,437(7057):376-380.
[7]Ronaghi M, Karamohamed S, Pettersson B, et al. Real-time DNA sequencing using detection of pyrophosphate release[J].Analytical Biochemistry, 1996, 242(1):84-89.
[8]Holt RA, Jones SJM. The new paradigm of flow cell sequencing[J].Genome Research, 2008, 18(6):839-846.
[9]Pop M, Salzberg SL. Bioinformatics challenges of new sequencing technology[J]. Trends in Genetics, 2008, 24(3):142-149.
[10]Torres TT, Metta M, Ottenw?lder B, et al. Gene expression profiling by massively parallel sequencing[J]. Genome Research, 2008,18(1):172-177.
[11]Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Science, 2009, 323(5910):133-138.
[12]Schadt EE, Turner S, Kasarskis A. A window into third-generation sequencing[J]. Human Molecular Genetics, 2010, 19(R2):R227-R240.
[13]張得芳, 馬秋月, 尹佟明, 夏濤. 第三代測序技術(shù)及其應用[J].中國生物工程雜志, 2013, 33(5):125-131
[14]Yang J, Ferranti DC, Stern LA, et al. Rapid and precise scanning helium ion microscope milling of solid-state nanopores for biomolecule detection[J]. Nanotechnology, 2011, 22(28):285310.
[15]Marshall MM, Yang J, Hall AR. Direct and transmission milling of suspended silicon nitride membranes with a focused helium ion beam[J]. Scanning, 2012, 34(2):101-106.
[16]陳文輝, 羅軍, 趙超. 固態(tài)納米孔:下一代DNA測序技術(shù)——原理、工藝與挑戰(zhàn)[J]. 中國科學:生命科學, 2014, 44(7):649-662.
[17]任魯風, 于軍. 解讀生命密碼的基本手段——DNA測序技術(shù)的前世今生[J]. 生命科學, 2012, 24(12):1357-1362.
[18]Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana[J]. Nature, 2000, 408(6814):796.
[19]Hillier LDW, Marth GT, Quinlan AR, et al. Whole-genome sequencing and variant discovery in C. elegans[J]. Nature Methods, 2008, 5(2):183-188.
[20]Powell K, Abbott A, Check E. Mouse genome :The real deal[J].Nature, 2002, 420(6915):456-456.
[21]Li R, Fan W, Tian G, et al. The sequence and de novo assembly of the giant panda genome[J]. Nature, 2010, 463(7279):311-317.
[22]Perry GH, Reeves D, Melsted P, et al. A genome sequence resource for the aye-aye(Daubentonia madagascariensis), a nocturnal lemur from Madagascar[J]. Genome Biology and Evolution,2012, 4(2):126-135.
[23]Lam HM, Xu X, Liu X, et al. Resequencing of 31 wild and cultivated soybean genomes identifies patterns of genetic diversity and selection[J]. Nature Genetics, 2010, 42(12):1053-1059.[24]Zheng LY, Guo XS, He B, et al. Genome-wide patterns of genetic variation in sweet and grain sorghum(Sorghum bicolor)[J].Genome Biology, 2011, 12(11):R114.
[25]Ashelford K, Eriksson ME, Allen CM, et al. Full genome re-sequencing reveals a novel circadian clock mutation in Arabidopsis[J].Genome Biol, 2011, 12(3):R28.
[26]Chen MX, Ai L, Xu MJ, et al. Identification and characterization of microRNAs in Trichinella spiralis by comparison with Brugia malayi and Caenorhabditis elegans[J]. Parasitology Research,2011, 109(3):553-558.
[27]Li P, Ponnala L, Gandotra N, et al. The developmental dynamics of the maize leaf transcriptome[J]. Nature Genetics, 2010, 42(12):1060-1067.
[28]Wang QQ, Liu F, Chen XS, et al. Transcriptome profiling of early developing cotton fiber by deep-sequencing reveals significantly differential expression of genes in a fuzzless/lintless mutant[J].Genomics, 2010, 96(6):369-376.
[29]Hao DC, Ge G, Xiao P, et al. The first insight into the tissue specific taxus transcriptome via Illumina second generation sequencing[J]. PLoS One, 2011, 6(6):e21220.
[30]Guo W, Wu G, Yan F, et al. Identification of novel Oryza sativa miRNAs in deep sequencing-based small RNA libraries of rice infected with Rice stripe virus[J]. PLoS One, 2012, 7(10):e46443.
[31]Zhou M, Gu L, Li P, et al. Degradome sequencing reveals endogenous small RNA targets in rice(Oryza sativa L. ssp. indica)[J].Frontiers in Biology, 2010, 5(1):67-90.
[32]Uemura S, Aitken CE, Korlach J, et al. Real-time tRNA transit on single translating ribosomes at codon resolution[J]. Nature,2010, 464(7291):1012-1017.
[33]Ozsolak F, Platt AR, Jones DR, et al. Direct RNA sequencing[J].Nature, 2009, 461(7265):814-818.
[34]Xiang H, Zhu J, Chen Q, et al. Single base-resolution methylome of the silkworm reveals a sparse epigenomic map[J]. Nature Biotechnology, 2010, 28(5):516-520.
[35]Song CX, Clark TA, Lu XY, et al. Sensitive and specific singlemolecule sequencing of 5-hydroxymethylcytosine[J]. Nature Methods, 2012, 9(1):75-77.
[36]Wang X, Elling AA, Li X, et al. Genome-wide and organ-specific landscapes of epigenetic modifications and their relationships to mRNA and small RNA transcriptomes in maize[J]. The Plant Cell, 2009, 21(4):1053-1069.