李成
混合測序技術(shù)在高通量測序中的應(yīng)用
李成
介紹了高通量測序在面向大樣本時(shí)所面臨的問題,分析了高通量測序技術(shù)的原理和特點(diǎn)及其在解決大樣本測序時(shí)的技術(shù)優(yōu)勢,并總結(jié)了檢測矩陣的構(gòu)建方法,指出了混合測序能夠應(yīng)用于部分高通量測序?qū)嶒?yàn)并可大幅節(jié)約測序成本,展望了混合測序技術(shù)在高通量測序中的應(yīng)用前景。
樣本混合;高通量測序;群試;分離矩陣
隨著高通量測序技術(shù)的不斷發(fā)展和測序成本的不斷降低,利用高通量測序技術(shù)進(jìn)行醫(yī)學(xué)診斷具有較好的前景。同時(shí),眾多醫(yī)學(xué)研究表明,許多疾病與某些稀有變異基因密切相關(guān),針對某些已知稀有變異基因的檢測能夠預(yù)判或診斷出與之密切相關(guān)的疾病。在新一代測序技術(shù)應(yīng)用于這些稀有變異基因檢測的過程中,有2個(gè)方面是應(yīng)用中亟待解決的問題:
(1)新一代測序技術(shù)帶給人們大量遺傳信息的同時(shí),卻成為限制其廣泛應(yīng)用的一個(gè)障礙。新一代測序儀的一個(gè)測序流程能夠產(chǎn)生巨量的片段信息,如ABI公司的新一代測序平臺(tái)SOLID單次運(yùn)行,便可分析6 GB的堿基序列;Illumina Genome Analyzer測序系統(tǒng)僅在2 h的運(yùn)行時(shí)間里就可得到10 TB的信息[1],這些巨量信息僅僅用來提高某些固定堿基位點(diǎn)的測序覆蓋度,無疑是極為浪費(fèi)的。(2)在針對此類稀有變異疾病進(jìn)行大量人群篩查時(shí),一個(gè)測序通道只針對一個(gè)個(gè)體樣本,而如今二代測序儀最多只有8個(gè)通道,因此一次測序流程只能測8個(gè)個(gè)體樣本,在針對大量人群稀有變異篩查的醫(yī)學(xué)檢驗(yàn)中。簡單地利用測序儀逐個(gè)樣本篩查,成本是不可想像的。
將樣本混合后進(jìn)行檢測能夠均衡兩方面,并可充分利用新一代測序儀的測序性能,從而大大降低測序成本。但僅僅簡單的混合無法分辨檢測到的變異片段來自于哪個(gè)樣本,如何將所得到的測序結(jié)果溯源,即找到測序結(jié)果片段的源樣本,是這種方法應(yīng)用的前提。
目前已有2類方法可進(jìn)行混合:第一類方法是每個(gè)樣本序列被打斷后,成為適合測序的小片段,首先為這些小片段加上條形碼,即為屬于每個(gè)樣本的序列片段加上了一個(gè)“身份標(biāo)志”,然后再進(jìn)行混合測序。測序找到含稀有變異的片段時(shí),通過條形碼這個(gè)身份標(biāo)志,能夠分辨出屬于哪一個(gè)樣本[2]。但這種方法的實(shí)現(xiàn)需要在測序準(zhǔn)備時(shí)、樣本打斷后進(jìn)行,而且為每個(gè)樣本的一批片段標(biāo)志條形碼,增加了一個(gè)工作步驟,并且需要逐樣本添加,保證每個(gè)樣本的條形碼唯一,所以大大增加了工作量。第二類方法就是本文要重點(diǎn)討論的混合測序(Overlapping pooling)技術(shù)。其原理是將樣本按照一定規(guī)律進(jìn)行編碼混合,之后進(jìn)行測序,根據(jù)混合測序的檢測結(jié)果和編碼規(guī)律再進(jìn)行反向解碼,從而找到含變異的樣本。
以一個(gè)檢測實(shí)例說明樣本混合方法的原理。設(shè)待測樣本有20個(gè),圖1表示了一種簡單的網(wǎng)格分組方法,但這種方法的成功應(yīng)用基于一個(gè)前提,即所有樣本僅有一個(gè)陽性樣本(如圖1(a)所示),若含2個(gè)以上的陽性樣本,則無法成功解碼(如圖1(b)所示)。
將20個(gè)樣本分別編號(hào)為1~20,分為A、B、C、D、E、Ⅰ、Ⅱ、Ⅲ、Ⅳ共9組,分組結(jié)果如圖2所示。
圖1 樣本混合方案設(shè)計(jì)檢測陽性樣本
圖2 樣本混合方案分組示意圖
根據(jù)圖2對9個(gè)組中的混合樣本分別進(jìn)行檢測,一共檢測9次,就可以判斷出陽性樣本是哪一個(gè)。如圖1(a)所示,假設(shè)9次檢測結(jié)果中,B組和Ⅱ組檢測結(jié)果為陽性,說明這2組含有陽性樣本,再由前提條件只有1個(gè)陽性樣本,則根據(jù)圖2的分組規(guī)則,只有6號(hào)樣本為2組共同所有,所以6號(hào)樣本為陽性。這樣通過樣本混合分組,僅用9次檢測就找到了20個(gè)樣本的某個(gè)陽性樣本,從而避免了20個(gè)樣本的逐個(gè)檢測。
這種檢測算法可以用一個(gè)元素為0或1的檢測矩陣M來具體表示。設(shè)欲檢測樣本總數(shù)量為N,群試設(shè)計(jì)方案中共要進(jìn)行T次檢測,則有一個(gè)T×N的(0,1)矩陣M,各列代表各個(gè)樣本,各行代表各組的檢測池(即一次檢測),Mij表示第i行和第j列相交的矩陣元素,Mij=1表明在所設(shè)計(jì)的實(shí)驗(yàn)中要將第j號(hào)樣本混入到第i個(gè)檢測池中,即參與第i個(gè)檢測池的檢測實(shí)驗(yàn);Mij=0則表明第j號(hào)樣本不用加入到第i個(gè)檢測池中。例如,上節(jié)中樣本混合的分組方式可用檢測矩陣表示,如圖3所示。
圖3 樣本混合方案對應(yīng)檢測矩陣
檢測矩陣的每一列對應(yīng)一個(gè)樣本,每一行代表一個(gè)檢測池(即一次檢測),若某一列對應(yīng)的樣本為陽性樣本,則我們稱此列為陽性列;同樣,矩陣中代表檢測結(jié)果為陽性的檢測池的行稱為陽性行。觀察上例矩陣,任意一個(gè)列向量都與其他列不同,而這正是單陽性樣本能夠正確解碼的條件。但這種簡單的分組方式不能夠解決多個(gè)陽性樣本的檢測問題,如圖1(b)所示,如果6號(hào)和20號(hào)樣本均為陽性,則會(huì)使B、E、Ⅱ、Ⅳ4組檢測為陽性,而4組陽性的原因存在 {8,18}、{6,20}、{6,8,18}、{6,8,20}、{6,18,20}、{8,18,20}、{6,8,18,20}多種陽性樣本組合的可能性,故這種分組方式不能滿足檢測多個(gè)陽性樣本的要求。
研究人員經(jīng)過對群試?yán)碚摰纳钊胙芯?,發(fā)展了能夠檢測多個(gè)陽性樣本的Overlapping pooling方法。因?yàn)殛栃詷颖灸軌蛲ㄟ^檢測矩陣正確判斷的條件是結(jié)果列向量U(D)與其他任意d列的布爾和均不同,有了這種唯一性才能夠判斷出是哪d列對應(yīng)樣本陽性使結(jié)果列向量出現(xiàn)此結(jié)果。所以在檢測矩陣M設(shè)計(jì)過程中,要想檢測出d個(gè)陽性樣本,必須保證對于M中任意的2個(gè)不同的d列D1,D2,總有U(D1)≠U(D2),滿足這種性質(zhì)的(0,1)矩陣稱之為d-可分(dseparable)矩陣。但可分矩陣的解碼復(fù)雜度過高,因而Kautz和Singleton[3]提出了d-分離矩陣的定義:對于一個(gè)(0,1)矩陣M,若其中任意一列均不能夠被其他任意d列的布爾和所覆蓋(在(0,1)矩陣中,若一列A中所有的1元素在另一列B同樣位置上都有1元素,則稱A被B覆蓋),M稱為d-分離(ddisjunct)矩陣。d-分離矩陣可用來檢測最多d個(gè)陽性樣本。其解碼過程較簡單,只需將矩陣中每一列C與檢測結(jié)果向量進(jìn)行比較,若C被結(jié)果向量覆蓋,則C所代表的樣本為陽性,反之為陰性。在大樣本中稀少突變的檢測過程中,各種實(shí)驗(yàn)誤差導(dǎo)致的檢測錯(cuò)誤往往是不可避免的,因而所設(shè)計(jì)的檢測矩陣還應(yīng)當(dāng)具備一定的容錯(cuò)性。D′Yachkov等[4]提出了容錯(cuò)矩陣的概念,給出了(d;z)-可分矩陣的定義和其糾錯(cuò)能力。但正如d-可分矩陣、(d;z)-可分矩陣解碼方式的時(shí)間復(fù)雜度過高,于是Macula提出de-分離矩陣的概念[5]:一個(gè)d-分離矩陣M稱為de-分離,若對于M中任意的d+1列中存在一列,有e+1行均為1,而其他d列的這些行均為0。1996年,Macula定義de-分離矩陣時(shí)認(rèn)為其能夠糾正e個(gè)錯(cuò)誤,但2003年Hwang[6]提出de-分離矩陣無法糾正e個(gè)錯(cuò)誤,隨后D′Yachkov等[7]給出了證明,并重新定義了dz-分離矩陣M:對于M中任意的d+1列中存在一列,有z行均為1且不能被其他d列覆蓋。Yachkov認(rèn)為dz-分離矩陣至少能夠查出z-1個(gè)錯(cuò)誤和糾正(z-1)/2個(gè)錯(cuò)誤。
在利用Overlapping pooling技術(shù)進(jìn)行大樣本檢測實(shí)驗(yàn)時(shí),要通過構(gòu)建檢測矩陣實(shí)現(xiàn)混合方案和解碼的確定。因此,如何進(jìn)行d-分離矩陣和dz-分離矩陣的構(gòu)建是此技術(shù)應(yīng)用的關(guān)鍵,其中,關(guān)于分離矩陣構(gòu)建主要有以下3種方法,現(xiàn)分別介紹如下。
2.1 區(qū)組設(shè)計(jì)
Kautz和Singleton[3]在20世紀(jì)60年代基于區(qū)組設(shè)計(jì)的研究給出了一種d-分離矩陣的構(gòu)造方法,但這種方法的發(fā)展受到信息論中參數(shù)最優(yōu)化理論的限制,一直難以找到最優(yōu)的區(qū)組。
2.2 橫向設(shè)計(jì)
最簡單的橫向設(shè)計(jì)就是上文提到的網(wǎng)格設(shè)計(jì)。針對網(wǎng)格設(shè)計(jì)只能檢測單陽性樣本的缺陷,Nicolas等[8]提出了橫向轉(zhuǎn)移設(shè)計(jì)(shifted transversal design,STD)方法,將所測樣本分為若干組分別混合檢測,并且每一組的混合方案均不同,每個(gè)樣本在每一組的被混合次數(shù)一致,并且能夠成功解碼。這種方法具有靈活的設(shè)計(jì)能力,能根據(jù)檢測樣本數(shù)、含有的陽性樣本個(gè)數(shù)、可能的錯(cuò)誤發(fā)生率進(jìn)行高效的混合方案設(shè)計(jì),是目前所知的最優(yōu)的設(shè)計(jì)方法。這種方法應(yīng)用在藥物檢測領(lǐng)域取得了不錯(cuò)的效果[9]。
2.3 直接構(gòu)造
Macula[10]給出了一個(gè)利用有限集的子集之間的包含關(guān)系設(shè)計(jì)檢測矩陣的方法:設(shè)M(n,k,d)是的(0,1)矩陣(d≤k 隨著近年來高通量測序技術(shù)的飛速發(fā)展,查找大量樣本中含稀有變異的樣本已成為一種重要應(yīng)用。為充分利用測序儀的單通道測序能力,有必要將樣本混合后進(jìn)行測序,若利用Overlapping pooling技術(shù)將樣本有序混合,則可不必添加標(biāo)志用的條形碼。實(shí)際應(yīng)用中,簡單的網(wǎng)格設(shè)計(jì)混合或二進(jìn)制混合不能發(fā)現(xiàn)2個(gè)以上含變異的陽性樣本,如Snehit Prabhu等[11]介紹的基于Illumina′s Genome Analyzer-2測序平臺(tái)的混合方法中,一個(gè)混合檢測池不能含有2個(gè)以上的陽性樣本。為檢測出混合池中含2個(gè)以上的陽性樣本,Erlich等[12]設(shè)計(jì)了一種DNA Sudoku混合方法,混合之后添加條形碼,再進(jìn)行測序。該設(shè)計(jì)能夠針對陽性樣本數(shù)和可能的檢測錯(cuò)誤靈活設(shè)計(jì)混合方案,但各組間的混合池?cái)?shù)目要求互質(zhì)。Xin等[13]基于橫向設(shè)計(jì)方法進(jìn)行了酵母雙雜交相互作用組定位的實(shí)驗(yàn)驗(yàn)證,與逐個(gè)樣本的檢測相比,該方法大大節(jié)約了成本,提高了檢測效率,同時(shí)仍表現(xiàn)出相當(dāng)?shù)撵`敏性。 Overlapping pooling技術(shù)源于群試?yán)碚?,在高通量測序平臺(tái)上,這種實(shí)驗(yàn)設(shè)計(jì)方法體現(xiàn)了相當(dāng)?shù)膽?yīng)用價(jià)值。受限于群試?yán)碚摰陌l(fā)展,這種混合方法在定量檢測上仍缺乏應(yīng)用,如一些常見的血液檢測中,每個(gè)血液樣本均和試劑反應(yīng)后測得一定的值,通過測量值是否在標(biāo)準(zhǔn)范圍內(nèi)來判斷是否為陽性樣本。這種情況下不能基于“含有”或“不含有”進(jìn)行判斷,要結(jié)合測量值才能判斷。若能夠?qū)崿F(xiàn)定量檢測的混合實(shí)驗(yàn)設(shè)計(jì)和解碼方法,則在眾多醫(yī)學(xué)常規(guī)檢測中均可應(yīng)用。如Amin Emad等[14]提出了半定量的群試方法,為這種方向的應(yīng)用提供了一定的參考價(jià)值。 [1] Shendure J,Ji H.Next-generation DNA sequencing[J].Nature Biotechnology,2008,26(10):1 135-1 145. [2] Patterson N,Gabriel S.Combinatorics and next-generation sequenc- (????)(????)ing[J].Nature Biotechnology,2009,27(9):827. [3] Kautz W H,Singleton R C.Nonrandom binary superimposed codes[J]. IEEE Trans Inform Thy,1964,10:363-377. [4] D′Yachkov A G,Rykov V V,Rachad A M.Superimposed distance codes[J].Problems Control Inform Thy,1983:12:1-13. [5] Macula A J.Error-correcting nonadaptive group testing with dPeP-disjunct matrices[J].Discrete Applied Mathematics,1997,80:217-222. [6] Hwang F K.On Macula′s error-correcting pool designs[J].Discrete Mathematics,2003,268:311-314. [7] D′Yachkov A,F(xiàn)rank H.A construction of pooling designs with some happy surprises[J].Journal of Computational Biology,2005,12:1129-1 136. [8] Thierry N.A new pooling strategy for high-throughput screening:the shifted transversal design[J].BMC Bioinformatics,2006,7:28. [9] Raghunandan M K,Peter J W.PoolHITS:a shifted transversal design based pooling strategy for high-throughput drug screening[J].BMC Bioinformatics,2008,9:256. [10]Macula,Anthony J.A simple construction of d-disjunct matrices with certain constant weights[J].Discrete Mathematics,1996,162:311-312. [11]Prabhu S,Pe′er I.Overlapping pools for high-throughput targeted resequencing[J].Genome Research,2009,19:1 254-1 261. [12]Erlich Y,Chang Y.DNA sudoku—harnessing high-throughput sequencing for multiplexed specimen analysis[J].Genome Research,2009,19:1 243-1 253. [13]Xin X F,Rual J F.Shifted transversal design smart-pooling for high coverage interactome mapping[J].Genome Research,2009,19:1262-1 269. [14]Emad A,Milenkovic O.IEEE International Symposium on Information Theory,Cambridge,JUL 01-06,2012[C].Urbana USA:IEEE,2012. (收稿:2013-05-07 修回:2013-11-25) (欄目責(zé)任編校:陳建新) Application of pooled sequencing technology to high-throughout sequencing LI Cheng The problems of high-throughout sequencing technology are introduced when used for large samples,whose principle,characteristics and advantages are also analyzed.The construction of the test matrix is summarized.It's pointed out that the introduction of pooled sequencing into some high-throughout sequencing experiments may result in decreased cost.The prospect of pooled sequencing technology is explored in the high-throughout sequencing.[Chinese Medical Equipment Journal,2014,35(9):116-118,121] composite sample;high-throughout sequencing;group testing;disjunct matrix R318;O151.21 A 1003-8868(2014)09-0116-04 10.7687/J.ISSN1003-8868.2014.09.116 李 成(1979—),男,工程師,主要從事生物醫(yī)學(xué)工程、生物醫(yī)學(xué)信息學(xué)方面的研究工作,E-mail:licheng18@163.com。 210002南京,南京軍區(qū)聯(lián)勤部藥品儀器檢驗(yàn)所(李 成)3 Overlapping pooling技術(shù)在高通量測序中的應(yīng)用
4 Overlapping pooling技術(shù)的發(fā)展和面臨的問題
(Institute of Drug and Instrument Control,Joint Logistics Department of Nanjing Military Area Command,Nanjing 210002,China)