羅 帆,熊珊珊
(東南大學機械工程學院,江蘇 南京 211189)
隨著科學技術的發(fā)展,人們對DNA結構及其攜帶的遺傳信息的深入研究,促使DNA測序技術不斷地變化,成為生命科學的重要研究領域,極大地推動了生物工程、醫(yī)療技術以及其他學科的發(fā)展。第一代基因測序方法是以Sanger的雙脫氧鏈終止法[1]為核心的化學降解法,是人類基因組技術的核心測序方法,其測序精度高達99.999%,但是高成本和低通量的缺點使其無法實現(xiàn)大規(guī)模的商業(yè)應用。為了降低測序成本以及提高測序基因的通量,人類進入了第二代基因測序時代。第二代基因測序方法以Roche公司454技術、illumina公司的Solexa和Hiseq技術以及ABI公司的Solid技術為代表,其主要特點是高通量和讀取速度快,一次可以對幾十萬條乃至幾百萬條DNA分子的堿基進行測序,它促進了人類對物種轉錄組測序以及基因組深度測序方法的發(fā)展,但是其試劑價格昂貴,使得第二代基因測序的成本高達幾十萬美元。近年來,基于單分子納米孔技術的第三代測序方法應運而生,其主要是通過分辨4種堿基結構的細微差異而導致不同堿基在通過納米孔時產(chǎn)生不同的離子阻塞電流來進行測序,測序過程不需要試劑,且測序速度比一、二代測序方法快,有望進一步降低測序成本,從而改進人類由基因缺陷引起疾病的治療方法[2-5]。為了證明基于單分子納米孔的第三代測序技術的精準性[6-7],本文利用字符串匹配算法模擬單分子探針PNA(肽核酸)與λDNA通過雙層納米孔芯片匹配實驗來計算單分子探針讀取λDNA的精確度。
匹配算法的基本原理:把λDNA的堿基信息看成一個長字符串,PNA探針看成一個短字符串,把PNA探針與λDNA的匹配變成短字符串與長字符串的匹配。
圖1所示為PNA/λDNA模擬實驗的流程圖,圖中V為PNA探針字符串,B為λDNA的字符串,C為探針讀取λDNA堿基位置數(shù)組,K為探針首個堿基讀取的λDNA堿基有效位置數(shù)組,Q為所有PNA探針讀取有效位置數(shù)組,P為各類探針匹配個數(shù)數(shù)組,lb為λDNA的長度(單位:b),lc為探針讀取的位置長度(單位:b),lq為探針讀取的有效位置長度(單位:b),per為探針庫所有探針讀取λDNA的精確度。
在進行字符串匹配時,首先要進行的是探針的自動輸入。由于探針庫S的大小與探針組成堿基個數(shù)n成冪次方(S=4n)關系,故當n值較大時,探針庫的容量就會很大,自動輸入探針就十分必要。在MATLAB中,使用函數(shù)comb,只要輸入組成PNA探針的堿基個數(shù)及其堿基種類,就能直接生成一個包含探針所有類型的字符數(shù)組,只需要對字符數(shù)組中的單個字符串進行調用,就可實現(xiàn)PNA探針的自動輸入,如圖1中Ⅰ所示。其次在探針輸入之后,進行短字符串PNA探針與長字符串λDNA的匹配。使用字符串處理函數(shù)strncmp比較PNA探針堿基信息與λ DNA上的堿基片段是否相等,如圖1中Ⅱ所示。其匹配過程見表1,表中序號為λDNA中堿基的排列順序, A,C,G,T分別代表腺嘌呤、胞嘧啶、鳥嘌呤、胸腺嘧啶。
圖1 PNA/λDNA模擬實驗的流程圖
表1 字符串匹配過程
如果PNA探針堿基信息與λDNA上讀取的堿基信息相同,則輸入當前PNA探針首個堿基在λDNA上的位置,然后PNA探針往后移動其堿基個數(shù)大小的位置再繼續(xù)與λDNA上的堿基片段進行匹配;如果不同,PNA探針往后移動一個位置繼續(xù)與λDNA上的堿基片段進行匹配,直至PNA探針最后一個堿基對應λDNA的最末端位置或超出最末端時,該種探針匹配過程結束,接著進行下一種探針與λDNA的匹配。以此類推,直至探針庫中所有的探針與λDNA匹配完,PNA/λDNA模擬實驗結束。
由于芯片具有一定的厚度,當前一個PNA探針未完全通過納米孔通道而后一個PNA探針進入納米孔通道時,堿基過孔電流信號就會互相干擾,從而無法準確讀取出λDNA上相應的堿基片段信息,因此PNA探針之間必須有一定的間隔,滿足間距要求的PNA探針的位置為有效位置。在有效位置篩選階段,可以對PNA探針輸出首個堿基位置與相鄰的PNA探針輸出的位置進行比較,即通過芯片的厚度算出對應的堿基數(shù)目間距d,當PNA探針與其相鄰PNA探針的間距大于d時,PNA探針讀取的位置才為有效位置,如圖1中Ⅲ所示。有效位置篩選的具體流程見表2,表中序號為λDNA中堿基的排列順序。
表2 有效位置篩選過程
在表2中,取有效間距d=15 b(b,堿基),PNA探針的堿基序列為GGG,由于與λDNA匹配的PNA探針序號②和③的間距為12 b,兩者通過芯片時產(chǎn)生的信號會重疊而無法區(qū)分,故只有序號為①、④和⑤的PNA探針所讀取的λDNA的位置為有效位置。
得到單種PNA探針首個堿基讀取λDNA的位置之后,生成PNA探針匹配λDNA的個數(shù)數(shù)組P,如圖1中Ⅳ所示。
將所有種類的PNA探針讀取的有效位置存放在一個向量中,然后進行數(shù)據(jù)處理,剔除掉重復的數(shù)據(jù),向量中剩下的數(shù)據(jù)即為PNA探針所有堿基讀取的λDNA堿基信息,再與λDNA的堿基總數(shù)進行對比,結果即為PNA探針讀取λDNA的精確度,如圖1中V所示。
分別對3merPNA探針和5merPNA探針與λDNA進行匹配實驗,測試其匹配λDNA的精確度。
由于PNA探針由腺嘌呤(A)、胞嘧啶(C)、鳥嘌呤(G)、胸腺嘧啶(T)4種堿基組成,為了區(qū)別不同探針,采用四進制對其進行編碼,順序依次為A,C,G,T。例如圖2中橫坐標2代表PNA探針的堿基序列AAC,圖3中橫坐標10代表PNA探針的堿基序列AAAGC。圖2和圖3分別為間隔d為12 b時,3merPNA探針和5merPNA探針與λDNA匹配數(shù)量直方圖。
圖2 3merPNA與λDNA匹配數(shù)量直方圖
圖3 5merPNA與λDNA匹配數(shù)量直方
從圖2和圖3可以得知,當PNA探針堿基個數(shù)相同時,不同種類的PNA探針匹配的λDNA的個數(shù)相差很多,PNA探針堿基個數(shù)越多,能夠與λDNA匹配的數(shù)目就越少。為了了解PNA探針匹配λDNA的精確度per與PNA探針間距d之間的關系,取d=0~50進行計算,結果如圖4所示。
圖4 精確度per與間距d關系圖
由圖4可知,相鄰2個3merPNA探針的間距d在0~50時,精確度per隨著間距d的增大而減少,從98.75%下降到42.13%;而5merPNA探針的精確度受d的變化影響不大,僅從99.99%下降到了99.50%。
本文通過字符串匹配算法來模擬PNA探針與λDNA匹配過程,模擬實驗結果證明了基于單分子納米孔的第三代測序技術能精確地讀取DNA的堿基信息,其精確度可高達99.99%,為第三代基因測序技術提供了一定的理論依據(jù)。