吳琦琨, 賴(lài)?yán)宋模?徐懷勝, 寇 錚
(廣州大學(xué) 計(jì)算科技研究院, 廣東 廣州 510006)
隨著科學(xué)技術(shù)的快速發(fā)展,人類(lèi)社會(huì)產(chǎn)生的數(shù)據(jù)量正在以指數(shù)級(jí)的速率增長(zhǎng)[1-2],這對(duì)于目前的數(shù)據(jù)存儲(chǔ)介質(zhì)提出了更高的要求.當(dāng)前使用的存儲(chǔ)介質(zhì)主要有磁性介質(zhì)(例如磁帶、磁盤(pán)等)和光學(xué)介質(zhì)(例如光盤(pán))[3],這些存儲(chǔ)介質(zhì)存在存儲(chǔ)時(shí)間不夠長(zhǎng)、存儲(chǔ)密度不夠大和耗電量高等缺點(diǎn),無(wú)法滿(mǎn)足未來(lái)對(duì)于超大數(shù)據(jù)規(guī)模存儲(chǔ)量的需求.因此,許多科研工作者將目光轉(zhuǎn)向了DNA.作為遺傳信息的載體,DNA存儲(chǔ)了從微生物到人類(lèi)的億萬(wàn)生命的遺傳信息,本身就是一種優(yōu)良的存儲(chǔ)介質(zhì)[4],基于DNA的數(shù)據(jù)存儲(chǔ)具有存儲(chǔ)密度大、存儲(chǔ)時(shí)間長(zhǎng)、能耗低以及高耐用性等優(yōu)勢(shì),是一種有著巨大潛力的數(shù)據(jù)存儲(chǔ)方式.
DNA作為數(shù)據(jù)存儲(chǔ)介質(zhì)的想法最初來(lái)自于21世紀(jì)60年代Wiener和Neiman討論的“基因記憶”[5-7],但是受限于當(dāng)時(shí)的DNA測(cè)序和合成技術(shù),基于DNA的數(shù)據(jù)存儲(chǔ)未能實(shí)現(xiàn).1998年,Davis[8]在其開(kāi)創(chuàng)性的藝術(shù)作品《微金星》中進(jìn)行了一次開(kāi)創(chuàng)性的嘗試,先將一個(gè)圖像的像素信息轉(zhuǎn)換成一串二進(jìn)制序列,然后將信息編碼到一個(gè)28 bp的DNA分子中,最后通過(guò)DNA測(cè)序技術(shù),成功地恢復(fù)了原始圖像.1999年,Clelland等[9]提出了一種基于“DNA微點(diǎn)”的方法來(lái)存儲(chǔ)DNA分子中的信息.然而,這些早期的嘗試存儲(chǔ)的數(shù)據(jù)量太小并且缺乏通用性,無(wú)法擴(kuò)展到實(shí)際應(yīng)用中.直到2012年和2013年,Church等[10]和Goldman等[11]的開(kāi)創(chuàng)性工作才使基于DNA的數(shù)據(jù)存儲(chǔ)重新興起.Church成功地在DNA分子中存儲(chǔ)了約0.65 Mb的數(shù)據(jù),而Goldman存儲(chǔ)了0.75 Mb的數(shù)據(jù).更振奮人心的是,這兩項(xiàng)研究中存儲(chǔ)的數(shù)據(jù)不僅包含文本,還包含圖像、聲音和PDF文件等,這極大地?cái)U(kuò)展了基于DNA的數(shù)據(jù)存儲(chǔ)的適用性,使其距離實(shí)用階段更進(jìn)了一步.自Church和Goldman的開(kāi)創(chuàng)性成果發(fā)表以來(lái),大量的科研機(jī)構(gòu)和公司的研究人員也加入了DNA信息存儲(chǔ)的研究,創(chuàng)造了大量的研究成果,同時(shí)帶動(dòng)了DNA信息存儲(chǔ)領(lǐng)域的飛速發(fā)展.
DNA存儲(chǔ)主要包括編碼/解碼、合成、存儲(chǔ)和測(cè)序等四個(gè)步驟:①通過(guò)編碼將二進(jìn)制0,1數(shù)據(jù)映射為堿基A,T,C,G序列;②通過(guò)各種技術(shù)合成特定的DNA序列;③可以選擇體內(nèi)或者體外存儲(chǔ)形式進(jìn)行保存;④想要讀取數(shù)據(jù)時(shí),一般需要先使用特定的引物序列擴(kuò)增目標(biāo)DNA,然后對(duì)提取的目標(biāo)DNA進(jìn)行測(cè)序得到目標(biāo)DNA序列,再根據(jù)解碼規(guī)則將DNA序列還原為二進(jìn)制數(shù)據(jù).本文將以基于DNA的信息存儲(chǔ)為主題,介紹其一般流程,重點(diǎn)描述近年來(lái)在編碼、合成、存儲(chǔ)以及測(cè)序等方面的新進(jìn)展,并在最后分析DNA存儲(chǔ)目前面臨的挑戰(zhàn).
DNA編碼是通過(guò)一定的算法,將待存儲(chǔ)的信息以二進(jìn)制流的形式轉(zhuǎn)換為DNA 堿基序列,從而實(shí)現(xiàn)數(shù)據(jù)信息與DNA序列之間的關(guān)系轉(zhuǎn)換.在找到DNA編碼算法前有幾個(gè)不得不考慮的因素:①每一個(gè)DNA在被編碼時(shí)都要被有效利用到,這主要是由于DNA長(zhǎng)鏈的成本一直居高不下,雖然合成DNA的成本每年都在下降,但是合成長(zhǎng)鏈DNA仍然需要一筆不菲的開(kāi)銷(xiāo);②進(jìn)行糾錯(cuò)設(shè)計(jì),以免傳輸?shù)男畔⒉⒎前俜职僬_所造成的不準(zhǔn)確;③設(shè)計(jì)一個(gè)簡(jiǎn)單而直接的數(shù)據(jù)檢索方式,不應(yīng)把大量時(shí)間放在檢索上.
報(bào)告表明每個(gè)堿基每個(gè)位置大概就會(huì)有1%的誤差,科學(xué)家在使用Illumina儀器對(duì)DNA序列測(cè)序時(shí)發(fā)現(xiàn)會(huì)出現(xiàn)約有1%的錯(cuò)誤率.2019年Zhang等[12]提出了一種新方案用于DNA數(shù)據(jù)存儲(chǔ)的編碼,該方案采用四進(jìn)制哈夫曼編碼對(duì)原始二進(jìn)制流文件進(jìn)行壓縮并使用一種低冗余度的四元漢明碼用于糾錯(cuò),然后將其轉(zhuǎn)化為DNA序列,這種方案具有較高的存儲(chǔ)密度和良好的糾錯(cuò)能力.2020年Zhang等[13]開(kāi)發(fā)了一種基于Base64代碼的編碼算法,以減少均聚物的可能性并將CG含量控制在50%左右.編碼算法主要包括3個(gè)步驟:①將文本信息轉(zhuǎn)換為Base64代碼,其中包含64種不同的打印內(nèi)容;②重塑Base64代碼并將其轉(zhuǎn)換為兩組8位二進(jìn)制數(shù)據(jù),其中一組由特定代碼平衡;③將平衡碼和二進(jìn)制碼按照自定義的映射規(guī)則映射到DNA序列中.DNA序列中的均聚物和GC含量由平衡碼和定制的作圖規(guī)則控制,這樣就有效降低了測(cè)序錯(cuò)誤率.這種方法既適用于文本和圖形信息的存儲(chǔ),又適用于視頻和音頻文件的存儲(chǔ),為實(shí)際的數(shù)字存儲(chǔ)和其他技術(shù)應(yīng)用提供了巨大的潛力.
到目前為止,用于DNA數(shù)據(jù)存儲(chǔ)的堿基主要是基于Caruthers等[14]的磷酰胺化學(xué)法,以單堿基精度合成DNA是一種高效且強(qiáng)大的合成方法,已經(jīng)發(fā)展了數(shù)十年之久[15-16].該方法使用保護(hù)單個(gè)核苷酸來(lái)防止長(zhǎng)均聚物鏈的形成.用酸性溶液除去保護(hù)組,然后通過(guò)基于陣列控制的下一個(gè)堿基的沉積或保護(hù)基的局部去除,DNA合成可以并行進(jìn)行.但是這種有機(jī)合成極大地限制了合成DNA的質(zhì)量和數(shù)量.因此,科學(xué)家們便對(duì)酶促合成DNA這種方法產(chǎn)生了濃厚的興趣,酶促合成DNA既可以在水性環(huán)境下合成,還能以更低的試劑成本生成更長(zhǎng)的DNA序列[17-19].酶促法合成DNA反應(yīng)條件較為溫和,還可以減少副產(chǎn)物的產(chǎn)生.2019年Lee等[20]利用一種不依賴(lài)于模板的DNA聚合酶——末端脫氧核苷酰轉(zhuǎn)移酶(TdT),在溫和條件下快速催化自然發(fā)生的核苷酸三磷酸連接,以此合成DNA并且應(yīng)用于DNA信息存儲(chǔ)中.2020年Tabatabaei等[21]通過(guò)使用現(xiàn)成天然DNA,使其避免高成本、讀寫(xiě)延遲和錯(cuò)誤率的問(wèn)題.由于自然DNA的序列內(nèi)容是固定的,人們可以修改拓?fù)浣Y(jié)構(gòu)來(lái)編碼信息.通過(guò)使用DNA穿孔卡片,其中數(shù)據(jù)以缺口的形式寫(xiě)入天然雙鏈DNA主干上的預(yù)定位置.該平臺(tái)可容納正交DNA片段上的并行缺口和酶促立足點(diǎn)的創(chuàng)建,從而實(shí)現(xiàn)單比特隨機(jī)訪問(wèn)和內(nèi)存計(jì)算.本研究利用糠秕焦球菌(Pyrococcus furiosus Argonaute)將文件插入大腸桿菌基因組DNA的PCR產(chǎn)物中,然后通過(guò)高通量測(cè)序和比對(duì)準(zhǔn)確地重建編碼數(shù)據(jù).基于合成DNA的數(shù)據(jù)存儲(chǔ)導(dǎo)致較高的合成錯(cuò)誤率,相比之下,使用天然DNA的方法具有較高的可靠性.
然而,不管是用什么樣的合成方法,如果合成的DNA序列較長(zhǎng),出現(xiàn)錯(cuò)誤的幾率大大增加.幾篇有關(guān)DNA數(shù)據(jù)存儲(chǔ)的報(bào)告顯示,在合成和測(cè)序后大概1%的讀數(shù)在對(duì)應(yīng)位置上會(huì)有錯(cuò)誤,有意思的是,磁性介質(zhì)存儲(chǔ)的錯(cuò)誤率也約為1%[22-24].故需要一種糾錯(cuò)方式來(lái)盡量減少合成錯(cuò)誤帶來(lái)的誤差,如Press等[25]寫(xiě)的HEDGES 糾錯(cuò)碼,證明了以0.6%(每核苷酸1.2位)的碼率對(duì)DNA進(jìn)行大規(guī)模無(wú)錯(cuò)誤恢復(fù)的可行性.Chen等[26]通過(guò)量化DNA存儲(chǔ)系統(tǒng)的分子偏倚來(lái)確定誤差的主要來(lái)源.
DNA的保存方式主要分為體內(nèi)存儲(chǔ)和體外存儲(chǔ)兩種.體內(nèi)存儲(chǔ)就是將合成的DNA鏈保存在細(xì)胞內(nèi)部,在細(xì)胞內(nèi)存儲(chǔ)數(shù)據(jù)[27].體外存儲(chǔ)則將可以合成的DNA鏈通過(guò)脫水、凍干、添加劑或者使用保護(hù)材料等其他方法進(jìn)行保存.2019年Newman等[28]設(shè)計(jì)了一種通過(guò)數(shù)字微流脫水來(lái)實(shí)現(xiàn)對(duì)DNA鏈的存儲(chǔ),并且成功實(shí)現(xiàn)對(duì)數(shù)據(jù)的檢索,這種方法最大的好處是可以實(shí)現(xiàn)自動(dòng)化DNA數(shù)據(jù)存儲(chǔ).
受當(dāng)前技術(shù)能力的限制,合成大的DNA片段(通常超過(guò)千個(gè)核苷酸)是一個(gè)非常耗時(shí)和昂貴的過(guò)程.此外,在細(xì)胞內(nèi)高效轉(zhuǎn)化大DNA相對(duì)復(fù)雜.因此,到目前為止,體內(nèi)DNA儲(chǔ)存只在一個(gè)相對(duì)較小的規(guī)模上進(jìn)行了測(cè)試,不超過(guò)幾千個(gè)核苷酸,這遠(yuǎn)遠(yuǎn)小于體外存儲(chǔ)系統(tǒng).在存儲(chǔ)容量方面,大量短寡聚物池在擴(kuò)展性和合成成本方面具有優(yōu)勢(shì).然而,DNA在細(xì)胞內(nèi)儲(chǔ)存具有長(zhǎng)期穩(wěn)定、復(fù)制成本低等優(yōu)點(diǎn).2020年,Hao等[29]展示了一種活體DNA存儲(chǔ)技術(shù),使用攜帶大量DNA寡核苷酸的細(xì)菌細(xì)胞的混合培養(yǎng)作為存儲(chǔ)材料,以用于大規(guī)模數(shù)據(jù)存儲(chǔ).最終以快速、經(jīng)濟(jì)的方式實(shí)現(xiàn)了總計(jì)445 kB數(shù)字文件的活體存儲(chǔ),這是目前活體細(xì)胞中規(guī)模最大的檔案數(shù)據(jù)存儲(chǔ),為利用體外合成能力和活細(xì)胞的生物能量、經(jīng)濟(jì)高效地進(jìn)行生物數(shù)據(jù)存儲(chǔ)鋪平了道路,并且對(duì)開(kāi)發(fā)實(shí)用的冷數(shù)據(jù)存儲(chǔ)至關(guān)重要.
微生物細(xì)胞能夠合成具有許多先進(jìn)功能的DNA材料用于檔案信息存儲(chǔ).與體外無(wú)細(xì)胞系統(tǒng)相比,活細(xì)胞的基因組維持機(jī)制保證了DNA分子的高保真復(fù)制,從而獲得更高的穩(wěn)定性和更長(zhǎng)的存儲(chǔ)期.此外,DNA復(fù)制率比一般的體外復(fù)制方法(如PCR)高出幾個(gè)數(shù)量級(jí).這些先進(jìn)的特性使活細(xì)胞成為一種極具吸引力的材料,可以低成本復(fù)制和傳播信息.
自1977年Sanger測(cè)序法發(fā)明以來(lái),DNA測(cè)序已發(fā)展成為一項(xiàng)完備的技術(shù),其成本近年來(lái)下降了10萬(wàn)倍[30].根據(jù)作用機(jī)制,DNA測(cè)序可分為三代:第一代測(cè)序、高通量測(cè)序/NGS和單分子測(cè)序.第一代DNA測(cè)序技術(shù)用的是1977年由Sanger等[31]開(kāi)創(chuàng)的鏈終止法,其基于雙脫氧終止測(cè)序結(jié)合熒光標(biāo)記和毛細(xì)管陣列電泳.目前,第一代DNA測(cè)序仍被廣泛應(yīng)用.
第一代測(cè)序技術(shù)的主要特點(diǎn)是測(cè)序讀長(zhǎng)可以達(dá)到1 000 bp,準(zhǔn)確性高達(dá)99.999%,但其測(cè)序成本高、通量低等方面的缺點(diǎn)嚴(yán)重影響了大規(guī)模的應(yīng)用.所以第一代測(cè)序技術(shù)并不是最理想的測(cè)序方法.經(jīng)過(guò)不斷的技術(shù)開(kāi)發(fā)和改進(jìn),以Roche公司的454技術(shù)、illumina公司的Solexa、Hiseq技術(shù)和ABI公司的Solid技術(shù)為代表的第二代測(cè)序技術(shù)誕生了[32-35].第二代測(cè)序技術(shù)大大降低了測(cè)序的成本[36],同時(shí)還大幅提高了測(cè)序速度,并且保持了較高的準(zhǔn)確性,但是NGS的序列讀長(zhǎng)方面比第一代測(cè)序技術(shù)要短很多[37].Illumina是當(dāng)今最廣泛的測(cè)序平臺(tái),大多數(shù)的測(cè)序都是通過(guò)Illumina來(lái)測(cè)序,該系統(tǒng)采用的都是邊合成邊測(cè)序的方法.Illumina的測(cè)序技術(shù)每次只添加一個(gè)dNTP的特點(diǎn)能夠很好地解決均聚物長(zhǎng)度的準(zhǔn)確測(cè)量問(wèn)題,它的主要測(cè)序錯(cuò)誤來(lái)源于堿基的替換,目前它的測(cè)序錯(cuò)誤率在1.0%~1.5%之間,測(cè)序周期較短[30].當(dāng)前對(duì)DNA鏈進(jìn)行隨機(jī)測(cè)序有兩種流行的解決方案,即PCR擴(kuò)增和磁珠提取[38],Organick等[39]設(shè)計(jì)了一種基于PCR對(duì)大規(guī)模DNA數(shù)據(jù)進(jìn)行隨機(jī)訪問(wèn)的方法.
第三代測(cè)序技術(shù)主要是指SMRT和納米孔單分子測(cè)序技術(shù),與前兩代相比,其最大的特點(diǎn)就是單分子測(cè)序,測(cè)序過(guò)程無(wú)需進(jìn)行PCR擴(kuò)增.其中PacBio SMRT技術(shù)其實(shí)也應(yīng)用了邊合成邊測(cè)序的思想[40],并以SMRT芯片為測(cè)序載體.SMRT技術(shù)的測(cè)序速度很快,每秒約10個(gè)dNTP.與此同時(shí)其測(cè)序錯(cuò)誤率比較高,達(dá)到15.0%,但是它的出錯(cuò)是隨機(jī)的,并不會(huì)像第二代測(cè)序技術(shù)那樣存在測(cè)序錯(cuò)誤的偏向,因而可以通過(guò)多次測(cè)序來(lái)進(jìn)行有效的糾錯(cuò).牛津納米孔技術(shù)公司所開(kāi)發(fā)的納米單分子測(cè)序技術(shù)與以往的測(cè)序技術(shù)皆不同,它是基于電信號(hào)而不是光信號(hào)的測(cè)序技術(shù)[41].納米孔測(cè)序的主要特點(diǎn)是:讀長(zhǎng)很長(zhǎng),可以達(dá)到幾十kb甚至上百kb;錯(cuò)誤率介于1.0%~4.0%,且是隨機(jī)錯(cuò)誤而不會(huì)聚集在讀取的兩端;數(shù)據(jù)可實(shí)時(shí)讀?。煌亢芨?;初始DNA在測(cè)序過(guò)程中不被破壞;樣品制備簡(jiǎn)單又便宜.
除了消除對(duì)PCR擴(kuò)增的依賴(lài)外,第三代測(cè)序還顯著地增加了讀長(zhǎng)和讀取速度.盡管其成本和精度目前還不盡如人意,但隨著技術(shù)的進(jìn)一步發(fā)展,預(yù)計(jì)會(huì)有所提高,使其更適用于DNA信息存儲(chǔ)[42-47].
如果要投入商業(yè)化運(yùn)作,DNA數(shù)據(jù)存儲(chǔ)目前最大的對(duì)手是磁性介質(zhì)存儲(chǔ).從大規(guī)模工業(yè)化的角度來(lái)看,DNA數(shù)據(jù)存儲(chǔ)的合成和測(cè)序成本相比于磁性介質(zhì)存儲(chǔ)還是太高了,在2016年磁帶存儲(chǔ)的成本大約是$16/Tb[48],并且每年成本還以10%的速度下降.而每陣列的DNA合成成本大概需要0.000 1美元,相當(dāng)于1Tb需要花費(fèi)8億美元,這比磁帶高了7~8個(gè)數(shù)量級(jí),如此高昂的成本令人對(duì)DNA數(shù)據(jù)存儲(chǔ)大規(guī)模應(yīng)用望而卻步.
DNA數(shù)據(jù)存儲(chǔ)還有一個(gè)較大的問(wèn)題就是相對(duì)于磁性介質(zhì)存儲(chǔ)來(lái)說(shuō)讀取速度慢,目前最新的測(cè)序技術(shù)——納米孔測(cè)序讀取DNA序列的速度只有每秒200 Kb[31,33-35],相對(duì)比磁性介質(zhì)幾十兆每秒的讀取速度來(lái)說(shuō)延遲太高.由此可見(jiàn),在短期內(nèi)DNA數(shù)據(jù)存儲(chǔ)比較適合用在檔案存儲(chǔ)這種對(duì)于讀取速度要求不是那么高的應(yīng)用方面.
本文簡(jiǎn)單地介紹了編碼解碼、DNA序列合成、DNA保存以及測(cè)序的研究進(jìn)展,并且指出了DNA存儲(chǔ)面臨的問(wèn)題.目前,DNA 存儲(chǔ)具有以下優(yōu)點(diǎn):成本低,穩(wěn)定可靠,可并行存取,具有信息相聯(lián)檢索, 數(shù)據(jù)快速訪問(wèn)性和抗電磁干擾能力強(qiáng).相信隨著生物技術(shù)和計(jì)算技術(shù)的發(fā)展以及存儲(chǔ)應(yīng)用領(lǐng)域的擴(kuò)大,在不久的將來(lái)有望開(kāi)發(fā)出實(shí)用的DNA 存儲(chǔ)系統(tǒng).如果DNA在數(shù)據(jù)存儲(chǔ)方面進(jìn)入商業(yè)應(yīng)用,它會(huì)對(duì)未來(lái)的存儲(chǔ)領(lǐng)域產(chǎn)生重大影響.