錢瓏,沈玥,元英進,歐陽頎,楊煥明
生物體具有精妙絕倫的信息系統(tǒng)。2010年,美國J.Craig Venter研究院將化學合成的約1 Mb的基因組DNA導入受體細菌,成功啟動了世界首個“人造生命”辛西婭。這條基因組攜帶有46位科學家的姓名和一個專屬郵箱地址,訴說著人類作為造物主,設計生命、書寫遺傳密碼的浪漫主義情懷。如今,雖然我們對基因組的奧秘仍一知半解,將人工信息寫入DNA分子卻已成為觸手可及的技術現(xiàn)實。DNA信息存儲從狹義上講,是以線性堿基序列的形式,合成并保存編碼任意數(shù)字信息的DNA分子;從廣義上講,意味著數(shù)字信息與生命信息的物理融合。2018年底,美國國家標準技術研究所、國際半導體研究聯(lián)盟、美國情報高級研究計劃局等聯(lián)合發(fā)布《半導體合成生物學路線圖》;2021年5月,我國科技部發(fā)布了“十四五”國家重點研發(fā)計劃“生物與信息融合”(BT與IT融合)重點專項項目申報指南。這代表著世界兩大經濟體對于以DNA存儲為代表的未來顛覆性融合技術的頂層認可。
DNA數(shù)字信息存儲從藝術嘗試走向技術現(xiàn)實,依賴的是DNA合成與DNA測序技術的跨越式發(fā)展。當前,已可以實現(xiàn)近GB規(guī)模任意格式文件在DNA分子中的穩(wěn)定存儲,并可以在幾天內對數(shù)據(jù)進行恢復。如果說初期的DNA存儲僅僅是合成與測序技術的附屬品,那么近年來,隨著全球信息量的爆發(fā)式增長和傳統(tǒng)信息存儲資源告急,DNA存儲的“破局性”價值得到認可,一步跨入了工程化階段。這座工程學大廈的根基是DNA單堿基分辨率的讀寫技術,經歷幾十年更迭的DNA擴增、組裝技術,和用于DNA分子封裝的創(chuàng)新材料科學技術。DNA存儲的另一支柱是數(shù)字信息的編碼理論;各種通信領域的成熟算法應用于DNA存儲的信息壓縮與糾錯,形成了百家爭鳴的局面。
必須注意的是,DNA存儲并不是已有技術的生搬硬套。生命系統(tǒng)的信息組織形式與電子信息系統(tǒng)的最大區(qū)別在于其并行本質。反應體系中的DNA分子在容納海量數(shù)據(jù)的同時,存在著廣泛的冗余和串擾效應。DNA信息的寫入、復制、分發(fā)、尋址、讀取等操作均是基于擴散的并行反應。因此,傳統(tǒng)的信息操作方式都需要適配生化體系特點;這些研究反過來也將啟發(fā)我們對于小尺度電子信息系統(tǒng)的認知。本刊集結了國內一線工作者,對DNA存儲的技術和理論鏈條中的各個環(huán)節(jié)進行了逐一論述與研究成果的分享。中國科學院深圳先進技術研究院戴俊彪團隊系統(tǒng)總結了從DNA短片段合成到長片段組裝的一系列生化方法及其優(yōu)缺點,并針對DNA存儲的需求,提出了全流程聯(lián)合優(yōu)化策略;而東南大學陸祖宏團隊則聚焦二代高通量DNA合成技術,對不同工業(yè)實現(xiàn)方案進行了詳細的橫向比較。天津大學齊浩團隊針對DNA寡核苷酸庫不均一所造成數(shù)據(jù)的缺失問題,介紹了合成、保存和擴增等過程中新的生化技術手段;南方科技大學蔣興宇團隊則著重綜述了DNA存儲現(xiàn)有的數(shù)據(jù)加密和修改策略,由于寡核苷酸庫存儲與傳統(tǒng)存儲介質的讀寫方式不同,加密和修改需要對信息本身進行預設的修飾。在編碼方面,天津大學陳為剛團隊報道了自主開發(fā)的適用于染色體長片段存儲和二代大規(guī)模并行測序讀取的數(shù)據(jù)編解碼方法,巧妙利用長片段DNA載體無需索引和二代測序極低錯誤率的特點,實現(xiàn)了較高的編碼密度。此外,我國學者還特別關注技術標準評價體系的制定,深圳華大生命科學研究院沈玥團隊報道了自主搭建的DNA存儲的編解碼算法系統(tǒng)性評估平臺,用以對各種算法的文件適配性、存儲穩(wěn)定性和數(shù)據(jù)安全性進行全面、定量的對比評估。這些工作彰顯了DNA存儲的研究熱度及其廣泛多樣的技術領域。通過系統(tǒng)梳理全球公開專利,中科院上海生命科學信息中心熊燕團隊詳細繪制了過去二十年來DNA合成與信息存儲的技術發(fā)展歷程,并依此對該領域的技術深化與交織進行了趨勢預測。
除了當前研究熱點所在的寡核苷酸庫存儲,DNA存儲還存在其他極具潛力的實現(xiàn)方式。在本刊中,天津大學元英進團隊針對DNA存儲不同實現(xiàn)方式的特點,精彩地將其類比于硬盤、光盤與磁帶三大模式,它們分別對應著從大到小的數(shù)據(jù)規(guī)模和從易到難的操作流程。今年初,元英進團隊在《國家科學評論》發(fā)表基于酵母人工染色體的DNA信息存儲工作,為DNA存儲的“光盤”模式書寫上濃重一筆,在本刊中,上海交通大學樊春海團隊對此最新成果進行了特別評述。另一值得注意的是近兩年嶄露頭角的“磁帶”模式,即利用基因編輯工具在基因組特定區(qū)段上動態(tài)寫入指定信息,磁帶模式可以實時記錄發(fā)生在細胞內外的生化事件,是與生命系統(tǒng)聯(lián)結最緊密的人工信息系統(tǒng)。北京大學錢瓏團隊在綜述中集中展望了包括基因組動態(tài)寫入在內的DNA存儲的前沿研究與應用方向。這些研究的興起指向了超越信息存儲的下一個夢想:DNA將成為信息系統(tǒng)與生命系統(tǒng)的橋梁,介導以生命為載體的存算一體結構,通過工程生物學手段,使得傳感器、處理器等概念在極低能耗的微小生命單元中得以實現(xiàn),最終造就基于生命的人工信息系統(tǒng)。
歷經造夢、追夢,DNA存儲正向著圓夢邁進。但它并不會止步于此,而將不斷創(chuàng)造出新的生物技術目標。這是科學與工程的交替式前進,是不同學科交叉融合、協(xié)同向前的生動案例,并且極有可能成為生命系統(tǒng)對生產力的直接轉化的第一個成熟案例。從DNA存儲到生物智造、細胞治療,再到腦機接口,生命系統(tǒng)與信息世界正在分子、細胞、機體和高級意識的多個層次上進行全面融合。站在生物與信息融合技術的元年,我們或可從現(xiàn)在的技術雛形中窺見未來的生活方式。