林森
聯(lián)合國教科文組織對圖書的定義是:凡由出版社(商)出版的不包括封面和封底在內49頁以上的印刷品,具有特定的書名和著者名,編有國際標準書號,有定價并取得版權保護的出版物。
然而,圖書的內涵是,它是信息和知識的載體。因為圖書是人類用來記錄一切成就的主要工具,也是人類交流感情,取得知識,傳承經驗的重要媒介。從形式上看,圖書經歷了石書、龜甲書、竹簡書、布書(養(yǎng)蠶業(yè)與織布提供了布料)、紙書(蔡倫發(fā)明紙之后)和數字圖書的歷程。不過,現在一種新的圖書——DNA(脫氧核糖核酸)圖書已經進入人們的生活。
信息技術和生物技術結合的圖書
DNA圖書是數字(信息)技術與生物遺傳技術結合的新結晶。
數字圖書是用數字技術處理和存儲各種文字、圖片和音頻的圖書。數字圖書是當今最先進的圖書,是由數字技術編輯加工而成。數字技術的本質是電子計算機和網絡信息技術,借助這些技術和設備可以將各種信息,包括圖、文、聲、像等轉化為電子計算機能識別的二進制數字0和1,再進行加工、制作、存儲、傳送、傳播、還原和出版。
在加工、存儲和出版等環(huán)節(jié)中要借助計算機對信息進行編碼、壓縮、解碼等,因此稱為數碼技術、計算機數字技術、數字控制技術等。依靠這些技術出版的圖書稱為數字圖書。
DNA是包括人在內的高級生物的細胞的細胞核,其蘊藏的遺傳信息不僅是海量的,而且也是有序的。這種有序就是其中的4個堿基的互補排序。DNA的穩(wěn)定雙螺旋結構是由4種不同的堿基來支撐的。它們英文名稱的首字母分別稱之為A(腺嘌呤)、T(胸腺嘧啶)、G(鳥嘌呤)和C(胞嘧啶)。
根據DNA的這種穩(wěn)定搭配,研究人員設想,可以把數字技術與生物技術結合起來,編撰一種全新的圖書——DNA圖書。編撰DNA圖書的可行性在于,可以利用計算機的二進制數字0和1與4種堿基進行轉化編碼、編程,把數字圖書所編碼的所有文字、圖像、符號等再編碼到DNA中,制作成DNA圖書。在閱讀時,再利用DNA測序技術把DNA密碼還原為數字編碼,就可以解碼和閱讀。
當然,DNA圖書最吸引人的還是它與傳統(tǒng)圖書和數字圖書相比的巨大優(yōu)勢。它的蘊藏量是無限的,其體積更小,遠比光盤、U盤、硬盤更小,而且信息可以長久地在DNA中保存。根據DNA的半衰期,如果在零下5攝氏度的理想條件下保存,DNA的4個堿基可以保存680萬年。這也意味著,制成的DNA圖書至少可以保存上百萬年。
比較起來,數字圖書保存信息的弱點之一是存儲時間較短。目前數字信息的載體都是磁盤(軟盤、硬盤)和光盤。雖然數字生產廠商號稱硬盤保存信息、數據的壽命不低于10萬小時,但這只是理論值,在實際使用過程中,有許多因素會縮短這個時間。一般而言,硬盤保存信息比較保險的時限是3~5年,讀寫頻繁的硬盤保存信息時間3年多一點,負荷不重的硬盤保存信息時間5年左右。光盤據說可以保存信息100年,但也是理論值。保險的做法是,10年左右要把光盤拿出來讀一讀,如果發(fā)現讀取困難時,要及時翻刻一次。
同時,因特網上的信息儲存更有時限。數字信息容易創(chuàng)建,也容易修改、刪除,并消失。目前網上有超過40億個公共網頁,平均每天還有700多萬新的網頁出現,但是,網頁的平均壽命為44天。所以,DNA圖書在保存信息和數據上具有空間大、保存時間長的更大優(yōu)勢。
第一本DNA圖書《再生》
美國哈佛大學維斯生物工程研究所的喬治·丘奇等人在2012年9月28日的美國《科學》雜志上發(fā)表文章稱,他們成功地編撰出一本5.27兆比特的DNA圖書,這本書不僅有文字,還有圖,是圖文并茂的DNA圖書,書名叫作《再生》。這本書有5.34萬個單詞,還有11張JPG格式的圖片和一段Java Script程序(Java Script又稱爪哇腳本,是一種程序設計語言,即依據一定的格式編寫的可執(zhí)行文件,又稱作宏或批處理文件)。
DNA圖書編撰的原理是,把需要編撰的內容先轉化為數字信息(電子文件),然后把數字信息按DNA的堿基順序編碼并合成,讀取時再用DNA測序儀按編碼規(guī)則將DNA圖書轉換解讀為數字文件,就能在電腦上閱讀和使用了。
根據這個原理,研究人員編撰了DNA圖書《再生》后,再利用DNA測序儀來閱讀這本書,內容可以成功地讀出,這證明DNA能夠被用來長期儲存數字信息,也即可以用DNA來生產圖書。這種新圖書所儲存的信息量是DNA原來儲存的生物遺傳信息量的1000多倍。也就是說,DNA圖書不僅比傳統(tǒng)的紙質圖書儲存的信息要多得多,也比DNA本身儲存的遺傳信息要多很多。
DNA圖書的具體制作是,首先將《再生》這本書的文字內容和圖片轉化為HTML格式的文件,然后將這些文件編譯為由0和1組成的大小為5.27兆比特的二進制序列。然后再用DNA的一個核苷酸(一個堿基)對應一個比特,把這個5.27兆比特的二進制序列按照順序分配到多個96比特長的核苷酸片段中。
研究人員用的是短DNA序列而不是長DNA序列來編碼數據,因為這可以降低寫入和讀取數據的困難和成本。在DNA上編碼數據也相似于把數據儲存到硬盤上,只不過在硬盤中數據是被寫入被稱作扇區(qū)的小硬盤塊中。
用于編碼和儲存信息的DNA不過是一滴DNA液滴,當《再生》的全部信息(數據)和其他信息被編碼到DNA之中后,DNA液滴被放置到微陣列芯片上儲存。這些芯片在4攝氏度下保存3個月,然后溶解它們并測序,以便降低儲存信息時的錯誤。每個核苷酸片段的每個拷貝被測序高達3000次,利用這種方式可以把這個5.27兆比特內容的書籍中的錯誤降低到只有12個。也即是說,存儲在DNA中的內容能被準確無誤地讀取出來。
《再生》這本DNA圖書的優(yōu)勢在于,它能長期存儲信息,它的內容至少在1000年時間內也能夠被讀出。而且,由于DNA能儲存更多信息,理論上計算,1克DNA即能儲存上千億個千兆字節(jié),相當于1000億張DVD光盤的內存。全世界一年的數碼信息總量約為1.8ZB信息,可以被存儲在約4克的DNA中(ZB是信息量單位,等于10的21次方,常見的GB是10的9次方)。紙質和磁盤存儲信息是平面的,但DNA能折疊變化,即可以立體存儲信息,存儲密度非常高。當然,DNA圖書也容易保存,因為DNA在室溫下就非常穩(wěn)定。endprint
但是,《再生》這種DNA圖書也有明顯的缺點。一是制作時存儲數據過程比較緩慢。二是合成和測序DNA的技術非常昂貴,即把文字和圖片等信息按計算機的二進制原理與DNA的4個堿基對應編碼時,比較昂貴。相應地,對DNA圖書的讀取也比較緩慢,這也可能限制它成為一種普通的圖書讓人們在生活中簡單而方便地閱讀。當然,這種DNA圖書還有一個缺點,只能讀出信息和數據,不能改寫數據。
改進的DNA圖書——《莎士比亞詩集》
在《再生》問世后一年,另一本DNA圖書《莎士比亞詩集》也誕生了。這本DNA圖書是由歐洲生物信息研究所(EBI)的尼克·戈爾德曼等人編撰而成。該書編入了莎士比亞所有的154首十四行詩、一篇沃森和克里克DNA雙螺旋論文的副本(沃森和克里克因此而獲1962年的諾貝爾生理學或醫(yī)學獎)、一張戈爾德曼等人所在研究機構EBI大樓的彩色照片,一段這次試驗使用的軟件算法,還有一段26秒來自馬丁·路德·金著名演講《我有一個夢想》的剪輯音頻,信息總量約739千字節(jié)。
顯然,這本DNA《莎士比亞詩集》的內容更豐富,而且包含了一個音頻文件,也更符合數字圖書的標準。與《再生》相比,DNA《莎士比亞詩集》的編撰更優(yōu)化、更完善、操作性更強,也更實用。
戈爾德曼等人的編碼比丘奇等人的編碼更進了一步,他們把數字內容的二進制碼(0,1)改成三進制碼(0,1,2);然后用這種三進制碼來對應DNA的4個堿基(A、T、C、G),從而將三進制碼編寫成一個DNA序列。一般情況下,每500個堿基的序列可能會出現一個錯誤。為了防止出錯和漏掉內容,研究人員以每25個堿基向后錯位的方式把這個DNA序列切割成若干個含100個堿基的等長片段,這就能使整個序列的所有內容都獲得4個副本,例如,1、2、3、4;2、3、4、1;3、4、1、2;4、1、2、3。
當數字內容編寫進DNA后,再用專門設備合成為DNA《莎士比亞詩集》。在讀取或閱讀DNA《莎士比亞詩集》時,先把合成的DNA《莎士比亞詩集》放入標準化學試劑,然后用DNA測序儀根據索引標識,將各個DNA片段依順序粘貼成原來的DNA序列,再轉譯到數字文件的二進制碼,從而形成電子文件,就可閱讀了。
合成的DNA《莎士比亞詩集》只有砂粒般大小,靜靜地躺在試管的底部,連戈爾德曼還是經同事指點才發(fā)現了這本DNA《莎士比亞詩集》。在閱讀時,研究人員用DNA測序儀把DNA《莎士比亞詩集》中的信息還原為數字文件,結果它與原始數字文件的內容百分之百重合。這種從DNA程序到數字程序百分之百的重合靠的是巧妙的設計。
在閱讀DNA《莎士比亞詩集》時,研究人員發(fā)現有兩個25個堿基對的序列不見了。缺了它們,這本DNA《莎士比亞詩集》的內容要么不全,要么會出現偏差,甚至難以讀出。不過,由于在設計時就考慮到這一點,拷貝了4個副本,利用這4個副本完全還原了漏掉的數字文件的內容。而且,戈爾德曼等人也發(fā)現了堿基對丟失的原因,在未來只要修改一下程序,就不會發(fā)生類似丟失內容的問題。
DNA《莎士比亞詩集》的誕生也獲得了丘奇等人的好評,他認為,戈爾德曼等人的研究讓“我們終于有了一個真實的領域”。而且,類似DNA《莎士比亞詩集》的圖書非常穩(wěn)定,更容易保存,只需放在冷、暗、干燥處,沒有恒溫恒濕的苛刻要求。同時,DNA《莎士比亞詩集》的編撰使用的設備和方法都是生物學研究的常規(guī)工具,這可以讓DNA圖書的存儲有效避開因設備技術更新?lián)Q代而產生的許多麻煩,儲存和閱讀也更方便。
不過,與丘奇等人制作的DNA《再生》圖書一樣,DNA《莎士比亞詩集》同樣有費時費力和成本高昂的弱點。數碼信息編入DNA目前只能由專門的DNA合成設備來做,而從DNA中讀取信息并還原為數碼文件,也很費時。戈爾德曼等人用了整整兩個星期才完成DNA《莎士比亞詩集》中5個文件739千字節(jié)的還原。
另外,戈爾德曼等人制作DNA《莎士比亞詩集》的存儲費是,每一兆(MB,10的6次方)字節(jié)的錢是12400美元,并且在閱讀時還要測序解讀,需要再花220美元。這是常規(guī)磁盤儲存費用的100多萬倍。
同時,DNA《莎士比亞詩集》與DNA《再生》一樣,編撰后就不能修改。這與數字文件的常規(guī)存儲(硬盤和U盤)的便捷差了十萬八千里。現在,人們只需花幾十元或上百元人民幣買一個16GB儲存量的U盤,插入電腦,就能反復使用,包括下載文件、寫文章、聽音樂、看錄像、做計算等。
由于不能重復使用、昂貴和讀取時間長,DNA圖書目前顯然還不可能像數字圖書一樣被人們廣泛使用,因此,其市場化也需要時日。不過,當有一天,研究人員通過新的技術攻克了DNA圖書這些弱點之后,DNA圖書也將走進人們的生活。那時,DNA圖書將成為比數字圖書更先進更實用的圖書。
【責任編輯】張?zhí)锟眅ndprint