王新凱
2019年12月10日,MyHeritage首席科學(xué)家、哥倫比亞大學(xué)副教授雅尼夫·埃利克在《自然- 生物技術(shù)》期刊上發(fā)表了一項(xiàng)最新成果,研究團(tuán)隊(duì)通過3D打印制作了一只兔子,并且將這只兔子三維結(jié)構(gòu)的數(shù)據(jù)以雙鏈DNA結(jié)構(gòu)的形式內(nèi)置在打印材料中。也就是說,通過編碼和解碼,這只兔子模型實(shí)現(xiàn)了其自身數(shù)據(jù)的DNA存儲和傳遞。
雅尼夫·埃利克表示,這項(xiàng)研究最大的突破在于實(shí)證了萬物皆可實(shí)現(xiàn)DNA存儲的理論,且不受任何形狀限制,從存儲密度來看,10噸DNA即可存儲人類已經(jīng)創(chuàng)造出的所有信息!在2019年12月13日第三屆EmTechChina 全球新興科技峰會的“賽博未來”版塊,雅尼夫·埃利克以“The DNA of Things”為題,為觀眾講述了DNA存儲技術(shù)的潛在應(yīng)用,并且在演講現(xiàn)場向觀眾展示這只DNA存儲數(shù)據(jù)的兔子。
作為MyHeritage.com的首席科學(xué)家,雅尼夫·埃利克在基因隱私與眾包基因組數(shù)據(jù)領(lǐng)域的基礎(chǔ)研究工作方面做出了巨大貢獻(xiàn),曾因發(fā)現(xiàn)公開基因數(shù)據(jù)中存在的隱私漏洞被Nature稱為“基因黑客”。此外,他還創(chuàng)建了包含1300萬人口的家譜,是目前史上最大的譜系圖。
我們到底可以通過基因數(shù)據(jù)了解到哪些信息?我們還可以拿這些信息做些什么?還有哪些潛在的應(yīng)用?以下為埃利克在EmTech China現(xiàn)場的演講內(nèi)容(有刪減)。
在過去的70年中,我們看到了技術(shù)不斷快速的發(fā)展,比如說在20世紀(jì)50年代,你需要6個身強(qiáng)力壯的人去推一個大的設(shè)備,但是現(xiàn)在,智能手機(jī)的芯片可以搭載更多的信息,不會再需要這么多人來推動這么一個巨大的設(shè)備。除此之外,我們還有很多挑戰(zhàn),尤其是針對數(shù)據(jù)存儲方面。首先,我們不再像以前一樣享受一個狂歡的時代了,比如說現(xiàn)在存儲的量以及它成本之間的比例,是在不斷變化的,我們看到現(xiàn)在有很多不同創(chuàng)新的方法,基本上每年這個成本都可以降低30%。
但是,在2010年,我們發(fā)現(xiàn)創(chuàng)新的速度在變緩,主要原因是我們很難把這些設(shè)備的成本變得更優(yōu)。另外一個是數(shù)字技術(shù)的演進(jìn),有些時候每一個設(shè)備搭建的架構(gòu)是不一樣的,你可能需要完全做一個數(shù)據(jù)和技術(shù)的遷徙。比如說我很喜歡的一個20世紀(jì)70年代的影片,可能是在一張光碟上,但是現(xiàn)在的設(shè)備已經(jīng)放不出來了,所以它可能是格式不對,或者是硬件不支持,有很多內(nèi)容已經(jīng)無法再讀取了。
接下來我想給大家解釋,是不是DNA才是我們真正的存儲技術(shù)?首先可以看一下,在過去35億年中DNA都是存在的,而且在未來也會繼續(xù)存在著。我相信未來我們還是需要去借助DNA的力量,它是任何生命物質(zhì)的組成部分,我們可以通過了解自己的DNA來了解自己的組成。
20世紀(jì)90年代的一個光盤,可以看到上面的擦痕非常明顯,而且沒有辦法修復(fù),任何的數(shù)字技術(shù)都存在這樣的問題,你過了10年之后,基本上這種硬件損毀就讓你沒有辦法去讀取它的信息。但DNA,你哪怕發(fā)掘出來了一個幾千年前的殘骸,都可以通過DNA來了解當(dāng)時的情況。所以,我們就在思考DNA 是不是可以存儲信息,但怎么去打造基于這種DNA的文件呢?每一個文件其實(shí)都是一個序列(二進(jìn)制的組成),可能是0和1,不管是文本,還是歌曲,都可以用這種形式存儲。DNA其實(shí)也是一個序列,它是ATCG幾種不同堿基的組合。我們可以給每一個字母去賦值,比如A 是00,C是01,這樣就可以通過二進(jìn)制來描述這個DNA的編碼,我們也可以利用合成化學(xué)技術(shù)做到這一點(diǎn)。
其中一個方法是用噴墨式打印機(jī),它其實(shí)是有不同噴墨針的,你可以把ATCG放到噴頭上,它可以利用一些化學(xué)物質(zhì)來打印,生成一個DNA的序列,最終的結(jié)果是我們可以拿到一個像試管一樣的物品,它是以液體的形式存在。如果你想讀取的話就可以放到一個序列儀上,通過測序儀來讀取出存儲的數(shù)據(jù)。現(xiàn)在我和我的團(tuán)隊(duì)也是希望能夠?qū)嵺`這個理念,我們用了一個計(jì)算機(jī)操作系統(tǒng),讀取了一個早年的電影,我們把所有的數(shù)據(jù)都放在了小的試管當(dāng)中,我其實(shí)就帶在了身上,你如果看不清楚,覺得什么都沒有,我其實(shí)就是這個意思,真的特別小,小到幾乎看不見。這個DNA是存在于小的試管當(dāng)中,你可以通過測序儀去讀取它,這里面不會有任何的損失。
當(dāng)然這個技術(shù)有一個缺點(diǎn),每一次你想去讀取這個文件的話,你就需要提取出這個液體中的一部分,如果你要是想無數(shù)次地去測序的話,可能最終樣本量會越來越少。我的女兒非常喜歡一部電影中的主題歌,你們可以想象,如果把這個歌的信息存儲在DNA上,而你一直在測序的話,可能最后這個片段就剩的越來越少了,那該怎么辦呢?我們現(xiàn)在在想,人體內(nèi)的細(xì)胞其實(shí)是可以不斷地進(jìn)行DNA的復(fù)制,我們其實(shí)可以通過PCR做一個類似的擴(kuò)增,這是可以在實(shí)驗(yàn)室內(nèi)完成的。這個文件我們能不能正確讀取呢?答案是可以的,我們經(jīng)過多次拷貝之后,可以看到兩個電影一模一樣,沒有任何的差別,是因?yàn)槲覀冇蟹浅:玫募m錯代碼,雖然在復(fù)制過程中會出現(xiàn)錯誤,但是我們可以很好地把錯誤糾正過來。
雅尼夫·埃利克在演講中
另外我們做了一個實(shí)驗(yàn),也希望看一下在DNA當(dāng)中我們的信息密度可以達(dá)到多少,一個DNA最多可以儲存多少比特的信息。為了這個實(shí)驗(yàn),我們拿了這個試管,每一次我們拿出一滴,我們都會把它的濃度稀釋成過去的1/10,然后我們再拿一滴,再去稀釋它,再拿一滴,再去不停地稀釋,一直在重復(fù),直到我們沒有辦法再從一滴的液體當(dāng)中讀取到任何信息為止。我們最后得到的結(jié)論,我們最大的密度,在每一個DNA上,上面可以有125“艾”字節(jié)的信息,所以說我們可以想象,基本上這么一個房間里面,全都是筆記本電腦的話,所有這些信息都可以儲存到一個DNA 上。大家可以想象一下,人類所創(chuàng)造的數(shù)據(jù)總量應(yīng)當(dāng)是10到24次方,我們只需要10噸的DNA就可以儲存我們所有的電影、微信聊天記錄,所有人類創(chuàng)造出的數(shù)字信息,所有數(shù)字信息都可以在10噸的DNA上存儲,這10噸的DNA直接可以裝到一個大卡車上。