王俊領導的華大基因是世界上最大的基因測序公司。1999 年,華大基因支持了人類基因組計劃的 1%,而到 2012 年底,華大基因的測序數據產出能力占全球一半以上。華大基因致力于用基因科技造福人類,而個人基因測序價格的逐步大眾化也使得更長壽、更健康的生活成為了可能。此外,華大基因正在科研、醫(yī)療、健康及農業(yè)等領域的應用服務方面深入發(fā)展,推動個體化醫(yī)療和健康的新模式。
2013 年 9 月,王俊被全球最具影響力的商業(yè)雜志《財富》(Fortune)評為 2013 年度全球 40 位 40 歲以下精英之一。這是自 2009 年公布榜單以來首位上榜的中國科學家,也是首位生命科學界入選精英。與王俊共同躋身榜單的有雅虎 CEO、Twitter 聯合創(chuàng)始人、Facebook 創(chuàng)始人等。2012 年,王俊被英國《自然》雜志評選為年度十大科學人物,也是路透社 2012 年度最熱門科學人物之一,獲得科學研究領域“影響世界華人大獎”。
去年的騰訊 WE 大會上,華大基因 CEO 王俊便是做主題演講的嘉賓之一,今天的 IT 領袖峰會又一次在深圳召開,主場作戰(zhàn)的華大基因 CEO 王俊也緊接著百度首席科學家吳恩達做了名為《IT 與 BT 的融合,產業(yè)的爆發(fā)點》。之前我們也偶有報道過類似的選題,IT(信息技術)和 BT(生物技術)的融合是未來的一個大趨勢,去年 WE 大會上,王俊的演講題目就是《生命的語言》,在其展望中,生命某種程度上也是一種程序化的語言,當生命被數字化后,生命也就存在著被改造的可能。
如果說上一次《生命的語言》是一次對長遠愿景的預言的話,那么這一次的《IT 與 BT 的融合,產業(yè)的爆發(fā)點》(王俊笑稱,原題目為《IT 遇上 BT,誰會愛上誰?》)是觸手可及的明日現實。
生命是數字化的
說到 BT 和 IT 的相似點沒完全可以歸結到信息化上,多年前,克隆羊多利轟動了生物學界,其實放到 IT 領域,其實就像是一次簡單的復制粘貼。只不過前者是以基因信息為基礎,后者以二進制的 O 和 1 為基礎。王俊說:
“因為計算和編程最核心基本單位是基因,基因是生命體最基本構成單位。我們每個人身上蘊藏所有信息組合就是一套生命信息基本程序,這套基本程序就是生命的語言?!?/p>
我們人身上有 2-3 萬個基因,水稻有 5 萬多基因,不同物種有不同基因,比如我們現在看到一個酵母菌用 4000 個基因,所有不同基因組合形式不同的生命程序,不同生命程序就形成這個個體與周圍環(huán)境適應,每一套程序代表著不同的生存策略,這套不同的生存策略事實上針對于不同環(huán)境體系而來。檢查這個程序到底好用不好用唯一標準就是這套程序能不能活下去,傳播更多后代。當選擇傳播更多后代的這套程序就叫做可以適應于這套環(huán)境的生命語言。
如果程序設定我們的最大壽命是 150 歲,但是為什么我們活不到,生病是主要原因。從基因角度來看,很多病癥都是基因問題,可以視作是生命程序出現了 Bug。
疾病是生命程序中的 Bug
那么疾病跟基因有什么關系、或者跟環(huán)境、跟數字化、跟 IT、BT 有什么關系呢?王俊的解釋是:
“基因里面的毛病有點像寫程序的時候出了一個 bug,出了 bug,基因程序運行不了,在有時候就出現很嚴重的問題。比如各種各樣罕見疾病。有罕見疾病的一般生存周期都非常短,我們有各種各樣例子,這種罕見疾病聽起來非常罕見,但是加起來一點都不罕見,中國有大于 5.6% 的孩子出生有各種各樣的出生缺陷,非常大的。生命程序不斷試代碼、試代碼過程中不斷試錯,當然每一個錯誤并不是代表新的往前演化的可能。?
我們一般在教堂宣誓都這么講,無論是疾病與否、健康與否都一輩待在一起?但是對于后代健康的問題,不應該從純浪漫的角度出發(fā)。兩廣福建地區(qū)地中海貧血基因缺陷攜帶率差不多 19%,如果有兩個攜帶者的夫婦結合在一起,生了地中學貧血孩子的可能性非常大。
提前檢測基因可以有效預防這類基因疾病的發(fā)生。我們可以人工受精,做一個移植前檢測,移植前檢測在中國很多醫(yī)院已經開展了。如果懷孕了怎么辦?懷孕兩到三個月之內可以對孩子進行完整基因檢測,尤其是針對非常罕見的基因性疾病,通過這些篩差可以達到出生前防控。如果再往下走,新生兒出生了還需不需要檢測?中國耳聾發(fā)生率很多是因為錯用抗生素,如果體內基因不能受鏈霉素這個抗生素,一下就耳聾。如果早一點知道他得各種各樣的心臟病、耳聾,包括自閉癥風險,我們是不是可以早一點干預?
是可以的。
如何找 Bug,如何修 Bug
如果停留在預防和干預的階段,卻沒有真正的解決方案,始終不能說引爆產業(yè)。而 IT 和 BT 的融合提供了這個可能。王俊透露,他們有一個計劃,去搜索 100 萬人的基因數據。尋找那些單純從基因校對來講他應該有單基因疾病,但是非常健康的人。這類人被稱之為“超級英雄”。這些人非常有意思,他們體內有非常明確的致病基因,但是非常健康,這是因為體內有另外一套基因保護他。就像程序出現 bug,但是有另外一段修復。如果找出那一段是什么,也許可以找出罕見性疾病的藥物。
類似的,腫瘤和其他的一些慢性疾病,如糖尿病這些,都有望過基因技術來發(fā)現和解決。其中則需要一個生命的公式,左邊是自己的基因、環(huán)境因素的基因,各種各樣的東西,右邊是你表現的狀況,身高、體重、各種各樣的病理特征、健康與否。找出其中公式則需要大數據技術,如果研究清楚身高基因的關系,需要 100 萬人。要研究清楚絕大部分復雜疾病和基因以及環(huán)境的關系,需要把 100 萬人各種各樣信息全部搜集,才能得到剛才講的生命公式。
如果有了 100 萬的基因數據
如果把每個人數據都連起來,形成基因組網絡,其中的機會不可估量。類似于我們講的 IT 互聯網企業(yè),超級計算機,個人電腦,真正成了不可估量的機會。每個人在上面產生數據和支持,每個人的基因計劃,所有基因組就形成網絡。如此大的基因網絡最終要做的是需要人工智能來學習,因為這么大的量已經不可能用一個單一模型來解決。
目前華大基因已經開始做這方面的基礎研究,他們做了 3000 株小米,在同一個地方測定各種各樣生長條件,最后看出來產量是多少、營養(yǎng)成分怎么樣、各種各樣結果,然后通過深度學習、人工智能方法,現在給定另外一株小米,華大基因有 90% 準確性可以預測另外這株的小米長成怎么樣。
對健康有這樣的準確預知能力嗎?當我們擁有 100 萬人基因測序的時候,離這樣的能力就很近。奧巴馬提出一個精準醫(yī)療計劃,就是要做 100 萬人基因組庫,當所有人完成后,我們會有一個水晶球,未來健康的預測就走向了預知。
而這樣的預知很有可能再做一些改變,最科幻的莫過于基因編輯,以及返老還童。說到這里,BT 技術其實又和 IT 技術殊途同歸了,無外乎就是對于數據的改寫和備份還原。