鄒北驥
摘要:互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展給數(shù)據(jù)的上傳與下載帶來了前所未有的便利,使得互聯(lián)網(wǎng)上的數(shù)據(jù)量急劇增長,由此產(chǎn)生了針對大數(shù)據(jù)的存儲、計(jì)算、分析、處理等新問題,尤其是對大數(shù)據(jù)的挖掘。文章分析當(dāng)前大數(shù)據(jù)產(chǎn)生的背景,闡述大數(shù)據(jù)的基本特征及其應(yīng)用,結(jié)合醫(yī)療領(lǐng)域,論述醫(yī)療大數(shù)據(jù)分析的目的、意義和主要方法。
關(guān)鍵詞:大數(shù)據(jù);物聯(lián)網(wǎng);醫(yī)療;大數(shù)據(jù)挖掘
1 大數(shù)據(jù)早已存在,為何現(xiàn)在稱之為大數(shù)據(jù)時(shí)代
計(jì)算與數(shù)據(jù)是一對孿生姐妹,計(jì)算需要數(shù)據(jù),數(shù)據(jù)通過計(jì)算產(chǎn)生新的價(jià)值。數(shù)據(jù)是客觀事物的定量表達(dá),來自于客觀世界并早已存在。例如,半個(gè)世紀(jì)前,全球的人口數(shù)量就有數(shù)十億,與之相關(guān)的數(shù)據(jù)就是大數(shù)據(jù);但是在那個(gè)時(shí)代,由于技術(shù)的局限性,大數(shù)據(jù)的采集、存儲和處理還難以實(shí)現(xiàn)。
互聯(lián)網(wǎng)時(shí)代之前,采集世界各地的數(shù)據(jù)并讓它們快速地進(jìn)入計(jì)算系統(tǒng)幾乎是一件不可想象的事情。20世紀(jì)80年代興起的互聯(lián)網(wǎng)技術(shù)在近30年里發(fā)生了翻天覆地的變化,徹底地改變了人們的工作和生活方式。通過互聯(lián)網(wǎng)人們不僅可以下載到新聞、小說、論文等各類文字?jǐn)?shù)據(jù),而且可以輕而易舉地下載到音樂、圖像和視頻等多媒體數(shù)據(jù),這使得互聯(lián)網(wǎng)上的數(shù)據(jù)流量急劇增長。據(jù)統(tǒng)計(jì),現(xiàn)在互聯(lián)網(wǎng)上每分鐘流入流出的數(shù)據(jù)量達(dá)到1000 PB,即10億GB。
推動大數(shù)據(jù)產(chǎn)生的另一個(gè)重要因素是物聯(lián)網(wǎng)技術(shù)。近幾年發(fā)展起來的物聯(lián)網(wǎng)技術(shù)通過給每個(gè)物品貼上標(biāo)簽并應(yīng)用RFID等技術(shù)實(shí)現(xiàn)了各類物品信息的快速采集。如新研發(fā)的各種穿戴式設(shè)備可實(shí)時(shí)在線獲取人體運(yùn)動過程中的各種數(shù)據(jù),各類帶有USB接口或網(wǎng)絡(luò)接口的電子儀器可迅速地將儀器中的數(shù)據(jù)上傳到互聯(lián)網(wǎng)并進(jìn)入計(jì)算系統(tǒng),智能化生產(chǎn)過程中產(chǎn)生的各種數(shù)據(jù)、GPS導(dǎo)航系統(tǒng)和飛機(jī)汽車等現(xiàn)代交通工具在行進(jìn)中產(chǎn)生的數(shù)據(jù)均可通過移動互聯(lián)網(wǎng)上傳。所有這一切表明,由于互聯(lián)網(wǎng)技術(shù)的發(fā)展和物聯(lián)網(wǎng)技術(shù)的推動,使得原本存在的大數(shù)據(jù)可快速地進(jìn)入到計(jì)算系統(tǒng),大數(shù)據(jù)時(shí)代到來了。
大數(shù)據(jù)的產(chǎn)生也與其他領(lǐng)域的技術(shù)發(fā)展密不可分。如生物遺傳學(xué)領(lǐng)域近幾年開展的一項(xiàng)巨大工程——人類基因組計(jì)劃,要對人類23對染色體基因中30億個(gè)堿基對進(jìn)行測序,其數(shù)據(jù)量之巨大,以至于當(dāng)前高性能計(jì)算機(jī)系統(tǒng)都難以在可接受的時(shí)間內(nèi)完成。高能物理實(shí)驗(yàn)一天產(chǎn)生的數(shù)據(jù)高達(dá)幾個(gè)TB,這些數(shù)據(jù)都在排隊(duì)等待處理,當(dāng)前的計(jì)算系統(tǒng)已難以滿足它們的處理要求了。
人們關(guān)注大數(shù)據(jù)的最重要原因是因?yàn)榇髷?shù)據(jù)中隱藏著具有豐富價(jià)值的信息。互聯(lián)網(wǎng)上傳遞的商品訂購信息反映了消費(fèi)者的意向、對商品質(zhì)量的評價(jià)等,于是不斷地收集互聯(lián)網(wǎng)上的這些信息并進(jìn)行挖掘分析將有助于企業(yè)分析其產(chǎn)品前景,從而不斷改進(jìn)以獲得更多利潤。分布在全球各地的氣象設(shè)備采集的氣象數(shù)據(jù)通過互聯(lián)網(wǎng)匯集并通過挖掘分析后可用于預(yù)測天氣情況,來自世界各地的地震監(jiān)控儀采集的大量地下數(shù)據(jù)通過互聯(lián)網(wǎng)收集形成大數(shù)據(jù),采用數(shù)據(jù)挖掘方法分析并預(yù)測地震。大數(shù)據(jù)最早應(yīng)用于電子商務(wù)領(lǐng)域,美國亞馬遜公司的電子商務(wù)平臺每天獲得大量的客戶訂單和消費(fèi)數(shù)據(jù),應(yīng)用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法分析這些數(shù)據(jù),發(fā)現(xiàn)了商品銷售中的關(guān)聯(lián)性,如商品A和商品B經(jīng)常被客戶同時(shí)購買,于是有意識地將這兩種商品(也許它們是毫不相干的兩類商品)擺在同一個(gè)貨架上,使得商品的銷售量大增。這就是典型的大數(shù)據(jù)分析的結(jié)果。因此大數(shù)據(jù)時(shí)代我們所要做的事情就是對隱藏于大數(shù)據(jù)中有價(jià)值的信息進(jìn)行分析與挖掘,以便利用它們?yōu)槿祟惙?wù)。
2 大數(shù)據(jù)的特征與計(jì)算系統(tǒng)面臨的新問題
來自于各個(gè)領(lǐng)域的大數(shù)據(jù)盡管代表著不同的事物,隱藏著不同的價(jià)值信息,但都具備4個(gè)重要特征,稱為4V特征,即Volume(大容量)、Velocity(快速更新)、Variety(多類型)和Value(高價(jià)值)。所謂Volume是指數(shù)據(jù)量極大,雖然沒有一個(gè)絕對的容量標(biāo)準(zhǔn),但一般都在數(shù)十個(gè)TB以上。Velocity是指數(shù)據(jù)產(chǎn)生和更新的速度很快,大數(shù)據(jù)的產(chǎn)生是一個(gè)快速的動態(tài)過程。Variety是指數(shù)據(jù)的種類多,除了文字?jǐn)?shù)據(jù)外,還包括圖像、圖形、視頻以及聲音等多媒體數(shù)據(jù)。Value是指大數(shù)據(jù)中隱藏了具有高價(jià)值的信息,這些信息需要通過機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方法才可能提取到。以醫(yī)院電子病歷數(shù)據(jù)為例,它是典型的大數(shù)據(jù)。首先,電子病歷的數(shù)據(jù)量大。以一個(gè)小規(guī)模城市的數(shù)家醫(yī)院形成的區(qū)域醫(yī)療系統(tǒng)為例,每大門診量和住院病人人數(shù)都在數(shù)萬人以上,每人每次的病歷、檢驗(yàn)數(shù)據(jù)可達(dá)到幾個(gè)GB,因此每天的數(shù)據(jù)都在幾個(gè)TB甚至數(shù)十個(gè)TB以上。其次,數(shù)據(jù)的更新速度快。每天在線檢查化驗(yàn)的人數(shù)快速增加,其數(shù)據(jù)也在快速更新。第三,電子病歷的數(shù)據(jù)類型包括了文本、圖像、圖形和視頻等多類型數(shù)據(jù)。最重要的是電子病歷數(shù)據(jù)中隱藏著極有價(jià)值的醫(yī)療和醫(yī)學(xué)信息。通過數(shù)據(jù)挖掘方法可以挖掘出這些信息以便醫(yī)生進(jìn)一步分析患者的病因,形成更好的治療方案。
大數(shù)據(jù)給計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域帶來了以下的新問題和挑戰(zhàn)。
(1)大數(shù)據(jù)的存儲。大數(shù)據(jù)一般來自互聯(lián)網(wǎng),是動態(tài)的多類型數(shù)據(jù)。盡管當(dāng)前的存儲器容量在不斷增加,但選擇一種什么樣的結(jié)構(gòu)來存儲大數(shù)據(jù)以便能更好地存取是一個(gè)需要解決的問題。以電子病歷數(shù)據(jù)為例,多家醫(yī)院產(chǎn)生的電子病歷數(shù)據(jù)是集中存儲于某一個(gè)醫(yī)院還是分布式存儲于各家醫(yī)院,這里不僅有一個(gè)管理、隱私和醫(yī)院利益的問題,也有技術(shù)上實(shí)現(xiàn)的問題,有待進(jìn)一步研究。近幾年發(fā)展起來的云存儲或許是一種很好的選擇。借助于第三方提供的云存儲服務(wù),在保證數(shù)據(jù)安全和各個(gè)醫(yī)院權(quán)益的條件下,各家醫(yī)院可以將自己的電子病歷數(shù)據(jù)存儲到云服務(wù)器上,實(shí)現(xiàn)數(shù)據(jù)共享。
(2)計(jì)算系統(tǒng)的結(jié)構(gòu)和計(jì)算模式。傳統(tǒng)的單機(jī)系統(tǒng)和分布式系統(tǒng)難以處理這些動態(tài)實(shí)時(shí)更新的大數(shù)據(jù),于是以集群方式構(gòu)建的多機(jī)系統(tǒng)再加上以互聯(lián)網(wǎng)相連的云計(jì)算平臺將成為大數(shù)據(jù)的有效計(jì)算平臺。分布在各地的數(shù)據(jù)需要由當(dāng)?shù)氐募菏接?jì)算平臺對數(shù)據(jù)做預(yù)處理,然后通過互聯(lián)網(wǎng)將數(shù)據(jù)傳輸?shù)綌?shù)據(jù)處理中心,以更高性能的集群式系統(tǒng)進(jìn)行處理并將結(jié)果反饋到各個(gè)分布式系統(tǒng)中。近幾年美國Google、IBM公司還有中國的曙光、聯(lián)想等大公司相繼推出了用于處理大數(shù)據(jù)的各種集群式計(jì)算機(jī)系統(tǒng),它們可為大數(shù)據(jù)的處理提供更好的服務(wù)。endprint