廖玉峰 徐愛(ài)華 蘇文萍 王松
摘 要:隨著數(shù)據(jù)存儲(chǔ)量的增長(zhǎng)以及數(shù)據(jù)開(kāi)放力度的加大,大數(shù)據(jù)正在影響著各個(gè)領(lǐng)域,并改變著各個(gè)領(lǐng)域。本文分析了大數(shù)據(jù)的概念和醫(yī)療大數(shù)據(jù)的特點(diǎn),闡述了面向醫(yī)療大數(shù)據(jù)的云計(jì)算技術(shù)的基本框架與可行性。
關(guān)鍵詞:大數(shù)據(jù);醫(yī)療數(shù)據(jù);云計(jì)算
中圖分類(lèi)號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A
Research on Cloud Computing Oriented Medical Big Data
LIAO Yufeng,XU Aihua,SU Wenping,WANG Song
(Scientific and Technical Information of Nanjing,Nanjing 210018,China)
Abstract:With the increase of the amount of data storage and data openness, various fields are influenced and changed by big data.This paper analyzes the concept of big data and the characteristics of medical big data.The basic framework and feasibility of cloud computing technology oriented medical big data are described.
Keywords:big data;medical data;cloud computing
1 引言(Introduction)
隨著經(jīng)濟(jì)水平的快速提升與信息技術(shù)的迅猛發(fā)展,智慧醫(yī)療受到國(guó)家和企業(yè)的高度關(guān)注,統(tǒng)計(jì)數(shù)據(jù)表明,僅2014一年,我國(guó)互聯(lián)網(wǎng)醫(yī)療融資就高達(dá)80億元。智慧醫(yī)療以醫(yī)院信息系統(tǒng)、在線醫(yī)療、移動(dòng)醫(yī)療、健康社交媒體、可穿戴設(shè)備、云平臺(tái)等形式被廣泛地應(yīng)用于日常的健康監(jiān)測(cè)和管理中,并產(chǎn)生了海量健康數(shù)據(jù)。
智慧醫(yī)療是醫(yī)療信息化的重要研究方向,它融合了物聯(lián)網(wǎng)、云計(jì)算與大數(shù)據(jù)處理技術(shù)。
2 大數(shù)據(jù)概念(Concept of big data)
大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi),用傳統(tǒng)數(shù)據(jù)管理系統(tǒng)進(jìn)行存儲(chǔ)、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)通常用來(lái)形容一個(gè)領(lǐng)域內(nèi)的大量數(shù)據(jù),包括非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要使用分布式運(yùn)算平臺(tái)來(lái)向大量的電腦分配運(yùn)算任務(wù)。因此,大數(shù)據(jù)的鑒別不僅依據(jù)數(shù)據(jù)規(guī)模,還要依據(jù)數(shù)據(jù)搜索與數(shù)據(jù)分析的復(fù)雜度。
在IT和商業(yè)領(lǐng)域,“大數(shù)據(jù)”仍然是一個(gè)新概念。大數(shù)據(jù)首先被定義為可視化的、數(shù)量龐大的科學(xué)數(shù)據(jù)[1],在存儲(chǔ)、管理和處理方面超出現(xiàn)有技術(shù)的能力。大數(shù)據(jù)現(xiàn)在公認(rèn)具有四個(gè)維度特點(diǎn):Volume、Variety、Velocity和Value,該4V維度被廣泛應(yīng)用于后續(xù)學(xué)者的討論中[2]。
(1)Volume指數(shù)據(jù)量的大小決定數(shù)據(jù)的價(jià)值的和潛在的信息。獲得時(shí)間序列數(shù)據(jù)需要相當(dāng)大努力和投資,不過(guò)這些如移動(dòng)醫(yī)療產(chǎn)生的數(shù)據(jù)卻可以很好的檢驗(yàn)與預(yù)測(cè)用戶行為。
(2)Variety指從傳感器、智能手機(jī)或社交網(wǎng)絡(luò)獲得的數(shù)據(jù)的類(lèi)型的多樣性。這些數(shù)據(jù)類(lèi)型包括視頻、圖像、文本、音頻、數(shù)據(jù)日志,它們以結(jié)構(gòu)化或非結(jié)構(gòu)化的形式存在著。通常產(chǎn)生于移動(dòng)設(shè)備的數(shù)據(jù)都是非結(jié)構(gòu)化的形式。互聯(lián)網(wǎng)產(chǎn)生了及其多樣化的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。
(3)Velocity指數(shù)據(jù)產(chǎn)生的速度。數(shù)據(jù)的內(nèi)容不斷改變,不斷有不同來(lái)源的數(shù)據(jù)補(bǔ)充進(jìn)來(lái)。
(4)Value是大數(shù)據(jù)最為重要的一個(gè)特點(diǎn),指從不同類(lèi)型和快速產(chǎn)生的大數(shù)據(jù)集中發(fā)現(xiàn)潛藏的巨大的價(jià)值。
伴隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、處理數(shù)據(jù)等技術(shù)業(yè)面臨著技術(shù)革新,同時(shí)也帶來(lái)了數(shù)據(jù)挖掘中誕生的新的價(jià)值和機(jī)遇。越來(lái)越多的行業(yè)已經(jīng)開(kāi)始利用大數(shù)據(jù)技術(shù)進(jìn)行改善,例如企業(yè)商業(yè)智能、公共服務(wù)和市場(chǎng)營(yíng)銷(xiāo)。
3 醫(yī)療信息特點(diǎn)(Characteristics of medical
information)
健康信息具有多源相關(guān)性、異構(gòu)有偏性、海量高速性的特點(diǎn),同時(shí),其關(guān)乎生命、涉及隱私、高度個(gè)性化、高度專(zhuān)業(yè)化等特點(diǎn)。
醫(yī)療行業(yè)早就遇到了海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn),包括急劇升高的醫(yī)療支出、人口老齡化帶來(lái)的慢性疾病問(wèn)題、醫(yī)療人員短缺等。據(jù)國(guó)家衛(wèi)生計(jì)生委公布,2014年全國(guó)醫(yī)療衛(wèi)生支出突破一萬(wàn)億,中央財(cái)政醫(yī)療衛(wèi)生支出突破三千億,增長(zhǎng)15.1%。另外,2014年中央投資230億元支持4.8萬(wàn)個(gè)衛(wèi)生計(jì)生機(jī)構(gòu)基礎(chǔ)設(shè)施建設(shè)。由此可見(jiàn),醫(yī)療支出已經(jīng)占據(jù)了國(guó)家財(cái)政支出很大的比例。然而,受非必要服務(wù)、行政措施、醫(yī)療欺詐等因素影響,治療衛(wèi)生支出的相當(dāng)一部分存在浪費(fèi)現(xiàn)象。如果針對(duì)相關(guān)醫(yī)療信息進(jìn)行數(shù)據(jù)管理和數(shù)據(jù)分析,可以協(xié)助醫(yī)療機(jī)構(gòu)提高診斷和治療效率,不僅為醫(yī)院節(jié)約經(jīng)費(fèi)開(kāi)支,而且也可以在提高醫(yī)療水平的同時(shí)減少醫(yī)患糾紛,減輕醫(yī)務(wù)人員的工作中的精神壓力并提升勞動(dòng)效率,使得醫(yī)療機(jī)構(gòu)的運(yùn)營(yíng)管理進(jìn)入一個(gè)良性循環(huán)。
4 醫(yī)療大數(shù)據(jù)特點(diǎn)(Characteristics of medical big data)
醫(yī)療大數(shù)據(jù)除了包含Volume、Variety、Velocity和Value這四個(gè)大數(shù)據(jù)的普遍特點(diǎn)之外,還有多態(tài)性、時(shí)效性、不完整性、冗余性、隱私性等特點(diǎn)[3]。
多態(tài)性指醫(yī)生對(duì)病人的描述難以用標(biāo)準(zhǔn)化進(jìn)行衡量;時(shí)效性指數(shù)據(jù)僅在一段時(shí)間內(nèi)有用;不完整性指醫(yī)療分析對(duì)病人的狀態(tài)描述有偏差和缺失;冗余性指醫(yī)療數(shù)據(jù)存在大量重復(fù)或無(wú)關(guān)的信息;隱私性指用戶的醫(yī)療健康數(shù)據(jù)具有高度的隱私性,泄漏信息會(huì)造成嚴(yán)重后果。
5 向醫(yī)療大數(shù)據(jù)的云計(jì)算技術(shù)(The cloud computing
醫(yī)療信息數(shù)據(jù)規(guī)模大,數(shù)據(jù)結(jié)構(gòu)復(fù)雜,對(duì)醫(yī)療數(shù)據(jù)的管理和處理是面向醫(yī)療大數(shù)據(jù)的云計(jì)算的核心。云計(jì)算數(shù)據(jù)管理平臺(tái)以分布式運(yùn)算為核心技術(shù),具有成本相對(duì)低廉、數(shù)據(jù)整合性強(qiáng)等特點(diǎn),正是醫(yī)療領(lǐng)域大數(shù)據(jù)應(yīng)用的首選。
6 結(jié)論(Conclusion)
我們認(rèn)為,云端存儲(chǔ)將成為未來(lái)數(shù)據(jù)存儲(chǔ)的趨勢(shì),因此后續(xù)的數(shù)據(jù)管理、數(shù)據(jù)挖掘和數(shù)據(jù)分析等也將以云計(jì)算的方式直接在云端進(jìn)行。面向醫(yī)療大數(shù)據(jù)的云計(jì)算也需要在云端部署相應(yīng)的數(shù)據(jù)管理平臺(tái)和數(shù)據(jù)處理平臺(tái),在精準(zhǔn)收集數(shù)據(jù)的同時(shí),對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)的處理和分析。我們認(rèn)為云技術(shù)(如亞馬遜、微軟Azure等),連同高速通訊網(wǎng)絡(luò)、數(shù)據(jù)密集型編程范式(MapReduce、分布式存儲(chǔ)系統(tǒng)等)、語(yǔ)義網(wǎng)和機(jī)器學(xué)習(xí)算法將構(gòu)成醫(yī)療領(lǐng)域創(chuàng)新大數(shù)據(jù)分析設(shè)計(jì)和發(fā)展的基礎(chǔ)。我們需要開(kāi)發(fā)相應(yīng)的軟件工具和技術(shù),用以快速查詢處理和分析大數(shù)據(jù)網(wǎng)絡(luò)提供的事實(shí)數(shù)據(jù)。
參考文獻(xiàn)(References)
[1] Cox M,Ellsworth D.Managing big data for scientificvisualization[J].ACM Siggraph,1997:21.
[2] Gantz J,Reinsel D.Extracting Value from Chaos[J/OL].IDCiview,2011(12)[2013-03-25].http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.
[3] 董誠(chéng),等.醫(yī)療健康大數(shù)據(jù):應(yīng)用實(shí)例與系統(tǒng)分析[J].大數(shù)據(jù),2015(2):78-89.