黃婧 王云光 皮冰斌
摘 要: 健康醫(yī)療大數(shù)據(jù)的發(fā)展是大數(shù)據(jù)產(chǎn)業(yè)驅(qū)動的結(jié)果,是國家重要的戰(zhàn)略部署。為了有效地推動數(shù)據(jù)開放共享,挖掘醫(yī)療行業(yè)潛在的數(shù)據(jù)價值,推動行業(yè)的發(fā)展進步,就必須加強數(shù)據(jù)安全保護技術(shù)的研究。文章從大數(shù)據(jù)平臺安全的角度入手,重點分析了健康醫(yī)療領(lǐng)域相關(guān)數(shù)據(jù)安全保障技術(shù)的重難點。研究表明,針對不同的應(yīng)用場景使用不同的安全保障技術(shù)能夠有效地加強數(shù)據(jù)安全保護,提高數(shù)據(jù)傳輸?shù)陌踩浴?/p>
關(guān)鍵詞: 健康醫(yī)療; 大數(shù)據(jù); 數(shù)據(jù)平臺; 數(shù)據(jù)安全
中圖分類號:TP301 文獻標志碼:A 文章編號:1006-8228(2018)11-45-04
Abstract: The development of healthcare big data is the result of the big data industry, and it is an important strategic deployment of our country. In order to effectively promote the open sharing of data, tap the potential data value of the medical industry, and promoting the development of this industry, the research on data security protection technology must be strengthened. Starting from the security perspective of big data platform, this paper focuses on analyzing the key and difficult points of data security technology in the field of health care. The researches show that using different security technologies for different application scenarios can effectively enhance the data security protection and improve the security of data transmission.
Key words: healthcare; big data; data platform; data security
0 引言
步入21世紀以來,隨著社會網(wǎng)絡(luò)信息化的高速發(fā)展,使得物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、云計算和人工智能等新一代信息技術(shù)對健康醫(yī)療事業(yè)的影響日趨顯著。美國、英國等發(fā)達國家已經(jīng)將健康醫(yī)療大數(shù)據(jù)的發(fā)展作為國家公共事業(yè)發(fā)展的重要組成部分投入了大量的人力物力。2016年6月,國務(wù)院正式印發(fā)了《關(guān)于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》,首次將健康醫(yī)療大數(shù)據(jù)定位為“國家重要的基礎(chǔ)性戰(zhàn)略資源”[1]。由此可見,國家對健康醫(yī)療大數(shù)據(jù)的重視,而大數(shù)據(jù)在健康醫(yī)療方面的應(yīng)用與發(fā)展也將極大地提升醫(yī)療服務(wù)質(zhì)量與效率。由此引來的醫(yī)療數(shù)據(jù)的安全問題也被提上日程。醫(yī)療數(shù)據(jù)保密性很高,數(shù)據(jù)量龐大,數(shù)據(jù)結(jié)構(gòu)復(fù)雜且?guī)в幸欢ǖ膶I(yè)特殊性,這些都加大了數(shù)據(jù)安全保護的難度。因此,在進行數(shù)據(jù)的開放與共享以謀求更大的價值的同時,我們更應(yīng)該從技術(shù)、法律等各方面入手,保障數(shù)據(jù)的安全。
1 健康醫(yī)療大數(shù)據(jù)研究概述
1.1 健康醫(yī)療大數(shù)據(jù)的概念與特征
健康醫(yī)療大數(shù)據(jù)是涵蓋人的全生命周期,既包括個人健康,又涉及醫(yī)藥服務(wù)、級別防控、健康保障和食品安全、養(yǎng)生保健等多方面數(shù)據(jù)的匯聚和聚合[2]。對改進醫(yī)療服務(wù)模式以及國家經(jīng)濟社會的發(fā)展都具有一定的促進作用。大數(shù)據(jù)一般都具有數(shù)據(jù)量大、處理速度快、數(shù)據(jù)種類多,以及價值密度低的特征。健康醫(yī)療大數(shù)據(jù)在此基礎(chǔ)之上又具有其本身的一些特征,即時效性、不完整性、冗余性以及保密性[3]。
時效性:信息僅在一定時間內(nèi)對決策具有影響?;颊咴诰歪t(yī)的不同階段產(chǎn)生的數(shù)據(jù)對后續(xù)的治療手段方法等都會帶來不一樣的影響。
不完整性:因為技術(shù)手段、人為因素等導(dǎo)致我們無法全面搜集,記錄、處理疾病的全部信息。致使數(shù)據(jù)出現(xiàn)偏差乃至缺失的情況,造成了數(shù)據(jù)的不完整性。
冗余性:冗余性是指數(shù)據(jù)之間的重復(fù),或者同一數(shù)據(jù)被多次記錄的現(xiàn)象。例如,同一患者會因醫(yī)院不同造成同一檢查項的多次檢查,造成數(shù)據(jù)的冗余。
保密性:醫(yī)療保密即醫(yī)務(wù)人員在醫(yī)治患者的過程之中應(yīng)當保守醫(yī)療秘密,不得對外泄露病人的隱私及病情。相關(guān)醫(yī)療機構(gòu)不得在未經(jīng)患者同意的情況下,以任何方式將患者的個人信息透露給外界。
1.2 健康醫(yī)療大數(shù)據(jù)的來源與隱私保護價值意義
1.2.1 數(shù)據(jù)來源
健康醫(yī)療大數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)上可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三類。各式各樣的數(shù)據(jù)來源于不同的地方,按照數(shù)據(jù)產(chǎn)生的來源,可將健康醫(yī)療大數(shù)據(jù)分為臨床診療、醫(yī)院管理、醫(yī)學(xué)研究、公共衛(wèi)生和個人健康五類。如表1所示。
1.2.2 健康醫(yī)療大數(shù)據(jù)安全保護價值意義
在我國,多方需求共同推動健康醫(yī)療大數(shù)據(jù)的發(fā)展,首先社會需求加快了大數(shù)據(jù)的應(yīng)用。據(jù)統(tǒng)計,我國人口老齡化進程顯著加快。預(yù)計到2035年60歲以上人口將增至4.18億,約占人口比例的29%[4]。
我國慢性病人群龐大,已經(jīng)被確診大的患者高達2.6億人且每年仍以8.9%的速度在遞增[5]。根據(jù)北京市藥監(jiān)局西城分局對轄區(qū)內(nèi)五個街道的過期藥品回收狀況的調(diào)查顯示,91.8%的家庭有過期藥品,70.1%的家庭存儲過期藥品超過半年。
我國醫(yī)療領(lǐng)域需求龐大,醫(yī)療資源分配不均衡;醫(yī)療信息不對稱、不透明、不開放、不共享,也導(dǎo)致了信息的冗余,患者不能參與到醫(yī)療過程之中,醫(yī)生也不能根據(jù)以往有用信息迅速的做出精準的判斷,往往會造成治療的延誤導(dǎo)致錯失治療的最佳時期。
大數(shù)據(jù)在健康醫(yī)療領(lǐng)域的有效應(yīng)用將大大減少上述問題對我們的困擾。而保障數(shù)據(jù)的安全有效,杜絕信息的泄露是大數(shù)據(jù)在健康醫(yī)療領(lǐng)域的應(yīng)用的最基本問題,也是人們最關(guān)注的一個問題。因此,保障好數(shù)據(jù)的安全,是當下我們迫切需要解決的基本問題之一。
2 健康醫(yī)療大數(shù)據(jù)平臺安全關(guān)鍵技術(shù)
醫(yī)療大數(shù)據(jù)平臺為大數(shù)據(jù)在醫(yī)療信息領(lǐng)域的應(yīng)用和發(fā)展提供了有利的支持保障。平臺的安全體系建設(shè)則更加有利于健康醫(yī)療大數(shù)據(jù)的發(fā)展。涉及的關(guān)鍵技術(shù)有身份認證技術(shù)、數(shù)據(jù)隔離技術(shù)、訪問控制技術(shù)以及審計技術(shù)。如圖1所示。
2.1 醫(yī)療信息系統(tǒng)的身份認證技術(shù)
目前身份認證技術(shù)主要包括:以口令為基礎(chǔ)的認證技術(shù),智能卡認證技術(shù),密碼認證技術(shù)、多因子認證技術(shù)。
口令認證技術(shù)是最簡單方便快捷的認證技術(shù),其優(yōu)勢在于成本低,速度快,但該方式的安全性較低。智能卡認證技術(shù)中智能卡具有硬件加密功能,安全可靠性更高,但是該方法增加了成本開銷,需要在每個終端都安裝讀卡設(shè)備,且對于一些信息系統(tǒng)而言該方法不適用。密碼認證中較為經(jīng)典的認證系統(tǒng)有兩個,一個是Kerberos認證系統(tǒng)另一個是PKIⅡCA系統(tǒng)。Kerberos認證系統(tǒng)支持分布環(huán)境下的認證服務(wù)和雙向認證服務(wù),能夠為網(wǎng)絡(luò)中的實體提供一個集中的、統(tǒng)一的認證管理機制。該系統(tǒng)解決了密鑰管理的問題,也解決了執(zhí)行效率的問題。PKIⅡCA系統(tǒng)的認證鑒別機制安全性較好,適合網(wǎng)上的安全認證,但是該系統(tǒng)也存在不足之處。例如無法驗證用戶提供信息的真實性,用戶私有密鑰保存的安全問題等。多因子安全認證技術(shù)相比于傳統(tǒng)的認證技術(shù)在安全憑證方面添加了多種因素,進一步的加強了安全認證的可行性,但是該方法太過復(fù)雜不便于操作。因此,在身份認證方面,需要一種可行方法,在保證安全性能的同時,提升執(zhí)行效率與可行性,這方面仍有待研究。
2.2 醫(yī)療信息系統(tǒng)數(shù)據(jù)隔離技術(shù)
虛擬化技術(shù)的負面作用之一是削弱了數(shù)據(jù)間的物理隔離,致使數(shù)據(jù)間的邊界很模糊,每個用戶都有成為發(fā)起攻擊節(jié)點的潛在條件,對數(shù)據(jù)的安全構(gòu)成了極大的威脅[6]。因此,開發(fā)數(shù)據(jù)隔離機制來保證用戶之間的數(shù)據(jù)不可見是解決問題的關(guān)鍵。在隔離技術(shù)中較為主流的有以下幾種。
⑴ 分離表架構(gòu):該方法中每個用戶都擁有屬于個人的數(shù)據(jù)庫表,系統(tǒng)共享時只會共享相同的數(shù)據(jù)。
⑵ 共享表架構(gòu):通過字段來確定數(shù)據(jù)之間的關(guān)系,系統(tǒng)共享時,共享相同的數(shù)據(jù)實例和數(shù)據(jù)庫表。此架構(gòu)在降低硬件成本的同時,極大地利用了數(shù)據(jù)實例的存儲能力,缺點是復(fù)雜程度增加了,產(chǎn)生了高昂的容災(zāi)備份成本。
⑶ 分離數(shù)據(jù)庫架構(gòu):這種架構(gòu)能夠高效實現(xiàn)數(shù)據(jù)隔離和容災(zāi)備份,但是硬件成本也相對較高。
2.3 數(shù)據(jù)訪問技術(shù)
對大規(guī)模的醫(yī)療數(shù)據(jù)資源進行管理時,為降低安全風(fēng)險,可根據(jù)用戶的需求和數(shù)據(jù)的保密程度賦予用戶和數(shù)據(jù)不同的等級權(quán)限。針對普通醫(yī)療數(shù)據(jù)的訪問控制,可以通過屬性加密和角色控制兩種方法。而針對對用戶訪問需求不明確的情況,出現(xiàn)了一種新型的風(fēng)險自適應(yīng)訪問模型。
2.3.1 基于角色挖掘的訪問控制方法
角色挖掘與傳統(tǒng)的角色設(shè)計的根本不同之處在于角色挖掘是“自下而上”的從已有的用戶-權(quán)限分配關(guān)系中來自動化地實現(xiàn)角色定義和管理工作,以減小對管理員地依賴[7]。在保證系統(tǒng)已有用戶-權(quán)限分配關(guān)系準確的情況下,目前已有的研究方法有利用聚類進行角色挖掘的方法,用子集枚舉的角色挖掘算法等。上述方法都能夠在一定程度上降低對管理員的依賴。
2.3.2 基于屬性加密的訪問控制
基于屬性加密的訪問控制是一種利用密文機制實現(xiàn)客體訪問控制的方法,主要分為兩種:基于密鑰策略的屬性加密(KP-ABE)和基于密文策略的屬性加密(CP-ABE)[8]。KP-ABE主要用來訪問靜態(tài)數(shù)據(jù),CP-ABE因為可以靈活的控制用戶訪問數(shù)據(jù),所以被廣泛地應(yīng)用于云計算地訪問控制。為解決傳統(tǒng)方案中,密文與密鑰長度都與屬性個數(shù)線性相關(guān)從而使得計算開銷增加的問題。Sreenivasa和Ratna提出了一種多權(quán)限分散的CP-ABE機制,利用最小授權(quán)集加密數(shù)據(jù),因此密文大小與訪問結(jié)構(gòu)中的最小屬性集呈線性關(guān)系,且在解密期間雙線性配對操作數(shù)是不變的[9]。Chen等提出了一種用于云計算的具有定長密文的多權(quán)限CP-ABE訪問控制方案,密文的長度和解密過程中的配對操作數(shù)都是不變的,與訪問結(jié)構(gòu)中設(shè)計的屬性數(shù)也無關(guān),在相對較強的安全模型中保持了高效率[10]。
2.3.3 基于風(fēng)險自適應(yīng)的訪問控制
研究者注意到僅僅基于風(fēng)險的訪問控制的判定是不合理的,在醫(yī)療信息系統(tǒng)中,緊急情況發(fā)生,風(fēng)險較大的訪問請求被簡單的拒絕可能會延誤治療的時期,對病人、醫(yī)院造成不可挽回的損失。一種彈性的風(fēng)險判斷方式被人們所研究采納,即風(fēng)險帶的概念。有研究者采用了一種風(fēng)險自適應(yīng)訪問控制實施辦法,在嚴格拒絕和彈性拒絕之間有著一個細分的風(fēng)險容忍區(qū)域,可以根據(jù)訪問行為的風(fēng)險系數(shù)在其中的位置來調(diào)整權(quán)限,從而提高了訪問控制判定的靈活性。也有研究者從算法模型的角度進行相關(guān)的研究,文獻[11] 以誠實醫(yī)生訪問行為的熵作為系統(tǒng)可承受風(fēng)險的基準值,對所有醫(yī)生的訪問行為使用EM算法進行進一步的分析,對不同醫(yī)生的訪問行為的概率分布進行了區(qū)分,利用風(fēng)險量化,監(jiān)測和控制對于醫(yī)療記錄的過度訪問以及特殊情況下的訪問請求。研究證明,該方法確實能夠有效提高風(fēng)險評估的準確性。
2.4 大數(shù)據(jù)審計
大數(shù)據(jù)處理平臺也采用安全審計技術(shù)來對安全事件進行跟蹤,以及時發(fā)現(xiàn)安全違規(guī)事件,便于進行安全事件追責(zé)[12]。安全審計首先搜集原始的系統(tǒng)狀態(tài)信息,然后將原始狀態(tài)信息和已有的安全記錄(包括已經(jīng)發(fā)生的安全問題及其他類似系統(tǒng)發(fā)生的安全問題)進行匯總整理,以此為基礎(chǔ)通過數(shù)理統(tǒng)計導(dǎo)出相應(yīng)的結(jié)論,在結(jié)論分析基礎(chǔ)上,制定安全等級,采取相應(yīng)的安全應(yīng)對措施,預(yù)防可能會發(fā)生的安全問題[13]。目前大數(shù)據(jù)平臺主要通過審計日記記錄平臺中所有數(shù)據(jù)操作。Hadoop生態(tài)的幾個常用組件都可以配置具有審計功能。
3 未來展望
未來,大數(shù)據(jù)在醫(yī)療健康領(lǐng)域的應(yīng)用將會越來越廣泛。數(shù)據(jù)的開放共享是使數(shù)據(jù)價值利用最大化的根本途徑。在數(shù)據(jù)安全保護方面,依然是研究的重點,亟待解決的問題仍有很多。相關(guān)的法律法規(guī)和政策的制定都應(yīng)該以保護數(shù)據(jù)安全,推動大數(shù)據(jù)在醫(yī)療領(lǐng)域的健康發(fā)展為主。其次要思考解決如何實現(xiàn)數(shù)據(jù)安全與數(shù)據(jù)共享的均衡問題;數(shù)據(jù)共享與數(shù)據(jù)隱私保護的均衡問題等。按需制定訪問控制策略、保障數(shù)據(jù)有效加密的同時又不影響執(zhí)行效率。
4 結(jié)束語
大數(shù)據(jù)作為國家重要的戰(zhàn)略性基礎(chǔ)資源,在健康醫(yī)療領(lǐng)域的應(yīng)用會推動該產(chǎn)業(yè)翻天覆地的變化。數(shù)據(jù)安全問題也得到了學(xué)術(shù)界和產(chǎn)業(yè)界的高度重視。本文對健康醫(yī)療領(lǐng)域的數(shù)據(jù)安全問題進行了研究,從大數(shù)據(jù)平臺的角度入手對目前身份認證技術(shù)、數(shù)據(jù)隔離技術(shù)、數(shù)據(jù)訪問控制技術(shù)和數(shù)據(jù)審計幾個方面所使用的較為先進的安全保障技術(shù)進行了研究,總結(jié)了每個方法的優(yōu)劣性,分析得出大數(shù)據(jù)安全保障技術(shù)下一步要在數(shù)據(jù)安全與數(shù)據(jù)共享、數(shù)據(jù)共享與隱私保護等問題上做進一步的探討。
參考文獻(References):
[1] 盧朝霞,姚勇,尹新等.健康醫(yī)療大數(shù)據(jù)理論與實踐[M].電子工業(yè)出版社,2017.
[2] 盧朝霞,姚勇,尹新等.健康醫(yī)療大數(shù)據(jù)理論與實踐[M].電子工業(yè)出版社,2017.
[3] 戴明風(fēng),孟群.醫(yī)療健康大數(shù)據(jù)挖掘與分析[J].中國衛(wèi)生信息管理,2017.14(2):126-130
[4] 中華人民共和國國家統(tǒng)計局.中華人民共和國2015年國民經(jīng)濟和社會發(fā)展統(tǒng)計公報.中國統(tǒng)計,2015.
[5] 國家衛(wèi)生和計劃生育委員會統(tǒng)計信息中心.2013中國衛(wèi)生服務(wù)調(diào)查研究.中國協(xié)和醫(yī)科大學(xué)出版社,2015.
[6] 王丹,趙文兵,丁治明.大數(shù)據(jù)安全保障關(guān)鍵技術(shù)分析綜述[J].北京工業(yè)大學(xué)學(xué)報,2017.43(3):335-349
[7] 李昊,張敏,馮登國等.大數(shù)據(jù)訪問控制研究[J].計算機學(xué)報,2017.1:72-91
[8] 陳興蜀,楊露,羅永剛等.大數(shù)據(jù)安全保護技術(shù)[J]. 四川大學(xué)學(xué)報(工程科學(xué)版),2017.5:1-12
[9] Rao Y S,Dutta R.Decentralized ciphertext-policy attribute-based encryption scheme with fast decryption[C]//Proceedings of the 14th IFIP TC 6/TC 11 International Conference onInternational Conferenceon Communication and Multimedia Security.Magdevurg: Springer-Verlag,2013:66-81.
[10] Chen Yanli,Song Lingling,Yang Geng.Attribute-based access control for multi-authority systems with constant size ciphertext in cloud computing[J].China Communications,2016.13(2):146-162
[11] Hui Zhen, Li Hao, Zhang Min, Feng Deng-Guo.Risk-adaptive access control model for big data in healthcare.Journal on Communications,2015.36(12):190-199(in Chinese).
[12] BAUMGRTNER L, STRACK C, HOΒBACH B.Complex event processing for reactive security monitoring in virtualized computer systems[C]//Proceedings of the 9th ACM International Conference on Distributed EventBased Systems. Oslo: ACM,2015:2233
[13] SOOKHAK M,GANI A,TALEBIAN H,et al. Remote data auditing in cloud computing environments: a survey,taxonomy, and open issues[J]. Computing Surveys,2015.47(4):134