, ,, ,
大數(shù)據(jù)分析和挖掘會帶來巨大的商業(yè)價值,也不可避免地會泄露人們的隱私[1]。如何進(jìn)行數(shù)據(jù)保護(hù),在不泄露用戶隱私的前提下,提高大數(shù)據(jù)的利用率,挖掘大數(shù)據(jù)的價值,是目前大數(shù)據(jù)研究的關(guān)鍵問題之一。目前,我國醫(yī)療信息化建設(shè)飛速發(fā)展,多地、多個行業(yè)都建設(shè)了大數(shù)據(jù)中心,并致力于區(qū)域內(nèi)的醫(yī)療數(shù)據(jù)共享[2]。大數(shù)據(jù)中心包含海量的數(shù)據(jù),在推動數(shù)據(jù)資源共享開放的同時,加強數(shù)據(jù)資源的安全性,實行數(shù)據(jù)資源分級、分類管理就變得非常重要。數(shù)據(jù)分類分級是從隱私安全與保護(hù)成本的角度出發(fā),對數(shù)據(jù)進(jìn)行分類和等級劃分,進(jìn)而根據(jù)不同需要對關(guān)鍵數(shù)據(jù)進(jìn)行重點防護(hù)。
在大數(shù)據(jù)建設(shè)中,國內(nèi)外對醫(yī)療數(shù)據(jù)的分類分級標(biāo)準(zhǔn)尚未明確。中國把醫(yī)學(xué)大數(shù)據(jù)研究與應(yīng)用作為重要的發(fā)展戰(zhàn)略,一些大數(shù)據(jù)規(guī)范文件正在積極地制定中。全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布的《大數(shù)據(jù)安全標(biāo)準(zhǔn)化白皮書》將醫(yī)療數(shù)據(jù)的安全風(fēng)險分為靜態(tài)數(shù)據(jù)的安全風(fēng)險和動態(tài)數(shù)據(jù)的安全風(fēng)險。對靜態(tài)數(shù)據(jù)的安全風(fēng)險,要設(shè)置訪問權(quán)限控制和安全風(fēng)險的分級分類管理策略;對動態(tài)數(shù)據(jù)的安全風(fēng)險,要設(shè)置加密和動態(tài)審計,要對重要敏感數(shù)據(jù)(如涉及個人隱私的電子病歷、電子健康檔案、人口健康等數(shù)據(jù))進(jìn)行分級、標(biāo)識等[3]。
國務(wù)院印發(fā)的《“十三五”國家信息化規(guī)劃》中提出建設(shè)統(tǒng)一開放的大數(shù)據(jù)體系,強化數(shù)據(jù)資源管理,要推動數(shù)據(jù)資源的分類分級管理[4]。大數(shù)據(jù)安全標(biāo)準(zhǔn)特別工作組已啟動的大數(shù)據(jù)安全國家標(biāo)準(zhǔn)制定項目《信息安全技術(shù)大數(shù)據(jù)安全管理指南》中提出,從大數(shù)據(jù)安全需求、數(shù)據(jù)分類分級等方面開展數(shù)據(jù)保護(hù)的管理工作[5]。各行各業(yè)都在積極響應(yīng)政府號召,如貴州省發(fā)布《貴州省政府?dāng)?shù)據(jù)數(shù)據(jù)分類分級指南》把政府?dāng)?shù)據(jù)按主題、行業(yè)和服務(wù)進(jìn)行分類,又將數(shù)據(jù)的安全等級劃分為6級[6],但沒有給各類賦予級別,在分類和分級的合并上還存在不足;《中國移動IDC維護(hù)管理規(guī)定-數(shù)據(jù)安全管理分冊》中對移動公司網(wǎng)絡(luò)系統(tǒng)中的數(shù)據(jù)分為用戶身份、服務(wù)內(nèi)容、衍生數(shù)據(jù)、運營管理4個大類,并按客戶的重要程度定義了4種安全級別[7];趙鵬等人提出了銀行數(shù)據(jù)資產(chǎn)安全管理體系框架,并在相關(guān)步驟中對數(shù)據(jù)項分類、數(shù)據(jù)資產(chǎn)保密分級標(biāo)準(zhǔn)和數(shù)據(jù)資產(chǎn)備份分級標(biāo)準(zhǔn)給出了示例[8]。
由于醫(yī)療行業(yè)數(shù)據(jù)的復(fù)雜性和行業(yè)的特殊性,我國對健康醫(yī)療領(lǐng)域相關(guān)數(shù)據(jù)安全和隱私保護(hù)的立法相對比較滯后,分類分級標(biāo)準(zhǔn)還在研制中?!丁敖】抵袊?030”規(guī)劃綱要》關(guān)于推進(jìn)健康醫(yī)療大數(shù)據(jù)應(yīng)用提出:“加強健康醫(yī)療大數(shù)據(jù)相關(guān)法規(guī)和標(biāo)準(zhǔn)體系建設(shè),強化國家、區(qū)域人口健康信息工程技術(shù)能力,制定分級分類分域的數(shù)據(jù)應(yīng)用政策規(guī)范[9]”。美國在立法方面相對完善,對數(shù)據(jù)保護(hù)的相關(guān)法律要求分散在各法律法規(guī)的條款中。例如《健康保險攜帶和責(zé)任法案》中明確規(guī)定了個人隱私數(shù)據(jù)保護(hù)的具體范圍和披露原則[10],《隱私盾協(xié)議》提出用于商業(yè)目的的個人數(shù)據(jù)從境外傳輸?shù)矫绹蟊仨毭鞔_告知數(shù)據(jù)采集、傳輸和使用的流程及目的[11],《聯(lián)邦隱私法案》中對政府機構(gòu)應(yīng)當(dāng)如何收集個人信息及什么內(nèi)容的個人信息能夠收集、儲存、或向公眾開放的權(quán)利等都做出了比較詳細(xì)的規(guī)定[12]。
確定大數(shù)據(jù)環(huán)境下底層數(shù)據(jù)的安全,可以更好地保護(hù)用戶隱私,促進(jìn)醫(yī)學(xué)研究和數(shù)據(jù)共享。對數(shù)據(jù)進(jìn)行分類分級是數(shù)據(jù)保護(hù)的第一步,也是關(guān)鍵的一步。本文在對醫(yī)學(xué)數(shù)據(jù)進(jìn)行分類的基礎(chǔ)上設(shè)計調(diào)查問卷,調(diào)查醫(yī)學(xué)大數(shù)據(jù)中心主要用戶對數(shù)據(jù)類的等級劃分意見,并在此基礎(chǔ)上結(jié)合數(shù)據(jù)分析方法、國內(nèi)外現(xiàn)有法規(guī)等對級別進(jìn)行調(diào)整,確定最終分類分級標(biāo)準(zhǔn)。
2.1.1 分類設(shè)計
結(jié)合衛(wèi)生部電子病歷基本數(shù)據(jù)集與中南大學(xué)醫(yī)學(xué)大數(shù)據(jù)平臺中的數(shù)據(jù)項,采用面分類法和線分類法將所有醫(yī)療數(shù)據(jù)分為11個大類。這11個大類涵蓋了住院病歷記錄、轉(zhuǎn)診記錄、醫(yī)療機構(gòu)信息等數(shù)十張表單的700多個數(shù)據(jù)項。
醫(yī)療衛(wèi)生機構(gòu)在運營過程中獲取、管理和利用的首要信息為患者個人醫(yī)療信息,包括診療過程中收集的人口學(xué)、健康史、手術(shù)、藥物、檢查、診斷及住院信息。除此之外,醫(yī)療資源信息與服務(wù)價格信息等也是人們關(guān)注的重要信息。其中,醫(yī)療資源信息是反映醫(yī)療機構(gòu)的人力、物力資源的信息,把這部分?jǐn)?shù)據(jù)歸類到衛(wèi)生機構(gòu)人員中;服務(wù)價格信息,如門診就診費、檢查檢驗費、醫(yī)藥費等,則歸類到衛(wèi)生費用中[13]。為方便存儲和查閱,醫(yī)院信息系統(tǒng)會為醫(yī)療過程中產(chǎn)生的每張表單賦予單號,為每項檢查賦予編號。在本次研究中,把這類數(shù)據(jù)歸類到醫(yī)療信息標(biāo)識中。
2.1.2 分級設(shè)計
參考《保密法》《信息安全技術(shù)信息安全事件分類分級指南》等分級準(zhǔn)則,將上述數(shù)據(jù)劃分為5個安全級別:0級表示被調(diào)查者認(rèn)為可以公開的數(shù)據(jù);1級為危害個人,表示會對患者和醫(yī)務(wù)人員的工作和生活造成影響;2級為危害機構(gòu),表示對醫(yī)療機構(gòu)的權(quán)益造成損害;3級為危害社會,指對社會秩序和公共利益造成損害;4級為危害國家,指對國家安全造成損害。
2.2.1 調(diào)查對象的選取
醫(yī)學(xué)大數(shù)據(jù)中心的用戶主要來自醫(yī)療衛(wèi)生機構(gòu)、衛(wèi)生行政管理部門、醫(yī)學(xué)科研機構(gòu)等,涉及9個群體,包括行政管理人員、醫(yī)務(wù)人員、信息管理人員、科研人員、醫(yī)學(xué)教育工作者等。在正式調(diào)查前進(jìn)行了小范圍的預(yù)調(diào)研,最終通過問卷星發(fā)放網(wǎng)絡(luò)問卷。
本次調(diào)查共發(fā)放402份問卷,回收問卷326份,其中有效問卷323份。對問卷結(jié)果進(jìn)行信度和效度分析,Cronbach a系數(shù)為0.97,大于0.7;進(jìn)行KMO 和 Bartlett 檢驗,效度系數(shù)為0.949,顯著性sig值為0.000,表明差異是顯著的。因此,問卷整體的信度和效度理想,問卷數(shù)據(jù)可靠有效。
被調(diào)查者的基本信息分析如圖1所示。被調(diào)查人員來自醫(yī)療相關(guān)機構(gòu),其中以醫(yī)療衛(wèi)生機構(gòu)人員最多(占35.28%),其次是醫(yī)學(xué)教育機構(gòu)(占16.87%)。調(diào)查群體中明確填寫所屬人群的人員占70%,其中以醫(yī)務(wù)人員和信息管理人員為主(分別占比19.94%和20.25%),其他人員包括行政管理人員、醫(yī)療保險人員、患者、藥品器械公司人員、醫(yī)學(xué)科研人員、醫(yī)學(xué)教育工作者;明確選擇使用數(shù)據(jù)目的的占70%;使用臨床數(shù)據(jù)進(jìn)行醫(yī)藥衛(wèi)生研究、臨床醫(yī)療和醫(yī)學(xué)教育的人數(shù)最多(占一半以上),其次是使用數(shù)據(jù)進(jìn)行行政管理和保險方面的研究;絕大部分人認(rèn)為保護(hù)醫(yī)學(xué)數(shù)據(jù)很重要,占88.85%。
圖1被調(diào)查者基本信息分析
2.2.2 調(diào)查問卷設(shè)計框架
問卷分為兩大部分,第一部分主要用于收集被調(diào)查人員的基本情況及其對數(shù)據(jù)公開的看法等,問題包括被調(diào)查者所屬群體、使用醫(yī)療數(shù)據(jù)的主要目的、性別、年齡、所屬的機構(gòu)、對醫(yī)學(xué)數(shù)據(jù)保護(hù)的重要性的看法和對醫(yī)療數(shù)據(jù)公開的看法,問題分為多選和單選;第二大部分為數(shù)據(jù)分級部分,包含42個問題,設(shè)5個安全級別(表1),相關(guān)群體根據(jù)背景知識結(jié)合自身理解對所設(shè)問題的安全級別進(jìn)行選擇,在分級設(shè)計的0-4級中選擇一級,其中家族史及之后的數(shù)據(jù)中不包含能夠識別患者信息的數(shù)據(jù)(即為脫敏后的數(shù)據(jù))。
表1 醫(yī)療數(shù)據(jù)分類分級
對各選項的選擇人數(shù)進(jìn)行統(tǒng)計。從表1可以看出,超過半數(shù)的人認(rèn)為以下信息可以公開:性別、民族、籍貫、血型、患者類型、衛(wèi)生機構(gòu)信息、患者的醫(yī)療保險類型和付費方式、收費項目名稱和總金額、過敏史、手術(shù)名稱、其他手術(shù)信息、藥物信息和使用方法、藥物過敏信息、體格檢查項目信息、出院情況、醫(yī)囑信息、護(hù)理記錄、日期時間。它們中包括間接描述患者人口學(xué)的信息、費用信息和住院過程中產(chǎn)生的診斷信息,這些數(shù)據(jù)單獨識別個人的風(fēng)險很小,大部分人傾向于公開此類信息。
半數(shù)以上人認(rèn)為公開后可能危害個人的信息類別有:身份證號、姓名、出生日期、聯(lián)系電話、家庭地址、家庭成員、患者聯(lián)系人信息、醫(yī)療信息標(biāo)識、家族史、疾病史。這部分信息以人口學(xué)信息為主,單個數(shù)據(jù)項直接識別患者個人的風(fēng)險很大。
被調(diào)查者的選擇主要集中在0級可以公開和1級危害個人。隨著級別的增加,選擇人數(shù)呈減少的趨勢。
產(chǎn)生這種現(xiàn)象的原因有兩點:一是更多人可能只關(guān)注到個人隱私的層面,對于機構(gòu)、社會信息安全的關(guān)注度較低;二是問卷中提到關(guān)于診斷、檢查等信息是脫敏的,對于此類不包含個人信息的數(shù)據(jù)大部分人選擇公開。
統(tǒng)計每題中各選項的人數(shù),使用k-means方法對數(shù)據(jù)進(jìn)行分類。實驗發(fā)現(xiàn),k取4和5時對人口學(xué)大類中的數(shù)據(jù)劃分過于細(xì)致,不利于級別的劃分,各類中的案例數(shù)差異較大,數(shù)據(jù)不平衡;k取3時聚類效果最好。所以把級別從之前的5級更改為3級,即0級表示可以公開的數(shù)據(jù);1級表示數(shù)據(jù)關(guān)系個人信息安全,數(shù)據(jù)泄露會對患者或醫(yī)務(wù)人員的工作和生活造成影響;2級表示數(shù)據(jù)涉及機構(gòu)信息安全,數(shù)據(jù)泄露會對機構(gòu)的權(quán)益造成損害,可能影響社會秩序。
對數(shù)據(jù)結(jié)果進(jìn)行整理,劃分為1級的有身份證號、姓名、聯(lián)系電話、家庭地址、家庭成員、患者聯(lián)系人信息,劃分為2級的有出生日期、工作單位、婚姻狀況、醫(yī)療信息標(biāo)識、醫(yī)療衛(wèi)生人員信息、簽名信息、家族史、疾病史、傳染病史、助產(chǎn)記錄。
在對問卷結(jié)果進(jìn)行分析的基礎(chǔ)上,參照相關(guān)法規(guī)、標(biāo)準(zhǔn),對得到的初步分類分級結(jié)果進(jìn)行調(diào)整。國家標(biāo)準(zhǔn)GB/T 35273-2017《信息安全技術(shù)個人信息安全規(guī)范》明確將生育信息、以往病史、過敏信息、傳染病史等個人的健康信息納入個人敏感信息,民族、出生日期、家庭關(guān)系等納入個人信息[14]。
國標(biāo)GB/Z28828-2012《信息安全技術(shù)公共及商用服務(wù)信息系統(tǒng)個人信息保護(hù)指南》對個人敏感信息的定義為“一旦遭到泄露或修改,會對標(biāo)識的個人信息主體造成不良影響的個人信息”。個人敏感信息包括身份證號碼、手機號碼、種族、政治觀點、宗教信仰、基因、指紋等[15]。
參照上述標(biāo)準(zhǔn),本次研究將民族的安全等級由0調(diào)整為1,出生日期、婚姻狀況、健康史(家族史、疾病史、傳染病史、過敏史)、助產(chǎn)記錄信息的安全等級由2調(diào)整為1。調(diào)整部分見表2。
表2 數(shù)據(jù)分類分級結(jié)果調(diào)整
根據(jù)表2可以看出,調(diào)整后人口學(xué)、衛(wèi)生機構(gòu)人員、健康史、手術(shù)4個大類中包含的二級類數(shù)據(jù)安全級別不同,如人口學(xué)大類中包含15個二級類,15個二級類又劃分了3種不同的級別。
對于同一大類中二級類分級不同的情況,其保密等級以不低于最高保密等級的原則進(jìn)行調(diào)整。
得出的最終分類分級結(jié)果為:人口學(xué)、標(biāo)識、衛(wèi)生機構(gòu)人員、日期時間及簽名類為2級,健康史、手術(shù)信息為1級,衛(wèi)生費用、藥物、檢查、診斷及住院信息類為0級(表3)。
表3 最終建議的數(shù)據(jù)分類分級結(jié)果
本文通過對相關(guān)專業(yè)人員的問卷調(diào)查,得到初步分類分級結(jié)果,并結(jié)合已出臺的標(biāo)準(zhǔn)及各種規(guī)章制度中對個人隱私信息的界定對結(jié)果進(jìn)行了修改,經(jīng)過綜合分析得出每一個分類的安全等級。在實際應(yīng)用中,用戶所需的數(shù)據(jù)項組成復(fù)雜,不同數(shù)據(jù)項的安全等級不同,因此需要設(shè)計一種規(guī)則模型,在應(yīng)用的過程中按照設(shè)計好的模型對數(shù)據(jù)集進(jìn)行分級。如由多個數(shù)據(jù)項組成的數(shù)據(jù)集,其等級為組成它的所有數(shù)據(jù)項的最高等級;由多條數(shù)據(jù)項組成的數(shù)據(jù)集,通過統(tǒng)計、分析這些記錄可以獲得某項指標(biāo),則該數(shù)據(jù)集的等級等于該指標(biāo)的等級等。
利用上述規(guī)則模型,可以在使用過程中對數(shù)據(jù)集進(jìn)行級別劃分,進(jìn)而將其應(yīng)用于訪問控制或者跨庫聯(lián)合識別中,防止有人故意申請使用一些低等級的數(shù)據(jù),通過聯(lián)合大量的有關(guān)聯(lián)關(guān)系的低等級數(shù)據(jù),用數(shù)據(jù)挖掘或者其他方法得到等級較高的數(shù)據(jù),從而造成重要信息或隱私信息的泄露。
對醫(yī)療數(shù)據(jù)的分類分級不是一成不變的,隨著科技進(jìn)步和大數(shù)據(jù)技術(shù)的發(fā)展,將會有更多的數(shù)據(jù)項加入進(jìn)來,也會有更細(xì)致的分級策略。希望本文的初步探索可以對同行有所啟發(fā)。