吳蔚
[摘要] 醫(yī)院文史、宣傳等電子檔案資料十分龐大,且數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)類型繁多。因此,需要“新的處理模式”對(duì)這些大數(shù)據(jù)進(jìn)行高效的采集、存儲(chǔ)和分析等處理。在此背景下,設(shè)計(jì)一種多結(jié)構(gòu)化的多模態(tài)海量數(shù)據(jù)的科學(xué)采集方法;基于Hadoop云存儲(chǔ)架構(gòu),構(gòu)建一種安全的醫(yī)院電子檔案資料的云存儲(chǔ)系統(tǒng)架構(gòu);針對(duì)重要敏感數(shù)據(jù),深入闡述數(shù)據(jù)脫敏方法;最后,創(chuàng)建面向醫(yī)院業(yè)務(wù)管理的電子檔案資料的云計(jì)算及應(yīng)用技術(shù)模型。文中提出的大數(shù)據(jù)處理綜合技術(shù)方法,有利于推動(dòng)大數(shù)據(jù)安全共享,可為醫(yī)院電子檔案管理決策管理提供參考。
[關(guān)鍵詞] 醫(yī)院電子檔案資料;多模態(tài);云計(jì)算;數(shù)據(jù)脫敏
[中圖分類號(hào)] G276 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1672-5654(2018)12(c)-0057-03
為了更好地表示醫(yī)院業(yè)務(wù)數(shù)據(jù)的復(fù)雜結(jié)構(gòu)特點(diǎn)以及語(yǔ)義信息,一些基于XML的半結(jié)構(gòu)化數(shù)據(jù)庫(kù)開始被應(yīng)用于數(shù)據(jù)管理[1]。這些研究在一定程度上保留了原始數(shù)據(jù)的結(jié)構(gòu),然而許多非結(jié)構(gòu)化數(shù)據(jù)背后的復(fù)雜關(guān)系仍然沒有被完整地記錄下來(lái),因而無(wú)法支持一些復(fù)雜的醫(yī)院電子檔案業(yè)務(wù)應(yīng)用。早期的數(shù)據(jù)管理系統(tǒng)采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),因此可以支持簡(jiǎn)單的數(shù)據(jù)查詢[2],例如醫(yī)務(wù)人員可以通過(guò)系統(tǒng)快速查詢患者檔案、醫(yī)院日常管理業(yè)務(wù)的歷史數(shù)據(jù),可減少人工查找資料的時(shí)間。然而,這些方案只是把不同數(shù)據(jù)類型分開存儲(chǔ),醫(yī)務(wù)人員只能通過(guò)簡(jiǎn)單信息查詢與分析數(shù)據(jù)之間的關(guān)系,并以此做出決策和判斷,其操作效率低下。
隨著多模態(tài)數(shù)據(jù)的產(chǎn)生,催生了新一代面向多模態(tài)媒體數(shù)據(jù)的統(tǒng)一索引與跨域檢索技術(shù)[3]。這些解決方案利用多模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)性建立不同數(shù)據(jù)形式之間的映射關(guān)系,從而根據(jù)語(yǔ)義注解來(lái)實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一索引與查詢處理。然而,這些方法往往只適用于數(shù)據(jù)關(guān)聯(lián)性較高的社交媒體數(shù)據(jù)等,無(wú)法直接應(yīng)用于語(yǔ)義關(guān)系較為模糊的醫(yī)院業(yè)務(wù)管理數(shù)據(jù)[4]。還有一些方法把不同的多模態(tài)數(shù)據(jù)用不同的數(shù)據(jù)類型來(lái)表示,比如字符串、樹、高維數(shù)據(jù)、動(dòng)態(tài)序列等,并設(shè)計(jì)統(tǒng)一的倒排索引結(jié)構(gòu)把不同數(shù)據(jù)類型的數(shù)據(jù)一起存儲(chǔ),以支持上層的各種查詢處理[5]。此外,隨著醫(yī)院電子檔案管理業(yè)務(wù)數(shù)據(jù)的爆炸性增長(zhǎng),傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)已經(jīng)無(wú)法滿足高增長(zhǎng)的應(yīng)用需求。一些醫(yī)療云服務(wù)商提出將傳統(tǒng)的電子資料轉(zhuǎn)移到云端進(jìn)行管理,從而實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程共享與查詢處理[6]。這些醫(yī)療云平臺(tái)解決了海量數(shù)據(jù)的存儲(chǔ)要求,并且可以實(shí)現(xiàn)簡(jiǎn)單的數(shù)據(jù)查詢與分析功能,然而,在處理高級(jí)別的數(shù)據(jù)分析要求時(shí)仍然面臨諸多問題。
綜上所述,針對(duì)醫(yī)院電子檔案管理資料,要求實(shí)現(xiàn)對(duì)海量多模態(tài)數(shù)據(jù)有效管理,需要設(shè)計(jì)一個(gè)可以支持多模態(tài)數(shù)據(jù)的采集、存儲(chǔ)與管理方案,并結(jié)合云計(jì)算技術(shù),滿足基于分布式的高效索引、查詢與分析需求。
1 ?醫(yī)院電子檔案資料采集、存儲(chǔ)技術(shù)方案
構(gòu)建智能數(shù)據(jù)采集接口,快速、準(zhǔn)確地智能化采集分布于多點(diǎn)的多模態(tài)異構(gòu)業(yè)務(wù)管理大數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)采集的統(tǒng)一規(guī)范和標(biāo)準(zhǔn);采用云模式有效存儲(chǔ)采集的大數(shù)據(jù),使用Hadoop的HDFS分布式文件系統(tǒng)和Map/Reduce實(shí)行數(shù)據(jù)的存儲(chǔ)與訪問控制,保障數(shù)據(jù)安全;對(duì)云存儲(chǔ)的大數(shù)據(jù)進(jìn)行脫敏處理,對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù),為在開發(fā)、測(cè)試和其他非生產(chǎn)環(huán)境以及外包環(huán)境中可以安全地使用脫敏后的數(shù)據(jù)集;對(duì)數(shù)據(jù)做進(jìn)一步的分析、切片等,深度融合數(shù)據(jù)及對(duì)其建立統(tǒng)一模型,最終構(gòu)建出數(shù)據(jù)干凈、結(jié)構(gòu)完整、耦合性好的醫(yī)院電子檔案管理資料大數(shù)據(jù)集,為數(shù)據(jù)分析提供高質(zhì)量數(shù)據(jù)源。大數(shù)據(jù)采集、存儲(chǔ)及管理的總體技術(shù)框架如下圖1所示。
1.1 ?數(shù)據(jù)采集方案
在數(shù)據(jù)采集當(dāng)中,常常要采集數(shù)量龐大,類型眾多的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。這需要借助于高速數(shù)據(jù)解析、轉(zhuǎn)換(Transform)與轉(zhuǎn)載(Load)的大數(shù)據(jù)整合技術(shù),以及實(shí)現(xiàn)數(shù)據(jù)一致性與安全性保證的大數(shù)據(jù)安全技術(shù)。大數(shù)據(jù)的收集首先基于Sqoop開發(fā)ETL模塊,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)從MySQL等關(guān)系型數(shù)據(jù)庫(kù)到Hadoop平臺(tái)的遷移,其次基于Hadoop Common開發(fā)半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的傳輸功能。在對(duì)數(shù)據(jù)源進(jìn)行采集時(shí),選用的數(shù)據(jù)庫(kù)有所區(qū)別。在數(shù)據(jù)采集方案設(shè)計(jì)時(shí),應(yīng)分別對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行考慮,基于Sqoop的結(jié)構(gòu)化數(shù)據(jù)的采集方案比較簡(jiǎn)單,可采用常見的基于Sqoop結(jié)構(gòu)化數(shù)據(jù)的采集方案即可。在采集半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)時(shí),適合用面向列存儲(chǔ)的HBase數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ)。HBase能方便地利用MapRedece框架進(jìn)行數(shù)據(jù)分析,有較好的讀寫性能。在該方案中,針對(duì)醫(yī)院檔案資料的半結(jié)構(gòu)和非結(jié)構(gòu)特點(diǎn),可采用的數(shù)據(jù)采集方案如圖2所示。
1.2 ?大數(shù)據(jù)的存儲(chǔ)方案
醫(yī)院電子檔案資料大數(shù)據(jù)龐大的規(guī)模對(duì)計(jì)算平臺(tái)的存儲(chǔ)容量、性能提出了更高的要求。而且本地的單一存儲(chǔ)有很大的變動(dòng)性,一次硬件故障就可能使所有數(shù)據(jù)丟失,給用戶帶來(lái)巨大損失。因此,大數(shù)據(jù)的存儲(chǔ)很有必要引入云存儲(chǔ)技術(shù),即框架圖中的計(jì)算和存儲(chǔ)集群。由于Hadoop云存儲(chǔ)平臺(tái)的諸多優(yōu)點(diǎn),因此,選擇Hadoop存儲(chǔ)集群作為數(shù)據(jù)存儲(chǔ)中心,并在HDFS中,基于Hive實(shí)現(xiàn)多類型大數(shù)據(jù)的邏輯管理和高速訪問。但是由于云存儲(chǔ)本身的特點(diǎn)是存儲(chǔ)即服務(wù),為了不使大數(shù)據(jù)泄露,需要通過(guò)一定的安全策略和技術(shù)從技術(shù)層面去解決??砂言摬糠值膬?nèi)容設(shè)計(jì)為3個(gè)模塊:①安全客戶端模塊;②安全可靠傳輸模塊;③服務(wù)器端模塊。服務(wù)器端是提供云存儲(chǔ)服務(wù)的 Hadoop 集群,它由元數(shù)據(jù)服務(wù)器、數(shù)據(jù)節(jié)點(diǎn)服務(wù)器以及備份服務(wù)器三者構(gòu)成。此種存儲(chǔ)方案可較好地解決醫(yī)院多模電子檔案數(shù)據(jù)的大容量存儲(chǔ)。
2 ?醫(yī)院電子檔案資料的管理應(yīng)用技術(shù)方案
2.1 ?大數(shù)據(jù)管理技術(shù)方案
根據(jù)醫(yī)院電子檔案資料數(shù)據(jù)的計(jì)算要求,采用基于大數(shù)據(jù)處理平臺(tái)Hadoop,該平臺(tái)包含分布式文件系統(tǒng)(HDFS)和MapReduce兩大核心內(nèi)容,HDFS是大數(shù)據(jù)的分布式存儲(chǔ)的底層支持,其采用主從式的結(jié)構(gòu)模型,由一個(gè)大數(shù)據(jù)系統(tǒng)云服務(wù)器和若干個(gè)數(shù)據(jù)所組成,其中大數(shù)據(jù)系統(tǒng)云服務(wù)器管理文件系統(tǒng)的命名空間和用戶端對(duì)文件的訪問操作,統(tǒng)一調(diào)度數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作;數(shù)據(jù)節(jié)點(diǎn)管理存儲(chǔ)的數(shù)據(jù),大數(shù)據(jù)被分成若干個(gè)數(shù)據(jù)塊,并被放置于一組數(shù)據(jù)節(jié)點(diǎn)中。
圖3所示的云管理模型框架可被用于管理醫(yī)院業(yè)務(wù)管理過(guò)程積累的海量數(shù)據(jù)。下面對(duì)數(shù)據(jù)管理技術(shù)實(shí)現(xiàn)方案進(jìn)行闡述:(1)數(shù)據(jù)索引:設(shè)計(jì)圖像及其他數(shù)據(jù)的URL,將其存儲(chǔ)信息設(shè)定在URL中,通過(guò)解析URL快速定位存儲(chǔ)的數(shù)據(jù)塊的數(shù)據(jù)節(jié)點(diǎn)和區(qū)域,以保證海量數(shù)據(jù)擴(kuò)容和快速檢索。
(2)優(yōu)化策略:采用MapReduce進(jìn)行數(shù)據(jù)業(yè)務(wù)處理的編程實(shí)現(xiàn),針對(duì)大數(shù)據(jù)的批量處理和存儲(chǔ)優(yōu)化制定相應(yīng)策略。
(3)讀取服務(wù):采用Nginx的Web服務(wù)器對(duì)數(shù)據(jù)進(jìn)行讀取,運(yùn)用Nginx的Redis模型對(duì)緩存中的微型數(shù)據(jù)進(jìn)行讀取。
(4)負(fù)載均衡:采用HAProxy的RoundRobin負(fù)載均衡算法構(gòu)建負(fù)載均衡,分載前端用請(qǐng)求的壓力。
(5)云計(jì)算管理模式:從HDFS分布式存儲(chǔ)系統(tǒng)中獲取數(shù)據(jù),將其劃分成等長(zhǎng)的作業(yè)分片,每個(gè)Map任務(wù)處理一個(gè)作業(yè)分片,該任務(wù)可被并行執(zhí)行,經(jīng)一系列的映射、復(fù)制、排序或融合、機(jī)器學(xué)習(xí)等操作后,Map輸出結(jié)果作為Reduce輸入,最后輸出經(jīng)化簡(jiǎn)階段的算法處理結(jié)果。
(6)數(shù)據(jù)安全管理方案:由于大量數(shù)據(jù)集中在云端存儲(chǔ),如果缺乏安全保障,醫(yī)院電子檔案資料一旦被外泄,會(huì)降低用戶對(duì)大數(shù)據(jù)技術(shù)的信任度和認(rèn)同感。為解決云環(huán)境下的敏感大數(shù)據(jù)安全問題,可從敏感數(shù)據(jù)使用前的識(shí)別與管理、使用中的保護(hù)和使用后的審計(jì)溯源方面著手建設(shè),具體為:①通過(guò)數(shù)據(jù)特征學(xué)習(xí)和自然語(yǔ)言學(xué)習(xí)等技術(shù)來(lái)進(jìn)行敏感數(shù)據(jù)識(shí)別。同時(shí),對(duì)敏感的靜態(tài)數(shù)據(jù)進(jìn)行規(guī)范存儲(chǔ)和管理,防止靜態(tài)數(shù)據(jù)的濫用。②在存放數(shù)據(jù)時(shí),應(yīng)進(jìn)行分布式數(shù)據(jù)管理操作,在存放其他臨時(shí)性要求不太高的數(shù)據(jù)時(shí),應(yīng)進(jìn)行SDM操作。同時(shí),實(shí)施敏感數(shù)據(jù)泄露預(yù)警、封堵等操作。③一旦發(fā)生敏感數(shù)據(jù)泄露事件,及時(shí)找到泄露的源頭,從而進(jìn)行查缺補(bǔ)漏。
2.2 ?大數(shù)據(jù)應(yīng)用技術(shù)方案
結(jié)合多模態(tài)數(shù)據(jù)模型,甄選機(jī)器學(xué)習(xí)算法,深度挖掘出電子檔案資料內(nèi)部深藏的知識(shí)。具體的數(shù)據(jù)挖掘模型構(gòu)建流程為:首先對(duì)多模態(tài)數(shù)據(jù)進(jìn)行深度的數(shù)據(jù)預(yù)處理,并對(duì)數(shù)據(jù)做類型定義、過(guò)濾、缺失數(shù)據(jù)的填補(bǔ)等操作;接著運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘、分類處理等,通過(guò)模型訓(xùn)練、模型測(cè)試等一系處理,建立可靠的挖掘模型。最后,運(yùn)用挖掘模型進(jìn)行規(guī)則挖掘,為醫(yī)院管理者提供可信的決策依據(jù)。大數(shù)據(jù)應(yīng)用技術(shù)方案直觀描述如圖4所示。
3 ?結(jié)論
該文針對(duì)醫(yī)院電子檔案管理大數(shù)據(jù)的實(shí)際需求,從大數(shù)據(jù)采集、存儲(chǔ)技術(shù)及應(yīng)用等方面提出了一套具體的技術(shù)解決方案,能夠較好地解決醫(yī)院電子檔案管理資料的采集困難、數(shù)據(jù)存儲(chǔ)異常、數(shù)據(jù)讀取不便利、異構(gòu)多源且多模態(tài)數(shù)據(jù)難以統(tǒng)一表示等問題。該文提出的技術(shù)方案,對(duì)于醫(yī)院、學(xué)校等諸多領(lǐng)域的大數(shù)據(jù)管理策略亦有一定的借鑒意義。
[參考文獻(xiàn)]
[1] ?鄭琳,劉克新,趙永蘭.大數(shù)據(jù)時(shí)代的病案信息全文檢索[J].中國(guó)病案,2016,17(5):105-110.
[2] ?楊德先,孫華,于炯,等.一種基于MBRC值的關(guān)系型數(shù)據(jù)庫(kù)負(fù)載能耗預(yù)測(cè)模型[J].計(jì)算機(jī)科學(xué),2017,19(2):159-160.
[3] ?文孟飛,劉偉榮,胡超.網(wǎng)絡(luò)媒體大數(shù)據(jù)流異構(gòu)多模態(tài)目標(biāo)識(shí)別策略[J].計(jì)算機(jī)研究與發(fā)展,2017,26(1):201-203.
[4] ?蔡正杰,劉云,景慎旗,等.醫(yī)院數(shù)據(jù)集成平臺(tái)與業(yè)務(wù)系統(tǒng)對(duì)接的標(biāo)準(zhǔn)流程探討建[J].中國(guó)數(shù)字醫(yī)學(xué),2018,13(3):46-49.
[5] ?錢宇華,成紅紅,梁新彥,等.大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述[J].數(shù)據(jù)采集與處理,2015,35(4):57-61.
[6] ?徐曼,沈江,余海燕.數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療與健康決策支持研究綜述[J].工業(yè)工程與管理,2017,16(1):32-40.
(收稿日期:2018-09-30)
中國(guó)衛(wèi)生產(chǎn)業(yè)2018年36期