基于大數(shù)據(jù)的醫(yī)院電子檔案資料管理方法

2018-06-11 11:55吳蔚

中國(guó)衛(wèi)生產(chǎn)業(yè) 2018年36期

吳蔚

[摘要] 醫(yī)院文史、宣傳等電子檔案資料十分龐大，且數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)類型繁多。因此，需要“新的處理模式”對(duì)這些大數(shù)據(jù)進(jìn)行高效的采集、存儲(chǔ)和分析等處理。在此背景下，設(shè)計(jì)一種多結(jié)構(gòu)化的多模態(tài)海量數(shù)據(jù)的科學(xué)采集方法;基于Hadoop云存儲(chǔ)架構(gòu)，構(gòu)建一種安全的醫(yī)院電子檔案資料的云存儲(chǔ)系統(tǒng)架構(gòu);針對(duì)重要敏感數(shù)據(jù)，深入闡述數(shù)據(jù)脫敏方法;最后，創(chuàng)建面向醫(yī)院業(yè)務(wù)管理的電子檔案資料的云計(jì)算及應(yīng)用技術(shù)模型。文中提出的大數(shù)據(jù)處理綜合技術(shù)方法，有利于推動(dòng)大數(shù)據(jù)安全共享，可為醫(yī)院電子檔案管理決策管理提供參考。

[關(guān)鍵詞] 醫(yī)院電子檔案資料;多模態(tài);云計(jì)算;數(shù)據(jù)脫敏

[中圖分類號(hào)] G276 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1672-5654（2018）12（c）-0057-03

為了更好地表示醫(yī)院業(yè)務(wù)數(shù)據(jù)的復(fù)雜結(jié)構(gòu)特點(diǎn)以及語(yǔ)義信息，一些基于XML的半結(jié)構(gòu)化數(shù)據(jù)庫(kù)開始被應(yīng)用于數(shù)據(jù)管理[1]。這些研究在一定程度上保留了原始數(shù)據(jù)的結(jié)構(gòu)，然而許多非結(jié)構(gòu)化數(shù)據(jù)背后的復(fù)雜關(guān)系仍然沒有被完整地記錄下來(lái)，因而無(wú)法支持一些復(fù)雜的醫(yī)院電子檔案業(yè)務(wù)應(yīng)用。早期的數(shù)據(jù)管理系統(tǒng)采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)，因此可以支持簡(jiǎn)單的數(shù)據(jù)查詢[2]，例如醫(yī)務(wù)人員可以通過(guò)系統(tǒng)快速查詢患者檔案、醫(yī)院日常管理業(yè)務(wù)的歷史數(shù)據(jù)，可減少人工查找資料的時(shí)間。然而，這些方案只是把不同數(shù)據(jù)類型分開存儲(chǔ)，醫(yī)務(wù)人員只能通過(guò)簡(jiǎn)單信息查詢與分析數(shù)據(jù)之間的關(guān)系，并以此做出決策和判斷，其操作效率低下。

隨著多模態(tài)數(shù)據(jù)的產(chǎn)生，催生了新一代面向多模態(tài)媒體數(shù)據(jù)的統(tǒng)一索引與跨域檢索技術(shù)[3]。這些解決方案利用多模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)性建立不同數(shù)據(jù)形式之間的映射關(guān)系，從而根據(jù)語(yǔ)義注解來(lái)實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一索引與查詢處理。然而，這些方法往往只適用于數(shù)據(jù)關(guān)聯(lián)性較高的社交媒體數(shù)據(jù)等，無(wú)法直接應(yīng)用于語(yǔ)義關(guān)系較為模糊的醫(yī)院業(yè)務(wù)管理數(shù)據(jù)[4]。還有一些方法把不同的多模態(tài)數(shù)據(jù)用不同的數(shù)據(jù)類型來(lái)表示，比如字符串、樹、高維數(shù)據(jù)、動(dòng)態(tài)序列等，并設(shè)計(jì)統(tǒng)一的倒排索引結(jié)構(gòu)把不同數(shù)據(jù)類型的數(shù)據(jù)一起存儲(chǔ)，以支持上層的各種查詢處理[5]。此外，隨著醫(yī)院電子檔案管理業(yè)務(wù)數(shù)據(jù)的爆炸性增長(zhǎng)，傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)已經(jīng)無(wú)法滿足高增長(zhǎng)的應(yīng)用需求。一些醫(yī)療云服務(wù)商提出將傳統(tǒng)的電子資料轉(zhuǎn)移到云端進(jìn)行管理，從而實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程共享與查詢處理[6]。這些醫(yī)療云平臺(tái)解決了海量數(shù)據(jù)的存儲(chǔ)要求，并且可以實(shí)現(xiàn)簡(jiǎn)單的數(shù)據(jù)查詢與分析功能，然而，在處理高級(jí)別的數(shù)據(jù)分析要求時(shí)仍然面臨諸多問題。

綜上所述，針對(duì)醫(yī)院電子檔案管理資料，要求實(shí)現(xiàn)對(duì)海量多模態(tài)數(shù)據(jù)有效管理，需要設(shè)計(jì)一個(gè)可以支持多模態(tài)數(shù)據(jù)的采集、存儲(chǔ)與管理方案，并結(jié)合云計(jì)算技術(shù)，滿足基于分布式的高效索引、查詢與分析需求。

1 ?醫(yī)院電子檔案資料采集、存儲(chǔ)技術(shù)方案

構(gòu)建智能數(shù)據(jù)采集接口，快速、準(zhǔn)確地智能化采集分布于多點(diǎn)的多模態(tài)異構(gòu)業(yè)務(wù)管理大數(shù)據(jù)，實(shí)現(xiàn)數(shù)據(jù)采集的統(tǒng)一規(guī)范和標(biāo)準(zhǔn);采用云模式有效存儲(chǔ)采集的大數(shù)據(jù)，使用Hadoop的HDFS分布式文件系統(tǒng)和Map/Reduce實(shí)行數(shù)據(jù)的存儲(chǔ)與訪問控制，保障數(shù)據(jù)安全;對(duì)云存儲(chǔ)的大數(shù)據(jù)進(jìn)行脫敏處理，對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形，實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)，為在開發(fā)、測(cè)試和其他非生產(chǎn)環(huán)境以及外包環(huán)境中可以安全地使用脫敏后的數(shù)據(jù)集;對(duì)數(shù)據(jù)做進(jìn)一步的分析、切片等，深度融合數(shù)據(jù)及對(duì)其建立統(tǒng)一模型，最終構(gòu)建出數(shù)據(jù)干凈、結(jié)構(gòu)完整、耦合性好的醫(yī)院電子檔案管理資料大數(shù)據(jù)集，為數(shù)據(jù)分析提供高質(zhì)量數(shù)據(jù)源。大數(shù)據(jù)采集、存儲(chǔ)及管理的總體技術(shù)框架如下圖1所示。

1.1 ?數(shù)據(jù)采集方案

在數(shù)據(jù)采集當(dāng)中，常常要采集數(shù)量龐大，類型眾多的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。這需要借助于高速數(shù)據(jù)解析、轉(zhuǎn)換（Transform）與轉(zhuǎn)載（Load）的大數(shù)據(jù)整合技術(shù)，以及實(shí)現(xiàn)數(shù)據(jù)一致性與安全性保證的大數(shù)據(jù)安全技術(shù)。大數(shù)據(jù)的收集首先基于Sqoop開發(fā)ETL模塊，實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)從MySQL等關(guān)系型數(shù)據(jù)庫(kù)到Hadoop平臺(tái)的遷移，其次基于Hadoop Common開發(fā)半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的傳輸功能。在對(duì)數(shù)據(jù)源進(jìn)行采集時(shí)，選用的數(shù)據(jù)庫(kù)有所區(qū)別。在數(shù)據(jù)采集方案設(shè)計(jì)時(shí)，應(yīng)分別對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行考慮，基于Sqoop的結(jié)構(gòu)化數(shù)據(jù)的采集方案比較簡(jiǎn)單，可采用常見的基于Sqoop結(jié)構(gòu)化數(shù)據(jù)的采集方案即可。在采集半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)時(shí)，適合用面向列存儲(chǔ)的HBase數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ)。HBase能方便地利用MapRedece框架進(jìn)行數(shù)據(jù)分析，有較好的讀寫性能。在該方案中，針對(duì)醫(yī)院檔案資料的半結(jié)構(gòu)和非結(jié)構(gòu)特點(diǎn)，可采用的數(shù)據(jù)采集方案如圖2所示。

1.2 ?大數(shù)據(jù)的存儲(chǔ)方案

醫(yī)院電子檔案資料大數(shù)據(jù)龐大的規(guī)模對(duì)計(jì)算平臺(tái)的存儲(chǔ)容量、性能提出了更高的要求。而且本地的單一存儲(chǔ)有很大的變動(dòng)性，一次硬件故障就可能使所有數(shù)據(jù)丟失，給用戶帶來(lái)巨大損失。因此，大數(shù)據(jù)的存儲(chǔ)很有必要引入云存儲(chǔ)技術(shù)，即框架圖中的計(jì)算和存儲(chǔ)集群。由于Hadoop云存儲(chǔ)平臺(tái)的諸多優(yōu)點(diǎn)，因此，選擇Hadoop存儲(chǔ)集群作為數(shù)據(jù)存儲(chǔ)中心，并在HDFS中，基于Hive實(shí)現(xiàn)多類型大數(shù)據(jù)的邏輯管理和高速訪問。但是由于云存儲(chǔ)本身的特點(diǎn)是存儲(chǔ)即服務(wù)，為了不使大數(shù)據(jù)泄露，需要通過(guò)一定的安全策略和技術(shù)從技術(shù)層面去解決?？砂言摬糠值膬?nèi)容設(shè)計(jì)為3個(gè)模塊：①安全客戶端模塊;②安全可靠傳輸模塊;③服務(wù)器端模塊。服務(wù)器端是提供云存儲(chǔ)服務(wù)的 Hadoop 集群，它由元數(shù)據(jù)服務(wù)器、數(shù)據(jù)節(jié)點(diǎn)服務(wù)器以及備份服務(wù)器三者構(gòu)成。此種存儲(chǔ)方案可較好地解決醫(yī)院多模電子檔案數(shù)據(jù)的大容量存儲(chǔ)。

2 ?醫(yī)院電子檔案資料的管理應(yīng)用技術(shù)方案

2.1 ?大數(shù)據(jù)管理技術(shù)方案

根據(jù)醫(yī)院電子檔案資料數(shù)據(jù)的計(jì)算要求，采用基于大數(shù)據(jù)處理平臺(tái)Hadoop，該平臺(tái)包含分布式文件系統(tǒng)（HDFS）和MapReduce兩大核心內(nèi)容，HDFS是大數(shù)據(jù)的分布式存儲(chǔ)的底層支持，其采用主從式的結(jié)構(gòu)模型，由一個(gè)大數(shù)據(jù)系統(tǒng)云服務(wù)器和若干個(gè)數(shù)據(jù)所組成，其中大數(shù)據(jù)系統(tǒng)云服務(wù)器管理文件系統(tǒng)的命名空間和用戶端對(duì)文件的訪問操作，統(tǒng)一調(diào)度數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作;數(shù)據(jù)節(jié)點(diǎn)管理存儲(chǔ)的數(shù)據(jù)，大數(shù)據(jù)被分成若干個(gè)數(shù)據(jù)塊，并被放置于一組數(shù)據(jù)節(jié)點(diǎn)中。

圖3所示的云管理模型框架可被用于管理醫(yī)院業(yè)務(wù)管理過(guò)程積累的海量數(shù)據(jù)。下面對(duì)數(shù)據(jù)管理技術(shù)實(shí)現(xiàn)方案進(jìn)行闡述：（1）數(shù)據(jù)索引：設(shè)計(jì)圖像及其他數(shù)據(jù)的URL，將其存儲(chǔ)信息設(shè)定在URL中，通過(guò)解析URL快速定位存儲(chǔ)的數(shù)據(jù)塊的數(shù)據(jù)節(jié)點(diǎn)和區(qū)域，以保證海量數(shù)據(jù)擴(kuò)容和快速檢索。

（2）優(yōu)化策略：采用MapReduce進(jìn)行數(shù)據(jù)業(yè)務(wù)處理的編程實(shí)現(xiàn)，針對(duì)大數(shù)據(jù)的批量處理和存儲(chǔ)優(yōu)化制定相應(yīng)策略。

（3）讀取服務(wù)：采用Nginx的Web服務(wù)器對(duì)數(shù)據(jù)進(jìn)行讀取，運(yùn)用Nginx的Redis模型對(duì)緩存中的微型數(shù)據(jù)進(jìn)行讀取。

（4）負(fù)載均衡：采用HAProxy的RoundRobin負(fù)載均衡算法構(gòu)建負(fù)載均衡，分載前端用請(qǐng)求的壓力。

（5）云計(jì)算管理模式：從HDFS分布式存儲(chǔ)系統(tǒng)中獲取數(shù)據(jù)，將其劃分成等長(zhǎng)的作業(yè)分片，每個(gè)Map任務(wù)處理一個(gè)作業(yè)分片，該任務(wù)可被并行執(zhí)行，經(jīng)一系列的映射、復(fù)制、排序或融合、機(jī)器學(xué)習(xí)等操作后，Map輸出結(jié)果作為Reduce輸入，最后輸出經(jīng)化簡(jiǎn)階段的算法處理結(jié)果。

（6）數(shù)據(jù)安全管理方案：由于大量數(shù)據(jù)集中在云端存儲(chǔ)，如果缺乏安全保障，醫(yī)院電子檔案資料一旦被外泄，會(huì)降低用戶對(duì)大數(shù)據(jù)技術(shù)的信任度和認(rèn)同感。為解決云環(huán)境下的敏感大數(shù)據(jù)安全問題，可從敏感數(shù)據(jù)使用前的識(shí)別與管理、使用中的保護(hù)和使用后的審計(jì)溯源方面著手建設(shè)，具體為：①通過(guò)數(shù)據(jù)特征學(xué)習(xí)和自然語(yǔ)言學(xué)習(xí)等技術(shù)來(lái)進(jìn)行敏感數(shù)據(jù)識(shí)別。同時(shí)，對(duì)敏感的靜態(tài)數(shù)據(jù)進(jìn)行規(guī)范存儲(chǔ)和管理，防止靜態(tài)數(shù)據(jù)的濫用。②在存放數(shù)據(jù)時(shí)，應(yīng)進(jìn)行分布式數(shù)據(jù)管理操作，在存放其他臨時(shí)性要求不太高的數(shù)據(jù)時(shí)，應(yīng)進(jìn)行SDM操作。同時(shí)，實(shí)施敏感數(shù)據(jù)泄露預(yù)警、封堵等操作。③一旦發(fā)生敏感數(shù)據(jù)泄露事件，及時(shí)找到泄露的源頭，從而進(jìn)行查缺補(bǔ)漏。

2.2 ?大數(shù)據(jù)應(yīng)用技術(shù)方案

結(jié)合多模態(tài)數(shù)據(jù)模型，甄選機(jī)器學(xué)習(xí)算法，深度挖掘出電子檔案資料內(nèi)部深藏的知識(shí)。具體的數(shù)據(jù)挖掘模型構(gòu)建流程為：首先對(duì)多模態(tài)數(shù)據(jù)進(jìn)行深度的數(shù)據(jù)預(yù)處理，并對(duì)數(shù)據(jù)做類型定義、過(guò)濾、缺失數(shù)據(jù)的填補(bǔ)等操作;接著運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘、分類處理等，通過(guò)模型訓(xùn)練、模型測(cè)試等一系處理，建立可靠的挖掘模型。最后，運(yùn)用挖掘模型進(jìn)行規(guī)則挖掘，為醫(yī)院管理者提供可信的決策依據(jù)。大數(shù)據(jù)應(yīng)用技術(shù)方案直觀描述如圖4所示。

3 ?結(jié)論

該文針對(duì)醫(yī)院電子檔案管理大數(shù)據(jù)的實(shí)際需求，從大數(shù)據(jù)采集、存儲(chǔ)技術(shù)及應(yīng)用等方面提出了一套具體的技術(shù)解決方案，能夠較好地解決醫(yī)院電子檔案管理資料的采集困難、數(shù)據(jù)存儲(chǔ)異常、數(shù)據(jù)讀取不便利、異構(gòu)多源且多模態(tài)數(shù)據(jù)難以統(tǒng)一表示等問題。該文提出的技術(shù)方案，對(duì)于醫(yī)院、學(xué)校等諸多領(lǐng)域的大數(shù)據(jù)管理策略亦有一定的借鑒意義。

[參考文獻(xiàn)]

[1] ?鄭琳，劉克新，趙永蘭.大數(shù)據(jù)時(shí)代的病案信息全文檢索[J].中國(guó)病案，2016，17（5）：105-110.

[2] ?楊德先，孫華，于炯，等.一種基于MBRC值的關(guān)系型數(shù)據(jù)庫(kù)負(fù)載能耗預(yù)測(cè)模型[J].計(jì)算機(jī)科學(xué)，2017，19（2）：159-160.

[3] ?文孟飛，劉偉榮，胡超.網(wǎng)絡(luò)媒體大數(shù)據(jù)流異構(gòu)多模態(tài)目標(biāo)識(shí)別策略[J].計(jì)算機(jī)研究與發(fā)展，2017，26（1）：201-203.

[4] ?蔡正杰，劉云，景慎旗，等.醫(yī)院數(shù)據(jù)集成平臺(tái)與業(yè)務(wù)系統(tǒng)對(duì)接的標(biāo)準(zhǔn)流程探討建[J].中國(guó)數(shù)字醫(yī)學(xué)，2018，13（3）：46-49.

[5] ?錢宇華，成紅紅，梁新彥，等.大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述[J].數(shù)據(jù)采集與處理，2015，35（4）：57-61.

[6] ?徐曼，沈江，余海燕.數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療與健康決策支持研究綜述[J].工業(yè)工程與管理，2017，16（1）：32-40.

（收稿日期：2018-09-30）