• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)的醫(yī)院電子檔案資料管理方法

      2018-06-11 11:55吳蔚
      關(guān)鍵詞:多模態(tài)云計(jì)算

      吳蔚

      [摘要] 醫(yī)院文史、宣傳等電子檔案資料十分龐大,且數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)類型繁多。因此,需要“新的處理模式”對(duì)這些大數(shù)據(jù)進(jìn)行高效的采集、存儲(chǔ)和分析等處理。在此背景下,設(shè)計(jì)一種多結(jié)構(gòu)化的多模態(tài)海量數(shù)據(jù)的科學(xué)采集方法;基于Hadoop云存儲(chǔ)架構(gòu),構(gòu)建一種安全的醫(yī)院電子檔案資料的云存儲(chǔ)系統(tǒng)架構(gòu);針對(duì)重要敏感數(shù)據(jù),深入闡述數(shù)據(jù)脫敏方法;最后,創(chuàng)建面向醫(yī)院業(yè)務(wù)管理的電子檔案資料的云計(jì)算及應(yīng)用技術(shù)模型。文中提出的大數(shù)據(jù)處理綜合技術(shù)方法,有利于推動(dòng)大數(shù)據(jù)安全共享,可為醫(yī)院電子檔案管理決策管理提供參考。

      [關(guān)鍵詞] 醫(yī)院電子檔案資料;多模態(tài);云計(jì)算;數(shù)據(jù)脫敏

      [中圖分類號(hào)] G276 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1672-5654(2018)12(c)-0057-03

      為了更好地表示醫(yī)院業(yè)務(wù)數(shù)據(jù)的復(fù)雜結(jié)構(gòu)特點(diǎn)以及語(yǔ)義信息,一些基于XML的半結(jié)構(gòu)化數(shù)據(jù)庫(kù)開始被應(yīng)用于數(shù)據(jù)管理[1]。這些研究在一定程度上保留了原始數(shù)據(jù)的結(jié)構(gòu),然而許多非結(jié)構(gòu)化數(shù)據(jù)背后的復(fù)雜關(guān)系仍然沒有被完整地記錄下來(lái),因而無(wú)法支持一些復(fù)雜的醫(yī)院電子檔案業(yè)務(wù)應(yīng)用。早期的數(shù)據(jù)管理系統(tǒng)采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),因此可以支持簡(jiǎn)單的數(shù)據(jù)查詢[2],例如醫(yī)務(wù)人員可以通過(guò)系統(tǒng)快速查詢患者檔案、醫(yī)院日常管理業(yè)務(wù)的歷史數(shù)據(jù),可減少人工查找資料的時(shí)間。然而,這些方案只是把不同數(shù)據(jù)類型分開存儲(chǔ),醫(yī)務(wù)人員只能通過(guò)簡(jiǎn)單信息查詢與分析數(shù)據(jù)之間的關(guān)系,并以此做出決策和判斷,其操作效率低下。

      隨著多模態(tài)數(shù)據(jù)的產(chǎn)生,催生了新一代面向多模態(tài)媒體數(shù)據(jù)的統(tǒng)一索引與跨域檢索技術(shù)[3]。這些解決方案利用多模態(tài)數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)性建立不同數(shù)據(jù)形式之間的映射關(guān)系,從而根據(jù)語(yǔ)義注解來(lái)實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一索引與查詢處理。然而,這些方法往往只適用于數(shù)據(jù)關(guān)聯(lián)性較高的社交媒體數(shù)據(jù)等,無(wú)法直接應(yīng)用于語(yǔ)義關(guān)系較為模糊的醫(yī)院業(yè)務(wù)管理數(shù)據(jù)[4]。還有一些方法把不同的多模態(tài)數(shù)據(jù)用不同的數(shù)據(jù)類型來(lái)表示,比如字符串、樹、高維數(shù)據(jù)、動(dòng)態(tài)序列等,并設(shè)計(jì)統(tǒng)一的倒排索引結(jié)構(gòu)把不同數(shù)據(jù)類型的數(shù)據(jù)一起存儲(chǔ),以支持上層的各種查詢處理[5]。此外,隨著醫(yī)院電子檔案管理業(yè)務(wù)數(shù)據(jù)的爆炸性增長(zhǎng),傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)已經(jīng)無(wú)法滿足高增長(zhǎng)的應(yīng)用需求。一些醫(yī)療云服務(wù)商提出將傳統(tǒng)的電子資料轉(zhuǎn)移到云端進(jìn)行管理,從而實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程共享與查詢處理[6]。這些醫(yī)療云平臺(tái)解決了海量數(shù)據(jù)的存儲(chǔ)要求,并且可以實(shí)現(xiàn)簡(jiǎn)單的數(shù)據(jù)查詢與分析功能,然而,在處理高級(jí)別的數(shù)據(jù)分析要求時(shí)仍然面臨諸多問題。

      綜上所述,針對(duì)醫(yī)院電子檔案管理資料,要求實(shí)現(xiàn)對(duì)海量多模態(tài)數(shù)據(jù)有效管理,需要設(shè)計(jì)一個(gè)可以支持多模態(tài)數(shù)據(jù)的采集、存儲(chǔ)與管理方案,并結(jié)合云計(jì)算技術(shù),滿足基于分布式的高效索引、查詢與分析需求。

      1 ?醫(yī)院電子檔案資料采集、存儲(chǔ)技術(shù)方案

      構(gòu)建智能數(shù)據(jù)采集接口,快速、準(zhǔn)確地智能化采集分布于多點(diǎn)的多模態(tài)異構(gòu)業(yè)務(wù)管理大數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)采集的統(tǒng)一規(guī)范和標(biāo)準(zhǔn);采用云模式有效存儲(chǔ)采集的大數(shù)據(jù),使用Hadoop的HDFS分布式文件系統(tǒng)和Map/Reduce實(shí)行數(shù)據(jù)的存儲(chǔ)與訪問控制,保障數(shù)據(jù)安全;對(duì)云存儲(chǔ)的大數(shù)據(jù)進(jìn)行脫敏處理,對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù),為在開發(fā)、測(cè)試和其他非生產(chǎn)環(huán)境以及外包環(huán)境中可以安全地使用脫敏后的數(shù)據(jù)集;對(duì)數(shù)據(jù)做進(jìn)一步的分析、切片等,深度融合數(shù)據(jù)及對(duì)其建立統(tǒng)一模型,最終構(gòu)建出數(shù)據(jù)干凈、結(jié)構(gòu)完整、耦合性好的醫(yī)院電子檔案管理資料大數(shù)據(jù)集,為數(shù)據(jù)分析提供高質(zhì)量數(shù)據(jù)源。大數(shù)據(jù)采集、存儲(chǔ)及管理的總體技術(shù)框架如下圖1所示。

      1.1 ?數(shù)據(jù)采集方案

      在數(shù)據(jù)采集當(dāng)中,常常要采集數(shù)量龐大,類型眾多的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。這需要借助于高速數(shù)據(jù)解析、轉(zhuǎn)換(Transform)與轉(zhuǎn)載(Load)的大數(shù)據(jù)整合技術(shù),以及實(shí)現(xiàn)數(shù)據(jù)一致性與安全性保證的大數(shù)據(jù)安全技術(shù)。大數(shù)據(jù)的收集首先基于Sqoop開發(fā)ETL模塊,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)從MySQL等關(guān)系型數(shù)據(jù)庫(kù)到Hadoop平臺(tái)的遷移,其次基于Hadoop Common開發(fā)半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的傳輸功能。在對(duì)數(shù)據(jù)源進(jìn)行采集時(shí),選用的數(shù)據(jù)庫(kù)有所區(qū)別。在數(shù)據(jù)采集方案設(shè)計(jì)時(shí),應(yīng)分別對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行考慮,基于Sqoop的結(jié)構(gòu)化數(shù)據(jù)的采集方案比較簡(jiǎn)單,可采用常見的基于Sqoop結(jié)構(gòu)化數(shù)據(jù)的采集方案即可。在采集半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)時(shí),適合用面向列存儲(chǔ)的HBase數(shù)據(jù)庫(kù)來(lái)進(jìn)行存儲(chǔ)。HBase能方便地利用MapRedece框架進(jìn)行數(shù)據(jù)分析,有較好的讀寫性能。在該方案中,針對(duì)醫(yī)院檔案資料的半結(jié)構(gòu)和非結(jié)構(gòu)特點(diǎn),可采用的數(shù)據(jù)采集方案如圖2所示。

      1.2 ?大數(shù)據(jù)的存儲(chǔ)方案

      醫(yī)院電子檔案資料大數(shù)據(jù)龐大的規(guī)模對(duì)計(jì)算平臺(tái)的存儲(chǔ)容量、性能提出了更高的要求。而且本地的單一存儲(chǔ)有很大的變動(dòng)性,一次硬件故障就可能使所有數(shù)據(jù)丟失,給用戶帶來(lái)巨大損失。因此,大數(shù)據(jù)的存儲(chǔ)很有必要引入云存儲(chǔ)技術(shù),即框架圖中的計(jì)算和存儲(chǔ)集群。由于Hadoop云存儲(chǔ)平臺(tái)的諸多優(yōu)點(diǎn),因此,選擇Hadoop存儲(chǔ)集群作為數(shù)據(jù)存儲(chǔ)中心,并在HDFS中,基于Hive實(shí)現(xiàn)多類型大數(shù)據(jù)的邏輯管理和高速訪問。但是由于云存儲(chǔ)本身的特點(diǎn)是存儲(chǔ)即服務(wù),為了不使大數(shù)據(jù)泄露,需要通過(guò)一定的安全策略和技術(shù)從技術(shù)層面去解決??砂言摬糠值膬?nèi)容設(shè)計(jì)為3個(gè)模塊:①安全客戶端模塊;②安全可靠傳輸模塊;③服務(wù)器端模塊。服務(wù)器端是提供云存儲(chǔ)服務(wù)的 Hadoop 集群,它由元數(shù)據(jù)服務(wù)器、數(shù)據(jù)節(jié)點(diǎn)服務(wù)器以及備份服務(wù)器三者構(gòu)成。此種存儲(chǔ)方案可較好地解決醫(yī)院多模電子檔案數(shù)據(jù)的大容量存儲(chǔ)。

      2 ?醫(yī)院電子檔案資料的管理應(yīng)用技術(shù)方案

      2.1 ?大數(shù)據(jù)管理技術(shù)方案

      根據(jù)醫(yī)院電子檔案資料數(shù)據(jù)的計(jì)算要求,采用基于大數(shù)據(jù)處理平臺(tái)Hadoop,該平臺(tái)包含分布式文件系統(tǒng)(HDFS)和MapReduce兩大核心內(nèi)容,HDFS是大數(shù)據(jù)的分布式存儲(chǔ)的底層支持,其采用主從式的結(jié)構(gòu)模型,由一個(gè)大數(shù)據(jù)系統(tǒng)云服務(wù)器和若干個(gè)數(shù)據(jù)所組成,其中大數(shù)據(jù)系統(tǒng)云服務(wù)器管理文件系統(tǒng)的命名空間和用戶端對(duì)文件的訪問操作,統(tǒng)一調(diào)度數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作;數(shù)據(jù)節(jié)點(diǎn)管理存儲(chǔ)的數(shù)據(jù),大數(shù)據(jù)被分成若干個(gè)數(shù)據(jù)塊,并被放置于一組數(shù)據(jù)節(jié)點(diǎn)中。

      圖3所示的云管理模型框架可被用于管理醫(yī)院業(yè)務(wù)管理過(guò)程積累的海量數(shù)據(jù)。下面對(duì)數(shù)據(jù)管理技術(shù)實(shí)現(xiàn)方案進(jìn)行闡述:(1)數(shù)據(jù)索引:設(shè)計(jì)圖像及其他數(shù)據(jù)的URL,將其存儲(chǔ)信息設(shè)定在URL中,通過(guò)解析URL快速定位存儲(chǔ)的數(shù)據(jù)塊的數(shù)據(jù)節(jié)點(diǎn)和區(qū)域,以保證海量數(shù)據(jù)擴(kuò)容和快速檢索。

      (2)優(yōu)化策略:采用MapReduce進(jìn)行數(shù)據(jù)業(yè)務(wù)處理的編程實(shí)現(xiàn),針對(duì)大數(shù)據(jù)的批量處理和存儲(chǔ)優(yōu)化制定相應(yīng)策略。

      (3)讀取服務(wù):采用Nginx的Web服務(wù)器對(duì)數(shù)據(jù)進(jìn)行讀取,運(yùn)用Nginx的Redis模型對(duì)緩存中的微型數(shù)據(jù)進(jìn)行讀取。

      (4)負(fù)載均衡:采用HAProxy的RoundRobin負(fù)載均衡算法構(gòu)建負(fù)載均衡,分載前端用請(qǐng)求的壓力。

      (5)云計(jì)算管理模式:從HDFS分布式存儲(chǔ)系統(tǒng)中獲取數(shù)據(jù),將其劃分成等長(zhǎng)的作業(yè)分片,每個(gè)Map任務(wù)處理一個(gè)作業(yè)分片,該任務(wù)可被并行執(zhí)行,經(jīng)一系列的映射、復(fù)制、排序或融合、機(jī)器學(xué)習(xí)等操作后,Map輸出結(jié)果作為Reduce輸入,最后輸出經(jīng)化簡(jiǎn)階段的算法處理結(jié)果。

      (6)數(shù)據(jù)安全管理方案:由于大量數(shù)據(jù)集中在云端存儲(chǔ),如果缺乏安全保障,醫(yī)院電子檔案資料一旦被外泄,會(huì)降低用戶對(duì)大數(shù)據(jù)技術(shù)的信任度和認(rèn)同感。為解決云環(huán)境下的敏感大數(shù)據(jù)安全問題,可從敏感數(shù)據(jù)使用前的識(shí)別與管理、使用中的保護(hù)和使用后的審計(jì)溯源方面著手建設(shè),具體為:①通過(guò)數(shù)據(jù)特征學(xué)習(xí)和自然語(yǔ)言學(xué)習(xí)等技術(shù)來(lái)進(jìn)行敏感數(shù)據(jù)識(shí)別。同時(shí),對(duì)敏感的靜態(tài)數(shù)據(jù)進(jìn)行規(guī)范存儲(chǔ)和管理,防止靜態(tài)數(shù)據(jù)的濫用。②在存放數(shù)據(jù)時(shí),應(yīng)進(jìn)行分布式數(shù)據(jù)管理操作,在存放其他臨時(shí)性要求不太高的數(shù)據(jù)時(shí),應(yīng)進(jìn)行SDM操作。同時(shí),實(shí)施敏感數(shù)據(jù)泄露預(yù)警、封堵等操作。③一旦發(fā)生敏感數(shù)據(jù)泄露事件,及時(shí)找到泄露的源頭,從而進(jìn)行查缺補(bǔ)漏。

      2.2 ?大數(shù)據(jù)應(yīng)用技術(shù)方案

      結(jié)合多模態(tài)數(shù)據(jù)模型,甄選機(jī)器學(xué)習(xí)算法,深度挖掘出電子檔案資料內(nèi)部深藏的知識(shí)。具體的數(shù)據(jù)挖掘模型構(gòu)建流程為:首先對(duì)多模態(tài)數(shù)據(jù)進(jìn)行深度的數(shù)據(jù)預(yù)處理,并對(duì)數(shù)據(jù)做類型定義、過(guò)濾、缺失數(shù)據(jù)的填補(bǔ)等操作;接著運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行關(guān)聯(lián)挖掘、分類處理等,通過(guò)模型訓(xùn)練、模型測(cè)試等一系處理,建立可靠的挖掘模型。最后,運(yùn)用挖掘模型進(jìn)行規(guī)則挖掘,為醫(yī)院管理者提供可信的決策依據(jù)。大數(shù)據(jù)應(yīng)用技術(shù)方案直觀描述如圖4所示。

      3 ?結(jié)論

      該文針對(duì)醫(yī)院電子檔案管理大數(shù)據(jù)的實(shí)際需求,從大數(shù)據(jù)采集、存儲(chǔ)技術(shù)及應(yīng)用等方面提出了一套具體的技術(shù)解決方案,能夠較好地解決醫(yī)院電子檔案管理資料的采集困難、數(shù)據(jù)存儲(chǔ)異常、數(shù)據(jù)讀取不便利、異構(gòu)多源且多模態(tài)數(shù)據(jù)難以統(tǒng)一表示等問題。該文提出的技術(shù)方案,對(duì)于醫(yī)院、學(xué)校等諸多領(lǐng)域的大數(shù)據(jù)管理策略亦有一定的借鑒意義。

      [參考文獻(xiàn)]

      [1] ?鄭琳,劉克新,趙永蘭.大數(shù)據(jù)時(shí)代的病案信息全文檢索[J].中國(guó)病案,2016,17(5):105-110.

      [2] ?楊德先,孫華,于炯,等.一種基于MBRC值的關(guān)系型數(shù)據(jù)庫(kù)負(fù)載能耗預(yù)測(cè)模型[J].計(jì)算機(jī)科學(xué),2017,19(2):159-160.

      [3] ?文孟飛,劉偉榮,胡超.網(wǎng)絡(luò)媒體大數(shù)據(jù)流異構(gòu)多模態(tài)目標(biāo)識(shí)別策略[J].計(jì)算機(jī)研究與發(fā)展,2017,26(1):201-203.

      [4] ?蔡正杰,劉云,景慎旗,等.醫(yī)院數(shù)據(jù)集成平臺(tái)與業(yè)務(wù)系統(tǒng)對(duì)接的標(biāo)準(zhǔn)流程探討建[J].中國(guó)數(shù)字醫(yī)學(xué),2018,13(3):46-49.

      [5] ?錢宇華,成紅紅,梁新彥,等.大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述[J].數(shù)據(jù)采集與處理,2015,35(4):57-61.

      [6] ?徐曼,沈江,余海燕.數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療與健康決策支持研究綜述[J].工業(yè)工程與管理,2017,16(1):32-40.

      (收稿日期:2018-09-30)

      猜你喜歡
      多模態(tài)云計(jì)算
      多模態(tài)話語(yǔ)中的詹姆斯·卡梅隆電影
      網(wǎng)絡(luò)環(huán)境下大學(xué)英語(yǔ)多模態(tài)交互式閱讀教學(xué)模式研究
      多模態(tài)理論視角下大學(xué)英語(yǔ)課堂的構(gòu)建
      新媒體環(huán)境下多模態(tài)商務(wù)英語(yǔ)課堂教師角色定位
      志愿服務(wù)與“互聯(lián)網(wǎng)+”結(jié)合模式探究
      云計(jì)算與虛擬化
      基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
      實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
      云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
      仁怀市| 宜丰县| 荣昌县| 永修县| 右玉县| 盱眙县| 香港 | 康平县| 田阳县| 河北区| 博爱县| 喀喇| 富川| 南安市| 留坝县| 河东区| 辽源市| 缙云县| 贡觉县| 彩票| 阜平县| 灌阳县| 陆良县| 江达县| 都江堰市| 儋州市| 正宁县| 灵丘县| 收藏| 堆龙德庆县| 曲松县| 武汉市| 开平市| 陆丰市| 乐昌市| 玉林市| 简阳市| 武义县| 浑源县| 太康县| 固镇县|