• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      分布式醫(yī)療大數(shù)據(jù)存儲方案研究綜述

      2022-04-24 03:20:42朱承璋劉梓汐李文靜肖亞龍王晗
      軟件導(dǎo)刊 2022年4期
      關(guān)鍵詞:存儲系統(tǒng)海量分布式

      朱承璋,劉梓汐,李文靜,肖亞龍,王晗

      (1.中南大學(xué)計算機學(xué)院;2.中南大學(xué)文學(xué)與新聞傳播學(xué)院;3.移動醫(yī)療教育部—中國移動聯(lián)合實驗室湖南長沙 410083;4.湖南省人民醫(yī)院(湖南師范大學(xué)第一附屬醫(yī)院)湖南長沙 410005)

      0 引言

      近年來,隨著信息技術(shù)飛速發(fā)展,醫(yī)療與醫(yī)學(xué)研究領(lǐng)域正步入大數(shù)據(jù)時代,醫(yī)療數(shù)據(jù)的日增長量達到了TB級別。海量的醫(yī)療數(shù)據(jù)蘊含著巨大的價值,構(gòu)建醫(yī)療數(shù)據(jù)存儲平臺,實現(xiàn)數(shù)據(jù)的統(tǒng)一存儲與檢索,有利于不同醫(yī)療機構(gòu)之間共享數(shù)據(jù)。并且,在平臺上增設(shè)數(shù)據(jù)分析服務(wù)功能,有利于推動輔助診療和疾病預(yù)測技術(shù)的發(fā)展。

      醫(yī)療數(shù)據(jù)屬于大數(shù)據(jù),具有數(shù)據(jù)來源復(fù)雜、結(jié)構(gòu)多樣、規(guī)模巨大、增長迅速、多模態(tài)性等特點。其中,多模態(tài)性包括二維數(shù)據(jù)、圖像、視頻、文本文檔等。然而,在當(dāng)前醫(yī)療服務(wù)業(yè)務(wù)中,獲取數(shù)據(jù)的實時性、存儲設(shè)備的可靠性及數(shù)據(jù)分析的準(zhǔn)確性仍是亟待解決的三大問題。

      傳統(tǒng)關(guān)系型數(shù)據(jù)庫無法存儲非結(jié)構(gòu)化數(shù)據(jù)且受到單機性能限制,無法滿足數(shù)據(jù)存儲的需求。而分布式技術(shù)以其低成本、高可靠、大容量等優(yōu)點在存儲領(lǐng)域得到廣泛應(yīng)用,為存儲海量醫(yī)療數(shù)據(jù)提供了新思路。該技術(shù)通過連接多臺普通設(shè)備,分布式存儲、管理和處理海量數(shù)據(jù),并支持存儲非結(jié)構(gòu)化數(shù)據(jù)。因此,醫(yī)療大數(shù)據(jù)通常存儲在分布式文件系統(tǒng)或非關(guān)系型(Not Only SQL,NoSQL)數(shù)據(jù)庫中,通過分布式并行計算模型提高系統(tǒng)數(shù)據(jù)分析的能力,以進一步優(yōu)化存儲系統(tǒng)的查詢性能。

      據(jù)統(tǒng)計,國內(nèi)外分布式醫(yī)療數(shù)據(jù)存儲系統(tǒng)的研究成果較多,但相關(guān)綜述文章較少。文獻[8]分析了不同NoSQL數(shù)據(jù)庫的特點與適用的醫(yī)療存儲場景,但并未總結(jié)基于分布式系統(tǒng)的醫(yī)療存儲研究現(xiàn)狀。本文通過分析醫(yī)療大數(shù)據(jù)的特點和存儲需求,回顧醫(yī)療數(shù)據(jù)存儲系統(tǒng)的發(fā)展歷程,梳理基于分布式技術(shù)的醫(yī)療數(shù)據(jù)存儲方案,并展望未來的研究方向,旨在探索醫(yī)療大數(shù)據(jù)存儲系統(tǒng)的創(chuàng)新發(fā)展前景。

      1 傳統(tǒng)醫(yī)療數(shù)據(jù)存儲系統(tǒng)

      目前,國內(nèi)成熟的醫(yī)院系統(tǒng)建設(shè)主要包括HIS(醫(yī)院信息系統(tǒng))、EMRS(電子病歷系統(tǒng))、RIS(放射科信息管理系統(tǒng))和PACS(影像歸檔和通信系統(tǒng))。院內(nèi)醫(yī)療存儲系統(tǒng)建設(shè)示意圖如圖1所示。傳統(tǒng)醫(yī)療數(shù)據(jù)存儲系統(tǒng)底層多使用關(guān)系型數(shù)據(jù)庫,例如MySQL和SQL Server。該數(shù)據(jù)庫通過關(guān)系模型組織數(shù)據(jù),將每條記錄數(shù)據(jù)以行的形式存儲在二維表中,但關(guān)系型數(shù)據(jù)庫需要滿足預(yù)先定義的關(guān)系模式,并且每條記錄都具有固定的數(shù)據(jù)長度。由于院內(nèi)系統(tǒng)僅針對醫(yī)院單一業(yè)務(wù)或單一數(shù)據(jù)類型,存儲和管理的數(shù)據(jù)量相對較小,因此關(guān)系型數(shù)據(jù)庫即可滿足需求。

      Fig.1 Schematic diagram of medical institution storagesy stem construction圖1 醫(yī)療機構(gòu)存儲系統(tǒng)建設(shè)示意圖

      隨著網(wǎng)絡(luò)和信息技術(shù)不斷發(fā)展,醫(yī)療數(shù)據(jù)規(guī)模越來越大、復(fù)雜性越來越高,導(dǎo)致使用關(guān)系型數(shù)據(jù)庫對于大規(guī)模醫(yī)療數(shù)據(jù)的存儲存在以下局限性:

      (1)醫(yī)療數(shù)據(jù)中包含較多非結(jié)構(gòu)化數(shù)據(jù),然而關(guān)系型數(shù)據(jù)庫結(jié)構(gòu)相對固定,無法適用于非結(jié)構(gòu)化數(shù)據(jù)的存儲。

      (2)關(guān)系型數(shù)據(jù)庫受單機存儲容量限制,無法適用于醫(yī)療大數(shù)據(jù)的存儲場景。雖然關(guān)系型數(shù)據(jù)庫支持分布式擴展,但由于分布式關(guān)系型數(shù)據(jù)庫分片規(guī)則復(fù)雜,安裝和維護成本較高。

      (3)關(guān)系型數(shù)據(jù)庫可擴展性較差,難以實現(xiàn)不同醫(yī)療機構(gòu)的數(shù)據(jù)共享。

      (4)關(guān)系型數(shù)據(jù)庫的讀、寫必須經(jīng)過SQL解析,在大規(guī)模數(shù)據(jù)上并發(fā)進行讀、寫的性能較弱。

      (5)數(shù)據(jù)量太大會導(dǎo)致數(shù)據(jù)分析軟件難以有效、準(zhǔn)確地分析數(shù)據(jù)。

      綜上所述,傳統(tǒng)關(guān)系型數(shù)據(jù)庫已無法滿足大數(shù)據(jù)時代TB、PB級醫(yī)療數(shù)據(jù)的存儲需求。為此,接下來將討論基于分布式技術(shù)存儲醫(yī)療數(shù)據(jù)的解決方案。

      2 分布式醫(yī)療數(shù)據(jù)存儲系統(tǒng)

      2.1 通用分布式存儲系統(tǒng)

      數(shù)據(jù)存儲系統(tǒng)經(jīng)過長期發(fā)展,已由單機存儲系統(tǒng)逐步演變?yōu)橹С址植际綌U展的存儲系統(tǒng)。隨后,關(guān)系型數(shù)據(jù)庫的分布式方案和原生支持分布式存儲的NoSQL數(shù)據(jù)庫也應(yīng)運而生。本節(jié)分別介紹了Hadoop分布式存儲系統(tǒng)和NoSQL數(shù)據(jù)庫。

      2.1.1 Hadoop分布式存儲系統(tǒng)

      Apache Hadoop是一款主流支持海量數(shù)據(jù)存儲與處理的分布式系統(tǒng),包括Hadoop File System(HDFS)、Map Reduce、Hadoop Data Base(HBase)等重要組件。其中,HDFS是Hadoop系統(tǒng)數(shù)據(jù)存儲和管理中心,具有高容錯性、高效寫入等特點。其集群包括Name Node和Data Node兩大組成部分,Name Node負責(zé)管理文件系統(tǒng)的元數(shù)據(jù)和Data Node節(jié)點,Data Node是文件系統(tǒng)的實際工作節(jié)點,負責(zé)存儲和檢索數(shù)據(jù),并定期將存儲的塊信息發(fā)送給Name Node。HDFS架構(gòu)圖如圖2所示。

      Fig.2 Architect urediagram of HDFS圖2 HDFS架構(gòu)圖

      Map Reduce是一種處理和生成大規(guī)模數(shù)據(jù)集的模型,該模型以一種可靠性高、容錯性強的方式實現(xiàn)海量數(shù)據(jù)集的并行處理。Map Reduce在處理大數(shù)據(jù)集時,將任務(wù)分解給多個Hadoop運行節(jié)點處理,提高了集群處理海量數(shù)據(jù)的能力。

      Fig.3 Structure diagram of HBase圖3 HBase結(jié)構(gòu)圖

      對于有隨機讀取需求的應(yīng)用請求,將數(shù)據(jù)存儲于HBase中。HBase是一款面向列的非關(guān)系型數(shù)據(jù)庫,其底層數(shù)據(jù)存儲在HDFS中,可保證數(shù)據(jù)的可靠性,將其與Map Reduce集成可確保在分析海量數(shù)據(jù)時系統(tǒng)的高效性。如圖3所示,HBase由HMaster、HRegion Server、HRegion和Zoo keeper組件構(gòu)成。其中,HMaster是HBase集群的主控服務(wù)器,負責(zé)為HRegion分配HRegion Server;HRegion Server負責(zé)為客戶端提供數(shù)據(jù)寫入、刪除、查找服務(wù);HRegion是按行鍵劃分的子表,是HBase中存儲和處理的最小單位;Zoo Keeper為HBase集群提供應(yīng)用協(xié)調(diào)服務(wù),檢測并淘汰失效的Master,選舉新的活躍狀態(tài)的Master。

      2.1.2 No SQL數(shù)據(jù)庫

      NoSQL數(shù)據(jù)庫存儲的數(shù)據(jù)不受固定結(jié)構(gòu)限制,數(shù)據(jù)組織簡單,可擴展性好,適合存儲海量數(shù)據(jù)。該數(shù)據(jù)庫可分為列式數(shù)據(jù)庫、文檔數(shù)據(jù)庫和鍵值數(shù)據(jù)庫等。其中,以MongoDB為代表的文檔數(shù)據(jù)庫支持存儲多種結(jié)構(gòu)數(shù)據(jù),并且具有強大的查詢功能、索引能力,適用于讀、取操作頻繁的海量數(shù)據(jù)應(yīng)用場景。

      2.2 基于Hadoop的醫(yī)療數(shù)據(jù)存儲系統(tǒng)

      國內(nèi)外專家針對醫(yī)療數(shù)據(jù)存儲系統(tǒng)的業(yè)務(wù)需求和Hadoop系統(tǒng)的局限性,進行了大量的研究和改進。通過對現(xiàn)有文獻的研究,可將基于Hadoop的醫(yī)療數(shù)據(jù)存儲系統(tǒng)的改進方法歸納為以下幾點:

      (1)提升系統(tǒng)性能。HDFS使用數(shù)據(jù)塊作為數(shù)據(jù)讀寫單位,將元數(shù)據(jù)保存在Name Node的內(nèi)存中,但由于醫(yī)療數(shù)據(jù)中包含大量的檢驗數(shù)據(jù)、影像數(shù)據(jù)等小文件會占用大量的內(nèi)存資源,使得系統(tǒng)處理效率降低。此外,Hadoop副本存儲策略使得讀、寫操作頻繁的節(jié)點容易達到負載閾值,多次觸發(fā)系統(tǒng)的負載均衡操作。因此,通過優(yōu)化小文件處理策略,改進Hadoop的副本選擇策略,可實現(xiàn)基于Hadoop的醫(yī)療數(shù)據(jù)存儲系統(tǒng)的性能優(yōu)化。

      (2)優(yōu)化查詢性能。Hadoop分布式系統(tǒng)具有成本低、擴展性強、可靠性高等優(yōu)點,適用于存儲時效性較差的醫(yī)療數(shù)據(jù),但無法滿足實時存儲需求。HDFS旨在以高延遲為代價實現(xiàn)高吞吐,不適合低延遲讀取請求,但醫(yī)療數(shù)據(jù)讀、取操作較多,響應(yīng)時間過長會影響用戶體驗,可通過構(gòu)建索引優(yōu)化醫(yī)療數(shù)據(jù)存儲系統(tǒng)的查詢性能。

      (3)數(shù)據(jù)分析。如何結(jié)合Map Reduce、Spark等大數(shù)據(jù)分析技術(shù)對數(shù)據(jù)集進行并行處理,是分析數(shù)據(jù)價值的關(guān)鍵。

      目前已有大量基于改進Hadoop存儲系統(tǒng)的醫(yī)療數(shù)據(jù)存儲解決方案,在系統(tǒng)存儲性能優(yōu)化、高效檢索和數(shù)據(jù)分析等方面均取得了較好的研究成果。具體概括如表1所示。

      Table1 Medical data storages cheme based on improved Hadoop表1 基于改進Hadoop的醫(yī)療數(shù)據(jù)存儲方案

      續(xù)表

      2.3 基于MongoDB的醫(yī)療數(shù)據(jù)存儲系統(tǒng)

      MongoDB文檔數(shù)據(jù)庫是一種重要的NoSQL數(shù)據(jù)庫,支持存儲多種數(shù)據(jù)類型。根據(jù)醫(yī)療數(shù)據(jù)存儲格式,可將其分為文檔數(shù)據(jù)、二進制小文件和二進制大文件三大類。MongoDB支持文檔數(shù)據(jù)的轉(zhuǎn)換和存儲,并能夠直接存儲二進制小文件。對于二進制大文件,MongoDB的GridFS機制可對其進行切分和存儲。MongoDB存儲醫(yī)療數(shù)據(jù)的示意圖如圖4所示。

      Fig.4 MongoD B-based medical data storage architecture圖4 基于MongoDB的醫(yī)療數(shù)據(jù)存儲架構(gòu)

      如今,已有多名研究者使用MongoDB數(shù)據(jù)庫存儲醫(yī)療數(shù)據(jù)。例如,李偉等使用MongoDB存儲數(shù)據(jù)的流程如下:①根據(jù)疾病類型建立疾病數(shù)據(jù)庫;②根據(jù)患者ID創(chuàng)建集合,存儲患者的小文件和文檔數(shù)據(jù),并將患者的大文件數(shù)據(jù)存儲在與該集合同名的GridFS分區(qū)下;③將文件的描述信息以文檔形式插入集合中。此外,Ricardo等分別使用MySQL和MongoDB數(shù)據(jù)庫存儲電子健康記錄,實驗發(fā)現(xiàn)MongoDB的吞吐量和查詢時間都優(yōu)于MySQL,證明MongoDB數(shù)據(jù)庫更適合存儲醫(yī)療信息和查詢數(shù)據(jù)。

      Roshan等為了提升MongoDB的查詢性能,提出在數(shù)據(jù)處理階段創(chuàng)建和維護文檔或文件的元數(shù)據(jù)信息,以便在檢索數(shù)據(jù)時快速定位、高效檢索所需數(shù)據(jù)。Poly等提出了一種數(shù)據(jù)模型算法,該算法使用集合保存指定的查詢屬性,通過探索數(shù)據(jù)屬性的相關(guān)性、消除重復(fù)屬性、保存屬性序列等優(yōu)化措施,使其滿足醫(yī)療數(shù)據(jù)查詢頻率和查詢多樣化的性能要求。Silva等提出了一種PACS歸檔方案,通過GridFS和多字段索引機制優(yōu)化醫(yī)療影像歸檔的性能。Mr A等設(shè)計了一種查詢語言AQL,通過使用MongoDB的持久化子部分存儲和查詢電子健康記錄摘要,以提升系統(tǒng)的查詢性能。

      綜上所述,通過建立文件描述信息庫、維護文件元數(shù)據(jù)信息、索引優(yōu)化等方式均可提升基于MongoDB的醫(yī)療數(shù)據(jù)存儲系統(tǒng)的響應(yīng)速度。

      3 存在的問題及分析

      分布式技術(shù)可實現(xiàn)醫(yī)療數(shù)據(jù)的統(tǒng)一存儲與查詢,但目前研究仍然存在一些問題。例如,醫(yī)療數(shù)據(jù)中包含大量患者隱私信息,而目前的存儲方案均未考慮數(shù)據(jù)隱私保護。由于醫(yī)療數(shù)據(jù)的高敏感性,各機構(gòu)通常使用中心化方式管理數(shù)據(jù),然而該管理方式不夠透明,容易造成數(shù)據(jù)篡改、隱私泄露等問題。這些問題直接威脅著醫(yī)療領(lǐng)域的數(shù)據(jù)安全和用戶隱私,使各級機構(gòu)間的數(shù)據(jù)難以實現(xiàn)相互共享,無法充分利用醫(yī)療數(shù)據(jù)的價值。

      近年來,隨著區(qū)塊鏈技術(shù)的不斷發(fā)展,其已成為保障數(shù)據(jù)安全共享的有效手段,利用密碼學(xué)知識,可確保數(shù)據(jù)不被篡改、不可偽造和去中心化傳輸訪問的安全。然而,作為一項新興技術(shù),區(qū)塊鏈對于分布式系統(tǒng)架構(gòu)仍缺乏理論支持和高并發(fā)讀寫業(yè)務(wù)的實驗測試。未來可重點研究基于分布式架構(gòu)的區(qū)塊鏈技術(shù),實現(xiàn)基于隱私保護的分布式醫(yī)療大數(shù)據(jù)存儲模型。

      為更好利用醫(yī)療信息資源作出科學(xué)決策,需要深入挖掘醫(yī)療數(shù)據(jù)的價值。當(dāng)前醫(yī)療大數(shù)據(jù)分析技術(shù)都側(cè)重于統(tǒng)計分析和決策,尤其是基于MongoDB的醫(yī)療數(shù)據(jù)存儲系統(tǒng),與數(shù)據(jù)分析相關(guān)的研究較少。知識圖譜在自然語言處理領(lǐng)域興起,已成為呈現(xiàn)數(shù)據(jù)知識的有效組織形式,使用該技術(shù)組織醫(yī)療數(shù)據(jù)有助于抽取醫(yī)療知識,實現(xiàn)醫(yī)療知識推理、遠程會診、推薦用藥、疾病預(yù)測等輔助診療服務(wù)。

      4 結(jié)語

      大數(shù)據(jù)時代,醫(yī)療數(shù)據(jù)規(guī)模急劇擴大,數(shù)據(jù)呈現(xiàn)多模態(tài)特征。傳統(tǒng)關(guān)系型數(shù)據(jù)庫已無法保證海量數(shù)據(jù)的高效存儲與快速響應(yīng),為此分布式存儲技術(shù)為存儲海量醫(yī)療數(shù)據(jù)提供了新思路?;贖adoop的醫(yī)療數(shù)據(jù)存儲系統(tǒng)在充分發(fā)揮HDFS、HBase和Map Reduce等組件優(yōu)勢的基礎(chǔ)上,進一步優(yōu)化了存儲和查詢性能,實現(xiàn)了集高吞吐、快速定位和高效分析于一體的“智慧醫(yī)療”存儲系統(tǒng)。基于MongoDB數(shù)據(jù)庫的醫(yī)療數(shù)據(jù)存儲系統(tǒng)可滿足多模態(tài)醫(yī)療數(shù)據(jù)統(tǒng)一存儲和快速響應(yīng)需求,為后續(xù)的多模態(tài)數(shù)據(jù)分析和醫(yī)療數(shù)據(jù)挖掘提供了平臺支撐。面向隱私數(shù)據(jù)保護和醫(yī)療知識推理的分布式醫(yī)療數(shù)據(jù)存儲方案將可能成為未來的發(fā)展方向。

      猜你喜歡
      存儲系統(tǒng)海量分布式
      分布式存儲系統(tǒng)在企業(yè)檔案管理中的應(yīng)用
      哈爾濱軸承(2020年2期)2020-11-06 09:22:36
      海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
      天河超算存儲系統(tǒng)在美創(chuàng)佳績
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      一個圖形所蘊含的“海量”巧題
      基于DDS的分布式三維協(xié)同仿真研究
      雷達與對抗(2015年3期)2015-12-09 02:38:50
      華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲系統(tǒng)
      一種海量衛(wèi)星導(dǎo)航軌跡點地圖匹配方法
      一種基于STM32的具有斷電保護機制的采集存儲系統(tǒng)設(shè)計
      黄陵县| 金平| 阳新县| 长葛市| 西峡县| 嘉禾县| 岚皋县| 安多县| 蕲春县| 新建县| 当雄县| 吉安县| 察哈| 建宁县| 收藏| 望奎县| 嘉黎县| 建水县| 松阳县| 青川县| 盱眙县| 西宁市| 常熟市| 城口县| 靖远县| 新民市| 竹山县| 永新县| 鄱阳县| 三门峡市| 屏山县| 日照市| 忻州市| 视频| 淮南市| 阳江市| 任丘市| 儋州市| 宁都县| 漳浦县| 楚雄市|