吳小穎 李熠慜
摘 ?要:對于健康醫(yī)療大數據而言,其具有來源多樣、數據分散、存在大量非結構化信息、融合壁壘高等特點,正是基于上述特點,導致無法有效的對健康醫(yī)療大數據進行追溯與治理。因此為有效的改變上述不良情況,則需要采用一種有效的方式對健康醫(yī)療大數據進行追溯與治理,目前多使用基于元數據可追溯性的方式進行分析。本文將論述基于元數據的數據融合方式及數據可視化呈現等內容。
關鍵詞:元數據;可追溯性;健康醫(yī)療大數據
隨著健康意識的不但提升,近年來健康醫(yī)療大數據開始受到醫(yī)學界的重點關注,為此國家衛(wèi)建委下發(fā)相關的政策加強對健康醫(yī)療大數據的規(guī)范管理與開發(fā)應用。為有效的實現上述目標,目前開始使用基于元數據可追溯性的方式對健康醫(yī)療大數據進行分析[1]。本文將探討基于元數據可追溯性的健康醫(yī)療大數據分析方式與效果。
1.基于元數據的數據融合方式
1.1需求現狀分析
1.1.1目前我國國醫(yī)療健康元數據的現狀
所謂的元數據主要是指“關于數據的數據”,若能對元數據進行良好的管理,則能夠有效的實現對數據統一管理,由此可知,需要對元數據進行準確、快捷訪問。通過近年來的研究發(fā)現,完整的元數據管理模式主要分為如下部分,即完整的字段定義、與數據源的對應關系、不同數據來源元數據間的映射關系。但通過觀察實際情況可知,因無法對元數據定義及錄入時統計口徑進行統一,從而導致醫(yī)療數據存在精準度欠缺、一致性低、準確度較低等不良問題[2]。
1.1.2臨床數據交換標準協會中元數據可追溯能力的可視化呈現
自進入國際協調會議后,我國衛(wèi)生部門對臨床數據提交的規(guī)則與要求進行了更加向有效的完善。Real World Data是臨床數據交換標準協會的一個重要項目,其主要的宗旨在于通過電子健康記錄系統對相關數據進行收集,以便能夠將其有效的運用到臨床研究與安全報告中。然而通過縱觀實際情況發(fā)現,臨床數據交換標準協會在元數據的可追溯性方面仍然存在較大的缺陷,因此為有效的解決此問題,目前臨床數據交換標準協會開始使用Trace-XML系統,主要包括驗證端到端的追溯能力、運行端到端追溯查詢、可視化端到端的追溯能力等部分,有效的提升元數據的分析能力。
1.2基于元數據的數據融合的設計思路
為有效的提升基于元數據的數據融合能力,目前多使用半自動化的融合方式,該種方式包括如下功能:①能夠實現對原始數據庫的表、字段、表間關系的有效抽取;②形成原始數據庫的數據模型元數據,能夠對每個表與字段標注業(yè)務名稱與備注;③具有按照業(yè)務名稱或表與字段名稱進行搜索的功能;④具有對表與字段的增加、修改、刪除管理數據模型的功能。
1.3基于元數據的數據融合的結構設計
(1)邏輯架構。對于數據采集而言,需要具有規(guī)范地目錄,包括數據源、數據目標與轉換規(guī)則等。目錄的生成的方式如下,即將基于已存在的業(yè)務術語關聯到對應的元數據,并通過數據源映射到業(yè)務術語,并且形成新目錄。在形成目錄的過程中,主要涉及到如下方面:①使用自然語言處理算法去重、歸一、梳理、消歧數據,之后將數據模型添加至知識庫中;②依據對應業(yè)務數據模型將處理后的數據模型抽取、清洗到目標數據庫中。
(2)數據收集與分析。在數據收集方面主要使用具有高性能、高可用、高擴展特性的結構化數據庫集群系統,該種系統不僅能夠提供通用計算平臺,同時還能夠廣泛應用于支撐各類數據倉庫系統、商務智能系統與決策支持系統中。在數據分析方面,篩選不同部門的所需數據,以便能夠對醫(yī)療數據全景圖進行規(guī)劃,從而能夠提取出更具有價值的數據。
(3)技術架構。目前多使用基于CWM的醫(yī)療元數據管理進行技術架構。所謂的CWM主要是指對象管理組織在數據倉庫系統中定義的、具有完整的元模型體系結構,主要用于數據倉庫構建與應用的元數據建模方面。通過分析可知,CWM模型主要包括如下規(guī)范:①CWM元模型。該模型主要用于對數據倉庫系統的描述。②CWM XML,主要是指CWM元模型的XM表達形式。③CWM DTD。該種格式主要是DW/BI共享元數據的交換格式。④CWM IDL。該種格式主要是DW/BI共享元數據的應用程序訪問接口。
2.數據可視化呈現
為更加明確數據資產分布情況與產生過程,目前多采用數據可視化系統,主要包括元數據采集、元數據展示、元數據應用、元數據搜索、元數據瀏覽及管理、數據字典管理等內容,具體如下:
2.1元數據可視化的主要內容
2.1.1元數據采集方面的可視化
縱觀目前的實際情況,現有的健康醫(yī)療大數據平臺主要包括事實表與值域表。事實表主要分為定義類與管理類元數據等方面;值域表主要為表示類元數據。為實現數據融合后的格式統一,在采集數據的過程中采用可視化操作管理,主要包括結構標準化、數據標準化等內容。通過對數據進行標準化處理,在較大程度上實現了數據的高效與融合的規(guī)范性[3]。
2.1.2元數據展示方面的可視化
所謂的元數據展示功能主要是指對某元數據來源的分布情況進行展示,從而能夠追溯到影響該指標的所有源數據庫的元數據,通過采用血緣關系分析能力利用圖形對各業(yè)務數據的圖譜進行完整展現。
2.1.3元數據搜索方面的可視化
所謂的元數據搜索主要是指用戶可通過不同類型的數據源庫對元數據進行搜索,以便能夠更快的對元數據進行定位,并增強用戶的了解程度。
2.1.4元數據瀏覽方面的可視化
所謂的元數據瀏覽主要是指用戶可對數據字段名稱、字段類型、長度、是否必填等項目進行查看瀏覽;并且用戶能夠依據自身的實際需求對過濾規(guī)則進行編輯,以便能夠使元素局更加標準化、更具有規(guī)范性。
2.2治理后的平臺功能情況
通過縱觀健康醫(yī)療大數據平臺治理后的實際情況,相比于治理前,該平臺具有更高的完整性、正確性、一致性、合理性與時效性。收集實時與標準的數據能夠對數據進行有效的治理;對元數據標準進行統一后獲得的主數據具有更加良好的存儲、整合、清洗與監(jiān)管效用。按照目前現有的需求,基于元數據的數據融合能夠對諸多不同醫(yī)療機構的數據進行整合;將整合后的數據按照慢病管理、公共衛(wèi)生、藥品使用情況予以分類,由集合后的數據集市對所需要數據進行抽取,之后進行計算,并對計算后的數據予以可視化呈現,便于用戶直截了當的進行觀察分析。同時,用于生成統計指標所調用到的字段,不僅能夠進行詳細的可視化展現,同時還能夠輔助用戶對數據實體間的組合與依賴關系進行理解,最終有利于客戶的選擇。
通過對平臺進行治理后,醫(yī)療大數據平臺可依據追溯數據來源及其元數據,實現了對數據的有效的控制,并且用戶可依據患者、病種、科室的具體情況對該區(qū)域的醫(yī)療信息進行詳細查看并作出相應的分析。
3.總結
伴隨著互聯網技術的不斷發(fā)展,將會出現更多的健康醫(yī)療大數據,為確保數據控制獲得較高的質量,對數據進行統一、一致的管理,保證大數據平臺的正常運行,則需要對數據進行良好的整合,而基于元數據的數據融合方式則是實現上述目標的重要方式,能夠獲得良好效果。
參考文獻:
[1]王霞,李岳峰,董方杰,胡建平,張學高.中國健康醫(yī)療大數據資源核心元數據研究[J].中國衛(wèi)生信息管理雜志,2019,16(03):268-271.
[2]王利亞,邱航,陳若雅.基于元數據可追溯性的健康醫(yī)療大數據治理方法及可視化呈現[J].中國衛(wèi)生信息管理雜志,2019,16(06):661-666.
[3]阮彤,邱加輝,張知行,葉琪.醫(yī)療數據治理——構建高質量醫(yī)療大數據智能分析數據基礎[J].大數據,2019,5(01):12-24.