汪榕 胡丹丹 簡義鵬
摘? 要: 為了充分發(fā)揮醫(yī)療數據價值,圍繞醫(yī)療數據匯集、存儲、管理、應用的全生命周期進行梳理,提出構建“一體化醫(yī)療數據資源體系”的醫(yī)療數據治理思路,探索醫(yī)療數據標準化、精細化、數字化管理,從而打造數據驅動型的健康醫(yī)療應用平臺,提升醫(yī)療數據的應用效能。
關鍵詞: 醫(yī)療數據; 資源體系; 數據治理; 醫(yī)療數據應用
中圖分類號:R319? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)12-135-05
Research on the construction of integrated medical data resource system
Wang Rong1,2, Hu Dandan1,2, Jian Yipeng1,2
(1. CETC Big Data Research Institute Co.,Ltd., Guizhou, Guiyang 550022, China;
2. National Engineering Research Center of Big Data Application to The Improvement of Governance Capacity)
Abstract: To fully leverage the value of medical data, focusing on the entire lifecycle of medical data collection, storage, management, and application, the idea of medical data governance of constructing an "integrated medical data resource system" is proposed to explore the standardization, refinement, and digital management of medical data, so as to build a data-driven healthcare application platform and improve the application efficiency of medical data.
Key words: medical data; resources system; data governance; medical data applications
0 引言
健康醫(yī)療大數據作為具有重大發(fā)展前景的數字化生產要素,在提升醫(yī)療服務質量、精準防治疾病、輔助管理決策等方面具有較大的應用價值。但由于多模態(tài)醫(yī)療數據具備高復雜性特點,導致醫(yī)療數據標準化治理面臨諸多問題,如數據煙囪、數據質量參差不齊[1]、缺乏統(tǒng)一標準[2]、數據利用難度大等。因此,國家陸續(xù)發(fā)布了健康醫(yī)療大數據相關的規(guī)劃與政策,如《國家健康醫(yī)療大數據標準、安全和服務管理辦法(試行)》[3]《國務院辦公廳關于促進和規(guī)范健康醫(yī)療大數據應用發(fā)展的指導意見》[4]等,進一步規(guī)范和推動健康醫(yī)療大數據治理、融合、共享與開放應用,有力促進醫(yī)療數據治理體系的建設。
健康醫(yī)療大數據資源體系是推進健康醫(yī)療大數據應用的基礎性工程[5]。本文探討通過多個項目積累,逐步構建出一套標準的醫(yī)療數據資源體系,確保醫(yī)療數據治理在現狀評估、目標制定、流程規(guī)范建設、治理監(jiān)控管理、效果評價等各環(huán)節(jié)有效落地。
1 我國醫(yī)療數據資源體系現狀
目前,國內健康領域數據資源目錄的研究主要集中在公共衛(wèi)生、中醫(yī)藥以及國家醫(yī)藥衛(wèi)生科學數據三個方面。其中,公共衛(wèi)生領域的主要研究單位是中國疾病預防控制中心,2007年發(fā)布了《中國疾病預防控制中心信息資源管理辦法》,并組織開展了信息資源目錄編制工作。截至2022年,數據更新至2017年,共收集資源1000余項,整理信息指標超過8000個,并從中篩選了近72個有重要國計民生影響的數據庫資源,發(fā)布到中國公共衛(wèi)生科學數據中心網站,免費提供數據下載和共享服務。但仍存在數據的滯后性、完整性和準確性;共享程度的不確定性等問題。
孟群[5]等分析了健康醫(yī)療大數據發(fā)展現狀,結合我國健康醫(yī)療大數據資源的整合、共享、應用需求,參考相關行業(yè)大數據資源目錄的建設成果,研制出國家健康醫(yī)療大數據資源目錄模型。健康醫(yī)療大數據資源涵蓋了公共衛(wèi)生、中醫(yī)藥及國家醫(yī)藥衛(wèi)生科學數據,以及臨床醫(yī)療服務數據、個人健康監(jiān)測等。
2 一體化醫(yī)療數據資源體系的基本理解
2.1 基本概念
一體化醫(yī)療數據資源體系是圍繞醫(yī)療數據管理和治理需求,搭建一套集管理、方法、評價、標準、工具等體系核心能力的組合,通過統(tǒng)一的標準規(guī)范,將分散在不同機構以及相關部門的數據進行組織和整合,形成一體化醫(yī)療數據資源,從而持續(xù)服務于數據管治實施,促進醫(yī)療數據的開發(fā)和利用。
2.2 目標
在國家治理體系現代化的背景下,為推動技術、業(yè)務、數據的融合,我們提出基于一體化醫(yī)療數據資源體系的標準層、能力層、執(zhí)行層、管理層、應用層等五大建設目標,促進醫(yī)療數據流通,保障醫(yī)療數據安全,提升醫(yī)療數據價值,助力醫(yī)療數據發(fā)展與應用的愿景。其體系框架如圖1所示。
標準層建設通過創(chuàng)建標準編制工作虛擬小組及構建醫(yī)療行業(yè)數據標準體系,實現數據的協(xié)同應用;能力層主要聚焦底層共性支撐工具、醫(yī)療大數據平臺、醫(yī)療業(yè)務應用平臺等建設,實現問題工具檢查和解決的系統(tǒng)化能力;執(zhí)行層將數據治理工作落實;應用層建設確保醫(yī)療數據落地應用;管理層建設主要聚焦于醫(yī)療數據治理委員會和醫(yī)療數據治理機制建立,保障數據資源體系工作順利進行。
3 一體化醫(yī)療數據資源體系思路
在一體化醫(yī)療數據資源建設過程中將面臨一些挑戰(zhàn),例如:醫(yī)療數據資源由相關機構分權管理、出現數據煙囪的問題;需要依據信息屬性對醫(yī)療信息資源進行采集、分類、加工處理和存儲,實現信息資源的有序組織等。因此,我們針對醫(yī)療信息資源分散且缺乏有效的整合、信息采集重復且交換困難、信息交換的標準和格式混亂等問題,圍繞醫(yī)療數據共享、應用的實際需求,構建一體化醫(yī)療數據資源體系,涉及數據匯集、存儲、管理、應用的數據全生命周期,確保醫(yī)療數據治理在應用的各環(huán)節(jié)有效落地。
3.1 醫(yī)療數據匯集階段
由于醫(yī)院信息系統(tǒng)建設時間、目標和廠商不同,采用的平臺、架構、數據庫和接口方式等均有可能各不相同,導致醫(yī)療數據匯集難度大[6]。我們通過三個步驟形成長效數據匯聚機制。首先對接入醫(yī)療數據源的合規(guī)性進行核查,包括數據庫、文件、接口等類型的數據源,如果核查通過,則配置與部署數據服務,如果核查不通過,則反饋部門修正;其次全面梳理現有的醫(yī)療數據資源,具體涉及結構化數據、半結構化數據和非結構化數據;最后根據具體調研的匯集需求,由數據治理實施專項小組使用醫(yī)療大數據平臺進行數據匯集,按照匯集機制差異化進行任務配置。
3.2 醫(yī)療數據解析階段
電子病歷中的影像、“一訴五史”、病程記錄、出院小結等非結構化數據轉化成為機器可以識別的結構化數據,是發(fā)揮醫(yī)療大數據分析、決策效能,促進智慧醫(yī)療應用和發(fā)展的基礎。為此,通過醫(yī)學數據解析處理模塊中的內置預訓練圖形識別模型、自然語言處理(NLP)抽取模型、音頻解析模型和接口解析模型,根據醫(yī)療數據類型進行結構化抽取,轉換成結構化數據。通過醫(yī)學數據解析模塊進行自動后結構化處理后,便于醫(yī)療數據存儲管理,能節(jié)省業(yè)務人員大量時間,降低醫(yī)療數據治理門檻,從而有效提升醫(yī)療數據的應用水平和效率。
3.3 醫(yī)療數據規(guī)范階段
醫(yī)療數據通過數據匯集、解析后,實現了醫(yī)療數據整合匯集和結構化。但仍存在整合后的數據質量參差不齊,表數據缺失、表關鍵字段缺失等數據缺失率高,數據種類不符、亂碼、索引號混亂等現象頻發(fā),醫(yī)學術語不統(tǒng)一等問題[7]。
3.3.1 庫名和表名規(guī)范
庫名規(guī)范:按照原始數據庫、標準數據庫、主題數據庫、專題數據庫、文件數據庫、交換數據庫等六大核心醫(yī)療數據庫來統(tǒng)一。
表名規(guī)范:按照庫名_來源類別_系統(tǒng)名稱_事實表名等來統(tǒng)一。
3.3.2 元數據管理規(guī)范
元數據管理須規(guī)范,元數據應包括:完整的字段定義、與數據源的對應關系、不同數據來源元數據間的映射關系[8],元數據管理規(guī)范設計如表1所示。
3.3.3 雪花型架構設計規(guī)范
通過雪花型架構(見圖2)將數據的流向進行梳理、分析,字段及為最小分析維度,從而形成業(yè)務表單的數據流圖。對理解、發(fā)現和描述數據之間的脈絡、溯源數據錯誤、預測改動影響起到重要作用。
3.3.4 字段映射設計規(guī)范
我們針對醫(yī)療原始表對于同一業(yè)務屬性的描述不統(tǒng)一場景,如中風為腦卒中、上感應為上呼吸道感染等,通過標準規(guī)范命名規(guī)則去統(tǒng)一映射替換原始表數據值。標準規(guī)范命名規(guī)則包含世界衛(wèi)生組織制定的國際疾病分類與代碼(ICD10/ICD9)、國際醫(yī)學術語標準化與研發(fā)組織制定的系統(tǒng)化醫(yī)學術語集臨床術語版(SNOMED CT)、國家中醫(yī)藥管理局及國家衛(wèi)生健康委共同印發(fā)的《中醫(yī)病證分類與代碼》和《中醫(yī)臨床診療術語》等100余個醫(yī)學術語表,為醫(yī)療數據提供標準化映射的術語支持。
3.3.5 字段規(guī)范設計規(guī)范
將原始數據進行規(guī)范化操作后需明確使用術語服務的對象字段。通常這類字段內容具有表述簡單、意義明確、邏輯性強特征,而不是文宇描述性內容。實現相應字段服務步驟如表2所示。
3.3.6 主數據管理規(guī)范
主數據管理是對業(yè)務信息應用系統(tǒng)間多次重復使用、跨業(yè)務的數據進行集中統(tǒng)一管控,經數據治理后,共享給各個業(yè)務應用系統(tǒng)。主數據管理規(guī)范設計如表3所示。
3.4 醫(yī)療數據治理階段
數據治理是充分挖掘發(fā)揮醫(yī)療數據價值并服務于公眾的關鍵[9]。醫(yī)療數據的時間性較強,信息孤島、信息煙囪以及疾病的多發(fā)性導致存在大量的無效且冗余的數據,針對這些問題開展醫(yī)療數據治理至關重要。根據醫(yī)療數據的屬性,分為缺失數據、錯誤數據、多源數據、冗余數據等四大類數據,分別進行治理。
第一類:缺失數據可以醫(yī)療業(yè)務知識或專家經驗推測填充缺失值,以醫(yī)療同一指標的計算結果(均值、中位數、眾數等)填充缺失值;
第二類:針對格式內容(時間、日期、數值、全半角等)錯誤,采用人工收集/用戶填寫方式統(tǒng)一其格式;針對數據邏輯錯誤,采用去重和離群值(異常值)進行自動處理,針對屬性錯誤,通過屬性檢測進行篩選,篩選出屬性錯誤的數據;
第三類:針對多源數據應進行數據關聯(lián)性驗證。對于數據不滿足完整性約束,通過分析一體化醫(yī)療數據資源體系中數據字典、元數據和主數據之間的關系,進行修正;
第四類:對于明確為醫(yī)院運營和醫(yī)療科研非需要字段,應從數據集中刪除;對于尚不明確是否需要的字段,應保留相應字段。
3.5 醫(yī)療數據融合階段
醫(yī)療數據來源分散且廣泛,數據量大,成分和類型復雜,包含結構化、半結構化和非結構化數據且質量參差不齊,造成程度不一的的數據孤島現象[10]。這些問題可造成后期數據存儲代價大、數據分析處理成本增高、決策不準等[11-12],給數據融合帶來挑戰(zhàn),也使數據預處理成為必然。將數據類型與結構各異的醫(yī)療多源數據進行有效融合,為進一步促進醫(yī)療數據分析與應用提供基礎支撐。
我們主要采用維度建模方法,以表單的方式對指標進行存儲,包括主題對象明細表、主題對象匯總表。主題對象明細表主要存儲維度屬性集合和度量/原子指標;主題對象匯總表按照指標是否去重的條件進行分類存儲;數據模型設計主要有原子指標設計,即指標統(tǒng)計口徑、具體算法的抽象,可以創(chuàng)建基礎原子指標和衍生原子指標,如住院病人醫(yī)藥費用總額和住院病人人均醫(yī)藥費用。派生指標=原子指標+時間周期+(單個/多個)修飾詞+統(tǒng)計粒度,如2022年A醫(yī)院骨科住院病人人均醫(yī)藥費用等,派生指標又分為3種類型:事務型指標、存量型指標和復合型指標。
3.6 醫(yī)療數據質量評估階段
數據質量管理涵蓋準確性、完整性、一致性、時效性、可信性和可解釋性等關鍵因素,其影響醫(yī)療健康信息技術發(fā)展[13]。通過對醫(yī)療原始數據庫進行事前稽核,對醫(yī)療標準數據庫、醫(yī)療文件數據庫、醫(yī)療主題數據庫進行事中稽核,最后對醫(yī)療專題數據庫、醫(yī)療交換數據庫進行事后稽核,保障醫(yī)療數據質量全流程管理。
我們通過五個步驟實現醫(yī)療數據質量評估,首先構建醫(yī)療領域的數據質量評價指標體系框架,確定醫(yī)療數據質量評價模型;其次基于醫(yī)療領域的數據質量評價指標體系,規(guī)劃數據質量評估指標體系所對應的規(guī)則;然后通過醫(yī)療領域的數據質量評估算法模型,對醫(yī)療領域的數據質量進行稽核和評估;接著確定醫(yī)療領域數據質量評價等級,對結果進行劃分;最后在醫(yī)療數據質量模塊配置稽核規(guī)則,進行實時監(jiān)測分析。
3.7 數據治理機制建立階段
針對醫(yī)療數據安全挑戰(zhàn),以保障醫(yī)院健康醫(yī)療的數據源和業(yè)務場景安全為需求導向,結合醫(yī)院數據安全的組織建設、制度流程、技術防護、運營管控和監(jiān)管審計等要求,構建醫(yī)療數據治理機制,推進建立組織、管理、技術、運營、工具等有機融合。
大數據治理的重要環(huán)節(jié)是遵循統(tǒng)一標準管理,保證數據的規(guī)范性、流通性、安全性以及共享性,數據治理要構建合理、合法的治理機制和體系結構,以此減少數據在采集、共享、管理等過程中可能出現沖突的問題[14]。醫(yī)療數據內容管理需要強有力的措施[15],技術差異、監(jiān)管審計和運營管控機制體系不健全、組織自身管理不到位等問題導致社會中組織的力量難以被充分挖掘,影響數據治理的效能。通過建立醫(yī)療數據治理機制,明確數據信息收集處理規(guī)范和基本原則,規(guī)范其法律邊界,以保證醫(yī)療數據治理健康發(fā)展,為醫(yī)療數據治理提供支撐。如圖3所示。
4 基于一體化醫(yī)療數據資源的應用
目前很多醫(yī)院在數字化轉型過程中都會遇到異構資源管理困難、系統(tǒng)軟件選型與維護困難和生產運維困難等常見困難,依托云原生架構(見圖4),既可支撐大規(guī)模醫(yī)療業(yè)務系統(tǒng)的運行,也可將內部醫(yī)療軟硬件體系給集中管理起來,以中臺化的運作方式,支撐醫(yī)院日常業(yè)務運營。
構建云原生架構醫(yī)療信息化系統(tǒng)能夠促使醫(yī)院的整體解決方案扁平化,各醫(yī)療信息化系統(tǒng)之間的數據不再孤立,便于醫(yī)院內部數據再利用;同時基于混合云的架構模式,醫(yī)生或患者可以通過此平臺異地獲取醫(yī)院服務器數據,便于查看檢查報告、進行診療活動;降低了搭建成本,提高了開發(fā)效率,降低了運維成本。
基于云原生架構數據庫替代Hadoop生態(tài),構建區(qū)域健康大數據平臺(見圖5),能夠降低運維底層存儲、計算資源的復雜度,大幅降低系統(tǒng)搭建和運維成本,將成熟醫(yī)療數據產品采用Dass服務支撐形式,可以增強服務拓展能力,提供定制化的服務,更加個性化地貼合業(yè)務需求。
5 結束語
健康醫(yī)療大數據作為國家重要的基礎性戰(zhàn)略資源[4],正快速發(fā)展為新一代信息技術和新型健康醫(yī)療服務業(yè)態(tài)。通過一體化醫(yī)療數據資源體系研究與構建,完善醫(yī)療大數據治理制度體系,加強醫(yī)療數據治理關鍵技術能力建設,提高醫(yī)療數據的規(guī)范與標準化等方面能力,推進醫(yī)療數據開放、融合、共享與應用,助力“健康中國2030”戰(zhàn)略目標早日實現。
參考文獻(References):
[1] 姬衛(wèi)東,李琳,張振,等.互聯(lián)互通背景下醫(yī)療數據治理面臨的
問題與對策[J].中國數字醫(yī)學,2021,16(11):6-11.
[2] 龍思哲.基于數據中臺的醫(yī)院信息系統(tǒng)數據治理方案的
探討[J].當代醫(yī)學,2021,27(29):193-194.
[3] 國家衛(wèi)生健康委員會.關于印發(fā)國家健康醫(yī)療大數據標準、
安全和服務管理辦法(試行)的通知(國衛(wèi)規(guī)劃發(fā)〔2018〕23號)[EB/OL].[2018-07-12].
[4] 國務院辦公廳.關于促進和規(guī)范健康醫(yī)療大數據應用發(fā)展的
指導意見(國辦發(fā)〔2016〕47號)[EB/OL].[2016-06-24].
[5] 孟群,胡建平,董方杰,等.我國健康醫(yī)療大數據資源目錄體系
建設研究[J].中國衛(wèi)生信息管理雜志,2017,14(3):387-391.
[6] 張學高,胡建平.醫(yī)院數據治理框架、技術與實現[M].北京:
人民衛(wèi)生出版社,2019.
[7] 徐靜,高昭昇,黃岳源,等.基于全民健康信息平臺的醫(yī)療健康
大數據治理方法及技術研究[J].醫(yī)學信息學雜志,2022,43(7):9-13.
[8] 阮彤,邱加輝,張知行,等.醫(yī)療數據治理——構建高質量醫(yī)療
大數據智能分析數據基礎[J].大數據,2019,5(1):12-24.
[9] 劉璐瑤,曹航.電子健康檔案數據治理發(fā)展方向分析[J].北京
檔案,2021(6):14-19.
[10] 彭向暉,黃文強,盧春,等.多源異構數據融合系統(tǒng)及方法:
中國,CN108021670A[EB/OL].[2020-12-06].
[11] 秦愛民.基于多源異構數據融合、機器學習及客服機器人的
智能運維分析系統(tǒng):中國,CN109343995A[EB/OL],[2020-10-25].
[12] 黃鑫,張卓,黃偉,等.一種多源異枸數據的融合方法及
裝置:中國,CN107545046A[EB/OL].[2020-08-17].
[13] 張振,楊翠湄,徐靜,等.健康醫(yī)療大數據應用發(fā)展現狀與
數據治理[J].醫(yī)學信息學雜志,2022,43(7):2-8.
[14] 李曉輝.突發(fā)公共衛(wèi)生事件中數據治理的現狀、問題及
對策[J].石家莊鐵道大學學報(社會科學版),2021,15(4):2733.
[15] 費曉璐,李嘉,黃躍,等.醫(yī)療大數據應用中的數據治理實踐[J].
中國衛(wèi)生信息管理雜志,2018,15(5):554-558.
[16] 中共中央 國務院.國務院關于印發(fā)大數據發(fā)展行動綱要的
通知(國發(fā)〔2015〕50號)[Z].2015-08-30.