• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于ETL的心肺血管疾病專病數(shù)據(jù)庫建設(shè)與實踐

      2025-04-13 00:00:00竇一峰單淑香
      醫(yī)學(xué)信息 2025年6期
      關(guān)鍵詞:數(shù)據(jù)治理科研

      摘要:為探索心肺血管疾病患者診療數(shù)據(jù)的采集方法,構(gòu)建心肺血管疾病專病數(shù)據(jù)庫,為提高臨床醫(yī)師和科研人員提供準確全面的數(shù)據(jù)資料。本文以天津市寶坻區(qū)人民醫(yī)院心肺血管疾病患者的臨床診療數(shù)據(jù)為基礎(chǔ),采用ETL的方式實現(xiàn)多源異構(gòu)數(shù)據(jù)的抽取與轉(zhuǎn)換、數(shù)據(jù)治理、數(shù)據(jù)質(zhì)控以及數(shù)據(jù)分級分類和數(shù)據(jù)安全。完成了專病數(shù)據(jù)庫的建設(shè)并投入使用,包括11個一類域,21個二類域和866個數(shù)據(jù)單元,共計19 998例患者的數(shù)據(jù)資料,并取得了較好的應(yīng)用效果。心肺血管疾病專病數(shù)據(jù)庫能夠提升醫(yī)務(wù)工作者的科研效率,有效助力挖掘真實世界醫(yī)療數(shù)據(jù)的價值。

      關(guān)鍵詞:ETL;心肺血管疾?。粚2?shù)據(jù)庫;科研;數(shù)據(jù)治理

      中圖分類號:R-05;R563;R714.252" " " " " " " " " "文獻標識碼:B" " " " " " " " " " " " " DOI:10.3969/j.issn.1006-1959.2025.06.011

      文章編號:1006-1959(2025)06-0069-05

      Construction and Practice of Cardiopulmonary Vascular Disease Database Based on ETL

      DOU Yifeng1, SHAN Shuxiang2

      (Network Information Center1, Department of Respiratory and Critical Care Medicine2,

      Tianjin Baodi Hospital, Tianjin 301800, China)

      Abstract: In order to explore the collection method of diagnosis and treatment data of patients with cardiopulmonary vascular diseases, a database of cardiopulmonary vascular diseases was constructed to provide accurate and comprehensive data for clinicians and researchers. Based on the clinical diagnosis and treatment data of patients with cardiopulmonary vascular diseases in Tianjin Baodi Hospital, this paper uses ETL to realize the extraction and transformation of multi-source heterogeneous data, data governance, data quality control, data classification and data security. The construction of the special disease database has been complete and put into use, including 11 first-class domains, 21 second-class domains and 866 data units, a total of 19 998 patients' data, and achieved good application results. Cardiopulmonary vascular disease database can improve the scientific research efficiency of medical workers and effectively help to mine the value of real-world medical data.

      Key words: ETL; Cardiopulmonary vascular disease; Specialized disease database; Research; Data governance

      心肺血管疾病是一個世界性的公共衛(wèi)生問題。我國心肺血管疾病的發(fā)病率與致死率仍高居榜首,2019年農(nóng)村、城市心血管病分別占死因的46.74%和44.26%,每5例死亡中就有2例死于心血管病[1]。黨的二十大報告提出了要加快建設(shè)網(wǎng)絡(luò)強國和數(shù)字中國的目標。數(shù)據(jù)資產(chǎn)作為醫(yī)院資產(chǎn)的重要組成部分,在落實《“健康中國2030”規(guī)劃綱要》的精神中會發(fā)揮越來越重要的作用。全球數(shù)據(jù)總量預(yù)計在2025年增長到180 ZB以上,其中大約30%的數(shù)據(jù)量由醫(yī)療健康行業(yè)產(chǎn)生。建設(shè)心肺血管疾病專病數(shù)據(jù)庫有利于充分獲取臨床醫(yī)療數(shù)據(jù)對臨床醫(yī)師決策的支持度,以及探究不同生命體征及檢查檢驗結(jié)果對心肺血管疾病診斷的影響程度[2-4]。目前,專病數(shù)據(jù)庫建設(shè)所面臨的主要問題包括跨平臺間協(xié)同成本高,導(dǎo)致院內(nèi)各信息系統(tǒng)之間存在數(shù)據(jù)孤島;缺乏有效的數(shù)據(jù)權(quán)屬流程追溯技術(shù)手段,數(shù)據(jù)管控性較差;缺乏突破集中化大數(shù)據(jù)分析的關(guān)鍵技術(shù),技術(shù)平臺短缺;后結(jié)構(gòu)化的電子病歷數(shù)據(jù)本質(zhì)上是一種類結(jié)構(gòu)化的數(shù)據(jù),關(guān)鍵指標內(nèi)容不標準、不全面、不規(guī)范。本文以我院ESB[5,6]集成平臺建設(shè)為依托,以患者主索引建設(shè)[7,8]為主線,利用Rhapsody v6.3和Kettle v5.2軟件,建立了心肺血管疾病專病數(shù)據(jù)庫。

      1專病數(shù)據(jù)庫設(shè)計

      目前,基于真實世界數(shù)據(jù)的臨床研究成為醫(yī)學(xué)高質(zhì)量發(fā)展的新動力,臨床研究專病數(shù)據(jù)庫對于支撐臨床研究,促進醫(yī)院高質(zhì)量發(fā)展的重要性也日益凸顯[9-11]?;贓TL的心肺血管疾病專病數(shù)據(jù)庫的建設(shè)旨在滿足多學(xué)科多維度多層次的科研需求,為臨床診療和決策管理提供有力的數(shù)據(jù)支撐。在專病庫建設(shè)前期,邀請了一線臨床專家、科研人員與數(shù)據(jù)工程師等組成團隊,參考了國際疾病分類標準第10版,確定了數(shù)據(jù)采集范圍為我院出院診斷是I00-I02急性風濕熱、I05-I09慢性風濕性心臟病、I10-I15高血壓病、I20-I25缺血性心臟病、I26-I28肺源性心臟病和肺循環(huán)疾病以及I30-I52其他類型的心臟病的出院患者。

      數(shù)據(jù)的覆蓋廣度和深度是專病數(shù)據(jù)庫建設(shè)的關(guān)鍵,它從根本上決定了專病庫的使用質(zhì)量和應(yīng)用效率。因此,經(jīng)過團隊專家的討論,結(jié)合《信息安全技術(shù)健康醫(yī)療數(shù)據(jù)安全指南(GB/T 39725-2020)》中關(guān)于健康數(shù)據(jù)分類的建議,設(shè)計了由11個一類域,21個二類域和866個數(shù)據(jù)單元的組成的專病庫。數(shù)據(jù)主要來源于院內(nèi)自研的醫(yī)院信息系統(tǒng)(HIS),電子病歷系統(tǒng)(EMR),實驗室系統(tǒng)(LIS),放射影像系統(tǒng)(PACS)等7個業(yè)務(wù)系統(tǒng),涉及的醫(yī)療表單包括住院病案首頁,病程記錄,入院記錄,出院記錄,檢查報告單,檢驗報告單,住院醫(yī)囑單等21種,見表1。同時,為滿足數(shù)據(jù)提取時的可溯源性和可擴展性,每個數(shù)據(jù)單元包含主鍵、所屬類域、所屬系統(tǒng)、所屬分類、編碼、名稱、字段類型、字段長度、取值范圍、是否可空、是否有效、備注、擴展字段等13項屬性特征。

      2基于ETL的可持續(xù)數(shù)據(jù)治理

      數(shù)據(jù)治理[12-15]存在于信息系統(tǒng)全生命周期,數(shù)據(jù)治理工作融入日常業(yè)務(wù)流程。圖1展示了我院數(shù)據(jù)治理的實施路徑,通過可靠高效的數(shù)據(jù)治理實現(xiàn)構(gòu)建開放、共享、可用、可控的數(shù)據(jù)服務(wù)體系,將被動治理轉(zhuǎn)變?yōu)橹鲃又卫?,夯實智慧醫(yī)院運行基礎(chǔ),提升數(shù)據(jù)資產(chǎn)價值,實現(xiàn)醫(yī)院高質(zhì)量發(fā)展。

      2.1數(shù)據(jù)抽取與轉(zhuǎn)換" 首先,專病庫的建設(shè)需要解決業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫表結(jié)構(gòu)識別,字段內(nèi)容識別和標準數(shù)據(jù)字典轉(zhuǎn)化工作,借助Kettle工具通過傳統(tǒng)ETL技術(shù)完成[16-18]。在此階段完成后,部分對照關(guān)系明確,前期結(jié)構(gòu)化采集的數(shù)據(jù)可以寫入專病數(shù)據(jù)庫。這部分可以通過映射完成轉(zhuǎn)換數(shù)據(jù),主要包括患者人口學(xué)信息、就診記錄、檢驗報告、醫(yī)囑記錄,以及檢查報告、手術(shù)記錄、治療記錄中的時間、項目名稱、執(zhí)行科室等字段。其次,需要通過結(jié)構(gòu)化算法從自然語言文本中抽取和轉(zhuǎn)化一部分數(shù)據(jù),這部分工作需要用自然語言處理算法工具實現(xiàn),專病數(shù)據(jù)庫需要處理來自多個系統(tǒng)的數(shù)據(jù),包括 EMR 系統(tǒng)中的主訴癥狀、手術(shù)史和家族史,RIS 系統(tǒng)中的腫瘤部位和最大直徑,以及病理系統(tǒng)中的腫瘤病理學(xué)分型和病理分化程度等字段。一些字段需要利用臨床規(guī)則工具進行邏輯計算,例如:ASA分級、體重指數(shù)、就診年齡和住院天數(shù)。

      2.2數(shù)據(jù)處理" 在ETL的過程中對數(shù)據(jù)資料進行轉(zhuǎn)化處理是提高專病數(shù)據(jù)庫數(shù)據(jù)質(zhì)量的重要步驟[19,20]。主要包括對殘缺數(shù)據(jù)、錯誤數(shù)據(jù)和重復(fù)數(shù)據(jù)進行數(shù)據(jù)規(guī)約、數(shù)據(jù)整理和數(shù)據(jù)集成。心肺血管疾病專病數(shù)據(jù)庫中對于人口統(tǒng)計學(xué)信息、檢查、檢驗等結(jié)構(gòu)化數(shù)據(jù)來說,參考個人信息基本數(shù)據(jù)集、衛(wèi)生信息數(shù)據(jù)模式描述指南和衛(wèi)生信息數(shù)據(jù)元值域代碼等國家衛(wèi)生行業(yè)標準的規(guī)范,結(jié)合院內(nèi)現(xiàn)有數(shù)據(jù)標準進行映射轉(zhuǎn)換,以改進由于不同業(yè)務(wù)系統(tǒng)中使用的代碼定義不標準的問題。對于非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),采用基于自然語言處理的模型,如監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)、強化學(xué)習(xí)等方法進行醫(yī)學(xué)命名實體屬性的解析與獲取。

      2.3數(shù)據(jù)質(zhì)控" 在數(shù)據(jù)集成過程中設(shè)置數(shù)據(jù)完整性檢查,避免關(guān)鍵信息缺失。設(shè)定數(shù)據(jù)標準規(guī)則監(jiān)督,減少不規(guī)范數(shù)據(jù)的產(chǎn)生。建設(shè)多源數(shù)據(jù)質(zhì)控平臺,監(jiān)測醫(yī)療數(shù)據(jù)的一致性、關(guān)聯(lián)性、及時性等質(zhì)控問題。依托我院質(zhì)控數(shù)據(jù)庫系統(tǒng)和360全景電子病歷系統(tǒng),建立定期溝通機制,成立專項支撐組,實地調(diào)研質(zhì)控需求,每月和臨床科室進行需求研討會,討論高質(zhì)量科研數(shù)據(jù)治理和信息化對臨床科研的輔助,并指派專員跟進落實;同時,每月向臨床科室主任發(fā)布數(shù)據(jù)質(zhì)控報告,督促臨床一線從源頭完善數(shù)據(jù)質(zhì)量,并通報高質(zhì)量數(shù)據(jù)整改升級情況;針對重點項目組建由信息技術(shù)、臨床研究、數(shù)據(jù)統(tǒng)計等專業(yè)人員參與的專項支撐組,加強信息與臨床合作的深度,提升數(shù)據(jù)服務(wù)成效;組織信息化專業(yè)骨干,主動深入臨床科室,利用深度學(xué)習(xí)等技術(shù)助力臨床攻關(guān)。通過建設(shè)監(jiān)控大屏,實時動態(tài)展示數(shù)據(jù)抽取的過程,見圖2。

      2.4數(shù)據(jù)分級分類與數(shù)據(jù)安全" 有關(guān)健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見和法規(guī)中,強調(diào)了建立數(shù)據(jù)開放共享支撐服務(wù)體系和數(shù)據(jù)安全管理責任制度等,以及制定數(shù)據(jù)分類分級保護制度和指南,確定核心數(shù)據(jù)、重要數(shù)據(jù)和一般數(shù)據(jù)目錄,提出相應(yīng)保護的管理要求和技術(shù)措施,提升數(shù)據(jù)安全和個人信息保護能力?;诖耍瑢2煸谠O(shè)計上運用了脫敏和加密的方式,對于患者身份信息、聯(lián)系方式、家庭地址等信息采取半加密的方式進行展示,在獲取病案記錄和藥品費用等方面也進行了臺賬和日志的記錄。同時,我院信息系統(tǒng)均已通過《安全等級保護制度2.0》的三級等保要求。

      考慮到患者數(shù)據(jù)的隱私安全問題,我院設(shè)立了隱私安全控制的三原則。首先是政策規(guī)范制度保障,以《天津市寶坻區(qū)人民醫(yī)院醫(yī)療質(zhì)量安全核心制度》為基礎(chǔ)制定信息安全提取與控制管理制度,建立患者診療信息保護制度,使用患者診療信息應(yīng)當按照法律法規(guī)和相關(guān)文件規(guī)定,合法、依規(guī)、正當、必要、遵循醫(yī)學(xué)倫理的原則,保護患者隱私,禁止出售或未經(jīng)授權(quán)向他人或機構(gòu)提供患者的診療信息。其次是建立員工授權(quán)管理制度,根據(jù)醫(yī)療管理部門授權(quán)情況,不同員工對患者診療信息的使用權(quán)限不同。嚴格規(guī)范不同授權(quán)管理等級用戶的患者診療信息調(diào)閱和使用權(quán)限,確?;颊咴\療信息在授權(quán)范圍內(nèi)使用。最后是加強數(shù)據(jù)審計和監(jiān)管,出現(xiàn)極端情況如數(shù)據(jù)泄露時,可以第一時間溯源并將影響控制在最小范圍。

      3應(yīng)用效果

      天津市寶坻區(qū)人民醫(yī)院心肺血管專病數(shù)據(jù)庫已于2023年7月投入使用,已完成超過1億條臨床診療數(shù)據(jù)的清洗。通過專用服務(wù)器設(shè)定定時任務(wù),建立常態(tài)化的增量入庫管理機制,根據(jù)患者出院結(jié)算和病案歸檔的狀態(tài)設(shè)定每月20日執(zhí)行作業(yè)任務(wù),并設(shè)定短信和郵件報警雙重保障機制,便于及時發(fā)現(xiàn)和解決問題。截至2023年12月,已納入19 998余例患者臨床診療信息數(shù)據(jù),其中男性患者10 477例,女性患者9521例,患者平均年齡為(66.61±26.23)歲,平均住院日為4.38 d,本市患者占比為96.15%,醫(yī)保類型患者占比96.42%。

      目前,專病數(shù)據(jù)庫支持完成4項科研課題申報,研究者利用專病數(shù)據(jù)庫中涉及到的患者人口統(tǒng)計學(xué)信息和臨床診療數(shù)據(jù),構(gòu)建計算智能和機器學(xué)習(xí)預(yù)測模型,通過模型輸出輔助臨床醫(yī)生進行事前診斷決策,事后進行多因素分析和生存分析。有針對性的支持了高質(zhì)量論文的撰寫,為科研工作人員提供了清洗好和結(jié)構(gòu)化后的數(shù)據(jù),使其操作起來更加便捷,獲取數(shù)據(jù)更加及時有效,大大減少了數(shù)據(jù)整理所需要的時間,據(jù)不完全統(tǒng)計,專病庫上線前心肺相關(guān)學(xué)科的醫(yī)師獲取符合自身研究方向的科研數(shù)據(jù)要去翻閱病歷、匯總和整理數(shù)據(jù),平均要5天的時間才能完成,現(xiàn)在專病庫上線后時間減少到2小時,只需要明確知道想要什么樣的數(shù)據(jù),從數(shù)據(jù)庫提取即可。

      4總結(jié)及展望

      本文基于ETL構(gòu)建的心肺血管專病數(shù)據(jù)庫已經(jīng)在我院試運行,對于我院構(gòu)建心肺血管相關(guān)疾病患者的用戶畫像奠定了良好的數(shù)據(jù)基礎(chǔ)。同時,專病庫在單病種數(shù)據(jù)質(zhì)量控制,申報科研基金項目,參與國際、國內(nèi)多中心臨床研究,支持論文成果產(chǎn)出等以真實世界研究數(shù)據(jù)為基礎(chǔ)的研究方面會發(fā)揮出越來越重要的作用。未來,我們將繼續(xù)完善專病數(shù)據(jù)庫相關(guān)信息,加強數(shù)據(jù)分級分類治理,提高數(shù)據(jù)共享的充分性,探索形成一套標準的數(shù)據(jù)處理框架體系,通過集成多個算法,以醫(yī)療數(shù)據(jù)反哺臨床醫(yī)療,更大程度的發(fā)揮醫(yī)療數(shù)據(jù)的價值。

      參考文獻:

      [1]馬麗媛,王增武,樊靜,等.《中國心血管健康與疾病報告2021》概要[J].中國介入心臟病學(xué)雜志,2022,30(7):481-496.

      [2]張弘政,劉迷迷,李琳,等.基于通用數(shù)據(jù)模型的健康醫(yī)療大數(shù)據(jù)平臺數(shù)據(jù)治理研究[J].醫(yī)學(xué)信息學(xué)雜志,2022,43(6):2-7,13.

      [3]費曉璐,李嘉,黃躍,等.醫(yī)療大數(shù)據(jù)應(yīng)用中的數(shù)據(jù)治理實踐[J].中國衛(wèi)生信息管理雜志,2018,15(5):554-558.

      [4]袁駿毅,潘常青,李榕,等.基于臨床數(shù)據(jù)中心的冠心病專病數(shù)據(jù)庫的構(gòu)建與實現(xiàn)[J].中國衛(wèi)生信息管理雜志,2022,19(5):707-712.

      [5]秦宇.基于ESB的醫(yī)院信息集成平臺的實現(xiàn)與應(yīng)用[D].南京:東南大學(xué),2018.

      [6]劉健,宋波.基于ESB下的醫(yī)療信息集成平臺的構(gòu)建思路探索[J].中國新通信,2019,21(23):63.

      [7]王毅豪,尚詩,袁駿毅,等.基于企業(yè)級患者主索引構(gòu)建高脂血癥專病科研數(shù)據(jù)庫研究[J].中國醫(yī)學(xué)裝備,2022,19(7):116-120.

      [8]李言飛,張業(yè)武,張睿,等.面向全人群的患者主索引方案設(shè)計和管理模式研究[J].中國衛(wèi)生信息管理雜志,2022,19(2):217-221.

      [9]李菁,劉晶璟,張敏揚,等.面向獨立醫(yī)學(xué)實驗室的醫(yī)學(xué)數(shù)據(jù)治理模式探索[J].中國數(shù)字醫(yī)學(xué),2023,18(7):96-100.

      [10]韓嘯,谷宗運,趙士博,等.基于圖像分類技術(shù)在醫(yī)學(xué)影像數(shù)據(jù)治理過程中的研究與應(yīng)用[J].中國醫(yī)療設(shè)備,2023,38(4):78-83.

      [11]徐靜,高昭昇,黃岳源,等.基于全民健康信息平臺的醫(yī)療健康大數(shù)據(jù)治理方法及技術(shù)研究[J].醫(yī)學(xué)信息學(xué)雜志,2022,43(7):9-13.

      [12]黃永剛,于永強,李韜,等.綜合性醫(yī)院老年患者醫(yī)療數(shù)據(jù)治理及應(yīng)用[J].中國老年學(xué)雜志,2021,41(15):3370-3373.

      [13]閆宣辰,姚進文,陳耀龍.甘肅省健康醫(yī)療大數(shù)據(jù)治理的實踐與探索[J].甘肅醫(yī)藥,2020,39(11):1026-1030.

      [14]王壘,郭鵬飛,楊遠,等.原發(fā)性肝癌大數(shù)據(jù)建設(shè)初步探索[J].中華肝膽外科雜志,2019,25(9):695-698.

      [15]劉莉,司莉.科學(xué)數(shù)據(jù)治理實踐:內(nèi)容體系與發(fā)展趨勢[J].情報理論與實踐,2023,46(12):175-182.

      [16]張懿.基于Kettle集群的ETL管理系統(tǒng)的設(shè)計與實現(xiàn)[D].濟南:山東大學(xué),2018.

      [17]陳健,左秀然,楊國良.基于KETTLE的醫(yī)院多源異構(gòu)數(shù)據(jù)集成研究及分析[J].中國數(shù)字醫(yī)學(xué),2018,13(3):35-37.

      [18]崔友洋,崔有文.基于ETL-Kettle的中藥飲片企業(yè)商業(yè)智能研究[J].產(chǎn)業(yè)與科技論壇,2014,13(22):47-50.

      [19]李楊,劉洋,賀瑞心,等.基于Hadoop醫(yī)學(xué)數(shù)據(jù)平臺的數(shù)據(jù)清洗[J].電腦編程技巧與維護,2020(1):121-122.

      [20]趙曉婧,黃政.構(gòu)建醫(yī)院數(shù)據(jù)中臺的應(yīng)用研究[J].中國醫(yī)學(xué)工程,2022,30(11):44-47.

      收稿日期:2024-01-25;修回日期:2024-02-18

      編輯/肖婷婷

      猜你喜歡
      數(shù)據(jù)治理科研
      基于本體的企業(yè)運營數(shù)據(jù)治理
      云端數(shù)據(jù)治理初探
      關(guān)于高職院??蒲卸ㄎ坏膸c思考
      職教論壇(2016年23期)2016-11-19 09:41:06
      高??蒲许椖抗芾砑顧C制研討
      大學(xué)教學(xué)與科研關(guān)系的再辨識
      教育行動研究可促進中小學(xué)教師科研發(fā)展
      考試周刊(2016年84期)2016-11-11 00:18:44
      運用流程化手段提升資產(chǎn)管理水平
      大數(shù)據(jù)治理模型與治理成熟度評估研究
      大數(shù)據(jù)時代城市治理:數(shù)據(jù)異化與數(shù)據(jù)治理
      拉孜县| 叶城县| 罗江县| 乐亭县| 宁国市| 林周县| 宜兰市| 嘉禾县| 岚皋县| 通辽市| 泰安市| 乌恰县| 江孜县| 名山县| 台中县| 类乌齐县| 汨罗市| 文安县| 桐庐县| 万安县| 双峰县| 囊谦县| 西藏| 左贡县| 万山特区| 博客| 庆城县| 保山市| 洛阳市| 天峨县| 镇远县| 郯城县| 钟祥市| 兴文县| 宿松县| 宕昌县| 白银市| 沈丘县| 淮北市| 收藏| 洪湖市|