文/張文龍(中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院)
近年來,大數(shù)據(jù)、人工智能等新一代信息技術(shù)快速發(fā)展,正在引發(fā)臨床科研模式的變革。2021 年12 月27 日,中央網(wǎng)絡(luò)安全和信息化委員會印發(fā)《“十四五”國家信息化規(guī)劃》,明確提出“支持構(gòu)建醫(yī)療、教育領(lǐng)域規(guī)范化數(shù)據(jù)開發(fā)利用的場景,提升數(shù)據(jù)資源價值。探索人工智能在智能臨床輔助診療、智能公共衛(wèi)生服務(wù)、人工智能輔助藥物研發(fā)等方向的應(yīng)用效果。”科研大數(shù)據(jù)平臺的建設(shè)將以數(shù)據(jù)賦能醫(yī)學(xué)研究,對科研進程優(yōu)化與科研成果轉(zhuǎn)化產(chǎn)生促進作用。
中國科學(xué)技術(shù)大學(xué)附屬第一醫(yī)院(以下簡稱“中國科大附一院”)經(jīng)多年信息化建設(shè),已建成比較完備的醫(yī)院信息系統(tǒng),實現(xiàn)醫(yī)療服務(wù)與醫(yī)院管理等信息化全覆蓋。該院科研大數(shù)據(jù)平臺的建設(shè)與應(yīng)用情況具體如下。
2019 年,中國科大附一院獲評國家醫(yī)療健康信息醫(yī)院信息互聯(lián)互通標準化成熟度五級乙等(目前國內(nèi)醫(yī)療機構(gòu)已達到的最高等級),已實現(xiàn)基于企業(yè)服務(wù)總線(Enterprise Service Bus,ESB),利用數(shù)據(jù)倉庫技術(shù)(Extract-Load-Transform,ETL) 建立臨床數(shù)據(jù)中心(Clinical Data Repository,CDR),支持臨床服務(wù)于醫(yī)療管理等,但CDR 的數(shù)據(jù)用于臨床科研,除了需進一步提升數(shù)據(jù)質(zhì)量外,還存在如下問題。
該醫(yī)院科研人員通過原始的手工方式進行數(shù)據(jù)搜集。雖然在病種維度的回顧性隊列研究所需的全部數(shù)據(jù)已存在于臨床數(shù)據(jù)中心中,但由于中心數(shù)據(jù)字段不完整、結(jié)構(gòu)化程度不高等問題,系統(tǒng)無法實現(xiàn)自動關(guān)聯(lián)、篩選和導(dǎo)出,導(dǎo)致科研數(shù)據(jù)收集過程效率低下??蒲腥藛T如需分析某項病種,必須在各類信息系統(tǒng)中查找相關(guān)數(shù)據(jù),如EMR、HIS 中按診斷、手術(shù)、患者檢驗檢查結(jié)果等檢索方式查詢住院號[1]。經(jīng)人工記錄后,再前往病案系統(tǒng)中按照住院號抽取并逐份翻閱病歷,按照科研條件篩選并記錄病歷內(nèi)相關(guān)臨床信息,為篩查符合條件的病例數(shù)200 份,實際翻閱病歷可能會達到600~700 份,耗時耗力。
大多數(shù)病種存在治療時限長的問題,需要長期跟蹤患者治療情況并不斷對歷史病歷進行查找,持續(xù)對比數(shù)據(jù)。多學(xué)科參與對患者病歷歸納要求高,科研人員搜集病歷時難免出現(xiàn)遺漏情況。同時研究方向的多樣性與個體差異性,也會增加科研數(shù)據(jù)搜集難度,所以現(xiàn)有的整理手段無法滿足科研需求。無論是病歷搜集、歸檔,還是科研數(shù)據(jù)整理、精準治療均存在一定難度[2]。而且全院沒有完善的科研檢索系統(tǒng)及統(tǒng)一的信息化訪視平臺,也無業(yè)務(wù)系統(tǒng)對單一科研課題的項目組織、病歷登記、收集,文獻應(yīng)用和數(shù)據(jù)共享及集成進行管理,導(dǎo)致不斷產(chǎn)生的符合條件的新數(shù)據(jù)無法做到實時搜集。
為解決上述問題,中國科大附一院于2019 年對信息系統(tǒng)進行統(tǒng)一規(guī)劃,集中布局,建設(shè)科研大數(shù)據(jù)平臺。
該平臺建設(shè)思路包括多數(shù)據(jù)源獲取、數(shù)據(jù)的整合、數(shù)據(jù)治理、數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)應(yīng)用5 個方面。醫(yī)院2016 年進行醫(yī)院HIS 信息系統(tǒng)升級,要求業(yè)務(wù)系統(tǒng)增量數(shù)據(jù)匯集ESB 服務(wù)總線,升級前的存量數(shù)據(jù)仍存于各個業(yè)務(wù)數(shù)據(jù)庫中。針對于存量數(shù)據(jù),大數(shù)據(jù)平臺通過與業(yè)務(wù)系統(tǒng)做接口的方式實現(xiàn)一次性抽取。針對于增量數(shù)據(jù),大數(shù)據(jù)平臺通過ETL 工具實現(xiàn)數(shù)據(jù)抽取、整合與清洗,并在對照數(shù)據(jù)模型進行轉(zhuǎn)換和校驗后,統(tǒng)一匯總于多源臨床數(shù)據(jù)中心。多源臨床數(shù)據(jù)中心按照科研通用需求對數(shù)據(jù)進行整理和加工后抽取到科研數(shù)據(jù)中心(Research Data Repository,RDR)。
面對復(fù)雜廠商的業(yè)務(wù)系統(tǒng)與ESB 服務(wù)總線,中國科大附屬第一醫(yī)院明確抽取流程和抽取范圍,根據(jù)臨床與科研具體需求,確認抽取數(shù)據(jù)域包括患者出入轉(zhuǎn)域、醫(yī)囑域、結(jié)算費用域、檢查結(jié)果域、醫(yī)囑發(fā)藥域、護理體征域、病案域、電子病歷域、RIS 域、Path 域、SP 手術(shù)麻醉域、PIES 體檢域等,將數(shù)據(jù)抽取到臨床數(shù)據(jù)中心中。數(shù)據(jù)抽取后將進行自動同步工作。基于多業(yè)務(wù)數(shù)據(jù)源,截至2021 年11 月底,系統(tǒng)共完成65.21 億條原始數(shù)據(jù)轉(zhuǎn)儲。多源臨床數(shù)據(jù)中心處理并存儲19.18億條數(shù)據(jù);科研數(shù)據(jù)中心處理并存儲2.8 億條數(shù)據(jù);大數(shù)據(jù)中心總計數(shù)據(jù)存儲容量約6.2T。
基于Hadoop 大數(shù)據(jù)集群架構(gòu),以非關(guān)系倉庫HBase 為基礎(chǔ),平臺將抽取的數(shù)據(jù)保存為最細粒度的事實表。數(shù)據(jù)完整的情況下,數(shù)據(jù)中心用患者身份信息作為主索引,整合患者就診信息,并采用數(shù)學(xué)計算產(chǎn)生新的維度,例如可以通過出入院日期得出住院時長。對主數(shù)據(jù)的映射關(guān)系進行比較,有效轉(zhuǎn)換編碼數(shù)據(jù),形成統(tǒng)一的數(shù)據(jù)標準。對數(shù)據(jù)的清洗將數(shù)據(jù)量有效收斂,清除冗余或無效的數(shù)據(jù)。采用以深度學(xué)習(xí)為核心的自然語言處理技術(shù)對非結(jié)構(gòu)化文書如EMR 等進行解析形成子集,逐步實現(xiàn)結(jié)構(gòu)化文書的推理總結(jié)。將敏感的數(shù)據(jù)如人員基本信息進行脫敏處理。在原子事實表的基礎(chǔ)上完成聚集事實表的構(gòu)建與合并后存入醫(yī)院科研數(shù)據(jù)中心,根據(jù)醫(yī)生或研究者的需求,從聚集事實表中定義出符合臨床研究需求的特殊的事實表,根據(jù)后續(xù)的應(yīng)用需求可以將合并事實表固化為關(guān)系型數(shù)據(jù)庫。
為保證數(shù)據(jù)安全,平臺支持對??撇№椖拷M角色分類,劃分用戶權(quán)限和分級授權(quán),對病歷數(shù)據(jù)脫敏處理,支持將患者的姓名、身份證、電話和地址等敏感信息刪除或者做特殊字符處理,防止隱私數(shù)據(jù)泄露[3]。保證多中心或多聯(lián)盟在互聯(lián)網(wǎng)傳輸和存儲時的數(shù)據(jù)安全。針對專病種申請和數(shù)據(jù)使用有獨立的審批和審計流程,通過系統(tǒng)的水印與日志管理,實現(xiàn)數(shù)據(jù)使用全流程管控。并依據(jù)相關(guān)管理制度要求,制定相應(yīng)的數(shù)據(jù)使用審批流程。數(shù)據(jù)非必要不能導(dǎo)出,進一步保證數(shù)據(jù)安全。
依據(jù)學(xué)科建設(shè)發(fā)展和科學(xué)研究的需求,中國科大附一院已建成科研大數(shù)據(jù)平臺,該平臺可實現(xiàn)醫(yī)療數(shù)據(jù)檢索、專病庫管理、CRF 表單靈活配置與半自動填寫、定義訪視計劃以及科研結(jié)果分析與統(tǒng)計功能。
醫(yī)療數(shù)據(jù)檢索平臺可依據(jù)醫(yī)生或科研人員研究思路和需求多維度篩選病例,檢索平臺可實現(xiàn)全文檢索、病案搜索和精確檢索等多種檢索方式[4]。既可以在醫(yī)院已有的臨床數(shù)據(jù)的基礎(chǔ)上,按照醫(yī)生或科研人員常用的查詢需求建立不同的查詢視圖,如支持按照診斷、手術(shù)等各常用維度篩選病例,也可以通過對患者的臨床信息創(chuàng)建關(guān)鍵字搜索引擎索引,實現(xiàn)針對非結(jié)構(gòu)化信息的檢索。搜索結(jié)果顯示患者信息與360 就診視圖,并將查詢出來的病歷和相關(guān)影像庫保存為數(shù)據(jù)集,極大地提高了科研人員進行醫(yī)療數(shù)據(jù)檢索與提取的效率。
平臺可根據(jù)醫(yī)生和科研人員通過納排條件生成實驗組隊列,為專病管理提供一個科研進展的總覽窗口,實現(xiàn)快速瀏覽當(dāng)前項目基本信息,快速跟蹤項目搜集進度,實現(xiàn)項目組成員的權(quán)限與跟蹤,可按照“研究者、數(shù)據(jù)稽查員、隨訪員、數(shù)據(jù)錄入員、項目管理”對項目組進行角色分工等,系統(tǒng)首頁會以日歷的形式顯示當(dāng)月計劃與統(tǒng)計數(shù)據(jù)。支持臨床數(shù)據(jù)符合納排條件的患者自動篩選分組功能。采取訪視數(shù)據(jù)雙人錄入、信息二次審批確認等多種方法保障了錄入的數(shù)據(jù)的正確性和完整性,實現(xiàn)科研數(shù)據(jù)質(zhì)量管控。
項目負責(zé)人可自定義配置與編輯CRF 表單,平臺自動關(guān)聯(lián)臨床數(shù)據(jù),支持半自動化填寫。實現(xiàn)對增量的臨床數(shù)據(jù)進行自動篩查并抽取到科研病歷數(shù)據(jù),達到診療、科研數(shù)據(jù)同步采集的目的[5]。這在減少了科研人員工作量的同時,也可避免因人工采集造成的數(shù)據(jù)失真與缺失。平臺支持CRF 版本控制的功能,可實現(xiàn)不同CRF 新老版本之間切換,隨時調(diào)整,確保數(shù)據(jù)不會因為版本的變化導(dǎo)致信息流失。
打通內(nèi)外網(wǎng),平臺實現(xiàn)訪視計劃功能。隨訪客戶端基于移動端開發(fā),方便患者使用??蒲腥藛T設(shè)置隨訪規(guī)則與患者建立深度聯(lián)系。具體功能包括隨訪計劃自動制定與提醒、患者端定時通知、隨訪數(shù)據(jù)半自動填入結(jié)構(gòu)化表單、健康宣教。既實現(xiàn)了對患者的健康管理和知識科普,也準確及時地將隨訪數(shù)據(jù)傳入專病庫,完善患者全診療流程數(shù)據(jù)留存,實現(xiàn)患者健康信息的全量收集[6]。
平臺提供自帶統(tǒng)計分析和算法模塊,在無須導(dǎo)出數(shù)據(jù)借助R、SAS、SPSS 等其他統(tǒng)計軟件的情況下,生成相應(yīng)統(tǒng)計圖表,建立分析預(yù)測模型。不同的研究小組之間可以在其他課題組授權(quán)的情況下,共享和再利用數(shù)據(jù),實現(xiàn)助力科研的目的。
目前科研大數(shù)據(jù)平臺于2021 年12 月在中國科大附一院正式上線并運行,共有病例3480 余萬例,其中門診病例3320 余萬例,住院病例160 余萬例。前期上線支持血液科、綜合神經(jīng)內(nèi)科的10 余項專病的研究。同期搭建的腦血管方向?qū)2」芾砥脚_,可以有效輔助醫(yī)院提升該學(xué)科的診療水平和管理能力,逐步建設(shè)高質(zhì)量的腦血管病臨床診療中心、診斷中心和治療能力質(zhì)量提升協(xié)同中心,從而輻射帶動和示范引領(lǐng)安徽省整體腦血管病診療水平的提高。
但是在大數(shù)據(jù)平臺前期建設(shè)取得初步成效的同時,我們也清楚地看到了不足:
(1)面對門診和住院的電子病歷文件、報告等非結(jié)構(gòu)化的數(shù)據(jù),系統(tǒng)需要進行持續(xù)的深度學(xué)習(xí),逐步完善和提高醫(yī)學(xué)用語的自然語言處理能力,提升數(shù)據(jù)質(zhì)量。
(2)完善平臺隨訪體系,后續(xù)針對平臺開發(fā)通用型隨訪平臺,完善科研隨訪流程,提升患者隨訪率和就診黏性。