趙天易 雒琳 何麗云 呂曉穎 宮嫚 李筠 李少紅 李洪皎 劉佳 劉保延 艾艷珂
摘要 真實(shí)世界研究是目前中醫(yī)臨床研究的熱點(diǎn)及主要研究趨勢(shì),真實(shí)世界數(shù)據(jù)的處理是關(guān)鍵的工作之一,在這之中多源異構(gòu)數(shù)據(jù)整合是數(shù)據(jù)處理中的關(guān)鍵環(huán)節(jié),但目前中醫(yī)藥真實(shí)世界研究領(lǐng)域尚未開(kāi)展有關(guān)多源異構(gòu)數(shù)據(jù)整合的系統(tǒng)研究。本文基于文獻(xiàn)分析,總結(jié)了中醫(yī)藥真實(shí)世界數(shù)據(jù)的基本特征,多源異構(gòu)數(shù)據(jù)整合的關(guān)鍵技術(shù),梳理了多源異構(gòu)的臨床醫(yī)學(xué)大數(shù)據(jù)整合后應(yīng)用于真實(shí)世界研究的開(kāi)展情況。并闡述了多源異構(gòu)數(shù)據(jù)的整合技術(shù)及方法如何應(yīng)用于中醫(yī)藥真實(shí)世界研究中,梳理了基于數(shù)據(jù)庫(kù)研究的數(shù)據(jù)整合工作流程,展望如何利用該技術(shù)進(jìn)一步突出中醫(yī)藥臨床數(shù)據(jù)的特點(diǎn),突破中醫(yī)藥真實(shí)世界研究瓶頸,改進(jìn)相關(guān)問(wèn)題,并論述其基礎(chǔ)架構(gòu)以及具體開(kāi)展時(shí)面臨的挑戰(zhàn)。
關(guān)鍵詞 數(shù)據(jù)整合;多源異構(gòu)數(shù)據(jù);中醫(yī)藥;真實(shí)世界研究;數(shù)據(jù)庫(kù)研究;數(shù)據(jù)治理
Application and Prospect of Multi-source Heterogeneous Data Integration in Real-world Clinical Research in Chinese Medicine
ZHAO Tianyi1,LUO Lin1,HE Liyun1,LYU Xiaoying1,GONG Man2,LI Jun2,LI Shaohong1,LI Hongjiao1,LIU Jia1,LIU Baoyan3,AI Yanke1
( Institute of Basic Research in Clinical Medicine,China Academy of Chinese Medical Sciences,Beijing 100700,China; 2 Department of TCM,Senior Department of Hepatology,the Fifth Medical Center of Chinese PLA General Hospital,Beijing 100039,China; 3 China Academy of Chinese Medical Sciences,Beijing 100700,China)
Abstract Real-world research is the hot spot and the main trend of clinical research in Chinese medicine and the key to real-world research is the processing of real-world data.The top priority in data processing is the multi-source heterogeneous data integration.However,no systematic study on multi-source heterogeneous data integration in real-world research in Chinese medicine is available.Therefore,based on literature analysis,this paper summarized the basic characteristics of real-world data in Chinese medicine,the key techniques for multi-source heterogeneous data integration,and the application of integrated data to real-world research.Moreover,this paper described how the techniques and methods for multi-source heterogeneous data integration can be applied to real-world research in Chinese medicine,compared the workflow of data integration based on database research,foresaw how to use the technology to further highlight the characteristics of clinical data in Chinese medicine,break the bottleneck of real-world research in Chinese medicine,and resolve related problems,and discussed the challenges in both the infrastructure and implementation.
Keywords Data integration; Multi-source heterogeneous data; Chinese medicine; Real-world research; Database research; Data governance
中圖分類號(hào):R21文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.3969/j.issn.1673-7202.2022.05.004
隨著醫(yī)學(xué)信息化和大數(shù)據(jù)的不斷發(fā)展,隨機(jī)對(duì)照試驗(yàn)(Randomized Control Trial,RCT)等傳統(tǒng)的臨床實(shí)驗(yàn)面臨著巨大的挑戰(zhàn),基于真實(shí)世界多樣化證據(jù)的真實(shí)世界研究(Real World Study,RWS)應(yīng)運(yùn)而生。特別是在中醫(yī)藥領(lǐng)域,由于RCT的標(biāo)準(zhǔn)化研究設(shè)計(jì)并不完全適用于評(píng)價(jià)中醫(yī)辨證論治的臨床療效,因此自2010年以來(lái),中醫(yī)學(xué)界對(duì)RWS持續(xù)探索,促進(jìn)了中醫(yī)藥RWS的進(jìn)程[1]。即使已經(jīng)取得了一些成果,但RWS的整體研究水平還在起步階段。一方面,中醫(yī)藥RWS數(shù)據(jù)的非結(jié)構(gòu)化程度高、模糊性強(qiáng)、相關(guān)性強(qiáng)等問(wèn)題是數(shù)據(jù)處理的難點(diǎn)[2],特別是面臨整合來(lái)源不同、結(jié)構(gòu)不同的數(shù)據(jù)時(shí),目前尚無(wú)可行的操作標(biāo)準(zhǔn)或技術(shù)規(guī)范;另一方面,由于缺少理論研究作參考,研究人員往往無(wú)從下手或需要依照傳統(tǒng)數(shù)據(jù)處理經(jīng)驗(yàn)嘗試多次或運(yùn)用多個(gè)方法進(jìn)行處理,增大了中醫(yī)藥RWS的難度,也影響數(shù)據(jù)分析的進(jìn)程,難以獲得高質(zhì)量的研究結(jié)果。因此本文將闡述真實(shí)世界研究中多源異構(gòu)數(shù)據(jù)的定義和特征,總結(jié)現(xiàn)有的整合方法,并基于本團(tuán)隊(duì)長(zhǎng)期的工作經(jīng)驗(yàn),分析其在中醫(yī)藥領(lǐng)域中的應(yīng)用方案,為今后開(kāi)展相關(guān)工作提供參考。
真實(shí)世界數(shù)據(jù)的特征
1. 真實(shí)世界研究是中醫(yī)藥臨床研究的重要模式
20世紀(jì)90年代,我國(guó)引入了“臨床流行病學(xué)”和“循證醫(yī)學(xué)”的概念,推動(dòng)了醫(yī)學(xué)領(lǐng)域的研究進(jìn)程[3]。在循證醫(yī)學(xué)中,最高證據(jù)水平的是高質(zhì)量的RCT。但是,隨著疾病譜的改變和醫(yī)療科技的進(jìn)步,臨床診療情況日益復(fù)雜,“理想”的RCT研究結(jié)果在臨床實(shí)踐中往往不能達(dá)到“理想”的效果[4]。其主要原因在于RCT的設(shè)計(jì)和實(shí)施過(guò)程與臨床實(shí)踐有諸多不同,導(dǎo)致其臨床療效評(píng)價(jià)結(jié)果具有較高的內(nèi)部效度(Internal Validity),但其結(jié)果的外推性(External Validity)通常不高。RWS在真實(shí)的臨床、社區(qū)或家庭環(huán)境下,獲取多種數(shù)據(jù),較為客觀地評(píng)價(jià)某種干預(yù)措施或暴露因素對(duì)健康的影響[5-6],逐漸受到醫(yī)療工作者和研究人員的重視,成為醫(yī)療領(lǐng)域的研究熱點(diǎn)。
中醫(yī)藥是我國(guó)最早引入并開(kāi)展RWS實(shí)踐的領(lǐng)域,RWS的研究方法符合中醫(yī)的整體觀念,注重綜合效果的評(píng)估,但不忽略個(gè)性化治療的特征,沒(méi)有嚴(yán)格的納入和排除標(biāo)準(zhǔn),覆蓋范圍更廣,并能根據(jù)患者的具體情況選擇合適的治療方案,中醫(yī)藥學(xué)的獨(dú)特優(yōu)勢(shì)與RWS結(jié)合相得益彰[7]。因此,真實(shí)世界研究是開(kāi)展中醫(yī)臨床研究的重要模式之一。
1.2 中醫(yī)藥真實(shí)世界數(shù)據(jù)的基本特征
RWS中非常關(guān)鍵也是最復(fù)雜的工作就是對(duì)真實(shí)世界數(shù)據(jù)的采集、處理和分析。目前普遍認(rèn)為RWS的概念指來(lái)自現(xiàn)實(shí)臨床環(huán)境,反映實(shí)際診療中患者健康情況和醫(yī)生醫(yī)療服務(wù)過(guò)程的數(shù)據(jù)[8]。真實(shí)世界數(shù)據(jù)分為回顧性的常規(guī)醫(yī)療數(shù)據(jù)和根據(jù)研究目的主動(dòng)收集的前瞻性研究數(shù)據(jù)。嚴(yán)格意義上來(lái)說(shuō),現(xiàn)實(shí)中的數(shù)據(jù)主要指的是日常采集的醫(yī)療信息,比如醫(yī)院的電子病歷,這也是最早提出可利用的真實(shí)世界數(shù)據(jù)。但是隨著人們對(duì)數(shù)據(jù)的了解越來(lái)越多,這種常規(guī)采集的數(shù)據(jù)已經(jīng)不能滿足研究的要求,因此,必須根據(jù)實(shí)際情況積極地進(jìn)行數(shù)據(jù)采集[9]。常規(guī)的健康醫(yī)療數(shù)據(jù)包括醫(yī)院電子病歷數(shù)據(jù)(Electronic Medical Record,EMR)、醫(yī)保數(shù)據(jù)、體檢數(shù)據(jù)、區(qū)域健康醫(yī)療數(shù)據(jù)、健康或安全監(jiān)測(cè)數(shù)據(jù)(如藥品不良反應(yīng)自發(fā)報(bào)告數(shù)據(jù)、傳染病監(jiān)測(cè)數(shù)據(jù)、醫(yī)院感染監(jiān)測(cè)數(shù)據(jù)等)、死亡登記數(shù)據(jù)、可穿戴式設(shè)備數(shù)據(jù)及其他健康數(shù)據(jù)(如疫苗接種數(shù)據(jù))等[9];此外還有一些大型的回顧性、公共數(shù)據(jù)庫(kù),如MIMIC-Ⅲ、SEER等。這些數(shù)據(jù)來(lái)源渠道多,存在數(shù)據(jù)結(jié)構(gòu)性差、缺失多、標(biāo)準(zhǔn)不一致、數(shù)據(jù)庫(kù)間外部接口不一致等問(wèn)題,導(dǎo)致目前仍以基于單一數(shù)據(jù)來(lái)源的數(shù)據(jù)庫(kù)或數(shù)據(jù)表單開(kāi)展研究為主,如何整合多源異構(gòu)數(shù)據(jù),擴(kuò)大數(shù)據(jù)體量和維度,是真實(shí)世界數(shù)據(jù)處理的瓶頸。
對(duì)于中醫(yī)藥真實(shí)世界數(shù)據(jù)來(lái)說(shuō),則更為復(fù)雜。張俊華等[10]曾分析,數(shù)據(jù)質(zhì)量和數(shù)據(jù)分析是RWS的兩大關(guān)鍵問(wèn)題。目前RWS類型較為單一,主要是醫(yī)院集中監(jiān)測(cè)和注冊(cè)登記的觀察性研究,前者是對(duì)既往診療數(shù)據(jù)的回顧性研究,后者則是根據(jù)一定研究目的的前瞻性研究。雖然后者相對(duì)于前者能夠提前建立研究型數(shù)據(jù)庫(kù),規(guī)范數(shù)據(jù)采集的格式和流程,能夠更全面、標(biāo)準(zhǔn)地獲取數(shù)據(jù),但是二者都存在數(shù)據(jù)多源性的問(wèn)題。影像學(xué)數(shù)據(jù)、信號(hào)數(shù)據(jù)、文本數(shù)據(jù)等結(jié)構(gòu)化處理是目前研究的熱點(diǎn)[11],特別是中醫(yī)四診客觀化數(shù)據(jù)的采集和處理[12],處方數(shù)據(jù)的提取和分析[13],以及病癥非結(jié)構(gòu)化信息的提取和轉(zhuǎn)換等中醫(yī)臨床數(shù)據(jù)的處理已經(jīng)取得了一定成果[14]。但如何整合上述從不同來(lái)源和途徑采集到的中醫(yī)藥臨床數(shù)據(jù),進(jìn)一步與生物樣本數(shù)據(jù)、臨床流行病學(xué)研究數(shù)據(jù)以及臨床試驗(yàn)數(shù)據(jù)整合,解決大數(shù)據(jù)存在的異質(zhì)性,整合多種數(shù)據(jù)的優(yōu)勢(shì),更好地建立、優(yōu)化中醫(yī)辨證論治的個(gè)體化診療體系,是亟須探索的問(wèn)題。
2 多源異構(gòu)數(shù)據(jù)的特征
2. 多源異構(gòu)數(shù)據(jù)的概念
多源異構(gòu)數(shù)據(jù)類似于多模態(tài)數(shù)據(jù),但包含更多的數(shù)據(jù)類型[15]。在信息領(lǐng)域,模態(tài)可以理解為數(shù)據(jù)格式的存在,如文本格式、音頻格式、圖像格式、視頻格式等格式。各種單模態(tài)信息的共生性或并發(fā)性,統(tǒng)稱為多模態(tài)信息[16],且都是非結(jié)構(gòu)化的。多源異構(gòu)數(shù)據(jù)包含結(jié)構(gòu)化、半結(jié)構(gòu)化、無(wú)結(jié)構(gòu)化等多種形式的數(shù)據(jù),這就使得多源異構(gòu)數(shù)據(jù)的融合變得非常困難。
2.2 中醫(yī)真實(shí)世界研究中多源異構(gòu)數(shù)據(jù)的特征
中醫(yī)藥臨床真實(shí)世界數(shù)據(jù)主要包括臨床醫(yī)療數(shù)據(jù)、研究數(shù)據(jù)及健康管理采集的數(shù)據(jù)。數(shù)據(jù)來(lái)源的多樣化,混雜性較西醫(yī)數(shù)據(jù)更為明顯,且體量較大,關(guān)于一些變量定義存在模糊性[2]。此外,中醫(yī)的整體理論,即人體局部與整體的統(tǒng)一,人與自然、社會(huì)的統(tǒng)一性、關(guān)聯(lián)性和整體性的特征,形成了中醫(yī)臨床診療數(shù)據(jù)的多源異構(gòu)特性。中醫(yī)辨證論治的現(xiàn)代思維通過(guò)對(duì)癥狀的病機(jī)、病因分析,利用多樣化的數(shù)據(jù),綜合分析后實(shí)現(xiàn)對(duì)個(gè)體的對(duì)癥下藥[17],其思維集中體現(xiàn)了數(shù)據(jù)的整體系統(tǒng)性和集成綜合性。可見(jiàn)中醫(yī)藥臨床數(shù)據(jù)的復(fù)雜性更高,存在更多的冗雜數(shù)據(jù),而不同來(lái)源的數(shù)據(jù)可能對(duì)于同一中醫(yī)含義有不同的表達(dá),甚至對(duì)同一中醫(yī)診斷或癥狀有不同的采集或記錄方式,都提升了數(shù)據(jù)整合的難度。
3 多源異構(gòu)數(shù)據(jù)整合方法
多源異構(gòu)數(shù)據(jù)整合是一種多源的信息處理技術(shù),能夠根據(jù)所掌握的信息進(jìn)行推理、判斷,提高其可信度,增加可靠性,減少不確定性[18]。同一研究對(duì)象的不同數(shù)據(jù)源提供了不同方面的數(shù)據(jù),因此多源異構(gòu)數(shù)據(jù)可以彌補(bǔ)單個(gè)數(shù)據(jù)源數(shù)據(jù)不完整的不足,使所研究的數(shù)據(jù)更加充分,更加符合臨床實(shí)踐。通過(guò)消除異構(gòu)數(shù)據(jù)之間的差異和各種數(shù)據(jù)源的融合進(jìn)行相關(guān)分析,數(shù)據(jù)可以出現(xiàn)更有價(jià)值的新信息,實(shí)現(xiàn)“1+1>2”的效應(yīng)[19-20]。
微軟研究院的鄭宇將異構(gòu)數(shù)據(jù)整合方法分為3類[21]:1)基于階段的數(shù)據(jù)整合方法;2)特征級(jí)數(shù)據(jù)整合方法;3)基于語(yǔ)義的數(shù)據(jù)整合方法?;陔A段的數(shù)據(jù)整合技術(shù),整合數(shù)據(jù)產(chǎn)生過(guò)程中各個(gè)階段產(chǎn)生的數(shù)據(jù),從而達(dá)到對(duì)數(shù)據(jù)進(jìn)行分析的目的[22]。然而,本方法在每個(gè)階段,不同來(lái)源的異構(gòu)數(shù)據(jù)之間都不存在交互作用,失去了異構(gòu)數(shù)據(jù)之間的互補(bǔ)優(yōu)勢(shì),導(dǎo)致不能跨越異構(gòu)數(shù)據(jù)之間的語(yǔ)義差距來(lái)實(shí)現(xiàn)真正的內(nèi)在數(shù)據(jù)整合。
基于特征的數(shù)據(jù)整合是在特征層整合的過(guò)程中,在數(shù)據(jù)處理的中間層次進(jìn)行的。首先,提取各異構(gòu)數(shù)據(jù)的特征,再分析和處理,形成多源異構(gòu)數(shù)據(jù)的聯(lián)合特征矩陣或向量[16]?;谔卣鞯恼霞夹g(shù)所抽取的特征和對(duì)不同類型的整合方式都會(huì)對(duì)其結(jié)果產(chǎn)生重要的作用。以往基于特征的整合方法較為粗糙,即直接將多源異構(gòu)數(shù)據(jù)的特征串聯(lián)起來(lái),形成一個(gè)新的特征向量,然后用于聚類或因子分析。見(jiàn)圖1。這樣的特征整合方法忽略了多源異構(gòu)數(shù)據(jù)特征之間的冗余性,相關(guān)性和整合效果并不理想[23]。總的來(lái)說(shuō),特征級(jí)數(shù)據(jù)整合方法各項(xiàng)性能居中,綜合了其他2個(gè)方法的優(yōu)點(diǎn),沒(méi)有特別突出的缺點(diǎn)。特別是近年來(lái)人工神經(jīng)網(wǎng)絡(luò)、深度機(jī)器學(xué)習(xí)、特征壓縮聚類法、卡爾曼濾波、多假設(shè)法等多種方法的建立改善了多源異構(gòu)數(shù)據(jù)的特征,在特征整合效果上有了很大的進(jìn)步,這使得多源異構(gòu)數(shù)據(jù)整合的研究向前邁進(jìn)了一大步。
4 真實(shí)世界臨床研究中的多源異構(gòu)數(shù)據(jù)整合方法
目前,國(guó)內(nèi)外學(xué)者在整合多源異構(gòu)的真實(shí)世界數(shù)據(jù)時(shí)尚缺少詳細(xì)的通用準(zhǔn)則或者技術(shù)規(guī)范。目前僅在2021年4月由我國(guó)國(guó)家藥品監(jiān)督管理局印發(fā)的《真實(shí)世界證據(jù)支持藥物研發(fā)與審評(píng)的指導(dǎo)原則(試行)》[6]中提到了多源異構(gòu)數(shù)據(jù)的融合性,認(rèn)為在處理多源異構(gòu)數(shù)據(jù)時(shí)應(yīng)先建立通用數(shù)據(jù)模型,再通過(guò)身份標(biāo)識(shí)符將個(gè)體水平的數(shù)據(jù)集/庫(kù)準(zhǔn)確鏈接,但并未給出實(shí)際操作指導(dǎo)意見(jiàn)。
此外,真實(shí)世界臨床研究中的多源異構(gòu)數(shù)據(jù)整合的應(yīng)用多見(jiàn)于對(duì)一個(gè)病癥的描述或分析。如Dinov等[24]為研究帕金森?。≒arkinson′s Disease,PD)風(fēng)險(xiǎn)與創(chuàng)傷、遺傳學(xué)、環(huán)境、共病或生活方式之間的關(guān)系,收集了來(lái)自醫(yī)院和社區(qū)的PD患者健康檔案數(shù)據(jù)、腦影像、遺傳學(xué)、臨床和人口統(tǒng)計(jì)學(xué)數(shù)據(jù);他們先按數(shù)據(jù)特征對(duì)單個(gè)源數(shù)據(jù)進(jìn)行分類,再關(guān)聯(lián)合并,利用廣泛的分類方法來(lái)生成一個(gè)PD患者表型預(yù)測(cè),再生成可重復(fù)的基于機(jī)器學(xué)習(xí)的分類,從而能夠報(bào)告模型參數(shù)和基于新數(shù)據(jù)的診斷預(yù)測(cè)。某些學(xué)者則致力于臨床數(shù)據(jù)和生物樣本數(shù)據(jù)的整合,推動(dòng)組學(xué)研究的開(kāi)展,如高東平等[25]提出并設(shè)計(jì)了一套協(xié)同式的多中心臨床樣品生命組學(xué)信息收集、存儲(chǔ)、檢索和利用的協(xié)同網(wǎng)絡(luò)體系,實(shí)現(xiàn)對(duì)不同類型數(shù)據(jù)庫(kù)的一般數(shù)據(jù)采集、存儲(chǔ)、檢索和利用,實(shí)現(xiàn)多中心數(shù)據(jù)協(xié)同,有效地解決了多源異構(gòu)、多時(shí)序臨床樣本數(shù)據(jù)與組學(xué)數(shù)據(jù)的整合問(wèn)題,解決了臨床樣品生命組學(xué)大數(shù)據(jù)共享與利用服務(wù)問(wèn)題,為建立疾病精準(zhǔn)醫(yī)學(xué)診療各類應(yīng)用提供基礎(chǔ)支撐。此外還有學(xué)者提出標(biāo)準(zhǔn)化是開(kāi)展多源異構(gòu)數(shù)據(jù)整合的關(guān)鍵問(wèn)題,提出了標(biāo)準(zhǔn)體系構(gòu)建的思路[26]。但是上述的多源數(shù)據(jù)主要是不同來(lái)源的醫(yī)療健康數(shù)據(jù),涉及到的生物樣本數(shù)據(jù)庫(kù)可能是獨(dú)立的基因組學(xué)或蛋白組學(xué)數(shù)據(jù)庫(kù),并非來(lái)自臨床實(shí)際診療得到的檢測(cè)結(jié)果。因此,如何整合不同類型來(lái)源的真實(shí)世界數(shù)據(jù),是需要進(jìn)一步討論的問(wèn)題。
5 多源異構(gòu)數(shù)據(jù)整合在中醫(yī)藥真實(shí)世界臨床研究中的應(yīng)用
5. 多源異構(gòu)數(shù)據(jù)整合應(yīng)用的優(yōu)勢(shì)
《中醫(yī)藥信息化發(fā)展“十三五”規(guī)劃》[27]指出,中醫(yī)藥信息化將進(jìn)入實(shí)現(xiàn)“融入、整合、跨越”的關(guān)鍵時(shí)期,以國(guó)家級(jí)、省級(jí)數(shù)據(jù)中心為核心的中醫(yī)藥數(shù)據(jù)平臺(tái)將不斷收集并提供中醫(yī)藥大數(shù)據(jù)資源,如何將大規(guī)模病證結(jié)合中醫(yī)藥多源異構(gòu)數(shù)據(jù)進(jìn)行有效融合,是未來(lái)進(jìn)行中醫(yī)藥大數(shù)據(jù)深層分析應(yīng)用研究的關(guān)鍵基礎(chǔ)問(wèn)題之一。劉保延教授提出真實(shí)世界中醫(yī)臨床科研范式的核心是臨床科研一體化,其鮮明的特征是以人為中心,以數(shù)據(jù)為導(dǎo)向,以問(wèn)題為驅(qū)動(dòng),醫(yī)療實(shí)踐與科學(xué)計(jì)算交替,從臨床中來(lái)到臨床中去[28]。中醫(yī)藥臨床中的醫(yī)生對(duì)所獲取的診療數(shù)據(jù)處理就是多源、動(dòng)態(tài)的,這是中醫(yī)藥的典型特點(diǎn)。中醫(yī)師除了須通過(guò)望、聞、問(wèn)、切收集患者的四診信息,還可以結(jié)合中醫(yī)辨證采集檢查檢驗(yàn)、穿戴設(shè)備、生存環(huán)境等多樣化的數(shù)據(jù)以獲得對(duì)患者病情的綜合認(rèn)識(shí)和全面研究[29]。在臨床實(shí)踐中,中醫(yī)師應(yīng)以人為本,以解決臨床問(wèn)題為目的,完成多源異構(gòu)數(shù)據(jù)整合的工作,最終形成臨床決策,這種模式也指導(dǎo)我們?cè)陂_(kāi)展真實(shí)世界研究時(shí)建立數(shù)據(jù)整合的方法和體系。
基于整合后多源異構(gòu)數(shù)據(jù)庫(kù)的中醫(yī)藥RWS具有以下優(yōu)勢(shì):在數(shù)據(jù)完整性上,單一來(lái)源數(shù)據(jù)可能具有較強(qiáng)的偏倚性,比如現(xiàn)在多數(shù)中醫(yī)院的電子病歷數(shù)據(jù),由于日常工作量大的原因,缺少詳細(xì)的方劑/針灸處方,臨證加減的細(xì)節(jié)整體缺失,中醫(yī)診斷數(shù)據(jù)往往只有證型診斷,缺少四診數(shù)據(jù)等;在這種大量缺失的情況下,缺失數(shù)據(jù)處理不能完全解決問(wèn)題,就需要整合其他來(lái)源的數(shù)據(jù)進(jìn)行補(bǔ)充,這種情況下可以考慮整合醫(yī)療健康數(shù)據(jù)、患者日常健康記錄及相關(guān)臨床試驗(yàn)數(shù)據(jù)。在數(shù)據(jù)準(zhǔn)確性上,單一源的數(shù)據(jù)可能存在與臨床實(shí)際不符的情況,如因?yàn)樽≡簳r(shí)長(zhǎng)的要求,患者出院時(shí)的結(jié)局可能與電子病歷記錄的并不完全相符,或者在實(shí)際診療中并未及時(shí)記錄患者辨證的變化,這可能就需要整合患者在多個(gè)醫(yī)院就診的病歷數(shù)據(jù),獲取完整的診療過(guò)程??偟膩?lái)說(shuō),多源異構(gòu)數(shù)據(jù)整合應(yīng)用能夠大幅度提高現(xiàn)有中醫(yī)藥RWS的整體數(shù)據(jù)質(zhì)量,擴(kuò)大數(shù)據(jù)類型,能夠更深入地挖掘臨床數(shù)據(jù);特別是在建立數(shù)據(jù)模型時(shí),中醫(yī)“證-治-效”數(shù)據(jù)的復(fù)雜性經(jīng)常遇到難以詳細(xì)分類的情況,利用多源數(shù)據(jù)整合,有利于保證中醫(yī)特色診療數(shù)據(jù)的多樣化,促進(jìn)中醫(yī)藥臨床規(guī)律挖掘,使研究產(chǎn)生的真實(shí)世界證據(jù)更符合中醫(yī)辨證論治的臨床實(shí)踐,體現(xiàn)中醫(yī)真實(shí)療效。
5.2 中醫(yī)藥真實(shí)世界臨床研究中的多源異構(gòu)數(shù)據(jù)整合方案
建立一個(gè)通用的中醫(yī)藥RWS多源異構(gòu)數(shù)據(jù)整合體系也是非常重要的。我們?cè)诖嘶趫F(tuán)隊(duì)多年真實(shí)世界數(shù)據(jù)的處理經(jīng)驗(yàn),結(jié)合目前中醫(yī)藥以RWS數(shù)據(jù)庫(kù)研究為主的現(xiàn)狀,擬提出一套多源異構(gòu)數(shù)據(jù)整合方案。見(jiàn)圖2。
5.2. 多源數(shù)據(jù)采集 根據(jù)研究目的或研究人群收集不同來(lái)源的真實(shí)世界數(shù)據(jù),建立外部接口鏈接各數(shù)據(jù)庫(kù)外部標(biāo)識(shí)符,各數(shù)據(jù)庫(kù)之間可以根據(jù)不同變量建立標(biāo)識(shí)符,如臨床數(shù)據(jù)庫(kù)可以以患者ID鏈接,生物樣本數(shù)據(jù)庫(kù)或公共數(shù)據(jù)庫(kù)可以通過(guò)基因ID或疾病名鏈接。對(duì)于同數(shù)據(jù)源的,如同一醫(yī)療機(jī)構(gòu)下不同數(shù)據(jù)庫(kù)的整合,使用唯一患者ID整合鏈接即可。
5.2.2 數(shù)據(jù)特征分類 由于不同數(shù)據(jù)庫(kù)可能存在數(shù)據(jù)重疊,或同類型數(shù)據(jù)有不同的記錄方式或賦值方法,可對(duì)不同來(lái)源的數(shù)據(jù)按照數(shù)據(jù)結(jié)構(gòu)和診療環(huán)節(jié)2個(gè)維度進(jìn)行特征分類。識(shí)別數(shù)據(jù)結(jié)構(gòu)時(shí),將同含義的類型數(shù)據(jù)進(jìn)行不同結(jié)構(gòu)的數(shù)據(jù)轉(zhuǎn)換。如患者職業(yè),可能是以分類變量或文字?jǐn)?shù)據(jù)的形式采集的,在該環(huán)節(jié)中即應(yīng)進(jìn)行標(biāo)注,以便后續(xù)開(kāi)展數(shù)據(jù)轉(zhuǎn)換。診療數(shù)據(jù)則分為以下幾類:診斷信息(中西醫(yī)診斷、出入院診斷),病癥信息(癥狀描述、發(fā)表誘因、發(fā)病部位、嚴(yán)重程度等),治療信息(中西醫(yī)療法,中醫(yī)治療包括藥物組成、劑型、劑量、服法、用法等),預(yù)后判斷(療效判定或評(píng)估,治療結(jié)局描述等)以及臨床檢查(心/腦電圖、影像學(xué)檢查、實(shí)驗(yàn)室檢查等)。
5.2.3 數(shù)據(jù)預(yù)處理 基于本團(tuán)隊(duì)相關(guān)經(jīng)驗(yàn),想要實(shí)現(xiàn)全數(shù)據(jù)的整合是非常困難的,主要難點(diǎn)在于數(shù)據(jù)預(yù)處理。我們?cè)噲D先整合全部數(shù)據(jù)庫(kù),再進(jìn)一步利用數(shù)據(jù),但實(shí)際上各個(gè)數(shù)據(jù)庫(kù)都存在較多的冗雜數(shù)據(jù),且結(jié)構(gòu)相差甚大,很難做到完全整合。因此可以在基于所收集的數(shù)據(jù)庫(kù)/集的基礎(chǔ)上,根據(jù)現(xiàn)階段研究目的,制定數(shù)據(jù)提取計(jì)劃和質(zhì)量評(píng)估計(jì)劃。隨著工作逐漸開(kāi)展,不斷完善用于研究的整合數(shù)據(jù)庫(kù)。本環(huán)節(jié)的工作是制定一定的標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化處理,以供數(shù)據(jù)整合工作使用。預(yù)處理模塊定義了一個(gè)數(shù)據(jù)格式,根據(jù)CDSIC、ICD-11、《中醫(yī)基本名詞術(shù)語(yǔ)中英對(duì)照國(guó)際標(biāo)準(zhǔn)》《中醫(yī)臨床診療術(shù)語(yǔ)·疾病部分GB/T 16751.1-1997》《中醫(yī)臨床診療術(shù)語(yǔ)·證候部分GB/T 16751.2-1997》《中醫(yī)臨床診療術(shù)語(yǔ)·治法部分GB/T 16753.1-1997》等標(biāo)準(zhǔn)文件對(duì)數(shù)據(jù)的中醫(yī)術(shù)語(yǔ)、存儲(chǔ)格式等進(jìn)行標(biāo)準(zhǔn)化并制定數(shù)據(jù)操作規(guī)范,建立相匹配的數(shù)據(jù)字典,制定命名規(guī)則。經(jīng)過(guò)對(duì)數(shù)據(jù)進(jìn)行數(shù)值化、歸一化,如數(shù)據(jù)類型轉(zhuǎn)換和數(shù)據(jù)格式轉(zhuǎn)換(如統(tǒng)一日期格式)及數(shù)據(jù)精簡(jiǎn)后,將數(shù)據(jù)標(biāo)準(zhǔn)化輸出,提供給數(shù)據(jù)整合模塊[30]。
5.2.4 數(shù)據(jù)整合 針對(duì)不同來(lái)源的中醫(yī)真實(shí)世界數(shù)據(jù),在整合前必須明確數(shù)據(jù)傳輸協(xié)議,包括數(shù)據(jù)類型、數(shù)據(jù)提供者、數(shù)據(jù)格式、傳輸方式、傳輸頻率等。此外,還應(yīng)對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行質(zhì)量控制,如傳輸測(cè)試、一致性核查等。并對(duì)數(shù)據(jù)進(jìn)行盲態(tài)審核,最終確認(rèn)所有數(shù)據(jù)的質(zhì)疑、脫離和方案偏離、合并用藥和不良事件的發(fā)生以及分析數(shù)據(jù)集的劃分。數(shù)據(jù)清理完成后,數(shù)據(jù)庫(kù)將被鎖定,其鎖定流程、負(fù)責(zé)人及執(zhí)行文件必須預(yù)先設(shè)定。其后以同一外部標(biāo)識(shí)符合并數(shù)據(jù)庫(kù)/集,目前較常見(jiàn)的是同一樣本在不同數(shù)據(jù)庫(kù)保存有不同維度或特征的數(shù)據(jù),在整合前建立數(shù)據(jù)字典,并劃分?jǐn)?shù)據(jù)屬性;再利用外部標(biāo)識(shí)符合并數(shù)據(jù),再對(duì)合并后的數(shù)據(jù)進(jìn)行30%的抽查完成質(zhì)量評(píng)估,確認(rèn)其準(zhǔn)確性、完整性和可溯源性,并在此基礎(chǔ)之上得到可以用于研究的數(shù)據(jù)庫(kù)或數(shù)據(jù)集[31]。
5.2.5 數(shù)據(jù)分析 在數(shù)據(jù)分析階段,應(yīng)該根據(jù)子研究的具體設(shè)計(jì)和目的,在研究數(shù)據(jù)庫(kù)中按照數(shù)據(jù)提取計(jì)劃,合理地提取所需的數(shù)據(jù),提取后的數(shù)據(jù)集同樣需要按照30%的概率抽查,核對(duì)數(shù)據(jù)的準(zhǔn)確性和完整性,并最終形成可直接用于統(tǒng)計(jì)分析的數(shù)據(jù)集。
6 結(jié)論與展望
近10年來(lái),RWS在我國(guó)如火如荼地開(kāi)展,特別是在中醫(yī)藥領(lǐng)域發(fā)展迅速,取得了很多成果;但以新藥上市再評(píng)價(jià)以及中藥不良反應(yīng)的分析為主,用于療效評(píng)價(jià)特別是中醫(yī)辨證論治及個(gè)性化診療的評(píng)價(jià)還很少,這可能是受限于真實(shí)世界數(shù)據(jù)處理的難度較高。真實(shí)世界數(shù)據(jù)是醫(yī)學(xué)大數(shù)據(jù)的表現(xiàn)形式之一;作為醫(yī)學(xué)大數(shù)據(jù)的特征之一,多源異構(gòu)性為大數(shù)據(jù)分析帶來(lái)了機(jī)遇和挑戰(zhàn),具有很大的研究?jī)r(jià)值。真實(shí)世界數(shù)據(jù)的多源異構(gòu)性意味著須同時(shí)處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)整合方法在多源異構(gòu)數(shù)據(jù)整合中存在局限性,為了解決這個(gè)問(wèn)題,學(xué)者們開(kāi)展了很多研究并建立了許多新的整合方法。本文在對(duì)3種常見(jiàn)方法的比較分析后,認(rèn)為基于特征的數(shù)據(jù)整合方法更適用于中醫(yī)藥真實(shí)數(shù)據(jù)的整合,并以此為理論框架,結(jié)合中醫(yī)藥數(shù)據(jù)特點(diǎn),嘗試構(gòu)建了中醫(yī)藥RWS多源異構(gòu)數(shù)據(jù)整合工作流程,為今后開(kāi)展實(shí)際工作提供思路。做好數(shù)據(jù)整合工作,可以挖掘臨床診療數(shù)據(jù)和既往臨床試驗(yàn)數(shù)據(jù)的價(jià)值,較大程度上解決目前研究中真實(shí)世界數(shù)據(jù)完整性和準(zhǔn)確性不足、分析結(jié)果有偏倚或難開(kāi)展的問(wèn)題,有助于真實(shí)評(píng)價(jià)中醫(yī)藥的臨床療效,解決了臨床與科研脫節(jié)的問(wèn)題,有利于形成新的中醫(yī)藥臨床循證證據(jù),具有重要的理論意義和實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn)
[1]田峰,謝雁鳴.真實(shí)世界研究:中醫(yī)干預(yù)措施效果評(píng)價(jià)的新理念[J].中西醫(yī)結(jié)合學(xué)報(bào),2010,8(4):301-306.
[2]王曉麗,萬(wàn)生芳,魏昭暉,等.真實(shí)世界大數(shù)據(jù)下中醫(yī)臨床研究特點(diǎn)探析[J].世界最新醫(yī)學(xué)信息文摘,2019,19(6):244-246.
[3]劉曉清,吳東.臨床流行病學(xué)和循證醫(yī)學(xué)的學(xué)科建設(shè)[J].協(xié)和醫(yī)學(xué)雜志,2019,10(4):398-402.
[4]Jansen JP,Trikalinos T,Cappelleri JC,et al.Indirect treatment comparison/network meta-analysis study questionnaire to assess relevance and credibility to inform health care decision making:an ISPOR-AMCP-NPC Good Practice Task Force report[J].Value Health,2014,17(2):157-173.
[5]Schwartz JL.Real-World Evidence,Public Participation,and the FDA[J].Hastings Cent Rep,2017,47(6):7-8.
[6]方碧陶.國(guó)家藥品監(jiān)督管理局印發(fā)《真實(shí)世界證據(jù)支持藥物研發(fā)與審評(píng)的指導(dǎo)原則(試行)》[J].中醫(yī)藥管理雜志,2020,28(2):107.
[7]陸玉林,駱文,陸麗明.開(kāi)展真實(shí)世界中醫(yī)藥臨床研究的機(jī)遇與挑戰(zhàn)[J].中華中醫(yī)藥雜志,2021,36(8):4443-4446.
[8]Klonoff DC.The New FDA Real-World Evidence Program to Support Development of Drugs and Biologics[J].J Diabetes Sci Technol,2020,14(2):345-349.
[9]王雯,譚婧,任燕,等.重新認(rèn)識(shí)真實(shí)世界數(shù)據(jù)研究:更新與展望[J].中國(guó)循證醫(yī)學(xué)雜志,2020,20(11):1241-1246.
[10]張俊華,鄭文科,張伯禮,等.真實(shí)世界研究[J].世界中醫(yī)藥,2019,14(12):3101-3105.
[11]袁玉虎,周雪忠,張潤(rùn)順,等.面向中醫(yī)臨床現(xiàn)病史文本的命名實(shí)體抽取方法研究[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2017,19(1):70-77.
[12]王俊文.常用中醫(yī)診斷裝備檢測(cè)原理與多源信息融合方法[J].中國(guó)醫(yī)療設(shè)備,2021,36(8):157-159,164.
[13]周雪忠,劉保延,姚乃禮,等.中醫(yī)臨床數(shù)據(jù)庫(kù)及挖掘分析平臺(tái)的研究與應(yīng)用探討[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2007,9(4):74-80.
[14]原旎,盧克治,袁玉虎,等.基于深度表示的中醫(yī)病歷癥狀表型命名實(shí)體抽取研究[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2018,20(3):355-362.
[15]Samuel A,Sarfraz MI,Haseeb H,et al.A Framework for Composition and Enforcement of Privacy-Aware and Context-Driven Authorization Mechanism for Multimedia Big Data[J].IEEE Trans Multimedia,2015,17(9):1484-1494.
[16]Zhang LL,Xie YX,Xidao L,et al.Multi-source heterogeneous data fusion[C].成都:2018 International Conference on Artificial Intelligence and Big Data(ICAIBD),2018.
[17]劉保延.有關(guān)辨證論治臨床評(píng)價(jià)若干問(wèn)題的思考[J].中醫(yī)雜志,2007,48(1):12-14.
[18]康耀紅.數(shù)據(jù)融合理論與應(yīng)用[M].西安:西安電子科技大學(xué)出版社,1997:33-35.
[19]Zhang YC,Xing TT.A New Method on Analyzing Modeling of Multi-Source Information in Complicated System[J].Tien Tzu Hsueh Pao/Acta Electronica Sinica,2009,37(11):2427-2431.
[20]Beyer J,Kai H,Hauptmann W,et al.Ensemble Learning for Multi-source Information Fusion[C].Berlin Heidelberg:The Second International Conference on Image,Video Processing and Artificial Intelligence,2010.
[21]Yu Z.Methodologies for Cross-Domain Data Fusion:An Overview[J].IEEE Transactions on Big Data,2015,1(1):16-34.
[22]Pan B,Zheng Y,Wilkie D,et al.Crowd sensing of traffic anomalies based on human mobility and social media[C].Orlando:Proceedings of the 21rd ACM International Conference on Advances in Geographical Information Systems,2013.
[23]Zhang Q,Yang LT,Chen Z,et al.A survey on deep learning for big data[J].Information Fusion,2018,42:146-157.
[24]Dinov ID,Heavner B,Tang M,et al.Predictive Big Data Analytics:A Study of Parkinson′s Disease Using Large,Complex,Heterogeneous,Incongruent,Multi-Source and Incomplete Observations[J].PLoS One,2016,11(8):e0157077.
[25]高東平,王士泉,戴阿咪.融合臨床與組學(xué)數(shù)據(jù)的重大疾病生命組學(xué)協(xié)作網(wǎng)絡(luò)平臺(tái)建設(shè)初探[J].中國(guó)數(shù)字醫(yī)學(xué),2017,12(8):38-41,84.
[26]翟運(yùn)開(kāi),路薇,張瑞霞,等.多維集成視角下精準(zhǔn)醫(yī)療數(shù)據(jù)融合標(biāo)準(zhǔn)體系構(gòu)建[J].中國(guó)衛(wèi)生資源,2020,23(1):23-27.
[27]中醫(yī)藥信息化發(fā)展“十三五”規(guī)劃[N].中國(guó)中醫(yī)藥報(bào),2017,2017-01-26(3).
[28]劉保延.真實(shí)世界的中醫(yī)臨床科研范式[J].中醫(yī)雜志,2013,54(6):451-455.
[29]程小恩,溫川飆,許強(qiáng),等.基于中醫(yī)藥人工智能技術(shù)探討中醫(yī)藥大數(shù)據(jù)的典型特征[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(4):1243-1248.
[30]閆世艷,郭中寧,何麗云,等.臨床研究缺失數(shù)據(jù)多重填補(bǔ)敏感性分析方法[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(3):819-824.
[31]熊文娟.基于大數(shù)據(jù)中醫(yī)電子病歷數(shù)字化標(biāo)準(zhǔn)操作流程構(gòu)建研究[D].武漢:湖北中醫(yī)藥大學(xué),2020.
(2022-01-10收稿 本文編輯:吳珊)