高豪俊,蔣思清,吳 健*
(1.浙江大學(xué)醫(yī)學(xué)院,浙江 杭州 310058 ;2.浙江大學(xué)睿醫(yī)人工智能研究中心,浙江 杭州 310000)
糖尿病已成為當(dāng)今時(shí)代最嚴(yán)重和最常見(jiàn)的慢性病之一。2021 年全球糖尿病患者數(shù)量超過(guò)5 億人,估計(jì)患病率超過(guò)10%,預(yù)計(jì)到2045 年患者數(shù)將超過(guò)7億[1]。隨著病情的發(fā)展,糖尿病將引起諸多并發(fā)癥,影響患者的生存質(zhì)量,縮短其預(yù)期壽命,給其家庭和社會(huì)帶來(lái)巨大的經(jīng)濟(jì)負(fù)擔(dān)[2-3]。由于此病早期通常沒(méi)有癥狀,患者往往不能及時(shí)發(fā)現(xiàn)自身的疾病[4]。而通過(guò)相關(guān)早期篩查、及時(shí)干預(yù)可有效預(yù)防或延緩其并發(fā)癥的出現(xiàn)[5-6]。因此,需要開(kāi)發(fā)一種簡(jiǎn)單有效的篩查方法。目前已經(jīng)有許多研究采用機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)糖尿病,如隨機(jī)森林、支持向量機(jī)、決策樹(shù)等,并且展現(xiàn)出了優(yōu)秀的區(qū)分能力[7-10]。但這些研究對(duì)于飲酒、運(yùn)動(dòng)量、家族史等危險(xiǎn)因素均是以分類變量的形式作為模型進(jìn)行輸入。而此類信息在現(xiàn)實(shí)電子病歷系統(tǒng)中通常是以自由文本的形式保存,且由于內(nèi)容復(fù)雜,難以直接轉(zhuǎn)換為分類變量。通過(guò)模型直接利用這些文本信息更符合現(xiàn)實(shí)場(chǎng)景的需求。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,近年來(lái)飛速發(fā)展,在文本、圖像、語(yǔ)音等非結(jié)構(gòu)化數(shù)據(jù)的處理上有著出色的表現(xiàn)[11-12]。Transformer 是目前自然語(yǔ)言處理領(lǐng)域的主流架構(gòu)[13]。本文利用體檢數(shù)據(jù)中的結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù)在Transformer 架構(gòu)的基礎(chǔ)上構(gòu)建多模態(tài)糖尿病預(yù)測(cè)模型,并與其他僅能使用結(jié)構(gòu)化數(shù)據(jù)的模型進(jìn)行對(duì)比?,F(xiàn)報(bào)道如下。
數(shù)據(jù)來(lái)源為杭州市每天健康體檢與健康管理服務(wù)平臺(tái)的多家醫(yī)院健康體檢數(shù)據(jù)。這項(xiàng)研究獲得了浙江大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)倫理委員會(huì)的倫理審批(倫理審查編號(hào)ZGL202107-4)。所有患者信息均已完成去標(biāo)識(shí)化處理。我們納入2011 年至2020 年有進(jìn)行過(guò)葡萄糖耐量試驗(yàn)的體檢記錄,排除了病史中帶糖尿病描述的記錄,最終納入6 家醫(yī)院的共17 976 份體檢記錄。我們選擇其中一家醫(yī)院構(gòu)成數(shù)據(jù)集Ⅱ,作為外部驗(yàn)證集,剩余5 家醫(yī)院共同構(gòu)成數(shù)據(jù)集Ⅰ,用作模型的訓(xùn)練和內(nèi)部驗(yàn)證。
我們依據(jù)糖尿病診斷標(biāo)準(zhǔn)將數(shù)據(jù)分為兩類(0 為未患病,1 為患?。?,診斷依據(jù)包括:空腹血糖≥7.0 mmol/L、葡萄糖耐量試驗(yàn)中餐后2 小時(shí)血糖≥11.1 mmol/L 或糖化血紅蛋白≥6.5%。
我們采用空腹血糖和既往糖尿病預(yù)測(cè)模型常用的危險(xiǎn)因素來(lái)搭建模型,包括性別、年齡、體重指數(shù)、甘油三酯、收縮壓、舒張壓、腰圍、體重、家族史、病史、煙酒史。其中家族史、病史和煙酒史為文本數(shù)據(jù)。
我們參照FT-Transformer 的方法對(duì)數(shù)值型和分類型變量進(jìn)行嵌入處理[14],轉(zhuǎn)換為d 維向量表示。對(duì)于文本變量,我們采用中文預(yù)訓(xùn)練的BERT 模型進(jìn)行語(yǔ)義提取[15],再通過(guò)一層全連接層轉(zhuǎn)變?yōu)閐 維向量,同嵌入處理后的其他變量拼接后輸入Transformer 模型進(jìn)行分類預(yù)測(cè)。Transformer 模型采用2 層編碼器結(jié)構(gòu)。得益于Transformer 在多個(gè)領(lǐng)域的通用性,該模型可擴(kuò)展其他類型的數(shù)據(jù),我們將其命名為可拓展的糖尿病預(yù)測(cè)模型(extensible diabetes prediction model, EDPM)。
本文采用既往研究中表現(xiàn)較好的MLP、邏輯回歸、隨機(jī)森林、支持向量機(jī)和XGBoost 進(jìn)行對(duì)比[16-17]。所有模型均在數(shù)據(jù)集Ⅰ上進(jìn)行10 折交叉驗(yàn)證,并在數(shù)據(jù)集Ⅱ上進(jìn)行外部驗(yàn)證。由于類別存在明顯的不平衡,我們采用準(zhǔn)確率、F1 分?jǐn)?shù)、受試者工作特征曲線下面積(AUC)來(lái)評(píng)估模型性能。
各模型在內(nèi)外部驗(yàn)證集上的表現(xiàn)如表1 所示。只采用結(jié)構(gòu)化數(shù)據(jù)的情況下,傳統(tǒng)機(jī)器學(xué)習(xí)模型的表現(xiàn)最優(yōu),多數(shù)AUC 均達(dá)到0.94。引入本文數(shù)據(jù)后,EDPM 的表現(xiàn)相較無(wú)文本有了明顯提升,在外部驗(yàn)證集上的AUC(0.93)超過(guò)了其他所有模型,但在內(nèi)部驗(yàn)證集上的表現(xiàn)僅與最佳的機(jī)器學(xué)習(xí)模型相當(dāng)(AUC=0.94)。
表1 各模型在驗(yàn)證集上的表現(xiàn)
實(shí)驗(yàn)結(jié)果表明,在只采用結(jié)構(gòu)化數(shù)據(jù)的情況下,傳統(tǒng)機(jī)器學(xué)習(xí)算法依舊是當(dāng)下最優(yōu)的選擇。深度學(xué)習(xí)算法在結(jié)構(gòu)化數(shù)據(jù)上的表現(xiàn)要略差于傳統(tǒng)機(jī)器學(xué)習(xí)模型??赡苁怯捎诒砀駭?shù)據(jù)的內(nèi)容已經(jīng)是經(jīng)過(guò)人為篩選得出的,等同于已經(jīng)經(jīng)過(guò)了一次特征工程,所以不像圖像和文本數(shù)據(jù)那樣擁有豐富的特征供模型學(xué)習(xí),而且實(shí)驗(yàn)特征數(shù)量較少,使得深度學(xué)習(xí)無(wú)法發(fā)揮其在高維復(fù)雜數(shù)據(jù)上的強(qiáng)大學(xué)習(xí)能力。
加入文本后,EDPM 的AUC 有了明顯的提升。可見(jiàn)EDPM 是能夠從文本數(shù)據(jù)中學(xué)習(xí)到與糖尿病相關(guān)的信息的。飲酒、體力活動(dòng)少、紅肉攝入量高等作為糖尿病的重要風(fēng)險(xiǎn)因素[18],由于種類復(fù)雜,難以形成較為簡(jiǎn)單統(tǒng)一的記錄方式。自由文本可攜帶的信息更豐富,對(duì)于醫(yī)護(hù)人員臨床工作的開(kāi)展也更友好,是當(dāng)下對(duì)此類信息最好的記錄方式。EDPM 可以在不改變臨床醫(yī)護(hù)人員工作習(xí)慣的條件下,提高對(duì)糖尿病患者預(yù)測(cè)的準(zhǔn)確性。EDPM 還具有傳統(tǒng)機(jī)器學(xué)習(xí)所不具備的拓展能力,只要在模型輸入端加上特征提取模塊,就可以實(shí)現(xiàn)不同類型數(shù)據(jù)的多模態(tài)融合。此外,臨床上還有許多文本類型的數(shù)據(jù),如主訴、檢查報(bào)告等。這些都有望成為輔助決策的參考因素,進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性。
當(dāng)然,我們的研究也有一定的局限性。由于進(jìn)行葡萄糖耐量試驗(yàn)的人群大部分是糖尿病高風(fēng)險(xiǎn)人群,導(dǎo)致我們的數(shù)據(jù)中糖尿病患者比例要遠(yuǎn)高于正常人群,分布情況和實(shí)際篩查情況相差較大,可能對(duì)模型的表現(xiàn)造成一定的影響。盡管深度學(xué)習(xí)模型可以產(chǎn)生準(zhǔn)確的預(yù)測(cè),但其可解釋性差,常被視為黑盒模型。臨床醫(yī)生通常會(huì)因?yàn)橥评磉^(guò)程不明確而不愿意接受機(jī)器建議[19]。這是未來(lái)深度學(xué)習(xí)需要改善的一個(gè)痛點(diǎn)。