李耿霖 宋文鑄 賴悅園 李煒玥 陳璐
術后并發(fā)癥是指手術操作引起的其他組織器官的損傷、缺失、功能障礙等。術后并發(fā)癥的發(fā)生不僅消耗醫(yī)療資源,同時加重患者的生活負擔,也在無形中影響醫(yī)患關系。如何減少術后并發(fā)癥的發(fā)生一直是醫(yī)學研究的熱點。術后并發(fā)癥風險預測模型的建立可以幫助醫(yī)生預測患者發(fā)生術后并發(fā)癥的可能性,可早期篩查高危風險人群,通過減少術前相關危險因素和避免術中可能引起術后并發(fā)癥的相關操作等來降低術后并發(fā)癥發(fā)生的概率。隨著人工智能技術與醫(yī)療行業(yè)的深度融合,研究者借助計算機建立神經(jīng)網(wǎng)絡模型來進行術后并發(fā)癥風險的預測,現(xiàn)對各種術后并發(fā)癥的神經(jīng)網(wǎng)絡預測模型研究進展進行綜述。
在許多醫(yī)學領域,機器學習(ML)已經(jīng)是增加診斷和預后準確性的有效工具[1]。最常用的ML算法有隨機森林、人工神經(jīng)網(wǎng)絡和Logistic回歸[2]。人工神經(jīng)網(wǎng)絡是通過模擬人類腦神經(jīng)元處理信息的邏輯方式而建立的模擬邏輯算法,擁有強大的信息處理和分析能力。1943年McCulloch和Pitts提出的M-P模型標志著人工神經(jīng)網(wǎng)絡的誕生[3]。目前人工神經(jīng)網(wǎng)絡已經(jīng)發(fā)展出多種類型,包括前饋神經(jīng)網(wǎng)絡(FNN)和遞歸神經(jīng)網(wǎng)絡(RNN)等,并在醫(yī)學診斷及醫(yī)學決策領域發(fā)揮作用[4]。
盡管人工神經(jīng)網(wǎng)絡種類繁多,結構各異,但大致可分為輸入層、隱含層和輸出層。在輸入層中設定好數(shù)據(jù)的特征變量,即可能導致最終結果的因素,數(shù)據(jù)集經(jīng)過標準化處理后輸入系統(tǒng)。隱含層有多個節(jié)點,信息在此進行處理加工,進行神經(jīng)元的擬合,神經(jīng)元間通過不同權值以不同強度建立非線性連接,而后在輸出層得到擬合結果。通常采用受試者工作曲線(ROC)中曲線下面積(AUC)、準確度、敏感度、F1測量值(F1)等指標評價模型的預測效果。
2.1 前饋神經(jīng)網(wǎng)絡 目前,基于人工神經(jīng)網(wǎng)絡的術后并發(fā)癥風險預測模型多采用前饋神經(jīng)網(wǎng)絡。常見的模型有多層感知器、卷積神經(jīng)網(wǎng)絡、BP神經(jīng)網(wǎng)絡等。Hofer等[5]建立了3個前饋神經(jīng)網(wǎng)絡模型用于預測術后急性腎損傷(AKI)、再插管和死亡率,模型具有完全連接層,采用梯度下降算法。輸入的數(shù)據(jù)集來自UCLA大學59 981例手術病例,其中80%為訓練集,20%為測試集。輸入層采用藥物劑量、失血量、生命體征等46個特征變量。并測試了一個多任務學習模型,該模型被用于綜合預測每種并發(fā)癥的可能性。而后將人工神經(jīng)網(wǎng)絡模型與傳統(tǒng)ASA評分進行比較。結果顯示,各項目中預測效果最好的神經(jīng)網(wǎng)絡模型在各個方面均優(yōu)于ASA評分。預測AKI效果最優(yōu)模型的AUC為0.792,預測再插管效果最優(yōu)模型的AUC為0.879,預測死亡率效果最優(yōu)模型的AUC為0.907,綜合預測并發(fā)癥效果最優(yōu)模型的AUC為0.874。該實驗顯示,使用人工神經(jīng)網(wǎng)絡可以建立預測效果優(yōu)于傳統(tǒng)ASA評分的預測模型。
2.1.1 多層感知器(MLP) MLP是一種多層前饋人工神經(jīng)網(wǎng)絡,可以將輸入的多個數(shù)據(jù)集映射在單一的輸出數(shù)據(jù)集上,多采用乙形函數(shù)作為激活函數(shù)。Cao等[6]采用斯堪的納維亞肥胖手術登記(SOReg)的患者數(shù)據(jù)構建基于MLP、卷積神經(jīng)網(wǎng)絡(CNN)、RNN 3種人工神經(jīng)網(wǎng)絡的術后并發(fā)癥風險預測模型。訓練集采用2010~2014年在SOReg中注冊登記的37 811例患者數(shù)據(jù),測試集采用2015年的6 250例患者數(shù)據(jù)。輸入層采用患者年齡、糖化血紅蛋白、BMI、WC、手術年份5個連續(xù)特征和性別、睡眠呼吸暫停等11個二元特征。輸出結果為是否在術后30天內出現(xiàn)Clavien-Dindo分級中3b級以上的嚴重術后并發(fā)癥。考慮到嚴重術后并發(fā)癥的低發(fā)生率(3.2%),采用合成少數(shù)類過采樣技術(SMOTE)生成一個SMOTE數(shù)據(jù)集用于訓練,以解決數(shù)據(jù)類別不平衡問題。結果顯示,采用SMOTE數(shù)據(jù)集訓練后的三類人工神經(jīng)網(wǎng)絡AUC均有所提升,其中MLP模型的性能最為理想,AUC從0.60提升至0.84;CNN模型的效果與之相似,AUC從0.58提升至0.79;而RNN模型的最高AUC僅為0.65,未能達到預期值。但在測試集中,三類模型測試集的AUC均明顯低于訓練集,顯示神經(jīng)網(wǎng)絡存在明顯的過擬合,這可能是因為SOReg中缺乏部分重要的圍術期特征,可以從其他數(shù)據(jù)庫中提取更多患者特征加以改進。He等[7]提出了一種基于改良MLP的肺癌術后風險并發(fā)癥預測模型,稱為醫(yī)學多層感知器(MediMLP),并且將MediMLP和Grad-CAM算法在一個共享模型中同時執(zhí)行,使得該模型可以同時執(zhí)行預測患者是否會有術后并發(fā)癥的二元分類任務和發(fā)生何種術后并發(fā)癥的三元分類任務。輸入數(shù)據(jù)集采用華西醫(yī)院胸外科8 459例術后患者的電子病歷(EMRs),輸入層采用患者姓別、年齡、手術史等72個特征變量。使用真實分布率(TPR)、F1、AUC和精度(ACC)作為二元分類的指標,結果表明,MediMLP各項指標均優(yōu)于傳統(tǒng)MLP。使用微TPR、微F1和漢明損失作為多標簽分類的評估指標,將Grad-CAM與其他特征選擇方法做比較,Grad-CAM的三項指標結果為0.618、0.602、0.053,顯示出良好的特征提取性能,并發(fā)現(xiàn)留置引流管時間是影響術后并發(fā)癥的首要關鍵特征。但由于數(shù)據(jù)集不夠大,導致提取的關鍵特征變量過少,無法全面評估影響術后并發(fā)癥的因素。考慮到PCP通常使用X線圖像,可以嘗試通過X線圖像將肺癌PCP的MediMLP擴展到CNN。
2.1.2 CNN CNN是一種含有卷積計算的具有深層結構的多層神經(jīng)網(wǎng)絡。這種模型可把特征提取、下采樣和傳統(tǒng)的神經(jīng)網(wǎng)絡整合起來,直接使用圖像像素進行特征變量的識別分析[3]。Wei等[8]構建了基于CNN的PET-CT監(jiān)測模型,用于監(jiān)測非小細胞肺癌(NSCLC)患者術后肺炎病毒感染風險。輸入集采用120例NSCLC患者的病例特征,將患者隨機分為A組(CT)、B組(PET-CT)、C組(基于人工神經(jīng)網(wǎng)絡模型的PET-CT)、D組(基于CNN模型的PET-CT診斷),每組30例,并進行感染監(jiān)測。結果表明,基于CNN模型的PET-CT圖像識別的準確率(ACC)、敏感度和特異性分別為99.31%、100%和98.31%。D組患者手術傷口感染率和肺部感染率分別為6.54%和15.38%,低于其他三組(P<0.05)。A組、B組、C組、D組患者術后并發(fā)癥發(fā)生率分別為32.4%、30.2%、28.75和8.7%,由此可見,基于CNN模型的PET-CT圖像在NSCLC患者術后肺炎病毒感染監(jiān)測中具有較好的準確性、敏感度和特異性,可有效預防患者肺部和手術傷口感染,提高患者術后恢復效果。但由于樣本量過少,該模型缺乏代表性。Rouzrokh等[9]構建了一個CNN模型以評估全髖關節(jié)置換術(THA)后髖關節(jié)脫位風險。該模型采用13 970例原發(fā)性THA患者在5年隨訪期間的影像學表現(xiàn),包括1 490張脫位THA的X線片。訓練CNN目標檢測模型(YLO-V3),以股骨頭為中心裁剪圖像。訓練ResNet18分類器,以根據(jù)裁剪成像預測隨后的髖關節(jié)脫位。ResNet18分類器使用ImageNet權重初始化,并使用PyTorch上運行的FastAI(V1.0)進行訓練。該模型平均性能(標準偏差)準確度為49.5(4.1%),敏感度為89.0(2.2%),特異性為48.8(4.2%),陽性預測值為3.3(0.3%),陰性預測值為99.5(0.1%),AUC為0.767(3.6%),顯示該模型最重視股骨頭和髖臼組件。該模型具有較好的敏感度和陰性預測值,有助于臨床醫(yī)生基于影像預測模型判斷術后髖關節(jié)脫位風險。Ye等[10]基于CNN和偏移特征(MF),在深度偏移特征算法下進行超聲圖像引導肝癌微波消融效果研究。構建了一種新的超聲圖像診斷算法CNNMF,記錄術后消融點、并發(fā)癥及消融時間。與基于主成分分析(PCA)和反向傳播(BP)的AdaBoost和PCA-BP算法比較準確度、特異性、敏感度,并計算了3種算法的F1值。CNNMF算法的4項數(shù)據(jù)分別為96.31%、89.07%、91.26%和0.79%,明顯大于AdaBoost和PCA-BP算法。與傳統(tǒng)算法相比,CNNMF算法對肝癌超聲圖像具有更好的診斷性能。Zheng等[11]建立CNN模型對MRI和CT圖像進行處理,然后對圖像信息進行統(tǒng)計分析,探究基于深度學習的CT和MRI圖像在肝癌介入治療評價中的作用。深度學習模型處理后的MRI和CT圖像增強區(qū)域的殘差情況分割效果較好,能準確顯示病變的存在,診斷效率在0.7以上。Zhu等[12]建立了基于CNN的術后股骨頭壞死的風險預測模型。利用X線平片混合患者變量開發(fā)的深度學習方法,使用術后盆腔X線片和輸出回歸X線片變量訓練了CNN模型?;旌狭芯€圖基于患者和X線片變量來確定預測性能,與單獨的臨床方法相比,神經(jīng)網(wǎng)絡提升了列線圖的臨床價值。Yoon等[13]依據(jù)AO/OTA分類方法,建立基于神經(jīng)網(wǎng)絡的CT圖像自動多分類股骨粗隆間斷裂檢測模型。根據(jù)骨折位置對原始CT圖像進行調整和重排,并應用非銳化掩蔽濾波器。使用快速區(qū)域CNN(R-CNN)對9種不同類型的IT骨折和無骨折進行多分類,同時采用貝葉斯優(yōu)化方法來確定最優(yōu)的超參數(shù)值。該研究提出的自動多分類IT股骨骨折檢測模型可以讓臨床醫(yī)生更快、更準確地識別骨折區(qū)域,診斷不同類型的股骨骨折。Elhage等[14]使用常規(guī)術前影像的神經(jīng)網(wǎng)絡模型從369例患者和9 303張圖像中開發(fā)并驗證了3個神經(jīng)網(wǎng)絡模型。計算每個模型的AUC、準確度、敏感度和特異性并進行比較。結果顯示,手術復雜性預測模型AUC為0.744,感染預測模型AUC為0.898,性能較好,且手術復雜性風險預測模型較專家醫(yī)生更準確;預測術后肺衰竭的模型AUC為0.545,效果較差。說明基于術前常規(guī)成像構建的人工神經(jīng)網(wǎng)絡模型可較好地預測腹壁重建手術的復雜性和術后感染情況。顯然,CNN在圖像分析方面擁有獨特優(yōu)勢,但由于身體結構影像具有復雜性和多變性,模型需要學習大量的影像圖片。
2.1.3 BP神經(jīng)網(wǎng)絡 BP神經(jīng)網(wǎng)絡是基于誤差反向算法的多層前饋網(wǎng)絡,其核心是梯度下降法[15]。Xu等[16]構建了一個基于BP神經(jīng)網(wǎng)絡的胃腸道腫瘤手術后疲勞(POF)的風險預測模型。輸入數(shù)據(jù)集采用598例患者數(shù)據(jù),POF總發(fā)生率為58.7%,其中463個樣本用于訓練集。輸入層采用Logistic回歸篩選的7個特征變量共19個單元,包括腫瘤分期、社會支持等。該模型的敏感度為88.60%,特異性為74.87%,AUC為0.892[95%CI(0.860,0.919)],預測性能優(yōu)于Logistic回歸和分類回歸樹(CART)模型。
2.2 RNN Rank等[17]利用RNN對術后AKI進行預測,且能夠在癥狀出現(xiàn)之前預測術后AKI。在常規(guī)采集96個參數(shù)的基礎上,建立了用于心肺術后AKI實時預測的RNN。訓練集從15 564個數(shù)據(jù)中挑選2 224個,獨立測試集為350個患者數(shù)據(jù)。得出AUC為0.893[95%CI(0.862,0.924)]。但獨立測試集的數(shù)據(jù)過少,評估結果還有待驗證。Wang等[18]建立了嵌入式電子病歷(EMR)信息知識體系,收集8個臨床科室首頁的患者病歷和疾病診斷代碼數(shù)據(jù)進行統(tǒng)計分析。采用自然語言處理-雙向遞歸神經(jīng)網(wǎng)絡(NLP-BIRNN)算法對病歷進行優(yōu)化。將BIRNN與CNN和RNN在準確度、癥狀準確率和癥狀回憶率方面進行了比較,表明該神經(jīng)網(wǎng)絡具有較高的價值。改良的RNN可以對EMR數(shù)據(jù)進行預處理,包括數(shù)據(jù)處理、清理和篩選。NLP-BIRNN的準確度、癥狀準確率和癥狀回憶率均優(yōu)于CNN和未優(yōu)化RNN模型。
2.3 結合特殊特征變量篩選及分類的人工神經(jīng)網(wǎng)絡 特征變量篩選可以剔除無意義的臨床指征分析,減少神經(jīng)網(wǎng)絡的過擬合,同時利于模型更準確地指出各關鍵因素對并發(fā)癥的影響程度。Farrokhi等[19]建立了4個基于ANNs的深部腦刺激手術(DBS)術后并發(fā)癥預測模型。輸入數(shù)據(jù)集采自501例接受DBS手術患者。采用Logistic回歸分析評價危險因素,特征變量包括年齡、性別、BMI、臨床診斷、吸煙史、免疫抑制、高血壓(手術后90天內服用藥物)、糖尿病診斷、手術靶點(VIM、STN、GPi)和手術側(左、右、雙側)。采用SMOTE平衡數(shù)據(jù)類別,采用中位數(shù)插補法處理連續(xù)變量缺失值。最佳模型在預測任何并發(fā)癥(AUC 0.86)、12個月內的并發(fā)癥(AUC 0.91)、返回手術室(AUC 0.88)和感染(AUC 0.97)時表現(xiàn)出較高的辨別能力。并分析出年齡、體質指數(shù)、手術側、性別和帕金森病的診斷是有影響的特征。Mai等[20]也建立了一個結合Logistic回歸分析識別自變量的神經(jīng)網(wǎng)絡模型,以預測接受半肝切除術的肝細胞癌患者后嚴重肝衰竭風險。輸入數(shù)據(jù)集為353例患者數(shù)據(jù),輸入層采用血小板計數(shù)、凝血酶原時間、總膽紅素、天門冬氨酸轉氨酶和標準化的未來肝臟殘存量5個特征變量,訓練集AUC為0.880[95%CI(0.836,0.925)],測試集AUC為0.876[95%CI(0.801,0.950)],顯示了良好的擬合效果和性能,有助于外科醫(yī)生識別中高危風險。但以上兩種模型的樣本量均過小,需要在更多臨床數(shù)據(jù)訓練下進一步驗證模型性能。
Han等[21]構建了一個帶遞歸特征消除(RFE)算法的神經(jīng)網(wǎng)絡,用于預測胰十二指腸切除術術后胰瘺(POPF)的發(fā)生率。RFE是一種特征選擇方法,用于識別最終神經(jīng)網(wǎng)絡模型中使用的特征子集,該方法去除關聯(lián)最弱的特征變量,直到達到最大AUC。輸入數(shù)據(jù)集采集自三星醫(yī)療中心的1 769例接受胰十二指腸切除術患者,輸入層采用手術前血清C反應蛋白、淀粉酶、脂肪酶和糖類抗原(CA)等38個特征變量,采用中位數(shù)插補法處理連續(xù)變量缺失值。未使用RFE算法的神經(jīng)網(wǎng)絡模型AUC為0.71,使用RFE算法后AUC提升至0.74。通過AI算法確定了16個POPF的危險因素:胰管直徑、體質指數(shù)、術前血清白蛋白、脂肪酶水平、術中輸液量、年齡、血小板計數(shù)、胰腺外腫瘤位置、聯(lián)合靜脈切除、合并胰腺炎、新輔助放療、美國麻醉醫(yī)師協(xié)會評分、性別、胰腺軟組織、潛在心臟病和術前內鏡膽道減壓。該應用程序已免費發(fā)放于網(wǎng)絡平臺,可用于選擇需要特別強化治療的患者,并在術前制定有效的治療策略。
將輸入數(shù)據(jù)集進行術前、術中、術后數(shù)據(jù)分類,可以獨立判斷不同類別的數(shù)據(jù)是否有利于預測性能。Xue等[22]建立了邏輯回歸、支持向量機、隨機森林、梯度增強樹(GBT)和深度神經(jīng)網(wǎng)絡(DNN)5種機器學習模型用于預測AKI、譫妄、深靜脈血栓形成(DVT)、肺栓塞(PE)和肺炎5種術后并發(fā)癥的風險。輸入數(shù)據(jù)集采集自111 888例患者,分為術前和術中兩個數(shù)據(jù)集,并將特征變量分為54個術前變量和16個術中變量。采用固定值插補法等多種方法處理缺失數(shù)據(jù),并測試缺失數(shù)據(jù)集對于模型預測性能的影響。DNN模型對于PE的預測效果最好,AUC為0.831[95%CI(0.824,0.839)]。僅使用術前數(shù)據(jù)集的預測性能優(yōu)于僅使用術中數(shù)據(jù)集的預測性能;聯(lián)合數(shù)據(jù)集對所有并發(fā)癥的預測性能最好。然而,僅使用術前數(shù)據(jù)集的模型表現(xiàn)幾乎相同。聯(lián)合數(shù)據(jù)集和術前數(shù)據(jù)集之間的AUC差值:肺炎為0.019,AKI為0.032,DVT為0.016,PE為0.009,譫妄為0.002,可見術中數(shù)據(jù)集對于模型的預測性能影響較小。當添加輸入數(shù)據(jù)缺失的變量時,不同輸出結果的模型AUC均有一定程度的增加。Bhandari等[23]建立了一個神經(jīng)網(wǎng)絡模型用于預測影響患者術后恢復的手術中事件(IOE)和手術后事件(POE)。該模型包含兩個密集層,每個密集層后有一個dropout層,以防止網(wǎng)絡的過擬合,密集層采用整流線性單元(ReLU)進行非線性激活,輸出層采用Sigmoid激活函數(shù),使用Adam優(yōu)化器對所有模型進行訓練以最小化函數(shù)損失。輸入數(shù)據(jù)集采集自Vattikuti集體質量倡議(VCQI)中接受機器人輔助的腎部分切除術患者。IOE發(fā)生率為5.62%,POE發(fā)生率為20.98%。IOE預測模型使用1 690例患者和38個特征變量的數(shù)據(jù)構建;最佳模型AUC為0.858 [95%CI(0.762,0.936)],PR-AUC為0.590[95%CI(0.400,0.759)]。使 用1 406例 患 者和59個變量的數(shù)據(jù)對預測模型進行訓練;最佳模型AUC為0.875[95%CI(0.834,0.913)],PR-AUC為0.706[95%CI(0.610,0.790)]。該模型可以預測影響患者術后恢復效果的術中和術后操作,通過模型的隱含層設計較好地解決過擬合問題,未來可以在大量數(shù)據(jù)的訓練下進一步提升擬合性能。
許多神經(jīng)網(wǎng)絡模型在術后并發(fā)癥的預測中有良好的擬合效果,AUC可達0.7以上,基于不同算法的神經(jīng)網(wǎng)絡模型在不同領域各有優(yōu)勢,為臨床研究提供了多樣化的選擇。研究者可以在單一神經(jīng)網(wǎng)絡基礎上加以改進和融合,使得預測工具的適用范圍更廣。但是,缺乏足夠的訓練集數(shù)據(jù)進行學習、存在過擬合現(xiàn)象、缺乏臨床實踐檢驗等問題尚存在于現(xiàn)有模型中。輸入數(shù)據(jù)的缺失,以及不恰當?shù)臉藴驶幚硎沁^擬合的主要原因。采用SMOTE技術可有效解決癥狀發(fā)生率過低而導致的數(shù)據(jù)類別不平衡,插補法可用于處理連續(xù)變量的缺失值。Logistic回歸可分析結局事件的獨立影響因素[24],RFE算法可以識別關聯(lián)性弱的特征變量,輸入層使用篩選后的特征變量,可以減少模型的過擬合,提高模型的擬合效果。也可優(yōu)化設計模型隱含層,如嘗試使用不同的隱含層數(shù),使用dropout層等。此外,建立人工神經(jīng)網(wǎng)絡對于編碼人員的要求較高,編碼人員對主要診斷選擇和疾病分類編碼都會影響模型的性能。人工神經(jīng)網(wǎng)絡模型的建立與完善有助于制定更合理的治療方案和術后護理措施。醫(yī)生可根據(jù)不同??频氖中g,在相應模型研究的基礎上,綜合考慮相關影響因素,選擇最優(yōu)神經(jīng)網(wǎng)絡模型,避免高危因素,以降低患者發(fā)生術后并發(fā)癥的概率,減輕患者痛苦。