齊巧娜,劉 艷,陳霽暉,劉昕竹,楊 銳,張津源,崔夢璇,謝藝萌,王則遠,于 澤,高 飛,張 健
1北京諾道醫(yī)學(xué)認知科技有限公司,北京 100161;2上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院臨床藥學(xué)部,上海200092
隨著醫(yī)療信息化的飛速發(fā)展,醫(yī)療大數(shù)據(jù)呈爆炸式增長。醫(yī)療大數(shù)據(jù)包含患者在疾病診療過程中產(chǎn)生的全部數(shù)據(jù),包括醫(yī)生處方、電子病歷、生命體征、醫(yī)學(xué)成像、檢驗檢查、藥物治療、醫(yī)療保險等數(shù)據(jù)。通過對醫(yī)療大數(shù)據(jù)的深入挖掘,可促進個性化醫(yī)療、優(yōu)化診療手段和提高診療效率[1-3]。人工智能作為計算機科學(xué)的一個新的技術(shù)分支,它試圖通過獲取、表示和使用知識來不斷改善性能和自我完善,而賦予計算機類似于人類的學(xué)習(xí)能力[4-5]。機器學(xué)習(xí)是人工智能的主要實現(xiàn)途徑,并且是人工智能研究中發(fā)展最快的領(lǐng)域之一[6]?,F(xiàn)代醫(yī)療領(lǐng)域已經(jīng)配備醫(yī)療數(shù)據(jù)的采集及存儲系統(tǒng),并且能夠在大容量的信息系統(tǒng)中實現(xiàn)集成和分享。應(yīng)用機器學(xué)習(xí)對醫(yī)療大數(shù)據(jù)進行挖掘,以總結(jié)、獲取新的知識,相比常規(guī)的臨床研究和傳統(tǒng)統(tǒng)計學(xué),具有更強的數(shù)據(jù)處理和知識獲取能力[7-8]。
Boosting也稱為增強學(xué)習(xí)或提升法,是集成學(xué)習(xí)技術(shù)中重要的框架之一,其應(yīng)用十分廣泛。2014年陳天奇博士提出XGBoost 算法,XGBoost 是“極端梯度上升”的簡稱,它類似于梯度上升框架,但是兼具線性模型求解器和樹學(xué)習(xí)算法算法,作為一種新型高效的Boosting算法,在基礎(chǔ)算法上加以優(yōu)化改進,提高了精度,其關(guān)注度和應(yīng)用價值越來越高[9],已廣泛地運用于醫(yī)療保健、金融、教育、制造等領(lǐng)域的數(shù)據(jù)分析中。在醫(yī)藥學(xué)領(lǐng)域,XGBoost已應(yīng)用于疾病診斷以及疾病發(fā)生風(fēng)險、轉(zhuǎn)歸與預(yù)后、合理安全用藥和藥物研發(fā)的數(shù)據(jù)分析,在這些方面XGBoost 均表現(xiàn)出了強大性能和較高精度。本文針對XGBoost 算法的原理、優(yōu)勢及其在醫(yī)藥學(xué)領(lǐng)域的應(yīng)用研究進行綜述。
XGBoost作為一種新型機器學(xué)習(xí)算法,其算法運行過程分為學(xué)習(xí)和推理兩部分[9]。其中,學(xué)習(xí)機的目標(biāo)是使得損失函數(shù)最小化,即在決策樹復(fù)雜度盡可能低的情況下要求預(yù)測誤差盡可能小。決策樹的構(gòu)建過程,首先通過貪心法枚舉所有符合條件的樹結(jié)構(gòu)方案,并結(jié)合Gain 值和自定義閾值作為節(jié)點分裂依據(jù)進行分裂或剪枝終止分裂;其次,計算所有方案中葉節(jié)點的分數(shù)以及決策樹得分,更新決策樹序列;最后,計算各個樣本的預(yù)測結(jié)果,即每棵決策樹的得分之和,得到樣本屬于各個類別的概率。
而推理機是基于學(xué)習(xí)機得出的決策樹序列。首先,代入樣本信息依次從決策樹序列的根節(jié)點到葉節(jié)點進行邏輯判斷,如果不是葉節(jié)點,判斷該樣本屬于左/右子節(jié)點,反之則計算葉節(jié)點分數(shù)并輸入下一顆決策樹進行判斷;其次,對所有決策樹給出的預(yù)測值進行求和,得到該樣本分類為1的概率并根據(jù)閾值函數(shù)判斷樣本最終所屬分類(圖1)。
圖1 決策樹分類原理整體模型—對于給定的示例,最后的預(yù)測是每棵樹的預(yù)測之和[9]Fig.1 Tree ensemble model-The final prediction for a given example is the sum of predictions from each tree[9].
醫(yī)學(xué)數(shù)據(jù)的類型、屬性、表達方式是錯綜復(fù)雜的。其特點包括:資源龐大,過程復(fù)雜,可能存在大量的冗余數(shù)據(jù);數(shù)據(jù)類型多樣,包括文字、影像、信號等;數(shù)據(jù)稀疏性強,比如病案往往并未包含某種疾病的全部信息或者患者的化驗結(jié)果由于各種原因,導(dǎo)致大量數(shù)據(jù)缺失[10-12]。然而,許多常用的機器學(xué)習(xí)算法需要完整的數(shù)據(jù)集(沒有丟失的數(shù)據(jù)),臨床分析方法通常需要一個輸入程序來“填補”丟失的數(shù)據(jù)。管理缺失數(shù)據(jù)最常用的兩種策略是輸入或刪除值,前者可能導(dǎo)致偏差,而后者可能導(dǎo)致偏差和統(tǒng)計能力的損失[13-15]。
而XGBoost 算法在處理這些問題上顯示出獨特的優(yōu)勢:以并行運算著稱,可快速運行大規(guī)模數(shù)據(jù);可自動優(yōu)化分裂節(jié)點,擅長處理異常值和缺失值較多的無規(guī)則數(shù)據(jù);可進行自主學(xué)習(xí),模型具有可解釋性和靈活性[9]。
XGBoost算法常用于影像學(xué)診斷。比如,基于癲癇患者MRI的神經(jīng)生理學(xué)特征數(shù)據(jù),對癲癇病灶區(qū)進行識別[16]。該研究可輔助醫(yī)生在術(shù)前判斷病灶區(qū)域從而準(zhǔn)確地進行病灶切除。此外,XGBoost 和貝葉斯優(yōu)化可用于對肺結(jié)節(jié)計算機輔助診斷,有學(xué)者采集了肺結(jié)節(jié)(62位肺癌患者及37位良性肺結(jié)節(jié)患者)患者的CT影像數(shù)據(jù),抽取影像特征后采用支持向量機(SVM)和XGBoost算法對特征向量及對應(yīng)標(biāo)簽進行預(yù)測學(xué)習(xí),其中將TPE作為SVM和XGBoost參數(shù)的貝葉斯優(yōu)化方法,得到的曲線下面積(AUC)值分別為0.850和0.896,XGBoost算法的預(yù)測效果總體優(yōu)于SVM算法[17]。
此外,還有一些疾病的診斷也應(yīng)用了XGBoost算法。如有研究使用機器學(xué)習(xí)方法構(gòu)建了尿路感染診斷預(yù)測模型,通過提取人口統(tǒng)計資料、生命體征、化驗結(jié)果、用藥等數(shù)據(jù),驗證和比較了6種機器學(xué)習(xí)算法用于構(gòu)建尿路感染診斷預(yù)測模型(AUC=0.826~0.904),發(fā)現(xiàn)XGBoost 模型是最佳表現(xiàn)算法,顯著提高了尿路感染預(yù)測中的特異性和敏感度[18]。另有研究采用電感耦合等離子體場質(zhì)譜對36例帕金森病患者和42例年齡匹配的對照患者腦脊液樣本進行分析,共量化了28種不同元素,將XGBoost、隨機森林(RF)等不同算法應(yīng)用于數(shù)據(jù)集,以識別一組新元素指紋圖譜作為生物標(biāo)志物進行帕金森病患者的診斷。該研究確定了一個可識別帕金森病患者的元素指紋簇(Se、Fe、As、Ni、Mg、Sr),XGBoost 算法在識別帕金森病中顯示出了很高特異性(78.6%)和敏感度(83.3%),其中Se 和Fe被認為是該簇中標(biāo)志性最強的元素。經(jīng)前瞻性驗證,該元素指紋可能成為帕金森病診斷標(biāo)志物[19]。有學(xué)者使用來自cfDNA的染色體臂水平拷貝數(shù)變異作為肺癌診斷生物標(biāo)志物,采用XGBoost算法進行癌癥預(yù)測[20]。研究基于Z評分分析手臂級拷貝數(shù)變異分布,結(jié)果發(fā)現(xiàn)3q、8q、12p和7q染色體有擴增的趨勢。22q、3p、5q、16q、10q和15q染色體上經(jīng)常檢測到缺失。實驗組應(yīng)用經(jīng)過訓(xùn)練的XGBoost分類器,特異性和敏感度最終達到100%。此外,5次交叉驗證驗證了模型的穩(wěn)定性。結(jié)果表明整合4個臂級拷貝數(shù)變異和cfDNA濃度到訓(xùn)練的XGBoost分類器中,可以為檢測肺癌提供一種潛在的方法。
XGBoost算法在疾病風(fēng)險、轉(zhuǎn)歸及預(yù)后預(yù)測方面也有著廣泛的應(yīng)用。有學(xué)者運用美國緬因州電子健康記錄數(shù)據(jù)庫,采集了823 627位患者的數(shù)據(jù),構(gòu)建了在未來1年內(nèi)發(fā)生原發(fā)性高血壓的風(fēng)險預(yù)測模型。該研究在特征選擇和模型構(gòu)建過程中采用了XGBoost算法,其中在回顧性和前瞻性隊列中的AUC分別為0.917和0.870,計算風(fēng)險評分將患者分為5個風(fēng)險級別,并得出各類別下一年內(nèi)的生存曲線(圖3)[21]。2型糖尿病、脂質(zhì)紊亂、心血管疾病、精神疾病、臨床使用指標(biāo)和社會經(jīng)濟決定因素被認為是原發(fā)性高血壓的驅(qū)動或相關(guān)特征。高風(fēng)險人群主要包括患有多種慢性病的老年人(>50歲),特別是接受精神障礙藥物治療的人群。同時發(fā)現(xiàn)高血壓與社會經(jīng)濟因素存在關(guān)聯(lián)。
另有研究首次建立了一種miRNA-疾病關(guān)聯(lián)的XGBoost模型(EGBMMDA),并證明了模型的可信度與穩(wěn)定性[22]。運用EGBMMDA模型預(yù)測了與miRNAs 潛在相關(guān)的結(jié)腸腫瘤、淋巴瘤、前列腺腫瘤、乳腺腫瘤和食管腫瘤。結(jié)果表明,5 種疾病的預(yù)測中,EGBMMDA 的準(zhǔn)確率均高于98%。有學(xué)者用機器學(xué)習(xí)XGBoost分析整個外顯子組測序數(shù)據(jù),用于識別精神分裂癥高危人群。運用XGBoost模型學(xué)習(xí)不同基因的突變模式,模型推理得出的前50個基因能夠更好地預(yù)測精神分裂癥的發(fā)病[23]。
還有機器學(xué)習(xí)與影像資料的結(jié)合。有學(xué)者利用冠狀動脈計算機斷層掃描(CCTA)讀數(shù)中的16段冠狀動脈狹窄和斑塊信息數(shù)據(jù),通過XGBoost構(gòu)建風(fēng)險分層預(yù)測模型,以優(yōu)化常規(guī)CCTA對于疑似冠心病患者的風(fēng)險評分[24]。分析表明,與常規(guī)CCTA風(fēng)險評分相比,基于XGBoost的風(fēng)險分層模型可以最大限度地整合來自CCTA的斑塊信息,進一步對疑似冠心病患者的風(fēng)險進行評估。有學(xué)者基于急性腦卒中患者的MRI影像數(shù)據(jù)構(gòu)建XGBoost腦梗死預(yù)測模型,將灌注參數(shù)作為急性腦卒中梗死預(yù)測的重要因素,準(zhǔn)確預(yù)測急性缺血性腦卒中[25]。
風(fēng)險預(yù)測或生存分析模型的研究也越來越多的應(yīng)用了機器學(xué)習(xí)方法。有研究利用機器學(xué)習(xí)生成風(fēng)險模型,對心衰患者的意外入院進行預(yù)測。納入至少18月的心衰患者數(shù)據(jù),使用XGBoost、RF和梯度提升算法建立風(fēng)險預(yù)測模型,并結(jié)合多元邏輯回歸(LR)模型得出心衰風(fēng)險評分。該模型正確預(yù)測了84%心衰患者的意外入院情況[26]。有學(xué)者構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的兩階段補丁的卷積神經(jīng)網(wǎng)絡(luò)模型,能夠預(yù)測腦瘤患者的整體生存時間。首先通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型提取的高度抽象的成像特征,然后通過XGBoost和后處理程序進一步細化分割不同的腫瘤及其亞區(qū)域(非腫瘤和3個腫瘤區(qū)域),實現(xiàn)了在小樣本量情況下對腦瘤患者生存時間的準(zhǔn)確預(yù)測[27]。有研究采用LR、RF、SVM和XGBoost機器學(xué)習(xí)技術(shù),對帕金森病患者跌倒臨床結(jié)果進行分類預(yù)測。研究表明,對比其他方法,SVM和XGBoost技術(shù)為帕金森病患者的跌倒提供了更可靠的臨床結(jié)果預(yù)測,分類準(zhǔn)確度70%~80%[28]。此外,也有研究在機器學(xué)習(xí)框架基礎(chǔ)上,通過XGBoost、RF和梯度提升決策樹3種機器學(xué)習(xí)算法進行變量選擇,并使用逐步Cox回歸得出一個改進的評分系統(tǒng),來優(yōu)化現(xiàn)有的基于臨床數(shù)據(jù)的ICC分期策略。該研究表明基于機器學(xué)習(xí)的EHBH-ICC評分系統(tǒng)不但能有效地評價切除后的ICC預(yù)后,而且可以應(yīng)用于臨床實踐[29]。
2.3.1 藥物不良反應(yīng)預(yù)警 在藥物不良反應(yīng)預(yù)警方面,XGBoost不僅可以從真實世界數(shù)據(jù)中挖掘風(fēng)險因素之間復(fù)雜且高度相關(guān)的關(guān)系,還可以提供充分的適用于臨床工作者的可解釋性數(shù)據(jù)結(jié)果。
有學(xué)者使用了XGBoost算法從電子病歷中挖掘數(shù)據(jù),找出重要特征變量,建立模型以預(yù)測鎮(zhèn)痛藥對骨關(guān)節(jié)炎患者的副作用[30]。在骨關(guān)節(jié)患者的藥物治療中,鎮(zhèn)痛藥的使用可能會使心血管疾病的風(fēng)險增加20%~50%,而相關(guān)的用藥副作用的風(fēng)險預(yù)測模型研究則較少。此外,大多數(shù)預(yù)測模型沒有提供適用于臨床用藥的可解釋性來解釋其預(yù)測背后的推理過程。而XGBoost建立的預(yù)測模型擁有優(yōu)秀的準(zhǔn)確性和可解釋性,能夠有效地幫助骨關(guān)節(jié)炎患者預(yù)防藥物副作用。在該研究中,XGBoost模型與SVM、LR、DT等經(jīng)典的監(jiān)督機器學(xué)習(xí)模型進行了預(yù)測性能的比較。研究顯示:不論是在ROC曲線還是precision-recall曲線中,XGBoost都擁有最好的性能(AUC分別為0.92和0.89)。XGBoost預(yù)測模型的可解釋性主要取決于特征變量重要性的選擇。研究從超過300個危險特征集中,利用XGBoost算法計算出所有特征的重要性排名,選取了前20個重要特征變量納入模型,以支持該預(yù)測模型在臨床應(yīng)用上的可解釋性。例如,危險特征變量排名位居前列的有“做過腿部動脈搭橋手術(shù)”,這意味著這些患者術(shù)后需使用大量鎮(zhèn)痛藥,極大增加了藥物副作用發(fā)生的可能性。
依那西普作為常用的腫瘤壞死因子抑制劑,長期使用可能導(dǎo)致注射部位的感染和疼痛等不良反應(yīng)。有學(xué)者建立了依那西普在幼年特發(fā)性關(guān)節(jié)炎患者中的不良反應(yīng)預(yù)測模型[31]。研究采用5種機器學(xué)習(xí)算法進行建模并比較預(yù)測性能,最終XGBoost生成的模型預(yù)測效果最好(敏感度75%、特異性66.67%、準(zhǔn)確性72.22%、AUC 79.17%)。臨床醫(yī)生和藥師可以使用這個簡單而準(zhǔn)確的模型來早期預(yù)測幼年特發(fā)性關(guān)節(jié)炎患者對依那西普的反應(yīng),可以有效避免藥物不良反應(yīng)的發(fā)生。
有學(xué)者采集了2213名接受國藥、阿斯利康、輝瑞生物科技公司等疫苗接種的受試者信息,使用機器學(xué)習(xí)技術(shù)建立模型預(yù)測疫苗副作用的嚴重程度[32]。其中,基于疫苗類型、人口統(tǒng)計學(xué)和副作用相關(guān)數(shù)據(jù),XGBoost給出了很高的準(zhǔn)確性(0.79)和科恩Kappa值(0.70)。在這項研究中,XGBoost可根據(jù)輸入數(shù)據(jù)預(yù)測副作用的嚴重程度,從而提前預(yù)判出可能會發(fā)生嚴重不良反應(yīng)的受試者,給予該類人群特殊關(guān)注。
2.3.2 個體化用藥劑量預(yù)測與傳統(tǒng)PKPD模型相比,XGBoost在個體化用藥劑量預(yù)測方面表現(xiàn)出較好的性能,為藥物計算的發(fā)展提供了更多可能。
有學(xué)者開發(fā)了一種基于XGBoost算法的機器學(xué)習(xí)模型,用來預(yù)測葉黃素酯、玉米黃質(zhì)、黑醋栗提取物、菊花和枸杞的藥物組合對眼疲勞患者的最佳劑量[33]。研究者從303名受試者中收集了504項特征,包括人口統(tǒng)計學(xué)、人體測量學(xué)、眼睛相關(guān)指標(biāo)、血液生物標(biāo)志物和飲食習(xí)慣等。XGBoost 算法使用基線的所有特征來預(yù)測干預(yù)后45 d的視覺健康評分,以顯示眼睛疲勞的改善,然后根據(jù)預(yù)測的視覺健康評分選擇組合的最佳劑量。經(jīng)過特征選擇和參數(shù)優(yōu)化后,Pearson相關(guān)系數(shù)分別為0.649、0.638和0.685。在去除了侵入性血液測試和昂貴的光學(xué)相干斷層掃描收集的特征后,模型仍然保持良好的性能。在測試和驗證集中的58名受試者中,39名應(yīng)采取最高劑量作為最佳選擇,17名可能采取較低劑量,而2名不能從組合中受益。結(jié)果表明該模型可以成功預(yù)測組合的最佳劑量,為眼疲勞患者提供個性化的營養(yǎng)解決方案。
有學(xué)者基于高維數(shù)據(jù)、建議變量工程和機器學(xué)習(xí)方法,開發(fā)了一種模型,來預(yù)測萬古霉素的最佳給藥劑量[34]。研究采用極端梯度上升算法對自變量和交互變量進行了初步的檢查,然后基于導(dǎo)出的變量建立萬古霉素劑量預(yù)測模型?;隍炞C隊列中對模型性能的評估,該算法占萬古霉素劑量變化的67.5%。亞組分析顯示,中、高體質(zhì)量(理想預(yù)測百分比分別為72.7%和73.7%)、血清肌酐中、低水平(理想預(yù)測百分比分別為77.8%和73.1%)的患者表現(xiàn)更好。
2.3.3 治療藥物濃度預(yù)測與傳統(tǒng)藥代動力學(xué)模型相比,機器學(xué)習(xí)模型在模型擬合、預(yù)測精度上也體現(xiàn)了較好的效果。
有學(xué)者采用機器學(xué)習(xí)建立預(yù)測萬古霉素谷濃度模型,研究納入407名兒科患者(年齡<18歲),整個數(shù)據(jù)集(n=407)按照8:2的比例分為訓(xùn)練組(n=325)和測試組(n=82)。萬古霉素谷濃度被視為目標(biāo)變量,并使用8種不同的算法進行預(yù)測性能比較。最終選擇了5種高R2(R2=0.657、0.514、0.468、0.425、0.450)的算法(XGBoost、GBRT、Bagging、Extra Tree、Decision Tree),并進一步集成,建立最優(yōu)模型(R2=0.614、MAE=3.32、MSE=24.39、RMSE=4.94、預(yù)測精度=51.22%)。與傳統(tǒng)藥代動力學(xué)模型(R2=0.3)相比,機器學(xué)習(xí)模型在模型擬合方面效果更好,預(yù)測精度更高[35]。
有學(xué)者基于XGBoost、logVd、人工神經(jīng)網(wǎng)絡(luò)建立了包含典型人體藥代動力學(xué)參數(shù)的Rb預(yù)測模型[36],為289種化合物編制了實驗Rb值,通過擴展適用范圍提供可靠的預(yù)測。研究利用血漿藥物濃度計算出的人體藥代動力學(xué)參數(shù)(包括分布容積、清除率、平均停留時間和血漿蛋白結(jié)合率),以及2702種分子描述符,構(gòu)建定量結(jié)構(gòu)-藥代動力學(xué)關(guān)系的Rb模型。在評估的藥代動力學(xué)參數(shù)中,log Vd與Rb 的相關(guān)性最好(相關(guān)系數(shù)為0.47)。使用6個分子描述符和logVd進行優(yōu)化后,該模型的相關(guān)系數(shù)為0.64,均方根誤差為0.205,優(yōu)于先前報道的其他Rb 預(yù)測模型。
有研究基于肺炎克雷伯菌臨床分離株的全基因組序列數(shù)據(jù)搭建了XGBoost的機器學(xué)習(xí)模型,該模型可準(zhǔn)確預(yù)測20種抗生素的最低抑菌濃度(MIC)[37]。研究提供了一種在未知基因序列的情況下預(yù)測分離菌株MIC的方法,并為構(gòu)建其他致病細菌的MIC預(yù)測模型提供了框架。當(dāng)患者被診斷出患有感染時,根據(jù)該模型的MIC預(yù)測可合理快速地選擇治療方案。有學(xué)者基于人口統(tǒng)計、社會因素、健康史等建立機器學(xué)習(xí)模型,評估大數(shù)據(jù)在預(yù)測OTP結(jié)果方面的潛力,模型收集分析樣本超過3萬人次,通過比較LR、RF和XGBoost等方法,最終結(jié)果顯示XGBoost構(gòu)建的模型結(jié)果最佳,能較準(zhǔn)確識別阿片類藥物治療方案有效的患者[38]。還有學(xué)者在數(shù)據(jù)集NCI-ALMANAC 基礎(chǔ)上,利用RF 和XGBoost兩種機器學(xué)習(xí)技術(shù)建模,通過預(yù)測大型復(fù)合庫中所有可能組合中哪些是協(xié)調(diào)的工具,擴大相應(yīng)搜索,以較高地準(zhǔn)確性預(yù)測未知藥物組合對癌癥治療的協(xié)同作用[39]。該研究納入了5000多對藥物組合、60個細胞系、4種模型、5種化學(xué)特征等進行預(yù)測分析,研究顯示XGBoost模型比RF有更好的性能。
在藥物研發(fā)方面,有學(xué)者采用XGBoost算法構(gòu)建了一個集成用于定量結(jié)構(gòu)活動關(guān)系模型各種工作流的計算機平臺,快速篩選對人類ether-à-go-go相關(guān)基因(hERG)的藥物封鎖,用于藥物合成和開發(fā)過程中藥物對心臟毒性預(yù)測的研究[40]。該預(yù)測模型可定性和定量預(yù)測hERG的IC50值,在評估hERG通道藥物阻斷的大型數(shù)據(jù)集時,具有較高的靈敏度和預(yù)測能力。有學(xué)者運用XGBoost對化合物生物活性進行預(yù)測,可用于新藥開發(fā)中的藥物評估[41]?;诨衔锓肿咏Y(jié)構(gòu)的定量描述,XGBoost在預(yù)測生物活性方面優(yōu)于其他機器學(xué)習(xí)算法。除了可以在高度不平衡的數(shù)據(jù)集中檢測少數(shù)群體活動的能力之外,它在高多樣性和低多樣性數(shù)據(jù)集中都表現(xiàn)出顯著的性能。有學(xué)者開發(fā)了一種基于LINCSL1000擾動信號的自編碼—極端梯度上升(算法SAEXGBoost)細胞活性預(yù)測模型。研究通過細胞活性與藥物基因組學(xué)之間的關(guān)聯(lián),結(jié)合隨機游走—極端梯度上升算法預(yù)測藥物誘導(dǎo)下的細胞活性,建立藥物敏感性預(yù)測模型。與其他方法相比,該模型取得了良好效果,有助于發(fā)現(xiàn)新型有效的抗癌藥物,為精準(zhǔn)醫(yī)療提供幫助[42]。
除此之外,有學(xué)者提出了一種命名為基本蛋白質(zhì)預(yù)測的基于XGboost的框架,用于識別基本蛋白質(zhì),在藥物設(shè)計研究和生物學(xué)中可發(fā)揮重要作用[43]。本框架基于XGBoost算法,其中包括一種名為替代擴充縮小的模型融合方法,此法可獲得更有效的預(yù)測模型。與其他方法比較,該框架在預(yù)測必需蛋白質(zhì)的準(zhǔn)確性方面具有很大的優(yōu)勢。此外,有學(xué)者利用特征提取、特征選擇和機器學(xué)習(xí)算法開發(fā)了蛋白質(zhì)線粒體定位預(yù)測模型,基于SubMito-XGBoost算法的三步法預(yù)測模型,在交叉驗證數(shù)據(jù)集中預(yù)測ACC分別為97.65%和98.94%,又利用獨立數(shù)據(jù)集評價SubMito-XGBoost 模型的預(yù)測能力,ACC為94.83%,顯著高于其他算法,精準(zhǔn)預(yù)測蛋白質(zhì)線粒體定位,為探索人類疾病分子水平新藥的發(fā)病機制、診斷和開發(fā)提供了理論基礎(chǔ)[44]。
臨床輔助決策支持系統(tǒng)(CDSS)的開發(fā)和使用在過去的幾年里取得了巨大的進步。CDSS是一個基于人機交互的醫(yī)療信息技術(shù)應(yīng)用系統(tǒng),旨在為醫(yī)生和其他衛(wèi)生從業(yè)人員提供臨床決策支持,通過數(shù)據(jù)、模型等輔助完成臨床決策。CDSS能夠通過降低漏診率、誤診率以及規(guī)范化診療行為與過程達到提高醫(yī)療衛(wèi)生機構(gòu)醫(yī)療服務(wù)質(zhì)量的目的[45]。有學(xué)者介紹了構(gòu)建醫(yī)療預(yù)測的決策支持系統(tǒng)的基本內(nèi)容。其中包含臨床DSS 的重要流程、不同參數(shù)及其預(yù)測能力,比較了各種運算方法應(yīng)用于DSS的適用性[46]。此外評估了GBM與XGBoost 算法分別及集成地應(yīng)用于臨床預(yù)測模型的性能,不同參數(shù)下的GBM+XGBoost集成模型能夠達到最高的精確度。
CDSS在臨床上也取得了廣泛的應(yīng)用。有學(xué)者提出了一種CDSS心臟病預(yù)測模型[47]。該模型利用2個公開可用的數(shù)據(jù)集(Statlog和Cleveland)建立模型,由基于密度的噪聲應(yīng)用空間聚類來檢測和消除離群點,混合合成少數(shù)過采樣技術(shù)-近鄰來平衡訓(xùn)練數(shù)據(jù)分布和基于XGBoost模型的機器算法來預(yù)測心臟病,并與其他模型以及先前的研究結(jié)果進行比較。結(jié)果表明,該模型數(shù)據(jù)集上為95.90%,準(zhǔn)確率優(yōu)于其他模型。
此外,有學(xué)者首次在EMR 的基礎(chǔ)上,采用基于XGBoost的機器學(xué)習(xí)方法建立了幼年特發(fā)性關(guān)節(jié)炎患者對甲氨蝶呤用藥反應(yīng)的2個早期預(yù)測模型。研究納入了治療的362例幼年特發(fā)性關(guān)節(jié)炎患者的甲氨蝶呤單治療資料。采用DAS44/ESR-3簡化標(biāo)準(zhǔn)對甲氨蝶呤響應(yīng)進行了評價。通過比較各種運算方法應(yīng)用于DSS的適用性,證實了XGBoost可有效地避免過擬合,預(yù)測甲氨蝶呤的療效優(yōu)于其他模型,醫(yī)生在治療前后制定或調(diào)整治療方案提供了有力的決策支持[48]。
膿毒癥是住院死亡的一個重要原因,特別是ICU患者。對于早期預(yù)測敗血癥,及時和適當(dāng)?shù)闹委熆梢蕴岣呱娼Y(jié)果。有研究利用XGboost開發(fā)一種機器學(xué)習(xí)方法來預(yù)測MIMIC-III膿毒癥-3患者的30 d死亡率,研究共納入膿毒癥-3患者4559例,其中死亡889例,30 d內(nèi)存活3670例。通過對接收機工作特性曲線和決策曲線分析的AUCs對logistic回歸模型、SAPS-II評分預(yù)測模型和XGBoost 算法模型的性能進行測試和比較。最后,利用列線圖和臨床影響曲線對模型進行了驗證。3種模型的AUCs和決策曲線分析結(jié)果顯示XGboost模型表現(xiàn)最好[49]。風(fēng)險列線圖和臨床影響曲線驗證了XGboost模型具有顯著的預(yù)測價值,可以幫助臨床醫(yī)生對膿毒癥3患者進行量身定做的精確管理和治療。
本文介紹了XGBoost算法在醫(yī)藥領(lǐng)域中的應(yīng)用,在所述研究方向中,XGBoost算法展現(xiàn)了較強的性能:可為缺失值或者指定值指定分支的默認方向,大大提升算法的效率;在處理大型數(shù)據(jù)集時,XGBoost算法能夠模擬非線性效應(yīng),具有較高的效率和準(zhǔn)確性。但是XGBoost算法也存在一定的限制因素,例如XGBoost算法更適合處理中低維、結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)樣本量較大時,比較耗時。
XGBoost算法相較某些機器學(xué)習(xí)算法調(diào)參簡單,但想要獲取更好的結(jié)果,還需要提升藥學(xué)與算法、信息化等多學(xué)科的結(jié)合能力。這對醫(yī)務(wù)人員來說,無疑是一個很大挑戰(zhàn),希望本文能夠給醫(yī)藥領(lǐng)域的研究人員帶來更多的獲益與思考。