苗馨方,劉 銘,蔣 揚(yáng)
(1.長(zhǎng)春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)春 130012;2.中電金信數(shù)字科技集團(tuán)有限公司 汽車制造數(shù)字化事業(yè)部,遼寧 大連 116000)
丙型病毒性肝炎是由丙型病毒性肝炎病毒(HCV:Hepatitis C Virus)感染所致。根據(jù)世界衛(wèi)生組織報(bào)告顯示丙型肝炎病毒(HCV)全球每年約有100萬(wàn)感染者。中國(guó)2012-2016年平均每年報(bào)告約20.4萬(wàn)例。2020年我國(guó)有194 066人感染HCV,感染人數(shù)有所下降。由于HCV具有潛伏期較長(zhǎng),并且較易慢性化的特性,從而導(dǎo)致部分感染者并不知道已感染,因此我國(guó)實(shí)際丙肝感染人數(shù)應(yīng)多于194 066。其中約有30%的感染者可在6個(gè)月內(nèi)將病毒自行清除,其余的感染者發(fā)展成慢性丙型肝炎感染,而且15%~30%的慢性感染者會(huì)發(fā)展為肝癌(HCC:Hepatocellular Carcinoma)和肝硬化。HCC是最早出現(xiàn)的并發(fā)癥,也是死亡率增加的主要原因[1]。由于目前HCV沒有疫苗,這使預(yù)防感染變得困難,因此合理準(zhǔn)確地預(yù)測(cè)出HCV人群,提高HCV檢測(cè)技術(shù)變得至關(guān)重要。
HCV是RNA病毒,一種主要經(jīng)血液、不安全注射和性接觸傳播的疾病,目前人們對(duì)丙肝發(fā)病趨勢(shì)的分析主要圍繞時(shí)序數(shù)列進(jìn)行。張欣等[2]使用神經(jīng)網(wǎng)絡(luò)模型對(duì)2004-2016年全國(guó)HCV感染者進(jìn)行預(yù)測(cè),發(fā)現(xiàn)HCV具有季節(jié)性和逐年增長(zhǎng)的趨勢(shì)。胡躍華等[3]采用ARIMA模型,對(duì)2005年1月-2012年12月全國(guó)丙型肝炎逐月發(fā)病數(shù)量進(jìn)行分析。鄒嬌嬌等[4]利用指數(shù)平滑法對(duì)2018年武漢市丙肝發(fā)病趨勢(shì)進(jìn)行預(yù)測(cè)。
雖然上述研究對(duì)于丙肝的防治工作作出重要貢獻(xiàn),但仍有部分缺陷。由于其分析結(jié)果大部分是基于臨床觀察數(shù)據(jù)得到的規(guī)律,因此無(wú)法應(yīng)用模型進(jìn)行準(zhǔn)確預(yù)測(cè),而目前對(duì)丙肝預(yù)測(cè)應(yīng)用模型的研究只是針對(duì)時(shí)間方面,缺少針對(duì)判斷丙肝病毒感染的研究。
機(jī)器學(xué)習(xí)在癌癥[5],基因[6],成績(jī)分析[7],油田管道失效率[8]等方面預(yù)測(cè)都有較高的準(zhǔn)確率。筆者嘗試將機(jī)器學(xué)習(xí)方法應(yīng)用于模型預(yù)測(cè),將獻(xiàn)血者的性別、年齡以及白蛋白、膽紅素、膽堿酯酶等12項(xiàng)指標(biāo)作為判斷是否感染丙肝病毒的影響因素,并將機(jī)器學(xué)習(xí)算法與上述影響因素相結(jié)合進(jìn)行丙肝感染情況預(yù)測(cè)。
機(jī)器學(xué)習(xí)包含多種模型可以解決分類、回歸和聚類的問題。丙型肝炎病毒感染情況問題是分類問題。常見的分類模型有決策樹、支持向量機(jī)、樸素貝葉斯分類和集成模型等。
集成模型是機(jī)器學(xué)習(xí)的一個(gè)重要分支。集成模型分為3類:bagging,boosting和stacking。Bagging是將獨(dú)立同質(zhì)的弱學(xué)習(xí)器組合而成的,其典型模型是隨機(jī)森林。Boosting會(huì)考慮同類弱勢(shì)學(xué)習(xí)器,其以高度自適應(yīng)的方式依次學(xué)習(xí)這些弱學(xué)習(xí)器(每個(gè)基本模型都取決于先前的模型)。梯度提升樹(GBDT:Gradient Boosting Decision Tree)是boosting的典型模型。Stacking考慮了異質(zhì)的弱學(xué)習(xí)器,使用初始訓(xùn)練數(shù)據(jù)集學(xué)習(xí)出若干個(gè)基模型后,并利用這幾個(gè)基模型的預(yù)測(cè)結(jié)果作為新的訓(xùn)練集的特征訓(xùn)練出新的模型。
GBDT是將梯度提升算法與回歸樹相結(jié)合的方法。GDBT作為集成學(xué)習(xí)經(jīng)典學(xué)習(xí)方法,其既可以用于分類問題也可以用于回歸問題。GDBT通過將一系列弱學(xué)習(xí)器進(jìn)行集成進(jìn)而產(chǎn)生回歸以及分類的模型,弱學(xué)習(xí)器常為決策樹模型。與隨機(jī)森林不同,GBDT通過迭代的方式構(gòu)建決策樹。每次迭代都是沿著損失函數(shù)負(fù)梯度下降最快的方向建立。每次決策時(shí)學(xué)習(xí)前一棵樹的殘差,最后將所有樹的分類結(jié)果的積累提供輸出。具體步驟如下。
1) 初始化基學(xué)習(xí)器
(1)
初始化
(2)
2) 計(jì)算負(fù)梯度方向
(3)
(4)
更新強(qiáng)學(xué)習(xí)器
fm(x)=fm-1(x)+ρhm(x;am)
(5)
其中ρ為學(xué)習(xí)速率。最終迭代得到輸出
(6)
輕量級(jí)梯度提升機(jī)(LightGBM:Light Gradient Boosting Machine)是由GBDT實(shí)現(xiàn)的一種算法。與GBDT相比,LightGBM的存儲(chǔ)空間更小,計(jì)算速度更快,精度更高。LightGBM通過過濾數(shù)據(jù)、選擇特征和改變回歸樹尋找最佳分割點(diǎn),提高了GBDT的速度。LightGBM通過基于梯度的單邊取樣方法實(shí)現(xiàn)了對(duì)數(shù)據(jù)篩選。數(shù)據(jù)選擇意味著它與計(jì)算梯度時(shí)計(jì)算所有葉子梯度的GBDT不同?;谔荻鹊膯芜吶臃椒ū4嫣荻容^大的數(shù)據(jù),隨機(jī)保留一些梯度較小的數(shù)據(jù),并將小梯度的數(shù)據(jù)放大到一定比例。其步驟如下。
1) 取值A(chǔ)、B,將梯度值按降序排序,并選擇最前面的a%。
2) 從剩余的梯度值中,隨機(jī)選擇其中的b%作為小梯度值的訓(xùn)練樣本。
3) 計(jì)算信息增益時(shí),將采樣的小梯度數(shù)據(jù)乘以(1-a)/b。
LightGBM使用直方圖算法和合并互斥特征的方法。直方圖算法的基本思想是將連續(xù)特征值離散成K個(gè)整數(shù),并構(gòu)建一個(gè)寬度為K的直方圖,當(dāng)遍歷數(shù)據(jù)時(shí),離散的值被用于索引以累積直方圖中的統(tǒng)計(jì)數(shù)據(jù)。在對(duì)數(shù)據(jù)進(jìn)行一次遍歷后,直方圖積累所需的統(tǒng)計(jì)數(shù)據(jù),然后根據(jù)直方圖的離散值進(jìn)行遍歷,找到最佳分割點(diǎn)。由于直方圖算法存儲(chǔ)的是離散的而不是連續(xù)的特征值,可以通過讓互斥的特征駐留在不同的分組中構(gòu)造特征束。
LightGBM使用從葉子開始的策略生長(zhǎng)樹。每次從所有當(dāng)前的葉子中,找到分裂收益最大的葉子,然后再進(jìn)行分裂,如此反復(fù)。當(dāng)樣本量較小時(shí),葉狀策略可能會(huì)導(dǎo)致過度擬合。因此,LightGBM可使用一個(gè)額外的參數(shù)限制樹的深度,避免過度擬合。
肝臟疾病在我國(guó)發(fā)病率較高。由肝炎到肝硬化再到肝癌的過程是解釋肝細(xì)胞癌發(fā)生重要的理論。HCC是消化系統(tǒng)常見得惡性腫瘤之一,其本身具有發(fā)展迅速,容易復(fù)發(fā)且手術(shù)切除率低等特點(diǎn),使該病的死亡率較高。
合理的預(yù)測(cè)肝硬化以及肝纖維化的指標(biāo),一直是醫(yī)學(xué)界重要研究課題。纖維化是影響HCV感染者死亡率的關(guān)鍵預(yù)測(cè)指標(biāo)。目前,肝穿刺活檢為評(píng)估患者肝纖維化的金標(biāo)準(zhǔn),但由于肝穿刺活檢為有創(chuàng)操作,且常因?yàn)槿〔漠愘|(zhì)性以及嚴(yán)重并發(fā)癥而慎重選用,很難通過肝穿刺活檢評(píng)估所有患者肝纖維化情況。如何通過合理的組織以及生化指標(biāo)對(duì)肝纖維化進(jìn)行診斷,是目前人們需要解決的難題。Williams等[9]提出AST與ALT的比值大于1時(shí),可以診斷為肝硬化。同時(shí),患有慢性肝炎并伴有肝硬化的病人比只有慢性肝炎而沒有肝硬化的患者AST與ALT比值高。Poynard等[10]對(duì)500名未經(jīng)治療的活檢證實(shí)的慢性病毒性型肝炎患者進(jìn)行研究,發(fā)現(xiàn)結(jié)合年齡和血小板計(jì)數(shù)的簡(jiǎn)單評(píng)分能準(zhǔn)確預(yù)測(cè)丙型肝炎病毒感染者的活動(dòng)和纖維化的存在情況。Wai等[11]提出AST與血小板比率指數(shù)(APRI),以放大肝纖維化對(duì)AST和血小板計(jì)數(shù)的相反影響。實(shí)驗(yàn)結(jié)果表明,簡(jiǎn)單指數(shù)可以高度準(zhǔn)確地識(shí)別有明顯纖維化和肝硬化的CHC患者。
在本實(shí)驗(yàn)中,數(shù)據(jù)來自UCI數(shù)據(jù)集“丙肝”[12],該數(shù)據(jù)集有615條獻(xiàn)血者信息。在這些獻(xiàn)血者中有正常人,疑似感染丙肝者,僅有丙型肝炎,纖維化,肝硬化者這5類數(shù)據(jù)。每位獻(xiàn)血者都有12個(gè)特征屬性,分別是:年齡,性別,白蛋白(ALB:Albumin)、膽紅素(BIL:Bilirubin)、膽堿酯酶(CHE:Cholinesterase)、γ-谷氨酰轉(zhuǎn)移酶(GGT:Gamma-GlutamylTransferase)、天冬氨酸氨基轉(zhuǎn)移酶(AST:Aspartate aminotransferase)和丙氨酸氨基轉(zhuǎn)移酶(ALT:Alanine aminotransferase)、堿性磷酸酶(ALP:Alkaline phosphatase)、總膽固醇(CHOL:Creatinine)、肌酐(CREA)、蛋白質(zhì)(PROTL:Protein)。該數(shù)據(jù)集每個(gè)特征的基本信息如表1所示。
結(jié)合樣本數(shù)據(jù)繪制箱線圖如圖1所示。從圖1可看出,疑似丙肝感染者中女性明顯少于男性。圖1中不同指標(biāo)在不同性別間有明顯差異。僅感染了丙肝病毒女性ALT,CHE分布較男性更為集中,同時(shí)男性丙肝感染者各項(xiàng)指標(biāo)略高于女性。肝纖維化后男女各項(xiàng)指標(biāo)分布幾乎一致。結(jié)合圖1發(fā)現(xiàn),樣本的肝硬化患者的CHE的數(shù)值明顯低于其他類別。疑似丙肝病毒攜帶者ALB值最低。
圖1 男女指標(biāo)箱線圖Fig.1 Male and female indicators box line chart
CREAR在不同類別中數(shù)值接近,幾乎不能區(qū)別樣本中不同類型丙肝感染情況。肝硬化患者BIL值相比于其他類型患者跨度較大。正常人的AST值明顯低于感染丙肝的患者和疑似病毒攜帶者(見圖2)。
圖2 指標(biāo)箱線圖Fig.2 Indicator box line chart
機(jī)器學(xué)習(xí)的分類算法多種多樣,為選擇適合預(yù)測(cè)丙肝感染情況分類的模型,將上述數(shù)據(jù)集放入不同的模型中訓(xùn)練。不同模型對(duì)丙肝數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí)結(jié)果如表2所示。從表2可看出,GBDT以及LightGBM的效果比較好GBDT是預(yù)測(cè)丙肝感染情況的最優(yōu)模型。
將疑似病例與正常的志愿者合并為無(wú)病并將標(biāo)簽為0,將僅患HCV、肝纖維化、肝硬化合并為有病并將標(biāo)簽為1。通過計(jì)算得到混淆矩陣如圖3所示。
表2 模型預(yù)測(cè)結(jié)果Tab.2 Model prediction results
圖3 混淆矩陣Fig.3 T Confusion Matrix
丙肝病毒作為傳染病,目前還沒有丙型肝炎的有效疫苗,準(zhǔn)確的找出潛在丙肝攜帶者防止傳染是一項(xiàng)迫在眉睫的任務(wù)。
病人基本信息以及總膽固醇(CHOL)、肌酐(CREA)、蛋白質(zhì)(PROT)等指標(biāo)形成的丙肝數(shù)據(jù)集。將該數(shù)據(jù)集與機(jī)器學(xué)習(xí)算法相結(jié)合進(jìn)行丙肝病毒感染情況預(yù)測(cè),通過決策樹、隨機(jī)森林,GBDT等模型進(jìn)行比較分析。結(jié)果顯示GBDT在預(yù)測(cè)丙肝感染情況時(shí)準(zhǔn)確率高達(dá)0.935 1。
本次實(shí)驗(yàn)的數(shù)據(jù)集僅含有615條信息,數(shù)據(jù)集較小,無(wú)法使用深度學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)。使用深度學(xué)習(xí)模型準(zhǔn)確率、精確率和召回率可以進(jìn)一步提升。未來可以通過收集更多感染者信息得到更大的數(shù)據(jù)集。