王會娜 黃偉 劉毅慧
摘要:原發(fā)性肝癌(PLC)患者精確放療后乙肝病毒(HBV)再激活是一種常見的并發(fā)癥,影響患者預(yù)后,危及患者的生命。通過連續(xù)小波進行去噪,然后再通過隨機森林對特征重要性的排序找出引發(fā)乙肝病毒再激活的危險因素,給醫(yī)生提供參考,進而提前進行預(yù)防治療,降低病毒再激活的發(fā)病率。首先對原始數(shù)據(jù)集進行連續(xù)小波變換,之后使用隨機森林進行關(guān)鍵特征的選取,將隨機森林模型下的特征按照重要性進行排序,選取重要性最高的5個特征組成關(guān)鍵特征子集,然后將新的特征子集用隨機森林分類器進行分類預(yù)測。實驗結(jié)果表明隨機森林選取HBV DNA水平、TNM腫瘤分期、V10、V20、外放邊界這5個關(guān)鍵特征作為致使乙肝病毒再激活的危險因素組合時,進行小波變換后,3折交叉驗證下預(yù)測精度最高達到82.96%。本次研究表明,小波變換后可以有效地降噪,隨機森林可以通過評估變量的重要性,選出關(guān)鍵特征,很好地用于解決乙肝病毒再激活分類預(yù)測問題。
關(guān)鍵詞:原發(fā)性肝癌(PLC);乙肝病毒(HBV)再激活;連續(xù)小波;隨機森林;特征選取;交叉驗證
0引言
原發(fā)性肝癌(PLC)是一種常見的惡性腫瘤疾病,在我國,肝癌多發(fā)于東南沿海地區(qū),肝癌患者接受放療治療后,HBV再激活是一種最常見的并發(fā)癥。HBV再激活會引起肝損傷、肝衰竭,嚴(yán)重威脅患者的生命。論文中指出,腫瘤分期、HBV DNA水平、肝功能Child-Pugh分級是原發(fā)性肝癌患者接受三維適形放療(3D-CRT)后致乙型肝炎病毒(HBv)再激活的危險因素。論文發(fā)現(xiàn)放療劑量、HBV DNA水平是HBV病毒再激活的危險因素。論文首先用t檢驗和logistic進行特征提取,發(fā)現(xiàn)外放邊界、腫瘤分期TNM和HBVDNA水平是HBV再激活的危險因素,用危險因素作為數(shù)據(jù)集建立BP神經(jīng)網(wǎng)絡(luò)分類模型識別率達到78.89%。論文建立SVM分類模型預(yù)測精度達到78.89%。論文建立RBF神經(jīng)網(wǎng)絡(luò)模型,識別率提高到80%。隨后在論文中通過遺傳算法發(fā)現(xiàn)HBV DNA水平、腫瘤分期TNM、Chfld-Pugh、V45、外放邊界、外放邊界編碼和全肝最大劑量是乙肝病毒再激活的危險因素,SVM分類模型下的預(yù)測精度達到83.34%。
綜上分析可以得出,原發(fā)性肝癌患者接受適形放療后乙肝病毒再激活的危險因素并非單一的,不同的臨床指標(biāo)都有可能會引發(fā)乙肝病毒再激活,因此研究中仍需要通過不同的特征提取方法來發(fā)現(xiàn)更多的危險因素。
本文首先使用連續(xù)小波進行小波變換,然后再采用隨機森林進行特征提取。小波變換是一種信號的時間一尺度(時間-頻數(shù))分析法,具有多分辨分析(Multi-resolution Analysis)的特點,而且在時頻兩域都具有表征信號局部特征的能力。連續(xù)小波變換突破了Fourier變換基底的限制,用一個函數(shù)的平移伸縮作為基底,開展頻譜的研究。小波變換多用于信號去噪,特征提取等方面。其中,特征提取是根據(jù)隨機森林算法本身的變量重要性度量設(shè)計得到特征排序,由此選出得分最高的幾個特征,組成最優(yōu)特征子集,然后建立隨機森林分類模型來研發(fā)應(yīng)用在分類預(yù)測中。隨機森林是機器學(xué)習(xí)模型的一種,主要利用多個分類決策樹對數(shù)據(jù)實現(xiàn)判別與分類。而且,在對數(shù)據(jù)分類的同時,還可以根據(jù)變量的特點,給出每個特征的重要性評分,評估每個特征在分類中發(fā)揮的作用。目前利用隨機森林進行特征選擇已廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域。