摘要:為了提高腫瘤分類的精準(zhǔn)度,識別信息基因,構(gòu)建機器學(xué)習(xí)模型對腫瘤基因表達數(shù)據(jù)進行分析。該研究從KentRidge數(shù)據(jù)庫下載了五組腫瘤基因表達譜數(shù)據(jù),利用優(yōu)化的代價敏感信息增益(CSIG) 算法快速過濾無關(guān)和冗余基因,篩選出誤分類損失較小的信息基因子集。隨后,構(gòu)建了代價敏感決策樹(CSC4.5) 作為分類模型,并采用準(zhǔn)確率、ROC曲線、F-measure等分類指標(biāo)評估信息基因質(zhì)量,以驗證模型的準(zhǔn)確性。在顯著降低原始數(shù)據(jù)維度的同時,與其他機器學(xué)習(xí)算法相比,所提模型篩選出的信息基因數(shù)量更少且分類性能更佳。該研究將機器學(xué)習(xí)算法與代價敏感學(xué)習(xí)思想相結(jié)合,優(yōu)化了特征選擇模型和分類器,為腫瘤的早期診斷及生物標(biāo)志物的識別提供了重要的參考依據(jù)。
關(guān)鍵詞:腫瘤基因表達譜;信息基因;腫瘤分類;代價敏感學(xué)習(xí);機器學(xué)習(xí)
中圖分類號:TP391 文獻標(biāo)識碼:A
文章編號:1009-3044(2024)31-0008-04
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID) :
0 引言
腫瘤源于細胞的異常增殖與分化,通常被劃分為良性與惡性兩大類。惡性腫瘤,即癌癥,因其浸潤性和轉(zhuǎn)移性特性,能夠迅速擴散至全身,對患者的生命構(gòu)成重大威脅[1-2]。在腫瘤研究領(lǐng)域,早期診斷與精準(zhǔn)治療始終是科研焦點,而腫瘤的精準(zhǔn)分類更是實現(xiàn)早期診斷的基石,對于提高治療效果和延長患者生命至關(guān)重要[3]?;虮磉_譜的出現(xiàn)為生物信息學(xué)研究提供了豐富的資源,尤其在腫瘤分類中具有重要意義。然而,其復(fù)雜性,如高維度、小樣本、噪聲干擾、基因冗余及樣本不平衡等問題,常導(dǎo)致分類模型中的“維度災(zāi)難”和“過擬合”,進而影響模型的準(zhǔn)確性和穩(wěn)定性[4]。為了篩選有價值的信息基因,研究者們利用機器學(xué)習(xí)降維算法,特別是特征選擇技術(shù),從海量基因中挑選出最具代表性的子集。這不僅有助于構(gòu)建更精準(zhǔn)的腫瘤分類模型,還為發(fā)現(xiàn)腫瘤亞型的基因標(biāo)志物提供了線索[5-6]。
近年來,隨著人工智能的迅猛發(fā)展,代價敏感學(xué)習(xí)在機器學(xué)習(xí)領(lǐng)域逐漸嶄露頭角,尤其在處理分類任務(wù)及不平衡數(shù)據(jù)的誤分類代價方面應(yīng)用廣泛[7]。傳統(tǒng)機器學(xué)習(xí)分類任務(wù)常假設(shè)不同類別的誤分類代價相等,但這在現(xiàn)實中往往并不成立。例如,在醫(yī)療診斷中,誤診代價的差異顯著,誤將病人判定為健康可能帶來嚴(yán)重后果。因此,將代價信息融入算法中,可以更有效地解決此類問題,提升分類器的性能和準(zhǔn)確度[8]。
本研究旨在提升腫瘤分類的準(zhǔn)確性,通過結(jié)合代價敏感學(xué)習(xí)與機器學(xué)習(xí)算法,篩選出與疾病密切相關(guān)的信息基因。本文利用代價敏感信息增益(CSIG) 方法快速過濾無關(guān)和冗余基因,通過引入代價敏感矩陣和信息增益(IG) 屬性評估,獲得最小化誤分類損失的特征。接著,采用嵌入式的代價敏感決策樹(CSC4.5) 分類器來評估這些基因。該方法稱為CSIG-CSC4.5。實驗在5個不同類別的腫瘤數(shù)據(jù)集上驗證,均表現(xiàn)出良好的分類效果。本研究可為腫瘤精準(zhǔn)分類及挖掘基因標(biāo)志物提供重要線索。
1 材料與方法
1.1 數(shù)據(jù)下載和預(yù)處理
從Kent Ridge 數(shù)據(jù)庫(https://leo.ugr.es/elvira/DB?CRepository/) 下載了五組腫瘤基因表達數(shù)據(jù),包括彌漫性大B細胞淋巴瘤(DLBCL) 、乳腺癌(Breast) 、白血?。↙eukemia) 、肺癌(Lung) 和卵巢癌(Ovarian) 。在進行基因維度約減和腫瘤分類前,對實驗數(shù)據(jù)進行了標(biāo)準(zhǔn)化預(yù)處理,將原始數(shù)據(jù)集標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的數(shù)據(jù),以消除不同基因間的個體差異。實驗數(shù)據(jù)集的相關(guān)描述見表1。
其中,Leukemia共檢測到7 129個基因和72個樣本。Lung包含181例樣本,每例樣本基因數(shù)達12 533 個。Ovarian為蛋白質(zhì)表達數(shù)據(jù),包括正常樣本91例,卵巢癌樣本162例。由于傳統(tǒng)實驗數(shù)據(jù)大多為二分類數(shù)據(jù),所以實驗另外選取了DLBCL和Breast數(shù)據(jù)集,以驗證所提模型在多類別樣本上的預(yù)測性能。
1.2 信息增益(Information Gain,IG)
信息增益(IG) 是一種評估特征重要性的算法,特征之間信息豐富且聯(lián)系緊密,則IG值越大。特征的IG值越高,對分類的貢獻就越大,進而可以篩選出樣本中的重要特征。在信息論中,熵用于衡量隨機變量的不確定性,熵值越大則不確定性越高[9]。若存在隨機變量X和Y,它們的概率分布定義為:
P (X = xi,Y = yi ) = pij, i = 1,2,...,n ; j = 1,2,...,m (1)
隨機變量Y的條件熵H(Y|X)反映了在已知X的條件下,Y的不確定性程度。其實質(zhì)是Y關(guān)于X的條件概率分布熵的數(shù)學(xué)期望:
H (Y|X ) =Σi = 1npi H (Y|X = xi ) (2)
信息增益IG(Y, X)反映了特征X對降低類別Y信息不確定性的貢獻程度:
g (Y,X ) = H (Y ) - H (Y|X ) (3)
信息增益主要關(guān)注特征對整個系統(tǒng)的整體貢獻,而非單一類別的貢獻。其計算過程簡便易懂,能有效減少噪聲的影響。此外,它兼顧了特征的有無,使評估更加全面。
其中,Leukemia共檢測到7 129個基因和72個樣本。Lung數(shù)據(jù)集包含181個樣本,每個樣本的基因數(shù)達到12 533個。Ovarian數(shù)據(jù)集為蛋白質(zhì)表達數(shù)據(jù),包括正常樣本91例和卵巢癌樣本162例。由于傳統(tǒng)實驗數(shù)據(jù)大多為二分類數(shù)據(jù),實驗中又另外選取了DLBCL和Breast數(shù)據(jù)集,以驗證所提模型在多類別樣本上的預(yù)測性能。
1.3 代價敏感學(xué)習(xí)(Cost-Sensitive Learning, CS)
將代價敏感問題[10]與其他機器學(xué)習(xí)算法相結(jié)合的優(yōu)勢在于,無須修改樣本數(shù)據(jù)或調(diào)整分類器的閾值,而是直接在特定應(yīng)用中引入代價信息,以使研究問題的預(yù)期損失最小化。具體而言,可以表示為:
?* (x) = min j :L (x,j ) (4)
L (x,j ) = Σi p(i|x)C (i,j ) (5)
式中:L(x, j)表示將樣本x 分類為類別J的預(yù)期損失,p(i | x)表示樣本x 屬于類別i 的后驗概率,而C(i, j) 表示將類別i 的樣本錯誤分類為類別j 的誤分類代價。
通常,代價可用N×N矩陣表示,其中N為樣本類別數(shù)。對于二分類數(shù)據(jù)集,其誤分類代價常用2×2矩陣表示,矩陣元素代表相應(yīng)誤分類代價。設(shè)c0為少數(shù)類,c1為多數(shù)類。
式中:Cij表示將實際屬于第i 類的樣本誤分為第j類所造成的代價損失。
當(dāng)樣本為多分類時,代價矩陣可以表示為:
根據(jù)數(shù)據(jù)集樣本的比例,可以為代價矩陣的元素賦值。當(dāng)分類正確(即i=j) 時,代價為0;其他元素則反映樣本間的比值。這樣構(gòu)建的代價敏感矩陣旨在最小化期望損失。
1.4 代價敏感決策樹(Cost-Sensitive C4.5,CSC4.5)
代價敏感決策樹算法[11]在構(gòu)建時兼顧分類能力與代價因素。通過將誤分類代價引入決策樹的分裂過程,以代價下降值作為劃分標(biāo)準(zhǔn)。其中,▽Ci表示節(jié)點的代價下降值,m 為屬性選擇數(shù),該代價敏感決策樹的分裂策略可表示為:
?Ci = MC - MC (Ai ), i = 1,2,...,m (8)
式中:MC 表示結(jié)點未分裂前的總代價,可表示為:
上式計算了選擇屬性Ai分裂后兩個節(jié)點的總代價,其中N1、Mc1和N2、Mc2分別代表左右節(jié)點的樣本數(shù)和代價值,NFN和NFP分別表示小類被誤分為大類和大類被誤分為小類的個數(shù)。
在分裂時,選取能夠最大程度降低誤分類代價的屬性進行劃分,即:
i0 ∈ argmax{?C } i,i = 1,2,...,m (11)
由于小類的誤分類代價高于大類,因此該策略選擇減少小類誤分樣本,從而提升對小類的關(guān)注。
1.5 代價敏感機器學(xué)習(xí)模型(CSIG-CSC4.5)
本方法主要由兩個部分組成:特征選擇和腫瘤分類。首先,利用CSIG進行信息基因的篩選,然后構(gòu)建CSC4.5分類模型以評估信息基因的分類效果。具體的實驗流程圖如圖1所示。
2 實驗結(jié)果
2.1 CSIG 信息基因選擇
在特征降維階段,實驗采用CSIG方法對五組腫瘤數(shù)據(jù)集進行特征約減,顯著降低了特征維度。其中,Lung數(shù)據(jù)集的特征數(shù)從12 533減少至2,Leukemia 最終保留了6個基因,而Ovarian數(shù)據(jù)集則從15 154減少至3。DLBCL和Breast數(shù)據(jù)集分別選擇了4和5個信息基因。CSIG特征選擇的結(jié)果見表2。為了評估CSIG的有效性并驗證信息基因的質(zhì)量,將這5組信息基因用于后續(xù)的分類實驗。
2.2 CSC4.5分類評估
由CSIG篩選的5組信息基因子集被用作CSC4.5 分類器的輸入數(shù)據(jù)進行分類,通過10折交叉驗證評估其性能,并采用準(zhǔn)確率(accuracy) 、精確率(precision) 、真正率(TP rate) 、假正率(FP rate) 、F-measure和ROC 曲線作為評價指標(biāo)。為了驗證CSIG-CSC4.5方法的有效性,將其與ODP-C4.5、ODP-CSC4.5、IG-C4.5、IG-CSC4.5和CSIG-C4.5這五種組合模型進行比較,并記錄每個模型的最優(yōu)分類結(jié)果及其選擇的基因數(shù),具體結(jié)果見表3。
ODP-C4.5直接采用C4.5在原始數(shù)據(jù)集上進行分類,ODP-CSC4.5則是在原始數(shù)據(jù)集上直接構(gòu)建CSC4.5 模型。IG-C4.5采用信息增益(IG) 選擇特征并使用C4.5 分類,而IG-CSC4.5則將信息增益與嵌入代價敏感的C4.5相結(jié)合進行模型構(gòu)建。此外,CSIG-C4.5的特征選擇與CSIG-CSC4.5相同,但其分類器為C4.5。
另外,在每個模型上選擇了相同數(shù)量的基因以便進行直觀評估,并與CSIG-CSC4.5作進一步對比,結(jié)果見表4。從上述結(jié)果可以看出,ODP-C4.5 和ODPCSC4.5模型在原始數(shù)據(jù)集上直接進行分類建模,因存在大量噪聲基因,導(dǎo)致分類結(jié)果并不理想。通過特征選擇模型降維后,IG-C4.5、IG-CSC4.5和CSIG-C4.5模型的分類效果均有所提升。其中,CSIG-CSC4.5模型在5組腫瘤數(shù)據(jù)集上表現(xiàn)最佳,且選取的基因數(shù)較少。例如,對于Leukemia數(shù)據(jù)集,CSIG-CSC4.5模型的準(zhǔn)確率達93.06%,相較于ODP-C4.5提高近14%,比ODPCSC4.5提高近10%。對于Lung數(shù)據(jù)集,僅用2個信息基因就實現(xiàn)了98.34%的準(zhǔn)確率,而原始數(shù)據(jù)集的基因數(shù)多達12 533。此外,CSIG-CSC4.5在處理多類別數(shù)據(jù)DLBCL和Breast時也展現(xiàn)出較強的穩(wěn)定性。
表5顯示,本文方法在5組數(shù)據(jù)集上均取得了最高的真正率和最低的假正率。對于Ovarian數(shù)據(jù)集,CSIGC4.5與所提方法的效果相同,表明CSIG特征選擇方法有利于腫瘤分類,并且CSIG與C4.5的組合表現(xiàn)優(yōu)異。
圖2顯示,所提方法在5個數(shù)據(jù)集上達到了最高的精確率,CSIG-C4.5其次。同樣地,在圖3中,所提方法的F-measure值也表現(xiàn)更優(yōu)。實驗結(jié)果進一步驗證了所提模型的穩(wěn)定性和有效性。
圖4展示了4種模型在五組數(shù)據(jù)集上的ROC曲線,其中所提模型的曲線下面積最大,且曲線更靠近ROC圖的左上角,表明所提方法不僅能篩選出高質(zhì)量的信息基因,還能獲得更優(yōu)的分類性能。實驗證明,CSIG-CSC4.5在處理高維小樣本及不平衡癌癥數(shù)據(jù)集上具有明顯優(yōu)勢。
3 結(jié)束語
DNA微陣列技術(shù)的進步使得從海量數(shù)據(jù)中提取有價值的知識成為可能。由于腫瘤診斷的準(zhǔn)確性在很大程度上取決于信息基因的識別,因此,基因選擇已成為生物醫(yī)學(xué)信息學(xué)中的一個關(guān)鍵研究領(lǐng)域。這些基因在提高腫瘤分類質(zhì)量以及理解疾病的生物學(xué)方面發(fā)揮著重要作用。
在本研究中,提出了一種基于機器學(xué)習(xí)的代價敏感模型CSIG-CSC4.5用于腫瘤數(shù)據(jù)的處理,該方法將代價敏感思想分別嵌入特征選擇和分類過程中,保留了較少的特征基因,同時實現(xiàn)了更優(yōu)的分類結(jié)果,并在多類別數(shù)據(jù)上展現(xiàn)出良好的穩(wěn)定性。這為腫瘤的早期診斷和疾病機理研究提供了參考和指導(dǎo)。此外,實驗中所用的腫瘤數(shù)據(jù)均為公開數(shù)據(jù),未來進一步使用臨床數(shù)據(jù)來驗證所提模型的準(zhǔn)確度,以及對模型參數(shù)的優(yōu)化,都是今后的研究方向。
參考文獻:
[1] REN Z X,REN Y M,LIU P F,et al.Cytokine expression patterns:a single-cell RNA sequencing and machine learning basedroadmap for cancer classification[J].Computational Biology andChemistry,2024,109:108025.
[2] KE L, LI M, WANG L, et al. Improved swarm-optimizationbasedfilter-wrapper gene selection from microarray data forgene expression tumor classification[J]. Pattern Analysis andApplications,2023,26(2):455-472.
[3] YAQOOB A,VERMA N K,AZIZ R M.Optimizing gene selectionand cancer classification with hybrid sine cosine and cuckooSearchAlgorithm[J].Journal of Medical Systems,2024,48(1):10.
[4] 楊曉慧,白欣宇,喬江華,等.基于一種集成的信息基因選擇方法的乳腺腫瘤識別研究[J].中國腫瘤,2019,28(7):557-562.
[5] 陳昊楠,金敏.基于特征交互與權(quán)重集成的癌癥分類方法[J].計算機應(yīng)用研究,2021,38(4):1051-1057.
[6] ALI S,MAJID A,JAVED S G,et al.Can-CSC-GBE:developingcost-sensitive classifier with gentleboost ensemble for breastcancer classification using protein amino acids and imbalanceddata[J].Computers in Biology and Medicine,2016(73):38-46.
[7] BENíTEZ-PE?A S, BLANQUERO R, CARRIZOSA E, et al.Cost-sensitive probabilistic predictions for support vector ma?chines[J].European Journal of Operational Research,2024,314(1):268-279.
[8] XU M Z,ABDULLAH N A,MD SABRI A Q.A method to im?prove the prediction performance of cancer-gene association byscreening negative training samples through gene network data[J].Computational Biology and Chemistry,2024(108):107997.
[9] GAO J R,WANG Z Q,JIN T,et al.Information gain ratio-basedsubfeature grouping empowers particle swarm optimization for fea?ture selection[J].Knowledge-Based Systems,2024(286):111380.
[10] CHEN Z,SHENG V,EDWARDS A,et al.An effective costsensitivesparse online learning framework for imbalancedstreaming data classification and its application to onlineanomaly detection[J]. Knowledge and Information Systems,2023,65(1):59-87.
[11] MORAL-GARCíA S,ABELLáN J,COOLEN-MATURI T,et al.A cost-sensitive imprecise credal decision tree based on non?parametric predictive inference[J]. Applied Soft Computing,2022(123):108916.
【通聯(lián)編輯:唐一東】
基金項目:國家自然科學(xué)基金項(項目編號:81601806) ;安徽省高等學(xué)??蒲许椖浚椖烤幪枺?023AH051748) ;蕪湖市衛(wèi)健委科研項目(項目編號:WHWJ2023y012) ;皖南醫(yī)學(xué)院中青年科學(xué)基金項目(項目編號:WK2022F43)