• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Lasso特征選擇乳腺癌二分類(lèi)算法研究

      2023-08-04 07:21:12辛瑞昊
      關(guān)鍵詞:特征選擇子集分類(lèi)器

      馮 欣,張 航,辛瑞昊

      (1.吉林化工學(xué)院 理學(xué)院,吉林 吉林 132022;2.吉林化工學(xué)院 信息與控制工程學(xué)院,吉林 吉林 132022)

      乳腺癌[1](Breast cancer)是一種新發(fā)數(shù)高的一種疾病,已然成為一種噩夢(mèng)。因此,研究乳腺癌發(fā)病機(jī)理,降低乳腺癌死亡率,提高乳腺癌預(yù)后效果迫在眉睫,這也是現(xiàn)在醫(yī)療領(lǐng)域所面臨的一個(gè)巨大挑戰(zhàn)。

      在目前研究中,已經(jīng)有很多學(xué)者針對(duì)乳腺癌分類(lèi)提出自己的模型去展開(kāi)研究。王冬[2]等人針對(duì)乳腺癌分類(lèi)診斷提出了一種基于人工魚(yú)群優(yōu)化的隨機(jī)森林模型,其最終準(zhǔn)確率能達(dá)到97.48%。章飛[3]等人針對(duì)女性乳房造影圖片的特征提取數(shù)據(jù)集進(jìn)行分類(lèi)診斷,使用多種機(jī)器學(xué)習(xí)算法建立分類(lèi)模型對(duì)比。Lahoura[4]等人針對(duì)乳腺癌分類(lèi)診斷問(wèn)題提出一種基于云計(jì)算的無(wú)監(jiān)督極限學(xué)習(xí)機(jī)(ELM)乳腺癌遠(yuǎn)程診斷系統(tǒng),診斷準(zhǔn)確率達(dá)到98.68%。Wang[5]等人將ELM與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相結(jié)合針對(duì)乳腺癌分類(lèi)問(wèn)題進(jìn)行檢測(cè),其實(shí)驗(yàn)結(jié)果效果良好。因此對(duì)乳腺癌的分類(lèi)研究已然成為現(xiàn)在的一個(gè)研究趨勢(shì)。

      本研究利用乳腺癌公開(kāi)數(shù)據(jù)集,針對(duì)不平衡數(shù)據(jù)采用隨機(jī)過(guò)采樣算法,特征選擇采用了Least absolute shrinkage and selection operator(Lasso)回歸算法[6]與序列前向選擇算法。最后使用多種分類(lèi)器的準(zhǔn)確率對(duì)本研究提出的算法進(jìn)行一定的評(píng)估,同時(shí)對(duì)最優(yōu)臨床特征進(jìn)行可視化分析,本研究將為乳腺癌的診斷研究提供一定的參考。

      1 特征選擇模型及方法

      1.1 Lasso回歸模型

      Lasso回歸[7-9]是一種壓縮估計(jì),該模型因?yàn)閼土P項(xiàng)而更加精練,它的另一個(gè)優(yōu)勢(shì)在于子集收縮的同時(shí)保留了回歸系數(shù)的壓縮。在考慮一般線(xiàn)性問(wèn)題的時(shí)候,線(xiàn)性函數(shù)矩陣優(yōu)化目標(biāo)為

      (1)

      其中β表示估計(jì)參數(shù)向量;y表示觀(guān)測(cè)向量;X表示變量矩陣值;觀(guān)測(cè)值是由變量值計(jì)算得到的。

      Lasso的優(yōu)化目標(biāo)為

      (2)

      Lasso回歸是在線(xiàn)性回歸的基礎(chǔ)之上添加了正則化得到的,見(jiàn)公式(2)。由于Lasso回歸能夠?qū)⒁恍┗貧w系數(shù)歸零,這樣可以有效地解決各特征之間的多重共線(xiàn)性困擾,這將成為本研究中特征選擇的一個(gè)新方法。

      1.2 SFS模型

      序列前向選擇[10-11](SFS,Sequential Forward Selection)是一種搜索策略算法。主要思想為從空集Y0開(kāi)始,每次選擇一個(gè)特征x加入最新的特征子集Y中,可以保障特征函數(shù)最優(yōu)。其算法步驟如下:

      1.建立空的特征子集Y0={?};

      3.更新目前最優(yōu)特征子集:Yk+1=Yk+x+,k=k+1;

      4.轉(zhuǎn)到第2步。

      1.3 評(píng)價(jià)指標(biāo)

      機(jī)器學(xué)習(xí)中的預(yù)測(cè)結(jié)果一般分為如下幾種結(jié)果,見(jiàn)表1。其中True Positive(TP):把正樣本預(yù)測(cè)為正。True Negative(TN):把負(fù)樣本預(yù)測(cè)為負(fù)。False Positive(FP):把負(fù)樣本預(yù)測(cè)為正。False Negative(FN):把正樣本預(yù)測(cè)為負(fù)。本研究的評(píng)價(jià)指標(biāo)準(zhǔn)確率[12-13](ACC),它的求解公式為

      表1 分類(lèi)預(yù)測(cè)結(jié)果

      (3)

      通過(guò)上述評(píng)價(jià)指標(biāo)來(lái)評(píng)判模型是否合理,以及模型結(jié)果是否符合預(yù)期結(jié)果。

      2 基于不平衡數(shù)據(jù)集分類(lèi)模型構(gòu)建

      本研究實(shí)驗(yàn)流程見(jiàn)圖1。首先對(duì)原始數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理方法,針對(duì)平衡數(shù)據(jù)集采用的隨機(jī)過(guò)采樣[14]方法。接下來(lái)是特征選擇這塊,使用Lasso回歸算法做初步的特征選擇,使用五倍交叉驗(yàn)證取五次回歸系數(shù)不為0交集特征做接下來(lái)的實(shí)驗(yàn)。接下來(lái)使用基于隨機(jī)森林(RF)的序列前向選擇算法,經(jīng)過(guò)分類(lèi)器取最優(yōu)ACC結(jié)果。最終將得到的最優(yōu)臨床特征進(jìn)行多方面的可視化分析,具體情況見(jiàn)下述章節(jié)。

      圖1 實(shí)驗(yàn)流程圖

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集介紹

      本研究使用威斯康星州的乳腺癌公開(kāi)數(shù)據(jù)集[2]進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集有357例輕度患者,212例重度患者。數(shù)據(jù)集中含有32個(gè)屬性,其中含有30個(gè)特征。數(shù)據(jù)集根據(jù)平均值、標(biāo)準(zhǔn)誤差以及最值將細(xì)胞核分為三組,數(shù)據(jù)集特征介紹見(jiàn)表2。

      表2 數(shù)據(jù)集特征介紹

      3.2 實(shí)驗(yàn)結(jié)果

      利用第2節(jié)中所述算法對(duì)乳腺癌診斷分類(lèi)進(jìn)行測(cè)試。首先利用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理完數(shù)據(jù)集之后,使用隨機(jī)過(guò)采樣算法進(jìn)行數(shù)據(jù)集的平衡,平衡后的樣本個(gè)數(shù)見(jiàn)表3。接下來(lái)運(yùn)用Lasso特征選擇算法,運(yùn)用五倍交叉驗(yàn)證取回歸系數(shù)不為0的特征的交集,特征由原始30個(gè)變成8個(gè),進(jìn)行接下來(lái)的實(shí)驗(yàn)。

      表3 數(shù)據(jù)預(yù)處理:隨機(jī)過(guò)采樣算法平衡數(shù)據(jù)集

      第二步特征選擇算法使用了SFS算法,此算法結(jié)合隨機(jī)森林分類(lèi)器對(duì)其進(jìn)行最優(yōu)特征子集評(píng)估,本研究從8個(gè)特征依次往下遞減,去尋找最優(yōu)特征子集區(qū)間。為了保證實(shí)驗(yàn)的穩(wěn)定性,在進(jìn)行分類(lèi)診斷準(zhǔn)確率評(píng)估的時(shí)候結(jié)合了十倍交叉驗(yàn)證,其評(píng)價(jià)結(jié)果見(jiàn)表4。表4中出現(xiàn)的分類(lèi)器依次為:支持向量機(jī)(Support Vector Machine,SVM[15])、K鄰近法[16](K-Nearest Neighbor,KNN)、決策樹(shù)(Decision Tree,DT)、樸素貝葉斯(Naive Bayes,NB)、隨機(jī)森林(Random forest,RF)、線(xiàn)性判別分析(Linear Discriminant Analysis,LDA)、自適應(yīng)提升算法(Adaptive Boosting,AdaBoost)和極限梯度提升算法(Extreme Gradient Boosting,XBG)。根據(jù)表4得到最優(yōu)特征子集以及最適用模型的分類(lèi)器,最優(yōu)特征子集將用于下一步分析。由表4可知,最優(yōu)特征子集的特征個(gè)數(shù)為6個(gè)的時(shí)候最好,并且最優(yōu)的是隨機(jī)森林分類(lèi)器。最優(yōu)6個(gè)特征為:平均半徑(radius mean)、平均周長(zhǎng)(perimeter mean)、平均區(qū)域(area mean)、區(qū)域(area se)、最差周長(zhǎng)(perimeter worst)和最差對(duì)稱(chēng)性(symmetry worst)。接下來(lái)探究了6個(gè)特征對(duì)乳腺癌輕度患者與重度患者的顯著差異性,見(jiàn)3.3節(jié)。

      表4 UCI乳腺癌二分類(lèi)實(shí)驗(yàn)結(jié)果

      3.3 臨床特征可視化分析

      本研究針對(duì)實(shí)驗(yàn)最優(yōu)特征子集進(jìn)行單個(gè)特征分析,為了證實(shí)特征對(duì)于區(qū)分不同程度的患者樣本的效性,從最優(yōu)的6個(gè)臨床特征的數(shù)據(jù)分布情況(箱線(xiàn)圖)、對(duì)應(yīng)的student-t檢驗(yàn)[17](Student's t test,T-test)的p-value[18]值以及主成分分析[19-20](Principal Component Analysis,PCA)后的降維圖等不同角度來(lái)進(jìn)行驗(yàn)證。見(jiàn)圖2,本研究通過(guò)箱線(xiàn)圖將最優(yōu)的6個(gè)臨床特征進(jìn)行數(shù)據(jù)集的分布顯示,通過(guò)不同顏色表明不同程度的患者類(lèi)型,其中黑色表示重度患者,白色表示輕度患者,從圖2中可見(jiàn),單個(gè)特征的數(shù)據(jù)集在區(qū)分二分類(lèi)問(wèn)題上有一定的區(qū)分度。圖3是介紹了每個(gè)特征的p-value值,一般p-value值小于0.05可以證明該特征在不同分類(lèi)上具有顯著差異性。由于本實(shí)驗(yàn)中得到的p-value值太小,為了能可視化出來(lái),使用了“-log10(p-value)”函數(shù)(此函數(shù)為單調(diào)遞減函數(shù))進(jìn)行了變化,同時(shí)使用“-log10(0.05)”進(jìn)行對(duì)比(此函數(shù)為p-value=0.5),最終結(jié)果對(duì)比見(jiàn)圖3,可視化圖形很好地展示6個(gè)特征的單獨(dú)p-value值均小于0.05,為顯著差性特征。PCA降維一般用于提取數(shù)據(jù)的主要特征分量,在維度壓縮的同時(shí)盡可能保留更多的變量。

      圖2 特征箱線(xiàn)圖分布情況

      圖3 特征T-test的p_value比較

      本研究將針對(duì)上述6個(gè)特征進(jìn)行降維分析,進(jìn)一步通過(guò)可視化驗(yàn)證最優(yōu)特征區(qū)分重度與輕度患者的優(yōu)越性。側(cè)重于三維可視化,所以特征也是壓縮到3個(gè)。如圖4所示,三維坐標(biāo)分別表示壓縮后的三個(gè)特征值,能夠很好地看見(jiàn)不同類(lèi)別的樣本經(jīng)過(guò)PCA降維分析之后比較容易辨別。此處可視化展示將從另外的角度說(shuō)明最優(yōu)特征子集對(duì)于數(shù)據(jù)集的分類(lèi)效果比較好。

      圖4 PCA降維的3D圖

      3.4 SEER數(shù)據(jù)庫(kù)驗(yàn)證

      為了證實(shí)本研究提出算法的優(yōu)越性,繼而針對(duì)SEER(The Surveillance,Epidemiology,and End Results)[21]數(shù)據(jù)庫(kù)(https://seer.cancer.gov/)中乳腺癌數(shù)據(jù)集進(jìn)行了進(jìn)一步驗(yàn)證。本研究選擇了最近的時(shí)間年份(2015年)診斷數(shù)據(jù)進(jìn)行實(shí)驗(yàn)探究,根據(jù)臨床常用字段加上意義取舍。最終保留下來(lái)17 636個(gè)樣本,其中2 623個(gè)死亡樣本,15 013個(gè)存活樣本數(shù)據(jù),特征為:種族(Race recode)、性別(Sex)、原發(fā)灶部位(Primary Site)、組織學(xué)類(lèi)型(Histologic Type ICD-O-3)、雙側(cè)/單側(cè)(Laterality)、腫瘤大小(CS tumor size)、腫瘤進(jìn)入程度(CS extension)、淋巴結(jié)情況(CS lymph nodes)、轉(zhuǎn)移部位(CS mets at dx)、生存時(shí)間月份(Survival months)和是否有多原發(fā)癌(First malignant primary indicator)11個(gè)特征。經(jīng)過(guò)對(duì)原始數(shù)據(jù)集的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化與隨機(jī)過(guò)采樣的數(shù)據(jù)預(yù)處理階段,接下來(lái)運(yùn)用Lasso特征選擇算法,運(yùn)用五倍交叉驗(yàn)證取回歸系數(shù)不為0的特征的交集,特征由原始11個(gè)變成10個(gè),進(jìn)行SFS算法,特征從10個(gè)依次遞減,至于找到最優(yōu)特征子集。結(jié)合分類(lèi)器最終得到以下評(píng)價(jià)結(jié)果見(jiàn)表5,根據(jù)表格中內(nèi)容可知,最優(yōu)特征子集的特征個(gè)數(shù)為6個(gè)的時(shí)候最好,并且最優(yōu)的是隨機(jī)森林分類(lèi)器。如圖5所示為了使實(shí)驗(yàn)結(jié)果更好地展示出來(lái),橫坐標(biāo)表示最優(yōu)特征組合個(gè)數(shù),縱坐標(biāo)表示該子集下的分類(lèi)準(zhǔn)確度,結(jié)合不同分類(lèi)器找到最優(yōu)結(jié)果是隨機(jī)森林分類(lèi)器,準(zhǔn)確度達(dá)到97.24%,為臨床醫(yī)療診斷提供了理論支持。根據(jù)上述實(shí)驗(yàn)最終得到的6個(gè)特征為:Race recode、Primary Site、Laterality、CS tumor size、Survival months和First malignant primary indicator。上述特征組成的子集對(duì)區(qū)分乳腺癌的生存與死亡分類(lèi)有顯著差異性。

      number圖5 不同分類(lèi)器二分類(lèi)準(zhǔn)確度

      表5 SRRE乳腺癌二分類(lèi)實(shí)驗(yàn)結(jié)果

      4 結(jié) 論

      本研究針對(duì)威斯康星州的乳腺癌數(shù)據(jù)集,平衡數(shù)據(jù)后,提出Lasso回歸與SFS相結(jié)合算法進(jìn)行特征選擇步驟,從而減少對(duì)冗余臨床特征的研究,結(jié)合8種分類(lèi)器進(jìn)行模型最終評(píng)價(jià),為乳腺癌分類(lèi)診斷提供新的探究思路。通過(guò)數(shù)據(jù)可視化展示出最優(yōu)特征子集的乳腺癌分類(lèi)效果圖,為醫(yī)療大數(shù)據(jù)行業(yè)的臨床研究提供了理論支撐。為了驗(yàn)證本研究算法的優(yōu)越性,利用SEER數(shù)據(jù)庫(kù)中的乳腺癌數(shù)據(jù)集進(jìn)行驗(yàn)證,通過(guò)本文的算法的驗(yàn)證,從最初的11個(gè)特征篩選到最后的6個(gè)特征,實(shí)驗(yàn)結(jié)果表明乳腺癌的分類(lèi)準(zhǔn)確率達(dá)到97.24%。本研究提出的方法模型在威斯康星州的乳腺癌公開(kāi)數(shù)據(jù)集和SEER數(shù)據(jù)庫(kù)乳腺癌數(shù)據(jù)集中體現(xiàn)比較好,但未在其他疾病的數(shù)據(jù)集中探究,這將成為未來(lái)的研究重點(diǎn)。

      猜你喜歡
      特征選擇子集分類(lèi)器
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      關(guān)于奇數(shù)階二元子集的分離序列
      BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
      結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      每一次愛(ài)情都只是愛(ài)情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      基于LLE降維和BP_Adaboost分類(lèi)器的GIS局部放電模式識(shí)別
      磐石市| 吉木萨尔县| 德江县| 治多县| 响水县| 连云港市| 登封市| 安阳市| 增城市| 资兴市| 泸溪县| 巴塘县| 阳春市| 阳朔县| 双牌县| 万宁市| 兴宁市| 增城市| 大厂| 罗定市| 达拉特旗| 环江| 长顺县| 莱西市| 武义县| 军事| 汝城县| 西青区| 越西县| 鹰潭市| 霸州市| 彭泽县| 山东| 许昌市| 汝州市| 环江| 临漳县| 翁源县| 巫山县| 镇宁| 屯门区|