• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于SFS-SVM的乳腺癌預(yù)測模型的構(gòu)建

      2019-07-25 08:47:58賴勝圣劉虔鋮余麗玲劉文平楊蕊夢金浩宇
      關(guān)鍵詞:超平面特征選擇分類器

      賴勝圣,劉虔鋮,余麗玲,劉文平,楊蕊夢,金浩宇

      1.廣東食品藥品職業(yè)學(xué)院醫(yī)療器械學(xué)院,廣東廣州510520;2.廣州市第一人民醫(yī)院/華南理工大學(xué)附屬第二醫(yī)院放射科,廣東廣州510180

      前言

      根據(jù)世界衛(wèi)生組織及文獻(xiàn)報(bào)道,導(dǎo)致婦女死亡的5種最常見癌癥(按發(fā)生頻次排列)為乳腺癌、肺癌、胃癌、結(jié)腸直腸癌和宮頸癌[1-2]。近年來,在中國尤其是在發(fā)達(dá)的沿海地區(qū),乳腺癌發(fā)病率不斷上升,已經(jīng)嚴(yán)重危及婦女的健康與生命[3]。乳腺腫瘤病灶常規(guī)、有效的檢查方法之一是針吸細(xì)胞學(xué)檢查,此方法要求醫(yī)生在顯微鏡下觀察,對細(xì)胞的形態(tài)、結(jié)構(gòu)等進(jìn)行分類、測量、判斷,容易因?yàn)槿藶橐蛩卦斐烧`診、漏診等。因此,計(jì)算機(jī)輔助診斷(Computer-Aided Diagnosis,CAD)應(yīng)運(yùn)而生。經(jīng)過多年的研究與發(fā)展,CAD能夠協(xié)助檢測及分析可疑的乳腺癌病灶,并且取得了良好的效果。

      劉興華等[4]提出用Sigmoid核函數(shù)的支持向量機(jī)算法(SVM)對乳腺癌的輔助診斷準(zhǔn)確率達(dá)到96.24%,但此方法忽視了多項(xiàng)式核函數(shù)時優(yōu)異的特異度指標(biāo),不能令人滿意。Mu等[5]用基于Supervised Compact Hyperspheres的分類器對乳腺腫瘤進(jìn)行良惡性分類,獲得較高的準(zhǔn)確率。吳辰文等[6]提出一種基于隨機(jī)森林模型下Gini指標(biāo)特征的SVM算法分析各個特征對分類結(jié)果的重要性,并對乳腺腫瘤分類判別進(jìn)行驗(yàn)證,其準(zhǔn)確率為97.7%,但對訓(xùn)練樣本較少的對象會導(dǎo)致算法識別性能降低。近年來出現(xiàn)了用J48 決策樹算法[7]、二步SVM算法[8]、粒子群算法[9]等方法研究,提高了乳腺腫瘤良惡性分類判別的準(zhǔn)確率。另外,有研究者運(yùn)用擴(kuò)展卡爾曼濾波器與粒子群算法結(jié)合[10]及權(quán)重粒子群最小二乘支持向量機(jī)[11-12]等各類算法對乳腺癌進(jìn)行鑒別。這些方法各具特色,優(yōu)點(diǎn)明確,取得了不錯的效果。但在樣本量小、非線性、特征數(shù)目多的乳腺癌細(xì)胞圖片的處理上仍存在困難,還有提升的空間。

      由于乳腺腫瘤病灶組織發(fā)生病變,然而它的細(xì)胞顯微圖像與正常的組織顯微圖像有所不同,因此需要采用分類能力比較強(qiáng)的算法來進(jìn)行乳腺腫瘤診斷。本研究提出一種基于序列前向選擇算法(Sequential Forward feature Selection,SFS)與SVM分類器融合的方法,用于構(gòu)建乳腺癌預(yù)測模型。

      1 材料與方法

      1.1 材料

      威斯康辛大學(xué)威斯康辛診斷乳腺癌數(shù)據(jù)庫(Wisconsin Diagnostic Breast Cancer,WDBC)[13-14]共包括569例乳腺腫瘤,其中良性腫瘤357例,惡性腫瘤212例。每個病例的1組數(shù)據(jù)包括采用組織中各細(xì)胞核的10個特征量的平均值、標(biāo)準(zhǔn)差和最壞值(各特征的3個最大數(shù)據(jù)的平均值),共30個數(shù)據(jù)。10個特征量分別是細(xì)胞核圖像的細(xì)胞核半徑、質(zhì)地、周長、面積、光滑性、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對稱度及斷裂度。數(shù)據(jù)文件中每組數(shù)據(jù)共分為32個值,第一個字段為病例編號,第二個字段為確診結(jié)構(gòu),B(Benign)為良性腫瘤,M(Malignant)為惡性腫瘤,第3~12個字段是該病例腫瘤組織的各細(xì)胞核顯微圖像的10個量化特征的平均值;第13~22個字段是相應(yīng)的標(biāo)準(zhǔn)差;第23~32個字段是相應(yīng)的最壞值。這些特征與腫瘤性質(zhì)有密切關(guān)系。為此,需要建立一個確定的模型描述數(shù)據(jù)庫中各個量化特征與腫瘤特征關(guān)系,進(jìn)而可以根據(jù)細(xì)胞核顯微圖像的量化特征診斷是否為乳腺癌。

      1.2 SVM原理

      SVM是一種典型的非概率兩類分類器,在解決小樣本、非線性及高維模式識別中有許多特有的優(yōu)勢。其算法思想是將所研究的對象向真實(shí)模型的一種逼近,將原始特征用核函數(shù)進(jìn)行變換映射到高維空間,進(jìn)而分解其特征矩陣[4]。由SVM的定義可知,其由距離超平面最近的點(diǎn)(稱為支持向量)決定,對于線性可分兩類數(shù)據(jù)是一條最優(yōu)分割直線,而對于高維數(shù)據(jù)點(diǎn)則是一個最優(yōu)分割超平面。例如給定一數(shù)據(jù)集(xi,yi),xi∈Rn,yi∈{- 1,+1},i=1,…,n,定義分割超平面為wTx+b=0,其中w和b是SVM的參數(shù)。在數(shù)據(jù)點(diǎn)中找到距離分割平面最近的點(diǎn)(支持向量),尋找出最優(yōu)的w和b來最大化支持向量到分割超平面的距離,使得支持向量距離該超平面的間隔最大,則有目標(biāo)函數(shù):

      其中,ξi是松弛變量,c為松弛因子,控制著對噪聲的懲罰程度。當(dāng)數(shù)據(jù)集線性不可分時,通過核函數(shù)將數(shù)據(jù)映射到高維空間可以使得數(shù)據(jù)線性可分,計(jì)算時候只需要計(jì)算核函數(shù)。再引入拉格朗日乘子法將目標(biāo)函數(shù)轉(zhuǎn)變?yōu)槭剑?)二次規(guī)劃的對偶問題:

      其中,αi是拉格朗日乘子。這樣,通過利用序列最小優(yōu)化算法求解出α,即可求得w和b,最終可得最優(yōu)的超平面。

      1.3 乳腺癌特征選擇及模型流程

      WDBC中共有569例乳腺腫瘤數(shù)據(jù),其中212例為惡性腫瘤和357例為良性腫瘤。我們將數(shù)據(jù)隨機(jī)分為模型訓(xùn)練數(shù)據(jù)456例(占80%),模型驗(yàn)證數(shù)據(jù)113例(占20%)。采用SFS方法對乳腺腫瘤病理切片圖像提取的特征集合進(jìn)行降維或特征選擇。SFS是一種自下而上的搜索方法,目的是為了去除不相關(guān)及多余的特征量,降低特征個數(shù),尋找出最優(yōu)特征子集,進(jìn)而能夠提高模型的精確度。假設(shè)給定一特征集合F=(f1,f2,…,fn),模型目標(biāo)函數(shù)為J(·),每次通過特征選擇從特征集F中選擇出一個子集S,其中該子集S對于任何的子集T都有J(S)>J(T)。對于SFS算法,特征子集X從空集開始,通過5折交叉驗(yàn)證從所有特征中尋找出使得目標(biāo)函數(shù)J達(dá)到最優(yōu)的第一個特征,此后每次只從未選擇的特征集中選擇一個特征x加入特征子集X使得J最優(yōu)。重復(fù)上述過程,當(dāng)最佳改進(jìn)使特征集性能變壞或達(dá)到最大允許個數(shù)時,也直到J達(dá)到最優(yōu)結(jié)果時,停止選擇[15]。同時,該算法運(yùn)算量相對較小,但沒考慮特征之間的相關(guān)性。

      采用SVM作為分類器,SVM工具包采用林智仁教授公開的LIBSVM庫[16],在本研究中,采用的核函數(shù)為徑向基核函數(shù),并且在MATLAB(2016b)環(huán)境下實(shí)現(xiàn)模型的構(gòu)建和評估。

      基于SFS-SVM的乳腺癌預(yù)測模型流程如圖1所示。

      圖1 SFS-SVM乳腺癌預(yù)測模型流程圖Fig 1 Flow chart of breast cancer prediction model based on sequential forward feature selection(SFS)and support vector machine(SVM)

      1.4 評價(jià)指標(biāo)

      乳腺癌預(yù)測模型的評價(jià)指標(biāo)包括準(zhǔn)確率(ACC)、靈敏度(SEN)、特異性(SPE)以及ROC曲線下面積(AUC)。AUC指的是ROC曲線下的面積,其面積越大,則提示分類器的分類效果越好,AUC的值域?yàn)椋?.5,1.0]。ACC、SEN、SPE分別定義為:

      其中,TP為真陽性(True Positive,TP),表示被預(yù)測模型正確判別的正樣本個數(shù);TN為真陰性(True Negative,TN),表示被預(yù)測模型正確判別的負(fù)樣本個數(shù);FP為假陽性(False Positive,FP),表示被預(yù)測模型錯誤判別的負(fù)樣本個數(shù);FN為假陰性(False Negative,FN),表示被預(yù)測模型錯誤判別的正樣本個數(shù)。

      2 結(jié)果

      2.1 特征選擇結(jié)果

      通過SFS序列前向特征選擇算法,對30個具有顯著性差異的量化特征進(jìn)行特征選擇,得到最優(yōu)特征組合,如表1所示。3個最優(yōu)的量化特征分別是細(xì)胞核半徑最壞值、質(zhì)地最壞值及凹陷度最壞值。

      表1 SFS特征選擇結(jié)果(±s)Tab 1 Result of SFS for feature selection(Mean±SD)

      表1 SFS特征選擇結(jié)果(±s)Tab 1 Result of SFS for feature selection(Mean±SD)

      腫瘤性質(zhì)惡性良性細(xì)胞核半徑最壞值21.13±4.27 13.38±1.98質(zhì)地最壞值29.32±5.42 23.52±5.49凹陷度最壞值0.45±0.18 0.16±0.14

      2.2 SFS-SVM及SVM預(yù)測準(zhǔn)確性比較

      由SFS-SVM及SVM構(gòu)建的乳腺癌預(yù)測模型結(jié)果分別如表2和表3所示。對于SFS-SVM模型訓(xùn)練組的評估指標(biāo)結(jié)果為:AUC 99.16%、ACC 96.49%、SEN 96.47%、SPE 96.50%;而SVM模型訓(xùn)練組評價(jià)指標(biāo)結(jié)果為:AUC 97.09%、ACC 92.48%、SEN 96.91%、SPE 85.02%。對于SFS-SVM模型測試組評估指標(biāo)結(jié)果為:AUC 98.39%、ACC 97.35%、SEN 97.62%、SPE 97.18%;惡性腫瘤里有1例被診斷為良性腫瘤,良性腫瘤中有2例被診斷為惡性腫瘤。對于SVM模型測試組,評價(jià)指標(biāo)結(jié)果為:AUC 97.00%、ACC 92.42%、SEN 96.91%、SPE 84.46%。從表2和表3可以看出,基于SFS-SVM的預(yù)測模型,從測試組結(jié)果可知ACC、SPE、AUC方面比SVM分類方法都有所提升,其中ACC提高4.93%,SPE提高12.72%,AUC提高1.39%。根據(jù)表2和表3,畫出SFSSVM模型及SVM模型的ROC曲線如圖2所示,可以看出SFS-SVM模型對應(yīng)的ROC曲線最佳。

      4 結(jié)語

      本研究所構(gòu)建的基于SFS-SVM算法的乳腺癌預(yù)測模型,采用序列前向特征選擇算法進(jìn)行特征選擇,去除與樣本分類無關(guān)的特征量,實(shí)現(xiàn)高維特征的降維,并且通過5折交叉檢驗(yàn)的驗(yàn)證方法盡量保證模型的魯棒性。經(jīng)過WDBC數(shù)據(jù)集的驗(yàn)證,相對于傳統(tǒng)的SVM分類器[17]以及另外一些改進(jìn)型的SVM方法,如RS-SVM[18]、PSVM、NSVM、LP-SVM、LS-SVM、SS-SVM[19],本文所提出的SFS-SVM算法的3項(xiàng)評估指標(biāo)ACC、SEN及SPE都取得了較高值,說明此方法可以成為準(zhǔn)確、可信的乳腺癌輔助診斷工具,具有良好的前景。本研究用SFS-SVM算法預(yù)測模型在預(yù)測乳腺癌的同時,能計(jì)算出各個細(xì)胞核特征對乳腺癌預(yù)測貢獻(xiàn)的大小,去除了大量的冗余信息。根據(jù)結(jié)果可知,細(xì)胞核半徑最壞值、質(zhì)地最壞值及凹陷度最壞值是基于SFS-SVM算法乳腺癌預(yù)測模型的重要指標(biāo),這3個特征具有決定性意義。但文獻(xiàn)[20]采用多表面方法樹算法篩選出3個最優(yōu)特征子集為面積最壞值、平滑最壞值和質(zhì)地平均值。這說明依據(jù)不同算法構(gòu)建的乳腺癌預(yù)測模型,所選擇出的最優(yōu)特征亦有所區(qū)別,特征選擇的結(jié)果直接影響著分類器性能。

      表2 SFS-SVM預(yù)測結(jié)果(%)Tab 2 Prediction results of SFS-SVM(%)

      表3 SVM預(yù)測結(jié)果(%)Tab 3 Prediction results of SVM(%)

      圖2 SFS-SVM及SVM預(yù)測模型的ROC曲線Fig 2 ROC curve of prediction model based on SFS-SVM vs SVM

      目前,我們把SFS-SVM模型僅應(yīng)用于針吸穿刺細(xì)胞檢查的臨床數(shù)據(jù),根據(jù)最新的報(bào)道[15],SFS-SVM算法模型可以有效應(yīng)用于宮頸癌放療中直腸毒性預(yù)測,這給我們很好的啟示,SFS-SVM算法模型可以應(yīng)用于其它疾病的影像圖像的輔助診斷。

      猜你喜歡
      超平面特征選擇分類器
      全純曲線的例外超平面
      涉及分擔(dān)超平面的正規(guī)定則
      以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問題
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      數(shù)學(xué)年刊A輯(中文版)(2015年1期)2015-10-30 01:55:44
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      垣曲县| 乌兰察布市| 汉寿县| 乳山市| 扶风县| 扎囊县| 正镶白旗| 南阳市| 彭山县| 丹凤县| 凉城县| 马鞍山市| 天水市| 鱼台县| 阳山县| 黄平县| 会泽县| 凯里市| 改则县| 礼泉县| 天门市| 从化市| 福泉市| 阳山县| 兴安盟| 湟源县| 渝北区| 乐陵市| 德清县| 中西区| 稻城县| 焦作市| 晋中市| 大理市| 琼海市| 抚顺县| 曲阳县| 大姚县| 伊宁市| 宁远县| 民勤县|