• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機(jī)森林的乳腺腫瘤診斷研究

      2014-02-13 09:58:26劉永春
      電視技術(shù) 2014年15期
      關(guān)鍵詞:決策樹(shù)類別分類器

      劉永春,宋 弘

      (四川理工學(xué)院 自動(dòng)化與電子信息學(xué)院,四川 自貢643000)

      責(zé)任編輯:任健男

      乳腺癌在女性癌癥病例中占據(jù)首位,近年來(lái)有不斷上升的趨勢(shì),因此開(kāi)展乳腺癌的診斷和防治研究具有重要的科學(xué)意義和臨床實(shí)用價(jià)值。醫(yī)學(xué)研究發(fā)現(xiàn),乳腺腫瘤病灶組織的細(xì)胞核顯微圖像與正常組織的細(xì)胞核顯微圖像不同,臨床上,醫(yī)生主要是通過(guò)肉眼觀察圖像的特征,憑經(jīng)驗(yàn)和感性的認(rèn)識(shí)來(lái)對(duì)乳腺腫瘤進(jìn)行診斷,缺乏客觀指標(biāo),有時(shí)會(huì)造成誤診,特別是對(duì)良性腫瘤的誤檢率較高導(dǎo)致了活檢結(jié)果為良性的病例增加,給病人帶來(lái)了不必要的痛苦和經(jīng)濟(jì)負(fù)擔(dān)。因此,利用計(jì)算機(jī)智能計(jì)算方法來(lái)幫助檢測(cè)乳腺腫瘤是否為惡性具有非常重要的意義,且已成為非常熱門的研究領(lǐng)域。計(jì)算機(jī)輔助診斷能進(jìn)行定量分析,減輕醫(yī)生診斷工作量,降低活檢數(shù),提高診斷效率和客觀性。

      計(jì)算機(jī)輔助檢測(cè)乳腺腫瘤的過(guò)程主要包括乳腺圖像預(yù)處理、乳腺圖像分割、提取乳腺圖像特征、訓(xùn)練分類器和利用分類器進(jìn)行分類識(shí)別。在機(jī)器分類學(xué)習(xí)算法中,傳統(tǒng)的分類器往往分類精度有限且容易出現(xiàn)過(guò)擬合情況,隨機(jī)森林以它自身固有的特點(diǎn)和優(yōu)良的分類效果在眾多的分類學(xué)習(xí)算法中脫穎而出,因此論文將重點(diǎn)討論基于隨機(jī)森林思想的組合分類器的設(shè)計(jì)和乳腺腫瘤的分類測(cè)試以及算法性能的分析[1-4]。

      1 隨機(jī)森林模型

      隨機(jī)森林算法是由Leo Breiman和Adele Cutler提出,結(jié)合了Breimans的Bootstrap aggregating思想和Ho的random subspace方法,其實(shí)質(zhì)是一個(gè)樹(shù)型分類器的集合{h(x,βk),k=1,2,…,n},決策樹(shù)的形成采用了隨機(jī)的方法,且樹(shù)之間是沒(méi)有關(guān)聯(lián)的。

      1.1 Bootstrap法重采樣

      Bootstrap的核心思想是設(shè)集合S中含有n個(gè)不同的樣本{x1,x2,…,xn},若每次有放回地從集合S中抽取一個(gè)樣本,一共抽取n次,形成新的集合S*,則集合S*中不包含某個(gè)樣本xi(i=1,2,…,n)的概率為

      雖然新集合S*的樣本總數(shù)與原集合S 的樣本總數(shù)相等(都為n),但新集合S*中可能包含了重復(fù)的樣本(有放回抽取),若除去重復(fù)的樣本,新集合S*中僅包含了原集合S中約1-0.368×100%=63.2%的樣本[5]。

      1.2 隨機(jī)森林算法流程

      隨機(jī)森林是基于Bootstrap方法重采樣,產(chǎn)生多個(gè)訓(xùn)練集。設(shè)樣本的屬性個(gè)數(shù)為M,m為大于零且小于M的整數(shù)。隨機(jī)森林算法的流程如下:

      1)利用Bootstrap方法重采樣,隨機(jī)產(chǎn)生T個(gè)訓(xùn)練集S1,S2,…,ST。

      2)利用每個(gè)訓(xùn)練集,生成對(duì)應(yīng)的決策樹(shù)C1,C2,…,CT;在每個(gè)非葉子節(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn))上選擇屬性前,從M個(gè)屬性中隨機(jī)抽取m個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集,并以這m個(gè)屬性中最好的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂,在整個(gè)森林的生長(zhǎng)過(guò)程中,m的值維持不變。

      3)每棵樹(shù)都完整成長(zhǎng),而不進(jìn)行剪枝。對(duì)于測(cè)試集樣本X,利用每個(gè)決策樹(shù)進(jìn)行測(cè)試,得到對(duì)應(yīng)的類別C1(X),C2(X),…,CT(X)。

      4)采用投票的方法,將T個(gè)決策樹(shù)中輸出最多的類別作為測(cè)試集樣本X所屬類別[6]。

      2 基于隨機(jī)森林的乳腺腫瘤診斷

      2.1 模型建立

      基于隨機(jī)森林的乳腺腫瘤的計(jì)算機(jī)自動(dòng)診斷算法模型的設(shè)計(jì)思路為:將乳腺腫瘤病灶組織的細(xì)胞核顯微圖像的量化特征作為模型的輸入,良性乳腺腫瘤和惡性乳腺腫瘤作為模型的輸出。用訓(xùn)練集數(shù)據(jù)進(jìn)行隨機(jī)森林分類器模型的創(chuàng)建,然后對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真測(cè)試,最后對(duì)測(cè)試結(jié)果進(jìn)行分析。其主要功能模塊包括數(shù)據(jù)采集、隨機(jī)森林分類器創(chuàng)建、仿真測(cè)試和結(jié)果分析[7]。

      乳腺腫瘤數(shù)據(jù)來(lái)源于美國(guó)威斯康辛大學(xué)醫(yī)學(xué)院建立的乳腺腫瘤病灶組織的細(xì)胞核顯微圖像數(shù)據(jù)庫(kù)。數(shù)據(jù)特征包含了細(xì)胞核圖像的10個(gè)量化特征,分別為細(xì)胞核半徑、質(zhì)地、周長(zhǎng)、面積、光滑性、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對(duì)稱度、斷裂度,這些特征與腫瘤的性質(zhì)有著密切的關(guān)系。建立算法數(shù)學(xué)模型的目的就是希望用數(shù)學(xué)模型來(lái)描述數(shù)據(jù)庫(kù)中各個(gè)量化特征與腫瘤性質(zhì)的關(guān)系,從而根據(jù)細(xì)胞核顯微圖像的量化特征診斷乳腺腫瘤是良性還是惡性的。該數(shù)據(jù)庫(kù)共包括569個(gè)病例數(shù)據(jù),其中,良性為357例,惡性為212例。

      數(shù)據(jù)采集完成后,利用隨機(jī)森林工具箱函數(shù)classRF_train()對(duì)基于訓(xùn)練集數(shù)據(jù)創(chuàng)建一個(gè)隨機(jī)森林分類器。隨機(jī)森林分類器創(chuàng)建好后,利用隨機(jī)森林工具箱函數(shù)class RF_predict()對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真預(yù)測(cè)。最后,通過(guò)對(duì)隨機(jī)森林分類器的仿真結(jié)果進(jìn)行分析,可以得到乳腺腫瘤病例的分類準(zhǔn)確率,從而可以對(duì)該算法的可行性進(jìn)行評(píng)價(jià)[8]。

      2.2 隨機(jī)森林工具箱

      算法采用科羅拉多大學(xué)博爾德分校Abhishek Jaiantilal開(kāi)發(fā)的randomforest-matlab開(kāi)源隨機(jī)森林工具箱,主要函數(shù)有classRF_train()和classRF_predict()。其中classRF_train()的調(diào)用格式為:model=classRF_train(X,Y,ntree,mtry,extra_options)。其中X為訓(xùn)練集的輸入樣本矩陣,每一列表示一個(gè)變量(屬性),其每一行表示一個(gè)樣本;Y為訓(xùn)練集的輸出樣本向量,其每一行表示X中對(duì)應(yīng)的樣本所屬的類別;ntree為隨機(jī)森林中決策樹(shù)的個(gè)數(shù)(默認(rèn)為500);mtry為分裂屬性集中的屬性個(gè)數(shù);extra_options為可選的參數(shù);model為創(chuàng)建好的隨機(jī)森林分類器。函數(shù)classRF_predict()的調(diào)用格式為:[Y_hat votes]=classRF_predict(X,model,extra_options)。其中,X為待預(yù)測(cè)樣本的輸入矩陣,其每一列表示一個(gè)變量,其每一行表示一個(gè)樣本;model為創(chuàng)建好的隨機(jī)森林分類器;extra_options為可選的參數(shù);Y_hat為待預(yù)測(cè)樣本對(duì)應(yīng)的所屬類別;votes為未格式化的待預(yù)測(cè)樣本輸出類別權(quán)重,即將待預(yù)測(cè)樣本預(yù)測(cè)為各個(gè)類別的決策樹(shù)個(gè)數(shù)。

      3 仿真實(shí)驗(yàn)結(jié)果及分析

      3.1 仿真測(cè)試結(jié)果

      系統(tǒng)采用MATLAB R2013a作為仿真測(cè)試平臺(tái),并且從569個(gè)病例數(shù)據(jù)中隨機(jī)選擇500組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩余69組作為測(cè)試數(shù)據(jù)集。某次隨機(jī)測(cè)試的結(jié)果如表1所示。

      表1 隨機(jī)森林仿真測(cè)試結(jié)果

      從測(cè)試結(jié)果可以看出,在測(cè)試集的69個(gè)樣本中,共有1個(gè)樣本被預(yù)測(cè)錯(cuò)誤(1個(gè)惡性乳腺腫瘤樣本被錯(cuò)分為良性乳腺腫瘤),平均確診率為98.55%。為了比較隨機(jī)森林分類器的性能,分別用ELM、LVQ和決策樹(shù)對(duì)上述數(shù)據(jù)集進(jìn)行測(cè)試,預(yù)測(cè)準(zhǔn)確率分別為95.74%,91.33%和89.85%),這表明采用隨機(jī)森林模型對(duì)乳腺腫瘤進(jìn)行分類識(shí)別具有較好的性能。

      3.2 隨機(jī)森林分類器性能分析

      為了直觀地對(duì)隨機(jī)森林分類器的性能進(jìn)行分析,可以用圖形的方式顯示預(yù)測(cè)分類結(jié)果,其中決策樹(shù)的棵樹(shù)為默認(rèn)的500棵,其運(yùn)行結(jié)果如圖1所示。

      圖1 隨機(jī)森林分類器分類結(jié)果

      其中,圖的橫坐標(biāo)表示在隨機(jī)森林的所有決策樹(shù)中,輸出為類別1的決策樹(shù)棵樹(shù),縱坐標(biāo)表示輸出為類別2的決策樹(shù)棵樹(shù)。從理論上來(lái)說(shuō),若被錯(cuò)誤分類的樣本靠近圖的中心,即直線y=x與x+y=500的交點(diǎn)P(250,250),這時(shí)在整個(gè)隨機(jī)森林中,輸出類別為1與類別2的決策樹(shù)棵樹(shù)相當(dāng),在這種情況下,樣本被錯(cuò)分,被認(rèn)為是可以接受的,也說(shuō)明這時(shí)隨機(jī)森林的泛化能力是可以接受的。反之,若被錯(cuò)誤分類的樣本偏離圖的中心,如圖2所示,則表明在整個(gè)隨機(jī)森林中,輸出為類別1與類別2的決策樹(shù)棵樹(shù)存在一定的差距,但是,樣本被錯(cuò)誤分類。這種情況認(rèn)為是不合常理的,這時(shí)的隨機(jī)森林的泛化能力較差。

      圖2 隨機(jī)森林分類器分類結(jié)果

      3.3 決策樹(shù)棵樹(shù)對(duì)隨機(jī)森林性能的影響

      隨機(jī)森林中包含的決策樹(shù)棵樹(shù)的不同,對(duì)算法的泛化性能具有一定的影響,為了減少隨機(jī)性的影響,當(dāng)決策樹(shù)棵樹(shù)確定后,建立100個(gè)隨機(jī)森林模型,然后取其準(zhǔn)確率的平均值作為當(dāng)前決策樹(shù)棵樹(shù)下的分類準(zhǔn)確率,仿真結(jié)果如圖3所示。從圖中可以看出,對(duì)乳腺腫瘤診斷數(shù)據(jù)集來(lái)說(shuō),綜合考慮隨機(jī)森林中包含的決策樹(shù)棵樹(shù)與建模的速度,選擇隨機(jī)森林中包含50~150棵決策樹(shù)比較合理。對(duì)于其他數(shù)據(jù)集,也可以采用類似的方法進(jìn)行折中選擇決策樹(shù)的數(shù)量。

      4 結(jié)束語(yǔ)

      圖3 決策樹(shù)數(shù)量對(duì)分類器性能的影響

      隨機(jī)森林以其良好的泛化性能,已被廣泛應(yīng)用到許多領(lǐng)域中。隨機(jī)森林優(yōu)點(diǎn)包括:1)隨機(jī)森林由若干決策樹(shù)的集合組成,運(yùn)算本質(zhì)上相同,因此能有效處理大量的輸入數(shù)據(jù);2)訓(xùn)練過(guò)程中,會(huì)尋找合適的屬性數(shù)量,即使數(shù)據(jù)有數(shù)以千計(jì)的特征變量數(shù)都是可以接受的;3)通過(guò)統(tǒng)計(jì)每個(gè)特征在森林中所有樹(shù)上的使用率,可間接估計(jì)特征在分類上的重要性;4)隨機(jī)森林通過(guò)計(jì)算錯(cuò)誤率來(lái)達(dá)到最佳化,對(duì)訓(xùn)練數(shù)據(jù)而產(chǎn)生的偏差可被限制,因此,對(duì)未知的數(shù)據(jù)能保持較強(qiáng)的識(shí)別力;5)當(dāng)數(shù)據(jù)有缺失時(shí),可適當(dāng)拋棄部分決策樹(shù)使隨機(jī)森林能繼續(xù)正常分類;6)對(duì)于不平衡的分類數(shù)據(jù)集來(lái)說(shuō),它可以平衡誤差;7)隨機(jī)森林如同決策樹(shù),對(duì)資料的分布和特征的相關(guān)性不需要有任何的前提假設(shè)。由于影響隨機(jī)森林分類性能的主要因素為森林中單棵樹(shù)的分類強(qiáng)度和樹(shù)之間的相關(guān)度,因此,在這個(gè)方面,可以對(duì)隨機(jī)森林進(jìn)一步深入研究。

      [1]史忠植.神經(jīng)網(wǎng)絡(luò)[M].北京:高等教育出版社,2009.

      [2]楊景兵,丁輝,張樹(shù)東.基于神經(jīng)網(wǎng)絡(luò)的圖像弱邊緣檢測(cè)方法研究[J].電視技術(shù),2011,35(15):54-56.

      [3]KIM K H,BANG S W,KIM S R.Emotion recognition system using short-term monitoring of physiological signals[J].Medical Biology Engine Computer,2004(42):419-427.

      [4]洪燕珠.基于隨機(jī)森林法的慢性疲勞證候要素特征病癥的選擇[J].中醫(yī)雜志,2010,51(1):634-638.

      [5]張洪強(qiáng),劉光遠(yuǎn),賴祥偉.隨機(jī)森林算法在肌電的重要特征選擇中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2013,40(1):200-202.

      [6]孫超,周海英.面向語(yǔ)義的圖像中主要對(duì)象的提取方法[J].電視技術(shù),2013,37(5):45-48.

      [7]STROBL C,BOULESTEIX A L,ZEILEIS A,et al.Bias in random forest variable importance measures:illustrations,sources and a solution[J].BMC Bioinfonnatics,2007,8(25):75-80.

      [8]WANG X F,ELSTON R C,ZHU X F.The meaning of interaction[J].Hum.Hered,2010,70(4):269-277.

      猜你喜歡
      決策樹(shù)類別分類器
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于決策樹(shù)的出租車乘客出行目的識(shí)別
      服務(wù)類別
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      开化县| 利辛县| 和林格尔县| 达孜县| 内江市| 大同市| 临江市| 阳山县| 玉林市| 河南省| 阳山县| 页游| 丁青县| 堆龙德庆县| 吴桥县| 金昌市| 广河县| 湖州市| 余庆县| 大姚县| 咸阳市| 安平县| 德清县| 琼海市| 青海省| 辽阳县| 永兴县| 安陆市| 泽库县| 平谷区| 桑植县| 台山市| 绥江县| 新津县| 衡水市| 昂仁县| 博野县| 清远市| 宣恩县| 准格尔旗| 黄冈市|