劉永春,宋 弘
(四川理工學(xué)院 自動(dòng)化與電子信息學(xué)院,四川 自貢643000)
責(zé)任編輯:任健男
乳腺癌在女性癌癥病例中占據(jù)首位,近年來(lái)有不斷上升的趨勢(shì),因此開(kāi)展乳腺癌的診斷和防治研究具有重要的科學(xué)意義和臨床實(shí)用價(jià)值。醫(yī)學(xué)研究發(fā)現(xiàn),乳腺腫瘤病灶組織的細(xì)胞核顯微圖像與正常組織的細(xì)胞核顯微圖像不同,臨床上,醫(yī)生主要是通過(guò)肉眼觀察圖像的特征,憑經(jīng)驗(yàn)和感性的認(rèn)識(shí)來(lái)對(duì)乳腺腫瘤進(jìn)行診斷,缺乏客觀指標(biāo),有時(shí)會(huì)造成誤診,特別是對(duì)良性腫瘤的誤檢率較高導(dǎo)致了活檢結(jié)果為良性的病例增加,給病人帶來(lái)了不必要的痛苦和經(jīng)濟(jì)負(fù)擔(dān)。因此,利用計(jì)算機(jī)智能計(jì)算方法來(lái)幫助檢測(cè)乳腺腫瘤是否為惡性具有非常重要的意義,且已成為非常熱門的研究領(lǐng)域。計(jì)算機(jī)輔助診斷能進(jìn)行定量分析,減輕醫(yī)生診斷工作量,降低活檢數(shù),提高診斷效率和客觀性。
計(jì)算機(jī)輔助檢測(cè)乳腺腫瘤的過(guò)程主要包括乳腺圖像預(yù)處理、乳腺圖像分割、提取乳腺圖像特征、訓(xùn)練分類器和利用分類器進(jìn)行分類識(shí)別。在機(jī)器分類學(xué)習(xí)算法中,傳統(tǒng)的分類器往往分類精度有限且容易出現(xiàn)過(guò)擬合情況,隨機(jī)森林以它自身固有的特點(diǎn)和優(yōu)良的分類效果在眾多的分類學(xué)習(xí)算法中脫穎而出,因此論文將重點(diǎn)討論基于隨機(jī)森林思想的組合分類器的設(shè)計(jì)和乳腺腫瘤的分類測(cè)試以及算法性能的分析[1-4]。
隨機(jī)森林算法是由Leo Breiman和Adele Cutler提出,結(jié)合了Breimans的Bootstrap aggregating思想和Ho的random subspace方法,其實(shí)質(zhì)是一個(gè)樹(shù)型分類器的集合{h(x,βk),k=1,2,…,n},決策樹(shù)的形成采用了隨機(jī)的方法,且樹(shù)之間是沒(méi)有關(guān)聯(lián)的。
Bootstrap的核心思想是設(shè)集合S中含有n個(gè)不同的樣本{x1,x2,…,xn},若每次有放回地從集合S中抽取一個(gè)樣本,一共抽取n次,形成新的集合S*,則集合S*中不包含某個(gè)樣本xi(i=1,2,…,n)的概率為
雖然新集合S*的樣本總數(shù)與原集合S 的樣本總數(shù)相等(都為n),但新集合S*中可能包含了重復(fù)的樣本(有放回抽取),若除去重復(fù)的樣本,新集合S*中僅包含了原集合S中約1-0.368×100%=63.2%的樣本[5]。
隨機(jī)森林是基于Bootstrap方法重采樣,產(chǎn)生多個(gè)訓(xùn)練集。設(shè)樣本的屬性個(gè)數(shù)為M,m為大于零且小于M的整數(shù)。隨機(jī)森林算法的流程如下:
1)利用Bootstrap方法重采樣,隨機(jī)產(chǎn)生T個(gè)訓(xùn)練集S1,S2,…,ST。
2)利用每個(gè)訓(xùn)練集,生成對(duì)應(yīng)的決策樹(shù)C1,C2,…,CT;在每個(gè)非葉子節(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn))上選擇屬性前,從M個(gè)屬性中隨機(jī)抽取m個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集,并以這m個(gè)屬性中最好的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂,在整個(gè)森林的生長(zhǎng)過(guò)程中,m的值維持不變。
3)每棵樹(shù)都完整成長(zhǎng),而不進(jìn)行剪枝。對(duì)于測(cè)試集樣本X,利用每個(gè)決策樹(shù)進(jìn)行測(cè)試,得到對(duì)應(yīng)的類別C1(X),C2(X),…,CT(X)。
4)采用投票的方法,將T個(gè)決策樹(shù)中輸出最多的類別作為測(cè)試集樣本X所屬類別[6]。
基于隨機(jī)森林的乳腺腫瘤的計(jì)算機(jī)自動(dòng)診斷算法模型的設(shè)計(jì)思路為:將乳腺腫瘤病灶組織的細(xì)胞核顯微圖像的量化特征作為模型的輸入,良性乳腺腫瘤和惡性乳腺腫瘤作為模型的輸出。用訓(xùn)練集數(shù)據(jù)進(jìn)行隨機(jī)森林分類器模型的創(chuàng)建,然后對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真測(cè)試,最后對(duì)測(cè)試結(jié)果進(jìn)行分析。其主要功能模塊包括數(shù)據(jù)采集、隨機(jī)森林分類器創(chuàng)建、仿真測(cè)試和結(jié)果分析[7]。
乳腺腫瘤數(shù)據(jù)來(lái)源于美國(guó)威斯康辛大學(xué)醫(yī)學(xué)院建立的乳腺腫瘤病灶組織的細(xì)胞核顯微圖像數(shù)據(jù)庫(kù)。數(shù)據(jù)特征包含了細(xì)胞核圖像的10個(gè)量化特征,分別為細(xì)胞核半徑、質(zhì)地、周長(zhǎng)、面積、光滑性、緊密度、凹陷度、凹陷點(diǎn)數(shù)、對(duì)稱度、斷裂度,這些特征與腫瘤的性質(zhì)有著密切的關(guān)系。建立算法數(shù)學(xué)模型的目的就是希望用數(shù)學(xué)模型來(lái)描述數(shù)據(jù)庫(kù)中各個(gè)量化特征與腫瘤性質(zhì)的關(guān)系,從而根據(jù)細(xì)胞核顯微圖像的量化特征診斷乳腺腫瘤是良性還是惡性的。該數(shù)據(jù)庫(kù)共包括569個(gè)病例數(shù)據(jù),其中,良性為357例,惡性為212例。
數(shù)據(jù)采集完成后,利用隨機(jī)森林工具箱函數(shù)classRF_train()對(duì)基于訓(xùn)練集數(shù)據(jù)創(chuàng)建一個(gè)隨機(jī)森林分類器。隨機(jī)森林分類器創(chuàng)建好后,利用隨機(jī)森林工具箱函數(shù)class RF_predict()對(duì)測(cè)試集數(shù)據(jù)進(jìn)行仿真預(yù)測(cè)。最后,通過(guò)對(duì)隨機(jī)森林分類器的仿真結(jié)果進(jìn)行分析,可以得到乳腺腫瘤病例的分類準(zhǔn)確率,從而可以對(duì)該算法的可行性進(jìn)行評(píng)價(jià)[8]。
算法采用科羅拉多大學(xué)博爾德分校Abhishek Jaiantilal開(kāi)發(fā)的randomforest-matlab開(kāi)源隨機(jī)森林工具箱,主要函數(shù)有classRF_train()和classRF_predict()。其中classRF_train()的調(diào)用格式為:model=classRF_train(X,Y,ntree,mtry,extra_options)。其中X為訓(xùn)練集的輸入樣本矩陣,每一列表示一個(gè)變量(屬性),其每一行表示一個(gè)樣本;Y為訓(xùn)練集的輸出樣本向量,其每一行表示X中對(duì)應(yīng)的樣本所屬的類別;ntree為隨機(jī)森林中決策樹(shù)的個(gè)數(shù)(默認(rèn)為500);mtry為分裂屬性集中的屬性個(gè)數(shù);extra_options為可選的參數(shù);model為創(chuàng)建好的隨機(jī)森林分類器。函數(shù)classRF_predict()的調(diào)用格式為:[Y_hat votes]=classRF_predict(X,model,extra_options)。其中,X為待預(yù)測(cè)樣本的輸入矩陣,其每一列表示一個(gè)變量,其每一行表示一個(gè)樣本;model為創(chuàng)建好的隨機(jī)森林分類器;extra_options為可選的參數(shù);Y_hat為待預(yù)測(cè)樣本對(duì)應(yīng)的所屬類別;votes為未格式化的待預(yù)測(cè)樣本輸出類別權(quán)重,即將待預(yù)測(cè)樣本預(yù)測(cè)為各個(gè)類別的決策樹(shù)個(gè)數(shù)。
系統(tǒng)采用MATLAB R2013a作為仿真測(cè)試平臺(tái),并且從569個(gè)病例數(shù)據(jù)中隨機(jī)選擇500組數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩余69組作為測(cè)試數(shù)據(jù)集。某次隨機(jī)測(cè)試的結(jié)果如表1所示。
表1 隨機(jī)森林仿真測(cè)試結(jié)果
從測(cè)試結(jié)果可以看出,在測(cè)試集的69個(gè)樣本中,共有1個(gè)樣本被預(yù)測(cè)錯(cuò)誤(1個(gè)惡性乳腺腫瘤樣本被錯(cuò)分為良性乳腺腫瘤),平均確診率為98.55%。為了比較隨機(jī)森林分類器的性能,分別用ELM、LVQ和決策樹(shù)對(duì)上述數(shù)據(jù)集進(jìn)行測(cè)試,預(yù)測(cè)準(zhǔn)確率分別為95.74%,91.33%和89.85%),這表明采用隨機(jī)森林模型對(duì)乳腺腫瘤進(jìn)行分類識(shí)別具有較好的性能。
為了直觀地對(duì)隨機(jī)森林分類器的性能進(jìn)行分析,可以用圖形的方式顯示預(yù)測(cè)分類結(jié)果,其中決策樹(shù)的棵樹(shù)為默認(rèn)的500棵,其運(yùn)行結(jié)果如圖1所示。
圖1 隨機(jī)森林分類器分類結(jié)果
其中,圖的橫坐標(biāo)表示在隨機(jī)森林的所有決策樹(shù)中,輸出為類別1的決策樹(shù)棵樹(shù),縱坐標(biāo)表示輸出為類別2的決策樹(shù)棵樹(shù)。從理論上來(lái)說(shuō),若被錯(cuò)誤分類的樣本靠近圖的中心,即直線y=x與x+y=500的交點(diǎn)P(250,250),這時(shí)在整個(gè)隨機(jī)森林中,輸出類別為1與類別2的決策樹(shù)棵樹(shù)相當(dāng),在這種情況下,樣本被錯(cuò)分,被認(rèn)為是可以接受的,也說(shuō)明這時(shí)隨機(jī)森林的泛化能力是可以接受的。反之,若被錯(cuò)誤分類的樣本偏離圖的中心,如圖2所示,則表明在整個(gè)隨機(jī)森林中,輸出為類別1與類別2的決策樹(shù)棵樹(shù)存在一定的差距,但是,樣本被錯(cuò)誤分類。這種情況認(rèn)為是不合常理的,這時(shí)的隨機(jī)森林的泛化能力較差。
圖2 隨機(jī)森林分類器分類結(jié)果
隨機(jī)森林中包含的決策樹(shù)棵樹(shù)的不同,對(duì)算法的泛化性能具有一定的影響,為了減少隨機(jī)性的影響,當(dāng)決策樹(shù)棵樹(shù)確定后,建立100個(gè)隨機(jī)森林模型,然后取其準(zhǔn)確率的平均值作為當(dāng)前決策樹(shù)棵樹(shù)下的分類準(zhǔn)確率,仿真結(jié)果如圖3所示。從圖中可以看出,對(duì)乳腺腫瘤診斷數(shù)據(jù)集來(lái)說(shuō),綜合考慮隨機(jī)森林中包含的決策樹(shù)棵樹(shù)與建模的速度,選擇隨機(jī)森林中包含50~150棵決策樹(shù)比較合理。對(duì)于其他數(shù)據(jù)集,也可以采用類似的方法進(jìn)行折中選擇決策樹(shù)的數(shù)量。
圖3 決策樹(shù)數(shù)量對(duì)分類器性能的影響
隨機(jī)森林以其良好的泛化性能,已被廣泛應(yīng)用到許多領(lǐng)域中。隨機(jī)森林優(yōu)點(diǎn)包括:1)隨機(jī)森林由若干決策樹(shù)的集合組成,運(yùn)算本質(zhì)上相同,因此能有效處理大量的輸入數(shù)據(jù);2)訓(xùn)練過(guò)程中,會(huì)尋找合適的屬性數(shù)量,即使數(shù)據(jù)有數(shù)以千計(jì)的特征變量數(shù)都是可以接受的;3)通過(guò)統(tǒng)計(jì)每個(gè)特征在森林中所有樹(shù)上的使用率,可間接估計(jì)特征在分類上的重要性;4)隨機(jī)森林通過(guò)計(jì)算錯(cuò)誤率來(lái)達(dá)到最佳化,對(duì)訓(xùn)練數(shù)據(jù)而產(chǎn)生的偏差可被限制,因此,對(duì)未知的數(shù)據(jù)能保持較強(qiáng)的識(shí)別力;5)當(dāng)數(shù)據(jù)有缺失時(shí),可適當(dāng)拋棄部分決策樹(shù)使隨機(jī)森林能繼續(xù)正常分類;6)對(duì)于不平衡的分類數(shù)據(jù)集來(lái)說(shuō),它可以平衡誤差;7)隨機(jī)森林如同決策樹(shù),對(duì)資料的分布和特征的相關(guān)性不需要有任何的前提假設(shè)。由于影響隨機(jī)森林分類性能的主要因素為森林中單棵樹(shù)的分類強(qiáng)度和樹(shù)之間的相關(guān)度,因此,在這個(gè)方面,可以對(duì)隨機(jī)森林進(jìn)一步深入研究。
[1]史忠植.神經(jīng)網(wǎng)絡(luò)[M].北京:高等教育出版社,2009.
[2]楊景兵,丁輝,張樹(shù)東.基于神經(jīng)網(wǎng)絡(luò)的圖像弱邊緣檢測(cè)方法研究[J].電視技術(shù),2011,35(15):54-56.
[3]KIM K H,BANG S W,KIM S R.Emotion recognition system using short-term monitoring of physiological signals[J].Medical Biology Engine Computer,2004(42):419-427.
[4]洪燕珠.基于隨機(jī)森林法的慢性疲勞證候要素特征病癥的選擇[J].中醫(yī)雜志,2010,51(1):634-638.
[5]張洪強(qiáng),劉光遠(yuǎn),賴祥偉.隨機(jī)森林算法在肌電的重要特征選擇中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2013,40(1):200-202.
[6]孫超,周海英.面向語(yǔ)義的圖像中主要對(duì)象的提取方法[J].電視技術(shù),2013,37(5):45-48.
[7]STROBL C,BOULESTEIX A L,ZEILEIS A,et al.Bias in random forest variable importance measures:illustrations,sources and a solution[J].BMC Bioinfonnatics,2007,8(25):75-80.
[8]WANG X F,ELSTON R C,ZHU X F.The meaning of interaction[J].Hum.Hered,2010,70(4):269-277.