王宇燕,王杜娟,王延章,Yaochu Jin,2
1 大連理工大學 管理與經濟學部,遼寧 大連 116023 2 英國薩里大學 計算機系,吉爾福德 薩里 GU2 7XH
改進隨機森林的集成分類方法預測結直腸癌存活性
王宇燕1,王杜娟1,王延章1,Yaochu Jin1,2
1 大連理工大學 管理與經濟學部,遼寧 大連 116023 2 英國薩里大學 計算機系,吉爾福德 薩里 GU2 7XH
癌癥是人類死亡的主要原因之一,許多國家在癌癥方面的支出占醫(yī)療總支出的很大比例。癌癥存活性預測作為癌癥預后的一項重要工作,可以輔助醫(yī)生做出更精準的診療決策,進而降低癌癥治療成本。近年來,基于數據驅動的癌癥存活性預測方法逐漸得到應用,而預測的準確性是評價預測方法性能的主要指標,因此提高癌癥存活性預測方法的準確性一直是一個活躍的研究領域。
結直腸癌是一種具有高發(fā)病率和高死亡率的癌癥,為了提高結直腸癌存活性預測的準確性,利用遺傳算法對隨機森林進行改進,提出基于GA-RF的集成分類方法。該方法通過遺傳算法對隨機森林中的決策樹實行進化搜索,以提高集成分類準確率為目標選出決策樹的滿意集成。實驗分別使用基于GA-RF的集成分類方法、決策樹和參數優(yōu)化的隨機森林訓練預測模型預測結直腸癌患者的存活性,利用SEER數據庫的結直腸癌數據集對3種方法分別進行10折交叉驗證,然后用準確性、敏感性和特異性3個指標對它們進行評價。
實驗結果顯示,基于GA-RF的集成分類方法的預測精度最高(88.2%),參數優(yōu)化的隨機森林的預測精度次之(86.4%),但集成復雜度遠高于基于GA-RF的集成分類方法,決策樹的預測精度最差(74.2%),而基于GA-RF的集成分類方法還表現出了最好的泛化性能。
該集成分類方法對隨機森林進行了有效的改進,能以更高的運算效率和更好的準確性預測結直腸癌存活性,可以為結直腸癌的預后提供決策參考,彌補經驗預測的不足,該方法的提出對節(jié)約醫(yī)療資源、降低醫(yī)療成本、提高患者滿意度具有實際意義。
隨機森林;遺傳算法;集成分類;存活性預測;結直腸癌
結直腸癌是世界范圍內很常見的一種癌癥,根據2012年全球癌癥統(tǒng)計數據,結直腸癌發(fā)病率在男性和女性常見惡性腫瘤中分別排第3位和第2位,其死亡率高達49%[1]。結直腸癌作為一種高死亡率的癌癥,長期面臨的一個重要臨床問題是發(fā)病后預測其結局(存活或者死亡),即癌癥存活性預測,此處存活的定義是確診病人在指定時間內處于活著狀態(tài)。癌癥存活性預測是癌癥預后的一項重要工作[2],疾病結局預測準確性越高,醫(yī)生做出的臨床決策就會越精準,從而更好地提高治療效率和效果[3]。因此,提高癌癥存活性預測的準確性十分重要。
醫(yī)院多使用傳統(tǒng)的統(tǒng)計學方法進行回顧性數據分析,很少做前瞻性的預測研究。機器學習技術的發(fā)展使事前預測成為可能,一些機器學習方法在醫(yī)療領域得到了較好的應用,如決策樹[4-5]、人工神經網絡[6-7]、支持向量機[8-9]和隨機森林(random forest,RF)[10-11]等。但是,當前應用機器學習方法對癌癥的研究多集中于癌癥的診斷,對癌癥預后(如存活性預測)的研究較少,而且多為研究乳腺癌[12-13]、前列腺癌[14-15]等,對結直腸癌的研究較少。本研究提出一種新的集成學習方法預測結直腸癌患者的存活性,將癌癥存活性預測視為一個分類問題,預測病人是否在指定時間后依然存活。葉強等[16]曾利用遺傳算法構建分類器融合模型,得到了明顯優(yōu)于單個分類器的分類效果。本研究利用遺傳算法(genetic algorithm,GA)在隨機森林的決策樹集合中構造更優(yōu)集成,通過與幾種常用算法進行實驗對比,發(fā)現該方法在結直腸癌存活性預測中可以獲得更高的準確性。
本研究提出改進隨機森林的方法預測結直腸癌的存活性,下面將從癌癥存活性預測研究和隨機森林的改進研究兩個方面介紹該領域的相關工作。
1.1癌癥存活性預測研究
目前,機器學習方法已經廣泛用于癌癥研究,利用它們構造的預測模型使醫(yī)療決策變得更加高效和準確[2]。同時,隨著該領域研究的深入,也促進了各種方法的改進和發(fā)展[3]。
生存分析是醫(yī)療預后的一項重要工作,可以利用一些方法和技術,基于病人的歷史數據進行存活性預測[17]。早些年的研究多將機器學習方法與統(tǒng)計學方法進行對比,驗證機器學習方法可以有效用于癌癥存活性預測。DELEN[18]將決策樹、人工神經網絡、支持向量機3種流行的機器學習方法和一種最常用的統(tǒng)計分析方法logistic回歸應用于預測前列腺癌患者的存活性,實驗結果表明,支持向量機預測的準確性最高,決策樹和人工神經網絡次之。
隨著機器學習方法使用的普及,學者們開始改進傳統(tǒng)單一的算法,得到混合模型,應用效果通常比原始算法更好。KHAN et al.[19]分析了利用基于模糊邏輯的分類器預測癌癥患者存活性的可行性,將模糊理論和決策樹結合起來構造出加權模糊決策樹(wFDT),并利用SEER乳腺癌數據集進行存活性預測實驗,發(fā)現wFDT的預測性能要優(yōu)于決策樹;WANG et al.[20]提出將合成少數類過采樣法(synthetic minority oversampling technique,SMOTE)與粒子群優(yōu)化算法(particle swarm optimization,PSO)、logistic回歸、決策樹、k臨近算法等分類算法中的一種結合起來,形成一種新的分類算法,并應用于乳腺癌病人存活性預測,SMOTE對原始的類別不平衡數據進行調整,使用PSO進行特征選擇,然后使用分類算法進行分類實驗,并用10折交叉驗證測試算法,其中,SMOTE與PSO、C5決策樹的結合在實驗中表現出了最好的分類性能,研究表明這種混合算法可以有效提高乳腺癌病人存活性分類的準確性。
上述研究中均使用單個分類器進行預測,雖然各種方法構造的分類器在實驗中獲得了較好的準確率,但是單個分類器始終存在預測精度不夠高、泛化性能不夠好等缺點。近年來,一些學者在該領域已經不再局限于單個分類器的使用,越來越多地使用由多個分類器構成的集成分類器,集成分類器通常具有更高的分類準確性和更強的泛化性能[21],可有效用于癌癥患者存活性預測。ZOLBANIN et al.[22]在考慮并發(fā)癌癥的情況下預測癌癥的存活性,利用邏輯回歸、人工神經網絡、決策樹、隨機森林4種方法分別進行實驗,隨機森林作為一種集成學習方法獲得了最高的準確率。相對于單一學習方法,集成學習方法本身在很多方面具有優(yōu)越性,而隨機森林更是被譽為“代表集成學習技術水平的方法”,隨機森林簡單、容易實現、計算開銷小,在很多現實任務中展現出強大的性能[21]。但為了進一步提高分類精度和效率,有學者對其進行改進。
1.2隨機森林的改進研究
有學者認為通過對隨機森林的關鍵參數進行優(yōu)化,可以實現在分類運行效率可接受范圍內的更高分類精度[23]。QIAN et al.[24]將隨機森林應用于定位前列腺癌發(fā)病的位置,遍歷了所有的參數組合方式,并用交叉驗證的方法選擇最佳的參數,以達到最高的精度,但是運算效率較低;周天寧等[25]將特征個數和決策樹數量作為遺傳算法要優(yōu)化的變量,最終進化得到滿意的參數組合,這種方法在保證計算效率的同時改善了隨機森林的分類效果。雖然,通過各種方式可以得到隨機森林的滿意參數,改進隨機森林的性能,但是,由于隨機森林對參數的敏感性不是很強,所以參數優(yōu)化后性能的提高幅度并不大。
作為一種集成學習方法,要想得到好的集成,還需要考慮個體學習器的特點,主要是準確性、多樣性和個體學習器的數量。隨機森林由決策樹組成,其性能很大程度上取決于構成它的決策樹。隨機森林最大的特點是通過增加樣本擾動和屬性擾動使個體學習器之間產生差異性[26],進而使集成的性能增加。屬性擾動往往導致個體學習器的性能下降,但隨著個體學習器數量的增加,隨機森林通常會收斂到更小的泛化誤差,然而預測效率也會跟著降低,隨之產生的問題是使用少量的個體學習器能否達到更好的效果。ZHOU et al.[27]提出選擇性集成的概念。選擇性集成是指在已構建的個體學習器中用某種策略選出一部分構成新集成,研究表明選擇性集成可以把預測性能不好的個體學習器剔除,只保留少量優(yōu)質的個體學習器,從而提高集成預測性能[28]。另外,選擇性集成還可以提高集成的泛化能力[29]。
HONG et al.[30]使用多樣化集成遺傳規(guī)劃方法進行精確的癌癥分類,首先通過特征選擇生成多個分類規(guī)則,然后計算分類規(guī)則之間的差異性,選出差異較大的分類規(guī)則構成一個子集,最后利用該子集中的分類規(guī)則組成一個集成分類器,強調個體分類器的多樣性越大,集成分類器的準確性越高。但是,如果個體分類器的性能很差,集成之后性能也不會太好,所以個體分類器的準確性和多樣性都很重要。HONG et al.[30]研究中的差異性是直接通過比較規(guī)則的結構得到的,增大多樣性的同時并不會使準確性降低,避免了傳統(tǒng)方法用分類結果計算差異性會產生的“準確性-多樣性”困境,所以在準確性較好的情況下盡量增大多樣性,從而實現了集成分類器準確性的提高。但HONG et al.[30]研究中計算多樣性的方法并不適用于非規(guī)則形式的分類器,因此,按照這種直接比較的方式判斷隨機森林中個體學習器的優(yōu)劣性是不可行的。
考慮到隨機森林中并非所有決策樹都對提高集成分類器的準確率產生積極作用,那么,如何在隨機森林的眾多決策樹中選出一部分以更低的復雜度構成更優(yōu)的集成分類器是問題的關鍵。目前,選出最佳的分類器組合構造好的集成是一個NP難問題[31]。本研究提出使用遺傳算法解決該問題,形成基于GA-RF的集成分類方法。利用遺傳算法對隨機森林中的決策樹進行進化搜索,以提高集成分類準確率為目標選出決策樹的滿意集成。
集成學習通過構建并結合多個學習器完成學習任務[21]。與一般的學習方法不同的是,一般的學習方法是從訓練數據構造一個學習器,而集成學習方法是構造多個學習器并將它們結合起來[32],常用的結合策略是針對數值型輸出的平均法和針對分類任務的投票法。個體學習器通常由一個現有的學習算法從訓練數據中產生,如決策樹、神經網絡等。集成學習通過將多個學習器進行結合,??色@得比單一學習器顯著優(yōu)越的泛化性能。
分類器的集成是指將一個分類器集合里面所有個體的決策結果以某種方式(典型的是帶權重或不帶權重的投票)結合,并用來對新的實例進行分類[33]。
為了提高癌癥存活性預測精度,本研究在隨機森林的基礎上提出一種新的集成分類方法,該方法利用遺傳算法對隨機森林中的決策樹進行進化搜索,選出決策樹的滿意組合,這些決策樹以某種策略相結合構成新的集成?;贕A-RF的集成分類器構建流程見圖1,其中,N為隨機森林的決策樹總量,N′為新決策樹集合的決策樹數量,N′ 2.1隨機森林的生成 隨機森林是決策樹預測器的組合,每棵樹的生成都依賴于一個獨立采樣的隨機向量值,這些隨機向量具有相同的分布,每棵樹獨立運算得到其分類結果,然后投票決定最終的分類結果[34]。 隨機森林的主要思想是:如果單棵樹是好的,那么只要樹之間有足夠的差異就會構成效果更好的森林。隨機森林最有特點的地方是它運用兩種方法從一個標準數據集創(chuàng)造隨機。第一種方法是bagging,構建每棵樹時,先對數據集進行自舉重采樣(bootstrap)得到一個訓練集,這樣訓練每棵樹使用的都是不同的訓練集。第二種方法是限制構造決策樹時的可用特征,訓練決策樹時,每個結點處生成一個特征的隨機子集,樹的分裂節(jié)點只能從該特征子集中選取,這樣做不僅增加了訓練每棵樹的隨機性,還由于遍歷更少的特征而加快了訓練速度,當然,可用特征數量設置的越少,產生的決策樹多樣性越大。 圖1 基于GA-RF的集成分類器構建流程Figure 1 Process of Constructing GA-RF Based Ensemble Classifier 本研究使用的隨機森林訓練算法[35]訓練過程如下。隨機森林中每棵樹的構建重復以下步驟:①對訓練集做一次bootstrap得到子訓練集;②使用得到的子訓練集開始訓練一棵決策樹;③在決策樹的每個結點處,隨機選擇n個特征并通過計算它們的信息增益(或基尼不純度)選出最優(yōu)的一個作為當前結點,重復該步驟直到一棵樹構造完成。 基于此訓練算法可得到隨機森林的決策樹集??紤]到隨機森林通過特征數量限制和對訓練樣本的bootstrap,可以保證所構造決策樹的多樣性,本研究將隨機森林的決策樹空間作為個體分類器的選擇空間,從訓練好的決策樹中選出有益于提高集成分類性能的個體,這種對個體分類器的優(yōu)選為得到比隨機森林更好的集成奠定了基礎。為了使個體分類器產生足夠的差異性,特征數量應該盡可能地少。 2.2遺傳算法的設計 遺傳算法是解決復雜優(yōu)化問題使用最廣泛的元啟發(fā)式方法[36-38]。遺傳算法模擬生物遺傳進化的過程[39],首先初始化種群,其中每條染色體代表一個解,由適應度函數值衡量解的好壞并確定出下一代的父母,然后通過交叉和變異生成下一代種群,如此不斷循環(huán)得到滿意解或達到設置的代數時結束進化。 本研究的遺傳算法流程見圖2。當進化到設定代數時,會得到該參數條件下的最優(yōu)決策樹組合,該決策樹組合集成后會得到比原隨機森林更高的準確性。下面分別介紹遺傳算法設計的幾個關鍵點,即染色體編碼、適應度評估、選擇操作和交叉變異操作的設置。圖2中兩個虛線箭頭分別表示本研究選擇操作和交叉操作選用的方法。 圖2 遺傳算法流程圖Figure 2 Flow Chart of Genetic Algorithm (1)染色體編碼 遺傳算法的選擇、交叉、變異不是對問題的決策變量直接實施的操作,而是對可行解編碼后的個體進行的運算,所以要先進行染色體編碼[40]。編碼是問題表示的過程,是指將待求解問題的變量轉化成遺傳算法能直接處理的染色體形式,使每條染色體對應問題的一個解。常用的染色體編碼方式有二進制編碼、實數編碼、有序串編碼和結構式編碼等,而最常用的是二進制編碼和實數編碼。 隨機森林是利用已構建的所有決策樹進行分類計算,而本研究旨在從隨機森林的決策樹集合中選出一部分,排除掉對提高集成分類準確性無益的那部分,從而使構成的集成分類器更準確。所以對每棵決策樹而言,需要確定是否應該選用。因而編碼方式采用二進制編碼,染色體的長度即為隨機森林中決策樹的數量,染色體上每一位對應一棵決策樹,每一位上的值為1或0,1為選用該決策樹,0為不選用該決策樹,假設隨機森林有10棵決策樹,則染色體的一種編碼結果見圖3,圖中編號為2、4、6、8、10的決策樹為根據這種編碼得到的決策樹組合。 決策樹編號12345678910二進制編碼0101010101 圖3染色體編碼舉例 (2)適應度評估 在遺傳算法中,適應度評估決定了種群進化的方向。適應度評估需要設計適應度函數并計算適應度函數值,適應度函數也叫評價函數,適應度值的大小可以評估種群中個體的優(yōu)劣程度。使用適應度函數計算種群中每一個個體(即每一個解)對應的適應度值,使該適應度值成為選擇交配個體的依據,從而使種群向有利于求得最優(yōu)解的方向演化。 從前面介紹的編碼方式可知,一條染色體對應的是基于隨機森林決策樹集的一種決策樹組合方式,而哪一種組合方式形成的集成更好還需要適應度函數來評估。本研究旨在得到分類正確率高的集成分類器,因此適應度函數被設計為計算集成分類器的準確率,以此評估決策樹組合的優(yōu)劣。隨機森林的決策樹集建好之后,可以得到每棵決策樹對所有測試樣本的分類結果,然后通過投票法就可以得到每種決策樹組合對所有測試樣本的分類結果,進而將該分類結果與測試樣本類別相比較得到每種決策樹組合的集成分類正確率,該值即作為對應染色體的適應度。 對M個測試樣本的二分類問題,適應度函數定義為 (1) 其中,F為集成分類器的準確率,xk為第k個測試樣本,P(xk)為集成分類器對第k個測試樣本的分類結果,yk為第k個測試樣本的類標0或1。 (3)選擇操作 適應度值的大小表征了染色體對應的個體的優(yōu)劣,適應度值越大表示個體越優(yōu)。按照優(yōu)勝劣汰的自然選擇原則,好的個體的基因保留下來的概率更大,因而適應度值高的個體被選作下一代的父母的概率更高,得到下一代的父母是由選擇操作實現的。本研究用輪盤賭法進行選擇操作,該方法使個體被選擇的概率與其適應度值成正比,個體α被選擇的概率pα可表示為[35] (2) 其中,Fα為個體α的適應度值,Fα′為個體α′的適應度值。通過輪盤賭法對個體的選擇,使每一代中優(yōu)秀的決策樹組合以更高的概率保留下來,并有機會在此基礎上產生更優(yōu)的組合。 (4)交叉和變異操作 生成子代的兩個基本操作是交叉和變異。交叉操作是對父代的兩個染色體實施的,從而得到由父代的第1個染色體的一部分和第2個染色體的一部分構成的新染色體。最常見的交叉方式是單點交叉,先在染色體上隨機選擇一個點,在該交叉點前面的部分從父代中第1個染色體獲得,后面的部分則由父代中第2個染色體獲得。按照這種方式可以擴展為多點交叉。還有一種方式,獨立地從父代兩個染色體中隨機選擇基因從而構成新染色體,叫均勻交叉。以二進制編碼方式為例,3種交叉類型見圖4。圖4中,單點交叉的交叉位點位于第3個基因位與第4個基因位之間,其子染色體由第1條染色體的前3個基因和第2條染色體的后8個基因構成;多點交叉有兩個交叉位點,分別位于第3個基因位與第4個基因位之間和第9個基因位與第10個基因位之間,其子染色體由第1條染色體的前3個基因、第2條染色體的中間6個基因和第1條染色體的后兩個基因構成;均勻交叉的子染色體的基因構成取決于隨機交叉位點,交叉位點為0的基因位采用染色體0的基因,交叉位點為1的基因位采用染色體1的基因,由此構成子染色體。為了增大產生多樣個體的可能性,本研究選用均勻交叉法進行交叉操作。 實施交叉后,利用變異操作產生解空間的隨機性。二進制編碼中,常用的變異方式為染色體某一位的翻轉,即1變?yōu)?或0變?yōu)?,這種變化對于隨機森林的決策樹集而言,意味著某棵決策樹從被選用狀態(tài)到不被選用狀態(tài)的轉變或者從不被選用狀態(tài)到被選用狀態(tài)的轉變。變異可以在一定程度上增加決策樹組合的隨機性,避免陷入局部最優(yōu)[41]。 經過交叉、變異操作得到子代之后,為了保留上一代中的優(yōu)秀個體,本研究采用錦標賽法對該子代進行更新。錦標賽法是將父代和經交叉、變異后得到的子代放在一起,按適應度進行排序,再依據種群大小選出優(yōu)秀個體作為新子代。這樣,每一代進化得到的個體是兩代種群中最優(yōu)秀的,可以加快進化速度。 2.3分類器的集成 通過遺傳算法的進化搜索得到隨機森林決策樹空間中個體分類器的滿意組合,由最終進化得到的染色體中值為1處對應的決策樹構成,接下來的任務是以合適的方法將個體分類器結合起來。分類器集成問題的重點在于找到一種策略來綜合個體分類器的分類結果,從而得到集成的分類結果,結合策略會對集成的性能產生一定影響。 投票法也有不同的機制,最常見的是絕對多數投票法和相對多數投票法。絕對多數投票法中每個分類器只能向一個類標投票,得到一半以上票數的類標為最終的類別,若無類標得到一半以上票數則無分類結果。設H(x)為集成輸出的類標,基于絕對多數投票法的集成輸出類標可定義[32]為 (3) (a)單點交叉 (b)多點交叉 (c)均勻交叉 圖4單點交叉、多點交叉、均勻交叉示例 相對多數投票法則將票數最多的類標作為最終類標,不會出現無分類結果的情況,若出現多個類標獲得最高票數,則隨機選擇一個作為最終類標?;谙鄬Χ鄶低镀狈ǖ募奢敵鲱悩丝啥x[32]為 (4) 本研究探討一個二分類問題,預測結直腸癌患者是否會存活,分類器hi將從類標{0,1}中預測出樣本的類別。由于該預測必須得到類標,明確癌癥患者的結局是生存還是死亡,故選擇相對多數投票法作為分類器集成的方法,將得到的決策樹組合進行結合。若有一半以上的分類器預測結果為0,則集成分類結果為0;若有一半以上的分類器預測結果為1,則集成分類結果為1;若預測結果為0和1的分類器各占一半,則隨機選擇一個作為集成分類結果。至此,集成分類器就生成了。 3.1數據準備 如果一開始的輸入數據集質量不高,那么任何結果和發(fā)現都會受到質疑[42]。所以,在數據挖掘過程中,實驗數據處理需要投入大量的時間和精力。下面介紹本次實驗關于數據的準備工作。 3.1.1 數據獲取 本次實驗使用的數據是SEER的結直腸癌數據,SEER計劃(The Surveillance, Epidemiology, and End Results Program)是美國國家癌癥協會的一個項目,從全美國各個地區(qū)和機構收集癌癥病例的數據,在美國是一個權威的癌癥數據源,也被看作是全世界癌癥注冊機構的質量標準[17]。SEER癌癥數據量較大,數據的結構文檔完整,可供研究人員免費獲取和使用,從SEER的官網(http:∥www.seer.cancer.gov)可以知道數據獲取的詳細信息。SEER數據庫已被廣泛應用于各種分析研究項目,美國醫(yī)學的數據庫(PUBMED)在2014年的搜索顯示,超過540個出版物使用該數據集作為主要數據源或做癌癥統(tǒng)計報告[22]。 本研究采用的數據包含1973年至2013年的癌癥數據,根據癌癥類型共有9個TXT文檔,其中COLRECT存儲的是結腸、直腸癌(合稱結直腸癌)的數據,本研究利用該數據進行結直腸癌患者存活性預測實驗。 3.1.2 數據預處理 數據準備過程包括理解數據的含義、探知變量的統(tǒng)計和分布情況,進行適當的轉換、處理缺失值、縮減數據量等,因此數據準備會花掉數據挖掘開始部分工作時間的一半甚至80%[43]。 結直腸癌的原始數據集包含134個變量和超過110 000條記錄,但并非所有的變量和記錄均用于此研究。為了更好地理解并選擇有意義的變量,研讀數據的說明文檔和癌癥的編碼、分期手冊,了解字段的名稱、含義、數字編碼方式和癌癥各個屬性的統(tǒng)一編碼標準。公開版本的數據中的變量大致可分為7類,具體見表1。 表1 變量分類Table 1 Classification of Variables 關于數據的變量做出如下處理。重新編碼使原有列重復出現,因而去掉由于癌癥編碼標準更新而重新編碼的字段;一些字段與病人的死因或關鍵的狀態(tài)直接相關,不能作為模型的輸入,故刪除。經過刪減最終剩余56個字段。此時,數據已比較完整,個別字段只存在個別缺失值。根據數據的說明文檔,存在缺失值的這些字段,說明文檔對缺失值均有特定的數字編碼,于是直接向每列的缺失值處填充即可。 得到完整的數據后,還需要找到目標變量。結直腸癌數據中一個名稱為STAT_REC的字段是表示癌癥患者在SEER隨訪研究期間是否死亡的狀態(tài),4為死亡,1為存活,本研究將該字段作為數據的目標變量進行分類實驗。本實驗旨在預測癌癥存活性,因此還需要刪除死因為非癌癥的數據。由于結直腸癌數據總量較大,刪除非癌癥死因的記錄之后依然較多,且年份較早的數據缺失值較多,為方便實驗,基于正負類樣本數量平衡的原則,從診斷年份為2013年的數據中隨機選取1 000條作為實驗數據。 3.2實驗設置 本次實驗主要針對兩種方法進行,分別是改進參數的隨機森林[25]和基于GA-RF的集成分類方法,并利用幾個評價分類性能的指標對實驗方法進行評估。下面先說明實驗參數設置情況,然后介紹本研究使用的分類性能評價方法。 3.2.1 實驗參數設置 首先介紹本研究提出的基于GA-RF的集成分類方法的參數設置。該方法利用遺傳算法在隨機森林中尋找滿意的集成,首先需要構建隨機森林,然后才是遺傳算法的整個流程,所以參數設置也涉及到這兩個方面。①隨機森林涉及到的兩個主要參數是特征數量和決策樹數量。為了使隨機森林的決策樹多樣性足夠大,特征數量設為1;隨機森林的決策樹集是新集成的個體分類器選擇空間,又考慮計算效率的因素,按照經驗將決策樹數量設為100。②遺傳算法主要有種群大小、變異率和進化代數3個參數需要設置,綜合考慮運算效率和效果,將種群大小設為10,變異率設為0.05,進化代數設為50,其他參數取默認值。 周天寧等[25]提出利用遺傳算法對隨機森林參數進行優(yōu)化,優(yōu)化的參數為特征數量和決策樹數量,采用實數編碼,染色體長度為2,兩個基因位的值即為兩個參數的取值。特征數量的最小取值為1,最大值為實驗數據的總特征數;決策樹數量的最小取值為1,最大值可以是+∞,但是取值范圍過大會影響運算效率,故根據經驗人為選定一個較大的數來代替最大值,以減少計算量。參數優(yōu)化的目的是通過找到滿意的參數組合獲得更高的分類精度,因此適應度函數設置為計算隨機森林的分類正確率。本次實驗中,特征數量取值范圍為[1,55],決策樹數量的取值范圍設為[1,500],種群初始化以及后續(xù)的交叉、變異操作都在該取值范圍內進行??紤]到比較的公平性,同樣將種群數量設為10,變異率設為0.05,并引入錦標賽法來選擇下一代個體,當代數達到50代時算法停止,遺傳算法其他參數取默認值。 3.2.2 分類性能評價方法 預測模型的好壞需要適用的衡量手段來評估。本研究選用醫(yī)療領域診斷預測中最常用的評價指標:敏感性、特異性和準確性,并使用交叉驗證進行測試,下面分別做出介紹。 (1)分類性能評價指標 本研究使用的分類性能評價指標為敏感性、特異性和準確性。這3個指標在醫(yī)療領域的診斷預測中被廣泛使用,主要用于衡量某項預測的效果和可靠性[44],DELEN et al.[17-18]、KHAN et al.[19]和ZOLBANIN et al.[22]在評價預測癌癥存活性的模型時均使用了它們。敏感性用來評價對實為陽性者的檢測效果,如患病者有多大可能被檢查出有??;特異性評價對實為陰性者的檢測效果,如無病者有多大可能被正確地排除;準確性由敏感性和特異性決定,從整體上判斷一項預測的準確性。 (5) (6) (7) 其中,TP為真正類,TN為真負類,FP為假正類,FN為假負類。敏感性表示正類樣本被正確分類的比例,特異性表示負類樣本被正確分類的比例,準確性表示所有測試樣本被正確分類的比例。上述3個指標均為越大越好。 (2)K折交叉驗證 m=1,2,…,K (8) 其中,Am為第m折運算得到的正確率,K為折數。通過比較K折交叉驗證得到的正確率,可以知道分類方法的整體性能,再通過計算其標準差可比較不同方法的穩(wěn)定性。 3.3實驗結果和分析 本研究選用的分類性能評價方法在前面已經進行詳細介紹,下面先從指標值比較的角度分析交叉驗證得到的實驗結果,然后對兩種集成分類方法的集成復雜度進行比較分析。 (1)指標值比較分析 為了驗證集成學習方法比構成它的單一學習方法具有更好的性能且本研究提出的方法具有更高的預測精度,本研究將基于GA-RF的集成分類方法與改進參數的隨機森林以及與構成它們的單一學習方法決策樹進行對比,3種方法分別進行10折交叉驗證實驗。表2為對結直腸癌數據分類的實驗結果,包含了由3種方法構建的分類器在結直腸癌數據集上10折交叉驗證得到的各項指標值以及它們的均值和標準差,其中參數優(yōu)化的隨機森林的指標值使用遺傳算法進化完成獲得的參數值得到,基于GA-RF的集成分類方法的指標值由該方法構建的集成分類器得到。 首先,對每一折實驗中3種方法的3個指標值進行對比,圖5以折線圖的形式展示了3種方法在10折交叉驗證中得到的敏感性值,圖6和圖7分別為特異性值和準確性值。由圖5可以看出,隨著折數的變化,即訓練集和測試集的更改,3種方法得到的敏感性值變化趨勢相似且波動較大,該波動是正類樣本在每折驗證中分布不均衡引起的,從每折實驗看,基于GA-RF的集成分類方法和參數優(yōu)化的隨機森林在敏感性上的優(yōu)劣很難分辨,且二者整體上優(yōu)于決策樹,但也存在決策樹獲得較高敏感性值的情況。由圖6可以看出,基于GA-RF的集成分類方法幾乎每折的特異性值都優(yōu)于參數優(yōu)化的隨機森林,且二者均優(yōu)于決策樹。而由圖7可以看出,3種實驗方法在每折實驗的準確性上的排序為:基于GA-RF的集成分類方法優(yōu)于參數優(yōu)化的隨機森林,參數優(yōu)化的隨機森林優(yōu)于決策樹。 然后從整體上對交叉驗證的結果進行分析。由表2可知,決策樹方法、參數優(yōu)化的隨機森林和基于GA-RF的集成分類方法這3種方法的敏感性的均值分別為0.482、0.583、0.588,特異性的均值分別為0.823、0.950、0.972,準確性均值分別為0.742、0.864、0.882,3個指標的均值都呈現出從小到大的順序;3種方法敏感性的標準差分別為0.132、0.121、0.118,特異性的標準差分別為0.065、0.020、0.013,準確性的標準差分別為0.073、0.030、0.027,3個指標的標準差都呈現出由大到小的順序。將兩種集成學習方法與決策樹方法比較發(fā)現,兩種集成學習方法的3個指標值的均值都大于決策樹方法,且有明顯的差距,標準差也都小于決策樹,這驗證了集成學習方法通常比單一學習方法具有更高預測精度和更好泛化性能的預測。再比較兩種集成學習方法,基于GA-RF的集成分類方法的3個指標的均值都更高,說明本研究所提方法的預測準確性更好;而且本研究所提方法得到的3個指標的標準差都更小,證明該方法獨立于樣本的泛化性能更強。 表2 分類實驗結果Table 2 Experiment Results of Classification 圖5 10折交叉驗證得到的敏感性對比圖Figure 5 Comparison of Sensitivity from 10-fold Cross-validation 圖6 10折交叉驗證得到的特異性對比圖Figure 6 Comparison of Specificity from 10-fold Cross-validation 圖7 10折交叉驗證得到的準確性對比圖Figure 7 Comparison of Accuracy from 10-fold Cross-validation 本研究的方法不僅預測精度最高,而且表現出了最好的泛化性能和穩(wěn)定性,可以有效輔助醫(yī)生做出治療決策。敏感性值表征的是對可以存活的病人的分類正確率。如果分類錯誤,即將那些可以存活的病人預測為將會死亡,醫(yī)生會及時對患者再次做出診斷,通過病理分析對癌癥的轉移或復發(fā)情況進行判斷,排除復發(fā)或轉移的疑慮或給出進一步的診療方案,因而低敏感性值可能導致多余的診療過程,而且會占用醫(yī)院資源、增大治療成本,但對癌癥患者的健康是無害的。特異性值表征的是對不會存活的病人的分類正確率。如果分類錯誤,即將不會存活的病人預測為會存活,患者可能因沒有得到及時的復診而錯過最佳的治療時機,導致其存活時間縮短,這類錯誤關乎到患者的存活時長,所以需要盡可能地避免。本研究所提方法不僅在整體準確性上表現為最優(yōu),而且在敏感性和特異性方面也獲得了更高的均值,相對于其他兩種方法可以更大程度地避免上述兩類錯誤的發(fā)生。特異性與敏感性相比,醫(yī)院更看重特異性值的高低。本研究提出的方法的特異性平均值為0.972,達到了較高的水平,敏感性值僅有0.588,依然偏低。特異性已經達到比較理想的值,雖然敏感性值不高,但是由特異性和敏感性共同決定的準確性獲得了較高的值,所以本研究的方法整體上可以達到較好的預測效果。 機器學習技術的發(fā)展及其在醫(yī)學領域中的應用,使人們可以通過對歷史數據的有效分析發(fā)現有趣的模式。醫(yī)院常使用傳統(tǒng)統(tǒng)計學方法做回顧性的數據分析,而機器學習技術可以輔助醫(yī)生做前瞻性預測,當然準確和完整的醫(yī)療數據是必不可少的。SEER癌癥數據受到美國國家癌癥協會的嚴格機制保證,具有較好的準確性和完整性,因而基于該數據得到的預測模型具有一定的可靠性。 綜合上述分析,與另外兩種方法相比,本研究提出的集成分類方法在當前數據集下預測結直腸癌存活性的性能最優(yōu),無論醫(yī)生更看重準確性、特異性、敏感性中的哪個指標,相對于決策樹和隨機森林,基于GA-RF的集成分類方法都是更好的選擇。 (2)集成復雜度對比 很多集成學習方法都是將構造的所有個體學習器結合起來,隨著集成復雜度的增加,預測精度得到提高,但運算速度卻明顯降低。表3給出10折交叉驗證中每一折參數優(yōu)化的隨機森林得到的決策樹數量和基于GA-RF的集成分類器的決策樹數量,從均值看,參數優(yōu)化的隨機森林的集成復雜度是基于GA-RF的集成分類方法的近4倍,說明本研究提出的方法不僅性能優(yōu)于隨機森林,而且集成復雜度更低,運算效率更高。 表3 決策樹數量對比Table 3 Comparison of Numbers of Decision Trees 癌癥存活性預測的準確性對病患至關重要,針對結直腸癌存活性預測問題,為提高預測的準確性,本研究利用遺傳算法改進隨機森林,提出基于GA-RF的集成分類方法。在結直腸癌存活性預測中,通過與傳統(tǒng)的決策樹方法、參數優(yōu)化的隨機森林方法比較,得到3種方法在性能上從高到低的排序為:基于GA-RF的集成分類方法、參數優(yōu)化的隨機森林、決策樹。一方面,該實驗結果驗證了個體分類器通過有效的集成可以得到比原個體分類器更好的分類準確率和泛化性能;另一方面,表明本研究對隨機森林的改進十分有效,改進得到的方法在結直腸癌存活性預測中具有更好的性能。隨機森林方法本身就有準確率高且泛化能力強的特點,本研究提出的方法在隨機森林的基礎上又提高了運算精度和泛化能力,而且由于集成復雜性的降低,運算速度也得到明顯加快。 本研究使用實際的癌癥數據進行實驗,且所提出的方法預測性能較好,因而可以將該方法推廣到醫(yī)療預后中輔助醫(yī)生做出更準確的后續(xù)診療決策,彌補傳統(tǒng)經驗預測的不足,進而增加患者滿意度、節(jié)約醫(yī)療資源、降低醫(yī)療成本。如醫(yī)生可以在該方法的輔助下對癌癥復發(fā)或癌癥轉移概率做出更準確的判斷,及時給出精準的診療方案或減少不必要的后續(xù)診療。一方面,本研究結果為構造更優(yōu)的集成提供了一種新的方法;另一方面,癌癥存活性預測準確性的提高對于癌癥的預測、治療有很大的現實意義。但是本研究依然有不足之處,可以通過豐富實驗數據使問題更接近實際,還可以通過分析并引入其他集成分類方法的優(yōu)勢以進一步提高方法的預測性能。 未來的研究中,考慮將本研究提出的癌癥存活性預測方法擴展到如肺癌、前列腺癌、乳腺癌等其他癌癥的預后中,以便輔助各種癌癥做出更準確的診療決策,降低醫(yī)療成本。另外,在后續(xù)的研究中,可以將從存活性預測具體到存活期預測,并進一步地研究癌癥轉移、癌癥復發(fā)的預測,以更好地輔助醫(yī)療決策。 [1]TORRE L A,BRAY F,SIEGEL R L,et al.Global cancer statistics,2012.CA:ACancerJournalforClinicians,2015,65(2):87-108. [2]KOUROU K,EXARCHOS T P,EXARCHOS K P,et al.Machine learning applications in cancer prognosis and prediction.ComputationalandStructuralBiotechnologyJournal,2015,13:8-17. [3]PARK K,ALI A,KIM D,et al.Robust predictive model for evaluating breast cancer survivability.EngineeringApplicationsofArtificialIntelligence,2013,26(9):2194-2205. [4]AZAR A T,EI-METWALLY S M.Decision tree classifiers for automated medical diagnosis.NeuralComputingandApplications,2013,23(7/8):2387-2403. [5]CHEN K H,WANG K J,WANG K M,et al.Applying particle swarm optimization-based decision tree classifier for cancer classification on gene expression data.AppliedSoftComputing,2014,24:773-780. [6]DEVI M A,RAVI S,VAISHNAVI J,et al.Classification of cervical cancer using artificial neural networks.ProcediaComputerScience,2016,89:465-472. [7]LIN D,VASILAKOS A V,TANG Y,et al.Neural networks for computer-aided diagnosis in medicine:a review.Neurocomputing,2016,216:700-708. [8]ZI?BA M,TOMCZAK J M,LUBICZ M,et al.Boosted SVM for extracting rules from imbalanced data in application to prediction of the post-operative life expectancy in the lung cancer patients.AppliedSoftComputing,2014,14(Part A):99-108. [9]AZAR A T,EI-SAID S A.Performance analysis of support vector machines classifiers in breast cancer mammography recognition.NeuralComputingandApplications,2014,24(5):1163-1177. [10] CHEN H,LIN Z,WU H,et al.Diagnosis of colorectal cancer by near-infrared optical fiber spectroscopy and random forest.SpectrochimicaActaPartA:MolecularandBiomolecularSpectroscopy,2015,135:185-191. [11] AZAR A T,ELSHAZLY H I,HASSANIEN A E,et al.A random forest classifier for lymph diseases.ComputerMethodsandProgramsinBiomedicine,2014,113(2):465-473. [12] 彭勇,陳俞強.基于概率神經網絡的乳腺癌診斷系統(tǒng).合肥工業(yè)大學學報:自然科學版,2013,36(6):684-687. PENG Yong,CHEN Yuqiang.Diagnosis system of breast cancer based on probabilistic neural network.JournalofHefeiUniversityofTechnology:NaturalScience,2013,36(6):684-687.(in Chinese) [13] SHEIKHPOUR R,SARRAM M A,SHEIKHPOUR R.Particle swarm optimization for bandwidth determination and feature selection of kernel density estimation based classifiers in diagnosis of breast cancer.AppliedSoftComputing,2016,40:113-131. [14] 李梅,張偉,李永忠,等.支持向量機神經網絡在判別前列腺癌中的應用研究.四川大學學報:醫(yī)學版,2013,44(4):666-668. LI Mei,ZHANG Wei,LI Yongzhong,et al.Application of support vector machine neural network in distinguishing prostate cancer.JournalofSichuanUniversity:MedicalScienceEdition,2013,44(4):666-668.(in Chinese) [15] GE P,GAO F,CHEN G.Predictive models for prostate cancer based on logistic regression and artificial neural network∥ProceedingsofIEEEInternationalConferenceonMechatronicsandAutomation.Beijing,2015:1472-1477. [16] 葉強,張潔.基于遺傳算法的多分類器融合模型在信用評估中的應用.哈爾濱工業(yè)大學學報,2006,38(9):1504-1505,1536. YE Qiang,ZHANG Jie.Application of multiple classifiers syncretizing model in credit evaluation.JournalofHarbinInstituteofTechnology,2006,38(9):1504-1505,1536.(in Chinese) [17] DELEN D,WALKER G,KADAM A.Predicting breast cancer survivability:a comparison of three data mining methods.ArtificialIntelligenceinMedicine,2005,34(2):113-127. [18] DELEN D.Analysis of cancer data:a data mining approach.ExpertSystems,2009,26(1):100-112. [19] KHAN U,SHIN H,CHOI J P,et al.wFDT-weighted fuzzy decision trees for prognosis of breast cancer survivability∥ProceedingsoftheSeventhAustralasianDataMiningConference.Glenelg/Adelaide,SA,2008:141-152. [20] WANG K J,MAKOND B,CHEN K H,et al.A hybrid classifier combining SMOTE with PSO to estimate 5-year survivability of breast cancer patients.AppliedSoftComputing,2014,20:15-24. [21] 周志華.機器學習.北京:清華大學出版社,2016:178-180. ZHOU Zhihua.Machinelearning.Beijing:Tsinghua University Press,2016:178-180.(in Chinese) [22] ZOLBANIN H M,DELEN D,ZADEH A H.Predicting overall survivability in comorbidity of cancers:a data mining approach.DecisionSupportSystems,2015,74:150-161. [23] RODRIGUEZ-GALIANO V F,GHIMIRE B,ROGAN J,et al.An assessment of the effectiveness of a random forest classifier for land-cover classification.ISPRSJournalofPhotogrammetryandRemoteSensing,2012,67:93-104. [24] QIAN C,WANG L,GAO Y,et al.In vivo MRI based prostate cancer localization with random forests and auto-context model.ComputerizedMedicalImagingandGraphics,2016,52:44-57. [25] 周天寧,明冬萍,趙睿.參數優(yōu)化隨機森林算法的土地覆蓋分類.北京:中國石油天然氣集團,2016. ZHOU Tianning,MING Dongping,ZHAO Rui.Scienceofsurveyingandmapping,parameteroptimizationalgorithmofrandomforestland.Beijing:China National Petroleum Corporation,2016.(in Chinese) [26] HO T K.The random subspace method for constructing decision forests.IEEETransactionsonPatternAnalysisandMachineIntelligence,1998,20(8):832-844. [27] ZHOU Z H,WU J,TANG W.Ensembling neural networks:many could be better than all.ArtificialIntelligence,2002,137(1/2):239-263. [28] ZHOU Z H,TANG W.Selective ensemble of decision trees∥RSFDGrC′03Proceedingsofthe9thInternationalConferenceonRoughSets,FuzzySets,DataMining,andGranularComputing.Heidelberg:Springer-Berlin,2003:476-483. [29] 張妤,王文劍,康向平.一種回歸SVM選擇性集成方法.計算機科學,2008,35(4):178-180. ZHANG Yu,WANG Wenjian,KANG Xiangping.A regression SVM selection ensemble approach.ComputerScience,2008,35(4):178-180.(in Chinese) [30] HONG J H,CHO S B.The classification of cancer based on DNA microarray data that uses diverse ensemble genetic programming.ArtificialIntelligenceinMedicine,2006,36(1):43-58. [31] 趙強利,蔣艷凰,徐明.選擇性集成算法分類與比較.計算機工程與科學,2012,34(2):134-138. ZHAO Qiangli,JIANG Yanhuang,XU Ming.Categorization and comparison of the ensemble pruning algorithms.ComputerEngineering&Science,2012,34(2):134-138.(in Chinese) [32] ZHOU Z H.Ensemblemethods:foundationsandalgorithms.Boca Raton:CRC Press,2012:72-73. [33] DIETTERICH T G.Ensemble methods in machine learning∥MultipleClassifierSystems.Cagliari,Italy:Springer-Verlag Berlin Heidelberg,2000:1-15. [34] BREIMAN L.Random forests.MachineLearning,2001,45(1):5-32. [35] MARSLAND S.Machinelearning:analgorithmicperspective.Boca Raton,Florida:CRC Press,2009:33. [36] ELYAN E,GABER M M.Ageneticalgorithmapproachtooptimisingrandomforestsappliedtoclassengineereddata. Aberdeen:Robert Gordon University,2016. [37] BOUSSA?D I,LEPAGNOT J,SIARRY P.A survey on optimization metaheuristics.InformationSciences,2013,237:82-117. [38] WHITLEY D.A genetic algorithm tutorial.StatisticsandComputing,1994,4(2):65-85. [39] MITCHELL M.Anintroductiontogeneticalgorithms.Cambridge,MA:MIT Press,1996:7-8. [40] 陳李鋼,葉強,李一軍.基于遺傳算法的銀行客戶信用評估模型研究.計算機工程,2007,33(3):70-72. CHEN Ligang,YE Qiang,LI Yijun.Research on GA-based bank customer′s credit evaluation.ComputerEngineering,2007,33(3):70-72.(in Chinese) [41] LOZANO M,LAGUNA M,MARTR,et al.A genetic algorithm for the minimum generating set problem.AppliedSoftComputing,2016,48:254-264. [42] DELEN D,OZTEKIN A,TOMAK L.An analytic approach to better understanding and management of coronary surgeries.DecisionSupportSystems,2012,52(3):698-705. [43] PIRAMUTHU S.On learning to predict web traffic.DecisionSupportSystems,2003,35(2):213-229. [44] ZHU W,ZENG N,WANG N.Sensitivity,specificity,accuracy,associated confidence interval and ROC analysis with practical SAS?implementations∥NortheastSASUsersGroupProceedings:HealthCareandLifeSciences.Baltimore,Maryland,2010:1-9. [45] KOHAVI R.A study of cross-validation and bootstrap for accuracy estimation and model selection∥IJCAI′95Proceedingsofthe14thInternationalJointConferenceonArtificialIntelligence.San Francisco,CA:Morgan Kaufmann Publishers,1995:1137-1143. FundedProject:Supported by the National Natural Science Foundation of China(71533001) and the Fundamental Research Funds for the Central Universities(DUT15QY32) Biography:WANG Yuyan is a master degree in the Faculty of Management and Economics at Dalian University of Technology. Her research interests focus on medical health management, data mining and machine learning. E-mail:wyy@mail.dlut.edu.cn WANG Dujuan, doctor in engineering, is an associate professor in the Faculty of Management and Economics at Dalian University of Technology. Her research interests include service operation management, data mining and intelligent optimization algorithm. Her representative paper titled “Disruption management for new jobs arrivals with deteriorating effect and controllable processing times” was published in theJournalofSystems&Management(Issue 5, 2016). E-mail:wangdujuan@dlut.edu.cn WANG Yanzhang, doctor in engineering, is a professor in the Faculty of Management and Economics at Dalian University of Technology. His research interests include data mining and knowledge management. His representative paper titled “Emergency risk entropy forecasting model based on knowledge element” was published in theJournalofSystemsEngineering(Issue 1, 2016). E-mail:yzwang@dlut.edu.cn Yaochu Jin, doctor in engineering, is a professor and a chair of computational intelligence in the Department of Computing at University of Surrey. His research interests include computational intelligence, machine learning, computational biology and computational neuroscience and other interdisciplinary research and engineering applications. His representative paper titled “A social learning particle swarm optimization algorithm for scalable optimization” was published in theInformationSciences(Volume 291, 2015). E-mail:yaochu.jin@surrey.ac.uk □ PredictingSurvivabilityofColorectalCancerbyanEnsembleClassificationMethodImprovedonRandomForest WANG Yuyan1,WANG Dujuan1,WANG Yanzhang1,Yaochu Jin1,2 1 Faculty of Management and Economics, Dalian University of Technology, Dalian 116023, China2 Department of Computing, University of Surrey, Surrey GU2 7XH, United Kingdom Cancer is one of the major causes of death for human and accounts for a large proportion of the costs of healthcare in many countries. The prediction of cancer survivability is an important task for cancer prognosis and has been a challenging research problem for many researchers, which can help doctors to make more accurate diagnostic and treatment decisions and lower treatment costs. In recent years, data-driven methods for cancer survivability prediction have been gradually put into application, yet improving the accuracy of cancer survivability prediction methods has always been an active area of research as the accuracy of prediction is the main index to evaluate the performance of prediction methods. This paper focuses on colorectal cancer which has both high incidence and high mortality. In order to make survivability prediction of colorectal cancer more accuracy, an ensemble classification method based on GA-RF is proposed. This method is the outcome of using genetic algorithm(GA for short) to make improvements to the random forest(RF for short). Genetic algorithm is used to search for parts of the decision trees in random forest aiming at getting better accuracy of ensemble classification. The method proposed along with decision tree method and the random forest method after parameter optimization are used to develop prediction models to predict the survivability of patients with colorectal cancer. Using the colorectal cancer data set of the SEER database, experiments are carried out with three methods which are tested by 10-fold cross-validation for performance comparison purposes, and then accuracy, sensitivity and specificity are used to evaluate the three methods. The experimental results indicated that the ensemble classification method based on GA-RF had the prediction accuracy of 88.2%, higher than that of the random forest after parameter optimization and decision tree. And random forest which came out to be the second also had a high accuracy of 86.4%, but the complexity of ensemble was much more than that of the ensemble classification method based on GA-RF, and decision tree came out to be the worst of the three with 74.2% accuracy. Besides, the ensemble classification method based on GA-RF showed the best generalization ability. The ensemble classification method proposed makes an effective improvement on random forest, which can predict survivability of colorectal cancer with higher efficiency and accuracy, provide reference for decision-making of colorectal cancer prognosis, make up for the shortage of survivability prediction based on experience, and has practical significance to saving medical resources, reducing medical costs and improving patient satisfaction. random forest;genetic algorithm;ensemble classification;survivability prediction;colorectal cancer Date:September 10th, 2016AcceptedDateDecember 22nd, 2016 TP181 A 10.3969/j.issn.1672-0334.2017.01.009 1672-0334(2017)01-0095-12 2016-09-10修返日期2016-12-22 國家自然科學基金(71533001);中央高?;究蒲袠I(yè)務費專項資金(DUT15QY32) 王宇燕,大連理工大學管理與經濟學部碩士研究生,研究方向為醫(yī)療健康管理、數據挖掘和機器學習等,E-mail:wyy@mail.dlut.edu.cn 王杜娟,工學博士,大連理工大學管理與經濟學部副教授,研究方向為服務運作管理、數據挖掘和智能優(yōu)化算法等,代表性學術成果為“惡化效應下加工時間可控的新工件到達干擾管理”,發(fā)表在2016年第5期《系統(tǒng)管理學報》,E-mail:wangdujuan@dlut.edu.cn 王延章,工學博士,大連理工大學管理與經濟學部教授,研究方向為數據挖掘和知識管理等,代表性學術成果為“基于知識元的突發(fā)事件風險熵預測模型研究”,發(fā)表在2016年第1期《系統(tǒng)工程學報》,E-mail:yzwang@dlut.edu.cn Yaochu Jin,工學博士,英國薩里大學計算機系計算智能首席教授,研究方向為計算智能、機器學習、計算生物學和計算神經科學等交叉學科的理論研究和工程應用等,代表性學術成果為“A social learning particle swarm optimization algorithm for scalable optimization”,發(fā)表在2015年第291卷《Information Sciences》,E-mail:yaochu.jin@surrey.ac.uk
Figure3AnExampleofChromosomeCoding
Figure4ExamplesofSinglePointCrossover,Multi-pointCrossoverandUniformCrossover3 結直腸癌存活性預測實驗
4 結論