王石磊,陸慧娟,關 偉,余 翠
(1.中國計量學院 信息工程學院,浙江 杭州 310018;2.中國計量學院 現(xiàn)代科技學院,浙江 杭州 310018)
一種粒子群RELM的基因表達數(shù)據(jù)分類方法
王石磊1,陸慧娟1,關 偉2,余 翠1
(1.中國計量學院 信息工程學院,浙江 杭州 310018;2.中國計量學院 現(xiàn)代科技學院,浙江 杭州 310018)
正則極限學習機(regularized extreme learning machine,RELM)具有比極限學習機(extreme learning machine,ELM)更好的泛化能力.然而RELM的輸入層權值、隱含層偏差是隨機給定的,會影響RELM的穩(wěn)定性.另外,RELM為了獲得較理想的分類精度,仍需設置較多的隱層節(jié)點.針對此問題,通過分析粒子群優(yōu)化算法(particle swarm optimization,PSO)的原理,把RELM初始產(chǎn)生的輸入層權值、隱含層偏差作為粒子帶入PSO進行尋優(yōu).通過在Breast和Brain數(shù)據(jù)集上進行多次10折交叉驗證表明,粒子群改進正則極限學習機(PSO-RELM)可以在隱層節(jié)點設置較少時獲得比BP神經(jīng)網(wǎng)絡(back propagation,BP)、支持向量機(support vector machine,SVM)、RELM更好的分類精度和更佳的穩(wěn)定性.
正則極限學習機;輸入層權值;隱含層偏差;粒子群
生物信息學是當今生命科學和自然科學的重大前沿領域之一,同時也是21世紀自然科學的核心領域之一.而在后基因組時代,作為生物信息學的一個重要研究方向,DNA微陣列(又稱DNA芯片或基因芯片)經(jīng)由一次測驗,就可以在基因水平上大規(guī)模并行檢測成千上萬個基因的表達量,進而提供大量基因序列相關數(shù)據(jù).它是基因組學和遺傳學研究強有力的工具,并且對癌癥等疾病的診斷、治療以及藥物研究都具有非常重大的現(xiàn)實意義[1-2].但如何根據(jù)DNA微陣列實驗測定的基因表達數(shù)據(jù)來有效的對樣本進行腫瘤分類是機器學習面臨的新課題和挑戰(zhàn)[3-4].
目前,多種機器學習算法如BP神經(jīng)網(wǎng)絡,SVM已經(jīng)廣泛被應用于各種分類研究中.但在不同的應用場合,傳統(tǒng)的神經(jīng)網(wǎng)絡算法存在學習時間較長,網(wǎng)絡結構復雜等問題[5].
SVM主要借助二次規(guī)劃來求解支持向量,對大規(guī)模訓練樣本難以實施,解決多分類問題存在困難[6].2006年,黃廣斌[7]等在對單隱層前饋神經(jīng)網(wǎng)絡研究的基礎上,提出了一種新穎的神經(jīng)網(wǎng)絡算法—極限學習機.ELM因具有簡單易用、分類精度較高等優(yōu)點,在分類問題應用中具有顯著的優(yōu)勢,然而ELM也存在泛化能力較差等問題.為提高ELM的泛化性能,2010年,鄧萬宇[8]等通過向ELM引入結構風險最小化理論以及正則項,提出了正則極限學習機.RELM具有比ELM更好的泛化性能,但是同ELM一樣,RELM的輸入層權值、隱含層偏差是隨機給定的,會影響RELM的穩(wěn)定性.另外,RELM為了獲得較理想的分類精度,仍需設置較多的隱層節(jié)點[9-10].
粒子群優(yōu)化算法[11-12]具有實現(xiàn)容易、精度高、收斂快等優(yōu)點.通過分析PSO的原理,針對RELM輸入層權值和隱含層偏差隨機給定的問題,本文通過把RELM初始產(chǎn)生的輸入層權值、隱含層偏差作為粒子帶入PSO進行尋優(yōu),然后把最終獲得的優(yōu)化的輸入層權值、隱含層偏差帶入RELM進行訓練和測試[13].PSO-RELM與BP、SVM、RELM在Breast和Brain數(shù)據(jù)集上進行多次實驗對比后顯示,穩(wěn)定性和分類精度都有一定的提高.
標準ELM是基于經(jīng)驗風險最小化原則,這在特定情形下如樣本數(shù)目是有限時,從統(tǒng)計學的角度看是不完善的.合理的做法是需要對經(jīng)驗風險和置信范圍同時進行最小化,因此根據(jù)統(tǒng)計學理論,RELM在ELM的基礎上引入結構風險最小化原則,并設置參數(shù)γ來對這兩種風險的比例進行調(diào)節(jié),其數(shù)學模型表示為
(1)
式(1)中:‖β‖2—統(tǒng)計學理論中的結構風險;‖ε‖2—經(jīng)驗風險,是N個不同樣本的誤差加權平方和;γ—通過交叉驗證方式確定的風險調(diào)節(jié)參數(shù);βi—第i個隱層節(jié)點的輸出權值;ai—第i個隱層節(jié)點的輸入權值;bi—第i個隱層節(jié)點的偏差.
為求解式(1)的條件極值問題,先構建相應的拉格朗日函數(shù)
(2)式(2)中,α=[α1,α2,…,αN],αj∈Rm(j=1,2,…,N)
代表拉格朗日乘子.
對式(2)中各變量分別求偏導并令偏導數(shù)為0,可得
(3)
根據(jù)式(3)求得RELM的輸出權值矩陣β=(γ-1I+HTH)THTT,其中I為單位矩陣.
粒子群優(yōu)化算法,又稱微粒群算法,是近幾年發(fā)展起來的一種新的進化算法(evolutionary algorithm,EA),由Kennedy與Eberhart兩位學者受飛鳥集群行為的規(guī)律性啟發(fā)而在1995年提出.PSO算法屬于進化算法的一種,同時也是一種并行算法.它從隨機解出發(fā),然后通過迭代尋找最優(yōu)解,并且也是通過適應度來評價解的品質和通過追隨當前搜索到的最優(yōu)值來尋找全局最優(yōu).
在PSO中,搜索空間的鳥被抽象為沒有質量和體積的粒子,也可以理解為所要解決的優(yōu)化問題的可能解.種群中的粒子都有一個適應值,該適應值是由優(yōu)化問題的適應度函數(shù)求得;同時,每一個粒子也還具有一個速度,該速度會決定粒子運動的方向和距離.在種群中的所有粒子隨機初始化后,粒子們就通過種群中的信息交流與共享而跟隨當前解空間的最優(yōu)粒子來搜索最優(yōu)解.PSO是通過迭代的方式來尋找最優(yōu)解,在每次迭代中,粒子通過跟蹤個體極值(Pbest)和全局極值(Gbest)來不斷調(diào)整自己的飛行速度和方向.Pbest是粒子本身搜索到的最優(yōu)解,Gbest是整個種群目前搜索到的最優(yōu)解.
設搜索空間為D維,總粒子數(shù)為n,種群表示為X=(X1,X2,…,Xn),分別用D維向量Xi=(Xi1,Xi2,…,XiD)T和D維向量Vi=(Vi1,Vi2,…,ViD)T表示第i個粒子的位置和當前的飛行速度,Pi=(Pi1,Pi2,…,PiD)T表示第i個粒子飛行過程中發(fā)現(xiàn)的個體極值對應的最優(yōu)位置,Pg=(Pg1,Pg2,…,PgD)T表示所有粒子發(fā)現(xiàn)的全局極值對應的最優(yōu)位置.所有粒子按如下公式不斷調(diào)整自己的飛行速度和方向
(4)
在(4)式中:ω—慣性因子[14],取值正常數(shù),ω較大適于對解空間進行大范圍搜索,ω較小適于進行小范圍搜索;c1、c2取值正常數(shù),稱加速因子,實際應用通常取c1=c2=2;r1、r2為大小在(0,1)之間的兩個相互獨立的隨機數(shù);對于D維的搜索空間,為了防止粒子進行盲目搜索,粒子位置的每一維都限定為[-Xmax,Xmax],粒子速度的每一維都限定為[-Vmax,Vmax],迭代中若位置和速度某一維超過邊界范圍則取邊界值.
RELM雖然在ELM的基礎上通過引入結構風險最小化理論以及正則項提高了泛化能力,但其輸入層權值、隱含層偏差在初始仍是隨機給定.在通過輸入層權值矩陣和隱含層偏差矩陣求取輸出矩陣時,這種隨機性可能產(chǎn)生的一些為0的值,會導致一些隱層節(jié)點成為無效節(jié)點.因此,為了獲得滿意的分類精度,RELM就需要設置相對較多隱層節(jié)點,而這種隨機性也同樣會影響其穩(wěn)定性.
為了改善上述RELM存在的問題,本文通過分析PSO的原理,把RELM初始產(chǎn)生的輸入層權值、隱含層偏差作為粒子帶入PSO進行尋優(yōu),提出粒子群改進正則極限學習機.PSO-RELM訓練過程可歸納如下:
1)用RELM隨機產(chǎn)生的多組輸入層權值矩陣、隱含層偏差矩陣生成初始粒子群.根據(jù)研究者經(jīng)驗,粒子群規(guī)模n通常取20~40,對較難或特定類別的問題可以取100~200,粒子群規(guī)模越大,算法越容易收斂到最優(yōu)點,相應耗費時間就越長;搜索空間維度D=k·(n+1)(D也是每一個粒子的長度),其中,k為隱層節(jié)點數(shù),n為輸入神經(jīng)元數(shù)(即輸入向量維度).粒子位置的每一維都限定為[-Xmax,Xmax],粒子速度的每一維都限定為[-Vmax,Vmax],其中Xmax、Vmax通常取1.
2)每次迭代時根據(jù)適應度函數(shù)求得每個粒子的適應值,其中適應度函數(shù)設定為訓練樣本類別矩陣和每一個粒子對應的輸出矩陣的均方根誤差(RMSE).把構成粒子的輸入層權值矩陣、隱含層偏差矩陣帶入RELM求得訓練樣本類別矩陣和輸出矩陣,然后求得本次迭代每一個粒子的適應值;RELM隱含層的激活函數(shù)選定為sigmoid函數(shù).
3)評價每個粒子的適應值進行尋優(yōu).對種群中每個微粒,將本次迭代求得的適應值與該粒子上次迭代搜索的個體極值Pbest進行比較,如果較好,則將該粒子Pbest更新為其本次迭代的適應值,并更新Pbest對應的位置為本次迭代粒子的位置;將本次迭代每個粒子的Pbest與上次迭代種群的Gbest進行比較,如果較好,則將Gbest更新為最好的Pbest,并更新Gbest對應的位置更新為最好的Pbest所對應的粒子的位置;所有粒子按式(4)更新自己的位置和方向.不斷重復上述過程直至迭代結束,最終得到一個較優(yōu)的輸入層權值矩陣、隱含層偏差矩陣.
4)把通過尋優(yōu)得到輸入層權值矩陣、隱含層偏差矩陣帶入RELM進行訓練和測試.
為了對PSO-RELM的性能進行測試,本文實驗平臺為MATLAB R2012b,并選取UCI數(shù)據(jù)集上的Breast和Brain數(shù)據(jù)集進行實驗驗證.數(shù)據(jù)集已經(jīng)過歸一化處理,前者包括575個樣本,每個樣本的特征維數(shù)為8,為二分類問題;后者樣本數(shù)為485,樣本特征數(shù)為8,是五分類問題.每次實驗都從Breast和Brain數(shù)據(jù)集中隨機選取訓練樣本和測試樣本,為了降低這種隨機性對實驗造成的影響,所以每次實驗進行10折交叉驗證,然后實驗結果取均值.
1)為使設置的隱層節(jié)點數(shù)較為合理,實驗首先測試了在Breast數(shù)據(jù)集上隱層節(jié)點數(shù)對PSO-RELM的影響.初始把隱層節(jié)點數(shù)開始設置為10,然后在此基礎上逐漸遞加到100,共進行91次實驗.記錄每次實驗的訓練時間、訓練精度和測試精度,結果選取8組,如表1.
表1 隱含層節(jié)點數(shù)對PSO-RELM的影響
Table1ImpactofhiddenlayernodenumberonPSO-RELM
隱含層節(jié)點數(shù)實驗結果訓練時間/s訓練精度測試精度1110.67330.76080.75351810.99500.76600.75872511.74360.77130.76223512.14440.77890.77565011.91210.76810.76576016.68670.76930.76048020.40930.76080.769010023.61180.76600.7570
從表1可以看出,隨著隱含層節(jié)點數(shù)的增加,PSO-RELM的訓練時間在整體上也是遞增的,且遞增幅度逐漸增大,而訓練精度和測試精度大體上是先增加再降低,并在35時達到最大.說明隱層節(jié)點數(shù)在相對較少時(不到50),PSO-RELM就能達到較滿意的分類精度.因此綜合考慮實驗精度和時間兩方面因素,后續(xù)實驗PSO-RELM隱層節(jié)點數(shù)都設為35.
圖1和圖2展示的分別為PSO-RELM在Breast和Brain數(shù)據(jù)集上的適應度函數(shù)擬合曲線圖.從圖中可以看出,Breast數(shù)據(jù)集上迭代次數(shù)在50左右,Brain數(shù)據(jù)集上迭代次數(shù)在100左右時,曲線圖開始趨于水平,說明適應度函數(shù)開始趨于收斂,這表明PSO-RELM的適應度函數(shù)具有很好的收斂性.
圖1 Breast上的適應度函數(shù)擬合曲線圖Figure 1 Fitness function fitting curve on Breast
圖2 Brain上的適應度函數(shù)擬合曲線圖Figure 2 Fitting fitness function curve on Brain
為了測試PSO-RELM的效果,本文的對比試驗選用了標準的BP神經(jīng)網(wǎng)絡、SVM和RELM三種算法.其中BP神經(jīng)網(wǎng)絡中神經(jīng)元個數(shù)設置為10;SVM采用臺灣大學林智仁(Lin Chih-Jen)教授等開發(fā)設計的LIBSVM軟件包[15],參數(shù)C設置為10;RELM隱層節(jié)點數(shù)設置為75,正則因子C設置為1;PSO-RELM中,粒子群優(yōu)化算法采用PSOt工具包,根據(jù)實驗和文獻參考,粒子群規(guī)模設置為20[16],RELM隱層節(jié)點設置為35,正則因子C也設置為1.
穩(wěn)定性是評價機器學習算法性能一個重要指標,實驗進一步通過5次實驗對四種算法的穩(wěn)定性進行對比.
表2記錄了四種算法在Breast數(shù)據(jù)集上五次實驗中的測試精度,然后計算了每種算法對應的方差.從表2中可以看出三點:1)BP神經(jīng)網(wǎng)絡對應的方差比其他三個都高了一個數(shù)量級(約為10倍),這也表明BP神經(jīng)網(wǎng)絡比較不穩(wěn)定;2)RELM比SVM穩(wěn)定,但兩者對應的方差相差比較小;3)PSO-RELM對應的方差比SVM、RELM對應的方差都小約0.000 06,穩(wěn)定性相對提升比較明顯.
表2 不同算法的穩(wěn)定性對比
最后通過10次實驗在Breast和Brain上對四種算法的精度進行對比,如圖3和圖4.
圖3 Breast上不同算法的精度對比圖Figure 3 Accuracy comparison of different algorithms on Breast
圖4 Brain上不同算法的精度對比圖Figure 4 Accuracy comparison of different algorithms on Brain
從圖3、圖4中可以看出,BP神經(jīng)網(wǎng)絡精度波動比較大,RELM波動比SVM小一些,精度也比SVM高一些;PSO-RELM相對RELM整體上比較平穩(wěn),且精度提高相對比較明顯.
本文通過運用粒子群優(yōu)化算法對RELM進行改進,提出了一種粒子群改進RELM(PSO-RELM)的基因表達數(shù)據(jù)分類方法.首先把RELM初始隨機產(chǎn)生的一組輸入層權值和隱含層偏差作為粒子帶入粒子群優(yōu)化算法進行尋優(yōu),然后把符合要求(即使分類誤差最小)的最優(yōu)粒子變換成輸入層權值和隱含層偏差進行訓練和測試.在Breast和Brain數(shù)據(jù)集上測試表明,PSO-RELM在隱層節(jié)點較少(設置為35)時,穩(wěn)定性和分類精度相對都有一定的提高.
[1] ANDER E S. Array of hope[J].Nature Genetics,1999,21(Suppl):3-4.
[2] RAMASWAMY S, GOLUB T R. DNA microarrays in clinical oncology[J].Jornal of Clinical Oncology,2002,20(7):1932-1941.
[3] SLONIM D K. From patterns to pathways: gene expression data analysis comes of age[J].Nature Genetics,2002,32(Suppl):502-508.
[4] KURAMOCHI M, KARYPIS G. Gene classification using expression profiles: a feasibility study[J].International Journal on Artificial Intelligence Tools,2005,14(4):641-660.
[5] YI Jianqiang, WANG Qian, ZHAO Dongbin, et al. BP neural network prediction-based variable-period sampling approach for networked control systems[J].Applied Mathematics and Computation,2007,185(2):976-988.
[6] CRISTIANINI N, SHAWE-TAYLOR J. An introduction to support vector machines and other kernel-based learning methods[M].Cambridge University Press,2000:107-136.
[7] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J].Neurocomputing,2006,70(1):489-501.
[8] 鄧萬宇,鄭慶華,陳 琳,等.神經(jīng)網(wǎng)絡極速學習方法研究[J].計算機學報,2010(2): 279-287. DENG Wanyu, ZHENG Qinghua, CHEN Lin, et al. Research on extreme learning of neural networks[J].Chinese Journal of Computers,2010(2):279-287.
[9] 陸慧娟.基于基因表達數(shù)據(jù)的腫瘤分類算法研究[D].徐州:中國礦業(yè)大學,2012. LU Huijuan. A study of tumor classification algorithms using gene expression data[D].Xuzhou: China University of Mining and Technology,2012.
[10] 陸慧娟,安春霖,馬小平,等.基于輸出不一致測度的極限學習機集成的基因表達數(shù)據(jù)分類[J].計算機學報,2013,36(2):341-348. LU Huijuan, AN Chunlin, MA Xiaoping, et al.Disagreement measure based ensemble of extrme learning machine for gene expression data classification[J].Chinese Journal of Computers,2013,36(2):341-348.
[11] KENNEDY J, EBERHART R. Particle swarm optimization[C]//Proceeding of IEEE International Conference on Neural Networks. Piscataway, NJ: IEEE Press,1995:1942-1948.
[12] EBERHART R, KENNEDY J. A new optimizer using particle swarm theory[C]//Proceeding of the 6th International Symposium on Micro Machine and Human Science, Piscataway, NJ: IEEE Press,1995:39-43.
[13] 王杰,畢浩洋.一種基于粒子群優(yōu)化的極限學習機[J].鄭州大學學報:理學版,2013,45(1):101-104. WANG Jie, BI Haoyang. A new extreme learning machine optimized by PSO[J].Journal of Zhengzhou University: Natural Science Edition,2013,45(1):101-104.
[14] HAN Fei, YAO Haifen, LING Qinghua. An improved evolutionary extreme learning machine based on particle swarm optimization[J].Neurocomputing,2013,116:87-93.
[15] CHANG C C, LIN C J. LIBSVM: a library for support vector machines [EB/OL].(2014-11-10)[2012-11-16]http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
[16] 王維博,林川,鄭永康.粒子群算法中參數(shù)的實驗與分析[J].西華大學學報:自然科學版,2008,27(1):76-80. WANG Weibo, LIN Chuan, ZHENG Yongkang. The experiment and analysis of parameters in particle swarm algorithm[J].Journal of Xihua University: Natural Science Edition,2008,27(1):76-80.
A method of particle swarm optimization RELM for gene expression data classification
WANG Shilei1, LU Huijuan1, GUAN Wei2, YU Cui1
(1. College of Information Engineering, China Jiliang University, Hangzhou 310018, China; 2. College of Modern Science and Technology, China Jiliang University, Hangzhou 310018, China)
Regularized extreme learning machines (RELM) have better generalization ability than extreme learning machines (ELM). However, the input layer weights and hidden layer bias of RELM are given randomly which could affect the stability of RELM. In addition, RELMs need to set lots of layer nodes in order to obtain relatively ideal classification accuracy. Aiming at this problem, we proposed a method which brought the initial input layer weights and hidden layer bias of RELMs into the particle swarm optimization (PSO) as partilces and optimized them by analyzing the theory of PSO. Through a series of 10-fold cross-validations on the Breast and Brain dataset, the results show that particle swarm optimization RELM (PSO-RELM) can obtain better classification accuracy and stability with fewer hidden nodes compared with the BP neural network, support vector machines (SVM) and RELMs.
regularized extreme learning machine; input layer weights; hidden layer bias; particle swarm
1004-1540(2015)02-0221-06
10.3969/j.issn.1004-1540.2015.02.018
2014-12-19 《中國計量學院學報》網(wǎng)址:zgjl.cbpt.cnki.net
國家自然科學基金資助項目(No.61272315,60842009),浙江省自然科學基金資助項目(No.Y1110342,Y1080950).
TP181
A