• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      PCD型自適應(yīng)彈性網(wǎng)絡(luò)在微陣列分類中的應(yīng)用

      2010-08-18 10:11:56李鈞濤賈英民
      智能系統(tǒng)學(xué)報(bào) 2010年3期
      關(guān)鍵詞:懲罰彈性分類

      李鈞濤,賈英民

      (北京航空航天大學(xué)第七研究室,北京 100191)

      PCD型自適應(yīng)彈性網(wǎng)絡(luò)在微陣列分類中的應(yīng)用

      李鈞濤,賈英民

      (北京航空航天大學(xué)第七研究室,北京 100191)

      針對(duì)癌癥分類中的重要基因選擇問(wèn)題,提出了一種基于順向坐標(biāo)下降算法的自適應(yīng)彈性網(wǎng)絡(luò).該自適應(yīng)彈性網(wǎng)絡(luò)通過(guò)引入數(shù)據(jù)驅(qū)動(dòng)權(quán)重,在構(gòu)建分類器的同時(shí)能自適應(yīng)地成群選擇基因,從而產(chǎn)生了一個(gè)稀疏的學(xué)習(xí)模型,增強(qiáng)了可解釋性.此外,通過(guò)引入懲罰因子,順向坐標(biāo)下降算法被改進(jìn)并有效地用于求解該自適應(yīng)彈性網(wǎng)絡(luò).急性白血病分類實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性.

      癌癥分類;基因選擇;彈性網(wǎng)絡(luò);順向坐標(biāo)下降算法(PCD算法);微陣列分類

      基于微陣列基因表達(dá)數(shù)據(jù)的癌癥分類問(wèn)題開辟了機(jī)器學(xué)習(xí)方法在計(jì)算生物領(lǐng)域的最早應(yīng)用,大量的學(xué)習(xí)機(jī)器及求解算法已經(jīng)被提出[1-15].由于生物學(xué)家和醫(yī)學(xué)科學(xué)家能從選擇的重要基因來(lái)確定癌癥研究中的最新發(fā)現(xiàn)或建議新的探索途徑;因此,除了預(yù)測(cè)給定腫瘤樣本的癌癥類型,另一個(gè)挑戰(zhàn)性的問(wèn)題是辨識(shí)分類相關(guān)的重要基因[4-13].

      基因選擇的目標(biāo)是更好地理解產(chǎn)生數(shù)據(jù)的生物系統(tǒng)并改進(jìn)分類器的預(yù)測(cè)性能.現(xiàn)流行的基因選擇方法有:單變量排序[1]、判別式比率、主元分析、遞歸特征消除[2]等.然而,在這些方法中,基因選擇與分類器構(gòu)造是分開進(jìn)行的.最近的統(tǒng)計(jì)學(xué)習(xí)理論與實(shí)驗(yàn)表明,同時(shí)進(jìn)行基因選擇和分類預(yù)測(cè)將產(chǎn)生優(yōu)越的性能.因此,大量的新型學(xué)習(xí)模型被發(fā)展,例如1-范數(shù)支持向量機(jī)[3]、稀疏邏輯回歸[4-5]、LASSO[6].然而,這些學(xué)習(xí)方法并不能揭示基因間的相互信息,并且選擇的基因個(gè)數(shù)以樣本尺寸大小為上界.

      從生物醫(yī)學(xué)的角度考慮,癌癥是一種復(fù)雜的遺傳性疾病,不是由單個(gè)基因所決定的,而往往是由先天的或外界的影響所造成的一些基因的突變、缺失等原因所引起.因此,癌癥分類中必然存在一些高度相關(guān)的基因,它們應(yīng)該作為一個(gè)基因群,同時(shí)被選擇或消除.從學(xué)習(xí)的角度,這可以被描述為一種群體效應(yīng),即對(duì)高度相關(guān)的基因表達(dá)列產(chǎn)生相似大小的估計(jì)系數(shù).作為一種新的正則化方法,彈性網(wǎng)絡(luò)[7]及其各種推廣[8-9]能在構(gòu)建分類器的過(guò)程中激勵(lì)一種群體效應(yīng).然而,微陣列數(shù)據(jù)中往往含有數(shù)千個(gè),甚至數(shù)萬(wàn)個(gè)基因表達(dá)列,而且重要基因?qū)?yīng)的基因表達(dá)列可能與一些不重要基因表達(dá)列相關(guān).因此,根據(jù)基因表達(dá)列相關(guān)性來(lái)激勵(lì)群體效應(yīng)將有可能導(dǎo)致最終模型包含冗余的基因.如何消除被選擇群內(nèi)的冗余基因是當(dāng)前癌癥分類中的一個(gè)急需解決的問(wèn)題.

      在彈性網(wǎng)絡(luò)中,基因選擇是由彈性網(wǎng)絡(luò)懲罰的收縮自動(dòng)獲得的.因此,引入用于評(píng)估基因重要性的數(shù)據(jù)驅(qū)動(dòng)權(quán)重到L1-范數(shù)懲罰和L2-范數(shù)懲罰將會(huì)自適應(yīng)地控制著懲罰項(xiàng)的收縮,從而取得改進(jìn)的基因選擇性能[10-11].受 LARS 型自適應(yīng)彈性網(wǎng)絡(luò)[10]和順向坐標(biāo)下降算法的啟發(fā),本文提出了一種基于順向坐標(biāo)下降算法的自適應(yīng)彈性網(wǎng)絡(luò).該自適應(yīng)彈性網(wǎng)絡(luò)的一個(gè)突出優(yōu)點(diǎn)是能自適應(yīng)地成群選擇基因.此外,該自適應(yīng)彈性網(wǎng)絡(luò)能利用改進(jìn)的順向坐標(biāo)下降算法求解,大大提高了求解速度.將基于順向坐標(biāo)下降算法的自適應(yīng)彈性網(wǎng)絡(luò)應(yīng)用到急性白血病分類中去,取得較滿意的結(jié)果.

      1 問(wèn)題陳述

      給定一個(gè)訓(xùn)練樣本集{(xi,yi)},其中xi=(xi1,xi2,…,xip)T是輸入向量,yi∈{+1,- 1}是樣本標(biāo)簽,分類問(wèn)題就是學(xué)習(xí)一個(gè)判別規(guī)則f:Rp→{+1,-1},從而可以準(zhǔn)確地預(yù)測(cè)新樣本的標(biāo)簽.對(duì)于微陣列表達(dá)數(shù)據(jù),xi表示具有p個(gè)基因表達(dá)水平的第i個(gè)樣本,yi表示腫瘤類型.令y=(y1,y2,…,yn)T是響應(yīng)向量,X=(x(1),x(2),…,x(p))是由n個(gè)輸入向量按行排列組成的模型矩陣,其中x(j)=(x1j,x2j,…,xnj)T被稱為預(yù)測(cè)子.假設(shè)預(yù)測(cè)子是標(biāo)準(zhǔn)化的,響應(yīng)具有零均值,即

      根據(jù)通常的線性回歸模型[12],輸出響應(yīng)能被預(yù)測(cè)為

      式中:=(,…)T是被估計(jì)的系數(shù)向量.目標(biāo)是:1)準(zhǔn)確地預(yù)測(cè)新樣本的標(biāo)簽;2)選擇分類相關(guān)的重要基因.

      對(duì)于基于微陣列基因表達(dá)數(shù)據(jù)的癌癥分類問(wèn)題,大量的學(xué)習(xí)機(jī)器已經(jīng)被成功構(gòu)建,例如,支持向量機(jī)[2-3]、稀疏邏輯回歸[4-5]和彈性網(wǎng)絡(luò)[7].這些學(xué)習(xí)機(jī)器能被統(tǒng)一地歸納為正則化框架:

      式中:λ >0是正則化參數(shù);L(y,f(x))和J(λ,β)分別表示損失函數(shù)與懲罰,常用的損失函數(shù)有hinge損失、平方誤差損失、指數(shù)損失等,常用的懲罰有L1-范數(shù)懲罰、L2-范數(shù)懲罰、彈性網(wǎng)絡(luò)懲罰、SCAD懲罰等.結(jié)合彈性網(wǎng)絡(luò)懲罰與平方誤差損失,下面的彈性網(wǎng)絡(luò)模型被提出[7]:

      式中:λ>0,1>α>0是新的模型參數(shù).在固定α的前提下,順向坐標(biāo)下降算法可以用來(lái)迅速地求解彈性網(wǎng)絡(luò).

      2 PCD型自適應(yīng)彈性網(wǎng)絡(luò)

      作為一種新的正則化與變量選擇方法,彈性網(wǎng)絡(luò)能產(chǎn)生一個(gè)稀疏的統(tǒng)計(jì)學(xué)習(xí)模型,并能鼓勵(lì)一種群體效應(yīng).雖然彈性網(wǎng)絡(luò)彈極其推廣已經(jīng)被成功地應(yīng)用于癌癥分類和基因選擇,然而該方法并不區(qū)分選擇的基因群里基因的重要性,從而導(dǎo)致濾波模型中將包含冗余的基因.在本節(jié)中,將發(fā)展一種新型的統(tǒng)計(jì)學(xué)習(xí)工具來(lái)解決該問(wèn)題.

      2.1 統(tǒng)計(jì)模型

      對(duì)于彈性網(wǎng)絡(luò)(1)或(2),相同的權(quán)重1被加在懲罰項(xiàng)的不同的系數(shù)上.理想的狀況應(yīng)該是大的懲罰加在不重要的變量上,從而很容易地消除它,而小的懲罰被強(qiáng)加在重要的變量上,從而在模型中保持它.基于上述思想,提出自適應(yīng)彈性網(wǎng)絡(luò)懲罰的概念.

      給定訓(xùn)練集(xi,yi),i=1,2,…,n,假設(shè)一個(gè)初始估計(jì)子=(,,…,)可以獲得.不失一般性,進(jìn)一步假設(shè)預(yù)測(cè)子x(1),x(2),…,x(p)被恰當(dāng)排序,從而使得

      為簡(jiǎn)便起見,仍舊用X表示變換后的模型矩陣.由于的度量在某種程度上暗示基因j對(duì)分類器的貢獻(xiàn),因此||(j=1,2,…,p)能被用來(lái)粗略地評(píng)估基因的重要性.根據(jù)這個(gè)粗略的評(píng)價(jià)標(biāo)準(zhǔn),提出如下數(shù)據(jù)驅(qū)動(dòng)權(quán)重矩陣:

      式中:wj=||-1,通過(guò)引入權(quán)重系數(shù),提出如下自適應(yīng)彈性網(wǎng)絡(luò)懲罰:

      除了改進(jìn)基因選擇性能,提出自適應(yīng)彈性網(wǎng)絡(luò)(3)的另一個(gè)動(dòng)機(jī)是其能用順向下降算法求解(詳見2.3小節(jié)),從而大大減少了計(jì)算量.為了和其他類型的自適應(yīng)彈性網(wǎng)絡(luò)加以區(qū)別,把該學(xué)習(xí)機(jī)器命名為PCD型自適應(yīng)彈性網(wǎng)絡(luò).使用該學(xué)習(xí)機(jī)器必須首先確定一個(gè)初始估計(jì)子.隨著機(jī)器學(xué)習(xí)算法的快速發(fā)展,LASSO估計(jì)子、支持向量機(jī)的估計(jì)系數(shù)與彈性網(wǎng)絡(luò)估計(jì)子都可以很方便地求解,從而被用作初始估計(jì)子.考慮到這些方法都不可避免模型參數(shù)選擇的困難,從而需要花費(fèi)大量的計(jì)算和時(shí)間來(lái)確定正則化參數(shù)和核參數(shù).因此使用如下的單變量回歸估計(jì)子作為初始估計(jì)子.

      2.2 自適應(yīng)的基因選擇

      由于重要基因可能與一些不重要的基因相關(guān),因此彈性網(wǎng)絡(luò)的濾波模型中可能會(huì)包含冗余的基因.PCD型自適應(yīng)彈性網(wǎng)絡(luò)能鼓勵(lì)一種自適應(yīng)的群體效應(yīng),從而能消除一些不重要的基因.

      定理假設(shè)預(yù)測(cè)子x(1),x(2),…,x(p)是標(biāo)準(zhǔn)化的,響應(yīng)y具有零均值.對(duì)于 1≤j,l≤p,如果aen)(aen)>0,那么有

      證明 令

      由于式(4)是一個(gè)無(wú)約束的凸最優(yōu)化問(wèn)題,因此式(6)對(duì)非零系數(shù)≠0的子梯度滿足:

      對(duì)于≠0,由式(7)可得

      類似地,可得

      由于(aen)(aen)>0且(aen)=(1+λ2),因此sign()=sign().由式(9)減去式(10)可得

      由式(4)和式(6)可得

      從而

      由于x(1),x(2),…,x(p)是標(biāo)準(zhǔn)化的,因此很容易可得

      由式(11)、(12)和(13),可得

      把式(3)代入式(14)可得式(5).證畢.

      利用最小二乘回歸估計(jì)子(ols)作為初始估計(jì)子,Ghosh在2007年提出如下的自適應(yīng)彈性網(wǎng)絡(luò)[18]:

      式中:wj=|(ols)|-γ,γ >0是提前給定的常數(shù).利用彈性網(wǎng)絡(luò)(en)作為初始估計(jì)子并引入比例系數(shù),Zou在2009年提出如下的自適應(yīng)彈性網(wǎng)絡(luò)[19]:

      式中:wj=|(en)|-γ,γ >0是提前給定的常數(shù).雖然Ghosh的自適應(yīng)彈性網(wǎng)絡(luò)宣稱能激勵(lì)一種群體效應(yīng).然而所描述的群體效應(yīng)控制上限是涉及2個(gè)正則化參數(shù)的復(fù)雜式子,缺乏直接的生物可解釋性.因此,嚴(yán)格意義講,這2種學(xué)習(xí)機(jī)器不具有可解釋的群體變量選擇功能.提出的PCD型自適應(yīng)彈性網(wǎng)絡(luò)能通過(guò)評(píng)估基因重要性來(lái)自動(dòng)地辨識(shí)選擇的基因群的尺寸,從而激勵(lì)一種自適應(yīng)群體選擇效應(yīng).這種群體效應(yīng)的上限是用乘式表達(dá)的,每一個(gè)乘子都具有較明確的生物學(xué)含義.

      2.3 順向坐標(biāo)下降算法

      類似于彈性網(wǎng)絡(luò),LASSO、LARS和前向階梯等算法也能用來(lái)求解自適應(yīng)彈性網(wǎng)絡(luò).然而,彈性網(wǎng)絡(luò)和PCD型自適應(yīng)彈性網(wǎng)絡(luò)在增廣空間中有p+n個(gè)觀測(cè)子和p個(gè)預(yù)測(cè)子,而在微陣列基因表達(dá)數(shù)據(jù)中,一般說(shuō)來(lái)p是非常大的,因此,這些算法將導(dǎo)致巨額的計(jì)算量,有時(shí)甚至是計(jì)算上不可行的.與這些方法相比較,順向坐標(biāo)下降算法在處理這類數(shù)據(jù)時(shí)具有不可爭(zhēng)議的快速性.因此,選擇使用該算法來(lái)求解PCD型自適應(yīng)彈性網(wǎng)絡(luò).

      為了計(jì)算簡(jiǎn)便的目的,把PCD型自適應(yīng)彈性網(wǎng)絡(luò)(3)改寫為

      假設(shè)在l≠j時(shí),估計(jì)子可以獲得.目標(biāo)是獲得關(guān)于βj的部分最優(yōu)化.根據(jù)文獻(xiàn)[16],坐標(biāo)下降調(diào)整有如下形式:

      為了使用順向坐標(biāo)下降算法,必須首先選擇1個(gè)最小的正則化參數(shù)值λmin,并構(gòu)造1個(gè)從最大值λmax到最小值λmin對(duì)數(shù)下降的λ序列.典型的構(gòu)造方法是令K=100,λmin=ελmax,其中 ε =0.001.如果使用自己構(gòu)造的λ序列,那么不同的懲罰因子可以被加在每一個(gè)系數(shù)上,從而可以成功求解PCD型自適應(yīng)彈性網(wǎng)絡(luò)(15).具體求解步驟如下:

      2)設(shè)置順向坐標(biāo)下降算法的初始參數(shù)值:響應(yīng)類型、彈性網(wǎng)絡(luò)混合參數(shù)α、最小λ值和懲罰因子等參數(shù).

      3)利用順向坐標(biāo)下降算法求解具有懲罰因子w1,w2,…,wp的彈性網(wǎng)絡(luò).

      4)利用交叉檢驗(yàn)決定最優(yōu)模型的參數(shù).

      5)提取最優(yōu)模型的非零系數(shù)來(lái)構(gòu)建分類器,并確定非零系數(shù)對(duì)應(yīng)的基因.

      由于自適應(yīng)彈性網(wǎng)絡(luò)懲罰把一些系數(shù)收縮到零,因此在構(gòu)建分類器的同時(shí),實(shí)現(xiàn)了基因的自動(dòng)選擇,所需要做的是提取非零系數(shù)并決定與他們相對(duì)應(yīng)的基因名稱.在實(shí)驗(yàn)中,上述算法程序是用R語(yǔ)言寫的,但在執(zhí)行該程序時(shí),需要加載并使用“glmnet”工具包.R程序中的函數(shù)“as.character”被用來(lái)產(chǎn)生并測(cè)試基因性狀,函數(shù)“predict”和“coef”被聯(lián)合使用,從而提取估計(jì)模型中的非零系數(shù).

      由于相同的數(shù)據(jù)驅(qū)動(dòng)權(quán)重被同時(shí)加在1-范數(shù)懲罰系數(shù)和2-范數(shù)懲罰系數(shù)上,所以提出的自適應(yīng)彈性網(wǎng)絡(luò)可以用帶懲罰因子的順向坐標(biāo)下降算法來(lái)求解.在Ghosh和Zou自適應(yīng)彈性網(wǎng)絡(luò)中,由于僅有1-范數(shù)懲罰系數(shù)被賦予于權(quán)重,因此無(wú)法用該算法來(lái)求解.

      3 仿真實(shí)驗(yàn)與分析

      白血病基準(zhǔn)數(shù)據(jù)被用來(lái)驗(yàn)證所提方法的有效性.該基準(zhǔn)數(shù)據(jù)包含47個(gè)急性淋巴性白血病樣本和25個(gè)急性骨髓性白血病樣本,其中,每一個(gè)樣本包含7 129個(gè)基因表達(dá)值.實(shí)驗(yàn)的目的是:構(gòu)建診斷規(guī)則,區(qū)分這2種急性白血病.基準(zhǔn)數(shù)據(jù)的訓(xùn)練集中包含27個(gè)急性淋巴性白血病樣本和11個(gè)急性骨髓性白血病樣本,余下的34個(gè)樣本用來(lái)測(cè)試診斷規(guī)則的預(yù)測(cè)精度.為了能使用回歸模型來(lái)處理二分類問(wèn)題,把白血病編碼為 0-1影響,并定義分類函數(shù)為I(>0.5),其中I(·)是指示函數(shù).

      第1個(gè)實(shí)驗(yàn)評(píng)估了彈性網(wǎng)絡(luò)和PCD型自適應(yīng)彈性網(wǎng)絡(luò)的預(yù)測(cè)性能.為此,給定的72個(gè)樣本數(shù)據(jù)被隨機(jī)地劃分成10個(gè)部分,使得每一部分所含樣本個(gè)數(shù)基本相等,然后計(jì)算這2種學(xué)習(xí)機(jī)器的10重交叉檢驗(yàn)均方預(yù)測(cè)誤差,并以此來(lái)評(píng)估他們的預(yù)測(cè)性能.圖1給出了這2種學(xué)習(xí)機(jī)器的交叉檢驗(yàn)預(yù)測(cè)誤差曲線.由圖1易知,PCD型自適應(yīng)彈性網(wǎng)絡(luò)能明顯改進(jìn)彈性網(wǎng)絡(luò)的預(yù)測(cè)性能.這種現(xiàn)象可以從基因選擇的角度給出解釋.在基準(zhǔn)白血病數(shù)據(jù)中,基因M23197_at、M27891_at和 M63138_at具有高度相關(guān)的表達(dá)列,并且這些表達(dá)列和基因M31303_rnal_at的表達(dá)列高度負(fù)相關(guān);因此這4個(gè)基因在彈性網(wǎng)絡(luò)和PCD型自適應(yīng)彈性網(wǎng)絡(luò)中,被作為一個(gè)基因群被同時(shí)選擇.基因 M22324_at的表達(dá)列與基因M92287_at和X74262_at的表達(dá)列高度負(fù)相關(guān);因此,這3個(gè)基因作為一個(gè)基因群被彈性網(wǎng)絡(luò)同時(shí)選擇.然而,基因M22324_at并不對(duì)分類產(chǎn)生很大影響,PCD型自適應(yīng)彈性網(wǎng)絡(luò)通過(guò)評(píng)估基因重要性,把不重要基因M22324_at從該群中消除出去.這種自適應(yīng)的群體基因選擇解釋了PCD自適應(yīng)彈性網(wǎng)絡(luò)取得好的預(yù)測(cè)精度的原因.

      圖1 10重交叉檢驗(yàn)預(yù)測(cè)誤差曲線Fig.1 Curve of tenfold cross-validated prediction error

      第2個(gè)實(shí)驗(yàn)比較了LARS算法和順向坐標(biāo)下降算法的運(yùn)算速度.在配置為 Pentium(R)D CPU 3.4 GHz,3.39 GHz、內(nèi)存1.00 GB的雙核戴爾計(jì)算機(jī)上,利用LARS算法求解100步的彈性網(wǎng)絡(luò)[7]和LARS型自適應(yīng)彈性網(wǎng)絡(luò)[10]大約需要2~3 min;而用順向坐標(biāo)下降算法求解K=100的PCD型自適應(yīng)彈性網(wǎng)絡(luò),只需要30 s左右.

      4 結(jié)束語(yǔ)

      PCD型自適應(yīng)彈性網(wǎng)絡(luò)通過(guò)引入恰當(dāng)?shù)臋?quán)重,改進(jìn)了彈性網(wǎng)絡(luò)的基因選擇、計(jì)算速度等性能.與Ghosh自適應(yīng)彈性網(wǎng)絡(luò)、Zou自適應(yīng)彈性網(wǎng)絡(luò)等統(tǒng)計(jì)學(xué)習(xí)模型相比,PCD型自適應(yīng)彈性網(wǎng)絡(luò)更能激勵(lì)一種群體基因選擇效應(yīng).與LARS型自適應(yīng)彈性網(wǎng)絡(luò)相比,PCD型自適應(yīng)彈性網(wǎng)絡(luò)能大大提高了計(jì)算速度.本文僅使用1個(gè)微陣列數(shù)據(jù)集來(lái)驗(yàn)證PCD型自適應(yīng)彈性網(wǎng)絡(luò)的有效性,因此在更多的數(shù)據(jù)集上來(lái)檢驗(yàn)其性能并給出其合理的生物學(xué)解釋是接下來(lái)要做的工作.

      [1]GOLUB T R,SLONIM D K,TAMAYO P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-536.

      [2]GUYON I,WESTON J,BARNHILL S,VAPNIK V.Gene selection for cancer classification using support vector machines[J].Machine Learning,2002,46(1):389-422.

      [3]ZHU J,ROSSET S,HASTIE T,TIBSHIRANI R.1-norm support vector machines[J].Advances in Neural Information Processing Systems,2004,16(1):49-56.

      [4]SHEVADE S K,KEERTHI S S.A simple and efficient algorithm for gene selection using sparse logistic regression[J].Bioinformatics,2006,19(17):2246-2253.

      [5]CAWLEY G C,TALBOT N L C.Gene selection in cancer classification using sparse logistic regression with Bayesian regularization[J].Bioinformatics,2006,22(19):2348-2355.

      [6]TIBSHIRANI R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society:Series B,1996,58(1):267-288.

      [7]ZOU Hui,HASTIE T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society:Series B,2005,67:301-320.

      [8]WANG Li,ZHU Ji,ZOU Hui.The doubly regularized support vector machine[J].Statistica Sinica,2006,16(2):589-615.

      [9]李鈞濤,賈英民.用于微陣列分類的Huberized多類支持向量機(jī)[J]. 自動(dòng)化學(xué)報(bào),2010,36(3):399-405.

      LI Juntao,JIA Yingmin.Huberized multi-class support vector machine for microarray classification[J].Acta Automatica Sinica,2010,36(3):399-405.

      [10]李鈞濤,賈英民.用于癌癥分類與基因選擇的一種改進(jìn)的彈性網(wǎng)絡(luò)[J]. 自動(dòng)化學(xué)報(bào),2010,36(7):976-981.

      LI Juntao,JIA Yingmin.An improved elastic net for cancer classification and gene selection[J].Acta Automatica Sinica,2010,36(7):976-981.

      [11]LI Juntao,JIA Yingmin,DU Junping,YU Fashan.A new support vector machine for microarray classification and adaptive gene selection[C]//2009 American Control Conference.St.Louis,USA:5410-5415.

      [12]EGAL M,DAHLQUIST K,CONKLIN B.Regression approaches for microarray data analysis[J].Journal of Computational Biology,2003,10(6):961-980.

      [13]VAPNIK V.The nature of statistical learning theory[M].New York:Springer,1995:1-60.

      [14]EFRON B,HASTIE T,JOHNSTON I,TIBSHIRANI R.Least angle regression[J].Annals of Statistics,2004,32(2):407-499.

      [15]陳曉峰,王士同,曹蘇群.半監(jiān)督多標(biāo)記學(xué)習(xí)的基因功能分析[J]. 智能系統(tǒng)學(xué)報(bào),2008,3(1):83-90.

      CHEN Xiaofeng, WANG Shitong, CAO Suqun.Gene function analysis of semi-supervised multi-label learning[J].CAAI Transactions on Intelligent Systems,2008,3(1):83-90.

      [16]FRIEDMAN J,HASTIE T,TIBSHIRANI R.Regularization paths for generalized linear models via coordinate descent[R].Palo Alto,USA:Standford University,2008.

      [17]FRIEDMAN J,HASTIE T,HóFLING H,TIBSHIRANI R.Pathwise coordinate optimization[J].Annals of Applied Statistics,2007,1(2):302-332.

      [18]GHOSH S.Adaptive elastic net:an improvement of elastic net to achieve oracle properties:IUPUI tech report No.pr07-01[R].Indianapolis,USA:Department of Mathematical Sciences,Indiana University-Purdue University,2007.

      [19]ZOU H,ZHANG H H.On the adaptive elastic net with a diverging number of parameters[J].Annals of Statistics,2009,37(4):1733-1751.

      李鈞濤,男,1978年生,講師、博士.主要研究方向?yàn)橹悄芸刂啤⒔y(tǒng)計(jì)學(xué)習(xí)及其在生物信息學(xué)中的應(yīng)用.

      賈英民,男,1958年生,教授、博士生導(dǎo)師,教育部“長(zhǎng)江學(xué)者”特聘教授,中國(guó)科學(xué)院系統(tǒng)控制重點(diǎn)實(shí)驗(yàn)室學(xué)術(shù)委員會(huì)委員,中國(guó)人工智能學(xué)會(huì)智能空天系統(tǒng)專業(yè)委員會(huì)主任,中國(guó)自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)副主任,中國(guó)航空學(xué)會(huì)控制理論與應(yīng)用專業(yè)委員會(huì)副主任.主要研究方向?yàn)轸敯艨刂?、自適應(yīng)控制、智能控制及其在車輛系統(tǒng)和工業(yè)過(guò)程中的應(yīng)用.承擔(dān)國(guó)家“973”計(jì)劃、“863”計(jì)劃,國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目、科學(xué)儀器專項(xiàng),面上項(xiàng)目,國(guó)防基礎(chǔ)科研項(xiàng)目,教育部高校博士點(diǎn)基金等20余項(xiàng).國(guó)家杰出青年科學(xué)基金獲得者,國(guó)家“百千萬(wàn)人才工程”第一、二層次人選.發(fā)表學(xué)術(shù)論文120余篇,出版專著1部,申請(qǐng)專利10余項(xiàng).

      Applying a PCD adaptive elastic net in microarray classification

      LI Jun-tao,JIA Ying-min
      (The Seventh Research Division,Beihang University,Beijing 100191,China)

      An adaptive elastic net was proposed,based on a pathwise coordinate descent(PCD)algorithm,to select genes important for cancer classification.By introducing data-driven weights,the proposed adaptive elastic net can adaptively select genes in groups in the process of building classifiers.It thus produces a sparse learning model with enhanced interpretability.Furthermore,by introducing penalty factors,the pathwise coordinate descent algorithm was improved,solving the adaptive elastic net more efficiently.Experimental results from leukemia classification verified the proposed method.

      cancer classification;gene selection;elastic net;pathwise coordinate descent algorithm;microarray classification

      TP273

      A

      1673-4785(2010)03-0227-06

      10.3969/j.issn.1673-4785.2010.03.004

      2009-12-14.

      國(guó)家自然科學(xué)基金資助項(xiàng)目(60727002,60774003,60850004);國(guó)家“973”計(jì)劃資助項(xiàng)目(2005CB321902);國(guó)防基礎(chǔ)研究資助項(xiàng)目(A2120061303).

      李鈞濤.E-mail:juntaolimail@yahoo.com.cn.

      猜你喜歡
      懲罰彈性分類
      為什么橡膠有彈性?
      軍事文摘(2021年18期)2021-12-02 01:28:12
      為什么橡膠有彈性?
      分類算一算
      注重低頻的細(xì)節(jié)與彈性 KEF KF92
      神的懲罰
      小讀者(2020年2期)2020-03-12 10:34:06
      Jokes笑話
      彈性?shī)A箍折彎模的改進(jìn)
      模具制造(2019年4期)2019-06-24 03:36:40
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      懲罰
      巴彦县| 宾阳县| 进贤县| 苏州市| 台北县| 喀喇沁旗| 敖汉旗| 鄱阳县| 昔阳县| 三明市| 蒙城县| 道孚县| 武胜县| 阿拉尔市| 德安县| 阜城县| 东宁县| 都安| 荣昌县| 民乐县| 丰台区| 洮南市| 宾阳县| 鄂尔多斯市| 随州市| 调兵山市| 扬中市| 白山市| 南召县| 濮阳市| 东乌| 信阳市| 定陶县| 昌图县| 喀喇| 临猗县| 乡城县| 广饶县| 将乐县| 锦州市| 潼南县|