• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成改進(jìn)ELM的蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)

      2015-05-13 02:34敖培張紀(jì)李明楊百順

      敖培 張紀(jì) 李明 楊百順

      摘 要:由于基于蛋白質(zhì)結(jié)晶的X射線晶體成像技術(shù)存在成功率較低的問(wèn)題,因此引入計(jì)算方法篩選容易結(jié)晶的蛋白質(zhì)序列對(duì)于節(jié)約測(cè)定蛋白質(zhì)序列實(shí)現(xiàn)成本意義重大。該文提出一種基于旋轉(zhuǎn)森林的集成極端學(xué)習(xí)機(jī)分類方法,用以提高蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)的準(zhǔn)確性。選擇蛋白質(zhì)序列及序列衍生的信息和蛋白質(zhì)相關(guān)的物理、化學(xué)等性質(zhì)在內(nèi)的20個(gè)特征作為分類特征,采用旋轉(zhuǎn)森林增加集成極端學(xué)習(xí)機(jī)基分類器之間的差異性。實(shí)驗(yàn)結(jié)果表明,該文方法具有較高預(yù)測(cè)精度。

      關(guān)鍵詞:旋轉(zhuǎn)森林 極端學(xué)習(xí)機(jī) 蛋白質(zhì)結(jié)晶

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)01(c)-0023-01

      該文選擇蛋白質(zhì)序列及序列衍生的信息和蛋白質(zhì)相關(guān)的物理、化學(xué)等性質(zhì)在內(nèi)的20個(gè)特征作為分類特征,采用旋轉(zhuǎn)森林增加集成極端學(xué)習(xí)機(jī)基分類器之間的差異性,建立了集成改進(jìn)的極端學(xué)習(xí)機(jī)蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)模型,以有效提高預(yù)測(cè)的準(zhǔn)確性。

      1 極端學(xué)習(xí)機(jī)

      極端學(xué)習(xí)機(jī)[1](ELM,Extreme Learning Machine)在隨機(jī)給定輸入權(quán)值與神經(jīng)元參數(shù)的基礎(chǔ)上,將傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練問(wèn)題轉(zhuǎn)化為求解線性方程組,以直接計(jì)算輸出權(quán)值的最小二乘解的方式完成網(wǎng)絡(luò)訓(xùn)練過(guò)程。

      2 旋轉(zhuǎn)森林算法

      旋轉(zhuǎn)森林[2](ROF,Rotation Forest)主要是對(duì)集成分類器的原始樣本特征進(jìn)行處理,通過(guò)一定的特征提取變換獲得集成所需的新樣本,并且在保證分類準(zhǔn)確性的前提下,增加集成分類器個(gè)體間的差異性。

      3 基于ROF的極端學(xué)習(xí)機(jī)集成預(yù)測(cè)算法

      為了提高集成系統(tǒng)中各分類器之間的差異性,該文提出了一種是用ROF集成多個(gè)ELM神經(jīng)網(wǎng)絡(luò)分類器的方法。具體步驟如下。

      步驟1:訓(xùn)練數(shù)據(jù)集輸入初始樣本集X,樣本包括D個(gè)特征,集成ELM神經(jīng)網(wǎng)絡(luò)分類器個(gè)數(shù)L。

      步驟2:對(duì)X的D個(gè)特征進(jìn)行等劃分,獲得K個(gè)具有不同特征的樣本子集,Xk表示第D個(gè)樣本子集每個(gè)子集具有D個(gè)特征:M=D/K。

      步驟3:對(duì)K個(gè)子集進(jìn)行如下處理:

      對(duì)Xk進(jìn)行bootstrap重抽樣,獲得新樣本Xknew;

      采用主成分分析對(duì)Xknew進(jìn)行變換處理,獲得主成分系數(shù)向量:ak1,ak2,…,

      (M*≤M);

      循環(huán)步驟1)和2),獲得K組主成分系數(shù),合并得主成分系數(shù)組R。

      步驟4:對(duì)R重新排列的R*,獲得新樣本Xnew:Xnew=XR*。

      步驟5:用Xnew作為ELM神經(jīng)網(wǎng)絡(luò)分類器的樣本訓(xùn)練一個(gè)集成子分類器Cl(l=1,…,l),循環(huán)次獲得集成ELM神經(jīng)網(wǎng)絡(luò)分類器組:Ω={C1,…,Cl}。

      步驟6:分別使用個(gè)ELM神經(jīng)網(wǎng)絡(luò)分類器對(duì)測(cè)試樣本集進(jìn)行分類,獲得預(yù)測(cè)函數(shù){fl}和預(yù)測(cè)標(biāo)記{hl}。

      步驟7:對(duì)預(yù)測(cè)函數(shù)和預(yù)測(cè)標(biāo)記進(jìn)行投票處理,獲得ELM神經(jīng)網(wǎng)絡(luò)集成分類器最終預(yù)測(cè)標(biāo)記Hend。

      4 基于集成改進(jìn)ELM的蛋白質(zhì)結(jié)晶偏好預(yù)測(cè)

      該文實(shí)驗(yàn)數(shù)據(jù)來(lái)源于PepcDB數(shù)據(jù)庫(kù)中的蛋白質(zhì)鏈,特征選取和計(jì)算方法見(jiàn)參考文獻(xiàn)[2]。經(jīng)過(guò)篩選,分別選擇952條不可結(jié)晶數(shù)據(jù)和可結(jié)晶數(shù)據(jù)集合。從這1904條數(shù)據(jù)集中隨機(jī)抽取1522條數(shù)據(jù)作為訓(xùn)練集,其余的作為測(cè)試集。采用第4部分所提出的的方法進(jìn)行預(yù)測(cè)。為了驗(yàn)證采用本文算法進(jìn)行預(yù)測(cè)的效果,選擇集成RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,集分類器個(gè)數(shù)均選擇為10,如表1所示。從表1中可以看出,采用本文方法的平均預(yù)測(cè)準(zhǔn)確率達(dá)到85.24%,而集成RBF神經(jīng)網(wǎng)絡(luò)模型的測(cè)試準(zhǔn)確率僅為79.04%。

      5 結(jié)語(yǔ)

      該文采用旋轉(zhuǎn)森林算法提高集成極端學(xué)習(xí)機(jī)基分類器之間的差異性,并將改進(jìn)后的集成分類器用于對(duì)蛋白質(zhì)結(jié)晶偏好進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡(luò)模型相比,該文方法具有較高預(yù)測(cè)精度。

      參考文獻(xiàn)

      [1] YU Q,MICHE Y,EIROLA E, et al.Regularized extreme learning machine for regression with missing data[J].Neurocomputing,2013,102:45-51.

      [2] 毛莎莎,熊霖,焦李成,等.利用旋轉(zhuǎn)森林變換的異構(gòu)多分類器集成算法[J].西安電子科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2014,41(5):55-61.endprint

      丹江口市| 桦甸市| 茶陵县| 扶余县| 富民县| 茂名市| 丽江市| 图木舒克市| 大新县| 前郭尔| 肃宁县| 瑞金市| 响水县| 彰化市| 广灵县| 绥阳县| 哈尔滨市| 惠州市| 新丰县| 舒兰市| 南通市| 蒲城县| 台湾省| 新河县| 宁武县| 五台县| 合水县| 远安县| 中西区| 嵩明县| 绥德县| 庆阳市| 马山县| 通江县| 新田县| 海门市| 方城县| 尼木县| 钟山县| 固安县| 黑山县|