• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)的ReliefF-BPNN分類模型

      2023-06-15 17:00:48李雨沛王新利
      計算機(jī)時代 2023年6期
      關(guān)鍵詞:特征選擇分類

      李雨沛 王新利

      摘? 要: 提出了一種改進(jìn)的ReliefF-BPNN分類模型。該模型使用ReliefF算法和交互增益權(quán)重,來最大程度地保留相關(guān)特征與交互特征;同時在BP神經(jīng)網(wǎng)絡(luò)模型的誤差函數(shù)中加入正則化項防止過擬合。實驗表明,改進(jìn)的ReliefF-BPNN在大多數(shù)數(shù)據(jù)集上的分類準(zhǔn)確率高于90%,其精度相對于其他傳統(tǒng)模型更高。

      關(guān)鍵詞: 特征選擇; ReliefF算法; 交互增益; BP神經(jīng)網(wǎng)絡(luò);分類

      中圖分類號:TP181? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2023)06-20-05

      Improved ReliefF-BPNN classification model

      Li Yupei, Wang Xinli

      (College of Science, University of Shanghai for Science and Technology, Shanghai 200093, China)

      Abstract: In this paper, an improved ReliefF-BPNN classification model is proposed. It uses the ReliefF algorithm and interaction gain weights to maximize the retention of correlation and interaction features. Meanwhile, a regularization term is added to the error function of BP neural network model to prevent overfitting. Experiments show that the classification accuracy of the improved ReliefF-BPNN is higher than 90% on most data sets, and its accuracy is higher than that of other traditional models.

      Key words: feature selection; ReliefF algorithm; interaction gain; BP neural network; classification

      0 引言

      近年來,各種數(shù)據(jù)的爆發(fā)式增長,影響了數(shù)據(jù)的準(zhǔn)確分類。面對高維的數(shù)據(jù),特征選擇是一個行之有效的方法。

      特征選擇有三種常用的方法,分別是包裹法、嵌入法、過濾法[1]。其中,過濾法評價準(zhǔn)則簡單、運算效率高,應(yīng)用范圍廣[2]。ReliefF算法作為過濾法的一種,具有權(quán)重計算更簡單且運行效率更高的優(yōu)點,被廣泛應(yīng)用于特征選擇[3]。另一方面,BP神經(jīng)網(wǎng)絡(luò)模型有諸多優(yōu)點,如強(qiáng)自適應(yīng)性,魯棒性、非線性映射等,是一種使用面很廣的分類模型,但是當(dāng)模型的訓(xùn)練數(shù)據(jù)過少或數(shù)據(jù)存在噪聲時會使分類模型產(chǎn)生過擬合現(xiàn)象[4]。許多研究者對BP神經(jīng)網(wǎng)絡(luò)的參數(shù)做出優(yōu)化來避免這一現(xiàn)象[5],例如將模擬退火算法和元啟發(fā)式算法混合調(diào)整參數(shù)[6]、將自適應(yīng)遺傳算法應(yīng)用于優(yōu)化參數(shù)[7]等,但是應(yīng)用不同的算法對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化往往計算復(fù)雜度高,實驗難度大。

      盡管ReliefF算法計算特征權(quán)重是根據(jù)特征在同類中的差異和特征在不同類中的差異來選擇特征,合理考慮了特征與不同類別的相關(guān)性,但特征之間與類別還有一個不可忽視的關(guān)系,即特征的交互。一般來說,交互特征單獨與類別無關(guān),一旦將它們組合在一起,卻又與類別很相關(guān)。保留交互特征是有利于分類的,而ReliefF算法忽視特征之間的交互,極大地影響特征選擇的效果,進(jìn)而影響分類。利用信息度量標(biāo)準(zhǔn)的互信息方法能夠有效地度量特征之間的交互,許多特征選擇算法是使用基于互信息的方法來度量特征的交互,最大程度地保留交互特征來優(yōu)化特征選擇的效果,進(jìn)而提高分類準(zhǔn)確率[8]。

      本文在上述研究的基礎(chǔ)上,提出了一種改進(jìn)的ReliefF-BP神經(jīng)網(wǎng)絡(luò)分類模型。用ReliefF算法進(jìn)行選擇,選擇出與類別相關(guān)大的特征,再使用標(biāo)準(zhǔn)化的交互增益權(quán)重,盡可能保留交互特征;然后采用加入[L1]正則化項的BP神經(jīng)網(wǎng)絡(luò)模型。與其他改進(jìn)相比,該模型不僅結(jié)構(gòu)簡單,還能有效防止過擬合,提高分類的精度。與其他6種算法進(jìn)行對比試驗,結(jié)果表明,該模型的性能明顯優(yōu)于其他算法。

      1 預(yù)備知識

      1.1 ReliefF算法

      ReliefF算法[9]的主要思想是,根據(jù)計算樣本點的最近鄰分布,計算特征權(quán)重值,選擇出權(quán)重值較大的特征。從訓(xùn)練集[M]中隨機(jī)選擇樣本[A],再從和樣本[A]同類的樣本集中找到[k]個近鄰樣本,同時在每個與[A]不同類別的樣本集中尋找[k]個近鄰樣本,然后根據(jù)以下規(guī)則更新權(quán)重:

      [ωX=ωX-j=1kdiffX,Ai,Hjnk]

      [+C≠ClassAPC1-PClassAi×j=1kdiffX,Ai,Mjnk] ⑴

      其中,[ωX]表示特征[X]的權(quán)重,其初始值為0,[n]表示迭代次數(shù);[Ai]表示第[i]次迭代隨機(jī)選擇樣本;[k]表示選取的近鄰個數(shù);[Hj]表示樣本[Ai]同類中的最近鄰樣本;[Mj]表示樣本[Ai]不同類中的最近鄰樣本;[ClassAi]表示樣本[Ai]所在的類別;[PC]表示第[C]類的先驗概率;[diff(X,A1,A2)]表示樣本[A1]和樣本[A2]在特征X上的差別。

      1.2 特征的交互

      交互信息利用互信息來度量特征之間的交互,交互信息又稱為交互增益(Interaction Gain, IG),指的是三方或者多方的交互作用,三方交互增益[10]的定義如下:

      [IGfi;fj;C=Ifi,fj;C-Ifi;C-Ifj;C]? ⑵

      其中,[Ifi,fj;C]表示特征[fi]和[fj]與類別C的聯(lián)合互信息。當(dāng)[IGfi;fj;C<0]或者[IGfi;fj;C=0]時,說明特征[fi]和[fj]提供了相似信息或者與類別無關(guān);當(dāng)[IGfi;fj;C>0]時,表示特征[fi]和[fj]組合提供的信息量大于特征[fi]和[fj]分別提供的信息量之和,說明特征[fi]與[fj]具有交互性。

      1.3 BP神經(jīng)網(wǎng)絡(luò)模型

      BP神經(jīng)網(wǎng)絡(luò)模型[11]的拓?fù)浣Y(jié)構(gòu)有三個層次,分別是輸入層、隱藏層和輸出層。輸入層的節(jié)點由輸入樣本的特征個數(shù)決定,輸出層的節(jié)點由分類結(jié)果決定。隱藏層的層數(shù)和節(jié)點一般由人工決定。BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。

      圖1? BP神經(jīng)網(wǎng)絡(luò)拓?fù)鋱D

      其中,[x1,x2,…,xn]表示輸入層神經(jīng)元節(jié)點,即樣本的特征;[y1,y2,…,ym]表示輸出層神經(jīng)元節(jié)點,即輸出的標(biāo)簽;[b11,b12,…,b1k]表示第一層隱藏層的節(jié)點;[bn1,bn2,…,bnk]表示第n層隱藏層的節(jié)點;[γ]表示輸入層節(jié)點到隱藏層節(jié)點的權(quán)值;[ω]表示隱藏層節(jié)點到輸出層節(jié)點的權(quán)值。

      2 改進(jìn)的ReliefF-BPNN分類模型

      2.1 基于特征交互的ReliefF算法

      在⑵式的基礎(chǔ)上引入標(biāo)準(zhǔn)化的交互增益來度量特征的交互。標(biāo)準(zhǔn)化的交互增益(Standardized Interaction Gain, SIG)定義如下:

      [SIGfi;fj;C=IGfi;fj;CHfi+Hfj,SIGfi;fj;C∈0,1]? ⑶

      在式⑴基礎(chǔ)上,加入標(biāo)準(zhǔn)化后的交互增益權(quán)重,即為特征[Xi]的總權(quán)重公式為:

      [ωXi=1Nj=1NSIGXi;Xj;C+ωXi]? ⑷

      將式⑷作為權(quán)重更新的算法稱為基于特征交互的ReliefF算法,即I-ReliefF算法,其步驟如算法1所示:

      [算法1 I-ReliefF算法 輸入:特征集[F=f1,f2,…,fn],類別集[C=C1,C2,…Cm],閾值[k]

      輸出:特征子集S

      1. 初始化特征子集[S=?];

      2. Fori=0 to |F|

      3. 根據(jù)公式⑶計算在所有F中特征之間的標(biāo)準(zhǔn)化交互增益權(quán)重

      4. 根據(jù)公式⑴計算在所有F中特征的權(quán)重值

      5. Endfor

      6. For i=0 to |F|

      7. 根據(jù)公式⑷計算保留特征的總權(quán)重值

      8. Endfor

      9. 對特征集S中保留的特征的總權(quán)重值進(jìn)行降序排列,選擇出系數(shù)值大的特征組成新的樣本數(shù)據(jù)集 ]

      2.2 加入正則化項的BP神經(jīng)網(wǎng)絡(luò)模型

      在BP神經(jīng)網(wǎng)絡(luò)的誤差函數(shù)計算公式中加入正則化項,改進(jìn)后的誤差函數(shù)為:

      [E=1Ni=1NYi∧-Yi2+αω1]? ⑸

      N表示訓(xùn)練樣本的個數(shù);[Yi∧]表示第i個樣本的預(yù)測輸出值;[Yi]表示第i個樣本的實際輸出值;[α]表示正則化系數(shù);[ω]表示所有層向下層神經(jīng)元傳遞時的權(quán)值組成的矩陣。

      2.3 I-ReliefF-BPNN模型的建立

      基于改進(jìn)ReliefF-BP神經(jīng)網(wǎng)絡(luò)模型將簡化后的數(shù)據(jù)分為70%訓(xùn)練樣本和30%測試樣本,訓(xùn)練樣本應(yīng)用于訓(xùn)練該模型,測試樣本用于檢驗?zāi)P偷姆诸惥?。算?描述了I-ReliefF-BPNN模型的基本步驟:

      [算法2 I-ReliefF-BPNN模型算法 輸入:數(shù)據(jù)集D,學(xué)習(xí)率[η]

      輸出:類別C,誤差e

      1.采用均值替代法對存在缺失值的數(shù)據(jù)集進(jìn)行填補(bǔ),接著做歸一化處理。再對數(shù)據(jù)集使用I-ReliefF算法進(jìn)行特征選擇,將選擇出的特征組成新的樣本數(shù)據(jù)集。

      2.創(chuàng)建網(wǎng)絡(luò)

      3.訓(xùn)練網(wǎng)絡(luò)

      Repeat for D

      正向傳播

      反向傳播

      Until for 達(dá)到結(jié)束條件

      4.使用網(wǎng)絡(luò)

      5.預(yù)測數(shù)據(jù)歸一化 ]

      3 實驗

      3.1 數(shù)據(jù)集與數(shù)據(jù)集的處理

      實驗數(shù)據(jù)集:美國加州大學(xué)歐文分校提供的UCI數(shù)據(jù)庫分別是[D1](WDBC數(shù)據(jù)集)、[D2](LungCancer數(shù)據(jù)集)、[D3](HeartDisease數(shù)據(jù)集)、[D4](Cervicalcancer數(shù)據(jù)集)、[D5](Lymphography數(shù)據(jù)集)、[D6](DivorcePredictors數(shù)據(jù)集)、[D7](Sonar數(shù)據(jù)集)、[D8](Arrhythmia 數(shù)據(jù)集)、[D9](Bonemarrowtransplant:children數(shù)據(jù)集)、[D10](Dermatology數(shù)據(jù)集)、[D11](Hepatitis數(shù)據(jù)集)、[D12](HorseColic數(shù)據(jù)集)、[D13](PrimaryTumor數(shù)據(jù)集)、[D14](RiskFactorprediction of Chronic Kidney Disease數(shù)據(jù)集)、[D15](Hill-valley數(shù)據(jù)集)、[D16] (Madelon數(shù)據(jù)集)。表1介紹了16個數(shù)據(jù)集的樣本個數(shù)、特征數(shù)和類別個數(shù)。

      本文采用均值替代法對存在特征值缺失的數(shù)據(jù)集進(jìn)行填補(bǔ)并做歸一化處理;對于連續(xù)數(shù)據(jù)集,將連續(xù)數(shù)據(jù)集離散化。本文使用K-means算法進(jìn)行聚類,k值根據(jù)類別個數(shù)確定,根據(jù)聚類的結(jié)果,將同一簇的記錄并合并成一組中。

      3.2 實驗結(jié)果與分析

      為了驗證本文提出的模型的有效性,選取RF、SVM、BPNN、I-ReliefF-SVM、mRMR-BPNN、ReliefF-BPNN這6個分類模型與本文提出的I-ReliefF-BPNN模型進(jìn)行對比。本實驗中BP神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)設(shè)置為1000,學(xué)習(xí)率設(shè)置為0.02,權(quán)值的初始化范圍為-0.5到0.5之間。表2和表3表示16個數(shù)據(jù)集的分類準(zhǔn)確率、[F1]指數(shù)。分類準(zhǔn)確率和[F1]指數(shù)越高,分類效果越好。

      如表2所示,本文提出的I-ReliefF-BPNN模型相較于6種分類模型的平均分類準(zhǔn)確率在16組數(shù)據(jù)集上有明顯提高。注意到BPNN的分類準(zhǔn)確率相較于SVM和RF分別平均高6.25%、4.24%,表明BPNN相較于傳統(tǒng)分類器分類精度更高;I-ReliefF-BPNN與mRMR-BPNN、ReliefF-BPNN相比,準(zhǔn)確率分別平均高5.83%和3.48%,表明本文提出的I-ReliefF算法相比于其他特征選擇算法,更有利于BP神經(jīng)網(wǎng)絡(luò)的分類。

      如表3所示,本文提出的I-ReliefF-BPNN模型在16組數(shù)據(jù)集上[F1]指數(shù)較BPNN平均高0.0544,較ReliefF-BPNN平均高0.0673,較mRMR-BPNN平均高0.0911,較I-ReliefF-SVM平均高0.1078,較SVM平均高0.1206,較RF平均高0.1128,說明本文提出的模型在分類上更具優(yōu)勢。

      4 結(jié)論與展望

      本文提出了一種改進(jìn)的ReliefF-BP神經(jīng)網(wǎng)絡(luò)模型,即I-ReliefF-BPNN模型??紤]到醫(yī)療診斷數(shù)據(jù)集中,許多診斷指標(biāo)之間存在交互,選取關(guān)于醫(yī)療診斷方面的數(shù)據(jù)集進(jìn)行實驗驗證。從16組數(shù)據(jù)集的實驗結(jié)果來看,該模型中的I-ReliefF算法與傳統(tǒng)的特征選擇方法相比,從后續(xù)的分類中可看出此算法有效提高了分類的準(zhǔn)確率;模型中改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)分類模型與其他同類型的分類方法相比,分類精度明顯提高,兩者結(jié)合其分類能力相比于其他分類模型在分類準(zhǔn)確率,[F1]指數(shù)更高。

      但是,I-ReliefF-BPNN模型存在一些不足之處,主要有以下兩點:①I-ReliefF-BPNN模型運行時間相較于BP神經(jīng)網(wǎng)絡(luò)模型更長;②本文提出的模型在某些不平衡數(shù)據(jù)集上[F1]指數(shù)不高,分類效果并不理想。因此,未來仍需進(jìn)一步優(yōu)化搜索算法,縮短整個算法的運行時間;針對不平衡數(shù)據(jù)集,考慮將不平衡數(shù)據(jù)處理方法加入本模型中,提高不平衡數(shù)據(jù)集上的分類效果。

      參考文獻(xiàn)(References):

      [1] Dia S, Guilermo, Cortes L, et al. A review of algorithms to

      computing irreducible testors applied to feature selection[J]. Artificial Intelligence Review,2022

      [2] 李郅琴,杜建強(qiáng),聶斌,等.特征選擇方法綜述[J].計算機(jī)工程

      與應(yīng)用,2019,55(24):10-19

      [3] Song Y ,Si W Y, Dai F F , et al .Weighted reliefF with

      threshold constraints of feature selection forimbalanced data classification[J]. Concurrency and computation: practice and experience,2020,32(14)

      [4] 沈波,謝兆勛,林少輝,等.醫(yī)藥衛(wèi)生領(lǐng)域人工神經(jīng)網(wǎng)絡(luò)研究中

      文文獻(xiàn)可視化分析[J].海峽預(yù)防醫(yī)學(xué)雜志,2021,27(5):73-76

      [5] Sofian K, MOHAMAD A, AZMI A , et al. Backpropagation

      neural network optimization and software defect estimation modelling using a hybrid Salp Swarm optimizer-based Simulated Annealing Algorithm[J]. Knowledge-Based Systems,2022,244

      [6] Zhang J X,Qu S R. Optimization of backpropagation

      neural network under the adaptive genetic algorithm[J]. COMPLEXITY,2021

      [7] Yan C R, Chen Y Z,Wan Y Q, et al. Modeling low- and

      high-order feature interactions with FM and self-attention network[J]. Applied Intelligence,2020,51

      [8] Chen T,Yin H Z,Zhang X L, et al.Meng. Quaternion

      factorization machines: alightweight solution to intricate feature interaction modeling[J]. IEEE transactions on neural networks and learning systems,2021

      [9] Fan H Y, Xue? L Y, Song Y, et al.A repetitive feature

      selection method based on improved ReliefF for missing data[J]. Applied Intelligence,2022,52(14)

      [10] Wang L X, Jiang S Y.A feature selection method via

      analysis of relevance, redundancy,and interaction,Expert systems with applications,volume 183,2021,115365

      [11] 王麗,陳基漓,謝曉蘭,等.基于混沌天牛群算法優(yōu)化的神經(jīng)

      網(wǎng)絡(luò)分類模型[J].科學(xué)技術(shù)與工程,2022,22(12):4854-4863

      猜你喜歡
      特征選擇分類
      分類算一算
      垃圾分類的困惑你有嗎
      大眾健康(2021年6期)2021-06-08 19:30:06
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
      給塑料分分類吧
      临海市| 吕梁市| 射阳县| 全椒县| 阳原县| 习水县| 禹州市| 绥宁县| 洛南县| 潞西市| 海原县| 紫阳县| 临洮县| 平罗县| 大庆市| 千阳县| 襄汾县| 綦江县| 邯郸市| 深泽县| 深水埗区| 靖边县| 元谋县| 如东县| 永胜县| 普宁市| 曲水县| 通州区| 宁远县| 项城市| 云林县| 健康| 岳阳县| 鸡西市| 历史| 濮阳市| 互助| 绥德县| 平舆县| 双鸭山市| 巴林右旗|