• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      針對不平衡數(shù)據(jù)的PSO-DEC-IFSVM分類算法

      2019-09-06 11:42:54魏建安黃海松康佩棟
      數(shù)據(jù)采集與處理 2019年4期
      關鍵詞:超平面信息量向量

      魏建安 黃海松 康佩棟

      (貴州大學現(xiàn)代制造技術教育部重點實驗室,貴陽,550025)

      引 言

      隨著大數(shù)據(jù)時代的到來,信息量激增,由此產(chǎn)生大量的不平衡數(shù)據(jù)集,即數(shù)據(jù)集中某類樣本數(shù)遠小于其他類的樣本數(shù),其中樣本數(shù)較少的類叫做正類,樣本數(shù)較多的類稱為負類。不平衡數(shù)據(jù)的分類作為數(shù)據(jù)挖掘與機器學習的重要研究內(nèi)容,近年來越來越多的國內(nèi)外學者對其進行了大量的研究[1-3],并將其廣泛應用于故障診斷、醫(yī)療診斷及信用卡欺詐[4-8]等領域。

      在眾多機器學習算法中,支持向量機(Support vector machine,SVM)算法是依據(jù)統(tǒng)計學習中VC維理論以及結構風險最小化等原則而提出的一種學習方法,能夠有效地處理小樣本、非線性與高維度等問題,且作為一種有效的分類算法,已經(jīng)獲得廣泛的應用。但傳統(tǒng)SVM對原始數(shù)據(jù)的處理是基于樣本集是平衡的,即正負類樣本的數(shù)目相同。顯然,對于不平衡數(shù)據(jù)傳統(tǒng)SVM算法的分類效果并不理想,這是因為當數(shù)據(jù)集不平衡時實際分類超平面會向少數(shù)類方向偏移,從而導致少數(shù)類樣本的識別率變低。目前,對于傳統(tǒng)SVM算法可以從以下兩個方面進行改進以獲得更加理想的分類效果:(1)重構原始數(shù)據(jù)集,即通過過(欠)采樣方式分別對正負類樣本集進行重構,常見的方式有:對于過采樣有基于SMOTE(Synthetic minority oversampling technique)的過采樣方式及其改進算法等[9-10],對于欠采樣方式有隨機欠采樣以及基于樣本特性的欠采樣等[11-12]。但是實際上以上方法是通過一定的準則通過增加或者減少原始數(shù)據(jù)集的樣本數(shù)來調(diào)節(jié)數(shù)據(jù)集本身的不平衡性,具有隨機性較大、盲目性較高、穩(wěn)定性較差等缺點,且當數(shù)據(jù)集嚴重失衡時,所利用的采樣方法可能效果不佳。(2)改進的SVM算法,即針對正負類樣本數(shù)目上的差異,通對算法本身的改進,以增強算法本身對不平衡數(shù)據(jù)的適應性。常見的改進算法有:不同懲罰因子(Different error costs,DEC)算法及其改進算法通過正負類樣本賦予不同的懲罰因子以提高分類的準確性[13-14];模糊支持向量機(Fuzzy support vector machine,FSVM)及其改進算法通過將模糊數(shù)學和支持向量機相結合以克服噪聲或野點對支持向量的影響來提高分類的準確性[15-17];此外,還有在賦予不同的懲罰因子的同時,增加新的約束條件的近支持向量機法等[18]。

      因模糊支持向量機在處理不平衡數(shù)據(jù)時有較好的表現(xiàn),故本文選取FSVM進行不平衡數(shù)據(jù)的分類?,F(xiàn)階段比較典型的模糊支持向量機的改進方式有:李苗苗等[19]在設計模糊隸屬度函數(shù)時考慮了每個樣本點到類型中心距離的同時還考慮到了該樣本點最鄰近的K個其他樣本點的距離。Batuwita等[20]將模糊支持向量機與DEC算法進行結合提出一種FSVM-CIL算法,用于處理不平衡數(shù)據(jù)以及噪聲樣本,該算法在設計模糊隸屬函數(shù)時與傳統(tǒng)FSVM類似,僅考慮樣本到類中心的距離;鞠哲等[21]在設計FSVM的模糊隸屬度函數(shù)時考慮樣本到類中心距離的同時還考慮到了樣本周圍的緊密度,并將FSVM與DEC有機地結合,即DEC-FSVM-Ju算法。但是鞠哲等的算法存在以下缺點:(1)算法復雜程度增加,同時未對增加的參數(shù)合理優(yōu)化;(2)沒有考慮到樣本特性的影響;(3)優(yōu)化效果不明顯。針對上述算法的缺點,本文在設計模糊隸屬度函數(shù)時考慮樣本到類中心距離以及樣本周圍緊密度的同時,還考慮到了樣本信息量特性的影響并賦予不同樣本不同的權值,此外將改進的FSVM算法(Improved fuzzy support vector machine,IFSVM)與DEC算法進行結合,并應用粒子群算法(Particle swarm optimization,PSO)對該改進算法引入的參數(shù)進行尋優(yōu),得到PSO-DEC-IFSVM算法。最后將PSO-DEC-IFSVM算法應用于UCI機器學習數(shù)據(jù)庫中的6類不同的不平衡數(shù)據(jù)集中。實驗證明:本文所提算法相對于已有算法在處理含有噪聲的不平衡數(shù)據(jù)集分類時具有更好的分類效果。本文結果為不平衡數(shù)據(jù)的分類提供了一個有效的理論模型。

      1 算法簡介

      1.1 傳統(tǒng)SVM算法

      以傳統(tǒng)二分類為例,SVM的基本原理為:從樣本(或者核)空間內(nèi)尋求一個最優(yōu)分類超平面,使得正負類樣本分隔間距達到最大化。假定給定訓練集為(X,Y)={(xi,yi)},yi∈{-1,1},i∈1,2,3,…,n,其中:xi,yi分別為訓練集的第i個樣本以及樣本的標簽。在SVM算法中引入核函數(shù)(K)將訓練集引入高維空間,即K(x,y)=φ(x)Tφ(y),其中φ(x)為非線性映射;同時引入松弛變量ξi≥0,i=1,2,3,…,n與懲罰因子C,綜上,給出標準的支持向機一般形式為

      對于式(1)的優(yōu)化求解,可引入Largrandge乘子法轉(zhuǎn)化為對偶形式,即

      假定對偶問題的最優(yōu)解為α*,則可反求出數(shù)據(jù)集最優(yōu)分類超平面的法向量ω*與截距b*,其解法如式(3,4)所示,最終利用傳統(tǒng)SVM方法構造出如式(5)所示的決策函數(shù)。

      1.2 FSVM算法與DEC算法的結合算法

      事實上,實際生產(chǎn)生活中的數(shù)據(jù)集往往是不平衡的,相比傳統(tǒng)SVM算法分配給每一個樣本相同的權值,F(xiàn)SVM算法和DEC算法相結合的DEC-FSVM算法根據(jù)樣本的不平衡性以及重要性分配不同的權值,以提高分類的準確率。同上,對于二分類而言,假定給定訓練集為(X,Y)={(xi,yi)},yi∈{-1,1},i∈1,2,3,…,n,另假定原始數(shù)據(jù)集中有m個樣本為正類樣本(即yi=1,i=1,2,3,…,m),則剩余的n-m個樣本為負類樣本(即yi=-1,i=m+1,m+2,m+3,…,n),則用于不平衡數(shù)據(jù)分類的模糊支持向量機的一般形式如式(6)所示。

      式中:Cp,Cn分別代表正負類樣本的懲罰因子,以表示兩類間的不平衡性;,分別代表正負類樣本的隸屬度函數(shù),以反映該樣本在其所屬類別中的重要性。從式(6)可以看出相對于傳統(tǒng)SVM算法,DEC-FSVM從懲罰因子與隸屬度函數(shù)的引入方向作了改進,這將更有利于不平衡數(shù)據(jù)的分類。

      2 改進的模糊支持向量機(IFSVM)工作機理

      2.1 模糊隸屬度函數(shù)的設計

      Lin等[15]提出將樣本到其類中心的距離作為衡量樣本重要性的指標。即將模糊隸屬度函數(shù)定義為

      式中:,分別代表正負類的第i個樣本到其類中心的距離;δ為引入的一個非常小的正數(shù),用來保證隸屬度為正。但是當數(shù)據(jù)集分布不規(guī)則時,運用該方式很可能將噪聲或野點作為正常的正負類樣本進行訓練,最終導致算法的整體分類精度降低。如圖1(a)數(shù)據(jù)集1所示,假設P1為一噪聲點,對于正常樣本集(以負類為例)來說僅考慮樣本到類中心的距離時P1將被當做正常點進行訓練賦予正常隸屬度函數(shù)值,顯然是不合理的。

      圖1 不同數(shù)據(jù)集下噪聲點與正常樣本的位置關系Fig.1 Relationship between the noise points and the normal samples under different data sets

      針對上述問題,文獻[21]中提出在設計模糊隸屬度函數(shù)時需綜合考慮樣本到類中心的間距及其周圍的緊密度,且其緊密度的衡量方式應用K-近鄰域準則,即如圖1(a)所示:在圖中擬取K=3,對于負類樣本來說對于噪聲點P1的距離最近的3-近鄰域點集為{P2,P3,P4},負類樣本的任一正常樣本P5的距離最近的 3-近鄰域點集為{P6,P7,P8}。顯然,負類的正常樣本點P5的3-近鄰域點集的距離均值大于噪聲點P1的3-近鄰域點集的距離均值,故文獻[21]引入式(10,11)定義樣本周圍的緊密度為

      式中:(xi)為正(負)類的第i個樣本的K-近鄰域的集合,顯然如果某樣本的值越小則該樣本屬于該正(負)類可能性越大。反之如果該樣本為噪聲或者野點的值將會較大,故將模糊隸屬度函數(shù)定義如下

      式中:α為一個權值,用于均衡樣本到類中心與樣本的近鄰域密度重要性,故對于不同數(shù)據(jù)集,α(α∈{0,0.1,0.2,…,1})值合理的選取極為重要;δ的意義同上;M(M∈{0.1,0.2,0.3,…,1})用于調(diào)整所有樣本模糊隸屬度函數(shù)的范圍,故值的選取亦較為重要;此外,對于樣本K-近鄰域中的K值,為了簡單起見,文獻[21]在隸屬度函數(shù)設計時將所有樣本取為同一值,但是由圖1(a,b)可以看出,對于1,2兩種不同的數(shù)據(jù)集,如果K值同時取為一定值是不合理的,對于數(shù)據(jù)集1來說K取為3是合理的,但對于數(shù)據(jù)集2,假設P13為一噪聲點,對于負類樣本來說距離噪聲點P13最近的3-近鄰域點集為{P14,P15,P16},距離負類樣本的一正常樣本P9最近的3-近鄰域點集為{P10,P11,P12}。顯然,負類的正常樣本點P5的3-近鄰域點集的距離均值小于噪聲點P13的3-近鄰域點集的距離均值,在這種情況下,噪聲樣本P13會被當作正常的負類樣本進行處理,這將會在較大程度上影響分類精度。

      綜上,對于以上所提的α,M,K等參數(shù)在利用DEC-IFSVM進行分類時均要進行優(yōu)化,參數(shù)優(yōu)化將于2.4節(jié)進行介紹。

      2.2 FSVM算法的改進

      當樣本分布不規(guī)則時,前文提到文獻[21]對FSVM算法改進時僅考慮到引入樣本的緊密度來設計模糊隸屬度函數(shù),而沒有考到樣本本身的特性。眾所周知:在運用傳統(tǒng)SVM分類器進行分類時,分類超平面的確定只與支持向量有關,且SVM算法是通過分類間隙的最大化來設計分類超平面,以期獲取較好的推廣能力。同時文獻[12]中提到:樣本的信息量,即樣本點到?jīng)Q策面的距離是判斷該點性質(zhì)的主要因素,且距離越近對分類超平面的影響越大。故本文在設計模糊隸屬度函數(shù)時需要對信息量大的樣本點賦予較大的隸屬度函數(shù)值。據(jù)此,本文引入如式(14)所示的樣本信息量的評價方式。

      式中φ(xi

      p(n))為第i個正(負)類樣本信息量。圖2為某數(shù)據(jù)不平衡下的理想超平面與實際超平面的位置示意圖。從圖2可以看出:對于理想分類超平面,正負類樣本中的支持向量都是距離超平面很近的的點,故擁有最大的信息量;而對于偏移過后的分類超平面,正類樣本的支持向量為距離分類超平面較遠的樣本點,負類的支持向量不變?nèi)匀粸榫嚯x超平面較近的點。故運用傳統(tǒng)支持向量機進行分類時,由于分類超平面發(fā)生嚴重偏移,正類樣本φ(xip)信息量越小,相應的樣本信息量越大;反之負類樣本φ(xin)信息量越大時相應的樣本信息量越大。另ω*與b分別代表傳統(tǒng)SVM的分類平類超平面的法向量與閾值,故改進后的FSVM的隸屬度函數(shù)如式(15,16)所示。

      圖2 數(shù)據(jù)不平衡下的理想超平面與實際超平面的位置Fig.2 Ideal hyperplane and the position of actual hyperplane under data imbanlance

      式(15)中:φip為第i個正類樣本的信息量,乘號(*)右邊部分考慮了樣本到類中心的距離及樣本緊密度兩個因素,而乘號(*)左邊為正類樣本信息量影響的表達式。上文提到運用傳統(tǒng)支持向量機進行不平衡數(shù)據(jù)分類時,由于分類超平面發(fā)生嚴重偏移,正類樣本φ(xip)信息量的值越小相應的樣本信息量越大,故引入式(15)用于滿足此規(guī)律,最終Sip即為正類樣本基于改進的模糊支持向量機的隸屬度。同樣地,在式(16)中:φin為第i個負類樣本的信息量,乘號(*)右邊部分亦考慮了樣本到類中心的距離及樣本緊密度兩個因素,乘號(*)左邊為負類樣本信息量影響的表達式。同樣上文提到運用傳統(tǒng)支持向量機進行不平衡數(shù)據(jù)分類時,由于分類超平面發(fā)生嚴重偏移,負類樣本φ(xip)信息量的值越大時相應的樣本信息量越大,故引入式(16)用于滿足此規(guī)律,最終Sin即為負類樣本基于改進的模糊支持向量機的隸屬度。

      另外,由于利用式(15,16)求正負類樣本隸屬度時,兩式信息量影響的表達式不同,所以需引入平衡因子Q來保證正負類隸屬度值范圍一致。其算法為:正類所有訓練樣本的信息量影響值的均值除以負類所有訓練樣本的信息量影響值的均值所得到,表達式為

      2.3 DEC-IFSVM懲罰因子的設置

      眾所周知,DEC算法通過賦予正負類樣本不同的懲罰因子來提高SVM算法對不平衡數(shù)據(jù)適應性,對于正類樣本賦予較大的懲罰因子,而負類樣本賦予較小的懲罰因子。故本文提出DEC協(xié)同IFSVM優(yōu)化算法,既有模糊支持向量機處理噪聲(野點)的優(yōu)勢,又可以容易應對不平衡數(shù)據(jù)?;跇颖咎匦缘腎FSVM的基本原理與算法上文已作闡述,對于懲罰因子的確定,文獻[21-22]采取正負類樣本比值的設定方式,且有較好分類效果,故本文亦采取此方式,即正負類的懲罰因子的算法為:Cp=C(nm)/m,Cn=C,其中:Cp為正類的懲罰因子;Cn為負類的懲罰因子;n為訓練樣本總數(shù);m為訓練樣本中正類樣本的個數(shù);C為懲罰因子的初始參數(shù)且C>0。

      綜上,改進的DEC-IFSVM算法的對偶形式為

      2.4 基于PSO算法的DEC-IFSVM參數(shù)優(yōu)化

      綜合分析上文可知,運用DEC-IFSVM算法進行不平衡數(shù)據(jù)分類時,在算法復雜度增加的同時,為了得到更加良好的分類效果,需要對引入的α,δ,M,C,K等參數(shù)進行優(yōu)化以及初值賦予。此外本文采用徑向基(Radial basis function,RBF)核函數(shù),故核函數(shù)中的參數(shù)g亦需要進行優(yōu)化。

      在上述需要進行優(yōu)化的參數(shù)中:δ的初值賦予需要多次實驗進行擇優(yōu)選取,而K,α,M,C,g五個參數(shù)擬利用PSO算法進行優(yōu)化。

      2.4.1 PSO算法簡介

      PSO算法是受鳥類捕食時搜索附近食物區(qū)域行為的啟發(fā),將問題的潛在解用不同的粒子來表示,尋找合適的適應度函數(shù)來確定各粒子的適應度。另外,PSO算法是一種并行的隨機搜索算法,可以實現(xiàn)對解空間的搜索,同時,PSO算法具有控制參數(shù)最少、算法簡單等優(yōu)點,一經(jīng)提出便得到廣泛應用[7]。

      2.4.2 參數(shù)優(yōu)化

      本文以不平衡數(shù)據(jù)分類效果的評價機制作為目標函數(shù),K,α,M,C,g作為待求粒子,本文實驗中采取十折交叉驗證,對每一折的參數(shù)均進行優(yōu)化。假定待求解的種群大小為N,迭代代數(shù)為G,Pi(i∈ 1,2,3,…,N)表示種群中i個體的位置,Vi(i∈ 1,2,3,…,N)與 fitnessi(i∈ 1,2,3,…,N)分別最終的則決策函數(shù)為代表i個體的速度與適應度值,故本文所采用的粒子群算法的求解步驟如下:(1)算法開始;(2)種群的初始化:包括粒子的位置Pi與速度Vi的隨機初始化;(3)個體適應度值:根據(jù)目標函數(shù)來計算粒子的適應度值fitnessi;(4)循環(huán)迭代:在循環(huán)迭代過程中,尋找個體的極值Pbest以及整個群的極值Gbest;(5)算法終止:在滿足最優(yōu)解的條件下,終止循環(huán)。

      2.4.3 優(yōu)化結果

      由上文可知,DEC-IFSVM引入的參數(shù)值需要進行優(yōu)化,本文選取UCI數(shù)據(jù)集中的Pima等6種數(shù)據(jù)集,每個數(shù)據(jù)集進行十折交叉驗證,由于每一折正負類樣本數(shù)目不同,故需要對每一折的參數(shù)進行優(yōu)化。最終,經(jīng)粒子群算法優(yōu)化后的K,α,M,C,g五個參數(shù)在不同數(shù)據(jù)集的最優(yōu)參數(shù)如表1所示。

      表1 PSO優(yōu)化后DEC-IFSVM的最優(yōu)參數(shù)Tab.1 Optimized parameters of DEC-IFSVM after PSO optimization

      3 實驗與結果分析

      3.1 不平衡數(shù)據(jù)分類評價機制的引入

      在數(shù)據(jù)集平衡的條件下,一般用數(shù)據(jù)集分類的總準確率對其分類效果進行評判,即:分類的總準確率越高,則分類器的分類效果越好;但是當數(shù)據(jù)集不平衡時,特別是不平衡比較大時,存在即使正類樣本具有很低的辨識率的情況下,整體的分類準確率很高的情況,故該方式對于不平衡數(shù)據(jù)的分類準確率的評判是不準確的。為了克服單一分類準確率評價方式不令人信服的弊端,一些學者又提出了一些更加合理的評價機制:靈敏度(Sensitivity,SEN),即正類樣本的分類準確率的評價機制;特異性(Specificity,SPE),即負類樣本的分類準確率的評價機制;幾何平均值(G-mean),即分類器的綜合評價機制。各評價機制的算法表達式為

      式中:TP(++)為分類正確的正類樣本的數(shù)目;FN(+-)為分類錯誤的正類樣本的數(shù)目;FP(-+)為分類錯誤的負類樣本的數(shù)目,TN(--)為分類正確的負類樣本的數(shù)目,構成的混淆矩陣如表2所示。

      分析上述3種評價機制可知:SEN的值越大正類樣本的辨識率就越高;同樣SPE的值越大負類樣本的辨識率就越高;當SEN與SPE都較大時G-mean值就越大,反之G-mean值就越小。故對于不平衡數(shù)據(jù)選取G-mean值進行分類器的評價更加合理。

      表2 混淆矩陣Tab.2 Confusion matrix

      3.2 實驗數(shù)據(jù)以及實驗環(huán)境

      為了突出本文所提算法在不平衡數(shù)據(jù)下分類的優(yōu)越性,將所提算法(PSO-DEC-IFSVM)與現(xiàn)有算法進行對比,即:支持向量機(SVM)算法、模糊支持向量機(FSVM)算法、DEC算法、DEC結合FSVM的算法(DEC-FSVM)、DEC-FSVM-Ju算法以及利用PSO算法參數(shù)尋優(yōu)前的DEC-IFSVM算法。同時,為了使實驗結果更加具有說服力,本文在UCI機器學習數(shù)據(jù)中選取6種不同空間結構以及不同維度的不平衡數(shù)據(jù)進行實驗驗證,且這些不平衡數(shù)據(jù)必定會含一些噪聲或野點個體。此外,為了減少訓練的時間,每種不平衡數(shù)據(jù)集均隨機選擇部分作為實驗,選取的6種不平衡數(shù)據(jù)集的基本特征如表3所示。

      表3 實驗中的6種不平衡數(shù)據(jù)集的特征Tab.3 Characteristics of the six unbalanced data sets in the experiment

      本文所涉及的所有算法均采取十折交叉驗證,且為了減少隨機影響,每折運行十次,即對于一個不平衡數(shù)據(jù)將產(chǎn)生100組數(shù)據(jù),最終將所得的100組數(shù)據(jù)的均值作為每種評價機制的最終值。本文所有算法的初始參數(shù)均為:δ=10-13,α=0.5,m=0.5,C=2,g=0.01以及K=3。此外,本文所有結果均是在3.20 GHz/4.0 GB的PC機上利用MATLAB2012a軟件編程實現(xiàn)。

      3.3 結果與分析

      對于6種不同不平衡數(shù)據(jù)集的3種評價機制的實驗對比效果如表4所示。分析表4可知:(1)在不平衡數(shù)據(jù)集下,傳統(tǒng)的SVM算法效果最差,甚至有的數(shù)據(jù)集中G-mean的值為0,特別是樣本集嚴重失衡時,這是因為分類超平面向正類樣本方向發(fā)生了嚴重的偏移,其他算法作為SVM算法的改進形式,使分類超平面偏回負類樣本方向,使得分類效果獲得提升。(2)傳統(tǒng)的DEC算法僅考慮到了樣本平衡性的影響,沒有考慮樣本中噪聲或野點影響;相反傳統(tǒng)的FSVM算法僅考慮到了樣本噪聲或野點影響,而忽略了樣本平衡性的影響。故在不平衡數(shù)據(jù)集中傳統(tǒng)的DEC與FSVM算法的分類效果提升不是很明顯,特別是SEN與G-mean兩個評價機制較低,即這兩種算法對于分類超平面的向負類偏移影響較小。(3)DEC-FSVM算法將傳統(tǒng)的DEC與FSVM方式相結合,融合了兩種算法的優(yōu)點,分類效果得到進一步提升,尤其是SEN或G-mean。(4)DEC-FSVM-Ju算法是在DEC-FSVM算法基礎上進行改進,相比DEC-FSVM算法,其分類效果亦有提升,這是因為在設置模糊隸屬度函數(shù)時DEC-FSVM算法僅考慮了樣本到達類中心的距離,而DEC-FSVM-Ju算法考慮樣本到類中心距離的同時還考慮了樣本的K-近鄰域的密度。(5)同樣地,DEC-IFSVM作為DEC-FSVM-Ju的改進算法,分類效果亦有提升,這是因為DEC-IFSVM算法除了考慮樣本到類中心的距離以及樣本的K-近鄰域密度外,還考慮到了樣本的信息量,在設計模糊隸屬度函數(shù)時給予樣本不同的權值,這樣可以賦予支持向量較大的權值,故分類效果進一步提升。(6)對比PSO優(yōu)化前后的DEC-IFSVM算法可知,經(jīng)過PSO參數(shù)優(yōu)化后的DEC-IFSVM算法,相比優(yōu)化前的算法對6種不平衡數(shù)據(jù)集在分類器的分類效果均有較大提升。

      綜上,本文所提的算法在綜合考慮樣本到類中心距離、K-近鄰域密度以及樣本的信息量設計模糊隸屬度函數(shù),并將其與DEC算法相結合,最終引入的參數(shù)經(jīng)過PSO算法優(yōu)化,與現(xiàn)有的算法相比在不同空間結構以及不同維度的不平衡數(shù)據(jù)集中具有更好的分類性能。

      4 分類器魯棒性的對比

      為了進一步說明本文所提算法的優(yōu)越性,對本文所有算法的魯棒性進行比較。本文采用文獻[23]中所提算法魯棒性的評價方式,即算法m在某一特定數(shù)據(jù)集上的魯棒性為用該算法求解目標問題時的相對性能,文中選取G-mean值作為不平衡數(shù)據(jù)分類效果魯棒性的比較值,求解文中所有算法G-mean值的相對性能,此相對性能的求解算法為

      式中:Rm為算法m在某一數(shù)據(jù)集的Adjusted rand index值;bm為算法m魯棒性的相對性能。由式(23)可知,當某一算法在特定數(shù)據(jù)集上表現(xiàn)最好時bm的值即為1,而其他算法bm≤1,且bm的值越大,算法的相對性能就越好。故算法m在不同數(shù)據(jù)集的魯棒性可以利用表示,其中l(wèi)為算法的總數(shù),且本文的算法總數(shù)為7。同樣的值越大代表該算法的綜合魯棒性越強。利用上述方法求解本文7種算法在6種平衡數(shù)據(jù)集上G-mean值的魯棒性,其結果如圖3所示。

      分析圖3可知:(1)傳統(tǒng)的SVM算法S-ARI的值遠小于其余算法,證明SVM算法的魯棒性最差;

      (2)分析FSVM與DEC算法的S-ARI值可知:FSVM與DEC算法分類器的總體效果不是很理想,DEC-FSVM算法相比FSVM與DEC算法魯棒性進一步增強,顯示了綜合考慮樣本距離以及不平衡度的優(yōu)勢;(3)DEC-IFSVM作為DEC-FSVM-Ju的改進算法,其S-ARI值有所增加,證明魯棒性增強不夠明顯,這是由于算法引入?yún)?shù)增加時,算法復雜度增加且初始參數(shù)不是最優(yōu)值,導致結果不明顯;(4)本文所提的PSO-DEC-IFSVM算法對DEC-IFSVM算法引入的參數(shù)進行優(yōu)化,其S-ARI值最大為6,明顯大于DEC-IFSVM算法以及其他算法,故在不同的不平衡數(shù)據(jù)集上均有最好的魯棒性。

      表4 6種不平衡數(shù)據(jù)集下運用各類算法分類的效果Tab.4 Classification effect of different algorithms in the six kinds of unbalanced data sets

      圖3 不平衡數(shù)據(jù)集下7種算法G-mean值的魯棒性比較Fig.3 Robustness comparison of G-mean value of seven algorithms under Unbalanced data sets

      5 結束語

      針對傳統(tǒng)的模糊支持向量機在不平衡數(shù)據(jù)集下分類效果不夠明顯、引入的參數(shù)未做優(yōu)化等缺點,本文提出一種新型的基于粒子群優(yōu)化的改進支持向量機算法(PSO-DEC-IFSVM)。該算法在設計模糊隸屬函數(shù)時,綜合考慮訓練樣本到期類中心的間距與樣本周圍的緊密度以及樣本的信息量,并將其與DEC算法相結合,最后利用粒子群算法對DEC-IFSVM算法引入的K,α,M,C以及g五個參數(shù)進行優(yōu)化。實驗證明:本文算法相比已有的FSVM算法,正負類的分類精度進一步增加,且此算法擁有更好的魯棒性。結果證明:本文算法可以更好地降低樣本集中含有噪聲或野點影響,同時,可以更好地應對數(shù)據(jù)集不平衡問題。故此算法為不平衡數(shù)據(jù)的分類問題提供了一個重要的理論模型,該模型可以應用于機械故障診斷、醫(yī)療診斷等異常診斷領域,因為在這些領域中故障數(shù)據(jù)收集相對困難,極易形成不平衡數(shù)據(jù)集,且數(shù)據(jù)集中很可能含有噪聲或者野點。

      本文在利用粒子群算法對DEC-IFSVM分類器進行參數(shù)尋優(yōu)時,僅將分類器的綜合評價機制(G-mean)作為優(yōu)化目標,這可能會導致正負類分類準確率(SEN,SPE)不一定同時比優(yōu)化前效果理想,所以將SEN,SPE,G-mean同時作為優(yōu)化目標進行協(xié)同優(yōu)化,即:尋求一種適用于多目標尋優(yōu)的智能算法,將是課題組下一步的研究重點。

      猜你喜歡
      超平面信息量向量
      向量的分解
      全純曲線的例外超平面
      涉及分擔超平面的正規(guī)定則
      聚焦“向量與三角”創(chuàng)新題
      以較低截斷重數(shù)分擔超平面的亞純映射的唯一性問題
      基于信息理論的交通信息量度量
      如何增加地方電視臺時政新聞的信息量
      新聞傳播(2016年11期)2016-07-10 12:04:01
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      分擔超平面的截斷型亞純映射退化性定理
      南川市| 定南县| 江源县| 平谷区| 马山县| 芮城县| 来宾市| 右玉县| 百色市| 隆林| 蒙自县| 积石山| 惠安县| 龙门县| 丹凤县| 威宁| 山西省| 漳州市| 兴业县| 温州市| 奉新县| 公安县| 通许县| 弥渡县| 文昌市| 北流市| 龙州县| 安达市| 呼伦贝尔市| 松溪县| 疏勒县| 渝北区| 清远市| 凤阳县| 泰州市| 房产| 邢台县| 江达县| 东安县| 怀安县| 洪江市|