崔麗娜
(長(zhǎng)治幼兒師范高等專(zhuān)科學(xué)校信息技術(shù)教學(xué)部,長(zhǎng)治 046000)
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)已經(jīng)成為一種重要的戰(zhàn)略性資源,數(shù)據(jù)工程領(lǐng)域呈現(xiàn)出一種“6V”特性,即容量大(Volume)、種類(lèi)多(Variety)、速度快(Velocity)、可變性(Variabil?ity)、真實(shí)性(Veracity)、價(jià)值密度低(Value),這種“6V”特性又決定了大數(shù)據(jù)本身特有的復(fù)雜性,非平衡數(shù)據(jù)就是一類(lèi)最典型的復(fù)雜數(shù)據(jù)?,F(xiàn)實(shí)世界中存在大量非平衡數(shù)據(jù)問(wèn)題,例如在信用卡交易欺詐的檢測(cè)中,更關(guān)心欺詐用戶(hù)的識(shí)別,但非法的欺詐交易只是偶爾發(fā)生,大部分記錄都是正常交易;再如在患者腫瘤情況的檢測(cè)中,腫瘤呈陽(yáng)性的比例要遠(yuǎn)少于腫瘤呈陰性的比例,但在檢測(cè)中需要準(zhǔn)確發(fā)現(xiàn)嚴(yán)重的陽(yáng)性腫瘤患者,以進(jìn)行及時(shí)的治療;此外,非平衡分類(lèi)問(wèn)題在雷達(dá)圖像監(jiān)測(cè)、金融貸款管理、企業(yè)破產(chǎn)預(yù)測(cè)、電信設(shè)備故障檢測(cè)、文本分類(lèi)、垃圾郵件過(guò)濾等實(shí)際領(lǐng)域中都非常常見(jiàn)。
目前,針對(duì)非平衡問(wèn)題的理論及應(yīng)用領(lǐng)域,已經(jīng)提出了多種解決非平衡分類(lèi)問(wèn)題的機(jī)器學(xué)習(xí)方法,支持向量機(jī)作為一種典型的機(jī)器學(xué)習(xí)模型,也在非平衡數(shù)據(jù)問(wèn)題中得到了較為成功的應(yīng)用。目前,支持向量機(jī)處理非平衡數(shù)據(jù)分類(lèi)問(wèn)題大體上包含三種思路:一是對(duì)訓(xùn)練數(shù)據(jù)的重采樣,對(duì)大量的多數(shù)類(lèi)樣本進(jìn)行下采樣,對(duì)稀少的少數(shù)類(lèi)樣本進(jìn)行上采樣,通過(guò)這種方法達(dá)到數(shù)據(jù)的近似平衡分布,提高分類(lèi)的性能;二是對(duì)數(shù)據(jù)集進(jìn)行偏置性的權(quán)值設(shè)置,即通過(guò)對(duì)少數(shù)類(lèi)樣本與多數(shù)類(lèi)樣本設(shè)置不同的權(quán)值,以使得重要的少數(shù)正類(lèi)樣本盡可能強(qiáng)制分類(lèi)正確;三是通過(guò)抽樣得到初始超平面之后,通過(guò)一定的啟發(fā)式規(guī)則調(diào)整分類(lèi)超平面使其逼近最優(yōu)分類(lèi)超平面,提高對(duì)少數(shù)類(lèi)數(shù)據(jù)的識(shí)別效率。
雖然這些方法可以提高支持向量機(jī)處理非平衡分類(lèi)問(wèn)題的性能,但都存在一些局限?;诓蓸硬呗缘腟VM非平衡分類(lèi)方法盡管使得數(shù)據(jù)分布趨于平衡,但下采樣可能會(huì)將包含重要信息的數(shù)據(jù)丟棄,而上采樣會(huì)增加訓(xùn)練的開(kāi)銷(xiāo),導(dǎo)致原本學(xué)習(xí)效率就不高的SVM效率進(jìn)一步降低,此外由于強(qiáng)行無(wú)根據(jù)地進(jìn)行人為的訓(xùn)練樣本分布改變,導(dǎo)致了實(shí)際參與訓(xùn)練樣本的分布與測(cè)試集樣本不再符合機(jī)器學(xué)習(xí)中訓(xùn)練樣本與測(cè)試樣本獨(dú)立同分布的大前提,得到的結(jié)果缺乏可信性和可解釋性;基于權(quán)值調(diào)整策略的SVM非平衡分類(lèi)方法雖然通過(guò)對(duì)不同類(lèi)樣本設(shè)置不同的權(quán)值,使得少數(shù)類(lèi)樣本在分類(lèi)過(guò)程中錯(cuò)分的概率減小,一定程度上提高了正類(lèi)樣本分類(lèi)的準(zhǔn)確率,但其權(quán)值設(shè)置沒(méi)有統(tǒng)一的理論依據(jù),不同的數(shù)據(jù)、不同的情況可能需要設(shè)置的權(quán)值分布就不同,因此,這種方法中權(quán)值設(shè)置時(shí)一個(gè)瓶頸問(wèn)題,同時(shí)也缺乏相應(yīng)理論支撐;基于超平面調(diào)整的SVM非平衡分類(lèi)方法往往是在得到初始分類(lèi)超平面之后,根據(jù)一定的啟發(fā)式規(guī)則進(jìn)行超平面的一次性調(diào)整,調(diào)整超平面的方向和幅度也一般都是通過(guò)實(shí)驗(yàn)測(cè)試進(jìn)行,缺乏相應(yīng)理論和依據(jù),實(shí)驗(yàn)結(jié)果缺乏可再生性和可解釋性。
針對(duì)傳統(tǒng)SVM無(wú)法有效處理非平衡數(shù)據(jù)分類(lèi)的問(wèn)題,本文結(jié)合主動(dòng)學(xué)習(xí)具有很好的人機(jī)交互作用的特點(diǎn),提出一種新的非平衡SVM分類(lèi)方法,該方法先將多數(shù)的負(fù)類(lèi)樣本進(jìn)行劃分并采樣,再與正類(lèi)樣本合并訓(xùn)練得到初始分類(lèi)器,在此基礎(chǔ)上根據(jù)負(fù)類(lèi)剩余樣本集中樣本到分類(lèi)器的距離,逐次選擇主動(dòng)學(xué)習(xí)中的關(guān)鍵信息樣本加入到負(fù)類(lèi)訓(xùn)練樣本集中,同時(shí)刪除負(fù)類(lèi)訓(xùn)練樣本集中相對(duì)次要的非關(guān)鍵信息樣本,始終保持訓(xùn)練集樣本分布的平衡,有效提高SVM對(duì)于非平衡數(shù)據(jù)分類(lèi)的泛化性能。
傳統(tǒng)的SVM在處理非平衡數(shù)據(jù)的分類(lèi)問(wèn)題中,經(jīng)訓(xùn)練得到的分類(lèi)超平面總是向少數(shù)類(lèi)樣本偏斜,使少數(shù)正類(lèi)樣本被錯(cuò)誤歸類(lèi),失去了對(duì)重要正類(lèi)樣本的識(shí)別能力。本文以在二分類(lèi)問(wèn)題為例,假設(shè)樣本有橫軸和縱軸兩個(gè)特征,且在這二維特征上均符合正太分布,分別以(-1,-1)與(+1,+1)為中心構(gòu)造兩類(lèi)樣本,其中正類(lèi)樣本和負(fù)類(lèi)樣本的規(guī)模分別?。?00,500)、(100,900)、(50,950)、(20,980)和(10,990)這5種從平衡到不平衡的情況,然后采用傳統(tǒng)SVM在這種二分類(lèi)樣本上進(jìn)行訓(xùn)練,圖1和圖2分別為線(xiàn)性核和高斯核在兩類(lèi)不同非平衡性的樣本上得到的分類(lèi)超平面。圖1表明,隨著正負(fù)類(lèi)樣本集不平衡程度的增加,分類(lèi)超平面更加偏向少數(shù)類(lèi)樣本,當(dāng)正類(lèi)樣本和負(fù)類(lèi)樣本比例偏差達(dá)到一定程度時(shí)(如圖中的50:950),兩類(lèi)數(shù)據(jù)無(wú)法分開(kāi),即SVM已經(jīng)無(wú)法得到分類(lèi)超平面。從圖2可以看出,雖然隨著樣本不平衡性的增加,分類(lèi)超平面一直都可以得到,但學(xué)習(xí)得到的分類(lèi)超平面明顯偏向于少數(shù)正類(lèi)樣本的分布區(qū)域,即對(duì)重要的少數(shù)正類(lèi)樣本缺乏識(shí)別性能。
圖1 基于線(xiàn)性核SVM的非平衡數(shù)據(jù)分類(lèi)面(正類(lèi),負(fù)類(lèi))
圖2 基于高斯核SVM的分類(lèi)面(正類(lèi),負(fù)類(lèi))
主動(dòng)學(xué)習(xí)(active learning,AL)是一種應(yīng)用于解決大規(guī)模機(jī)器學(xué)習(xí)問(wèn)題的典型策略,已經(jīng)在圖像處理、語(yǔ)音識(shí)別、信息提取、計(jì)算生物學(xué)等許多領(lǐng)域得到實(shí)際應(yīng)用。主動(dòng)學(xué)習(xí)的本質(zhì)就是構(gòu)建一種關(guān)鍵信息樣本選擇的啟發(fā)式規(guī)則,根據(jù)該規(guī)則主動(dòng)地選擇訓(xùn)練樣本中對(duì)于學(xué)習(xí)任務(wù)最為重要的關(guān)鍵信息樣本加入訓(xùn)練集來(lái)參與訓(xùn)練,并通過(guò)循環(huán)迭代得到最終的機(jī)器學(xué)習(xí)結(jié)果。在主動(dòng)學(xué)習(xí)過(guò)程中,由于只有少量的關(guān)鍵信息樣本參與訓(xùn)練,因此訓(xùn)練集規(guī)模較小,噪聲樣本影響較少,學(xué)習(xí)效率較高。由于支持向量機(jī)是一類(lèi)小樣本學(xué)習(xí)器,其雖然泛化性能較好,但其由于要構(gòu)造核矩陣并進(jìn)行運(yùn)算,訓(xùn)練時(shí)間復(fù)雜度為(),其中為樣本規(guī)模,因此當(dāng)訓(xùn)練集樣本規(guī)模較大時(shí),無(wú)法進(jìn)行高效學(xué)習(xí)。
目前,針對(duì)SVM無(wú)法處理大規(guī)模復(fù)雜數(shù)據(jù)學(xué)習(xí)的問(wèn)題,已經(jīng)結(jié)合主動(dòng)學(xué)習(xí)方法,提出了一些基于主動(dòng)學(xué)習(xí)的SVM改進(jìn)學(xué)習(xí)算法,如Tong等選取距離超平面最近的樣本作為重要信息樣本參與訓(xùn)練,提高了SVM的學(xué)習(xí)效率,使SVM的近似超平面可以盡快地收斂于最優(yōu)超平面,并將其應(yīng)用于文本分類(lèi)的實(shí)際問(wèn)題;Schohn等認(rèn)為當(dāng)前分類(lèi)器中不易識(shí)別的樣本是最重要的,利用這些樣本來(lái)構(gòu)造信息樣本集,設(shè)計(jì)出Uncertainty Sampling等采樣方法提取重要信息樣本。盡管這些主動(dòng)SVM分類(lèi)方法通過(guò)構(gòu)建啟發(fā)式的關(guān)鍵信息樣本提取規(guī)則,提取含有重要分類(lèi)信息的樣本加入訓(xùn)練集迭代主動(dòng)學(xué)習(xí),提高了學(xué)習(xí)效率。但這些方法都是針對(duì)平衡數(shù)據(jù)分類(lèi)問(wèn)題的,對(duì)于非平衡數(shù)據(jù)的分類(lèi)問(wèn)題并不能使用。因此,如何結(jié)合主動(dòng)學(xué)習(xí)模型,抽取非平衡分類(lèi)問(wèn)題中更有價(jià)值的信息樣本,以提高傳統(tǒng)SVM處理非平衡數(shù)據(jù)的分類(lèi)性能是一個(gè)值得研究的問(wèn)題。
本文結(jié)合主動(dòng)學(xué)習(xí)的思想,提出一種基于主動(dòng)學(xué)習(xí)的針對(duì)非平衡數(shù)據(jù)分類(lèi)的SVM改進(jìn)分類(lèi)方法。該方法首先將規(guī)模較大的負(fù)類(lèi)樣本劃分為與正類(lèi)樣本個(gè)數(shù)一致的簇,計(jì)算出每個(gè)簇中心作為負(fù)類(lèi)訓(xùn)練樣本集,將其與正類(lèi)樣本合并訓(xùn)練,得到初始分類(lèi)超平面。由于對(duì)SVM最優(yōu)分類(lèi)超平面起決定作用的樣本往往分布在超平面附近,越遠(yuǎn)離分類(lèi)超平面的樣本越無(wú)關(guān),因此在剩余的大規(guī)模負(fù)類(lèi)樣本集中根據(jù)樣本到近似超平面的距離,選擇主動(dòng)學(xué)習(xí)的關(guān)鍵信息樣本(即距離當(dāng)前分類(lèi)超平面最近的負(fù)類(lèi)樣本),同時(shí)刪除負(fù)類(lèi)訓(xùn)練樣本集中距離超平面最遠(yuǎn)的樣本,以始終保持SVM訓(xùn)練樣本中不同類(lèi)別樣本分布的平衡性,有效提高SVM對(duì)于非平衡數(shù)據(jù)分類(lèi)的泛化性能。
根據(jù)負(fù)類(lèi)剩余樣本集中每個(gè)樣本到超平面的距離,即可選擇主動(dòng)學(xué)習(xí)當(dāng)中需要加入的關(guān)鍵信息樣本和需要?jiǎng)h除的非關(guān)鍵信息樣本,二者的選擇方式見(jiàn)如式(3)、式(4):
關(guān)鍵信息樣本:
非關(guān)鍵信息樣本:
基于主動(dòng)學(xué)習(xí)的非平衡SVM分類(lèi)算法
(4)使用新訓(xùn)練集訓(xùn)練SVM模型,得到分類(lèi)器,并測(cè)試其分類(lèi)性能。
(5)根據(jù)式(2)計(jì)算負(fù)類(lèi)剩余樣本集中樣本到分類(lèi)超平面的距離,并根據(jù)式(3)從負(fù)類(lèi)剩余樣本集中選擇關(guān)鍵信息樣本,并對(duì)負(fù)類(lèi)訓(xùn)練樣本集和負(fù)類(lèi)剩余樣本集進(jìn)行更新,更新方法如下:
(6)根據(jù)式(2)計(jì)算負(fù)類(lèi)訓(xùn)練樣本集中樣本到分類(lèi)超平面的距離,并根據(jù)式(4)從負(fù)類(lèi)訓(xùn)練樣本集中選擇非關(guān)鍵信息樣本,并對(duì)負(fù)類(lèi)訓(xùn)練樣本集和負(fù)類(lèi)剩余樣本集進(jìn)行更新,更新方法如下:
(7)得到更新后的負(fù)類(lèi)訓(xùn)練樣本集與正類(lèi)樣本集合并構(gòu)成新的訓(xùn)練樣本集,轉(zhuǎn)到(4)繼續(xù)迭代執(zhí)行,直到迭代次數(shù)達(dá)到要求為止。
(8)輸出整個(gè)過(guò)程中得到的一系列分類(lèi)器及一系列評(píng)測(cè)值。
(9)算法結(jié)束。
為驗(yàn)證ISVM_AL方法的有效性,實(shí)驗(yàn)中將該方法與標(biāo)準(zhǔn)SVM基于聚類(lèi)的非平衡SVM(ISVM_C)分類(lèi)方法進(jìn)行對(duì)比研究。ISVM_C算法如下。
基于聚類(lèi)的非平衡SVM分類(lèi)算法
(4)使用新訓(xùn)練集訓(xùn)練SVM模型,得到分類(lèi)器,并測(cè)試其一系列評(píng)測(cè)指標(biāo)。
(5)算法結(jié)束。
為驗(yàn)證ISVM_AL分類(lèi)算法的性能,本文分別在人工構(gòu)造的非平衡數(shù)據(jù)集和多個(gè)典型的非平衡UCI數(shù)據(jù)集上都進(jìn)行了測(cè)試。人工構(gòu)造的非平衡數(shù)據(jù)集呈正態(tài)分布,正類(lèi)和負(fù)類(lèi)分別以(+1,+1)和(-1,-1)為中心,以(1 0,0 1)為協(xié)方差矩陣,構(gòu)造訓(xùn)練集中負(fù)類(lèi)樣本與正類(lèi)樣本的比例為500∶500、900∶100和980∶20。測(cè)試集也同樣方法構(gòu)造,但數(shù)量規(guī)模擴(kuò)大10倍,圖3所示為構(gòu)造的訓(xùn)練集樣本分布情況;標(biāo)準(zhǔn)非平衡UCI數(shù)據(jù)集如表1所示,這些數(shù)據(jù)集可從網(wǎng)站http://www.ics.uci.edu/~mlearn上下載,為提高實(shí)驗(yàn)的測(cè)試準(zhǔn)確性,在UCI數(shù)據(jù)集上采用五折交叉驗(yàn)證的方式,即將數(shù)據(jù)集五等分,其中一份作為測(cè)試集,剩余的四份合并作為訓(xùn)練集,實(shí)驗(yàn)中取五次實(shí)驗(yàn)的均值作為統(tǒng)計(jì)結(jié)果。實(shí)驗(yàn)中,將ISVM_AL方法與標(biāo)準(zhǔn)支持向量機(jī)(SVM)和基于聚類(lèi)的非平衡SVM分類(lèi)方法(ISVM_C)進(jìn)行了對(duì)比。
圖3 正態(tài)分布數(shù)據(jù)集
表1 實(shí)驗(yàn)采用的UCI數(shù)據(jù)集
為有效衡量所提出的基于主動(dòng)學(xué)習(xí)的非平衡SVM分類(lèi)方法的性能,本文在多種不同的非平衡分類(lèi)指標(biāo)上進(jìn)行了全方位的測(cè)試。涉及到的測(cè)試指標(biāo)如下:
(1)準(zhǔn)確率()。用于測(cè)算所有測(cè)試樣本中算法預(yù)測(cè)正確的比例:
(2)召回率()。用于測(cè)算實(shí)際正類(lèi)樣本中被正確預(yù)測(cè)的比例:
(3)特效性()。用于測(cè)算實(shí)際負(fù)類(lèi)樣本中被正確預(yù)測(cè)的比例:
(4)值。該指標(biāo)綜合衡量正類(lèi)和負(fù)類(lèi)樣本的分類(lèi)準(zhǔn)確率,具體如下:
各評(píng)價(jià)指標(biāo)涉及到的變量意義如表2所示。
表2 相關(guān)變量的意義
對(duì)于人工構(gòu)造的正態(tài)分布數(shù)據(jù)集,三個(gè)數(shù)據(jù)集的差異主要體現(xiàn)在不同類(lèi)別的平衡度上,由于數(shù)據(jù)集分布簡(jiǎn)單,所以三種方法當(dāng)中均直接采用線(xiàn)性核進(jìn)行訓(xùn)練測(cè)試,由于模型選擇不是本文重點(diǎn)考慮的問(wèn)題,所以三種模型的懲罰參數(shù)均取默認(rèn)值1。經(jīng)三種方法訓(xùn)練測(cè)試,得到的實(shí)驗(yàn)結(jié)果見(jiàn)表3,實(shí)驗(yàn)中ISVM_AL方法的迭代步數(shù)默認(rèn)取15。
表3 正態(tài)分布數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
從表3可以看出,對(duì)于類(lèi)型分布平衡的數(shù)據(jù),三種方法得到的結(jié)果完全一致,這是由于當(dāng)類(lèi)別完全平衡時(shí),本文所提出的ISVM_AL方法和對(duì)照的基于聚類(lèi)的ISVM_C方法都退化為簡(jiǎn)單的SVM方法,因此得到的結(jié)果完全一致;而對(duì)于(b)組非平衡分布數(shù)據(jù),SVM方法對(duì)正類(lèi)樣本分類(lèi)效果較差,因而導(dǎo)致其對(duì)應(yīng)的和值都比較低,盡管基于聚類(lèi)的ISVM_C對(duì)于正類(lèi)樣本分類(lèi)效果較好,但其在分對(duì)正類(lèi)樣本的同時(shí)也導(dǎo)致了大量的負(fù)類(lèi)的錯(cuò)分樣本,因此其對(duì)應(yīng)的值和值都不高,而本文提出的ISVM_AL方法一方面采用聚類(lèi)方法達(dá)到了不同類(lèi)別之間樣本的平衡,對(duì)于正類(lèi)樣本得到了較好的分類(lèi)準(zhǔn)確率,同時(shí)采用了基于關(guān)鍵樣本提取的負(fù)類(lèi)樣本選擇更新方法,負(fù)類(lèi)樣本的錯(cuò)分率也較低,因此其對(duì)應(yīng)的的值和值都較好;此外,在另一組類(lèi)別差異度更大的數(shù)據(jù)集上,SVM完全無(wú)法進(jìn)行分類(lèi),即將全部的正類(lèi)樣本都錯(cuò)誤地識(shí)別為負(fù)類(lèi),而ISVM_C方法盡管取得了較好的正類(lèi)分類(lèi)正確率,但負(fù)類(lèi)樣本的錯(cuò)分率非常高,而本文提出的ISVM_AL方法在提高正類(lèi)樣本分類(lèi)正確率的同時(shí),同時(shí)負(fù)類(lèi)樣本的錯(cuò)分率也較低,在綜合反映正負(fù)類(lèi)樣本分類(lèi)正確率的指標(biāo)上,與ISVM_C相比,ISVM_AL提高了15%以上。
對(duì)于標(biāo)準(zhǔn)數(shù)據(jù)集,三種模型的懲罰參數(shù)均取默認(rèn)值1,由于這四個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集均不是線(xiàn)性可分的,因此都采用高斯核進(jìn)行訓(xùn)練測(cè)試,核參數(shù)為默認(rèn)值,即取特征數(shù)的倒數(shù)。經(jīng)三種方法訓(xùn)練測(cè)試,實(shí)驗(yàn)得到的各測(cè)試指標(biāo)值如圖4所示,實(shí)驗(yàn)中ISVM_AL方法的迭代步數(shù)默認(rèn)取15。
圖4 標(biāo)準(zhǔn)數(shù)據(jù)集上的測(cè)試結(jié)果對(duì)比
由于標(biāo)準(zhǔn)SVM和ISVM_C兩種方法并不涉及模型參數(shù),因此在圖4中,SVM和ISVM_C兩種方法得到的結(jié)果并不隨著參數(shù)變化而變化,而對(duì)于本文提出的ISVM_AL方法,其性能隨著迭代過(guò)程的改變而改變,且初始狀態(tài)下,也是對(duì)負(fù)類(lèi)樣本進(jìn)行了與正類(lèi)樣本規(guī)模相等的信息抽取,這一點(diǎn)與ISVM_C方法完全一致,因此其初始值和ISVM_C方法是相等的。但隨著算法迭代次數(shù)的增加,ISVM_AL方法對(duì)于正類(lèi)樣本依然保持了較好的分類(lèi)正確率,同時(shí)對(duì)于負(fù)類(lèi)樣本的分類(lèi)正確率有了明顯的提高,從而有效提高了分類(lèi)的精度值和值,這充分說(shuō)明本文提出的ISVM_AL方法一方面有效提取了負(fù)類(lèi)樣本的重要信息,保持了不同類(lèi)樣本的規(guī)模平衡,提高了正類(lèi)樣本的分類(lèi)性能,同時(shí)通過(guò)主動(dòng)學(xué)習(xí)的方法有效地抽取了負(fù)類(lèi)樣本集中重要的信息樣本加入訓(xùn)練,從而在不影響正類(lèi)樣本分類(lèi)的情形下,也有效提高了負(fù)類(lèi)樣本的分類(lèi)性能,在不同類(lèi)樣本的分類(lèi)效果之間得到了有效的折中。另外,為了進(jìn)一步直觀(guān)地觀(guān)測(cè)分類(lèi)效果,本文給出了數(shù)據(jù)集Thyroid上采用標(biāo)準(zhǔn)ISVM_C和ISVM_AL(迭代次數(shù)為10)的分類(lèi)超平面(如圖5所示)。從圖中可以看出,在分類(lèi)超平面邊界附近,本文提出的ISVM_AL方法聚集了更多包含重要信息的負(fù)類(lèi)樣本。
圖5 ISVM_C和ISVM_AL得到的分類(lèi)超平面
綜上所述,本文提出的基于主動(dòng)學(xué)習(xí)的非平衡SVM分類(lèi)方法通過(guò)對(duì)負(fù)類(lèi)樣本進(jìn)行壓縮替換,保證了不同類(lèi)樣本規(guī)模的平衡性,提高了對(duì)于非平衡問(wèn)題中正類(lèi)樣本的分類(lèi)正確率,同時(shí)采用主動(dòng)學(xué)習(xí)方法有效提取負(fù)類(lèi)樣本中的關(guān)鍵信息樣本,刪除非關(guān)鍵信息樣本,在保持樣本分布平衡的同時(shí)又保留了重要信息,從而在不同類(lèi)樣本的分類(lèi)性能之間得到了較好的折中。
針對(duì)傳統(tǒng)非平衡支持向量機(jī)處理非平衡數(shù)據(jù)分類(lèi)問(wèn)題時(shí)無(wú)法有效平衡正負(fù)類(lèi)樣本分類(lèi)性能而導(dǎo)致泛化性能差的問(wèn)題,本文結(jié)合主動(dòng)學(xué)習(xí)的思想,提出一種新的非平衡SVM的分類(lèi)方法ISVM_AL。該方法先對(duì)多數(shù)類(lèi)樣本劃分采樣,并與正類(lèi)樣本結(jié)合構(gòu)成平衡的訓(xùn)練集并初始分類(lèi)器,然后采用主動(dòng)學(xué)習(xí)方式從負(fù)類(lèi)剩余樣本集中選擇關(guān)鍵信息樣本逐次加入到負(fù)類(lèi)訓(xùn)練樣本集,同時(shí)刪除負(fù)類(lèi)訓(xùn)練樣本集中相對(duì)次要的非關(guān)鍵信息樣本,從而始終保持負(fù)類(lèi)訓(xùn)練樣本集與正類(lèi)訓(xùn)練集樣本規(guī)模的平衡性,提高了SVM對(duì)于非平衡數(shù)據(jù)分類(lèi)任務(wù)不同類(lèi)樣本的分類(lèi)性能。