摘 要:為了解決不平衡數(shù)據(jù)集中少數(shù)類樣本分類精度較低的問題,提出了一種處理不平衡數(shù)據(jù)集的ADASYN-WGAN方法。首先,采用ADASYN(adaptive synthetic sampling)算法生成少數(shù)類樣本,用這些生成樣本代替WGAN(wasserstein generative adversarial networks)中的隨機噪聲;其次,利用WGAN算法生成符合原始數(shù)據(jù)集分布規(guī)律的少數(shù)類樣本,構(gòu)建平衡數(shù)據(jù)集;然后,在6個公開數(shù)據(jù)集上,采用隨機森林分類器對所提方法和4種過采樣算法得出的處理結(jié)果分別與原始數(shù)據(jù)集進行對比;最后,通過F1-Score,G-mean和AUC等分類評估指標的表現(xiàn)驗證所提方法的有效性。結(jié)果表明:在對比實驗中,經(jīng)過ADASYN-WGAN方法得到的平衡數(shù)據(jù)集在隨機森林分類器的十折交叉驗證中,4個公開數(shù)據(jù)集中的各項分類評估指標值均達到最優(yōu),雖然另2個公開數(shù)據(jù)集中的AUC值略低,但其F1-Score和G-mean取得了最高值。所提出的ADASYN-WGAN方法可生成高質(zhì)量的數(shù)據(jù)樣本,并可為解決不平衡數(shù)據(jù)集中少數(shù)類樣本的預(yù)測偏差問題提供參考。
關(guān)鍵詞:數(shù)據(jù)處理;不平衡數(shù)據(jù);WGAN;ADASYN;過采樣方法;隨機森林
中圖分類號:
TP399
文獻標識碼:A
DOI: 10.7535/hbgykj.2024yx04007
Hybrid imbalanced data processing based on ADASYN and WGAN
ZHOU Wanzhen1,2, SHENG Yuanyuan1, ZHANG Yongqiang 1,2, MA Jinlong1,2
(1.School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China; 2.Hebei Technology Innovation Center of Intelligent IoT, Shijiazhuang, Hebei 050018, China)
Abstract:In order to solve the problem of low classification accuracy of minority class samples in imbalanced datasets, an ADASYN-WGAN method was proposed to deal with imbalanced datasets. Firstly, the minority class samples were generated using the ADASYN algorithm, and these generated samples were used to replace the random noise in the WGAN; Secondly, the minority class samples conforming to the distribution law of the original dataset were generated using the WGAN algorithm to construct the balanced dataset; Then, the processing results derived from the proposed method and the four over-sampling algorithms were compared with the original dataset using the random forest classifier on six public datasets, respectively. Finally, the effectiveness of the proposed method was verified by the performance of classification assessment indexes such as F1-Score, G-mean and AUC. The results show that in the comparison experiments, the balanced dataset obtained by the ADASYN-WGAN method achieves the optimal values of all classification assessment indexes in four public datasets in the ten-fold cross-validation of the random forest classifier, and the F1-Score and G-mean achieve the highest values in the other two public datasets, although the AUC values are slightly lower. The proposed ADASYN-WGAN method can generate high-quality data samples and provide reference for solving the problem of prediction bias for a few class samples in unbalanced datasets.
Keywords:data processing; imbalanced data; WGAN; ADASYN; oversampling method; random forest
不平衡數(shù)據(jù)指的是,在一個數(shù)據(jù)集中不同類別的樣本數(shù)量差異很大。例如,在二分類問題中,一類的樣本數(shù)量遠遠多于另一類的樣本數(shù)量,這就導(dǎo)致數(shù)據(jù)分布不平衡。不平衡數(shù)據(jù)的現(xiàn)象廣泛存在于金融預(yù)測、氣象預(yù)測、網(wǎng)絡(luò)入侵檢測、醫(yī)療診斷等實際應(yīng)用中 [1-4]。對于決策樹、隨機森林、支持向量機等傳統(tǒng)的分類模型,由于不平衡數(shù)據(jù)集中多數(shù)類樣本數(shù)量遠遠多于少數(shù)類樣本數(shù)量,常導(dǎo)致模型在學(xué)習(xí)過程中更加傾向于學(xué)習(xí)多數(shù)類樣本的特征,從而使預(yù)測結(jié)果產(chǎn)生偏差。但實際上少數(shù)類樣本往往比多數(shù)類樣本更具有價值,因此樣本類別的誤判可能會造成嚴重的損失。比如在腫瘤檢測任務(wù)中,如果在一個數(shù)據(jù)集中腫瘤樣本的數(shù)量較少,無腫瘤樣本數(shù)量較多,模型可能會更容易將腫瘤預(yù)測結(jié)果判定為無腫瘤,從而導(dǎo)致誤診。因此,如何提高不平衡數(shù)據(jù)集中少數(shù)類樣本的分類精度具有重要的研究價值。
近年來,國內(nèi)外學(xué)者提出了各種各樣的方法來解決不平衡數(shù)據(jù)集中少數(shù)類樣本分類精度較低的問題。GEETHA等[5] 利用SMOTE(synthetic minority oversampling technique)過采樣算法處理醫(yī)療數(shù)據(jù)集中的不平衡,但該算法在合成新樣本時存在盲目性和邊緣化的問題。雖然隨機欠采樣[6]是一種簡單而有效的處理不平衡數(shù)據(jù)集的方法,但該方法通過在多數(shù)類樣本中隨機刪除一定數(shù)量的樣本來使剩余樣本的數(shù)量與少數(shù)類樣本數(shù)量相匹配,這可能導(dǎo)致刪去對分類具有重要價值的樣本。FU等[7] 采用自適應(yīng)綜合抽樣(adaptive synthetic sampling,ADASYN)算法來生成新樣本,該方法雖然考慮了少數(shù)類樣本與其最近鄰的多數(shù)類樣本之間的差距,但卻忽略了其他多數(shù)類樣本之間的差異,導(dǎo)致生成的新樣本缺乏足夠的多樣性。隨著人工智能的發(fā)展,深度學(xué)習(xí)處理不平衡數(shù)據(jù)集已廣泛應(yīng)用在各項研究中[8-10]。生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)最初被設(shè)計用于生成逼真的圖像,但由于其具有還原數(shù)據(jù)集分布特征的能力,因此被廣泛用于擴增少數(shù)類樣本數(shù)據(jù),從而解決數(shù)據(jù)不平衡問題[11]。LEE等[12]設(shè)計了基于GAN的不平衡數(shù)據(jù)入侵檢測系統(tǒng)。阿克弘等[13]將GAN的數(shù)據(jù)增強技術(shù)成功應(yīng)用于用戶數(shù)據(jù)重構(gòu)中。SHARMA等[14]提出了一種基于GAN和SMOTE的混合過采樣方法,但其中GAN模型存在訓(xùn)練不穩(wěn)定、梯度消失和模式崩潰等問題 [15-16]?;赪asserstein距離的生成對抗網(wǎng)絡(luò)(wasserstein generative adversarial networks,WGAN)作為GAN的改進算法,利用Wasserstein距離和其他改進有效解決了GAN中存在的問題,并保證算法模型能更好地學(xué)習(xí)整體數(shù)據(jù)分布特征[17]。LEE等[18]采用WGAN的數(shù)據(jù)增強方法有效構(gòu)建環(huán)境管理系統(tǒng)所需的大量數(shù)據(jù)。然而,WGAN算法在訓(xùn)練過程中,若少數(shù)類樣本的數(shù)量太少,生成器(generator,G)可能會陷入局部最優(yōu)解,導(dǎo)致生成的少數(shù)類樣本質(zhì)量較低,使得生成樣本缺乏多樣性和真實性。
為了解決上述問題,提出一種ADASYN-WGAN方法來處理不平衡數(shù)據(jù)集。該方法利用ADASYN算法生成的少數(shù)類樣本代替隨機噪聲作為WGAN生成器的輸入,解決WGAN受限于原始少數(shù)類樣本問題。同時,通過WGAN訓(xùn)練生成符合原始數(shù)據(jù)集分布規(guī)律的少數(shù)類樣本,解決ADASYN算法只考慮少數(shù)類樣本與其最近鄰的多數(shù)類樣本之間的差距而導(dǎo)致生成的新樣本不夠多樣化的問題。ADASYN-WGAN方法充分結(jié)合了ADASYN算法和WGAN算法2種獨立算法的優(yōu)勢并克服其各自缺陷,在這2種算法的協(xié)同作用下生成多樣化且符合原始數(shù)據(jù)分布規(guī)律的數(shù)據(jù),從而提高不平衡數(shù)據(jù)集中少數(shù)類樣本的分類精度。
1 ADASYN-WGAN方法的構(gòu)建及實現(xiàn)
1.1 ADASYN-WGAN方法的構(gòu)建
受博弈論的啟發(fā),GOODFELLOW等[19]提出了一種生成對抗網(wǎng)絡(luò)(GAN)的訓(xùn)練方法。GAN包括2個部分:生成器和判別器(discriminator,D)。生成器的任務(wù)是生成逼真的樣本,而判別器的任務(wù)是盡可能準確地區(qū)分生成的樣本和真實樣本。在訓(xùn)練過程中,生成器與判別器形成了類似于博弈論零和博弈的動態(tài)平衡,雙方性能此消彼長,相互競爭提升。通過這種訓(xùn)練方式,GAN可以學(xué)習(xí)生成逼真的樣本數(shù)據(jù)。盡管GAN在生成新樣本方面表現(xiàn)良好,但它存在訓(xùn)練不穩(wěn)定、梯度消失和模式崩潰等問題。WGAN的出現(xiàn)基本解決了原始GAN存在的多種問題[20]。
在WGAN算法中,隨機噪聲作為生成器的輸入,用于產(chǎn)生“虛假”數(shù)據(jù),然后將生成的“虛假”數(shù)據(jù)和真實樣本數(shù)據(jù)合并成訓(xùn)練集進行模型訓(xùn)練,最后通過生成器和判別器之間的對抗訓(xùn)練生成“以假亂真”的數(shù)據(jù)樣本。隨機噪聲作為生成器的輸入引入了一定的隨機性,使得生成器可以通過學(xué)習(xí)并利用噪聲中的特征來模擬真實數(shù)據(jù)的分布情況。然而,由于隨機噪聲是完全隨機的,可能導(dǎo)致生成的數(shù)據(jù)樣本不穩(wěn)定。同時,隨機噪聲作為生成器的輸入可能使生成器更傾向于生成相似的樣本,從而導(dǎo)致生成的樣本缺乏多樣性。為了改進這一問題,使用ADASYN算法生成的少數(shù)類樣本代替隨機噪聲作為WGAN中生成器的輸入,有助于提高輸入樣本的質(zhì)量,從而產(chǎn)生多樣性且高質(zhì)量的數(shù)據(jù)樣本。ADASYN-WGAN方法結(jié)構(gòu)圖如圖1所示。
1.1.1 ADASYN算法
ADASYN算法具有自適應(yīng)生成合成樣本的能力[21]。該算法會根據(jù)每個少數(shù)類樣本周圍的多數(shù)類樣本數(shù)量動態(tài)地調(diào)整生成樣本的數(shù)量,以確保生成的樣本更好地適應(yīng)少數(shù)類樣本的分布。這種自適應(yīng)性使得ADASYN算法能夠更精準地生成合成樣本,有效地應(yīng)對不同類別之間的數(shù)據(jù)分布差異。
在訓(xùn)練集中,將ms和ml分別定義為少數(shù)類樣本的數(shù)量和多數(shù)類樣本的數(shù)量。在ADASYN-WGAN方法中,首先利用ADASYN算法生成新的少數(shù)類樣本ui。ADASYN算法步驟如下:1)計算要合成的樣本數(shù)量G1;2)對于每個少數(shù)類樣本xi,根據(jù)n維空間中的歐幾里得距離找到K近鄰,并計算K近鄰中多數(shù)類樣本的占比ri=Δi/K,(i=1,2,…, ms),Δi是K(xi)附近的大多數(shù)類的個數(shù),因此ri∈(0,1];3)對ri利用式(1)進行標準化。
r^i=ri∑msi=1ri。(1)
利用式(2)計算每個樣本xi需要生成的合成樣本的個數(shù)gi:
gi=G1×r^i。(2)
由gi計算出少數(shù)類樣本需要生成的樣本數(shù),然后利用式(3)生成新合成的少數(shù)類樣本ui,從而實現(xiàn)數(shù)據(jù)平衡。
ui=xi+rand(0,1)xzi-xi,(3)
式中:ui表示新生成的少數(shù)類樣本;xi表示原始的少數(shù)類樣本;xzi表示隨機選出的近鄰樣本。
1.1.2 WGAN算法
WGAN引入了Wasserstein距離代替了原始GAN中使用的Jensen-Shannon散度,用它來衡量2個分布之間的距離。Wasserstein距離的獨特之處在于,即使在2個分布沒有重疊的情況下,它仍能表現(xiàn)2個分布之間的距離關(guān)系。因此,Wasserstein距離作為一種更可靠的度量,能夠在訓(xùn)練過程中指示每次迭代的優(yōu)化信息,促使生成器產(chǎn)生更高質(zhì)量的數(shù)據(jù),這使得WGAN成為一種更穩(wěn)定且有效的生成對抗網(wǎng)絡(luò)算法。
WGAN生成器和判別器的損失函數(shù)表達式分別如式(4)和式(5)所示。
minG-EzDGz,(4)
maxD∈ΩExDx-Ez1-DGz,(5)
式中:Ω表示1-Lipschitz函數(shù)的集合;Dx表示從真實數(shù)據(jù)樣本x得到的概率分布;Gz表示的是隨機噪聲z通過生成器生成的數(shù)據(jù);DGz表示的是生成數(shù)據(jù)被判別器認為是真實數(shù)據(jù)的概率。
1.2 ADASYN-WGAN方法的實現(xiàn)
ADASYN-WGAN方法的具體實現(xiàn)步驟如下。
Step1:通過ADASYN算法生成新的少數(shù)類樣本ui。
Step2:定義初始化WGAN生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)。
Step3:將ui作為WGAN生成器的輸入。
Step4:通過生成器生成一批假樣本S′。
Step5:將真實樣本和生成器生成的假樣本S′合為一個訓(xùn)練集,作為判別器的輸入。
Step6:訓(xùn)練判別器,使其能正確區(qū)分真實樣本和假樣本。
Step7:訓(xùn)練生成器,使其能夠生成更逼真的假樣本,以欺騙判別器。
重復(fù)Step4—Step7直至WGAN收斂,達到納什平衡,生成器生成的數(shù)據(jù)足以“以假亂真”。
ADASYN-WGAN方法的偽代碼如表1所示。
ADASYN-WGAN方法中,首先利用ADASYN算法生成的少數(shù)類樣本ui代替隨機噪聲z作為生成器的輸入,即在ADASYN-WGAN方法中,修改了WGAN算法的損失函數(shù)并將其與ADASYN相結(jié)合。更新后的生成器和判別器損失函數(shù)表達式分別如式(6)和式(7)所示:
minG-EuiDGui,(6)
maxD∈ΩExDx-Eui1-DGui,(7)
式中:Gui表示ui通過生成器生成的數(shù)據(jù);DGui表示生成數(shù)據(jù)被判別器認為是真實數(shù)據(jù)的概率。
ADASYN-WGAN方法中,WGAN的生成器由多個隱藏層組成,并通過激活函數(shù)將輸出限制在合適的范圍內(nèi),以生成逼真的數(shù)據(jù)樣本。判別器接收真實數(shù)據(jù)和生成器生成的數(shù)據(jù),通過一系列神經(jīng)網(wǎng)絡(luò)層處理,使判別器輸出的是輸入數(shù)據(jù)為真實數(shù)據(jù)的概率。生成器的訓(xùn)練通過與一個判別器進行對抗訓(xùn)練來完成,判別器的目標是有效區(qū)分生成器生成的數(shù)據(jù)樣本和真實數(shù)據(jù)樣本。生成器通過不斷優(yōu)化參數(shù)來提高生成樣本的質(zhì)量,旨在欺騙判別器,這個過程一直持續(xù)到WGAN收斂,即判別器不能準確辨別生成的樣本。一旦達到這個狀態(tài),生成器能夠生成大量符合真實數(shù)據(jù)分布規(guī)律的新樣本,從而將訓(xùn)練數(shù)據(jù)從不平衡狀態(tài)擴展到平衡的狀態(tài)。
1.2.1 ADASYN-WGAN方法的生成器架構(gòu)
ADASYN-WGAN方法中,WGAN算法的生成器不再以隨機噪聲為輸入,而是采用由ADASYN算法生成的少數(shù)類樣本作為生成器的輸入,并包含4層全連接層。為了避免樣本振蕩和模型不穩(wěn)定,對生成器的輸入層和輸出層進行了批量歸一化。在激活函數(shù)方面,采用ReLU作為隱藏層的激活函數(shù),Tanh作為輸出層的激活函數(shù),以促使更快的梯度變化,從而加速訓(xùn)練過程的收斂速度。ADASYN-WGAN方法的生成器結(jié)構(gòu)如圖2所示。
1.2.2 ADASYN-WGAN方法的判別器架構(gòu)
在ADASYN-WGAN方法中,判別器的輸入由生成的數(shù)據(jù)樣本和真實數(shù)據(jù)樣本組成,并經(jīng)過3個全連接層的處理。在神經(jīng)元的激活函數(shù)方面,采用了Leaky ReLU。ADASYN-WGAN方法的判別器結(jié)構(gòu)如圖3所示。
1.2.3 ADASYN-WGAN方法的損失函數(shù)
損失函數(shù)是評估神經(jīng)網(wǎng)絡(luò)預(yù)測性能與真實目標之間差距的關(guān)鍵指標,在ADASYN-WGAN方法中沒有使用常見的交叉損失函數(shù),而是選擇了Wasserstein距離作為訓(xùn)練時的損失函數(shù)。Wasserstein距離是一種用于度量2個概率分布之間差異的指標。相比于傳統(tǒng)GAN中使用的Jensen-Shannon散度,Wasserstein距離具有更好的數(shù)學(xué)性質(zhì),有助于避免傳統(tǒng)GAN中的模式崩潰和梯度消失等問題。Wasserstein距離使得算法模型能夠更準確地衡量真實分布與生成分布之間的距離,為訓(xùn)練提供更穩(wěn)定的指導(dǎo)。
2 實驗設(shè)計與結(jié)果分析
2.1 實驗數(shù)據(jù)及設(shè)計
本文從KEEL和UCI數(shù)據(jù)庫中選取了6組不同的公開數(shù)據(jù)集,具有不同的不平衡率(imbalance ratio, IR)(1.54~14.3),以評估ADASYN-WGAN方法的性能。首先,對原始數(shù)據(jù)集采用Enconder方法進行數(shù)據(jù)標簽數(shù)值化,接著進行歸一化處理。然后,采用隨機森林分類器對經(jīng)過ADASYN-WGAN方法處理得到的平衡數(shù)據(jù)集進行十折交叉驗證實驗,并將實驗結(jié)果和SMOTE,GAN,ADASYN和WGAN算法采樣得到的結(jié)果分別與原始數(shù)據(jù)集進行對比。在實驗中,隨機森林分類器使用默認參數(shù)。表2給出了6組公開數(shù)據(jù)集的具體信息。
2.2 評估指標
在傳統(tǒng)的分類問題中,通常使用準確性作為評估各種分類算法性能的主要指標。然而在不平衡的數(shù)據(jù)集中,準確性的度量存在一定問題,因為其傾向于多數(shù)類,將它作為評估指標會導(dǎo)致少數(shù)類的錯誤分類率明顯偏高。因此,在不平衡數(shù)據(jù)集的情況下,使用F1-Score,G-mean和AUC等作為評估指標更為合適。為了更清晰地描述這些評估指標,需要用到混淆矩陣(如表3所示)。
F1-Score是衡量算法模型對少數(shù)類樣本分類性能的重要指標,在不平衡數(shù)據(jù)的分類評估中被廣泛采用。通常簡寫為F1,其公式如式(8)所示:
F1=2×TPTP+FP×TPTP+FNTPTP+FP+TPTP+FN。(8)
G-mean綜合考慮了多數(shù)類樣本和少數(shù)類樣本的分類精度,僅當2類的分類情況都表現(xiàn)良好時,G-mean值才會增加,因此G-mean是整個數(shù)據(jù)集分類效果的有力度量。
G-mean公式如式(9)所示:
G-mean= TPTP+FN×TNTN+FP。(9)
本文使用AUC來說明分類結(jié)果。AUC被定義為接受者操作特性曲線下的面積,而接受者操作特性曲線是通過繪制不同閾值設(shè)置下的靈敏度TP/(TP+FN)與特異性TN/(TN+FP)對比生成。AUC值越大,分類效果越好。
2.3 ADASYN-WGAN方法驗證與結(jié)果分析
2.3.1 方法驗證及可視化對比分析
ADASYN-WGAN方法中,在yeast1.7數(shù)據(jù)集上,生成器和判別器的訓(xùn)練損失函數(shù)值隨著訓(xùn)練次數(shù)增加的變化過程如圖4所示。
從圖4可以看出,隨著訓(xùn)練的進行,判別器和生成器逐漸優(yōu)化以提高自身能力,損失函數(shù)值逐漸趨于穩(wěn)定,表明對抗網(wǎng)絡(luò)模型逐漸收斂。此時生成器的生成能力達到最大,即ADASYN-WGAN方法能夠生成與真實少數(shù)類數(shù)據(jù)分布規(guī)律相似的高質(zhì)量樣本,模型訓(xùn)練結(jié)束。
為了驗證ADASYN-WGAN方法生成的數(shù)據(jù)樣本與原始數(shù)據(jù)集分布規(guī)律之間的相似性,首先對人工數(shù)據(jù)集進行可視化驗證,利用sklearn中的make_classification函數(shù)創(chuàng)建不平衡率為9、特征數(shù)為3的不平衡數(shù)據(jù)集,其中總樣本數(shù)量為450,生成的不平衡原始數(shù)據(jù)集的分布效果如圖5 a)所示。然后,對不同采樣算法生成的數(shù)據(jù)進行可視化對比分析,如圖5 b)—f)所示。從圖中可以直觀地看到ADASYN-WGAN方法生成的少數(shù)類樣本更符合數(shù)據(jù)集分布規(guī)律,也不會因生成重疊部分的數(shù)據(jù)而導(dǎo)致分類器精度降低。
2.3.2 實驗結(jié)果及分析
在6個公開不平衡數(shù)據(jù)集中,采用隨機森林分類器對所提方法和已有的4種過采樣算法(SMOTE,GAN,ADASYN和WGAN)的采樣結(jié)果分別與原始數(shù)據(jù)集作對比。依據(jù)F1-Score,G-mean 和AUC等分類評估指標對實驗結(jié)果進行了評價。具體結(jié)果見表4—表6,各表中將各個評估指標的最優(yōu)值用黑色粗體表示。
相較于隨機森林分類器在原始數(shù)據(jù)集上的分類結(jié)果,使用SMOTE,GAN,ADASYN和WGAN過采樣算法可以在不同程度上提高分類器在數(shù)據(jù)集上的分類性能。ADASYN-WGAN方法在名為glass6,ecoli1,ecoli2,yeast1.7的4個不平衡數(shù)據(jù)集上顯著提升了隨機森林分類器的分類性能,使得各項指標值均達到最優(yōu)。
在penbased數(shù)據(jù)集上,與WGAN算法相比,ADASYN-WGAN方法的AUC值低0.000 905,而在realspambase數(shù)據(jù)集上,與GAN算法相比,ADASYN-WGAN方法的AUC值低0.000 501,總體上差距不大。但ADASYN-WGAN方法在這2個數(shù)據(jù)集上的F1-Score值和G-mean值達到最優(yōu),保證了分類精度。
通過上述分析可以看出,ADASYN-WGAN方法有效解決了不平衡數(shù)據(jù)集分類預(yù)測偏差的問題,在F1-Score,G-mean,AUC這3個綜合性評估指標上得到了較好的結(jié)果。
3 結(jié) 語
本文提出了通過ADASYN算法和WGAN算法的協(xié)同作用生成平衡數(shù)據(jù)集,來解決數(shù)據(jù)不平衡給分類器帶來的預(yù)測偏差問題。在6個公開數(shù)據(jù)集中,采用隨機森林分類器對所提方法以及SMOTE,GAN,ADASYN和WGAN等4種過采樣算法的處理結(jié)果分別與原始數(shù)據(jù)集進行對比實驗,得出以下結(jié)論。
1)從可視化對比分析可知,ADASYN-WGAN方法與4種過采樣算法相比生成的少數(shù)類樣本更符合原始數(shù)據(jù)集的分布規(guī)律,也不會因生成重疊部分的數(shù)據(jù)而導(dǎo)致分類器精度降低。
2)在6個公開數(shù)據(jù)集中采用隨機森林分類器進行十折交叉驗證,通過對比實驗分析可知,使用4種過采樣算法可以在不同程度上提高分類器在不平衡數(shù)據(jù)集上的分類性能,而使用ADASYN-WGAN方法可以大幅度提升隨機森林分類器的分類性能。
3)本文所提的ADASYN-WGAN方法解決了ADASYN算法在生成新樣本時忽視多數(shù)類樣本之間差異的問題,從而避免了生成的新樣本缺乏多樣性的情況。同時,該方法利用了WGAN算法解決了傳統(tǒng)GAN算法中存在的模式崩潰、梯度損失等問題,并解決了WGAN算法生成樣本受限于原始少數(shù)類樣本的問題。通過ADASYN-WGAN方法生成符合原始數(shù)據(jù)集分布規(guī)律的數(shù)據(jù),從而提高不平衡數(shù)據(jù)集中少數(shù)類樣本的分類精度。
但是,目前該方法在使用中可能會出現(xiàn)由ADASYN算法和WGAN算法結(jié)合使用而帶來的計算復(fù)雜度和訓(xùn)練時間增加問題。因此,今后將在確保生成數(shù)據(jù)質(zhì)量的同時進一步簡化模型,以降低計算復(fù)雜度和縮短訓(xùn)練時間。
參考文獻/References:
[1]
AL-SHABI M.Credit card fraud detection using autoencoder model in unbalanced datasets[J].Journal of Advances in Mathematics and Computer Science,2019,33(5):1-16.
[2] PARSA A B,TAGHIPOUR H,DERRIBLE S,et al.Real-time accident detection:Coping with imbalanced data[J].Accident Analysis amp; Prevention,2019,129:202-210.
[3] ZHANG Hongpo,HUANG Lulu,WU C Q,et al.An effective convolutional neural network based on SMOTE and Gaussian mixture model for intrusion detection in imbalanced dataset[J].Computer Networks,2020,177:107315.
[4] XU Zhaozhao,SHEN Derong,NIE Tiezheng,et al.A cluster-based oversampling algorithm combining SMOTE and k-means for imbalanced medical data[J].Information Sciences,2021,572:574-589.
[5] GEETHA R,SIVASUBRAMANIAN S,KALIAPPAN M,et al.Cervical cancer identification with synthetic minority oversampling technique and PCA analysis using random forest classifier[J].Journal of Medical Systems,2019,43(9):286-305.
[6] 劉學(xué)文,王繼奎,楊正國,等.密度峰值優(yōu)化的球簇劃分欠采樣不平衡數(shù)據(jù)分類算法[J].計算機應(yīng)用,2022,42(5):1455-1463.
LIU Xuewen,WANG Jikui,YANG Zhengguo,et al.Imbalanced data classification algorithm based on ball cluster partitioning and undersampling with density peak optimization[J].Journal of Computer Applications,2022,42(5):1455-1463.
[7] FU Yanfang,DU Yishuai,CAO Zijian,et al.A deep learning model for network intrusion detection with imbalanced data[J].Electronics,2022,11(6):898-910.
[8] LIU Jingmei,GAO Yuanbo,HU Fengjie.A fast network intrusion detection system using adaptive synthetic oversampling and LightGBM[J].Computers amp; Security,2021,106:102289-102304.
[9] YAN Yilin,CHEN Min,SHYU M L,et al.Deep learning for imbalanced multimedia data classification[C]//2015 IEEE International Symposium on Multimedia (ISM).Miami:IEEE,2015:483-488.
[10]KHAN S H,HAYAT M,BENNAMOUN M,et al.Cost-sensitive learning of deep feature representations from imbalanced data[J].IEEE Transactions on Neural Networks and Learning Systems,2018,29(8):3573-3587.
[11]張思杰,方翔,魏賦.基于GAN的少樣本視網(wǎng)膜血管分割研究[J].電子測量與儀器學(xué)報,2021,35(11):132-142.
ZHANG Sijie,F(xiàn)ANG Xiang,WEI Fu.Research on retinal vascular segmentation based on GAN using few samples[J].Journal of Electronic Measurement and Instrumentation,2021,35(11):132-142.
[12]LEE J H,PARK K H.GAN-based imbalanced data intrusion detection system[J].Personal and Ubiquitous Computing,2021,25(1):121-128.
[13]阿克弘,胡曉東.基于GAN數(shù)據(jù)重構(gòu)的電信用戶流失預(yù)測方法[J].電信科學(xué),2023,39(3):135-142.
A Kehong,HU Xiaodong.GAN data reconstruction based prediction method of telecom subscriber loss[J].Telecommunications Science,2023,39(3):135-142.
[14]SHARMA A,SINGH P K,CHANDRA R,et al.SMOTified-GAN for class imbalanced pattern classification problems[J].IEEE Access,2022,10:30655-30665.
[15]WANG Zhengwei,SHE Qi,WARD T E.Generative adversarial networks in computer vision:A survey and taxonomy[J].ACM Computing Surveys,2021,54(2):3439723.https://doi.org/10.1145/3439723.
[16]朱曉慧,錢麗萍,傅偉.基于GAN的網(wǎng)絡(luò)安全數(shù)據(jù)增強研究綜述與展望[J].計算機應(yīng)用與軟件,2022,39(11):288-296.
ZHU Xiaohui,QIAN Liping,F(xiàn)U Wei.Review and prospect of data enhancement in network security based on GAN[J].Computer Applications and Software,2022,39(11):288-296.
[17]PAN S J,YANG Qiang.A survey on transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.
[18]LEE S,KIM J,LEE G,et al.Prediction of aquatic ecosystem health indices through machine learning models using the WGAN-based data augmentation method[J].Sustainability,2021,13(18):10435-10454.
[19]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal:MIT Press,2014,2:2672-2680.
[20]王志強,于雪瑩,楊曉婧,等.基于WGAN和MCA-MobileNet的番茄葉片病害識別[J].農(nóng)業(yè)機械學(xué)報,2023,54(5):244-252.
WANG Zhiqiang,YU Xueying,YANG Xiaojing,et al.Tomato leaf diseases recognition based on WGAN and MCA-MobileNet[J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(5):244-252.
[21]HE Haibo,BAI Yang,GARCIA E A,et al.ADASYN:Adaptive synthetic sampling approach for imbalanced learning[C]//2008 IEEE International Joint Conference on Neural Networks(IEEE World Congress on Computational Intelligence).Hong Kong:IEEE,2008:1322-1328.