優(yōu)化的代價(jià)敏感隨機(jī)森林算法設(shè)計(jì)研究

2021-12-06 07:42:14任宇軒

科學(xué)與生活 2021年24期

任宇軒

摘要：代價(jià)敏感隨機(jī)森林算法是解決不平衡數(shù)據(jù)分析的一種典型方法，在許多領(lǐng)域應(yīng)用廣泛，但其存在著兩個(gè)不足一是構(gòu)造代價(jià)函數(shù)時(shí)未考慮樣本分布情況，二是對(duì)于數(shù)據(jù)集內(nèi)的所有特征其距離計(jì)算過程相同，未突出重要特征。為解決上述問題，本文提出了一種優(yōu)化方法根據(jù)樣本分布情況構(gòu)造代價(jià)因子，并引入權(quán)重距離，以提升算法性能。

關(guān)鍵詞：隨機(jī)森林;代價(jià)敏感;不平衡數(shù)據(jù)

1代價(jià)敏感學(xué)習(xí)

在處理不平衡數(shù)據(jù)時(shí)，由于多數(shù)類樣本與少數(shù)類樣本數(shù)量相差巨大，會(huì)導(dǎo)致學(xué)習(xí)結(jié)果出現(xiàn)偏差，生成的分類器會(huì)完全偏向于多數(shù)類。如樣本空間為1000的數(shù)據(jù)集，為二分類，其中多數(shù)類樣本995個(gè)，少數(shù)類樣本5個(gè)，那么分類器在對(duì)待新樣本時(shí)，只需要將其機(jī)械的分為多數(shù)類，其準(zhǔn)確率也在99.5%左右。而這種分類方法卻遠(yuǎn)不同于我們的需求，往往我們希望分類器能夠更加準(zhǔn)確的分出少數(shù)類。如醫(yī)院在診斷癌癥患病者時(shí)、銀行在判斷貸款有無壞賬風(fēng)險(xiǎn)時(shí)等。

代價(jià)敏感的學(xué)習(xí)方法就是對(duì)分類器設(shè)置分類錯(cuò)誤時(shí)的代價(jià)，如下表所示，其中表示少數(shù)類，表示多數(shù)類，表示將a分為b需要付出的代價(jià)。

之后采用貝葉斯定理構(gòu)建風(fēng)險(xiǎn)函數(shù)，如式（1）所示：

2優(yōu)化的代價(jià)敏感隨機(jī)森林算法設(shè)計(jì)

通過將代價(jià)矩陣引入到隨機(jī)森林中，起到準(zhǔn)確處理不平衡數(shù)據(jù)的效果，但代價(jià)矩陣構(gòu)造的準(zhǔn)確程度將直接影響分類準(zhǔn)確度，且傳統(tǒng)的代價(jià)敏感隨機(jī)森林方法使用歐式距離計(jì)算樣本距離，但在樣本空間中特征的重要程度不同，僅通過計(jì)算歐氏距離構(gòu)造的代價(jià)矩陣分類性能較差。本文選用的方法根據(jù)樣本實(shí)際分布情況，產(chǎn)生代價(jià)因子，并將樣本集的權(quán)重距離結(jié)合到代價(jià)函數(shù)的計(jì)算過程之中。

首先計(jì)算多數(shù)類、少數(shù)類與整個(gè)數(shù)據(jù)集的數(shù)據(jù)中心之間的距離，通過計(jì)算每個(gè)特征的算術(shù)平均值，設(shè)數(shù)據(jù)集的每一行代表一個(gè)樣本，每一列代表一個(gè)屬性，如：

然后需要計(jì)算各類樣本中心到數(shù)據(jù)集中心的權(quán)重距離，在數(shù)據(jù)集中，重要特征相對(duì)較少，計(jì)算類別中心到整個(gè)數(shù)據(jù)集中心的歐式距離構(gòu)造代價(jià)對(duì)重要特征不公平，本算法引入權(quán)重距離，利用信息增益衡量每個(gè)特征在不同類別中的重要性，如下式所示

第三步，設(shè)多數(shù)類，少數(shù)類，其中樣本數(shù)分別為，能夠定義系數(shù)如下：

最后，設(shè)d表示權(quán)重距離，可得到代價(jià)函數(shù)如下：

算法基分類器組合階段，針對(duì)不平衡數(shù)據(jù)，每棵決策樹使用?AUC 值進(jìn)行性能的在評(píng)估，利用?AUC?值對(duì)數(shù)據(jù)進(jìn)行加權(quán)投票，權(quán)重越大，說明該基分類器性能較好，在最后決策階段占的權(quán)重越大，對(duì)于分類性能差的，權(quán)重越小，對(duì)結(jié)果的影響就小。最后隨機(jī)森林分類器的輸出為

3實(shí)驗(yàn)與分析

為驗(yàn)證方法準(zhǔn)確性，本文選取公開數(shù)據(jù)集UCI中的多組數(shù)據(jù)將其轉(zhuǎn)化調(diào)整為兩類不平衡數(shù)據(jù)，對(duì)決策樹（C4.5）、隨機(jī)森林分類器（RF）、傳統(tǒng)代價(jià)敏感隨機(jī)森林與選用的的優(yōu)化的代價(jià)敏感隨機(jī)森林算法進(jìn)行對(duì)比。

其中C4.5分類器算法比較直觀，實(shí)現(xiàn)簡單，但是容易對(duì)數(shù)據(jù)造成過擬合，特別當(dāng)特征較多時(shí)，訓(xùn)練的決策樹較復(fù)雜，且沒有考慮不平衡數(shù)據(jù)的特點(diǎn)，少數(shù)類性能很差。?隨機(jī)森林分類器的性能優(yōu)于傳統(tǒng)決策樹算法，但其同樣沒有對(duì)不平衡數(shù)據(jù)集針對(duì)學(xué)習(xí)，對(duì)少數(shù)類樣本的分類結(jié)果較差。而引入代價(jià)敏感的兩種算法可以較好地處理不平衡數(shù)據(jù)，在AUC性能上有了較大的提高，但是代價(jià)敏感的隨機(jī)森林算法忽略了不同代價(jià)類型在分類過程中的重要性，而優(yōu)化算法能夠?qū)⒉煌诸惸芰Φ幕诸惼饕?AUC?值賦予權(quán)重，有效避免了噪聲數(shù)據(jù)的干擾。實(shí)驗(yàn)結(jié)果表明，重新構(gòu)造代價(jià)函數(shù)、利用?AUC?值對(duì)樹進(jìn)行評(píng)價(jià)，對(duì)性能不同的樹區(qū)別對(duì)待對(duì)不平衡數(shù)據(jù)分類是有效的。

從上表中可以看出，雖然優(yōu)化算法需要稍高的運(yùn)算資源，且多數(shù)類精度有所下降，但其少數(shù)類精度提升明顯，符合我們?cè)O(shè)計(jì)分類器的需求。

4結(jié)語

不平衡數(shù)據(jù)集給數(shù)據(jù)分析工作帶來了較大的難處，本文選用的優(yōu)化的代價(jià)敏感隨機(jī)森林方法，能夠有效防止分類器盲目將新樣本歸為多數(shù)類，設(shè)計(jì)了更加合理的代價(jià)函數(shù)與結(jié)果生成方法，通過實(shí)驗(yàn)證明，該方法對(duì)于處理不平衡數(shù)據(jù)具有一定的意義。

參考文獻(xiàn)

[1]向鴻鑫，楊云.不平衡數(shù)據(jù)挖掘方法綜述[J].計(jì)算機(jī)工程與應(yīng)用，2019，55（04）：1-16.

[2]陳斌.?SMOTE不平衡數(shù)據(jù)過采樣算法的改進(jìn)與應(yīng)用[D].廣西大學(xué)，2015.

[3]馬驪.?隨機(jī)森林算法的優(yōu)化改進(jìn)研究[D].暨南大學(xué)，2016.

[4]陳圣靈，沈思淇，李東升.基于樣本權(quán)重更新的不平衡數(shù)據(jù)集成學(xué)習(xí)方法[J].計(jì)算機(jī)科學(xué)，2018，45（07）：31-37.