基于改進(jìn)SMOTE自適應(yīng)集成的信用風(fēng)險(xiǎn)評(píng)估模型

2022-08-16 07:02:08于勤麗于海征

重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)) 2022年7期

于勤麗，于海征

(新疆大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院，烏魯木齊 830000)

0 引言

隨著大數(shù)據(jù)相關(guān)技術(shù)在金融行業(yè)的應(yīng)用與普及，各種基于創(chuàng)新模式的互聯(lián)網(wǎng)金融產(chǎn)品得以真正落地和大范圍推廣。作為互聯(lián)網(wǎng)金融的重要技術(shù)應(yīng)用，基于大數(shù)據(jù)的信用評(píng)估在消除潛在風(fēng)險(xiǎn)中發(fā)揮著巨大的作用。在此背景下，如何借助數(shù)據(jù)手段對(duì)違約用戶進(jìn)行高效、準(zhǔn)確的識(shí)別，從而更好地規(guī)避風(fēng)險(xiǎn)，是要探討的核心問(wèn)題。

在數(shù)據(jù)層面對(duì)不平衡數(shù)據(jù)處理主要是通過(guò)重采樣方法[1-3]。重采樣按照采樣方式大致可分為三大類，分別為過(guò)采樣、欠采樣和混合采樣。Chawla等[4]在2002年提出SMOTE(synthetic minority over-sampling)過(guò)采樣方法，該算法合成的少數(shù)類樣本是通過(guò)在少數(shù)類樣本和其近鄰樣本之間的隨機(jī)插值得到的。SMOTE采樣有效緩解了隨機(jī)過(guò)采樣方法重復(fù)增加相同樣本的缺點(diǎn)，但合成的樣本不可避免的在少數(shù)類樣本聚集處合成更多的新樣本。Han等[5]在2005年提出了Borderline-SMOTE算法，該算法是在生成新樣本的過(guò)程中只針對(duì)危險(xiǎn)樣本進(jìn)行過(guò)采樣以增強(qiáng)分類邊界，從而減少噪聲樣本的數(shù)量，Borderline-SMOTE算法相比于SMOTE算法考慮了邊界樣本學(xué)習(xí)困難的特點(diǎn)。He等[6]在2008年提出自適應(yīng)過(guò)采樣(adaptive synthetic sampling approach，ADASYN)算法，ADASYN算法與SMOTE算法不同，后者對(duì)每個(gè)少數(shù)類樣本生成相同數(shù)量的新樣本，而ADASYN是根據(jù)數(shù)據(jù)集特點(diǎn)自動(dòng)決定每個(gè)少數(shù)類樣本生成的新樣本數(shù)量，該算法考慮了與多數(shù)類距離很近的少數(shù)類樣本，并通過(guò)合成更多處于邊界位置的樣本來(lái)提高模糊樣本的分類準(zhǔn)確率，以實(shí)現(xiàn)提高分類精度的目的。SMOTE-D過(guò)采樣方法是Torres等[7]在2016年提出來(lái)的，通過(guò)估算少數(shù)類樣本的離散度(基于距離的標(biāo)準(zhǔn)偏差)，以確定少數(shù)類中的每個(gè)樣本周圍應(yīng)生成多少個(gè)樣本，以及在每個(gè)樣本和近鄰樣本之間應(yīng)創(chuàng)建多少個(gè)樣本。SMOTE-D是SMOTE的確定性版本，在數(shù)據(jù)集的不平衡率小于0.1時(shí)，性能要優(yōu)于SMOTE 算法。王亮等[8]在2020年提出DB-MCSMOTE算法，該算法先對(duì)少數(shù)類樣本進(jìn)行DBSCAN聚類，然后在各個(gè)簇中進(jìn)行采樣。張家偉等[9]在2020年提出了一種過(guò)采樣方法，通過(guò)確定每個(gè)樣本的相對(duì)位置，然后根據(jù)樣本權(quán)值決定生成的樣本數(shù)量。該算法緩解了ADASYN算法過(guò)于關(guān)注模糊樣本的缺點(diǎn)。

信用風(fēng)險(xiǎn)評(píng)估模型是基于數(shù)據(jù)構(gòu)建模型來(lái)提高違約用戶的識(shí)別率，從而減少企業(yè)的資金損失。Wiginton[10]在1980年提出建立基于Logistic回歸算法的信用風(fēng)險(xiǎn)評(píng)估模型，該模型通過(guò)與傳統(tǒng)線性判別作對(duì)比發(fā)現(xiàn)，Logistic準(zhǔn)確性更高，實(shí)用性更強(qiáng)。丁嵐等[11]在2017年基于Stacking集成模型對(duì)網(wǎng)貸違約狀況進(jìn)行了預(yù)測(cè)，并利用人人貸數(shù)據(jù)做了實(shí)證分析，發(fā)現(xiàn)所建模型能顯著降低一類和二類錯(cuò)誤概率。Han等[12]在2005年提出了基于Stacking的信用風(fēng)險(xiǎn)評(píng)估模型，將XGBoost基分類器的訓(xùn)練結(jié)果作為第二層的輸入特征之一，元分類器是Logistic模型，模型第一層使用了交叉驗(yàn)證防止過(guò)擬合現(xiàn)象的出現(xiàn)。He等[13]在2018年提出了基于數(shù)據(jù)集不平衡率的集成模型，選擇的基分類器是隨機(jī)森林和XGBoost模型，并用粒子群算法對(duì)基模型進(jìn)行參數(shù)優(yōu)化。Guo等[14]在2019年建立了多階段自適應(yīng)分類器集成模型，所提出的模型可以分為3個(gè)主要階段，并通過(guò)粒子群算法進(jìn)行參數(shù)優(yōu)化，提高了模型的調(diào)參效率。與單個(gè)分類器和其他集成分類方法相比，該模型具有更好的性能和更好的數(shù)據(jù)適應(yīng)性，為相關(guān)金融機(jī)構(gòu)提供了有效的決策支持。Abhijeet等[15]在2019年提出了兩級(jí)信用風(fēng)險(xiǎn)評(píng)估模型，其基本思想是用第一級(jí)分類器選擇出異常的信用卡用戶，后將異常值在支持向量機(jī)上進(jìn)行二次訓(xùn)練。兩級(jí)數(shù)據(jù)挖掘模型是以最大限度減少誤判為前提，其準(zhǔn)確率較高，但訓(xùn)練過(guò)程相對(duì)比較復(fù)雜。

綜上所述，利用過(guò)采樣方法在模型訓(xùn)練之前進(jìn)行平衡化處理是改善不平衡數(shù)據(jù)分類性能的重要方法，同時(shí)基于集成模型構(gòu)建的信用風(fēng)險(xiǎn)評(píng)估模型可提高少數(shù)違約樣本的識(shí)別率。

主要的研究工作如下:

1)針對(duì) SMOTE 等過(guò)采樣方法對(duì)每個(gè)少數(shù)類合成相同數(shù)量新樣本以及合成邊界噪聲樣本的缺點(diǎn)，提出改進(jìn)的 SMOTE 過(guò)采樣方法。首先根據(jù)每個(gè)少數(shù)類樣本所處的位置來(lái)確定樣本的質(zhì)量；然后根據(jù)分類樣本的質(zhì)量計(jì)算其生成的新樣本數(shù)；最后對(duì)生成新樣本的位置做了調(diào)整，通過(guò)在近鄰樣本和類中心之間進(jìn)行插值，實(shí)現(xiàn)新樣本位置向類中心遷移，避免在分類模糊區(qū)域合成新樣本。

2)根據(jù)數(shù)據(jù)集的特點(diǎn)自適應(yīng)的為信用風(fēng)險(xiǎn)評(píng)估模型選擇準(zhǔn)確率高且互補(bǔ)性強(qiáng)的最佳基分類器，并使用最佳基分類器構(gòu)建Stacking集成模型。

3)在模型驗(yàn)證方面，分別進(jìn)行了兩大類實(shí)驗(yàn)。第一類是SMOTE過(guò)采樣和改進(jìn)的SMOTE過(guò)采樣方法在Stacking模型下的對(duì)比，結(jié)果顯示，改進(jìn)的 SMOTE過(guò)采樣方法生成的少數(shù)類樣本質(zhì)量更高。第二類實(shí)驗(yàn)是針對(duì)不同基分類器構(gòu)建的Stacking 模型，結(jié)果顯示JC指標(biāo)挑選出的基分類器所構(gòu)成的Stacking集成模型性能更優(yōu)。

1 理論知識(shí)

1.1 SMOTE算法

SMOTE是一種合成少數(shù)類樣本的算法，具體思想是根據(jù)不平衡數(shù)據(jù)集的不平衡率確定采樣率，然后根據(jù)插值公式合成新樣本，具體過(guò)程如下：

步驟1根據(jù)數(shù)據(jù)集的不平衡率設(shè)置采樣率;

步驟2確定少數(shù)類樣本xi的k個(gè)近鄰樣本xij;

步驟3在樣本xi和其k個(gè)近鄰樣本xij之間進(jìn)行隨機(jī)線性插值，插值公式如下：

xnew=xi+(xi-xij)*rand(0，1)

(1)

1.2 ADASYN算法

ADASYN算法的基本思想是根據(jù)少數(shù)類樣本周圍多數(shù)類樣本的數(shù)量決定每個(gè)少數(shù)類樣本合成的新樣本數(shù)量。

步驟2計(jì)算合成的新樣本總數(shù)N：

N=d×α，α∈[0，1]

(2)

步驟3根據(jù)歐氏距離計(jì)算少數(shù)類樣本xi的K個(gè)近鄰樣本xij，并計(jì)算每個(gè)少數(shù)類樣本的γi:

(3)

其中:Δi表示K個(gè)近鄰樣本中的多數(shù)類樣本數(shù)；

步驟5計(jì)算每個(gè)少數(shù)類樣本合成的樣本數(shù)量：

(4)

步驟6根據(jù)插值公式生成新樣本。

1.3 Stacking集成模型介紹

Stacking模型由兩層組成，第一層模型稱為基模型，第二層模型稱為元模型[16]。Stacking集成模型的思想是，組合多個(gè)基分類器的輸出結(jié)果，并將其作為第二層元分類器的輸入，以得到一個(gè)更好的輸出結(jié)果。

Stacking集成模型的第一層基模型最好是強(qiáng)模型，也就是在選擇基模型的時(shí)候盡量滿足準(zhǔn)確率高且模型差距大，這樣既能保證模型的準(zhǔn)確率，又能通過(guò)不同的基模型來(lái)提高模型的泛化性能。為了避免過(guò)擬合問(wèn)題，可選用簡(jiǎn)單分類器作為第二層的元模型。如果直接使用基模型產(chǎn)生的輸出作為元分類器的訓(xùn)練集，會(huì)加大過(guò)擬合風(fēng)險(xiǎn)。因此，一般使用K折交叉驗(yàn)證來(lái)產(chǎn)生元分類器的訓(xùn)練集。

以5折交叉驗(yàn)證為例來(lái)說(shuō)明，首先將初始訓(xùn)練集分成5折，基分類器在前4折數(shù)據(jù)上進(jìn)行訓(xùn)練，并在剩下的一折上進(jìn)行預(yù)測(cè)，保證每一折數(shù)據(jù)都做了一次預(yù)測(cè)數(shù)據(jù)集，然后將預(yù)測(cè)結(jié)果拼在一起，得到元分類器訓(xùn)練集的一個(gè)特征，依此循環(huán)將每個(gè)基分類器的預(yù)測(cè)結(jié)果拼接，最終得到的元分類器訓(xùn)練集的維數(shù)跟基分類器的維數(shù)相等。

2 改進(jìn)的SMOTE過(guò)采樣方法

傳統(tǒng)的SMOTE過(guò)采樣方法不考慮數(shù)據(jù)集的分布，每個(gè)少數(shù)類合成相同數(shù)量的新樣本。這會(huì)導(dǎo)致新合成樣本聚集在少數(shù)類樣本聚集的位置。再加上SMOTE過(guò)采樣方法未考慮少數(shù)類樣本的質(zhì)量，不可避免地引入過(guò)多噪聲樣本，給后期的模型訓(xùn)練帶來(lái)麻煩。針對(duì)SMOTE過(guò)采樣方法的缺點(diǎn)，提出了一種改進(jìn)的SMOTE過(guò)采樣方法，它根據(jù)數(shù)據(jù)集的分布決定每個(gè)少數(shù)類樣本合成的樣本數(shù)，并通過(guò)遷移式插值減少噪聲樣本的生成。

2.1 計(jì)算新生成樣本數(shù)步驟

設(shè)訓(xùn)練樣本集為T={(x1，y1)，…，(xn，yn)}，每個(gè)樣本有p個(gè)特征，其中少數(shù)類樣本數(shù)為n1，多數(shù)類樣本數(shù)為n2。

輸入：訓(xùn)練集T；

輸出：每個(gè)少數(shù)類樣本生成的新樣本數(shù)量；

Step 1：計(jì)算需要合成的少數(shù)類樣本數(shù)N：

N=(n2-n1)*α，α∈[0，1]

(5)

Step 2：計(jì)算少數(shù)類樣本的類中心xcenter1和多數(shù)類樣本的類中心xcenter2的公式為：

(6)

Step 3：計(jì)算Di：

(7)

Step 4：歸一化處理：

(8)

2.2 改進(jìn)的SMOTE過(guò)采樣算法步驟

設(shè)訓(xùn)練集為T={(x1，y1)，…，(xn，yn)}，y=(0，1)。其中，少數(shù)類樣本集為T1={(x1，y1)，…，(xn1，yn1)}，多數(shù)類樣本集為T2={(x1，y1)，…，(xn2，yn2)}。

輸入：合成的樣本數(shù)量Mi，少數(shù)類樣本集T1；

輸出：新合成的少數(shù)類樣本集Tnew；

Step 1：對(duì)第i個(gè)少數(shù)類樣本數(shù)量xi，選擇其Mi個(gè)k近鄰樣本xij，j=1，2，…，k；

Step 2：對(duì)Mi個(gè)近鄰樣本按照合成公式生成新樣本xnew：

xnew=xij+(xij-xcenter1)×rand(0，1)

(9)

Step 3：將生成的新樣本xnew加入少數(shù)類樣本集T1中，得到新的少數(shù)類樣本集Tnew。

合成新樣本的過(guò)程如圖1所示，通過(guò)在少數(shù)類中心跟xi的近鄰樣本之間進(jìn)行隨機(jī)插值產(chǎn)生。

圖1 合成少數(shù)類樣本的插值過(guò)程示意圖

2.3 評(píng)價(jià)指標(biāo)

混淆矩陣是機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測(cè)結(jié)果的表格，其中行表示預(yù)測(cè)值，列表示真實(shí)值，以二分類為例，混淆矩陣元素如表1所示。

表1 混淆矩陣元素

基于混淆矩陣還可以產(chǎn)生很多指標(biāo)，選用其中的AUC、accuracy和f1-score作為分類器性能的評(píng)價(jià)指標(biāo)。AUC值是roc曲線下方的面積，AUC值不會(huì)隨著類別分布的改變而改變，更好地反映不平衡數(shù)據(jù)的分類效果。AUC值越接近于1，分類效果越好。accuracy和f1-score的定義如下:

(10)

(11)

accuracy表示預(yù)測(cè)正確的樣本數(shù)占樣本總數(shù)的比例，是分類問(wèn)題中最簡(jiǎn)單直觀的評(píng)價(jià)指標(biāo)。f1-score指標(biāo)綜合考慮了precision與recall。只有二者表現(xiàn)都很好時(shí)，f1-score值才大，才能對(duì)不平衡數(shù)據(jù)做出更合理的評(píng)價(jià)。

2.4 數(shù)據(jù)集

使用了UCI數(shù)據(jù)庫(kù)的9個(gè)數(shù)據(jù)集對(duì)算法的有效性做出驗(yàn)證，表2描述了每個(gè)數(shù)據(jù)集的詳細(xì)信息，即數(shù)據(jù)集的特征數(shù)、少數(shù)類樣本數(shù)、多數(shù)類樣本數(shù)和不平衡率。

表2 實(shí)驗(yàn)中使用的數(shù)據(jù)集

2.5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

為驗(yàn)證本節(jié)改進(jìn)的SMOTE算法的有效性，分別對(duì)9個(gè)數(shù)據(jù)集做SMOTE、Borderline-SMOTE和ADASYN平衡化處理，并對(duì)處理后的數(shù)據(jù)進(jìn)行隨機(jī)森林(RF)訓(xùn)練。對(duì)有多個(gè)類別的數(shù)據(jù)集，選擇其中一類為少數(shù)類，其余剩下的所有樣本作為多數(shù)類，訓(xùn)練集和測(cè)試集的樣本數(shù)比例為7∶3。對(duì)比采用方法為SMOTE、Borderline-SMOTE和ADASYN采樣方法，用Python現(xiàn)有的工具包，本文算法用Python編程實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果見(jiàn)表3，表中AUC、accuracy和f1-score的最優(yōu)值用加黑粗體表示。通過(guò)實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論：

表3 隨機(jī)森林分類器實(shí)驗(yàn)結(jié)果

1)Vehicle和Ionosphere數(shù)據(jù)集維度高，Blood、CMC和Diabetes數(shù)據(jù)集維度相對(duì)較小，經(jīng)過(guò)采樣后，隨機(jī)森林分類器在不同維度的數(shù)據(jù)集上分類情況并沒(méi)有明顯差別，可見(jiàn)維度對(duì)本文算法合成新樣本的質(zhì)量影響不大，可以提高少數(shù)類樣本和整體樣本的分類性能。

2)在Blood、Diabetes、Ionosphere和CMC數(shù)據(jù)集上本文算法性能較好，尤其是在Blood數(shù)據(jù)集上，隨機(jī)森林分類器在AUC、f1-score和accuracy這3個(gè)指標(biāo)上都達(dá)到了最優(yōu)。而以上幾個(gè)數(shù)據(jù)集相比于其他數(shù)據(jù)集，不同類別之間分布更加均衡，合成樣本時(shí)引入噪聲樣本少，進(jìn)而后續(xù)模型的訓(xùn)練準(zhǔn)確率較高。但是在Vowel數(shù)據(jù)集上，本文算法在隨機(jī)森林分類器上的訓(xùn)練結(jié)果沒(méi)有明顯提升，推測(cè)這與Vowel數(shù)據(jù)集不平衡率過(guò)高有關(guān)。

3 自適應(yīng)集成的信用風(fēng)險(xiǎn)評(píng)估模型

3.1 自適應(yīng)集成的信用風(fēng)險(xiǎn)評(píng)估模型

Stacking模型在實(shí)際應(yīng)用中表現(xiàn)出很高的模型性能，但是仍有不足之處。利用K折交叉驗(yàn)證法在一定程度上能解決Stacking算法直接使用初級(jí)學(xué)習(xí)器預(yù)測(cè)結(jié)果作為訓(xùn)練集[17-19]所帶來(lái)的模型過(guò)擬合問(wèn)題。如果基模型之間差異太小，很難保證模型最終的泛化性能。因此，為最大程度提高模型的準(zhǔn)確率和泛化性能，提出在模型訓(xùn)練之前，根據(jù)數(shù)據(jù)的特點(diǎn)為模型自適應(yīng)的選擇基模型，選擇的基模型既要保證準(zhǔn)確率，又要存在一定的差異性。

Jaccard系數(shù)用來(lái)比較樣本集之間的相似性與差異性，在實(shí)際應(yīng)用中，可用來(lái)比較布爾值屬性對(duì)象之間的距離，Jaccard系數(shù)越大，兩集合的相似度越高，反之越小。Jaccard系數(shù)定義為：

(12)

其中:A表示A集合，B表示B集合。

Jaccard距離是Jaccard系數(shù)的相反定義，Jaccard 距離越大，集合之間樣本的相似度越低，用公式表示為：

(13)

余弦相似度度量可用來(lái)衡量2個(gè)對(duì)象之間的相似程度，余弦值越小，說(shuō)明相似度越大，定義如下：

(14)

余弦相似度與歐式距離相比，從空間方向上對(duì)2個(gè)對(duì)象進(jìn)行了區(qū)分，余弦相似度對(duì)絕對(duì)數(shù)值并不敏感，這正好與集合僅有0和1數(shù)值相契合。

Jaccard系數(shù)[20]這個(gè)指標(biāo)的計(jì)算效率較高。通過(guò)組合Jaccard距離和余弦相似度來(lái)得到模型差異性度量指標(biāo)，稱其為JC指標(biāo)，其中集合表示的是負(fù)類樣本分類結(jié)果的集合。

JC=J(A，B)*cos(θ)

(15)

在模型訓(xùn)練之前，首先根據(jù)給定閾值，把準(zhǔn)確率超過(guò)給定閾值的分類器保留下來(lái)，然后根據(jù)分類器之間的差異性度量也就是JC指標(biāo)來(lái)選擇基分類器。由于不同分類器在不同數(shù)據(jù)集上的表現(xiàn)不同，分類準(zhǔn)確率差距較大，閾值的確定要根據(jù)不同數(shù)據(jù)的實(shí)際情況來(lái)考慮，金融背景之下的數(shù)據(jù)經(jīng)過(guò)平衡化處理后在不同模型上的訓(xùn)練準(zhǔn)確率較高，在3.3.2節(jié)中的給定閾值確定為0.85。

為了最大程度保證基分類器的差異性，在第二階段要選擇相似度最小的組合，然后再?gòu)钠溆辔幢贿x中的分類器集合中依次挑選分類器計(jì)算其相似度值，直到循環(huán)結(jié)束?；谀Ｐ筒町愋赃x擇的Stacking的算法流程見(jiàn)圖2。

圖2 Stacking算法流程框圖

基于模型差異性選擇的Stacking模型算法步驟如下:

設(shè)訓(xùn)練樣本集為T={(x1，y1)，…，(xn，yn)}，備選分類器為L(zhǎng)1，L2，…，Lm。

輸入：訓(xùn)練集T和備選分類器L1，L2，…，Lm；

輸出：基于模型差異性選擇的Stacking模型；

Step 1：在訓(xùn)練集T上訓(xùn)練m個(gè)備選分類器Li；

Step 2：計(jì)算m個(gè)備選分類器的準(zhǔn)確率，將準(zhǔn)確率高于給定閾值的備選分類器挑選出來(lái)；

Step 3：計(jì)算第一層所挑選分類器的JC指標(biāo)，根據(jù)JC指標(biāo)的值將差異度大的分類器作為基分類器，挑選出來(lái)的基分類器為為L(zhǎng)1，L2，…，Lt；

Step 4：利用K折交叉驗(yàn)證訓(xùn)練基模型為L(zhǎng)1，L2，…，Lt，并得到第二層元分類器的輸入數(shù)據(jù)T′，T′用于下一步元分類器的訓(xùn)練；

Step 5：在輸入數(shù)據(jù)T′上訓(xùn)練元分類器，得到最終模型。

3.2 數(shù)據(jù)集

本節(jié)采用Lending Club官網(wǎng)上的數(shù)據(jù)做實(shí)證分析，數(shù)據(jù)取自2019年第一季度，數(shù)據(jù)集中包含 115 675條樣本，每個(gè)樣本有150維特征，其中 loan-status為目標(biāo)變量，本節(jié)是利用其他變量對(duì)目標(biāo)變量情況做出預(yù)測(cè)，來(lái)決定樣本是否能獲得貸款。2.5節(jié)使用的9個(gè)數(shù)據(jù)集作為不平衡數(shù)據(jù)來(lái)驗(yàn)證改進(jìn)的SMOTE算法的有效性，非信用風(fēng)險(xiǎn)方面的數(shù)據(jù)，不參與本節(jié)信用風(fēng)險(xiǎn)評(píng)估模型的驗(yàn)證。

在Lending Club原始數(shù)據(jù)集中，loan-status 有7種狀態(tài)，其具體含義如表4所示。將其中的fully paid狀態(tài)、current狀態(tài)作為正常用戶，其他狀態(tài)作為違約用戶。

表4 Loan-status的狀態(tài)及含義

3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

先對(duì)Lending Club原始數(shù)據(jù)做了預(yù)處理，對(duì)缺失數(shù)據(jù)根據(jù)缺失情況進(jìn)行了相應(yīng)處理，并進(jìn)行兩次特征選擇，以最大化選擇有效特征。

根據(jù)缺失數(shù)據(jù)的比例以及變量的重要性分別采用了刪除法與填補(bǔ)法處理缺失值。對(duì)無(wú)意義特征和觀測(cè)值相同的特征直接對(duì)其刪除，由于特征缺失過(guò)多的數(shù)據(jù)所含信息過(guò)少，經(jīng)過(guò)缺失值填補(bǔ)也會(huì)帶來(lái)誤差等問(wèn)題，直接刪除了缺失率大于50%的特征。對(duì)于缺失值大于等于8個(gè)特征的樣本，也采用刪除法直接剔除樣本，共刪除了85個(gè)樣本。經(jīng)過(guò)缺失值刪除和無(wú)關(guān)變量剔除之后，數(shù)據(jù)集還包含 115 590個(gè)樣本和83維特征，其中13個(gè)特征包含缺失數(shù)據(jù)，對(duì)這些數(shù)據(jù)進(jìn)行缺失值填補(bǔ)。

特征選擇采用了遞歸式特征消除，遞歸消除特征后挑選了40個(gè)特征。由于較多的變量可能會(huì)帶來(lái)冗余信息，第二次特征選擇采用主成分分析以實(shí)現(xiàn)最大程度減少信息冗余，提高模型的訓(xùn)練效率。

預(yù)處理后的數(shù)據(jù)集包含115 590條樣本，特征維數(shù)為30，多數(shù)類樣本數(shù)為106 715，少數(shù)類樣本數(shù)為8 875，數(shù)據(jù)的不平衡率為0.083 2，屬于較為嚴(yán)重的不平衡數(shù)據(jù)。

3.3.1過(guò)采樣技術(shù)在Stacking分類算法下的比較

為了控制SMOTE過(guò)采樣和改進(jìn)的SMOTE過(guò)采樣，對(duì)比實(shí)驗(yàn)的其他變量，更好地比較2種采樣算法，這里把SMOTE和改進(jìn)的SMOTE算法的采樣倍數(shù)都設(shè)為1，SMOTE過(guò)采樣后少數(shù)類和多數(shù)類的樣本數(shù)都是106 715，改進(jìn)的SMOTE過(guò)采樣方法生成的少數(shù)類樣本數(shù)為97 854。

Stacking模型的第一層基模型選用了樸素貝葉斯、決策樹、邏輯回歸，第二層元分類器選擇邏輯回歸。決策樹采用CART算法，max-depth樹最大深度設(shè)為39，max-leaf-nodes最大葉子節(jié)點(diǎn)數(shù)為30，邏輯回歸的penalty正則化項(xiàng)默認(rèn)為L(zhǎng)2正則化項(xiàng)，正則化系數(shù)的倒數(shù)、迭代終止閾值等設(shè)為默認(rèn)值，在SMOTE過(guò)采樣和改進(jìn)的SMOTE過(guò)采樣后的數(shù)據(jù)上進(jìn)行模型訓(xùn)練，模型訓(xùn)練過(guò)程中保持模型參數(shù)設(shè)置一致，模型訓(xùn)練結(jié)果如表5所示。

表5 不同過(guò)采樣算法模型訓(xùn)練結(jié)果

改進(jìn)的 SMOTE 過(guò)采樣算法處理后的數(shù)據(jù)在 Stacking模型上的訓(xùn)練效果整體要優(yōu)于SMOTE 過(guò)采樣處理的數(shù)據(jù)，在accuracy、f1-score和AUC值上表現(xiàn)要優(yōu)于SMOTE過(guò)采樣算法。

3.3.2改進(jìn)的SMOTE與基于模型差異性選擇的 Stacking模型

為了挑選出更適合構(gòu)建Stacking模型的基分類器，在3.3.1節(jié)實(shí)驗(yàn)所用的基分類器基礎(chǔ)之上又加入了3個(gè)模型，這樣基分類器池中就有了6個(gè)基分類器，分別為KNN、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯、決策樹和邏輯回歸模型。為了提高模型的訓(xùn)練效率，在這里隨機(jī)抽取了30%的數(shù)據(jù)。

下面先單獨(dú)訓(xùn)練6個(gè)基分類器，表6展示了6個(gè)模型的訓(xùn)練結(jié)果，可看出樸素貝葉斯的分類效果不如其他分類器，而隨機(jī)森林模型分類效果明顯優(yōu)于其他模型。這與隨機(jī)森林利用多個(gè)決策樹共同分類決策密不可分。同時(shí)，隨機(jī)森林因多棵決策樹對(duì)多樣性的保證提高了模型的泛化性能，因而分類效果要好于其他分類器。

表6 基模型訓(xùn)練結(jié)果

基于模型差異性選擇的Stacking模型首先剔除在Lending Club數(shù)據(jù)集上分類情況較差的基分類器，根據(jù)實(shí)驗(yàn)結(jié)果是將樸素貝葉斯和決策樹模型從基分類池中移除，根據(jù)JC指標(biāo)挑選出的基分類器模型為KNN、隨機(jī)森林、支持向量機(jī)，同時(shí)為了減少過(guò)擬合，集成所用的元分類器為邏輯回歸模型，最后模型的訓(xùn)練結(jié)果如表7所示。

表7 基于模型差異性選擇的Stacking模型訓(xùn)練結(jié)果

為了更好地展示基于模型差異性選擇基分類器對(duì)Stacking整體模型的訓(xùn)練效果，下面將其與其他基分類器構(gòu)建的Stacking進(jìn)行對(duì)比實(shí)驗(yàn)，參數(shù)保持不變，只改變基分類器。對(duì)比實(shí)驗(yàn)所用的兩組基分類器分別為KNN、邏輯回歸和隨機(jī)森林，邏輯回歸、隨機(jī)森林和支持向量機(jī)。以KNN、邏輯回歸和隨機(jī)森林為基分類器構(gòu)造的Stacking模型記為Stacking 1，以邏輯回歸、隨機(jī)森林和支持向量機(jī)為基分類器構(gòu)造的Stacking模型記為Stacking 2，根據(jù)JC指標(biāo)挑選的基分類器構(gòu)造的模型記為Stacking 3。

實(shí)驗(yàn)結(jié)果如表8所示，圖中用黑色加粗標(biāo)記同一指標(biāo)下性能好的模型，Stacking 2模型在recall指標(biāo)下的性能要優(yōu)于Stacking 3模型，Stacking 3模型在accuracy、f1-score和AUC值上的表現(xiàn)要好于Stacking 1和Stacking 2模型，f1-score綜合了recall與precision這2個(gè)指標(biāo)，更具有說(shuō)服力?；诸惼鞒刂刑蕹诸惽闆r較差的基分類器保證了構(gòu)成集成模型的基模型的準(zhǔn)確率，同時(shí)根據(jù)JC指標(biāo)挑選出的基分類器模型減少了過(guò)擬合現(xiàn)象。因此，實(shí)驗(yàn)結(jié)果表明根據(jù)JC指標(biāo)挑選的基分類器對(duì)構(gòu)建Stacking模型具有參考價(jià)值。

表8 3種Stacking模型實(shí)驗(yàn)結(jié)果

4 結(jié)論

基于SMOTE過(guò)采樣和自適應(yīng)集成模型對(duì)不平衡數(shù)據(jù)做出合理的分類預(yù)測(cè)將會(huì)給金融行業(yè)帶來(lái)商業(yè)價(jià)值。不僅能幫助金融行業(yè)減少違約、欺詐用戶帶來(lái)的經(jīng)濟(jì)損失，還有助于留住行業(yè)內(nèi)的正常用戶，能有效提高行業(yè)競(jìng)爭(zhēng)力。

在Lending Club數(shù)據(jù)集的實(shí)證分析中，改進(jìn)的 SMOTE過(guò)采樣方法處理后的平衡化數(shù)據(jù)在后期模型訓(xùn)練上表現(xiàn)優(yōu)異，同時(shí)基于JC指標(biāo)選擇的基分類器在Stacking模型構(gòu)建方面性能高。但改進(jìn)的SMOTE過(guò)采樣算法在不平衡程度過(guò)高的數(shù)據(jù)集上合成的新樣本不能很好地遵循數(shù)據(jù)的原始分布，分類準(zhǔn)確率提升效果一般，后期有待改進(jìn)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看