• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)SMOTE自適應(yīng)集成的信用風(fēng)險(xiǎn)評(píng)估模型

      2022-08-16 07:02:08于勤麗于海征
      關(guān)鍵詞:樣本數(shù)分類器準(zhǔn)確率

      于勤麗,于海征

      (新疆大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,烏魯木齊 830000)

      0 引言

      隨著大數(shù)據(jù)相關(guān)技術(shù)在金融行業(yè)的應(yīng)用與普及,各種基于創(chuàng)新模式的互聯(lián)網(wǎng)金融產(chǎn)品得以真正落地和大范圍推廣。作為互聯(lián)網(wǎng)金融的重要技術(shù)應(yīng)用,基于大數(shù)據(jù)的信用評(píng)估在消除潛在風(fēng)險(xiǎn)中發(fā)揮著巨大的作用。在此背景下,如何借助數(shù)據(jù)手段對(duì)違約用戶進(jìn)行高效、準(zhǔn)確的識(shí)別,從而更好地規(guī)避風(fēng)險(xiǎn),是要探討的核心問(wèn)題。

      在數(shù)據(jù)層面對(duì)不平衡數(shù)據(jù)處理主要是通過(guò)重采樣方法[1-3]。重采樣按照采樣方式大致可分為三大類,分別為過(guò)采樣、欠采樣和混合采樣。Chawla等[4]在2002年提出SMOTE(synthetic minority over-sampling)過(guò)采樣方法,該算法合成的少數(shù)類樣本是通過(guò)在少數(shù)類樣本和其近鄰樣本之間的隨機(jī)插值得到的。SMOTE采樣有效緩解了隨機(jī)過(guò)采樣方法重復(fù)增加相同樣本的缺點(diǎn),但合成的樣本不可避免的在少數(shù)類樣本聚集處合成更多的新樣本。Han等[5]在2005年提出了Borderline-SMOTE算法,該算法是在生成新樣本的過(guò)程中只針對(duì)危險(xiǎn)樣本進(jìn)行過(guò)采樣以增強(qiáng)分類邊界,從而減少噪聲樣本的數(shù)量,Borderline-SMOTE算法相比于SMOTE算法考慮了邊界樣本學(xué)習(xí)困難的特點(diǎn)。He等[6]在2008年提出自適應(yīng)過(guò)采樣(adaptive synthetic sampling approach,ADASYN)算法,ADASYN算法與SMOTE算法不同,后者對(duì)每個(gè)少數(shù)類樣本生成相同數(shù)量的新樣本,而ADASYN是根據(jù)數(shù)據(jù)集特點(diǎn)自動(dòng)決定每個(gè)少數(shù)類樣本生成的新樣本數(shù)量,該算法考慮了與多數(shù)類距離很近的少數(shù)類樣本,并通過(guò)合成更多處于邊界位置的樣本來(lái)提高模糊樣本的分類準(zhǔn)確率,以實(shí)現(xiàn)提高分類精度的目的。SMOTE-D過(guò)采樣方法是Torres等[7]在2016年提出來(lái)的,通過(guò)估算少數(shù)類樣本的離散度(基于距離的標(biāo)準(zhǔn)偏差),以確定少數(shù)類中的每個(gè)樣本周圍應(yīng)生成多少個(gè)樣本,以及在每個(gè)樣本和近鄰樣本之間應(yīng)創(chuàng)建多少個(gè)樣本。SMOTE-D是SMOTE的確定性版本,在數(shù)據(jù)集的不平衡率小于0.1時(shí),性能要優(yōu)于SMOTE 算法。王亮等[8]在2020年提出DB-MCSMOTE算法,該算法先對(duì)少數(shù)類樣本進(jìn)行DBSCAN聚類,然后在各個(gè)簇中進(jìn)行采樣。張家偉等[9]在2020年提出了一種過(guò)采樣方法,通過(guò)確定每個(gè)樣本的相對(duì)位置,然后根據(jù)樣本權(quán)值決定生成的樣本數(shù)量。該算法緩解了ADASYN算法過(guò)于關(guān)注模糊樣本的缺點(diǎn)。

      信用風(fēng)險(xiǎn)評(píng)估模型是基于數(shù)據(jù)構(gòu)建模型來(lái)提高違約用戶的識(shí)別率,從而減少企業(yè)的資金損失。Wiginton[10]在1980年提出建立基于Logistic回歸算法的信用風(fēng)險(xiǎn)評(píng)估模型,該模型通過(guò)與傳統(tǒng)線性判別作對(duì)比發(fā)現(xiàn),Logistic準(zhǔn)確性更高,實(shí)用性更強(qiáng)。丁嵐等[11]在2017年基于Stacking集成模型對(duì)網(wǎng)貸違約狀況進(jìn)行了預(yù)測(cè),并利用人人貸數(shù)據(jù)做了實(shí)證分析,發(fā)現(xiàn)所建模型能顯著降低一類和二類錯(cuò)誤概率。Han等[12]在2005年提出了基于Stacking的信用風(fēng)險(xiǎn)評(píng)估模型,將XGBoost基分類器的訓(xùn)練結(jié)果作為第二層的輸入特征之一,元分類器是Logistic模型,模型第一層使用了交叉驗(yàn)證防止過(guò)擬合現(xiàn)象的出現(xiàn)。He等[13]在2018年提出了基于數(shù)據(jù)集不平衡率的集成模型,選擇的基分類器是隨機(jī)森林和XGBoost模型,并用粒子群算法對(duì)基模型進(jìn)行參數(shù)優(yōu)化。Guo等[14]在2019年建立了多階段自適應(yīng)分類器集成模型,所提出的模型可以分為3個(gè)主要階段,并通過(guò)粒子群算法進(jìn)行參數(shù)優(yōu)化,提高了模型的調(diào)參效率。與單個(gè)分類器和其他集成分類方法相比,該模型具有更好的性能和更好的數(shù)據(jù)適應(yīng)性,為相關(guān)金融機(jī)構(gòu)提供了有效的決策支持。Abhijeet等[15]在2019年提出了兩級(jí)信用風(fēng)險(xiǎn)評(píng)估模型,其基本思想是用第一級(jí)分類器選擇出異常的信用卡用戶,后將異常值在支持向量機(jī)上進(jìn)行二次訓(xùn)練。兩級(jí)數(shù)據(jù)挖掘模型是以最大限度減少誤判為前提,其準(zhǔn)確率較高,但訓(xùn)練過(guò)程相對(duì)比較復(fù)雜。

      綜上所述,利用過(guò)采樣方法在模型訓(xùn)練之前進(jìn)行平衡化處理是改善不平衡數(shù)據(jù)分類性能的重要方法,同時(shí)基于集成模型構(gòu)建的信用風(fēng)險(xiǎn)評(píng)估模型可提高少數(shù)違約樣本的識(shí)別率。

      主要的研究工作如下:

      1)針對(duì) SMOTE 等過(guò)采樣方法對(duì)每個(gè)少數(shù)類合成相同數(shù)量新樣本以及合成邊界噪聲樣本的缺點(diǎn),提出改進(jìn)的 SMOTE 過(guò)采樣方法。首先根據(jù)每個(gè)少數(shù)類樣本所處的位置來(lái)確定樣本的質(zhì)量;然后根據(jù)分類樣本的質(zhì)量計(jì)算其生成的新樣本數(shù);最后對(duì)生成新樣本的位置做了調(diào)整,通過(guò)在近鄰樣本和類中心之間進(jìn)行插值,實(shí)現(xiàn)新樣本位置向類中心遷移,避免在分類模糊區(qū)域合成新樣本。

      2)根據(jù)數(shù)據(jù)集的特點(diǎn)自適應(yīng)的為信用風(fēng)險(xiǎn)評(píng)估模型選擇準(zhǔn)確率高且互補(bǔ)性強(qiáng)的最佳基分類器,并使用最佳基分類器構(gòu)建Stacking集成模型。

      3)在模型驗(yàn)證方面,分別進(jìn)行了兩大類實(shí)驗(yàn)。第一類是SMOTE過(guò)采樣和改進(jìn)的SMOTE過(guò)采樣方法在Stacking模型下的對(duì)比,結(jié)果顯示,改進(jìn)的 SMOTE過(guò)采樣方法生成的少數(shù)類樣本質(zhì)量更高。第二類實(shí)驗(yàn)是針對(duì)不同基分類器構(gòu)建的Stacking 模型,結(jié)果顯示JC指標(biāo)挑選出的基分類器所構(gòu)成的Stacking集成模型性能更優(yōu)。

      1 理論知識(shí)

      1.1 SMOTE算法

      SMOTE是一種合成少數(shù)類樣本的算法,具體思想是根據(jù)不平衡數(shù)據(jù)集的不平衡率確定采樣率,然后根據(jù)插值公式合成新樣本,具體過(guò)程如下:

      步驟1根據(jù)數(shù)據(jù)集的不平衡率設(shè)置采樣率;

      步驟2確定少數(shù)類樣本xi的k個(gè)近鄰樣本xij;

      步驟3在樣本xi和其k個(gè)近鄰樣本xij之間進(jìn)行隨機(jī)線性插值,插值公式如下:

      xnew=xi+(xi-xij)*rand(0,1)

      (1)

      1.2 ADASYN算法

      ADASYN算法的基本思想是根據(jù)少數(shù)類樣本周圍多數(shù)類樣本的數(shù)量決定每個(gè)少數(shù)類樣本合成的新樣本數(shù)量。

      步驟2計(jì)算合成的新樣本總數(shù)N:

      N=d×α,α∈[0,1]

      (2)

      步驟3根據(jù)歐氏距離計(jì)算少數(shù)類樣本xi的K個(gè)近鄰樣本xij,并計(jì)算每個(gè)少數(shù)類樣本的γi:

      (3)

      其中:Δi表示K個(gè)近鄰樣本中的多數(shù)類樣本數(shù);

      步驟5計(jì)算每個(gè)少數(shù)類樣本合成的樣本數(shù)量:

      (4)

      步驟6根據(jù)插值公式生成新樣本。

      1.3 Stacking集成模型介紹

      Stacking模型由兩層組成,第一層模型稱為基模型,第二層模型稱為元模型[16]。Stacking集成模型的思想是,組合多個(gè)基分類器的輸出結(jié)果,并將其作為第二層元分類器的輸入,以得到一個(gè)更好的輸出結(jié)果。

      Stacking集成模型的第一層基模型最好是強(qiáng)模型,也就是在選擇基模型的時(shí)候盡量滿足準(zhǔn)確率高且模型差距大,這樣既能保證模型的準(zhǔn)確率,又能通過(guò)不同的基模型來(lái)提高模型的泛化性能。為了避免過(guò)擬合問(wèn)題,可選用簡(jiǎn)單分類器作為第二層的元模型。如果直接使用基模型產(chǎn)生的輸出作為元分類器的訓(xùn)練集,會(huì)加大過(guò)擬合風(fēng)險(xiǎn)。因此,一般使用K折交叉驗(yàn)證來(lái)產(chǎn)生元分類器的訓(xùn)練集。

      以5折交叉驗(yàn)證為例來(lái)說(shuō)明,首先將初始訓(xùn)練集分成5折,基分類器在前4折數(shù)據(jù)上進(jìn)行訓(xùn)練,并在剩下的一折上進(jìn)行預(yù)測(cè),保證每一折數(shù)據(jù)都做了一次預(yù)測(cè)數(shù)據(jù)集,然后將預(yù)測(cè)結(jié)果拼在一起,得到元分類器訓(xùn)練集的一個(gè)特征,依此循環(huán)將每個(gè)基分類器的預(yù)測(cè)結(jié)果拼接,最終得到的元分類器訓(xùn)練集的維數(shù)跟基分類器的維數(shù)相等。

      2 改進(jìn)的SMOTE過(guò)采樣方法

      傳統(tǒng)的SMOTE過(guò)采樣方法不考慮數(shù)據(jù)集的分布,每個(gè)少數(shù)類合成相同數(shù)量的新樣本。這會(huì)導(dǎo)致新合成樣本聚集在少數(shù)類樣本聚集的位置。再加上SMOTE過(guò)采樣方法未考慮少數(shù)類樣本的質(zhì)量,不可避免地引入過(guò)多噪聲樣本,給后期的模型訓(xùn)練帶來(lái)麻煩。針對(duì)SMOTE過(guò)采樣方法的缺點(diǎn),提出了一種改進(jìn)的SMOTE過(guò)采樣方法,它根據(jù)數(shù)據(jù)集的分布決定每個(gè)少數(shù)類樣本合成的樣本數(shù),并通過(guò)遷移式插值減少噪聲樣本的生成。

      2.1 計(jì)算新生成樣本數(shù)步驟

      設(shè)訓(xùn)練樣本集為T={(x1,y1),…,(xn,yn)},每個(gè)樣本有p個(gè)特征,其中少數(shù)類樣本數(shù)為n1,多數(shù)類樣本數(shù)為n2。

      輸入:訓(xùn)練集T;

      輸出:每個(gè)少數(shù)類樣本生成的新樣本數(shù)量;

      Step 1:計(jì)算需要合成的少數(shù)類樣本數(shù)N:

      N=(n2-n1)*α,α∈[0,1]

      (5)

      Step 2:計(jì)算少數(shù)類樣本的類中心xcenter1和多數(shù)類樣本的類中心xcenter2的公式為:

      (6)

      Step 3:計(jì)算Di:

      (7)

      Step 4:歸一化處理:

      (8)

      2.2 改進(jìn)的SMOTE過(guò)采樣算法步驟

      設(shè)訓(xùn)練集為T={(x1,y1),…,(xn,yn)},y=(0,1)。其中,少數(shù)類樣本集為T1={(x1,y1),…,(xn1,yn1)},多數(shù)類樣本集為T2={(x1,y1),…,(xn2,yn2)}。

      輸入:合成的樣本數(shù)量Mi,少數(shù)類樣本集T1;

      輸出:新合成的少數(shù)類樣本集Tnew;

      Step 1:對(duì)第i個(gè)少數(shù)類樣本數(shù)量xi,選擇其Mi個(gè)k近鄰樣本xij,j=1,2,…,k;

      Step 2:對(duì)Mi個(gè)近鄰樣本按照合成公式生成新樣本xnew:

      xnew=xij+(xij-xcenter1)×rand(0,1)

      (9)

      Step 3:將生成的新樣本xnew加入少數(shù)類樣本集T1中,得到新的少數(shù)類樣本集Tnew。

      合成新樣本的過(guò)程如圖1所示,通過(guò)在少數(shù)類中心跟xi的近鄰樣本之間進(jìn)行隨機(jī)插值產(chǎn)生。

      圖1 合成少數(shù)類樣本的插值過(guò)程示意圖

      2.3 評(píng)價(jià)指標(biāo)

      混淆矩陣是機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測(cè)結(jié)果的表格,其中行表示預(yù)測(cè)值,列表示真實(shí)值,以二分類為例,混淆矩陣元素如表1所示。

      表1 混淆矩陣元素

      基于混淆矩陣還可以產(chǎn)生很多指標(biāo),選用其中的AUC、accuracy和f1-score作為分類器性能的評(píng)價(jià)指標(biāo)。AUC值是roc曲線下方的面積,AUC值不會(huì)隨著類別分布的改變而改變,更好地反映不平衡數(shù)據(jù)的分類效果。AUC值越接近于1,分類效果越好。accuracy和f1-score的定義如下:

      (10)

      (11)

      accuracy表示預(yù)測(cè)正確的樣本數(shù)占樣本總數(shù)的比例,是分類問(wèn)題中最簡(jiǎn)單直觀的評(píng)價(jià)指標(biāo)。f1-score指標(biāo)綜合考慮了precision與recall。只有二者表現(xiàn)都很好時(shí),f1-score值才大,才能對(duì)不平衡數(shù)據(jù)做出更合理的評(píng)價(jià)。

      2.4 數(shù)據(jù)集

      使用了UCI數(shù)據(jù)庫(kù)的9個(gè)數(shù)據(jù)集對(duì)算法的有效性做出驗(yàn)證,表2描述了每個(gè)數(shù)據(jù)集的詳細(xì)信息,即數(shù)據(jù)集的特征數(shù)、少數(shù)類樣本數(shù)、多數(shù)類樣本數(shù)和不平衡率。

      表2 實(shí)驗(yàn)中使用的數(shù)據(jù)集

      2.5 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      為驗(yàn)證本節(jié)改進(jìn)的SMOTE算法的有效性,分別對(duì)9個(gè)數(shù)據(jù)集做SMOTE、Borderline-SMOTE和ADASYN平衡化處理,并對(duì)處理后的數(shù)據(jù)進(jìn)行隨機(jī)森林(RF)訓(xùn)練。對(duì)有多個(gè)類別的數(shù)據(jù)集,選擇其中一類為少數(shù)類,其余剩下的所有樣本作為多數(shù)類,訓(xùn)練集和測(cè)試集的樣本數(shù)比例為7∶3。對(duì)比采用方法為SMOTE、Borderline-SMOTE和ADASYN采樣方法,用Python現(xiàn)有的工具包,本文算法用Python編程實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果見(jiàn)表3,表中AUC、accuracy和f1-score的最優(yōu)值用加黑粗體表示。通過(guò)實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論:

      表3 隨機(jī)森林分類器實(shí)驗(yàn)結(jié)果

      1)Vehicle和Ionosphere數(shù)據(jù)集維度高,Blood、CMC和Diabetes數(shù)據(jù)集維度相對(duì)較小,經(jīng)過(guò)采樣后,隨機(jī)森林分類器在不同維度的數(shù)據(jù)集上分類情況并沒(méi)有明顯差別,可見(jiàn)維度對(duì)本文算法合成新樣本的質(zhì)量影響不大,可以提高少數(shù)類樣本和整體樣本的分類性能。

      2)在Blood、Diabetes、Ionosphere和CMC數(shù)據(jù)集上本文算法性能較好,尤其是在Blood數(shù)據(jù)集上,隨機(jī)森林分類器在AUC、f1-score和accuracy這3個(gè)指標(biāo)上都達(dá)到了最優(yōu)。而以上幾個(gè)數(shù)據(jù)集相比于其他數(shù)據(jù)集,不同類別之間分布更加均衡,合成樣本時(shí)引入噪聲樣本少,進(jìn)而后續(xù)模型的訓(xùn)練準(zhǔn)確率較高。但是在Vowel數(shù)據(jù)集上,本文算法在隨機(jī)森林分類器上的訓(xùn)練結(jié)果沒(méi)有明顯提升,推測(cè)這與Vowel數(shù)據(jù)集不平衡率過(guò)高有關(guān)。

      3 自適應(yīng)集成的信用風(fēng)險(xiǎn)評(píng)估模型

      3.1 自適應(yīng)集成的信用風(fēng)險(xiǎn)評(píng)估模型

      Stacking模型在實(shí)際應(yīng)用中表現(xiàn)出很高的模型性能,但是仍有不足之處。利用K折交叉驗(yàn)證法在一定程度上能解決Stacking算法直接使用初級(jí)學(xué)習(xí)器預(yù)測(cè)結(jié)果作為訓(xùn)練集[17-19]所帶來(lái)的模型過(guò)擬合問(wèn)題。如果基模型之間差異太小,很難保證模型最終的泛化性能。因此,為最大程度提高模型的準(zhǔn)確率和泛化性能,提出在模型訓(xùn)練之前,根據(jù)數(shù)據(jù)的特點(diǎn)為模型自適應(yīng)的選擇基模型,選擇的基模型既要保證準(zhǔn)確率,又要存在一定的差異性。

      Jaccard系數(shù)用來(lái)比較樣本集之間的相似性與差異性,在實(shí)際應(yīng)用中,可用來(lái)比較布爾值屬性對(duì)象之間的距離,Jaccard系數(shù)越大,兩集合的相似度越高,反之越小。Jaccard系數(shù)定義為:

      (12)

      其中:A表示A集合,B表示B集合。

      Jaccard距離是Jaccard系數(shù)的相反定義,Jaccard 距離越大,集合之間樣本的相似度越低,用公式表示為:

      (13)

      余弦相似度度量可用來(lái)衡量2個(gè)對(duì)象之間的相似程度,余弦值越小,說(shuō)明相似度越大,定義如下:

      (14)

      余弦相似度與歐式距離相比,從空間方向上對(duì)2個(gè)對(duì)象進(jìn)行了區(qū)分,余弦相似度對(duì)絕對(duì)數(shù)值并不敏感,這正好與集合僅有0和1數(shù)值相契合。

      Jaccard系數(shù)[20]這個(gè)指標(biāo)的計(jì)算效率較高。通過(guò)組合Jaccard距離和余弦相似度來(lái)得到模型差異性度量指標(biāo),稱其為JC指標(biāo),其中集合表示的是負(fù)類樣本分類結(jié)果的集合。

      JC=J(A,B)*cos(θ)

      (15)

      在模型訓(xùn)練之前,首先根據(jù)給定閾值,把準(zhǔn)確率超過(guò)給定閾值的分類器保留下來(lái),然后根據(jù)分類器之間的差異性度量也就是JC指標(biāo)來(lái)選擇基分類器。由于不同分類器在不同數(shù)據(jù)集上的表現(xiàn)不同,分類準(zhǔn)確率差距較大,閾值的確定要根據(jù)不同數(shù)據(jù)的實(shí)際情況來(lái)考慮,金融背景之下的數(shù)據(jù)經(jīng)過(guò)平衡化處理后在不同模型上的訓(xùn)練準(zhǔn)確率較高,在3.3.2節(jié)中的給定閾值確定為0.85。

      為了最大程度保證基分類器的差異性,在第二階段要選擇相似度最小的組合,然后再?gòu)钠溆辔幢贿x中的分類器集合中依次挑選分類器計(jì)算其相似度值,直到循環(huán)結(jié)束?;谀P筒町愋赃x擇的Stacking的算法流程見(jiàn)圖2。

      圖2 Stacking算法流程框圖

      基于模型差異性選擇的Stacking模型算法步驟如下:

      設(shè)訓(xùn)練樣本集為T={(x1,y1),…,(xn,yn)},備選分類器為L(zhǎng)1,L2,…,Lm。

      輸入:訓(xùn)練集T和備選分類器L1,L2,…,Lm;

      輸出:基于模型差異性選擇的Stacking模型;

      Step 1:在訓(xùn)練集T上訓(xùn)練m個(gè)備選分類器Li;

      Step 2:計(jì)算m個(gè)備選分類器的準(zhǔn)確率,將準(zhǔn)確率高于給定閾值的備選分類器挑選出來(lái);

      Step 3:計(jì)算第一層所挑選分類器的JC指標(biāo),根據(jù)JC指標(biāo)的值將差異度大的分類器作為基分類器,挑選出來(lái)的基分類器為為L(zhǎng)1,L2,…,Lt;

      Step 4:利用K折交叉驗(yàn)證訓(xùn)練基模型為L(zhǎng)1,L2,…,Lt,并得到第二層元分類器的輸入數(shù)據(jù)T′,T′用于下一步元分類器的訓(xùn)練;

      Step 5:在輸入數(shù)據(jù)T′上訓(xùn)練元分類器,得到最終模型。

      3.2 數(shù)據(jù)集

      本節(jié)采用Lending Club官網(wǎng)上的數(shù)據(jù)做實(shí)證分析,數(shù)據(jù)取自2019年第一季度,數(shù)據(jù)集中包含 115 675條樣本,每個(gè)樣本有150維特征,其中 loan-status為目標(biāo)變量,本節(jié)是利用其他變量對(duì)目標(biāo)變量情況做出預(yù)測(cè),來(lái)決定樣本是否能獲得貸款。2.5節(jié)使用的9個(gè)數(shù)據(jù)集作為不平衡數(shù)據(jù)來(lái)驗(yàn)證改進(jìn)的SMOTE算法的有效性,非信用風(fēng)險(xiǎn)方面的數(shù)據(jù),不參與本節(jié)信用風(fēng)險(xiǎn)評(píng)估模型的驗(yàn)證。

      在Lending Club原始數(shù)據(jù)集中,loan-status 有7種狀態(tài),其具體含義如表4所示。將其中的fully paid狀態(tài)、current狀態(tài)作為正常用戶,其他狀態(tài)作為違約用戶。

      表4 Loan-status的狀態(tài)及含義

      3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      先對(duì)Lending Club原始數(shù)據(jù)做了預(yù)處理,對(duì)缺失數(shù)據(jù)根據(jù)缺失情況進(jìn)行了相應(yīng)處理,并進(jìn)行兩次特征選擇,以最大化選擇有效特征。

      根據(jù)缺失數(shù)據(jù)的比例以及變量的重要性分別采用了刪除法與填補(bǔ)法處理缺失值。對(duì)無(wú)意義特征和觀測(cè)值相同的特征直接對(duì)其刪除,由于特征缺失過(guò)多的數(shù)據(jù)所含信息過(guò)少,經(jīng)過(guò)缺失值填補(bǔ)也會(huì)帶來(lái)誤差等問(wèn)題,直接刪除了缺失率大于50%的特征。對(duì)于缺失值大于等于8個(gè)特征的樣本,也采用刪除法直接剔除樣本,共刪除了85個(gè)樣本。經(jīng)過(guò)缺失值刪除和無(wú)關(guān)變量剔除之后,數(shù)據(jù)集還包含 115 590個(gè)樣本和83維特征,其中13個(gè)特征包含缺失數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行缺失值填補(bǔ)。

      特征選擇采用了遞歸式特征消除,遞歸消除特征后挑選了40個(gè)特征。由于較多的變量可能會(huì)帶來(lái)冗余信息,第二次特征選擇采用主成分分析以實(shí)現(xiàn)最大程度減少信息冗余,提高模型的訓(xùn)練效率。

      預(yù)處理后的數(shù)據(jù)集包含115 590條樣本,特征維數(shù)為30,多數(shù)類樣本數(shù)為106 715,少數(shù)類樣本數(shù)為8 875,數(shù)據(jù)的不平衡率為0.083 2,屬于較為嚴(yán)重的不平衡數(shù)據(jù)。

      3.3.1過(guò)采樣技術(shù)在Stacking分類算法下的比較

      為了控制SMOTE過(guò)采樣和改進(jìn)的SMOTE過(guò)采樣,對(duì)比實(shí)驗(yàn)的其他變量,更好地比較2種采樣算法,這里把SMOTE和改進(jìn)的SMOTE算法的采樣倍數(shù)都設(shè)為1,SMOTE過(guò)采樣后少數(shù)類和多數(shù)類的樣本數(shù)都是106 715,改進(jìn)的SMOTE過(guò)采樣方法生成的少數(shù)類樣本數(shù)為97 854。

      Stacking模型的第一層基模型選用了樸素貝葉斯、決策樹、邏輯回歸,第二層元分類器選擇邏輯回歸。決策樹采用CART算法,max-depth樹最大深度設(shè)為39,max-leaf-nodes最大葉子節(jié)點(diǎn)數(shù)為30,邏輯回歸的penalty正則化項(xiàng)默認(rèn)為L(zhǎng)2正則化項(xiàng),正則化系數(shù)的倒數(shù)、迭代終止閾值等設(shè)為默認(rèn)值,在SMOTE過(guò)采樣和改進(jìn)的SMOTE過(guò)采樣后的數(shù)據(jù)上進(jìn)行模型訓(xùn)練,模型訓(xùn)練過(guò)程中保持模型參數(shù)設(shè)置一致,模型訓(xùn)練結(jié)果如表5所示。

      表5 不同過(guò)采樣算法模型訓(xùn)練結(jié)果

      改進(jìn)的 SMOTE 過(guò)采樣算法處理后的數(shù)據(jù)在 Stacking模型上的訓(xùn)練效果整體要優(yōu)于SMOTE 過(guò)采樣處理的數(shù)據(jù),在accuracy、f1-score和AUC值上表現(xiàn)要優(yōu)于SMOTE過(guò)采樣算法。

      3.3.2改進(jìn)的SMOTE與基于模型差異性選擇的 Stacking模型

      為了挑選出更適合構(gòu)建Stacking模型的基分類器,在3.3.1節(jié)實(shí)驗(yàn)所用的基分類器基礎(chǔ)之上又加入了3個(gè)模型,這樣基分類器池中就有了6個(gè)基分類器,分別為KNN、隨機(jī)森林、支持向量機(jī)、樸素貝葉斯、決策樹和邏輯回歸模型。為了提高模型的訓(xùn)練效率,在這里隨機(jī)抽取了30%的數(shù)據(jù)。

      下面先單獨(dú)訓(xùn)練6個(gè)基分類器,表6展示了6個(gè)模型的訓(xùn)練結(jié)果,可看出樸素貝葉斯的分類效果不如其他分類器,而隨機(jī)森林模型分類效果明顯優(yōu)于其他模型。這與隨機(jī)森林利用多個(gè)決策樹共同分類決策密不可分。同時(shí),隨機(jī)森林因多棵決策樹對(duì)多樣性的保證提高了模型的泛化性能,因而分類效果要好于其他分類器。

      表6 基模型訓(xùn)練結(jié)果

      基于模型差異性選擇的Stacking模型首先剔除在Lending Club數(shù)據(jù)集上分類情況較差的基分類器,根據(jù)實(shí)驗(yàn)結(jié)果是將樸素貝葉斯和決策樹模型從基分類池中移除,根據(jù)JC指標(biāo)挑選出的基分類器模型為KNN、隨機(jī)森林、支持向量機(jī),同時(shí)為了減少過(guò)擬合,集成所用的元分類器為邏輯回歸模型,最后模型的訓(xùn)練結(jié)果如表7所示。

      表7 基于模型差異性選擇的Stacking模型訓(xùn)練結(jié)果

      為了更好地展示基于模型差異性選擇基分類器對(duì)Stacking整體模型的訓(xùn)練效果,下面將其與其他基分類器構(gòu)建的Stacking進(jìn)行對(duì)比實(shí)驗(yàn),參數(shù)保持不變,只改變基分類器。對(duì)比實(shí)驗(yàn)所用的兩組基分類器分別為KNN、邏輯回歸和隨機(jī)森林,邏輯回歸、隨機(jī)森林和支持向量機(jī)。以KNN、邏輯回歸和隨機(jī)森林為基分類器構(gòu)造的Stacking模型記為Stacking 1,以邏輯回歸、隨機(jī)森林和支持向量機(jī)為基分類器構(gòu)造的Stacking模型記為Stacking 2,根據(jù)JC指標(biāo)挑選的基分類器構(gòu)造的模型記為Stacking 3。

      實(shí)驗(yàn)結(jié)果如表8所示,圖中用黑色加粗標(biāo)記同一指標(biāo)下性能好的模型,Stacking 2模型在recall指標(biāo)下的性能要優(yōu)于Stacking 3模型,Stacking 3模型在accuracy、f1-score和AUC值上的表現(xiàn)要好于Stacking 1和Stacking 2模型,f1-score綜合了recall與precision這2個(gè)指標(biāo),更具有說(shuō)服力?;诸惼鞒刂刑蕹诸惽闆r較差的基分類器保證了構(gòu)成集成模型的基模型的準(zhǔn)確率,同時(shí)根據(jù)JC指標(biāo)挑選出的基分類器模型減少了過(guò)擬合現(xiàn)象。因此,實(shí)驗(yàn)結(jié)果表明根據(jù)JC指標(biāo)挑選的基分類器對(duì)構(gòu)建Stacking模型具有參考價(jià)值。

      表8 3種Stacking模型實(shí)驗(yàn)結(jié)果

      4 結(jié)論

      基于SMOTE過(guò)采樣和自適應(yīng)集成模型對(duì)不平衡數(shù)據(jù)做出合理的分類預(yù)測(cè)將會(huì)給金融行業(yè)帶來(lái)商業(yè)價(jià)值。不僅能幫助金融行業(yè)減少違約、欺詐用戶帶來(lái)的經(jīng)濟(jì)損失,還有助于留住行業(yè)內(nèi)的正常用戶,能有效提高行業(yè)競(jìng)爭(zhēng)力。

      在Lending Club數(shù)據(jù)集的實(shí)證分析中,改進(jìn)的 SMOTE過(guò)采樣方法處理后的平衡化數(shù)據(jù)在后期模型訓(xùn)練上表現(xiàn)優(yōu)異,同時(shí)基于JC指標(biāo)選擇的基分類器在Stacking模型構(gòu)建方面性能高。但改進(jìn)的SMOTE過(guò)采樣算法在不平衡程度過(guò)高的數(shù)據(jù)集上合成的新樣本不能很好地遵循數(shù)據(jù)的原始分布,分類準(zhǔn)確率提升效果一般,后期有待改進(jìn)。

      猜你喜歡
      樣本數(shù)分類器準(zhǔn)確率
      勘 誤 聲 明
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
      田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
      北京市| 招远市| 林周县| 改则县| 右玉县| 石棉县| 汝州市| 达尔| 河曲县| 樟树市| 古浪县| 湘乡市| 陆川县| 年辖:市辖区| 福清市| 海原县| 临桂县| 夏津县| 东港市| 延川县| 徐州市| 朝阳县| 密云县| 萨嘎县| 南投县| 安康市| 雷州市| 财经| 黄石市| 陇西县| 威宁| 称多县| 尖扎县| 澄江县| 布尔津县| 闻喜县| 岳普湖县| 承德市| 博野县| 房产| 莎车县|