結(jié)合代價(jià)敏感與集成算法的個(gè)人信用評(píng)估模型

2022-04-24 03:21:22張怡羅康洋謝曉金

軟件導(dǎo)刊 2022年4期

張怡，羅康洋，謝曉金

（1.上海工程技術(shù)大學(xué)數(shù)理與統(tǒng)計(jì)學(xué)院，上海 201620；2.華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院，上海 200062）

0 引言

隨著貸款消費(fèi)的不斷發(fā)展，個(gè)人信用評(píng)估已成為銀行等金融機(jī)構(gòu)密切關(guān)注的熱點(diǎn)。截至2019年9月底，國(guó)民貸款消費(fèi)達(dá)到13.34萬億元，同比增長(zhǎng)17.4%。2019年底突然爆發(fā)的新冠肺炎疫情給全球經(jīng)濟(jì)增長(zhǎng)帶來嚴(yán)重沖擊，社會(huì)秩序面臨巨大挑戰(zhàn)。面對(duì)較多的不確定性，迫切需要加強(qiáng)金融風(fēng)險(xiǎn)監(jiān)測(cè)評(píng)估，關(guān)注金融風(fēng)險(xiǎn)邊際變化，積極穩(wěn)妥防范化解金融風(fēng)險(xiǎn)。目前中小微企業(yè)遭受不同程度的沖擊，不少雇員面臨降薪甚至失業(yè)的風(fēng)險(xiǎn)，貸款償還能力大大削弱，金融風(fēng)險(xiǎn)壓力凸現(xiàn)。因此，對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估以便及時(shí)采取有效的規(guī)避措施，降低信用風(fēng)險(xiǎn)帶來的金融危機(jī)隱患顯得尤為重要。

個(gè)人信用評(píng)估是通過挖掘個(gè)人信用的指標(biāo)數(shù)據(jù)與失信狀態(tài)之間的關(guān)聯(lián)關(guān)系構(gòu)建模型，從而評(píng)估個(gè)人的信用風(fēng)險(xiǎn)。文獻(xiàn)［2-6］介紹了目前國(guó)內(nèi)外主要的個(gè)人信用評(píng)估模型，包括專家評(píng)分模型、統(tǒng)計(jì)評(píng)分模型和機(jī)器學(xué)習(xí)模型；嚴(yán)鴻和等從知識(shí)工程的基本思想出發(fā)，分析了專家評(píng)分過程中的非線性規(guī)劃模型，用以確定權(quán)系數(shù)；文獻(xiàn)［4］針對(duì)數(shù)據(jù)集特征變量進(jìn)行主成分分析，使降維后的變量無相關(guān)性，再對(duì)其進(jìn)行稀疏貝葉斯分類，得出PCA-SBL具有更高的分類性能的結(jié)論；Ma等針對(duì)個(gè)人信用評(píng)估問題，在隨機(jī)森林、LightGBM和支持向量機(jī)3個(gè)分類器上進(jìn)行加權(quán)投票組合，獲得了良好的分類精度；Shen等提出一種集成優(yōu)化模型用于個(gè)人信用風(fēng)險(xiǎn)評(píng)估。針對(duì)個(gè)人信用數(shù)據(jù)類不平衡問題，基于代價(jià)敏感的改進(jìn)算法應(yīng)運(yùn)而生。文獻(xiàn)［7］介紹了基于集成隨機(jī)森林（RF）、GBDT算法和XGBoost三種算法建立的個(gè)人信用評(píng)估模型，并依據(jù)相關(guān)多元評(píng)價(jià)指標(biāo)對(duì)個(gè)人信用評(píng)估進(jìn)行對(duì)比研究；文獻(xiàn)［8］介紹了基于代價(jià)敏感的改進(jìn)算法。

以上方法都未研究離散型和連續(xù)型并存使算法運(yùn)行性能降低的問題，以及不平衡數(shù)據(jù)導(dǎo)致模型的整體預(yù)測(cè)性能不高問題。為此，本文提出一種結(jié)合代價(jià)敏感和集成算法的分類模型，改進(jìn)了大樣本不平衡數(shù)據(jù)的分類性能，有效解決了離散型和連續(xù)型數(shù)據(jù)并存的問題，提高了個(gè)人信用評(píng)估效果。

1 相關(guān)理論

1.1 集成型特征選擇算法

特征選擇指從全部特征出發(fā)，選擇符合一定評(píng)價(jià)條件的最佳特征子集，從而降低特征維度，減少模型擬合訓(xùn)練的復(fù)雜性。本文利用特征分箱將連續(xù)型數(shù)據(jù)離散化，借助去不平衡思想設(shè)計(jì)集成型特征選擇算法，將每個(gè)特征的信息價(jià)值（Information Value，IV）、互信息、信息增益和基尼指數(shù)累加后進(jìn)行排序，篩選出最優(yōu)子集，從而對(duì)類不平衡和屬性雜糅的個(gè)人信用數(shù)據(jù)進(jìn)行有效的特征選擇。

1.1.1 基于IV的特征選擇

在監(jiān)督學(xué)習(xí)中WOE（Weight of evidence，WOE）是自變量的一種編碼形式。假設(shè)

（

）是第

箱中少（多）數(shù)類樣本占所有少（多）數(shù)類樣本的比例，則第

箱的WOE值為：

其中，

和

分別為第

箱中累積失信用戶和累積信用良好用戶的數(shù)量，

和

分別為所有失信用戶和所有信用良好用戶的數(shù)量。

IV指信息數(shù)據(jù)的價(jià)值，即：

IV常用于對(duì)不同特征的預(yù)測(cè)能力進(jìn)行評(píng)估，IV越大，則該特征的預(yù)測(cè)準(zhǔn)確度越高。但當(dāng)IV大于0.5時(shí)，有過擬合的風(fēng)險(xiǎn)。

基于IV的特征選擇步驟為：1使用Best-KS分箱將連續(xù)型數(shù)據(jù)離散化；2對(duì)離散化后的數(shù)據(jù)進(jìn)行WOE編碼；3結(jié)合每個(gè)分箱及其對(duì)應(yīng)的WOE計(jì)算IV，并將其作為特征選擇的指標(biāo)之一。文獻(xiàn)［12］介紹了針對(duì)連續(xù)型特征的分箱操作，包括等頻、等距和Best-KS最優(yōu)分箱。等頻和等距分箱在不平衡數(shù)據(jù)中存在易偏向多數(shù)類的局限，因此本文采用Best-KS最優(yōu)分箱算法。

1.1.2 基于互信息的特征選擇

信息熵是消除不確定性所需信息量的度量，在圖像處理、人工智能、數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用廣泛。對(duì)于任意的特征變量

，信息熵為：

其中，

(

)，

=1，2，...，

，下同?；バ畔⒈举|(zhì)是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測(cè)度，通常用于特征和類別之間的測(cè)度。對(duì)于任意的特征變量

和類別

，互信息為：

其中，

(

)，

(

，

)，

=1，2，...，

，

=1，2，...，

。

(

；

)越大，特征

的分類能力越強(qiáng)，反之，其分類能力越弱。在不平衡數(shù)據(jù)問題中，基于互信息的特征選擇容易傾向于多數(shù)類。

1.1.3 基于信息增益率的特征選擇

信息增益率是互信息與特征信息熵之比。在分類判別中，其信息增益率為：

(

，

)越大，其分類能力越強(qiáng)，反之，則分類能力越弱。信息增益率可以克服互信息偏向取值較多一方的弊端，但是其不足之處在于可能存在偏向取值較少一方的隱患。

1.1.4 基于基尼指數(shù)的特征選擇

基尼指數(shù)是隨機(jī)檢測(cè)樣本被錯(cuò)分的最大概率，旨在刻畫特征的不純度，其定義如下：

Gini

(

)越小，則特征的不純度越低，特征越好?；嶂笖?shù)在一定程度上可以規(guī)避互信息和信息增益率的兩種偏向誤差，從而最小化錯(cuò)誤率。

1.2 基于代價(jià)敏感的異質(zhì)集成分類模型

傳統(tǒng)的分類模型在分布均衡的數(shù)據(jù)集上呈現(xiàn)出較好的分類性能，但在不平衡數(shù)據(jù)集中，由于多數(shù)類樣本遠(yuǎn)大于少數(shù)類樣本，故容易傾向于多數(shù)類而忽略少數(shù)類的貢獻(xiàn)。在不平衡數(shù)據(jù)問題中，人們更多地關(guān)注少數(shù)類的影響。因此，從算法層面建立少數(shù)類和多數(shù)類之間的錯(cuò)分矩陣，構(gòu)建基于代價(jià)敏感的分類模型具有實(shí)際意義。

1.2.1 代價(jià)敏感

代價(jià)敏感指在二分類問題上將一類樣本誤分為另一類樣本所產(chǎn)生的損失，可有效規(guī)避重采樣技術(shù)中可能造成多數(shù)類中重要信息丟失或少數(shù)類過擬合現(xiàn)象的缺陷。假設(shè)

和

分別表示少數(shù)類樣本和多數(shù)類樣本數(shù)量，則少數(shù)類和多數(shù)類的錯(cuò)分代價(jià)分別為：

例如，在個(gè)人信用評(píng)估中，失信用戶是需要重點(diǎn)關(guān)注的對(duì)象。針對(duì)分類器對(duì)失信用戶錯(cuò)分的代價(jià)遠(yuǎn)大于對(duì)信用良好用戶錯(cuò)分代價(jià)的問題，本文給予失信用戶更高的錯(cuò)分代價(jià)，即式（7）中Cos

遠(yuǎn)大于Cos

。

1.2.2 異質(zhì)集成分類模型

（1）Bagging集成算法。根據(jù)算法屬性是否一致，集成模型劃分為同質(zhì)集成模型和異質(zhì)集成模型。將基學(xué)習(xí)器之間依賴關(guān)系分為強(qiáng)依賴關(guān)系和弱依賴關(guān)系。強(qiáng)依賴關(guān)系的代表算法是Boosting系列算法，而弱依賴關(guān)系的代表算法是Bagging、隨機(jī)森林等算法。對(duì)于噪聲較大的數(shù)據(jù)集，隨機(jī)森林容易陷入過擬合。本文基于Bagging思想構(gòu)建集成模型，其算法流程如圖1所示。

Fig.1 Bagging algorithm flow圖1 Bagging算法流程

（2）基于L1和彈性網(wǎng)邏輯回歸的基模型。通常借助正則化思想來降低二元邏輯回歸模型的過擬合風(fēng)險(xiǎn)，即在基于極大似然估計(jì)得到的損失函數(shù)中加入正則項(xiàng)。常用的正則化包括L1正則化、L2正則化和彈性網(wǎng)正則化，對(duì)應(yīng)的損失函數(shù)分別為：

其中，

為懲罰項(xiàng)系數(shù)，

為常數(shù)系數(shù)，

為目標(biāo)變量

和輸入特征

的關(guān)系矩陣。由式（8）—式（10）可知，L1—邏輯回歸和彈性網(wǎng)-邏輯回歸相比L2—邏輯回歸，既可降低傳統(tǒng)邏輯回歸模型的過擬合風(fēng)險(xiǎn)，又能對(duì)特征全集進(jìn)行篩選以簡(jiǎn)化模型。

綜上，本文將邏輯回歸模型（包含文獻(xiàn)介紹了：L1—邏輯回歸和彈性網(wǎng)—邏輯回歸）、貝葉斯模型、決策樹模型和神經(jīng)網(wǎng)絡(luò)模型作為基模型構(gòu)建異質(zhì)集成模型，有助于規(guī)避單一基模型分類性能的偶然性，提高模型的泛化能力。

1.3 動(dòng)態(tài)加權(quán)投票策略

集成模型的投票策略包括相對(duì)多數(shù)投票法、絕對(duì)多數(shù)投票法和加權(quán)投票法，本文對(duì)加權(quán)投票法進(jìn)行改進(jìn)以實(shí)現(xiàn)動(dòng)態(tài)選取滿足精度條件的弱學(xué)習(xí)器。主要思想為：在正式投票之前，自動(dòng)過濾預(yù)測(cè)精度低于隨機(jī)猜想的弱學(xué)習(xí)器，并將剩余的弱學(xué)習(xí)器利用式（11）進(jìn)行加權(quán)投票，以確定最終的分類結(jié)果：

1.4 模型建立

本文通過集成IV、互信息、信息增益率和基尼指數(shù)的特征選擇算法生成最優(yōu)特征子集，并以L1—邏輯回歸、彈性網(wǎng)—邏輯回歸、貝葉斯、決策樹和神經(jīng)網(wǎng)絡(luò)作為基模型構(gòu)建個(gè)人信用評(píng)估分類模型，如圖2所示。

Fig.2 Personal credit assessment classification model combining cost sensitive and integrated algorithm圖2 結(jié)合代價(jià)敏感和集成算法的個(gè)人信用評(píng)估分類模型

2 實(shí)證分析

2.1 數(shù)據(jù)描述與預(yù)處理

本文數(shù)據(jù)來自Kaggle官網(wǎng)的Give Me Some Credit數(shù)據(jù)集，主要描述個(gè)人消費(fèi)類信用卡貸款數(shù)據(jù)。由表1可知，該數(shù)據(jù)集有離散型和連續(xù)型數(shù)據(jù)并存特點(diǎn)。其中，失信客戶（少數(shù)類）和信用良好客戶（多數(shù)類）分別為10 026個(gè)和139 975個(gè)，屬于不平衡數(shù)據(jù)集。

Table 1 Feature attribute description表1 特征屬性描述

在預(yù)處理數(shù)據(jù)時(shí)，首先計(jì)算各自變量的缺失比，小于5%者刪除對(duì)應(yīng)樣本，大于5%者使用均值插補(bǔ)法補(bǔ)全，得到少數(shù)類和多數(shù)類樣本分別為8 357個(gè)和111 912個(gè)；其次，為了消除不同量綱對(duì)特征的影響，采用極大極小歸一化法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理；最后，將數(shù)據(jù)集按8：2劃分為訓(xùn)練集和測(cè)試集。

2.2 實(shí)驗(yàn)設(shè)置

采用原始特征集、基于mRMR特征選擇算法以及集成型特征選擇方法構(gòu)建個(gè)人信用評(píng)估分類模型，對(duì)比其使用性能來驗(yàn)證本文集成模型的有效性，具體通過python代碼編程實(shí)現(xiàn)。

2.2.1 異質(zhì)集成分類模型

mRMR是常見的特征選擇算法之一，它同時(shí)考慮了特征間的冗余性以及特征與目標(biāo)變量的相關(guān)性，即選擇與目標(biāo)類別相關(guān)性最大、特征之間冗余性最小的特征子集。

假設(shè)特征集

中的第

個(gè)特征用

表示，則

與類別

之間最大相關(guān)最小冗余的度量方法如下：

其中，

(

，

)和

(

，

)分別表示特征

與類別

和特征

之間的相關(guān)性度量。

2.2.2 參數(shù)設(shè)置

為克服誤分類造成的代價(jià)敏感問題，多次調(diào)參后引入類權(quán)重參數(shù)class_weight。若迭代次數(shù)太少會(huì)導(dǎo)致模型不收斂，故設(shè)置max_iter=10 000。更多參數(shù)設(shè)置見表2。

Table 2 Integrated classification model parameter settings表2 集成分類模型參數(shù)設(shè)置

2.2.3 性能評(píng)價(jià)指標(biāo)

在個(gè)人信用評(píng)估研究中，金融機(jī)構(gòu)更加關(guān)注的是少數(shù)類樣本的預(yù)測(cè)準(zhǔn)確度。在不平衡數(shù)據(jù)問題中，對(duì)少數(shù)類和多數(shù)類的整體分類精度是衡量模型優(yōu)劣的重要標(biāo)志。下面基于混淆矩陣構(gòu)建評(píng)價(jià)模型性能指標(biāo)，如表3所示。

Table 3 Confusion matrix表3 混淆矩陣

其中，TP表示少數(shù)類樣本預(yù)測(cè)正確的數(shù)量，F(xiàn)N表示少數(shù)類樣本預(yù)測(cè)錯(cuò)誤的數(shù)量，F(xiàn)P表示多數(shù)類樣本預(yù)測(cè)錯(cuò)誤的數(shù)量，TN表示多數(shù)類樣本預(yù)測(cè)正確的數(shù)量。少數(shù)類樣本召回率

、多數(shù)類樣本召回率

、少數(shù)類樣本查準(zhǔn)率

、綜合分類預(yù)測(cè)能力G-means和少數(shù)類分類精確度Fvalue的定義分別表示如下：

考慮到少數(shù)類和多數(shù)類樣本的總體預(yù)測(cè)性能，Gmeans值越大說明模型綜合分類的預(yù)測(cè)性越強(qiáng)，可整體反應(yīng)模型對(duì)不平衡數(shù)據(jù)的分類性能。F-value考慮了少數(shù)類樣本的召回率和查準(zhǔn)率，能全面反映少數(shù)類樣本的分類精度，其值越大表明模型對(duì)于少數(shù)類樣本的識(shí)別能力越強(qiáng)。

2.3 個(gè)人信用數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與分析

在原始特征集中基于mRMR特征選擇算法和基于集成型特征選擇算法篩選出的特征子集見表4。從表4可以看出，無論從特征之間相關(guān)性、冗余性還是重要性角度，表4中的7個(gè)特征都與個(gè)人信用評(píng)估密切相關(guān)。

Table4 mRMR feature subset and integrated feature subset表4 mRMR特征子集與集成型特征子集

續(xù)表

分別將兩組特征子集的對(duì)應(yīng)數(shù)據(jù)作為集成模型的輸入，預(yù)測(cè)結(jié)果如表5所示。

Table 5 Integrated model and prediction results based on mRMR model and existing literatures表5 集成型模型與基于mRMR模型和已有文獻(xiàn)預(yù)測(cè)結(jié)果（%）

由表5可知，本文模型和基于mRMR特征選擇構(gòu)建的模型評(píng)價(jià)指標(biāo)均優(yōu)于基于原始特征全集模型評(píng)價(jià)指標(biāo)。事實(shí)上，相比基于原始特征全集構(gòu)建的模型，本文模型的G-means和F-value分別提升8%和18%，而基于mRMR特征選擇算法構(gòu)建模型的性能均提升1%，可見本文模型的分類效果較mRMR特征選擇算法模型有大幅提高。此外，與文獻(xiàn)［23］的實(shí)證結(jié)果相比，

降低了11.94%，

增加了15.43%，G-Means、F-value和AUC的性能分別提升10.76%、21.07%和0.64%。

的增加是以犧牲多數(shù)類樣本的正確預(yù)測(cè)為代價(jià)，這表明代價(jià)敏感算法和集成特征選擇算法的結(jié)合有效降低了多數(shù)類的影響，增強(qiáng)了少數(shù)類的重要性，從而提升了不平衡數(shù)據(jù)整體的分類效果，但AUC指標(biāo)提升較小。

3 結(jié)語

本文提出一種結(jié)合代價(jià)敏感和集成算法的異質(zhì)集成個(gè)人信用評(píng)估分類模型。首先借助Best-KS分箱將連續(xù)型數(shù)據(jù)離散化；然后利用IV、互信息、信息增益率和基尼指數(shù)集成特征選擇算法；接著基于代價(jià)敏感構(gòu)建L1邏輯回歸、彈性網(wǎng)邏輯回歸、貝葉斯、決策樹和神經(jīng)網(wǎng)絡(luò)基模型；最后通過G-means賦權(quán)，實(shí)現(xiàn)動(dòng)態(tài)加權(quán)投票策略。實(shí)證結(jié)果表明，本文模型的預(yù)測(cè)性能優(yōu)于基于原始特征集以及利用mRMR特征選擇后構(gòu)建的個(gè)人信用評(píng)估分類模型，具有一定的魯棒性。

利用本文模型將二分類問題推廣至多分類問題方案以進(jìn)一步提高模型分類性能是未來的研究方向。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

結(jié)合代價(jià)敏感與集成算法的個(gè)人信用評(píng)估模型

0 引言

1 相關(guān)理論

1.1 集成型特征選擇算法

1.2 基于代價(jià)敏感的異質(zhì)集成分類模型

1.3 動(dòng)態(tài)加權(quán)投票策略

1.4 模型建立

2 實(shí)證分析

2.1 數(shù)據(jù)描述與預(yù)處理

2.2 實(shí)驗(yàn)設(shè)置

2.3 個(gè)人信用數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與分析

3 結(jié)語