張怡,羅康洋,謝曉金
(1.上海工程技術(shù)大學(xué)數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620;2.華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062)
隨著貸款消費(fèi)的不斷發(fā)展,個(gè)人信用評(píng)估已成為銀行等金融機(jī)構(gòu)密切關(guān)注的熱點(diǎn)。截至2019年9月底,國(guó)民貸款消費(fèi)達(dá)到13.34萬億元,同比增長(zhǎng)17.4%。2019年底突然爆發(fā)的新冠肺炎疫情給全球經(jīng)濟(jì)增長(zhǎng)帶來嚴(yán)重沖擊,社會(huì)秩序面臨巨大挑戰(zhàn)。面對(duì)較多的不確定性,迫切需要加強(qiáng)金融風(fēng)險(xiǎn)監(jiān)測(cè)評(píng)估,關(guān)注金融風(fēng)險(xiǎn)邊際變化,積極穩(wěn)妥防范化解金融風(fēng)險(xiǎn)。目前中小微企業(yè)遭受不同程度的沖擊,不少雇員面臨降薪甚至失業(yè)的風(fēng)險(xiǎn),貸款償還能力大大削弱,金融風(fēng)險(xiǎn)壓力凸現(xiàn)。因此,對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估以便及時(shí)采取有效的規(guī)避措施,降低信用風(fēng)險(xiǎn)帶來的金融危機(jī)隱患顯得尤為重要。
個(gè)人信用評(píng)估是通過挖掘個(gè)人信用的指標(biāo)數(shù)據(jù)與失信狀態(tài)之間的關(guān)聯(lián)關(guān)系構(gòu)建模型,從而評(píng)估個(gè)人的信用風(fēng)險(xiǎn)。文獻(xiàn)[2-6]介紹了目前國(guó)內(nèi)外主要的個(gè)人信用評(píng)估模型,包括專家評(píng)分模型、統(tǒng)計(jì)評(píng)分模型和機(jī)器學(xué)習(xí)模型;嚴(yán)鴻和等從知識(shí)工程的基本思想出發(fā),分析了專家評(píng)分過程中的非線性規(guī)劃模型,用以確定權(quán)系數(shù);文獻(xiàn)[4]針對(duì)數(shù)據(jù)集特征變量進(jìn)行主成分分析,使降維后的變量無相關(guān)性,再對(duì)其進(jìn)行稀疏貝葉斯分類,得出PCA-SBL具有更高的分類性能的結(jié)論;Ma等針對(duì)個(gè)人信用評(píng)估問題,在隨機(jī)森林、LightGBM和支持向量機(jī)3個(gè)分類器上進(jìn)行加權(quán)投票組合,獲得了良好的分類精度;Shen等提出一種集成優(yōu)化模型用于個(gè)人信用風(fēng)險(xiǎn)評(píng)估。針對(duì)個(gè)人信用數(shù)據(jù)類不平衡問題,基于代價(jià)敏感的改進(jìn)算法應(yīng)運(yùn)而生。文獻(xiàn)[7]介紹了基于集成隨機(jī)森林(RF)、GBDT算法和XGBoost三種算法建立的個(gè)人信用評(píng)估模型,并依據(jù)相關(guān)多元評(píng)價(jià)指標(biāo)對(duì)個(gè)人信用評(píng)估進(jìn)行對(duì)比研究;文獻(xiàn)[8]介紹了基于代價(jià)敏感的改進(jìn)算法。
以上方法都未研究離散型和連續(xù)型并存使算法運(yùn)行性能降低的問題,以及不平衡數(shù)據(jù)導(dǎo)致模型的整體預(yù)測(cè)性能不高問題。為此,本文提出一種結(jié)合代價(jià)敏感和集成算法的分類模型,改進(jìn)了大樣本不平衡數(shù)據(jù)的分類性能,有效解決了離散型和連續(xù)型數(shù)據(jù)并存的問題,提高了個(gè)人信用評(píng)估效果。
特征選擇指從全部特征出發(fā),選擇符合一定評(píng)價(jià)條件的最佳特征子集,從而降低特征維度,減少模型擬合訓(xùn)練的復(fù)雜性。本文利用特征分箱將連續(xù)型數(shù)據(jù)離散化,借助去不平衡思想設(shè)計(jì)集成型特征選擇算法,將每個(gè)特征的信息價(jià)值(Information Value,IV)、互信息、信息增益和基尼指數(shù)累加后進(jìn)行排序,篩選出最優(yōu)子集,從而對(duì)類不平衡和屬性雜糅的個(gè)人信用數(shù)據(jù)進(jìn)行有效的特征選擇。
1.1.1 基于IV的特征選擇
在監(jiān)督學(xué)習(xí)中WOE(Weight of evidence,WOE)是自變量的一種編碼形式。假設(shè)p
(p
)是第i
箱中少(多)數(shù)類樣本占所有少(多)數(shù)類樣本的比例,則第i
箱的WOE值為:B
和G
分別為第i
箱中累積失信用戶和累積信用良好用戶的數(shù)量,B
和G
分別為所有失信用戶和所有信用良好用戶的數(shù)量。IV指信息數(shù)據(jù)的價(jià)值,即:
IV常用于對(duì)不同特征的預(yù)測(cè)能力進(jìn)行評(píng)估,IV越大,則該特征的預(yù)測(cè)準(zhǔn)確度越高。但當(dāng)IV大于0.5時(shí),有過擬合的風(fēng)險(xiǎn)。
基于IV的特征選擇步驟為:1使用Best-KS分箱將連續(xù)型數(shù)據(jù)離散化;2對(duì)離散化后的數(shù)據(jù)進(jìn)行WOE編碼;3結(jié)合每個(gè)分箱及其對(duì)應(yīng)的WOE計(jì)算IV,并將其作為特征選擇的指標(biāo)之一。文獻(xiàn)[12]介紹了針對(duì)連續(xù)型特征的分箱操作,包括等頻、等距和Best-KS最優(yōu)分箱。等頻和等距分箱在不平衡數(shù)據(jù)中存在易偏向多數(shù)類的局限,因此本文采用Best-KS最優(yōu)分箱算法。
1.1.2 基于互信息的特征選擇
信息熵是消除不確定性所需信息量的度量,在圖像處理、人工智能、數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用廣泛。對(duì)于任意的特征變量X
,信息熵為:p
=P
(X
=x
),i
=1,2,...,N
,下同?;バ畔⒈举|(zhì)是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測(cè)度,通常用于特征和類別之間的測(cè)度。對(duì)于任意的特征變量X
和類別Y
,互信息為:p
=P
(Y
=y
),p
=P
(X
=x
,Y
=y
),i
=1,2,...,N
,j
=1,2,...,M
。I
(X
;Y
)越大,特征X
的分類能力越強(qiáng),反之,其分類能力越弱。在不平衡數(shù)據(jù)問題中,基于互信息的特征選擇容易傾向于多數(shù)類。1.1.3 基于信息增益率的特征選擇
信息增益率是互信息與特征信息熵之比。在分類判別中,其信息增益率為:
I
(X
,Y
)越大,其分類能力越強(qiáng),反之,則分類能力越弱。信息增益率可以克服互信息偏向取值較多一方的弊端,但是其不足之處在于可能存在偏向取值較少一方的隱患。1.1.4 基于基尼指數(shù)的特征選擇
基尼指數(shù)是隨機(jī)檢測(cè)樣本被錯(cuò)分的最大概率,旨在刻畫特征的不純度,其定義如下:
Gini
(X
)越小,則特征的不純度越低,特征越好?;嶂笖?shù)在一定程度上可以規(guī)避互信息和信息增益率的兩種偏向誤差,從而最小化錯(cuò)誤率。傳統(tǒng)的分類模型在分布均衡的數(shù)據(jù)集上呈現(xiàn)出較好的分類性能,但在不平衡數(shù)據(jù)集中,由于多數(shù)類樣本遠(yuǎn)大于少數(shù)類樣本,故容易傾向于多數(shù)類而忽略少數(shù)類的貢獻(xiàn)。在不平衡數(shù)據(jù)問題中,人們更多地關(guān)注少數(shù)類的影響。因此,從算法層面建立少數(shù)類和多數(shù)類之間的錯(cuò)分矩陣,構(gòu)建基于代價(jià)敏感的分類模型具有實(shí)際意義。
1.2.1 代價(jià)敏感
代價(jià)敏感指在二分類問題上將一類樣本誤分為另一類樣本所產(chǎn)生的損失,可有效規(guī)避重采樣技術(shù)中可能造成多數(shù)類中重要信息丟失或少數(shù)類過擬合現(xiàn)象的缺陷。假設(shè)n
和n
分別表示少數(shù)類樣本和多數(shù)類樣本數(shù)量,則少數(shù)類和多數(shù)類的錯(cuò)分代價(jià)分別為:tP
遠(yuǎn)大于CostN
。1.2.2 異質(zhì)集成分類模型
(1)Bagging集成算法。根據(jù)算法屬性是否一致,集成模型劃分為同質(zhì)集成模型和異質(zhì)集成模型。將基學(xué)習(xí)器之間依賴關(guān)系分為強(qiáng)依賴關(guān)系和弱依賴關(guān)系。強(qiáng)依賴關(guān)系的代表算法是Boosting系列算法,而弱依賴關(guān)系的代表算法是Bagging、隨機(jī)森林等算法。對(duì)于噪聲較大的數(shù)據(jù)集,隨機(jī)森林容易陷入過擬合。本文基于Bagging思想構(gòu)建集成模型,其算法流程如圖1所示。
Fig.1 Bagging algorithm flow圖1 Bagging算法流程
(2)基于L1和彈性網(wǎng)邏輯回歸的基模型。通常借助正則化思想來降低二元邏輯回歸模型的過擬合風(fēng)險(xiǎn),即在基于極大似然估計(jì)得到的損失函數(shù)中加入正則項(xiàng)。常用的正則化包括L1正則化、L2正則化和彈性網(wǎng)正則化,對(duì)應(yīng)的損失函數(shù)分別為:
C
為懲罰項(xiàng)系數(shù),ρ
為常數(shù)系數(shù),θ
為目標(biāo)變量y
和輸入特征x
的關(guān)系矩陣。由式(8)—式(10)可知,L1—邏輯回歸和彈性網(wǎng)-邏輯回歸相比L2—邏輯回歸,既可降低傳統(tǒng)邏輯回歸模型的過擬合風(fēng)險(xiǎn),又能對(duì)特征全集進(jìn)行篩選以簡(jiǎn)化模型。綜上,本文將邏輯回歸模型(包含文獻(xiàn)介紹了:L1—邏輯回歸和彈性網(wǎng)—邏輯回歸)、貝葉斯模型、決策樹模型和神經(jīng)網(wǎng)絡(luò)模型作為基模型構(gòu)建異質(zhì)集成模型,有助于規(guī)避單一基模型分類性能的偶然性,提高模型的泛化能力。
集成模型的投票策略包括相對(duì)多數(shù)投票法、絕對(duì)多數(shù)投票法和加權(quán)投票法,本文對(duì)加權(quán)投票法進(jìn)行改進(jìn)以實(shí)現(xiàn)動(dòng)態(tài)選取滿足精度條件的弱學(xué)習(xí)器。主要思想為:在正式投票之前,自動(dòng)過濾預(yù)測(cè)精度低于隨機(jī)猜想的弱學(xué)習(xí)器,并將剩余的弱學(xué)習(xí)器利用式(11)進(jìn)行加權(quán)投票,以確定最終的分類結(jié)果:
本文通過集成IV、互信息、信息增益率和基尼指數(shù)的特征選擇算法生成最優(yōu)特征子集,并以L1—邏輯回歸、彈性網(wǎng)—邏輯回歸、貝葉斯、決策樹和神經(jīng)網(wǎng)絡(luò)作為基模型構(gòu)建個(gè)人信用評(píng)估分類模型,如圖2所示。
Fig.2 Personal credit assessment classification model combining cost sensitive and integrated algorithm圖2 結(jié)合代價(jià)敏感和集成算法的個(gè)人信用評(píng)估分類模型
本文數(shù)據(jù)來自Kaggle官網(wǎng)的Give Me Some Credit數(shù)據(jù)集,主要描述個(gè)人消費(fèi)類信用卡貸款數(shù)據(jù)。由表1可知,該數(shù)據(jù)集有離散型和連續(xù)型數(shù)據(jù)并存特點(diǎn)。其中,失信客戶(少數(shù)類)和信用良好客戶(多數(shù)類)分別為10 026個(gè)和139 975個(gè),屬于不平衡數(shù)據(jù)集。
Table 1 Feature attribute description表1 特征屬性描述
在預(yù)處理數(shù)據(jù)時(shí),首先計(jì)算各自變量的缺失比,小于5%者刪除對(duì)應(yīng)樣本,大于5%者使用均值插補(bǔ)法補(bǔ)全,得到少數(shù)類和多數(shù)類樣本分別為8 357個(gè)和111 912個(gè);其次,為了消除不同量綱對(duì)特征的影響,采用極大極小歸一化法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;最后,將數(shù)據(jù)集按8:2劃分為訓(xùn)練集和測(cè)試集。
采用原始特征集、基于mRMR特征選擇算法以及集成型特征選擇方法構(gòu)建個(gè)人信用評(píng)估分類模型,對(duì)比其使用性能來驗(yàn)證本文集成模型的有效性,具體通過python代碼編程實(shí)現(xiàn)。
2.2.1 異質(zhì)集成分類模型
mRMR是常見的特征選擇算法之一,它同時(shí)考慮了特征間的冗余性以及特征與目標(biāo)變量的相關(guān)性,即選擇與目標(biāo)類別相關(guān)性最大、特征之間冗余性最小的特征子集。
假設(shè)特征集S
中的第i
個(gè)特征用f
表示,則S
與類別c
之間最大相關(guān)最小冗余的度量方法如下:I
(f
,c
)和I
(f
,f
)分別表示特征f
與類別c
和特征f
之間的相關(guān)性度量。2.2.2 參數(shù)設(shè)置
為克服誤分類造成的代價(jià)敏感問題,多次調(diào)參后引入類權(quán)重參數(shù)class_weight。若迭代次數(shù)太少會(huì)導(dǎo)致模型不收斂,故設(shè)置max_iter=10 000。更多參數(shù)設(shè)置見表2。
Table 2 Integrated classification model parameter settings表2 集成分類模型參數(shù)設(shè)置
2.2.3 性能評(píng)價(jià)指標(biāo)
在個(gè)人信用評(píng)估研究中,金融機(jī)構(gòu)更加關(guān)注的是少數(shù)類樣本的預(yù)測(cè)準(zhǔn)確度。在不平衡數(shù)據(jù)問題中,對(duì)少數(shù)類和多數(shù)類的整體分類精度是衡量模型優(yōu)劣的重要標(biāo)志。下面基于混淆矩陣構(gòu)建評(píng)價(jià)模型性能指標(biāo),如表3所示。
Table 3 Confusion matrix表3 混淆矩陣
其中,TP表示少數(shù)類樣本預(yù)測(cè)正確的數(shù)量,F(xiàn)N表示少數(shù)類樣本預(yù)測(cè)錯(cuò)誤的數(shù)量,F(xiàn)P表示多數(shù)類樣本預(yù)測(cè)錯(cuò)誤的數(shù)量,TN表示多數(shù)類樣本預(yù)測(cè)正確的數(shù)量。少數(shù)類樣本召回率rr
、多數(shù)類樣本召回率rr
、少數(shù)類樣本查準(zhǔn)率pr
、綜合分類預(yù)測(cè)能力G-means和少數(shù)類分類精確度Fvalue的定義分別表示如下:考慮到少數(shù)類和多數(shù)類樣本的總體預(yù)測(cè)性能,Gmeans值越大說明模型綜合分類的預(yù)測(cè)性越強(qiáng),可整體反應(yīng)模型對(duì)不平衡數(shù)據(jù)的分類性能。F-value考慮了少數(shù)類樣本的召回率和查準(zhǔn)率,能全面反映少數(shù)類樣本的分類精度,其值越大表明模型對(duì)于少數(shù)類樣本的識(shí)別能力越強(qiáng)。
在原始特征集中基于mRMR特征選擇算法和基于集成型特征選擇算法篩選出的特征子集見表4。從表4可以看出,無論從特征之間相關(guān)性、冗余性還是重要性角度,表4中的7個(gè)特征都與個(gè)人信用評(píng)估密切相關(guān)。
Table4 mRMR feature subset and integrated feature subset表4 mRMR特征子集與集成型特征子集
續(xù)表
分別將兩組特征子集的對(duì)應(yīng)數(shù)據(jù)作為集成模型的輸入,預(yù)測(cè)結(jié)果如表5所示。
Table 5 Integrated model and prediction results based on mRMR model and existing literatures表5 集成型模型與基于mRMR模型和已有文獻(xiàn)預(yù)測(cè)結(jié)果 (%)
由表5可知,本文模型和基于mRMR特征選擇構(gòu)建的模型評(píng)價(jià)指標(biāo)均優(yōu)于基于原始特征全集模型評(píng)價(jià)指標(biāo)。事實(shí)上,相比基于原始特征全集構(gòu)建的模型,本文模型的G-means和F-value分別提升8%和18%,而基于mRMR特征選擇算法構(gòu)建模型的性能均提升1%,可見本文模型的分類效果較mRMR特征選擇算法模型有大幅提高。此外,與文獻(xiàn)[23]的實(shí)證結(jié)果相比,rr
降低了11.94%,rr
增加了15.43%,G-Means、F-value和AUC的性能分別提升10.76%、21.07%和0.64%。rr
的增加是以犧牲多數(shù)類樣本的正確預(yù)測(cè)為代價(jià),這表明代價(jià)敏感算法和集成特征選擇算法的結(jié)合有效降低了多數(shù)類的影響,增強(qiáng)了少數(shù)類的重要性,從而提升了不平衡數(shù)據(jù)整體的分類效果,但AUC指標(biāo)提升較小。本文提出一種結(jié)合代價(jià)敏感和集成算法的異質(zhì)集成個(gè)人信用評(píng)估分類模型。首先借助Best-KS分箱將連續(xù)型數(shù)據(jù)離散化;然后利用IV、互信息、信息增益率和基尼指數(shù)集成特征選擇算法;接著基于代價(jià)敏感構(gòu)建L1邏輯回歸、彈性網(wǎng)邏輯回歸、貝葉斯、決策樹和神經(jīng)網(wǎng)絡(luò)基模型;最后通過G-means賦權(quán),實(shí)現(xiàn)動(dòng)態(tài)加權(quán)投票策略。實(shí)證結(jié)果表明,本文模型的預(yù)測(cè)性能優(yōu)于基于原始特征集以及利用mRMR特征選擇后構(gòu)建的個(gè)人信用評(píng)估分類模型,具有一定的魯棒性。
利用本文模型將二分類問題推廣至多分類問題方案以進(jìn)一步提高模型分類性能是未來的研究方向。