趙迎 何華 吳超
摘要:在金融市場(chǎng)中,互聯(lián)網(wǎng)征信是規(guī)避損失風(fēng)險(xiǎn)的重要參考依據(jù),其中違約用戶識(shí)別率的準(zhǔn)確性對(duì)征信來(lái)說(shuō)則更為重要。從這一角度出發(fā),本文提出了改進(jìn)的隨機(jī)森林算法(CS-RF)。利用金融公司的實(shí)際數(shù)據(jù),從隨機(jī)森林原模型基礎(chǔ)上加以改進(jìn),在訓(xùn)練樣本生成決策樹后引入代價(jià)敏感函數(shù),為多類樣本和少類樣本的錯(cuò)誤分類賦予不同的代價(jià),搜索出更優(yōu)的決策樹集成。通過(guò)實(shí)證分析,將預(yù)測(cè)結(jié)果與Logistic回歸模型,決策樹,傳統(tǒng)隨機(jī)森林,BP神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比,得出CS-RF模型預(yù)測(cè)效果最優(yōu)。
關(guān)鍵詞:互聯(lián)網(wǎng)征信 隨機(jī)森林 非平衡樣本 代價(jià)敏感函數(shù)
一、引言
隨著互聯(lián)網(wǎng)金融快速發(fā)展,各種信貸新模式不斷挑戰(zhàn)傳統(tǒng)金融領(lǐng)域。新型金融業(yè)態(tài)層出不窮,P2P網(wǎng)絡(luò)借貸,微額借貸,眾籌,互聯(lián)網(wǎng)公司上線金融借貸業(yè)務(wù)等,這些新模式推動(dòng)了信貸模式的轉(zhuǎn)型,互聯(lián)網(wǎng)金融新經(jīng)濟(jì)對(duì)信用風(fēng)險(xiǎn)評(píng)價(jià)提出了更高的要求。從廣義上來(lái)說(shuō),互聯(lián)網(wǎng)征信是指采集用戶在互聯(lián)網(wǎng)金融服務(wù)以及互聯(lián)網(wǎng)其他服務(wù)過(guò)程中留存下來(lái)的信息和數(shù)據(jù),并結(jié)合線下渠道采集的公共信息數(shù)據(jù),利用云計(jì)算,機(jī)器學(xué)習(xí)等技術(shù)手段進(jìn)行信用評(píng)估和評(píng)價(jià)的活動(dòng)?;ヂ?lián)網(wǎng)征信相對(duì)于傳統(tǒng)征信,數(shù)據(jù)上實(shí)時(shí)動(dòng)態(tài)性更強(qiáng),時(shí)時(shí)產(chǎn)生互聯(lián)網(wǎng)行為數(shù)據(jù)信用評(píng)估,即時(shí)反映用戶信用水平變化。評(píng)估指標(biāo)上來(lái)源更加豐富,更能反映綜合信用水平,具有較強(qiáng)的社會(huì)性。技術(shù)手段上更加多元化,傳統(tǒng)統(tǒng)計(jì)學(xué)方法與新興機(jī)器學(xué)習(xí)相融合,云計(jì)算與分布式計(jì)算的發(fā)展,更是為互聯(lián)網(wǎng)征信的運(yùn)行提供了技術(shù)保障。
隨著機(jī)器學(xué)習(xí)方法的普遍應(yīng)用,已經(jīng)有許多文獻(xiàn)把機(jī)器學(xué)習(xí)方法與統(tǒng)計(jì)學(xué)方法用于信用評(píng)估模型的建立,主要的方法包括神經(jīng)網(wǎng)絡(luò),貝葉斯網(wǎng)絡(luò)[1],SVM[2],Logistic回歸[3],隨機(jī)森林等。相關(guān)研究表明,對(duì)不同的算法進(jìn)行有效組合形成一系列互補(bǔ)型的集成算法,預(yù)測(cè)效果優(yōu)于單一算法。Yu et al.[2]研究了基于支持向量機(jī)的多主體集成學(xué)習(xí)方法進(jìn)行風(fēng)險(xiǎn)評(píng)估的預(yù)測(cè),根據(jù)數(shù)據(jù)集多樣性,參數(shù)多樣性,核函數(shù)多樣性建立了支持向量機(jī)不同組合的集成方法,并利用數(shù)據(jù)對(duì)違約情況進(jìn)行了預(yù)測(cè),實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)性能要優(yōu)于單一原始算法模型。Xiao et al.[4]實(shí)證分析了在信用評(píng)估的應(yīng)用中,隨機(jī)森林比KNN,RBF-NET,SVM等單一算法以及GBDT算法更精準(zhǔn)和穩(wěn)定。Zhou et al.[5]提出了選擇性集成的概念,是指在已有分類器中依據(jù)某種策略選擇一部分作為集成。相對(duì)于單一學(xué)習(xí)方法的預(yù)測(cè)精度不夠高,泛化性能不夠好的缺點(diǎn),集成學(xué)習(xí)技術(shù)本身在很多方面都具有優(yōu)越性,但并不能做到對(duì)所有樣本的平等對(duì)待。如Wang et al.[6]利用遺傳算法對(duì)隨機(jī)森林中的決策樹進(jìn)行進(jìn)化搜索,選出決策樹的滿意組合,這些決策樹再以某種策略相結(jié)合構(gòu)成新的集成。通過(guò)對(duì)隨機(jī)森林算法的優(yōu)化,即便在最后分類結(jié)果的準(zhǔn)確率上有所提升,但是對(duì)于少類樣本的精準(zhǔn)識(shí)別率并不是很高,這是很多算法不能解決的。
在非平衡樣本分類問(wèn)題中,通常會(huì)出現(xiàn)兩類錯(cuò)誤,第一類錯(cuò)誤是將多類樣本錯(cuò)誤預(yù)測(cè)為少類樣本,第二類錯(cuò)誤是將少類樣本錯(cuò)誤預(yù)測(cè)為多類樣本。在信用數(shù)據(jù)中,少類樣本為違約樣本,多類樣本為未違約樣本。多數(shù)文獻(xiàn)中,為提高總體準(zhǔn)確率,會(huì)出現(xiàn)忽視第二類錯(cuò)誤的問(wèn)題。可以發(fā)現(xiàn)有些模型經(jīng)過(guò)改進(jìn)后,預(yù)測(cè)準(zhǔn)確率達(dá)到了95.58%,但由于信用數(shù)據(jù)的非平衡性,導(dǎo)致有大量第二類錯(cuò)誤發(fā)生。對(duì)于金融服務(wù)公司來(lái)說(shuō),第二類錯(cuò)誤帶來(lái)的風(fēng)險(xiǎn)損失要遠(yuǎn)遠(yuǎn)高于第一類錯(cuò)誤。本文對(duì)模型進(jìn)行優(yōu)化,提出隨機(jī)森林改進(jìn)模型CS-RF,旨在控制和降低第二類錯(cuò)誤的發(fā)生率。CS-RF模型引入代價(jià)敏感函數(shù),以期望代價(jià)最小為原則選擇最優(yōu)分類器組合。在保證總體準(zhǔn)確率不下降的情況下,提升違約用戶的預(yù)測(cè)準(zhǔn)確率。
二、模型與算法改進(jìn)
(一)隨機(jī)森林的生成
隨機(jī)森林由LeoBreiman(2001)[7]提出,是一種集成學(xué)習(xí)技術(shù),由大量決策樹的聚合組成,與單個(gè)決策樹相比,這種聚合形式導(dǎo)致方差減小?;驹硎怯肂agging的方式把眾多的決策樹組合起來(lái),最終得到一個(gè)龐大的決策模型[8]。
隨機(jī)森林算法訓(xùn)練過(guò)程具體步驟如下:
步驟1:原始訓(xùn)練集為N,應(yīng)用bootstrap法有放回地隨機(jī)抽取k個(gè)新的自助樣本集,并由此構(gòu)建k棵分類樹,每次未被抽到的樣本組成了k個(gè)袋外數(shù)據(jù);
步驟2:設(shè)有mall個(gè)特征,則在每一棵樹的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)特征,然后在mtry中選擇一個(gè)最具有分類能力的特征,特征分類的閾值通過(guò)檢查每一個(gè)分類點(diǎn)確定;
步驟3:每棵樹最大限度地生長(zhǎng),不做任何修剪;
步驟4:將生成的多棵分類樹組成隨機(jī)森林,用隨機(jī)森林分類器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類,分類結(jié)果按樹分類器的投票多少而定。
(二)改進(jìn)隨機(jī)森林(CS-RF)的構(gòu)建
如上所述,隨機(jī)森林算法的泛化能力比較強(qiáng),而且可以進(jìn)行并行運(yùn)算,計(jì)算效率有明顯優(yōu)勢(shì),在諸多領(lǐng)域的預(yù)測(cè)精度也都很高。盡管如此,隨機(jī)森林模型應(yīng)用在信貸數(shù)據(jù)上仍然存在著一定的不足。信貸數(shù)據(jù)是典型的非平衡樣本,非平衡樣本是指在數(shù)據(jù)樣本中某些類的樣本數(shù)量要遠(yuǎn)遠(yuǎn)少于其他類,正如信貸樣本中未違約用戶的數(shù)量是遠(yuǎn)遠(yuǎn)多于違約用戶的。而Silke在研究中指出隨機(jī)森林對(duì)于非平衡樣本進(jìn)行預(yù)測(cè)時(shí),分類結(jié)果會(huì)偏向多類樣本[9]。金融公司需要的則是對(duì)少類樣本的識(shí)別,因?yàn)檫`約行為預(yù)測(cè)為非違約時(shí)帶來(lái)的損失是遠(yuǎn)遠(yuǎn)超過(guò)對(duì)未違約行為進(jìn)行審查的成本的。因此,針對(duì)隨機(jī)森林模型在信貸樣本這方面的不足,本文引入代價(jià)敏感學(xué)習(xí)從而進(jìn)行改進(jìn)。通過(guò)設(shè)置代價(jià)矩陣,對(duì)兩類錯(cuò)誤設(shè)置不同的代價(jià),提高違約樣本預(yù)測(cè)時(shí)出現(xiàn)誤分的代價(jià),采用平均誤分代價(jià)最小的原則搜索出最優(yōu)的分類決策樹,以投票策略結(jié)合,生成最終的新隨機(jī)森林。
代價(jià)敏感學(xué)習(xí)算法是根據(jù)不同錯(cuò)誤分類產(chǎn)生的代價(jià)引入不同的懲罰因子,并選擇總體錯(cuò)誤分類代價(jià)最小或平均錯(cuò)誤分類代價(jià)最小的原理來(lái)設(shè)計(jì)分類器[10]。例如二元分類問(wèn)題,正類樣本預(yù)測(cè)為正類稱為真正例(True Positive,TP,也稱真陽(yáng)),反類樣本預(yù)測(cè)為反類稱為真反例(True Negative,TN,也稱真陰),相應(yīng)地,另外兩種情況分別稱為偽反例(False Negative,F(xiàn)N,也稱假陰)和偽正例(False Positive,F(xiàn)P,也稱假陽(yáng))。錯(cuò)誤分類代價(jià)所用的代價(jià)矩陣可以設(shè)置為如表1所示。
三、實(shí)證分析
(一)數(shù)據(jù)準(zhǔn)備
本次實(shí)驗(yàn)所用的數(shù)據(jù)來(lái)自某微額金融信息服務(wù)有限公司的微額借款用戶人的借貸數(shù)據(jù)。目的是通過(guò)對(duì)實(shí)際借款數(shù)據(jù)進(jìn)行建模分析申請(qǐng)用戶的信用狀況,預(yù)測(cè)其未來(lái)是否會(huì)違約。本次所用到的一共有15000條觀測(cè)數(shù)據(jù),其中包含1138個(gè)特征和一個(gè)結(jié)果標(biāo)簽,標(biāo)簽1的為正樣本,表示不會(huì)違約,標(biāo)簽為0的為負(fù)樣本,表示會(huì)違約。1138個(gè)特征經(jīng)過(guò)脫敏處理,在實(shí)驗(yàn)之前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,通過(guò)不同的算法對(duì)數(shù)據(jù)集進(jìn)行分析,證明CS-RF模型有更好的效果。
(二)實(shí)驗(yàn)設(shè)置
果越好,但同時(shí)計(jì)算復(fù)雜度也會(huì)增加,而且隨著樹個(gè)數(shù)的增加,效果的提升是遞減的,結(jié)合錯(cuò)誤率與復(fù)雜度決策樹的個(gè)數(shù)設(shè)置為500。在代價(jià)敏感學(xué)習(xí)中,TP和TN的代價(jià)設(shè)為0,F(xiàn)P的錯(cuò)誤分類代價(jià)因子始終為1(也就是),通過(guò)調(diào)節(jié)FN的誤分類代價(jià)因子來(lái)改變平均誤差代價(jià),分別計(jì)算值為1,2,4,8,16,32,64時(shí)的結(jié)果。通過(guò)實(shí)驗(yàn)計(jì)算發(fā)現(xiàn)時(shí)效果最好,因此,決策樹生成時(shí)以平均誤差代價(jià)最小化為原則進(jìn)行搜索。
預(yù)測(cè)模型的好壞需要適合的衡量指標(biāo)來(lái)評(píng)估。本次實(shí)驗(yàn)采用常用的評(píng)價(jià)指標(biāo):敏感性,特異性,準(zhǔn)確性,AUC值,混淆矩陣來(lái)描述詳細(xì)結(jié)果。
四、結(jié)論
互聯(lián)網(wǎng)征信已經(jīng)成為金融市場(chǎng)領(lǐng)域的一個(gè)研究熱點(diǎn)。在信貸風(fēng)險(xiǎn)評(píng)價(jià)分析中信貸數(shù)據(jù)為非平衡樣本,第二類錯(cuò)誤的發(fā)生率會(huì)偏高,但對(duì)于金融公司來(lái)說(shuō),第二類錯(cuò)誤造成的代價(jià)是遠(yuǎn)遠(yuǎn)超于第一類錯(cuò)誤的。傳統(tǒng)隨機(jī)森林無(wú)法區(qū)分兩類錯(cuò)誤,針對(duì)這一問(wèn)題,本文將代價(jià)敏感學(xué)習(xí)引入隨機(jī)森林中,為兩類錯(cuò)誤賦予不同的代價(jià),得出更優(yōu)的決策樹集成。改進(jìn)后隨機(jī)森林模型保持原有的預(yù)測(cè)效果,在精度上有所提高,考慮上對(duì)未違約用戶和違約用戶錯(cuò)誤分類的實(shí)際代價(jià),為金融公司降低損失風(fēng)險(xiǎn)提供決策,具有現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1]李旭升,郭春香,陳凱亞.最小總風(fēng)險(xiǎn)準(zhǔn)則的貝葉斯網(wǎng)絡(luò)個(gè)人信用評(píng)估模型[J].計(jì)算機(jī)應(yīng)用研究,2009,26(1):50-58.
[2]Lean Yu,Wuyi Yue,Shouyang Wang,etal. Support vector machine based multiagent ensemble learning for credit risk evaluation[J]. Expert Systems with Applications,2010,37:1351–1360.
[3]方匡南,范新妍.基于網(wǎng)絡(luò)結(jié)構(gòu)Logistic模型的企業(yè)風(fēng)險(xiǎn)預(yù)警[J].統(tǒng)計(jì)研究,2016,33(4):50-55.
[4]蕭超武等.基于隨機(jī)森林的個(gè)人信用評(píng)估模型研究及實(shí)證分析[J].管理現(xiàn)代化,2014,(06),111-113.
[5]Zhihua Zhou. Ensemble methods:foundations and
algorithms[M]. Boca Raton:CRC Press,2012.72-73.
[6]Jin-Hyuk Hong,Sung-Bae Cho. The classification
of cancer based on DNA microarray data that uses diverse ensemble genetic programming[J]. Artificial Intelligence in Medicine,2006,36(1):43-58.
[7]Breiman L. Random forest[J]. Machine Learning,2001,45(1):5-32.
[8]Alam M S,Vuong S T. Random forest classification for detecting android malware[C]. Green Computing and Communications.2013:663-669.
[9]Silke Janitza,Carolin Strobl,Anne-Laure Boulesteix.
An AUC-based permutation variable importance measure for
randomforest[J]. BMC Bioinformatics,2013,14(1):119-130.
[10]Peter Harrington. Machine learning in action[M]. Beijing:PTPRESS,2013.127-133.
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(11471218)。
(作者單位:趙迎、何華任職于河北工業(yè)大學(xué);吳超任職于中國(guó)人民銀行天津分行)