張 濤,汪御寒,李 凱,張玥杰
(1.上海財(cái)經(jīng)大學(xué)信息管理與工程學(xué)院,上海200433;2.上海財(cái)經(jīng)大學(xué)上海市金融信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,上海200433;3.復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海200433;4.復(fù)旦大學(xué)上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室,上海200433)
隨著金融業(yè)的發(fā)展,其服務(wù)范圍和方式日益豐富。聯(lián)合國(guó)于2005年提出普惠金融的概念,小微企業(yè)是普惠金融重點(diǎn)關(guān)注對(duì)象之一。我國(guó)近年來加大了對(duì)小微企業(yè)的扶持力度,鼓勵(lì)商業(yè)銀行對(duì)小微企業(yè)的借貸服務(wù)。小微企業(yè)本身暗含較高的風(fēng)險(xiǎn),建立科學(xué)的信用評(píng)估系統(tǒng)對(duì)風(fēng)險(xiǎn)進(jìn)行精準(zhǔn)判別,對(duì)金融機(jī)構(gòu)來說至關(guān)重要。一般金融機(jī)構(gòu)對(duì)小微企業(yè)風(fēng)控嚴(yán)苛,導(dǎo)致可用的違約客戶數(shù)據(jù)集規(guī)模較小,類別不平衡程度較高?;谶@類信息不充分的數(shù)據(jù)集,構(gòu)建泛化性能較好的模型具有較高的理論和應(yīng)用價(jià)值,有助于金融機(jī)構(gòu)識(shí)別劣質(zhì)客戶,更好地服務(wù)優(yōu)質(zhì)客戶,從而促進(jìn)市場(chǎng)經(jīng)濟(jì)的發(fā)展。
國(guó)內(nèi)外對(duì)于信用評(píng)估已有較豐富的研究,主要根據(jù)一些財(cái)務(wù)指標(biāo)計(jì)算結(jié)合專家意見形成模型,而今,結(jié)合機(jī)器學(xué)習(xí)技術(shù)建模已成趨勢(shì)。West[1]建立了基于神經(jīng)網(wǎng)絡(luò)的信用評(píng)估模型,指出多專家模型和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型有更好的表現(xiàn)。肖文兵等[2]使用SVM(support vector machine)進(jìn)行個(gè)人信用評(píng)估,取得了較高的分類準(zhǔn)確率。Bhattacharyya等[3]使用SVM算法、隨機(jī)森林算法和邏輯回歸算法對(duì)信用卡欺詐數(shù)據(jù)分類預(yù)測(cè)。鄧超等[4]利用貝葉斯界定折疊法有效解決因樣本有偏引起的小企業(yè)信用評(píng)分模型分類能力喪失問題,增強(qiáng)了對(duì)樣本填補(bǔ)率和模型分類能力。Lessmann等[5]系統(tǒng)闡釋了信用評(píng)估領(lǐng)域的研究近況,指出異質(zhì)集成學(xué)習(xí)的優(yōu)越性。肖斌卿等[6]提出基于模糊神經(jīng)網(wǎng)絡(luò)開展小微企業(yè)信用評(píng)級(jí)研究,以某農(nóng)村商業(yè)銀行小微企業(yè)信貸微觀數(shù)據(jù)為樣本,實(shí)證驗(yàn)證了模型在小微企業(yè)信用評(píng)級(jí)中可獲得更高的精度。為提高模型預(yù)測(cè)精度,在特征篩選方面,學(xué)者們做了不同方面的研究。熊志斌[7]提 出 在 傳 統(tǒng) CFS(correlation-based feature selection)算法中引入Gebelein最大相關(guān)系數(shù),結(jié)合支持向量機(jī),構(gòu)建了GCFS-SVM(Gebelein CFSSVM)模型,該模型可對(duì)非線性數(shù)據(jù)進(jìn)行有效的特征提取,分類預(yù)測(cè)效果較好。Vlasselaer等[8]提出同時(shí)關(guān)注數(shù)據(jù)內(nèi)在特征和交易關(guān)系網(wǎng)絡(luò)特征的特征提取方法,結(jié)合邏輯回歸、神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林建模,獲取了對(duì)異常交易較好的識(shí)別效果。Dahiya等[9]將特征選擇和混合Bagging(bootstrap aggregating)模型結(jié)合,使用卡方檢驗(yàn)對(duì)非數(shù)值型數(shù)據(jù)進(jìn)行特征篩選,而對(duì)于數(shù)值型數(shù)據(jù),使用主成分分析。Chen等[10]分別將 LDA(latent dirichlet allocation)、決策樹、粗糙集以及F-score方法和SVM結(jié)合構(gòu)建模型,提升了單個(gè)SVM模型的性能。特征篩選通常能在數(shù)據(jù)維數(shù)大、信息冗余的情況下提升模型性能,而建模面對(duì)的數(shù)據(jù)集信息有時(shí)是不完全的,Guo等[11]詳細(xì)介紹了信用風(fēng)險(xiǎn)模型中不完整信息和延遲過濾的概念。肖進(jìn)等[12]根據(jù)信息完整度劃分訓(xùn)練集,依據(jù)數(shù)據(jù)缺失程度確定特征的權(quán)重,根據(jù)權(quán)重對(duì)特征進(jìn)行隨機(jī)選擇,充分利用了數(shù)據(jù)信息。關(guān)于算法的研究,國(guó)內(nèi)外研究者們主要采用集成學(xué)習(xí)方法來提升模型性能。Kültür等[13]基于SVM、KStar、決策樹、隨機(jī)森林、樸素貝葉斯和貝葉斯網(wǎng)絡(luò)等傳統(tǒng)模型,分別使用樂觀的投票策略、悲觀的投票策略和權(quán)重投票策略進(jìn)行集成學(xué)習(xí),檢測(cè)信用卡欺詐。Xiao等[14]提出ECSC(ensemble classification approach based on supervised clustering)策略,先將數(shù)據(jù)集進(jìn)行有監(jiān)督聚類,在不同數(shù)據(jù)集上訓(xùn)練模型,再分配權(quán)重構(gòu)建集成學(xué)習(xí)模型。Ala′raj等[15]則在進(jìn)行集成學(xué)習(xí)中考慮到基分類器之間的關(guān)系,相較于傳統(tǒng)集成策略,對(duì)錯(cuò)誤預(yù)測(cè)有一定的修正效果。
對(duì)金融機(jī)構(gòu)而言,一個(gè)有效的模型需要充分考慮利潤(rùn)因素而不僅僅是分類準(zhǔn)確率。Verbraken等[16]提出基于利潤(rùn)的分類方法,以授信預(yù)期收益作為度量模型性能的一個(gè)因素。信用問題中對(duì)于違約客戶的誤判代價(jià)遠(yuǎn)高于正常客戶的誤判代價(jià),而通常情況下,違約客戶數(shù)目又遠(yuǎn)少于正??蛻?。因此,信用評(píng)估問題是代價(jià)敏感的,也是類別不平衡的。對(duì)于這類問題,可從數(shù)據(jù)角度采用重采樣技術(shù)改變樣本分布,使其趨于類別平衡,提高模型對(duì)正樣本的關(guān)注度。重采樣技術(shù)包括欠采樣和過采樣。欠采樣減少樣本集中負(fù)樣本的數(shù)量,而傳統(tǒng)基于隨機(jī)抽樣的欠采樣方式會(huì)丟失大量信息,Ng等[17]提出DSUS(diversified sensitivity undersampling)方法,使用該方法欠采樣可有效保留富含信息的樣本,有利于建模。將原始數(shù)據(jù)集分布的數(shù)據(jù)處理方法與集成學(xué)習(xí)結(jié)合往往可以獲取不錯(cuò)的效果,鄒權(quán)等[18]將負(fù)樣本均勻分割,依次與正樣本合成訓(xùn)練集,使用不同算法構(gòu)建基分類器,最終用投票策略建立集成學(xué)習(xí)模型。與欠采樣方法相反,過采樣方法增加訓(xùn)練集中正樣本的數(shù)量,其中,SMOTE(synthetic minority oversampling technique)算法被廣泛應(yīng)用[19]。林舒楊等[20]對(duì)負(fù)樣本進(jìn)行K均值聚類,提取與正樣本數(shù)目相當(dāng)?shù)木垲愔行?,結(jié)合SMOTE算法對(duì)樣本進(jìn)行適度過采樣,有效避免樣本過度稀疏。Sun等[21]提出 DTE-SBD(decision tree ensemble based on SMOTE,bagging and differentiated sampling rates)模型,利用SMOTE算法按照不同比例對(duì)數(shù)據(jù)集進(jìn)行過采樣,提高了集成學(xué)習(xí)基礎(chǔ)分類器之間的多樣性。另外,不少學(xué)者直接在算法層面改進(jìn)傳統(tǒng)機(jī)器學(xué)習(xí)方法,使其可有效應(yīng)對(duì)代價(jià)敏感問題。Chung等[22]結(jié)合貝葉斯決策理論,修改SVM函數(shù)方程,使其獲取的決策超平面與樣本分布有關(guān),通過超平面的偏移可使模型更多地識(shí)別正類樣本。Bahnsen等[23-24]提出基于最小風(fēng)險(xiǎn)貝葉斯概率計(jì)算準(zhǔn)則的分類器,可有效降低模型誤分類帶來的代價(jià)。閆明松等[25]以C4.5決策樹為基算法,對(duì)代價(jià)敏感決策樹和多個(gè)代價(jià)敏感Boosting算法進(jìn)行了系統(tǒng)的對(duì)比。Hulse等[26]基于Adaboost算法,提出AsymBoost算法。關(guān)于代價(jià)敏感學(xué)習(xí)中的代價(jià),之前的研究往往單純定義兩類樣本的誤分代價(jià),近些年,學(xué)者們開始關(guān)注到具體針對(duì)個(gè)體的誤分代價(jià)。Bahnsen等[27]在信用評(píng)估領(lǐng)域提出計(jì)算與特征有關(guān)的樣本依賴的代價(jià)矩陣,使用該方法可更科學(xué)地表征代價(jià),改善代價(jià)敏感模型性能。除了誤分類帶來的經(jīng)濟(jì)意義上的代價(jià),一些學(xué)者還考慮到模型訓(xùn)練的代價(jià),在大規(guī)模數(shù)據(jù)集建模時(shí),權(quán)衡學(xué)習(xí)時(shí)間代價(jià)、模型維護(hù)代價(jià)和誤分類代價(jià)有重要意義[28]。Yang等[29]對(duì)于具有缺失值的屬性,考量獲取該缺失值對(duì)于整體精度的提升度和耗費(fèi)代價(jià)的關(guān)系,以建立整體代價(jià)最小的模型。
當(dāng)信用數(shù)據(jù)規(guī)模較小時(shí),對(duì)于類別不平衡問題,采用欠采樣會(huì)導(dǎo)致模型訓(xùn)練所用信息不足,而僅對(duì)正樣本的過采樣易導(dǎo)致過擬合。本文在之前學(xué)者研究的基礎(chǔ)上,提出樣本依賴的SXG-BMR模型,同時(shí)對(duì)正負(fù)樣本進(jìn)行低倍率過采樣,使樣本分布明晰的同時(shí)有效避免了過擬合,以集成學(xué)習(xí)為基本模型,基于樣本依賴代價(jià)矩陣,利用最小貝葉斯風(fēng)險(xiǎn)決策框架在模型中引入更符合實(shí)際的代價(jià),大大提高了模型對(duì)于正樣本的識(shí)別能力,可有效提高信用評(píng)估模型的性能。
類別不平衡問題是信用評(píng)估領(lǐng)域普遍需要面對(duì)的問題,而由于小微企業(yè)自身的特殊性,其信用評(píng)估過程中該問題更為突出。銀行往往會(huì)主觀上拒絕對(duì)小微企業(yè)的信貸以防控風(fēng)險(xiǎn),導(dǎo)致歷史數(shù)據(jù)集的整體數(shù)據(jù)量較少;同時(shí),銀行對(duì)小微企業(yè)的借貸要求往往更為嚴(yán)格,導(dǎo)致歷史數(shù)據(jù)集中的正樣本數(shù)目極少,類別不平衡的程度較高。為了應(yīng)對(duì)這一問題,本文采用樣本依賴的代價(jià)敏感模型框架。在數(shù)據(jù)層面上,代價(jià)敏感模型訓(xùn)練的輸入包括數(shù)據(jù)集和代價(jià)敏感矩陣集。本文對(duì)整體樣本進(jìn)行過采樣以明晰樣本分布,并依據(jù)數(shù)據(jù)特征,針對(duì)每一個(gè)樣本計(jì)算其代價(jià)矩陣,以更為精確地衡量代價(jià)。
SMOTE算法是過采樣方法中的經(jīng)典算法,其基本思想是在樣本和其鄰近同類樣本連線上隨機(jī)插入新的同類樣本[19]。在應(yīng)對(duì)類別不平衡問題上,SMOTE方法多被用于生成少數(shù)類樣本,以平衡數(shù)據(jù)集。但在樣本集規(guī)模較小的情況下,缺少的不只是正樣本的信息,負(fù)樣本的分布也很難由少數(shù)數(shù)據(jù)反映,正負(fù)樣本分界超平面較為模糊。若采用SMOTE算法僅僅對(duì)每個(gè)小類樣本進(jìn)行過采樣,將會(huì)產(chǎn)生一定的盲目性現(xiàn)象,導(dǎo)致有些人工合成的小類樣本對(duì)大類樣本的泛化空間產(chǎn)生影響,降低分類效果[30]。另外,SMOTE方法僅對(duì)所有少數(shù)類樣本進(jìn)行過采樣處理,未充分考慮不同樣本對(duì)分類平面的重要度的差異,易導(dǎo)致模型對(duì)正樣本的過適應(yīng),將可能使分類器出現(xiàn)過擬合現(xiàn)象[31-32]。
為此,本文提出基于SMOTE算法對(duì)整體樣本進(jìn)行過采樣的方法,平衡了過采樣引入噪聲以及降采樣丟失樣本的矛盾。其基本思路如下:采用SMOTE算法對(duì)整個(gè)樣本集進(jìn)行處理,同時(shí)生成正、負(fù)樣本,樣本生成比例可視實(shí)際問題數(shù)據(jù)規(guī)模而定。該方法可有效應(yīng)對(duì)數(shù)據(jù)集過小或數(shù)據(jù)缺失的情況,使正負(fù)樣本分界面更為明顯,降低模型分類的難度,避免過擬合,提高模型的準(zhǔn)確性。對(duì)于樣本集中每一個(gè)樣本,以樣本xi為例,找到其K個(gè)同類近鄰樣本zi1,zi2,…,ziK,按公式(1)隨機(jī)生成新的樣本:
同時(shí),根據(jù)UCI(University of California Irvine)信用數(shù)據(jù)集和上海市小微企業(yè)信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),通過利用SMOTE算法對(duì)樣本整體過采樣處理得到的結(jié)果優(yōu)于僅僅利用SMOTE算法對(duì)正樣本進(jìn)行過采樣的結(jié)果,并且能夠很好地實(shí)現(xiàn)精確率(Precision)和召回率(Recall)的平衡。
代價(jià)矩陣是標(biāo)識(shí)將樣本劃分為不同類別所導(dǎo)致代價(jià)的矩陣,諸如信用評(píng)估這類二分類問題,樣本xi的代價(jià)矩陣如表1所示。
表1 樣本xi的代價(jià)矩陣Tab.1 Cost matrix of sample xi
表1中,CTPi、CFPi、CFPi、CFPi分別表示樣本xi不同預(yù)測(cè)結(jié)果導(dǎo)致的成本(代價(jià))。關(guān)于代價(jià)敏感學(xué)習(xí),在一些問題中,誤分的代價(jià)與樣本自身屬性有關(guān),而不僅僅與類別有關(guān),比如不同貸款額度會(huì)帶來不同的誤分代價(jià)。Bahnsen等[27]將正確分類的代價(jià)定為0,對(duì)錯(cuò)誤分類的代價(jià)進(jìn)行計(jì)算,提出了信用評(píng)估中的樣本依賴代價(jià)矩陣,如表2所示。其中,對(duì)于樣本xi,Ri表示損失優(yōu)質(zhì)客戶帶來的損失,可根據(jù)借款利率和客戶信用額度計(jì)算而得;CFPα基于資金不會(huì)閑置的假設(shè),表示拒絕好的客戶選擇其他客戶可能帶來的潛在損失,可根據(jù)市場(chǎng)上的平均信用額度和平均利潤(rùn)率計(jì)算;cli表示其信用額度,可根據(jù)客戶償債能力的指標(biāo)計(jì)算得到;Lgd表示壞賬帶來的損失占信用額度的比率,Bahnsen等在研究中擬定了Lgd為75%。通過這種規(guī)則可得出所有樣本的代價(jià)矩陣,每個(gè)矩陣都是根據(jù)個(gè)體的情況計(jì)算,更精確地描述了誤分類帶來的代價(jià)。
表2 樣本xi的樣本依賴代價(jià)矩陣Tab.2 Sample-dependent cost matrix of sample xi
為了更貼近實(shí)際代價(jià),本文根據(jù)所研究數(shù)據(jù)集所包含的特征以及市場(chǎng)情況,提出了相應(yīng)的代價(jià)矩陣計(jì)算方法,該方法與貸款額度和樣本類別比例有關(guān),這樣可以跟隨樣本集中兩類樣本的比例,調(diào)整模型對(duì)正樣本的關(guān)注度,有利于提升模型的性能。對(duì)于樣本xi代價(jià)矩陣中的CFPi的計(jì)算,基于資金不會(huì)閑置的假設(shè),拒絕該客戶后,將會(huì)貸給其他客戶,以樣本集的平均貸款額度表示將該資金貸給其他客戶的額度,以樣本集的平均貸款時(shí)間作為貸給其他客戶的時(shí)間,以樣本集的平均貸款利率作為貸給其他客戶的利率,以樣本中正負(fù)樣本的頻率分別作為貸給劣質(zhì)客戶和優(yōu)質(zhì)客戶的概率。因此,本文設(shè)計(jì)樣本依賴代價(jià)如下:
式中:cni為樣本xi的貸款額度;ti為樣本xi的貸款時(shí)間;ri為其貸款利率為樣本集平均貸款額度為平均貸款時(shí)間為平均貸款利率;ppercent為樣本集中的正樣本所占比例。
鑒于 XGBoost(Extreme Gradient Boosting)算法可充分利用信息又能防止過擬合,本文構(gòu)造基于最小風(fēng)險(xiǎn)貝葉斯決策的代價(jià)敏感學(xué)習(xí)框架,采用XGBoost算法,并結(jié)合前文的數(shù)據(jù)策略,提出樣本依賴的SXG-BMR模型。
若樣本共有u類,分別為ω1,ω2,…,ωu,相應(yīng)地,其先驗(yàn)概率分別為p(ω1),p(ω2),…,p(ωu)。對(duì)于樣本xi,計(jì)算得到其對(duì)各類的條件概率p(xi|ω1),p(xi|ω2),…,p(xi|ωu),若已知條件概率分布類型,可使用最大似然法進(jìn)行參數(shù)估計(jì);如概率分布未知,則可用訓(xùn)練樣本的方法進(jìn)行非參數(shù)估計(jì)。根據(jù)貝葉斯公式,計(jì)算出各后驗(yàn)概率p(ω1|xi),p(ω2|xi),…,p(ωu|xi),如式(5)所示。
進(jìn)一步,引入風(fēng)險(xiǎn)代價(jià)因素,以整體風(fēng)險(xiǎn)最小化為目的優(yōu)化模型,即為最小風(fēng)險(xiǎn)貝葉斯決策,應(yīng)用于代價(jià)敏感學(xué)習(xí)問題,可提升模型決策性能[23]。記將屬于ωj類的樣本歸于ωk類帶來的風(fēng)險(xiǎn)為λkj。對(duì)于某個(gè)樣本xi,求解式(6)得到λk*,進(jìn)而得到相對(duì)應(yīng)的k*,而相應(yīng)的類ωk*即為樣本xi的最終類別。
式中:p(ω)=(p(ω1|xi),p(ω2|xi),…,p(ωu|xi));λk=(λk1,λk2,…,λku)。
XGBoost算法是梯度提升算法的一種優(yōu)化實(shí)現(xiàn)形式,由Chen等提出并實(shí)現(xiàn)[33]。其目標(biāo)函數(shù)包括損失函數(shù)和正則項(xiàng),在進(jìn)行學(xué)習(xí)迭代更新時(shí)考慮二階導(dǎo)數(shù)信息,可更快地優(yōu)化目標(biāo)函數(shù)。同時(shí),在目標(biāo)函數(shù)中加入正則項(xiàng),可控制模型復(fù)雜度,有效防止過擬合。本文應(yīng)對(duì)的數(shù)據(jù)集,一方面數(shù)據(jù)規(guī)模較小,需要被充分地學(xué)習(xí);另一方面,為提升模型對(duì)樣本的識(shí)別能力,對(duì)數(shù)據(jù)集進(jìn)行了一定程度的過采樣,建模有過擬合的風(fēng)險(xiǎn)。在這種情況下,XGBoost是一種較為理想的算法。對(duì)XGBoost的設(shè)計(jì)如下:
對(duì)于數(shù)據(jù)集{(x1,y1),(x2,y2),…,(xn,yn)},xi為樣本,yi為樣本xi的真實(shí)值,y^i為樣本xi的預(yù)測(cè)結(jié)果,i∈{1,2,…,n}。設(shè)初始狀態(tài)設(shè)為,則
第m次迭代后,
式中:y^(m)i為第m輪后對(duì)樣本xi的預(yù)測(cè)結(jié)果;fm為第m輪迭代的分類器,fm∈F,F(xiàn)為分類器集合。
第m次迭代,XGBoost的目標(biāo)函數(shù)如式(9)所示。
式中:l為損失函數(shù),Ω為正則項(xiàng)。考慮二階信息,對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開,舍去常數(shù)項(xiàng),得到新的目標(biāo)函數(shù),如公式(10)所示。
每次迭代求解得到fm,迭代M次之后,獲取最終分類器y^(M),如公式(11)所示。
本文基于XGBoost算法,結(jié)合數(shù)據(jù)過采樣的預(yù)處理方式,利用樣本依賴代價(jià)矩陣和最小風(fēng)險(xiǎn)貝葉斯決策,將代價(jià)敏感元素引入模型,從而構(gòu)建了樣本依賴的SXG-BMR模型。以0表征負(fù)樣本(正常客戶)類別,1表示正樣本(違約客戶)類別,具體決策流程如下:
(1)利用SMOTE算法對(duì)訓(xùn)練集進(jìn)行整體過采樣,得到新的樣本集合,過采樣比例根據(jù)樣本規(guī)模而定。
(2)對(duì)于樣本集合中每一個(gè)樣本xi,計(jì)算其樣本依賴代價(jià)矩陣(CFPi,CFNi,0,0)。
(3)利用XGBoost算法訓(xùn)練模型,得出將樣本xi的預(yù)測(cè)為負(fù)類的概率
(4)獲取樣本xi的樣本依賴代價(jià)矩陣(CFPi,CFNi,0,0)。
(5)計(jì)算對(duì)樣本xi的分類預(yù)測(cè)平均代價(jià):
依據(jù)最小風(fēng)險(xiǎn)貝葉斯準(zhǔn)則進(jìn)行決策,將樣本xi判定為預(yù)測(cè)代價(jià)小的類別。
值得說明的是,本文較為簡(jiǎn)單直接地根據(jù)客戶信用額度、借貸時(shí)間兩個(gè)屬性進(jìn)行樣本依賴代價(jià)矩陣的計(jì)算,該方法具有較好的普適性。當(dāng)然,代價(jià)矩陣也可由數(shù)據(jù)集給出,也可根據(jù)樣本比例自行定義,兩類樣本比例差別越大,對(duì)正樣本賦予的關(guān)注度越高,代價(jià)矩陣中CFN的值應(yīng)越大。在實(shí)際操作中,如果無法獲取代價(jià)矩陣,可通過不斷調(diào)整參數(shù),選出在數(shù)據(jù)集上表現(xiàn)最好的代價(jià)矩陣建立模型。如果不考慮代價(jià)矩陣,則模型相當(dāng)于加入了SMOTE對(duì)整個(gè)樣本處理的貝葉斯最小錯(cuò)誤率決策,對(duì)于增強(qiáng)小樣本集的模型分類性能也有一定的參考價(jià)值。
本文使用了兩個(gè)數(shù)據(jù)集對(duì)提出的算法框架進(jìn)行驗(yàn)證。首先在UCI標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行縱向、橫向?qū)Ρ?,以?yàn)證樣本依賴的SXG-BMR模型的性能。在對(duì)分類算法進(jìn)行對(duì)比分析時(shí),本文選用了較為經(jīng)典的Adaboost、Gradient Boosting、神經(jīng)網(wǎng)絡(luò)、決策樹、隨機(jī)森林、邏輯回歸方法,再分別對(duì)其進(jìn)行最小風(fēng)險(xiǎn)貝葉斯決策的改進(jìn),以引入代價(jià)敏感學(xué)習(xí)算法,另外還選用了代價(jià)敏感決策樹和代價(jià)敏感隨機(jī)森林算法作為對(duì)比對(duì)象。數(shù)據(jù)處理層面,本文進(jìn)行了僅用SMOTE算法對(duì)正樣本進(jìn)行過采樣平衡數(shù)據(jù)和對(duì)整體數(shù)據(jù)進(jìn)行過采樣的對(duì)比。對(duì)整體樣本的過采樣,不改變?cè)颊?fù)樣本比例,為防止過擬合,對(duì)整體樣本采用了較低的過采樣倍數(shù)。代價(jià)矩陣層面,進(jìn)行了類別依賴矩陣和樣本依賴代價(jià)矩陣的對(duì)比。之后,本文將基于樣本依賴的SXG-BMR模型應(yīng)用于上海市小微企業(yè)信用數(shù)據(jù)集中,通過對(duì)比實(shí)驗(yàn),進(jìn)一步驗(yàn)證了該模型的有效性。本文模型性能皆使用五折交叉驗(yàn)證結(jié)果度量。
UCI信用數(shù)據(jù)集由Hofmann教授提供,共包含1 000個(gè)樣本,有20個(gè)屬性,樣本分布比例如表3所示。數(shù)據(jù)集描述了客戶的信用額度、貸款期限、借貸歷史、借款目的、年齡、房產(chǎn)、工作、婚姻狀況、國(guó)籍等信息,并提供了類別依賴的代價(jià)矩陣,如表4所示。
表3 UCI信用數(shù)據(jù)樣本分布情況Tab.3 Sample distribution of UCI credit data
表4 信用數(shù)據(jù)代價(jià)矩陣Tab.4 Cost matrix of credit data
上海市小微企業(yè)信用數(shù)據(jù)記錄了上海地區(qū)部分小微企業(yè)的歷史借款違約情況,原始數(shù)據(jù)有財(cái)務(wù)型屬性也有非財(cái)務(wù)型屬性,考慮到小微企業(yè)財(cái)務(wù)數(shù)據(jù)的真實(shí)性問題,數(shù)據(jù)中更側(cè)重于非財(cái)務(wù)型屬性,從企業(yè)的員工情況、組成結(jié)構(gòu)、歷史行為等方面描述企業(yè)特征。屬性主要包括企業(yè)借貸金額、企業(yè)固定資產(chǎn)、大股東學(xué)歷、房產(chǎn)、車產(chǎn)、婚姻情況、高管學(xué)歷以及信用逾期情況、法人代表學(xué)歷信用逾期情況、員工學(xué)歷分布、企業(yè)繳納社保情況。共4 193條樣本,樣本分布情況如表5所示,樣本類別不平衡程度較嚴(yán)重。
表5 上海市小微企業(yè)信用數(shù)據(jù)樣本分布情況Tab.5 Sample distribution of credit data of smalland micro enterprises in Shanghai
在信用評(píng)估領(lǐng)域,一個(gè)優(yōu)質(zhì)的模型應(yīng)在盡可能識(shí)別有風(fēng)險(xiǎn)客戶的同時(shí)避免流失優(yōu)質(zhì)客戶,提高整體節(jié)約的代價(jià)。本文采用召回率(Recall)、精確率(Precision)、AUC(Area Under Curve,ROC曲線下的面積)和代價(jià)節(jié)省率Saving rate來度量模型性能。Recall和Precision定義如下:
式中:TP為實(shí)際正類,預(yù)測(cè)正類;FN為實(shí)際負(fù)類,預(yù)測(cè)正類。
式中:FP為實(shí)際負(fù)類,預(yù)測(cè)正類。
代價(jià)節(jié)省率標(biāo)識(shí)模型可度量節(jié)約代價(jià)的程度,本文將模型預(yù)測(cè)所產(chǎn)生的代價(jià)與將全部樣本預(yù)測(cè)為正或者負(fù)產(chǎn)生代價(jià)中較小值相比,來表征代價(jià)節(jié)省率。對(duì)于樣本集yi∈ {0,1},i∈ {0,1,…,n},使用分類器f(x)對(duì)T中樣本進(jìn)行預(yù)測(cè),得到預(yù)測(cè)類別集合{y^1,y^2,…,y^n},其代價(jià)節(jié)省率計(jì)算如式(16)所示。
式中:Cost(f(T))表示按照分類器的預(yù)測(cè)結(jié)果所產(chǎn)生的代價(jià)。
這里,Cost(f0(T))表示將所有樣本全部判定為負(fù)類所帶來的代價(jià),Cost(f1(T))表示將所有樣本全部判定為正類所帶來的代價(jià)。
3.3.1 UCI信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
本文進(jìn)行了不對(duì)數(shù)據(jù)集采樣處理、對(duì)正樣本進(jìn)行過采樣和對(duì)整個(gè)樣本集進(jìn)行不同倍率過采樣的對(duì)比,以驗(yàn)證用SMOTE算法對(duì)樣本整體過采樣的有效性。所使用訓(xùn)練集的分布如表6所示。
表6 實(shí)驗(yàn)所用訓(xùn)練集分布情況(UCI)Tab.6 Distribution of training sets used in experiments(UCI)
根據(jù)原始數(shù)據(jù)集中提供的代價(jià)矩陣,各分類器對(duì)于初始數(shù)據(jù)集的分類結(jié)果如表7所示。選用算法包括:AB(adaboost)、GB(gradient boosting)、XG(XGBoost)、LR(logistic regression)、NN(neural network),RF(random forest)、DT(decision tree)、BMR(對(duì)模型引入Bayes minimum risk)、CS-DT(cost sensitive decision tree)和CS-RF(cost sensitive random forest)。
由表7可以看出,在未引入代價(jià)敏感元素的分類器中,各分類器效果表現(xiàn)均不佳,且代價(jià)節(jié)省率多為負(fù)值。在引入最小風(fēng)險(xiǎn)貝葉斯決策之后,各分類器的代價(jià)節(jié)省率有所提升,但其整體表現(xiàn)依然并不夠理想,其Saving rate值均小于0.2。雖然各分類器的Recall值明顯增大,均接近1,但是,引入最小風(fēng)險(xiǎn)貝葉斯決策之后的各分類器的Precision值比未引入代價(jià)敏感元素均偏小。這是因?yàn)樵摂?shù)據(jù)集的正負(fù)誤分類代價(jià)比統(tǒng)一為1:5,而總體樣本數(shù)目較少,模型無法準(zhǔn)確得到正負(fù)樣本的分布規(guī)律,導(dǎo)致各模型對(duì)負(fù)樣本過于敏感。所以,在引入最小風(fēng)險(xiǎn)貝葉斯決策之后,各分類器的Recall值明顯增大,但Precision值顯著減小,AUC值也有所下降。
本文以市場(chǎng)一年期貸款利率為4.75%,默認(rèn)壞賬損失金額率為75%,計(jì)算樣本依賴代價(jià)矩陣。引入樣本依賴代價(jià)矩陣后,各代價(jià)敏感模型性能如表8所示,結(jié)果顯示其性能優(yōu)于未引入代價(jià)敏感元素的原始模型,也優(yōu)于基于類別依賴矩陣的代價(jià)敏感模型,取得了Precision和Recall的平衡,提升了AUC以及代價(jià)節(jié)省率。其中XG-BMR模型表現(xiàn)相對(duì)較好,各性能度量指標(biāo)數(shù)值較為均衡,且都優(yōu)于其他模型,代價(jià)節(jié)省率高達(dá)0.434。
表7 原始數(shù)據(jù)集上各模型性能表現(xiàn)(UCI)Tab.7 Performance of models on original data sets(UCI)
表8 樣本依賴的代價(jià)敏感模型性能表現(xiàn)(UCI)Tab.8 Performance of sample-dependent cost sensitive models(UCI)
選取性能表現(xiàn)相對(duì)較好的模型AB-BMR、GBBMR、XG-BMR、LR-BMR、RF-BMR、CS-DT和CS-RF,采用本文SMOTE方法處理數(shù)據(jù)集后,各模型在各數(shù)據(jù)集上的性能表現(xiàn)如表9所示。
從表9可以看出,利用SMOTE算法對(duì)樣本整體過采樣得到的結(jié)果優(yōu)于利用SMOTE算法僅僅對(duì)正樣本進(jìn)行過采樣得到的結(jié)果,使用SMOTE對(duì)整體數(shù)據(jù)集進(jìn)行處理可以使各模型分類性能得到顯著提升。對(duì)整體數(shù)據(jù)集僅擴(kuò)充一倍時(shí),使用XG-BMR模型的 Recall達(dá)到 0.771,Precision為 0.751,AUC為0.757,優(yōu)于傳統(tǒng)平衡數(shù)據(jù)集上訓(xùn)練模型的效果,由于樣本個(gè)體代價(jià)差異,代價(jià)節(jié)省率稍弱于僅對(duì)正樣本過采樣的結(jié)果,但也已十分接近,這表明了對(duì)整體數(shù)據(jù)集過采樣的有效性。不過,高倍過采樣比例對(duì)模型性能代價(jià)提升效果有限,并未呈現(xiàn)明顯與過采樣比例正相關(guān)的關(guān)系,為了避免過擬合,對(duì)整體樣本過采樣程度以不超過4倍為宜。在這種情況下,基于三種Boosting算法的模型性能表現(xiàn)相對(duì)穩(wěn)健,很好實(shí)現(xiàn)了Precision和Recall的平衡。其中,ABBMR模型在對(duì)整體樣本過采樣至四倍的數(shù)據(jù)集中獲得較優(yōu)效果,GB-BMR對(duì)整體過采樣至三倍的數(shù)據(jù)集中獲得較優(yōu)效果,而XG-BMR在對(duì)整體過采樣至兩倍的數(shù)據(jù)集中即獲取優(yōu)于其余模型的表現(xiàn)。
因此,本實(shí)驗(yàn)驗(yàn)證了本文所提出的SXG-BMR模型的有效性,以及樣本依賴代價(jià)敏感數(shù)據(jù)策略對(duì)模型性能的提升作用。
3.3.2 上海市小微企業(yè)信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
對(duì)于上海市小微企業(yè)數(shù)據(jù)集(SH),本部分實(shí)驗(yàn)所用的數(shù)據(jù)集分別為原始數(shù)據(jù)集、使用SMOTE平衡數(shù)據(jù)集以及對(duì)整體數(shù)據(jù)樣本過采樣2~4倍的數(shù)據(jù)集,具體訓(xùn)練集分布如表10所示。
代入市場(chǎng)貸款利率,計(jì)算出樣本依賴代價(jià)矩陣。對(duì)于缺失借貸時(shí)間的樣本,均默認(rèn)為1年。各樣本依賴代價(jià)敏感模型在原始數(shù)據(jù)集中的結(jié)果如表11所示。
由表11可以發(fā)現(xiàn),各模型沒有達(dá)到Recall和Precision很好的平衡。其中,AB-BMR、GB-BMR、XG-BMR和LR-BMR取得了較高的Recall,但Precision皆較低。而CS-RF取得了很高的Precision,為0.883,Recall卻僅有0.486。
選取在原始數(shù)據(jù)集中表現(xiàn)相對(duì)較好的ABBMR、GB-BMR、XG-BMR、LR-BMR、RF-BMR,采用SMOTE方法處理數(shù)據(jù)集后,各模型在各數(shù)據(jù)集上的性能表現(xiàn)如表12所示。
由表12可知,使用SMOTE方法僅對(duì)正樣本過采樣平衡數(shù)據(jù)集后,模型獲得了很高的Precision,但并沒有很好地識(shí)別正樣本,Recall相較于原始數(shù)據(jù)集大幅降低,有過擬合的傾向。而對(duì)整體樣本低倍率過采樣取得了較為均衡的效果,當(dāng)數(shù)據(jù)集擴(kuò)充至4倍時(shí),XG-BMR模型Recall達(dá)0.937,Precision達(dá)0.713,AUC高達(dá)0.820,代價(jià)節(jié)省率為0.704,效果優(yōu)于其他模型。同UCI信用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果類似,利用SMOTE算法對(duì)樣本整體過采樣得到的結(jié)果優(yōu)于利用SMOTE算法僅僅對(duì)正樣本進(jìn)行過采樣得到的結(jié)果,并且能夠很好地實(shí)現(xiàn)各模型Precision和Recall的平衡。
本實(shí)驗(yàn)進(jìn)一步驗(yàn)證了樣本依賴SXG-BMR模型可有效應(yīng)對(duì)類別不平衡的信用數(shù)據(jù),高效而精確地識(shí)別違約客戶,具有較好的實(shí)際應(yīng)用價(jià)值。為防止過擬合,實(shí)驗(yàn)中對(duì)整體數(shù)據(jù)集過采樣倍數(shù)控制在4倍以內(nèi),在實(shí)際應(yīng)用中,也可根據(jù)實(shí)際情況適度調(diào)整過采樣倍數(shù),以獲取更優(yōu)的效果。
表9 樣本依賴的代價(jià)敏感模型在過采樣數(shù)據(jù)集的性能表現(xiàn)(UCI)Tab.9 Performance of sample-dependent cost sensitive model on oversampled data sets(UCI)
表10 實(shí)驗(yàn)所用訓(xùn)練集分布情況(SH)Tab.10 Distribution of training sets used in experiments(SH)
表11 樣本依賴的代價(jià)敏感模型性能表現(xiàn)(SH)Tab.11 Performance of sample-dependent cost sensitive models(SH)
表12 樣本依賴的代價(jià)敏感模型在過采樣數(shù)據(jù)集的性能表現(xiàn)(SH)Tab.12 Performance of sample-dependent cost sensitive model on the oversampled data sets(SH)
本文著眼于諸如小微企業(yè)這類數(shù)據(jù)集規(guī)模較小且類別不平衡的信用評(píng)估問題,改進(jìn)傳統(tǒng)的機(jī)器學(xué)習(xí)算法框架進(jìn)行代價(jià)敏感學(xué)習(xí)。數(shù)據(jù)處理上,為了緩解樣本中的噪聲信息以及過擬合問題,本文應(yīng)用SMOTE算法對(duì)整體數(shù)據(jù)集進(jìn)行適度過采樣,可在不產(chǎn)生過擬合的前提下令數(shù)據(jù)集的分布更明顯。為了使模型對(duì)代價(jià)敏感,本文使用了最小風(fēng)險(xiǎn)貝葉斯決策與基本分類器結(jié)合的框架,該框架下的模型訓(xùn)練高效且性能較為穩(wěn)健。在算法層面,構(gòu)建了以集成學(xué)習(xí)算法為基礎(chǔ)的模型,采用XGBoost集成學(xué)習(xí)算法,通過實(shí)驗(yàn)對(duì)比驗(yàn)證了其優(yōu)越性。另外,本文提出了一種適用小微企業(yè)的樣本依賴代價(jià)矩陣的構(gòu)建方法,可應(yīng)用于記錄了借貸額度屬性的信用數(shù)據(jù)集中。在實(shí)驗(yàn)中對(duì)比了類別依賴代價(jià)矩陣和樣本依賴代價(jià)矩陣,驗(yàn)證了后者對(duì)代價(jià)敏感學(xué)習(xí)模型的性能具有顯著提升作用。最后,本文提出樣本依賴的SXG-BMR模型,可為金融機(jī)構(gòu)針對(duì)小微企業(yè)的信用評(píng)估提供參考。
未來研究可考慮結(jié)合特征篩選,使用相較于SMOTE算法更先進(jìn)的算法合成數(shù)據(jù)。另外,可引入諸如收入、資產(chǎn)、關(guān)系網(wǎng)、借貸用途等更多特征,研究更為精準(zhǔn)科學(xué)的信用評(píng)估領(lǐng)域的樣本依賴代價(jià)矩陣計(jì)算方法??傊?,在互聯(lián)網(wǎng)技術(shù)飛速發(fā)展的今天,金融機(jī)構(gòu)的風(fēng)險(xiǎn)防控、業(yè)務(wù)經(jīng)營(yíng)決策將越來越依賴于大數(shù)據(jù)和人工智能,科學(xué)的信用評(píng)估體系可以幫助金融機(jī)構(gòu)高效準(zhǔn)確地識(shí)別客戶類別,從而使優(yōu)質(zhì)企業(yè)獲取資金支持,促進(jìn)經(jīng)濟(jì)的良性發(fā)展。
同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年1期