鄭印 殷瑩瑩 王鵬 劉金嬋 梁斌
摘要:精準(zhǔn)扶貧是打贏脫貧攻堅(jiān)戰(zhàn)的重要手段,而金融扶貧在精準(zhǔn)扶貧工作中舉足輕重。目前,農(nóng)村信貸風(fēng)險(xiǎn)管理問題頻繁出現(xiàn),嚴(yán)重影響金融機(jī)構(gòu)在農(nóng)村開展信貸業(yè)務(wù);規(guī)范農(nóng)村信貸體系,降低風(fēng)險(xiǎn),迫在眉睫。本文以“農(nóng)戶信貸風(fēng)險(xiǎn)評(píng)估”為主題,收集農(nóng)戶信貸數(shù)據(jù),多維度構(gòu)建信貸風(fēng)險(xiǎn)評(píng)估體系,運(yùn)用AdaBoost-隨機(jī)森林方法對(duì)農(nóng)戶小額信貸風(fēng)險(xiǎn)進(jìn)行評(píng)估。根據(jù)模型結(jié)果,構(gòu)建農(nóng)村信貸風(fēng)險(xiǎn)管理體系,在降低信貸風(fēng)險(xiǎn)的同時(shí)最大限度致力于金融扶貧工作。
關(guān)鍵詞:農(nóng)戶信貸風(fēng)險(xiǎn);AdaBoost;隨機(jī)森林
二十一世紀(jì)以來,“三農(nóng)”問題一直對(duì)國家農(nóng)村經(jīng)濟(jì)發(fā)展和金融穩(wěn)定有著很大的影響,要想發(fā)展農(nóng)村經(jīng)濟(jì),必不可少的一步就是加大對(duì)農(nóng)村金融的投入,基于此農(nóng)戶小額信貸開始在我國農(nóng)村普遍實(shí)行開來。金融政策不斷加大對(duì)農(nóng)戶的服務(wù)力度,力求建立完整、完善的信貸風(fēng)險(xiǎn)評(píng)估機(jī)制對(duì)有貸款需求的農(nóng)戶進(jìn)行放貸并定制合適的貸款額度、利率和期限。但在當(dāng)前的農(nóng)村金融環(huán)境下,農(nóng)戶對(duì)于信貸的風(fēng)險(xiǎn)少有認(rèn)知,農(nóng)村金融機(jī)構(gòu)對(duì)于風(fēng)險(xiǎn)的控制能力也有待加強(qiáng),所以如何規(guī)范信貸風(fēng)險(xiǎn)問題,提高信貸管理水平,就成為當(dāng)前影響著農(nóng)村經(jīng)濟(jì)發(fā)展的重要因素。Congjun Rao(2020)以 Pterosaur Loan平臺(tái)中的信貸數(shù)據(jù)集作實(shí)驗(yàn)樣本,建立了兩階段融合成本敏感隨機(jī)林(SCSRF)模型來評(píng)估借款人的信用風(fēng)險(xiǎn)。從隨機(jī)森林出發(fā),據(jù)數(shù)據(jù)類別的實(shí)際分布構(gòu)造代價(jià)關(guān)系,在代價(jià)函數(shù)中使用熵權(quán)方法引入加權(quán)馬氏距離,對(duì)代價(jià)敏感的決策樹基分類器采用加權(quán)投票。通過網(wǎng)格搜索對(duì)SCSRF模型的參數(shù)進(jìn)行了優(yōu)化。顧洲一(2020)以國內(nèi) Y 銀行的相關(guān)信貸數(shù)據(jù)作為樣本,應(yīng)用XGBoost 模型建立客戶申請(qǐng)?jiān)u分模型,并運(yùn)用該模型對(duì)新客戶的違約概率進(jìn)行預(yù)測,研究發(fā)現(xiàn)模型在訓(xùn)練集和測試集上得分最高 (得分即模型預(yù)測為壞客戶的概率)的5%的客戶可以分別覆蓋 78.7%和 55.6%的壞客戶。本文將從農(nóng)戶小額信貸領(lǐng)域檢驗(yàn) AdaBoost-隨機(jī)森林算法的優(yōu)異性,并與其他方法做出實(shí)證對(duì)比。
1.數(shù)據(jù)來源及基本理論
1.1數(shù)據(jù)來源
為獲取與農(nóng)戶信貸相關(guān)數(shù)據(jù)指標(biāo),本文采取實(shí)地調(diào)研與問卷相結(jié)合的形式從A省B區(qū)取得123家有信貸評(píng)級(jí)的農(nóng)戶信息,以及A省C區(qū)302家無信貸評(píng)級(jí)的農(nóng)戶信息。
1.2基本理論
為了更好的了解與預(yù)測農(nóng)戶信貸風(fēng)險(xiǎn)水平,本文根據(jù)收集的農(nóng)戶信貸數(shù)據(jù),多維度構(gòu)建信貸風(fēng)險(xiǎn)評(píng)估體系,運(yùn)用AdaBoost-隨機(jī)森林方法對(duì)農(nóng)戶小額信貸風(fēng)險(xiǎn)進(jìn)行評(píng)估,下面對(duì)隨機(jī)森林(random forest)算法工作原理與AdaBoost如何優(yōu)化隨機(jī)森林算法進(jìn)行解釋說明。
(1)隨機(jī)森林算法的基本原理
隨機(jī)森林算法是一種對(duì)樣本進(jìn)行訓(xùn)練和預(yù)測的分類模型,其本質(zhì)是一種裝袋集成算法。裝袋集成算法是對(duì)決策樹(基評(píng)估器)的預(yù)測結(jié)果進(jìn)行平均或用多數(shù)表決原則來決定隨機(jī)森林(集成評(píng)估器)的結(jié)果。
決策樹的結(jié)構(gòu)類似與一棵樹,它將每種可能發(fā)生的情況及對(duì)應(yīng)概率清晰的表示在一個(gè)流程圖中,是一種非常直觀的圖解法。決策樹是一種預(yù)測模型,其每個(gè)決策分支對(duì)應(yīng)不同的情況不同的概率,通過計(jì)算分析得到不同的結(jié)果,常用于估計(jì)項(xiàng)目的風(fēng)險(xiǎn),判斷項(xiàng)目的可行性。
為使隨機(jī)森林中每棵分類樹互不相同,一種簡單的方法是采用不同的訓(xùn)練集建立決策樹,再將多棵決策樹合并在一起組成隨機(jī)森林。
隨機(jī)森林算法的基本步驟:
1)原始訓(xùn)練集中包含n個(gè)樣本,從中有放回的抽取n次形成一個(gè)含有n個(gè)樣本的自助集
2)從自助集的所有屬性中選取a個(gè)屬性,根據(jù)這些屬性建立一棵決策樹
3)重復(fù)以上步驟m次,可以得到m棵不同決策樹,隨機(jī)森林由這m棵決策樹組成
4)m棵決策樹分別對(duì)樣本進(jìn)行預(yù)測,得到m個(gè)分類結(jié)果
5)對(duì)產(chǎn)生的m個(gè)分類結(jié)果進(jìn)行投票,得票最多的結(jié)果是最終的結(jié)果
(2)AdaBoost-隨機(jī)森林算法的基本原理
AdaBoost算法是一種迭代算法。AdaBoost算法的工作原理,初始樣本中每個(gè)樣本所占權(quán)重相同,用弱分類器訓(xùn)練樣本,將各個(gè)學(xué)習(xí)誤差率聯(lián)系在一起,不斷調(diào)整誤差率高的訓(xùn)練樣本點(diǎn)的權(quán)重值,誤差率低的弱分類器在最終分類器中占的比例較大,以得到一個(gè)強(qiáng)分類器。
本文將隨機(jī)森林作為弱分類器,用AdaBoost算法進(jìn)行迭代構(gòu)建AdaBoost-隨機(jī)森林模型,基本步驟如下:
1)給每個(gè)初始樣本賦權(quán)重得到權(quán)值分布D1,保證每個(gè)樣本初始權(quán)重相同w1i=1/N,同時(shí)建立好隨機(jī)森林。
2)對(duì)樣本數(shù)據(jù)進(jìn)行多次迭代,得到樣本數(shù)據(jù)新的權(quán)值分布Dm,再對(duì)權(quán)值分布為Dm的樣本進(jìn)行訓(xùn)練得到弱分類器。
em為評(píng)估誤差和,ym(xn)為評(píng)估的結(jié)果,tn為期望的結(jié)果
3)計(jì)算隨機(jī)森林(弱分類器)在最終分類器中的權(quán)重,得各隨機(jī)森林的權(quán)重為。
4)更新樣本中每個(gè)樣本的權(quán)重,進(jìn)行新一輪的迭代
Dm+1是新一輪迭代的樣本權(quán)值分布,wm-1,i是第i個(gè)樣本的權(quán)重,Zm是歸一化因子
5)迭代完成后,將若干個(gè)弱分類器(隨機(jī)森林)按其權(quán)重組合起來
2.AdaBoost-隨機(jī)森林模型
2.1研究思路
通過對(duì)調(diào)研得到的數(shù)據(jù)進(jìn)行分析并選取指標(biāo),將其按層次結(jié)構(gòu)劃分為一級(jí)二級(jí)指標(biāo)。一級(jí)指標(biāo)有農(nóng)戶基本情況、農(nóng)戶信貸情況、農(nóng)戶家庭收入情況三個(gè)。其中農(nóng)戶基本情況共分為戶口、年齡、婚姻狀況、家庭關(guān)系、文化程度、健康狀況和家庭成員品行等七個(gè)二級(jí)指標(biāo);農(nóng)戶信貸情況共分為是否違約、貸款金額、信譽(yù)評(píng)價(jià)等三個(gè)二級(jí)指標(biāo);農(nóng)戶家庭收入情況共分為家庭人均年凈收入、家庭年凈收入等兩個(gè)二級(jí)指標(biāo)。通過對(duì)指標(biāo)進(jìn)行量化,最后構(gòu)建Adaboost-隨機(jī)森林模型對(duì)農(nóng)戶信貸風(fēng)險(xiǎn)進(jìn)行研究。
2.2研究過程
通過對(duì)A省B區(qū)123個(gè)已知信譽(yù)評(píng)級(jí)的農(nóng)戶信貸數(shù)據(jù)進(jìn)行分析,通過構(gòu)建Adaboost-隨機(jī)森林模型,把是否違約映射為0,1兩個(gè)值,其中沒有違約映射為0,違約映射為1。以是否違約為目標(biāo),用綜合指標(biāo)進(jìn)行邏輯回歸,劃分訓(xùn)練集和測試集,擬合出邏輯回歸函數(shù),得出一個(gè)0-1區(qū)間的連續(xù)值,模型擬合準(zhǔn)確度為84%,混淆矩陣得出的ACC準(zhǔn)確率為80%。
2.3結(jié)果分析
結(jié)果顯示,A省C區(qū)的302個(gè)農(nóng)戶有35個(gè)農(nóng)戶獲得A等級(jí)信譽(yù)評(píng)級(jí),137個(gè)農(nóng)戶獲得B等級(jí)信譽(yù)評(píng)級(jí),123個(gè)農(nóng)戶獲得C等級(jí)信譽(yù)評(píng)級(jí),7個(gè)農(nóng)戶獲得D等級(jí)信譽(yù)評(píng)級(jí)。同時(shí)結(jié)果顯示,在302個(gè)農(nóng)戶中,有69個(gè)農(nóng)戶可能會(huì)出現(xiàn)違約情況。
3.結(jié)語
本文通過A 省B 地區(qū)調(diào)研得到的123個(gè)農(nóng)戶的信貸數(shù)據(jù)對(duì)C區(qū)的302個(gè)農(nóng)戶進(jìn)行了信譽(yù)評(píng)級(jí)和是否違約的預(yù)測,構(gòu)建了AdaBoost-隨機(jī)森林模型,使用 ROC 曲線的值對(duì) A 省 C 地區(qū)的調(diào)研數(shù)據(jù)進(jìn)行了預(yù)測。
參考文獻(xiàn):
[1]Rao,CJ;Liu,M;Goh,M;Wen,JH.2-stage modified random forest model for credit risk assessment of P2P network lending to Three Rurals borrowers [J].Applied Soft Computing Journal,2020,95.
[2]顧洲一.基于XGBoost模型的銀行信貸高風(fēng)險(xiǎn)客戶識(shí)別研究——以我國Y銀行為例[J].上海立信會(huì)計(jì)金融學(xué)院學(xué)報(bào),2020(01):17-28.
[3]宋鑫.隨機(jī)森林優(yōu)化算法在農(nóng)戶信用風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[D].云南師范大學(xué),2018.
[4]許劍,張洪偉.Adaboost算法分類器設(shè)計(jì)及其應(yīng)用[J].四川理工學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,27(01):28-31.
[5]田瑩瑩,馬一寧,韓景旺.“鄉(xiāng)村振興”戰(zhàn)略下農(nóng)戶信用評(píng)價(jià)體系構(gòu)建研究[J].現(xiàn)代商貿(mào)工業(yè),2019,40(15):106-107.
[6]李佳容.隨機(jī)森林在甘肅省農(nóng)村貧困戶識(shí)別中的應(yīng)用[J].農(nóng)村經(jīng)濟(jì)與科技,2018,29(04):188+190.
本文系 安徽財(cái)經(jīng)大學(xué)大學(xué)生科研創(chuàng)新基金項(xiàng)目研究成果,項(xiàng)目編號(hào):XSKY2198。
作者簡介:
鄭?。?001—)男,漢族,安徽六安人,安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,2018級(jí)本科生,信息管理與信息系統(tǒng)專業(yè)。
殷瑩瑩(2000—)女,漢族,安徽六安人,安徽財(cái)經(jīng)大學(xué)金融學(xué)院,2018級(jí)本科生,金融學(xué)專業(yè)。
王鵬(2001—)男,漢族,安徽六安人,安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,2018級(jí)本科生,計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)。
劉金嬋(2000—)女,漢族,安徽安慶人,安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院,2018級(jí)本科生,數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)。
梁斌(2000—)男,漢族,安徽六安人,安徽財(cái)經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,2018級(jí)本科生,計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)。