蒲京京 蘇巧榮 張朝瑜 肖振東 吳養(yǎng)會(huì)
摘 要:針對農(nóng)戶產(chǎn)權(quán)抵押貸款信用問題,利用陜西高陵、臨潼、楊陵3個(gè)地區(qū)農(nóng)村金融抵押貸款的有關(guān)調(diào)研數(shù)據(jù),運(yùn)用貝葉斯網(wǎng)絡(luò)分類模型進(jìn)行分類研究,以農(nóng)戶所在地區(qū)、家庭類型、教育程度等10個(gè)因素作為自變量,以產(chǎn)權(quán)抵押貸款的意愿作為分類依據(jù),結(jié)果表明,采用十折交叉驗(yàn)證的貝葉斯網(wǎng)絡(luò)分類器對解決此類問題具有良好的分類效果,其分類結(jié)果可以為農(nóng)戶抵押貸款研究提供理論參考。
關(guān)鍵詞:農(nóng)村金融;貝葉斯網(wǎng)絡(luò)分類器;ROC曲線;交叉驗(yàn)證
中圖分類號(hào) F832 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1007-7731(2018)11-0002-04
Abstract:According to the problem of farmers' property mortgage credit,the Bayes Network classification model was constructed which based on the investigation data related to the property mortgage in Gaoling,Lingtong and Yangling.We chosed the region,family type,level of education and other 7 factors as the independent variables,the property mortgage loan willingness as the independent variables.The analysis results show that Bayes Network classification model which used ten-fold cross validation has good effect in solving these problems.Besides,the classification results provided the certain reference role in the household mortgage policy.
Key words:Rural finance;Bayes network;ROC curve;K-fold cross validation
1 引言
當(dāng)前中國經(jīng)濟(jì)正在飛速發(fā)展,這其中金融業(yè)起著至關(guān)重要的作用,然而我國農(nóng)村金融行業(yè)的創(chuàng)新能力仍然明顯不足。圍繞農(nóng)村產(chǎn)權(quán)抵押貸款,國內(nèi)學(xué)者展開了大量的研究,現(xiàn)有研究大多局限在對農(nóng)村產(chǎn)權(quán)抵押貸款發(fā)展意義、現(xiàn)狀、制約因素及其制度中存在的問題等方面上的定性分析,而基于農(nóng)戶微觀數(shù)據(jù)的定量研究則相對偏少。曾慶芬[1]以成都試點(diǎn)為例,利用二項(xiàng)logit模型分析了影響農(nóng)戶參與土地使用權(quán)和宅基地使用權(quán)融資意愿的影響因素,并提出了相關(guān)政策建議;美國耶魯大學(xué)經(jīng)濟(jì)學(xué)家Hugh T.Patrick研究中,強(qiáng)調(diào)農(nóng)村經(jīng)濟(jì)主體的金融服務(wù)需求以及農(nóng)村金融組織及相關(guān)服務(wù)的供給先于農(nóng)村經(jīng)濟(jì)主體的需求。值得我們借鑒的還有像孟加拉國那樣的農(nóng)村金融機(jī)構(gòu),孟加拉國鄉(xiāng)村銀行模式調(diào)動(dòng)了農(nóng)村的發(fā)展積極性,不僅充分發(fā)揮了鄉(xiāng)村銀行對農(nóng)村經(jīng)濟(jì)發(fā)展的作用,而且提高了農(nóng)村銀行自身的發(fā)展效率。對于中國農(nóng)村現(xiàn)狀,孟加拉國的小額扶貧貸款模式適用于我國如此之多的農(nóng)村人口數(shù)量,能有效地帶動(dòng)銀行資金的流動(dòng),促進(jìn)農(nóng)村銀行的發(fā)展。從以上研究方法可以看出,對農(nóng)村產(chǎn)權(quán)抵押貸款的研究更多的集中于制度研究,少有的實(shí)證分析也僅局限與二項(xiàng)logit模型或二項(xiàng)logistic回歸模型,受限于模型同性質(zhì)和獨(dú)立同分布等理想化假設(shè)的影響,所得到的結(jié)論難以全面、客觀地反映出農(nóng)戶融資的實(shí)際需求。
李旭升[2]在個(gè)人信用評估中使用樸素貝葉斯分類器(Neive Bayesian,NB)建立分類模型,對數(shù)據(jù)類型進(jìn)行細(xì)致分類,實(shí)驗(yàn)表明,NB進(jìn)行信用分類可以取得更好的效果,由于NB作為一種概率型分類,各類概率以及各屬性的條件概率有明顯的物理意義,具有較好的解釋性??登f[3]在納稅評估方面建立貝葉斯分類納稅評估模型,有效地發(fā)現(xiàn)稅法執(zhí)行偏差,能夠較為準(zhǔn)確地發(fā)現(xiàn)稅收執(zhí)行偏差者;吳陳和張明華[4]研究分析了樸素貝葉斯分類算法在個(gè)人信用預(yù)測方面的應(yīng)用,實(shí)驗(yàn)表明,基于最大后驗(yàn)概率熵的最優(yōu)樸素貝葉斯算法在個(gè)人信用預(yù)測方面顯著提高了預(yù)測的準(zhǔn)確性。唐爐亮[5]在針對浮動(dòng)車數(shù)據(jù)的城市車道數(shù)量信息調(diào)查采用樸素貝葉斯分類方法確定目標(biāo)路段的車道數(shù)量,最終結(jié)果表明其提取的精度高達(dá)76.3%。作為一種良好的分類器,樸素貝葉斯分類器受到越來越多的研究者的關(guān)注,在各個(gè)研究領(lǐng)域都得到了廣泛的應(yīng)用。
為研究我國西部農(nóng)戶產(chǎn)權(quán)抵押貸款中的農(nóng)戶分類問題,本文利用貝葉斯網(wǎng)絡(luò)具有較高的分類精度和優(yōu)良準(zhǔn)確性的特征,以農(nóng)戶抵押貸款的預(yù)期為分類指標(biāo),建立影響農(nóng)戶類型的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),以為金融機(jī)構(gòu)提供有價(jià)值的信用參考。
2 貝葉斯網(wǎng)絡(luò)分類器
貝葉斯網(wǎng)絡(luò)[6](Bayesian Network)是一種概率網(wǎng)絡(luò),是基于概率推理的圖形網(wǎng),而貝葉斯公式則是這個(gè)概率網(wǎng)絡(luò)的基礎(chǔ)。貝葉斯網(wǎng)絡(luò)又稱為信用網(wǎng)絡(luò)(Belief Networks),是用來表示變量之間連接關(guān)系與概率關(guān)系的一種圖形模型,是目前不確定知識(shí)表達(dá)和推理領(lǐng)域最有效的理論模型之一。貝葉斯網(wǎng)絡(luò)是貝葉斯方法的拓展,提供了一種表示因果信息的方法,適用于不確定性和概率性事件的表達(dá)和分析,可以從不完全性、不精確或不確定的知識(shí)或信息中進(jìn)行推理,主要處理人工智能中的不確定性信息,在計(jì)算機(jī)智能科學(xué)、工業(yè)控制、醫(yī)療診斷等領(lǐng)域等許多智能化系統(tǒng)中得到了重要應(yīng)用。
貝葉斯網(wǎng)絡(luò)采用一個(gè)DAG(Directed Acyclic Graph,有向無環(huán)圖)表示,由代表變量的節(jié)點(diǎn)和連接這些節(jié)點(diǎn)的郵箱邊構(gòu)成。節(jié)點(diǎn)代表隨機(jī)變量,節(jié)點(diǎn)間的有向邊代表了節(jié)點(diǎn)間的相互關(guān)系(由父節(jié)點(diǎn)指向其子節(jié)點(diǎn))。如果變量是離散型,可以采用表的形式表示,稱為條件概率表,列出子節(jié)點(diǎn)與其父節(jié)點(diǎn)的每一種值的祝賀所對應(yīng)的概率。有父節(jié)點(diǎn)的節(jié)點(diǎn)用條件概率表示關(guān)系強(qiáng)度,沒有父節(jié)點(diǎn)的節(jié)點(diǎn)使用先驗(yàn)概率。貝葉斯分類器的分類原理是經(jīng)過實(shí)驗(yàn)中某樣本對象的先驗(yàn)概率,使用貝葉斯公式計(jì)算出其相應(yīng)的后驗(yàn)概率,從最大的后驗(yàn)概率的類中進(jìn)行選擇。貝葉斯分類基于貝葉斯原理,以貝葉斯公式為中心。貝葉斯公式如下:
樸素貝葉斯分類假定所有屬性變量是“類條件下相互獨(dú)立”的,即每個(gè)屬性變量[Xi]只與類變量[ti]相關(guān)。拓?fù)浣Y(jié)構(gòu)圖如圖1所示。
估計(jì)每個(gè)類的先驗(yàn)概率,一般可以按照[P(t=ti)=Ni/N]進(jìn)行估算,其中:[Ni]為子數(shù)據(jù)集中[t=ti]的樣本數(shù),[N]為訓(xùn)練集樣本總數(shù),之后按照最大似然估計(jì)準(zhǔn)則,在每個(gè)由[ti]標(biāo)定的子集,對類條件下屬性變量的概率進(jìn)行估計(jì)。
3 數(shù)據(jù)來源、變量選擇及數(shù)據(jù)處理
3.1 數(shù)據(jù)來源 本文使用的數(shù)據(jù)是西北農(nóng)林科技大學(xué)經(jīng)管學(xué)院學(xué)生采用調(diào)查問卷的方式走訪陜西高陵、臨潼、楊陵3個(gè)地區(qū)所獲取的。問卷主要分為5個(gè)部分,即農(nóng)戶基本信息、貸款經(jīng)歷與評價(jià)、產(chǎn)權(quán)抵押政策的落實(shí)情況、未來融資的需要與意見和建議。數(shù)據(jù)樣本容量為349。
3.2 變量選擇 產(chǎn)權(quán)抵押貸款一般是根據(jù)個(gè)人信用評估的指標(biāo)進(jìn)行的。個(gè)人信用評估的指標(biāo)是綜合反映個(gè)人本身和環(huán)境所共同作用產(chǎn)生的復(fù)雜系統(tǒng)的不同屬性的指標(biāo),按照隸屬關(guān)系、層次結(jié)構(gòu)可將影響個(gè)人信用評估的因素加以分類和綜合,使個(gè)人信用的特征劃分為5個(gè)部分:品行、償付能力、資金。抵押擔(dān)保和條件,即常用的“5C評估法”[7]。參考“5C評估法”,最終選取所在地區(qū)、家庭規(guī)模、家庭經(jīng)營類型、文化程度、近6年年均收入、近六年年均支出、家庭土地經(jīng)營面積、當(dāng)?shù)剞r(nóng)信社信譽(yù)情況、工作人員服務(wù)態(tài)度、政策了解程度等10個(gè)因素作為本文研究的自變量,并以對產(chǎn)權(quán)抵押貸款意愿作為因變量來進(jìn)行研究。
3.3 數(shù)據(jù)處理
3.3.1 數(shù)據(jù)清洗 數(shù)據(jù)處理旨在清除掉與分類無關(guān)的數(shù)據(jù),對與本分類無關(guān)的數(shù)據(jù)進(jìn)行清除。同時(shí)還應(yīng)清除與分類無關(guān)的指標(biāo)以及重復(fù)指標(biāo),減少計(jì)算中帶來的不必要工作。
3.3.2 數(shù)據(jù)集成 將多個(gè)數(shù)據(jù)按照格式統(tǒng)一起來存儲(chǔ),并建立信用數(shù)據(jù)庫。
3.3.3 數(shù)據(jù)轉(zhuǎn)換 主要是對數(shù)據(jù)進(jìn)行離散化。不同的算法對輸入數(shù)據(jù)的要求不同,而且獲取的數(shù)據(jù)較為原始,計(jì)算時(shí)需要對數(shù)據(jù)進(jìn)行相應(yīng)轉(zhuǎn)換。本文所使用數(shù)據(jù)經(jīng)過預(yù)處理后,各變量屬性及編碼如表1所示。
4 農(nóng)戶分類研究
利用Weka軟件[8]建立貝葉斯網(wǎng)絡(luò)模型,利用模型進(jìn)行預(yù)測及檢驗(yàn)?zāi)P偷挠行约罢鎸?shí)性。該貝葉斯網(wǎng)絡(luò)分類模型是以對產(chǎn)權(quán)抵押貸款意愿(Class)為因變量,利用349條數(shù)據(jù)的訓(xùn)練集建立貝葉斯網(wǎng)絡(luò)模型。
采用BayesNet下的local TAN模型構(gòu)建方法,并采用交叉驗(yàn)證方法,通過weka軟件分析得到模型。圖2為建立所獲得的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖。
從圖2可以看出,家庭規(guī)模、文化程度、家庭經(jīng)驗(yàn)類型、近6年的平均收入、工作人員服務(wù)態(tài)度以及當(dāng)?shù)剞r(nóng)信社信譽(yù)情況作為子節(jié)點(diǎn)時(shí),它們的父節(jié)點(diǎn)同時(shí)是所在地區(qū)和對產(chǎn)權(quán)抵押貸款意愿。所在地區(qū)作為子節(jié)點(diǎn)時(shí),相應(yīng)的父節(jié)點(diǎn)是近6年的平均支出和對產(chǎn)權(quán)抵押貸款意愿,近6年的支出作為子節(jié)點(diǎn)時(shí),其父節(jié)點(diǎn)為政策了解程度和對產(chǎn)權(quán)抵押貸款意愿,政策了解程度作為子節(jié)點(diǎn)時(shí)只有一個(gè)相應(yīng)的父節(jié)點(diǎn)為對產(chǎn)權(quán)抵押貸款意愿。其中正確分類的實(shí)例到達(dá)58.7%,Kappa統(tǒng)計(jì)為0.3178,案例的覆蓋程度(0.95 level)為99.4269%,表現(xiàn)出較好的分類效果。
ROC曲線指受試者工作特征曲線,是反映敏感性和特異性連續(xù)變量的綜合指標(biāo),是用構(gòu)圖法揭示敏感性和特異性的相互關(guān)系,它通過將連續(xù)變量設(shè)定出多個(gè)不同的臨界值,從而計(jì)算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo)、(1-特異性)為橫坐標(biāo)繪制成曲線,曲線下面積越大,診斷準(zhǔn)確性越高。在ROC曲線上,最靠近坐標(biāo)圖左上方的點(diǎn)為敏感性和特異性均較高的臨界值。針對上述網(wǎng)絡(luò)結(jié)構(gòu)圖分類結(jié)果,利用weka軟件構(gòu)造roc曲線,對貝葉斯網(wǎng)絡(luò)分類結(jié)果進(jìn)行分類效果評價(jià)。
圖3~5分別表示對應(yīng)分類結(jié)果為a、b及c,根據(jù)貝葉斯分類器所獲得結(jié)果分類準(zhǔn)確性比較,其曲線下對應(yīng)的圖形面積分別為0.692,0.6902和0.701。可以看出,本次建立的貝葉斯網(wǎng)絡(luò)分類模型對金融農(nóng)村具有較高的正確性及可靠性。在此基礎(chǔ)上,為了改進(jìn)并提高分類效果,在交叉驗(yàn)證上進(jìn)行參數(shù)修改,將Cross-validation Fold原定參數(shù)15改為10,即采用十折交叉驗(yàn)證(表2)。通過交叉驗(yàn)證的參數(shù)改變,貝葉斯網(wǎng)絡(luò)分類效果,有明顯的提高。
5 結(jié)論
本文針對農(nóng)戶產(chǎn)權(quán)抵押貸款,對農(nóng)村金融數(shù)據(jù)進(jìn)行貝葉斯網(wǎng)絡(luò)分類研究。在對調(diào)查數(shù)據(jù)進(jìn)行數(shù)據(jù)處理后,通過利用“5C評估法”,將大量的數(shù)據(jù)變量進(jìn)行篩選,選出了10個(gè)有顯著影響的數(shù)據(jù)變量,并將對產(chǎn)權(quán)抵押貸款的意愿作為數(shù)據(jù)類進(jìn)行分類研究。分類結(jié)果表明,采取十折交叉驗(yàn)證方法的貝葉斯網(wǎng)絡(luò)分類模型中,在農(nóng)村金融數(shù)據(jù)中有較高的正確性和覆蓋性。同時(shí),構(gòu)建反映各因素間相關(guān)關(guān)系的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖,能更進(jìn)一步解釋影響農(nóng)戶抵押貸款的各因素及其作用大小,對于農(nóng)村金融機(jī)構(gòu)進(jìn)行貸款決策起到了一定的積極作用。由于本研究所獲得數(shù)據(jù)容量較小,在后續(xù)的研究中,將擴(kuò)大調(diào)查范圍,以擴(kuò)大樣本容量,更進(jìn)一步提高分類的準(zhǔn)確性,為農(nóng)村金融改革提供有價(jià)值的參考。
參考文獻(xiàn)
[1]曾慶芬.產(chǎn)權(quán)改革背景下農(nóng)村居民產(chǎn)權(quán)融資意愿的實(shí)證研究——以成都“試驗(yàn)區(qū)”為個(gè)案[J].中央財(cái)經(jīng)大學(xué)學(xué)報(bào),2010(11):63-68.
[2]李旭升,郭耀煌.基于樸素貝葉斯分類器的個(gè)人信用評估模型[J].計(jì)算機(jī)工程與應(yīng)用,2006,30:197-202.
[3]康莊,余元全.基于貝葉斯分類器的納稅評估模型研究[J].經(jīng)濟(jì)問題,2009(06):124-126.
[4]吳陳,張明華.基于最優(yōu)樸素貝葉斯分類器的個(gè)人信用預(yù)測[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,26(04):376-380.
[5]唐爐亮,楊雪,闞子涵,等.一種基于樸素貝葉斯分類的車道數(shù)量探測[J].中國公路學(xué)報(bào),2016,29(03):116-123.
[6]吳養(yǎng)會(huì),羅劍朝.農(nóng)村金融計(jì)量研究方法及應(yīng)用[M].北京:中國金融出版社,2015:244.
[7]王夢琪.應(yīng)收賬款管理的“5C評估法”及補(bǔ)充[J/OL].經(jīng)營與管理,2017(07):29-32[2018-05-01].https://doi.org/10.16517/j.cnki.cn12-1034/f.2017.07.012.
[8]袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)-WEKA應(yīng)用技術(shù)與實(shí)踐[M].北京:清華大學(xué)出版社,2014.
(責(zé)編:張宏民)