• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      特征選擇與Logistic回歸相結(jié)合的擔(dān)保圈風(fēng)險(xiǎn)識(shí)別方法

      2019-08-13 12:38:58趙文欣內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院呼和浩特0002
      關(guān)鍵詞:特征選擇子集聚類

      劉 亞 ,李 華,2,鄭 冰,3,趙文欣(內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院,呼和浩特0002)

      2(內(nèi)蒙古大學(xué)圖書與信息技術(shù)部,呼和浩特010021)

      3(內(nèi)蒙古建筑職業(yè)技術(shù)學(xué)院,呼和浩特010021)

      E-mail:cslihua@imu.edu.cn

      1 背景

      隨著DT(Data Technology,數(shù)據(jù)技術(shù))時(shí)代的到來(lái),大數(shù)據(jù)技術(shù)在金融領(lǐng)域應(yīng)用廣泛.互聯(lián)網(wǎng)金融的出現(xiàn),使得每年產(chǎn)生過(guò)數(shù)十PB的金融數(shù)據(jù),而數(shù)據(jù)內(nèi)容有著大規(guī)模、異質(zhì)多元、組織結(jié)構(gòu)松散的特點(diǎn),給金融機(jī)構(gòu)有效獲取信息和知識(shí)帶來(lái)了挑戰(zhàn).在銀行風(fēng)險(xiǎn)管控方面,通過(guò)監(jiān)管部門的現(xiàn)場(chǎng)監(jiān)測(cè),各種可疑金融交易(Suspicious Financial Transaction)行為[1]和企業(yè)信貸風(fēng)險(xiǎn)層出不窮,如洗錢擔(dān)保圈、資金空轉(zhuǎn)行為、規(guī)避監(jiān)管的套利行為等.針對(duì)此類問(wèn)題,目前行之有效的解決方法是結(jié)合各種數(shù)據(jù)分析技術(shù),對(duì)銀行交易數(shù)據(jù)、客戶數(shù)據(jù)、信用數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等信息挖掘分析,識(shí)別欺詐交易、反洗錢以及信貸風(fēng)險(xiǎn)等異常行為.面對(duì)海量的銀行數(shù)據(jù),傳統(tǒng)的分析方式需要發(fā)生重大的改變,并建立與之相應(yīng)的新的識(shí)別或預(yù)測(cè)模型.

      擔(dān)保圈是指多家企業(yè)通過(guò)相互擔(dān)保或連環(huán)擔(dān)保連接到一起而形成的以擔(dān)保關(guān)系為鏈條的特殊利益體[2],其形態(tài)是由兩個(gè)或兩個(gè)以上法人客戶以保證擔(dān)保關(guān)系為紐帶而形成的網(wǎng)絡(luò)結(jié)構(gòu)[2].其主要類型有互保、聯(lián)保、循環(huán)保、擔(dān)保鏈、集團(tuán)內(nèi)部擔(dān)保圈以及混合擔(dān)保圈[3].近年來(lái)受擔(dān)保圈內(nèi)企業(yè)經(jīng)營(yíng)不善、資金鏈斷裂的影響,信貸風(fēng)險(xiǎn)在我國(guó)部分區(qū)域大量暴露,較大程度地沖擊了銀行信貸資產(chǎn)安全,嚴(yán)重地影響了銀行和企業(yè)的正常運(yùn)營(yíng),加劇了地方金融的不穩(wěn)定,影響了區(qū)域經(jīng)濟(jì)的健康發(fā)展[4].由于擔(dān)保圈的存在影響面較廣,究其根本是圈內(nèi)存在“高?!笨蛻簦雌飘a(chǎn)風(fēng)險(xiǎn)較高、償債能力較弱的群體,這些客戶容易發(fā)生違約行為.因此,在已知存在擔(dān)保圈的情況下,如何識(shí)別擔(dān)保圈是否存在風(fēng)險(xiǎn),是本文研究的主要問(wèn)題.

      由于銀行業(yè)務(wù)繁雜,包含的特征變量較多,若想通過(guò)數(shù)據(jù)分析建立異常識(shí)別精度較高的模型,其關(guān)鍵因素是選取具有代表性的特征變量,才能較好的反映出客戶各種行為.利用選擇出的新特征子集采用一定的方法建立風(fēng)險(xiǎn)識(shí)別模型,實(shí)現(xiàn)擔(dān)保圈風(fēng)險(xiǎn)的識(shí)別,降低擔(dān)保圈的“多米諾”效應(yīng)給銀行帶來(lái)的危害[5].

      本文的主要貢獻(xiàn)如下:

      1)提出一種 CSAFS(Clustering and Statistical Analysis Based on Feature Selection)特征選擇算法,該算法采用特征聚類+主成分提取的思想,避免了傳統(tǒng)聚類分析閾值K的問(wèn)題,既能解決變量間的多重共線性問(wèn)題[6],又能選擇出覆蓋全部或者大部分原始數(shù)據(jù)信息的、無(wú)冗余的新特征子集.

      2)將CSAFS特征選擇算法和Logistic回歸相結(jié)合應(yīng)用到識(shí)別擔(dān)保圈風(fēng)險(xiǎn)的問(wèn)題中,利用人工智能算法解決金融問(wèn)題,避免了傳統(tǒng)人工搭建模型的時(shí)間開銷,提高了擔(dān)保圈風(fēng)險(xiǎn)識(shí)別的準(zhǔn)確率.通過(guò)ROC曲線對(duì)模型進(jìn)行了效果評(píng)估,擔(dān)保圈風(fēng)險(xiǎn)識(shí)別的準(zhǔn)確率達(dá)到了95.6%,具有一定的實(shí)用性.

      2 相關(guān)工作

      本文主要是結(jié)合特征選取和Logistic回歸方法建模進(jìn)行擔(dān)保圈的風(fēng)險(xiǎn)識(shí)別.在相關(guān)工作的研究中,將從特征選擇、Logistic回歸、擔(dān)保圈風(fēng)險(xiǎn)識(shí)別三個(gè)方面進(jìn)行描述.

      2.1 特征選擇

      特征選擇也稱特征子集選擇或?qū)傩赃x擇.是數(shù)據(jù)挖掘技術(shù)中一種常用的數(shù)據(jù)預(yù)處理技巧[7].在特征選擇方法的研究中[8-12],多數(shù)采用先聚類后選擇的思想,但聚類條件和特征選擇的依據(jù)不同.文獻(xiàn)[10]提出一種將稀疏 K-means和分層聚類相結(jié)合的特征選擇算法,該算法分為特征聚類和特征選擇兩個(gè)階段,通過(guò)聚類將原始特征集劃分成各個(gè)簇,利用 Lasso型懲罰因子在簇中進(jìn)行特征選擇.文獻(xiàn)[11]提出了一種無(wú)監(jiān)督特征選擇方法,該方法結(jié)合最大信息系數(shù)和仿射傳播進(jìn)行特征聚類,在特征選擇時(shí),以每個(gè)簇中選取質(zhì)心作為選擇依據(jù),該方法對(duì)不同分類器的分類問(wèn)題進(jìn)行了驗(yàn)證.文獻(xiàn)[12]針對(duì)無(wú)監(jiān)督特征選擇問(wèn)題,提出了一種密集子圖發(fā)現(xiàn)方法,在獲取非冗余特征集的基礎(chǔ)上,以規(guī)范化的互信息為度量指標(biāo)進(jìn)行特征聚類,以方差為評(píng)價(jià)指標(biāo)從每個(gè)簇中選擇具有代表性的特征.

      由此可見,特征選取方法存在兩個(gè)問(wèn)題:一是在樣本聚類時(shí)需要預(yù)先設(shè)定閾值 K,而K值得選擇決定特征選取的好壞;二是如何從每個(gè)簇群選取代表性特征,這個(gè)非常困難.

      基于此,本文提出的CSAFS特征選擇算法有效避免了確定K值問(wèn)題,并采用提取主成分的方法進(jìn)行最優(yōu)特征子集選擇,選擇出的主成分可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息,能夠有效的反映出客戶的行為信息.

      2.2 Logistic回歸

      針對(duì)銀行業(yè)務(wù)中出現(xiàn)的異??梢尚袨?,利用數(shù)據(jù)挖掘方法,從已有的數(shù)據(jù)出發(fā)尋找規(guī)律,建立識(shí)別模型,從而達(dá)到對(duì)未來(lái)的數(shù)據(jù)進(jìn)行預(yù)測(cè)的目的.而基于數(shù)據(jù)挖掘方法的識(shí)別預(yù)測(cè)問(wèn)題,目前國(guó)際上廣泛采用的方法包括神經(jīng)網(wǎng)絡(luò)、決策樹和Logistic回歸.相較于其他兩種方法,神經(jīng)網(wǎng)絡(luò)的“黑盒”性質(zhì),不太適用于銀行風(fēng)險(xiǎn)識(shí)別,無(wú)法解釋結(jié)論的由來(lái).而Logistic回歸在金融領(lǐng)域、流行病研究[13]和預(yù)測(cè)地質(zhì)災(zāi)害[14]等應(yīng)用較廣.

      在應(yīng)用Logistic回歸方法上[15-19],文獻(xiàn)[15]以新浪微博為例,從發(fā)布用戶、接受用戶、微博內(nèi)容三個(gè)方面進(jìn)行特征提取,結(jié)合SVM分類器進(jìn)行用戶去重、垃圾用戶濾除,將提取的特征輸入到預(yù)測(cè)算法中,建立邏輯回歸模型,實(shí)現(xiàn)對(duì)微博轉(zhuǎn)發(fā)預(yù)測(cè),與傳統(tǒng)同類預(yù)測(cè)模型進(jìn)行對(duì)比試驗(yàn),驗(yàn)證本文方法的正確性與有效性.文獻(xiàn)[16]通過(guò)建立五種數(shù)據(jù)挖掘分類模型(Logistic模型、線性判別分析法、K-means算法、分類樹法和核密度分類方法等)與五種神經(jīng)網(wǎng)絡(luò)模型(包括專家雜合系統(tǒng)、多層感知器、徑向基函數(shù)網(wǎng)絡(luò)、模糊自適應(yīng)共振和學(xué)習(xí)向量化子等)分別對(duì)澳大利亞與德國(guó)的兩組財(cái)務(wù)數(shù)據(jù)樣本進(jìn)行了兩類不同模式的分析,經(jīng)其研究發(fā)現(xiàn),Logistic模型在這10種分析方法中的判別準(zhǔn)確率最高,分別達(dá)到了87.25%與76.3%.文獻(xiàn)[17]是在國(guó)內(nèi)企業(yè)財(cái)務(wù)預(yù)警研究中,采用Logistic回歸模型有效預(yù)測(cè)出財(cái)務(wù)危機(jī).

      Logistic回歸模型在一定程度上較好的實(shí)現(xiàn)了風(fēng)險(xiǎn)的識(shí)別和預(yù)警,但仍然存在一定的局限性:

      1)在建立評(píng)估模型時(shí)需要設(shè)立許多假設(shè)條件,比如變量間相互獨(dú)立、不存在多重共線性問(wèn)題以及目標(biāo)變量是二分類等等.

      2)使用Logistic回歸方法進(jìn)行識(shí)別預(yù)警是進(jìn)行研究是合適的,這就要求達(dá)到一定規(guī)模的數(shù)據(jù)量.但在有限的數(shù)據(jù)且數(shù)據(jù)維度較高的情況下,基于Logistic模型的統(tǒng)計(jì)分析方法的實(shí)際應(yīng)用效果不好.

      基于此,本文在進(jìn)行Logistic回歸前,對(duì)數(shù)據(jù)進(jìn)行特征選擇,對(duì)于大規(guī)模的數(shù)據(jù)量也可以很好的進(jìn)行模型訓(xùn)練,提高了模型的識(shí)別精度.

      2.3 擔(dān)保圈風(fēng)險(xiǎn)識(shí)別

      應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)銀行的風(fēng)險(xiǎn)控制,主要體現(xiàn)在客戶信用評(píng)估[20]以及違約風(fēng)險(xiǎn)概率的計(jì)算[21,22]等方面,從國(guó)內(nèi)學(xué)者對(duì)于擔(dān)保圈的研究情況看,由于受到數(shù)據(jù)可得性的限制,郎咸平等[23]、呂江林[24]、杜權(quán)[25]以及吉玉雪[4]等人針對(duì)擔(dān)保圈產(chǎn)生的原因、擔(dān)保圈風(fēng)險(xiǎn)識(shí)別及傳染機(jī)制等方面進(jìn)行理論分析.在應(yīng)用大數(shù)據(jù)分析技術(shù)方面,文獻(xiàn)[3]基于Spark大數(shù)據(jù)計(jì)算平臺(tái),開發(fā)出擔(dān)保圈識(shí)別與管理系統(tǒng),,可快捷完成圖構(gòu)建和最大連通圖查找,在大量信貸數(shù)據(jù)中快速識(shí)別擔(dān)保圈,具有基本的擔(dān)保圈管理功能.但沒(méi)有對(duì)擔(dān)保圈進(jìn)行進(jìn)一步的分割,查找擔(dān)保圈中關(guān)鍵客戶.文獻(xiàn)[26]描述了在銀行業(yè)現(xiàn)實(shí)數(shù)據(jù)情況下,基于大數(shù)據(jù)的客戶關(guān)聯(lián)關(guān)系族譜及風(fēng)險(xiǎn)預(yù)警模型構(gòu)建方法,主要從知識(shí)圖譜算法來(lái)進(jìn)行客戶關(guān)聯(lián)關(guān)系的描述.文獻(xiàn)[27]從商業(yè)銀行視角出發(fā),將矩陣識(shí)別與擔(dān)保圈網(wǎng)絡(luò)的脆弱性分析結(jié)合,提出了一種改進(jìn)的脆弱性分析模型,測(cè)度了風(fēng)險(xiǎn)閾值的合理邊界.并以2016年某省經(jīng)濟(jì)開發(fā)區(qū)內(nèi)所有信貸企業(yè)的擔(dān)保圈關(guān)系圖,進(jìn)行風(fēng)險(xiǎn)識(shí)別和預(yù)警,提出風(fēng)險(xiǎn)化解措施.實(shí)證結(jié)果與該省商業(yè)銀行信貸監(jiān)測(cè)結(jié)果一致.

      基于此,本文提出一種CSAFS特征選擇算法與Logistic回歸相結(jié)合的擔(dān)保圈風(fēng)險(xiǎn)識(shí)別方法,實(shí)現(xiàn)了擔(dān)保圈風(fēng)險(xiǎn)的識(shí)別,這不僅加快了數(shù)據(jù)計(jì)算的速度,并利用數(shù)據(jù)說(shuō)話,科學(xué)有效.避免了傳統(tǒng)的經(jīng)濟(jì)理論分析帶來(lái)的不確定性問(wèn)題.

      3 擔(dān)保圈風(fēng)險(xiǎn)識(shí)別算法描述

      本文提出的CSAFS特征選擇算法和Logistic回歸算法相結(jié)合的擔(dān)保圈風(fēng)險(xiǎn)識(shí)別方法,該方法主要分為三個(gè)階段:

      1)通過(guò)遍歷數(shù)據(jù)集,識(shí)別出數(shù)據(jù)中所有的企業(yè)信貸擔(dān)保圈.對(duì)擔(dān)保圈中相關(guān)企業(yè)的貸款和資產(chǎn)等數(shù)據(jù)進(jìn)行歸一化處理.

      2)采用CSAFS算法,對(duì)樣本數(shù)據(jù)進(jìn)行特征選擇.

      3)將最優(yōu)特征子集作為輸入項(xiàng)進(jìn)行Logistic回歸,建立風(fēng)險(xiǎn)識(shí)別模型,定位高風(fēng)險(xiǎn)客戶.

      下面給出文中用到的相關(guān)符號(hào)的表示方法說(shuō)明及算法具體描述.

      3.1 相關(guān)符號(hào)說(shuō)明

      本文在算法設(shè)計(jì)時(shí)涉及到多種公式運(yùn)算,其中使用到的符號(hào)說(shuō)明如表1所示.

      表1 符號(hào)及其含義Table 1 Smbols and their meanings

      3.2 CSAFS 算法描述

      由于銀行業(yè)務(wù)繁雜,包含的特征變量較多,如果通過(guò)數(shù)據(jù)分析建立異常識(shí)別精度較高的模型,其關(guān)鍵因素是選取具有代表性的特征變量,才能較好的反映出客戶各種行為.因此本文提出了一種特征選擇算法CSAFS,該算法主要分為三個(gè)階段:

      3.2.1 計(jì)算特征的相關(guān)系數(shù)rjk

      假設(shè)數(shù)據(jù)集D包含n個(gè)特征,即特征集Q={x1,x2,…,xn},每個(gè)特征由m條數(shù)據(jù)構(gòu)成,則數(shù)據(jù)集D是個(gè)n*m維的矩陣.記特征 xj的取值為 x1j,x2j,…,xmj(j=1,2,…,n),則可以用兩個(gè)變量指標(biāo)xj和 xk的樣本相關(guān)系數(shù)rjk作為它們的相似性度量(j,k=1,2,…,n),也即:為平均度量(j=1,2,…n),(1)式中的rjk具有如下性質(zhì):

      1)|rjk|≤ 1,對(duì)于一切j和k;并且|rjk|越接近 1,xk和 xk相關(guān)性越強(qiáng);|rjk|越接近0,xj和 xk相關(guān)性越弱;

      2)rjk=rkj,對(duì)于一切j和k,特別的rjj=1,也即相關(guān)系數(shù)矩陣F是n×n維對(duì)稱矩陣.

      3.2.2 特征聚類

      將相關(guān)系數(shù)轉(zhuǎn)換成距離,即特征xj和xk的距離為:

      即相似度越高,特征間距離越近.

      將每個(gè)數(shù)據(jù)點(diǎn)作為一個(gè)簇,應(yīng)用公式(3)解出所有的距離構(gòu)成矩陣F.在進(jìn)行聚類時(shí),本文選擇平均距離法D(C1,C2)來(lái)度量?jī)蓚€(gè)簇間的距離.平均距離法原理圖如圖1所示.

      其中,C表示簇,n1和n2分別表示簇C1、簇C2中變量的個(gè)數(shù).

      通過(guò)公式(4)計(jì)算,在進(jìn)行特征聚類時(shí),通過(guò)遍歷距離矩陣F,找到距離小于D(C1,C2)的所有的類簇合并成一類.按照此方法可以將源數(shù)據(jù)集分為w個(gè)新類簇,分別為C1、C2…Cw,(w <n).

      3.2.3 最優(yōu)特征子集選擇

      假設(shè)簇C1中包含i個(gè)特征,對(duì)i個(gè)樣本中的x進(jìn)行標(biāo)準(zhǔn)化為珓x,構(gòu)成i維矩陣,即X=[珓x1,珓x2,珓x3,…,珓xI]T,然后計(jì)算X的協(xié)方差矩陣∑,即計(jì)算各維度兩兩之間的協(xié)方差,這樣各協(xié)方差∑ij組成了一個(gè)i×i的矩陣,稱為協(xié)方差矩陣.∑是個(gè)對(duì)稱矩陣.矩陣內(nèi)的元素∑ij為:

      其中cov(珓xI,珓xj)是珓xI和珓xj的協(xié)方差,E是期望.協(xié)方差矩陣∑的前i個(gè)較大的特征值λ1≥λ2≥…≥λI≥0,就是前i個(gè)主成分對(duì)應(yīng)的方差,λi對(duì)應(yīng)的特征向量ui就是主成分yi的關(guān)于珓xi的系數(shù),而珓x是經(jīng)過(guò)x標(biāo)準(zhǔn)化變換后的值.根據(jù)特征向量值與x值則可以求出Logistic回歸模型的自變量的y值.即主成分y的求解為:

      即:

      其中y1是第一主成分,y2是第二主成分,…,yn是第n主成分.特征值λ的大小反映了各個(gè)主成分的影響力.求解公式:

      計(jì)算出各個(gè)主成分對(duì)應(yīng)的方差(信息)貢獻(xiàn)率bj,bj用來(lái)反映信息量的大小,即

      最終要選擇幾個(gè)主成分,即累計(jì)方差貢獻(xiàn)率αm,確定主成分個(gè)數(shù).即 y1、y2、…、ym,m 的確定是通過(guò)方差(信息)累計(jì)貢獻(xiàn)率αm來(lái)確定的.即:

      通常當(dāng)累計(jì)貢獻(xiàn)率大于85%,就認(rèn)為能足夠反映原始變量的信息了.

      通過(guò)公式(5)~公式(9)計(jì)算,按照特征值的大小對(duì)所有類簇主成分的特征值λ進(jìn)行排序,選取特征值>1,且累計(jì)方差貢獻(xiàn)率達(dá)到85%的主因子構(gòu)成最優(yōu)特征子集Qbest.

      CSAFS算法的具體描述如下:

      輸入:某銀行信貸擔(dān)保數(shù)據(jù)集D和原始特征集Q

      輸出:最優(yōu)特征子集Qbest

      步驟1.對(duì)數(shù)據(jù)集D進(jìn)行歸一化處理;

      步驟2.通過(guò)公式(1)-公式(2),計(jì)算 Q={x1,x2,…,xn}中任意兩個(gè)特征間的相關(guān)系數(shù) rjk(j、k=1,2,…,n);

      步驟3.通過(guò)公式(3),將相關(guān)系數(shù)轉(zhuǎn)換成距離 djk(j、k=1,2,…,n),存入距離矩陣F;

      步驟4.重復(fù)步驟2-3,遍歷特征集 Q={x1,x2,…,xn},計(jì)算出所有的特征間距離構(gòu)成距離矩陣F;

      步驟5.通過(guò)公式(4),計(jì)算出F的平均距離D;

      步驟6.比較 djk與 D,如果 djk<D,則 Ck(k=1,2,…,w,w <n);

      步驟7.重復(fù)步驟5-6,遍歷F,將源數(shù)據(jù)集分為w個(gè)新類簇,分別為 C1,C2,…,Cw;

      步驟8.通過(guò)公式(5-9)對(duì)簇 Ck(k=1、2、…、w)進(jìn)行主成分提取,求出對(duì)應(yīng)的∑、λ、bj、αp和 y,如果 λ >1 且αp>0.85,則 y 為最優(yōu)特征;

      步驟9.重復(fù)步驟8,遍歷所有的簇 C1,C2,…,Cw,求解出最優(yōu)子集Qbest.

      3.3 Logistic回歸算法描述

      通過(guò)CSAFS算法選擇出最優(yōu)特征子集Qbest,在訓(xùn)練模型階段,最優(yōu)特征作為自變量進(jìn)行Logistic回歸.

      Logistic回歸分析模型可表述為:

      其中,xi(i=1,2,3,…,n)代表的是最優(yōu)特征子集 Qbest的特征,α 為常數(shù)項(xiàng).ci(i=1,2,3,…,n)是各影響因素的權(quán)重.P表示違約概率,0≤p≤1.如果Logistic回歸值p越接近1,則表明該行為風(fēng)險(xiǎn)性較高;如果Logistic回歸值p越接近0,則表明該行為風(fēng)險(xiǎn)性較低.

      以銀行信貸風(fēng)險(xiǎn)為例,假定Y表示貸款客戶/企業(yè)違約與否事件,取1或0;X1,X2,…,Xn是影響Y的自變量,則Y與X的關(guān)系可表示:

      通常設(shè)違約臨界值P定為0.5,若計(jì)算所得P<0.5,則表示違約風(fēng)險(xiǎn)較低;若P>0.5,則說(shuō)明違約風(fēng)險(xiǎn)較高,在銀行信貸方面,通常以0.5為參考值,來(lái)判斷企業(yè)是否存在違約風(fēng)險(xiǎn),決定是否向貸款人發(fā)放貸款.

      3.4 擔(dān)保圈風(fēng)險(xiǎn)識(shí)別算法時(shí)間復(fù)雜度分析

      擔(dān)保圈風(fēng)險(xiǎn)識(shí)別算法的時(shí)間開銷主要兩個(gè)部分:特征選擇階段和Logistic回歸階段.

      在CSAFS特征選擇算法中,計(jì)算特征間相關(guān)系數(shù)的時(shí)間復(fù)雜度為O(n);特征聚類的時(shí)間復(fù)雜度為O(n2);進(jìn)行特征選取的時(shí)間復(fù)雜度為O(w),則CSAFS算法的時(shí)間復(fù)雜度為O(n+n2+w),由于n>w,所以該算法的時(shí)間復(fù)雜度為O(n2).

      在Logistic回歸階段,算法主要進(jìn)行構(gòu)造sigmoid函數(shù),循環(huán)次數(shù)為I,計(jì)算數(shù)據(jù)集梯度,最終sigmoid函數(shù)求解分類.其時(shí)間復(fù)雜度O(n*C*I),n代表樣本數(shù)量,C代表單個(gè)樣本計(jì)算量(取決于梯度計(jì)算公式),I為迭代次數(shù),取決于收斂速度.

      綜上所述,擔(dān)保圈風(fēng)險(xiǎn)識(shí)別算法的時(shí)間復(fù)雜度O(n2+n*C*I).

      4 實(shí)驗(yàn)與分析

      其中,P表示違約概率,即Y=1的情形,(1-P)表示沒(méi)有違約的概率,即Y=0的情形,進(jìn)一步化簡(jiǎn)得:

      本次研究使用的數(shù)據(jù)集是某商業(yè)銀行五年內(nèi)的信貸數(shù)據(jù)集.通過(guò)采集30家授信企業(yè)的擔(dān)保數(shù)據(jù),使用深度優(yōu)先算法識(shí)別出26個(gè)擔(dān)保圈(層級(jí)為2),涉及到273家企業(yè).通過(guò)采集26個(gè)擔(dān)保圈內(nèi)所有企業(yè)的信貸、資產(chǎn)和交易等數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)過(guò)濾,一共包含21個(gè)自變量和一個(gè)表示違約標(biāo)識(shí)的特征.即特征集Q={x1,x2,…,x22}.通常情況下,企業(yè)的凈資本、負(fù)債、擔(dān)?;虮粨?dān)保的金額、擔(dān)保企業(yè)的數(shù)量等因素關(guān)系著整個(gè)擔(dān)保圈是否穩(wěn)定,如果一家影響度較高的企業(yè)發(fā)生違約,那么極有可能會(huì)出現(xiàn)“多米諾效應(yīng)”[27].所以需要計(jì)算出圈內(nèi)每個(gè)企業(yè)的擔(dān)保金額占總擔(dān)保額的比例A1(%)以及被擔(dān)保數(shù)量占總擔(dān)保數(shù)量的比例A2(%),將A1和A2作為新的類簇進(jìn)行主成分分析.

      由于對(duì)于該樣本數(shù)據(jù)來(lái)說(shuō),存在樣本分布不平衡是關(guān)鍵問(wèn)題,在劃分?jǐn)?shù)據(jù)時(shí),本文主要充分抽樣法,將原數(shù)據(jù)的70%作為訓(xùn)練集用于訓(xùn)練分類器,30%作為測(cè)試集用于評(píng)估分類器性能.兩個(gè)數(shù)據(jù)集中陰性和陽(yáng)性數(shù)據(jù)比例接近,約等于為3∶1.

      實(shí)驗(yàn)數(shù)據(jù)集以.csv格式保存在本地,實(shí)驗(yàn)軟硬件環(huán)境如下:操作系統(tǒng)為 Windows 10,CPU為 Intel(R)Core(TM)2 Duo CPU E7300@2.93 GHz,內(nèi)存為 8 GB,主要實(shí)驗(yàn)平臺(tái)為SPSS和jupyter notebook,語(yǔ)言為python 3.

      4.1 建立模型

      通過(guò)CSAFS算法進(jìn)行特征選取,求出9個(gè)主因子構(gòu)成了新特征子集Qbest.

      通過(guò)分析,將各自變量帶入Logistic回歸模型,通過(guò)SPSS進(jìn)行回歸分析得到模型的分析結(jié)果如表2所示.

      表2 Logistics回歸估計(jì)結(jié)果Table 2 Table of Logistics regression estimation result

      4.2 模型檢驗(yàn)

      針對(duì)上述Logistic回歸模型,本文利用某樣本數(shù)據(jù)進(jìn)行檢驗(yàn),樣本包含91組數(shù)據(jù),其中標(biāo)識(shí)為0(正常)的數(shù)據(jù)69組,標(biāo)識(shí)為1(違約)的22組.檢驗(yàn)結(jié)果如表3所示.

      由表2可知,B代表回歸系數(shù),表示自變量和因變量的相關(guān),通過(guò) B 和 sig.(sig.<0.05)的值可以看出,主成分 Y1、Y3、Y5、Y7、Y9對(duì)擔(dān)保圈是否存在風(fēng)險(xiǎn)具有顯著性影響,表明自變量可以有效預(yù)測(cè)因變量的變異.則最終得到的Logistic模型表達(dá)式為:

      表3 模型檢驗(yàn)結(jié)果Table 3 Table of Model checking results

      從表3可知,該模型對(duì)樣本的識(shí)別準(zhǔn)確率達(dá)到了95.6%,說(shuō)明該模型能夠較好地實(shí)現(xiàn)擔(dān)保圈的風(fēng)險(xiǎn)識(shí)別.

      為了進(jìn)一步對(duì)模型進(jìn)行評(píng)估,本文采用準(zhǔn)確性指標(biāo)ROC曲線下面積(ROC_AUC)對(duì)模型進(jìn)行效果評(píng)估.相比于其他評(píng)價(jià)指標(biāo),ROC曲線不受正負(fù)樣本分布變化的影響,具有一定的穩(wěn)定性.通常情況下ROC曲線在對(duì)角線x=y的左上方,才具有一定的預(yù)測(cè)價(jià)值.ROC_AUC取值范圍為[0,1],取值越大,代表模型整體準(zhǔn)確性越好.AUC值為ROC曲線所覆蓋的區(qū)域面積,一般而言,若AUC 取值在(0.5,1]之間,AUC越大,分類器分類效果越好[29].

      ROC曲線主要是通過(guò)真陽(yáng)率(True Positive Rate,TPR)和假陽(yáng)率(False Positive Rate,F(xiàn)PR)兩個(gè)指標(biāo)進(jìn)行繪制.ROC空間將FPR定義為X軸,TPR定義為Y軸.這兩個(gè)值由前面的AUC四個(gè)值計(jì)算得到,公式如下:

      其中,TP(true positive)為真正類;FP(false positive)為假正類;TN(true negative)為真負(fù)類;FN(false negative)為假負(fù)類.

      感受性曲線(ROC)示意如圖2所示.

      由圖2可知AUC值為ROC曲線所覆蓋的區(qū)域面積,當(dāng)AUC值大于0.5,具有一定的預(yù)測(cè)價(jià)值,由此證明該模型識(shí)別效果較好.

      圖2 感受性曲線(ROC)示意圖Fig.2 Graph of receiver operating characteristic

      針對(duì)模型的擬合情況進(jìn)行了進(jìn)一步的檢驗(yàn),檢驗(yàn)結(jié)果如表4所示.

      表4 模型擬合檢驗(yàn)Table 4 Table of model fitting test

      由表4可知,該模型的-2倍對(duì)數(shù)似然值比較理想,CoX&Snell和 Nagelkerke均接近于l,表明模型總體擬合效果較好.

      4.3 方法評(píng)估

      為了驗(yàn)證本文方法的有效性,本文從兩個(gè)角度進(jìn)行驗(yàn)證,驗(yàn)證CSAFS算法的有效性以及擔(dān)保圈風(fēng)險(xiǎn)識(shí)別方法的有效性.

      4.3.1 CSAFS 算法的有效性驗(yàn)證

      由于CSAFS算法可以解決特征間的多重共線性問(wèn)題,所以通過(guò)對(duì)特征間進(jìn)行多重共線性診斷來(lái)驗(yàn)證CSAFS算法的有效性.首先對(duì)原始特征集(包含21個(gè)特征)進(jìn)行相關(guān)性分析,求出特征間的相關(guān)系數(shù)矩陣,存在3個(gè)特征間的相關(guān)系數(shù)超過(guò)了0.9,表明原始特征集中存在多重共線性問(wèn)題.

      由上文知,通過(guò)CSAFS算法選取出最優(yōu)特征子集作為自變量進(jìn)行 logistics回歸,最終確定主成分 Y1、Y3、Y5、Y7、Y9對(duì)擔(dān)保圈是否存在風(fēng)險(xiǎn)具有顯著性影響.針對(duì)主成分間是否多重共線性問(wèn)題,本文將通過(guò)特征間的容忍度(Tolerance)和方差膨脹系數(shù)(Variance inflation factor,VIF)兩個(gè)診斷指標(biāo)來(lái)診斷.VIF的取值大于1,是容忍度的倒數(shù),VIF越大,說(shuō)明特征間存在多重共線性的可能性越大.一般而言,當(dāng)容忍度>0.5,VIF<2時(shí),表明特征間不存在多重共線性問(wèn)題.特征間的共線性診斷如表5所示.

      由表5可知,各個(gè)成分特征都滿足不存在多重共線性的要求,這表明CSAFS算法在消除特征間多重共線性問(wèn)題的有效性.

      4.3.2 驗(yàn)證本文擔(dān)保圈風(fēng)險(xiǎn)檢測(cè)方法的有效性

      本實(shí)驗(yàn)選用支持向量機(jī)(SVM)算法、決策樹算法、隨機(jī)森林(RF)算法以及樸素貝葉斯算法的四種應(yīng)用較為廣泛數(shù)據(jù)挖掘算法對(duì)同一組數(shù)據(jù)集進(jìn)行建模.對(duì)比實(shí)驗(yàn)結(jié)果,驗(yàn)證本文擔(dān)保圈風(fēng)險(xiǎn)檢測(cè)方法的有效性.通過(guò)測(cè)試,各個(gè)模型的識(shí)別準(zhǔn)確率如表6所示.

      表5 多重共線性診斷表Table 5 Table of multicollinearity diagnostic

      表6 算法的識(shí)別準(zhǔn)確率對(duì)比Table 6 Comparison of algorithm recognition accuracy

      由表6可知,在算法的識(shí)別準(zhǔn)確率方面,決策樹、RF、SVM和樸素貝葉斯均小于95.6%,雖然隨機(jī)森林可以通過(guò)采樣來(lái)減小計(jì)算量,并且能夠利用并行方式進(jìn)行模型訓(xùn)練,可以處理大規(guī)模高維數(shù)據(jù),在擔(dān)保圈風(fēng)險(xiǎn)的識(shí)別上比其他三種算法(SVM、決策樹、樸素貝葉斯)識(shí)別的準(zhǔn)確率高,但仍然低于本文方法的識(shí)別準(zhǔn)確率.

      由此可見,本文提出的擔(dān)保圈風(fēng)險(xiǎn)識(shí)別方法的準(zhǔn)確率最高.這五種算法的優(yōu)缺點(diǎn)對(duì)比如表7所示.

      表7 算法對(duì)比Table 7 Comparison of algorithm

      5 總結(jié)

      擔(dān)保圈的存在影響面較廣,究其根本是圈內(nèi)存在“高?!笨蛻簦雌飘a(chǎn)風(fēng)險(xiǎn)較高、償債能力較弱的群體,這些客戶容易發(fā)生違約行為.本文提出一種CSAFS特征選擇算法和Logistic回歸相結(jié)合的方法,對(duì)銀行信貸業(yè)務(wù)中出現(xiàn)的“擔(dān)保圈”進(jìn)行風(fēng)險(xiǎn)識(shí)別.首先采用CSAFS特征選擇算法對(duì)原始數(shù)據(jù)集進(jìn)行最優(yōu)特征子集的選擇,該算法有效避免了確定K值問(wèn)題,選擇出的新特征子集可以覆蓋全部或者大部分(85%以上)原始數(shù)據(jù)的信息,能夠有效的反映出客戶的行為信息.最后將最優(yōu)特征子集作為自變量進(jìn)行Logistic回歸,建立擔(dān)保圈風(fēng)險(xiǎn)識(shí)別模型,經(jīng)測(cè)試,該模型準(zhǔn)確判別出了87組正確的樣本,誤判了4組樣本,預(yù)測(cè)結(jié)果的準(zhǔn)確率達(dá)到了95.6%.為了進(jìn)一步驗(yàn)證本文方法的有效性和精準(zhǔn)度,分別采用SVM算法、決策樹算法、RF算法和樸素貝葉斯算法對(duì)同一組數(shù)據(jù)集進(jìn)行建模,實(shí)驗(yàn)表明本文提出的方法識(shí)別率最高,具有一定的實(shí)用價(jià)值.

      猜你喜歡
      特征選擇子集聚類
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      關(guān)于奇數(shù)階二元子集的分離序列
      基于DBSACN聚類算法的XML文檔聚類
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于改進(jìn)的遺傳算法的模糊聚類算法
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      昌平区| 金溪县| 金湖县| 菏泽市| 甘谷县| 武胜县| 平舆县| 商水县| 县级市| 库伦旗| 博兴县| 宜兴市| 克什克腾旗| 靖江市| 德昌县| 富宁县| 饶河县| 拜泉县| 黑龙江省| 台安县| 西充县| 宜阳县| 玉龙| 女性| 永德县| 南投市| 昌乐县| 景洪市| 革吉县| 平邑县| 香格里拉县| 炎陵县| 安岳县| 隆安县| 德格县| 英山县| 平南县| 麦盖提县| 柳河县| 衢州市| 临洮县|