• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      結(jié)合代價(jià)敏感與集成算法的個(gè)人信用評(píng)估模型

      2022-04-24 03:21:22張怡羅康洋謝曉金
      軟件導(dǎo)刊 2022年4期
      關(guān)鍵詞:個(gè)人信用特征選擇代價(jià)

      張怡,羅康洋,謝曉金

      (1.上海工程技術(shù)大學(xué)數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620;2.華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院,上海 200062)

      0 引言

      隨著貸款消費(fèi)的不斷發(fā)展,個(gè)人信用評(píng)估已成為銀行等金融機(jī)構(gòu)密切關(guān)注的熱點(diǎn)。截至2019年9月底,國(guó)民貸款消費(fèi)達(dá)到13.34萬億元,同比增長(zhǎng)17.4%。2019年底突然爆發(fā)的新冠肺炎疫情給全球經(jīng)濟(jì)增長(zhǎng)帶來嚴(yán)重沖擊,社會(huì)秩序面臨巨大挑戰(zhàn)。面對(duì)較多的不確定性,迫切需要加強(qiáng)金融風(fēng)險(xiǎn)監(jiān)測(cè)評(píng)估,關(guān)注金融風(fēng)險(xiǎn)邊際變化,積極穩(wěn)妥防范化解金融風(fēng)險(xiǎn)。目前中小微企業(yè)遭受不同程度的沖擊,不少雇員面臨降薪甚至失業(yè)的風(fēng)險(xiǎn),貸款償還能力大大削弱,金融風(fēng)險(xiǎn)壓力凸現(xiàn)。因此,對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)估以便及時(shí)采取有效的規(guī)避措施,降低信用風(fēng)險(xiǎn)帶來的金融危機(jī)隱患顯得尤為重要。

      個(gè)人信用評(píng)估是通過挖掘個(gè)人信用的指標(biāo)數(shù)據(jù)與失信狀態(tài)之間的關(guān)聯(lián)關(guān)系構(gòu)建模型,從而評(píng)估個(gè)人的信用風(fēng)險(xiǎn)。文獻(xiàn)[2-6]介紹了目前國(guó)內(nèi)外主要的個(gè)人信用評(píng)估模型,包括專家評(píng)分模型、統(tǒng)計(jì)評(píng)分模型和機(jī)器學(xué)習(xí)模型;嚴(yán)鴻和等從知識(shí)工程的基本思想出發(fā),分析了專家評(píng)分過程中的非線性規(guī)劃模型,用以確定權(quán)系數(shù);文獻(xiàn)[4]針對(duì)數(shù)據(jù)集特征變量進(jìn)行主成分分析,使降維后的變量無相關(guān)性,再對(duì)其進(jìn)行稀疏貝葉斯分類,得出PCA-SBL具有更高的分類性能的結(jié)論;Ma等針對(duì)個(gè)人信用評(píng)估問題,在隨機(jī)森林、LightGBM和支持向量機(jī)3個(gè)分類器上進(jìn)行加權(quán)投票組合,獲得了良好的分類精度;Shen等提出一種集成優(yōu)化模型用于個(gè)人信用風(fēng)險(xiǎn)評(píng)估。針對(duì)個(gè)人信用數(shù)據(jù)類不平衡問題,基于代價(jià)敏感的改進(jìn)算法應(yīng)運(yùn)而生。文獻(xiàn)[7]介紹了基于集成隨機(jī)森林(RF)、GBDT算法和XGBoost三種算法建立的個(gè)人信用評(píng)估模型,并依據(jù)相關(guān)多元評(píng)價(jià)指標(biāo)對(duì)個(gè)人信用評(píng)估進(jìn)行對(duì)比研究;文獻(xiàn)[8]介紹了基于代價(jià)敏感的改進(jìn)算法。

      以上方法都未研究離散型和連續(xù)型并存使算法運(yùn)行性能降低的問題,以及不平衡數(shù)據(jù)導(dǎo)致模型的整體預(yù)測(cè)性能不高問題。為此,本文提出一種結(jié)合代價(jià)敏感和集成算法的分類模型,改進(jìn)了大樣本不平衡數(shù)據(jù)的分類性能,有效解決了離散型和連續(xù)型數(shù)據(jù)并存的問題,提高了個(gè)人信用評(píng)估效果。

      1 相關(guān)理論

      1.1 集成型特征選擇算法

      特征選擇指從全部特征出發(fā),選擇符合一定評(píng)價(jià)條件的最佳特征子集,從而降低特征維度,減少模型擬合訓(xùn)練的復(fù)雜性。本文利用特征分箱將連續(xù)型數(shù)據(jù)離散化,借助去不平衡思想設(shè)計(jì)集成型特征選擇算法,將每個(gè)特征的信息價(jià)值(Information Value,IV)、互信息、信息增益和基尼指數(shù)累加后進(jìn)行排序,篩選出最優(yōu)子集,從而對(duì)類不平衡和屬性雜糅的個(gè)人信用數(shù)據(jù)進(jìn)行有效的特征選擇。

      1.1.1 基于IV的特征選擇

      在監(jiān)督學(xué)習(xí)中WOE(Weight of evidence,WOE)是自變量的一種編碼形式。假設(shè)

      p

      p

      )是第

      i

      箱中少(多)數(shù)類樣本占所有少(多)數(shù)類樣本的比例,則第

      i

      箱的WOE值為:

      其中,

      B

      G

      分別為第

      i

      箱中累積失信用戶和累積信用良好用戶的數(shù)量,

      B

      G

      分別為所有失信用戶和所有信用良好用戶的數(shù)量。

      IV指信息數(shù)據(jù)的價(jià)值,即:

      IV常用于對(duì)不同特征的預(yù)測(cè)能力進(jìn)行評(píng)估,IV越大,則該特征的預(yù)測(cè)準(zhǔn)確度越高。但當(dāng)IV大于0.5時(shí),有過擬合的風(fēng)險(xiǎn)。

      基于IV的特征選擇步驟為:1使用Best-KS分箱將連續(xù)型數(shù)據(jù)離散化;2對(duì)離散化后的數(shù)據(jù)進(jìn)行WOE編碼;3結(jié)合每個(gè)分箱及其對(duì)應(yīng)的WOE計(jì)算IV,并將其作為特征選擇的指標(biāo)之一。文獻(xiàn)[12]介紹了針對(duì)連續(xù)型特征的分箱操作,包括等頻、等距和Best-KS最優(yōu)分箱。等頻和等距分箱在不平衡數(shù)據(jù)中存在易偏向多數(shù)類的局限,因此本文采用Best-KS最優(yōu)分箱算法。

      1.1.2 基于互信息的特征選擇

      信息熵是消除不確定性所需信息量的度量,在圖像處理、人工智能、數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用廣泛。對(duì)于任意的特征變量

      X

      ,信息熵為:

      其中,

      p

      =

      P

      (

      X

      =

      x

      ),

      i

      =1,2,...,

      N

      ,下同?;バ畔⒈举|(zhì)是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測(cè)度,通常用于特征和類別之間的測(cè)度。對(duì)于任意的特征變量

      X

      和類別

      Y

      ,互信息為:

      其中,

      p

      =

      P

      (

      Y

      =

      y

      ),

      p

      =

      P

      (

      X

      =

      x

      ,

      Y

      =

      y

      ),

      i

      =1,2,...,

      N

      ,

      j

      =1,2,...,

      M

      。

      I

      (

      X

      ;

      Y

      )越大,特征

      X

      的分類能力越強(qiáng),反之,其分類能力越弱。在不平衡數(shù)據(jù)問題中,基于互信息的特征選擇容易傾向于多數(shù)類。

      1.1.3 基于信息增益率的特征選擇

      信息增益率是互信息與特征信息熵之比。在分類判別中,其信息增益率為:

      I

      (

      X

      ,

      Y

      )越大,其分類能力越強(qiáng),反之,則分類能力越弱。信息增益率可以克服互信息偏向取值較多一方的弊端,但是其不足之處在于可能存在偏向取值較少一方的隱患。

      1.1.4 基于基尼指數(shù)的特征選擇

      基尼指數(shù)是隨機(jī)檢測(cè)樣本被錯(cuò)分的最大概率,旨在刻畫特征的不純度,其定義如下:

      Gini

      (

      X

      )越小,則特征的不純度越低,特征越好?;嶂笖?shù)在一定程度上可以規(guī)避互信息和信息增益率的兩種偏向誤差,從而最小化錯(cuò)誤率。

      1.2 基于代價(jià)敏感的異質(zhì)集成分類模型

      傳統(tǒng)的分類模型在分布均衡的數(shù)據(jù)集上呈現(xiàn)出較好的分類性能,但在不平衡數(shù)據(jù)集中,由于多數(shù)類樣本遠(yuǎn)大于少數(shù)類樣本,故容易傾向于多數(shù)類而忽略少數(shù)類的貢獻(xiàn)。在不平衡數(shù)據(jù)問題中,人們更多地關(guān)注少數(shù)類的影響。因此,從算法層面建立少數(shù)類和多數(shù)類之間的錯(cuò)分矩陣,構(gòu)建基于代價(jià)敏感的分類模型具有實(shí)際意義。

      1.2.1 代價(jià)敏感

      代價(jià)敏感指在二分類問題上將一類樣本誤分為另一類樣本所產(chǎn)生的損失,可有效規(guī)避重采樣技術(shù)中可能造成多數(shù)類中重要信息丟失或少數(shù)類過擬合現(xiàn)象的缺陷。假設(shè)

      n

      n

      分別表示少數(shù)類樣本和多數(shù)類樣本數(shù)量,則少數(shù)類和多數(shù)類的錯(cuò)分代價(jià)分別為:

      例如,在個(gè)人信用評(píng)估中,失信用戶是需要重點(diǎn)關(guān)注的對(duì)象。針對(duì)分類器對(duì)失信用戶錯(cuò)分的代價(jià)遠(yuǎn)大于對(duì)信用良好用戶錯(cuò)分代價(jià)的問題,本文給予失信用戶更高的錯(cuò)分代價(jià),即式(7)中Cos

      tP

      遠(yuǎn)大于Cos

      tN

      1.2.2 異質(zhì)集成分類模型

      (1)Bagging集成算法。根據(jù)算法屬性是否一致,集成模型劃分為同質(zhì)集成模型和異質(zhì)集成模型。將基學(xué)習(xí)器之間依賴關(guān)系分為強(qiáng)依賴關(guān)系和弱依賴關(guān)系。強(qiáng)依賴關(guān)系的代表算法是Boosting系列算法,而弱依賴關(guān)系的代表算法是Bagging、隨機(jī)森林等算法。對(duì)于噪聲較大的數(shù)據(jù)集,隨機(jī)森林容易陷入過擬合。本文基于Bagging思想構(gòu)建集成模型,其算法流程如圖1所示。

      Fig.1 Bagging algorithm flow圖1 Bagging算法流程

      (2)基于L1和彈性網(wǎng)邏輯回歸的基模型。通常借助正則化思想來降低二元邏輯回歸模型的過擬合風(fēng)險(xiǎn),即在基于極大似然估計(jì)得到的損失函數(shù)中加入正則項(xiàng)。常用的正則化包括L1正則化、L2正則化和彈性網(wǎng)正則化,對(duì)應(yīng)的損失函數(shù)分別為:

      其中,

      C

      為懲罰項(xiàng)系數(shù),

      ρ

      為常數(shù)系數(shù),

      θ

      為目標(biāo)變量

      y

      和輸入特征

      x

      的關(guān)系矩陣。由式(8)—式(10)可知,L1—邏輯回歸和彈性網(wǎng)-邏輯回歸相比L2—邏輯回歸,既可降低傳統(tǒng)邏輯回歸模型的過擬合風(fēng)險(xiǎn),又能對(duì)特征全集進(jìn)行篩選以簡(jiǎn)化模型。

      綜上,本文將邏輯回歸模型(包含文獻(xiàn)介紹了:L1—邏輯回歸和彈性網(wǎng)—邏輯回歸)、貝葉斯模型、決策樹模型和神經(jīng)網(wǎng)絡(luò)模型作為基模型構(gòu)建異質(zhì)集成模型,有助于規(guī)避單一基模型分類性能的偶然性,提高模型的泛化能力。

      1.3 動(dòng)態(tài)加權(quán)投票策略

      集成模型的投票策略包括相對(duì)多數(shù)投票法、絕對(duì)多數(shù)投票法和加權(quán)投票法,本文對(duì)加權(quán)投票法進(jìn)行改進(jìn)以實(shí)現(xiàn)動(dòng)態(tài)選取滿足精度條件的弱學(xué)習(xí)器。主要思想為:在正式投票之前,自動(dòng)過濾預(yù)測(cè)精度低于隨機(jī)猜想的弱學(xué)習(xí)器,并將剩余的弱學(xué)習(xí)器利用式(11)進(jìn)行加權(quán)投票,以確定最終的分類結(jié)果:

      1.4 模型建立

      本文通過集成IV、互信息、信息增益率和基尼指數(shù)的特征選擇算法生成最優(yōu)特征子集,并以L1—邏輯回歸、彈性網(wǎng)—邏輯回歸、貝葉斯、決策樹和神經(jīng)網(wǎng)絡(luò)作為基模型構(gòu)建個(gè)人信用評(píng)估分類模型,如圖2所示。

      Fig.2 Personal credit assessment classification model combining cost sensitive and integrated algorithm圖2 結(jié)合代價(jià)敏感和集成算法的個(gè)人信用評(píng)估分類模型

      2 實(shí)證分析

      2.1 數(shù)據(jù)描述與預(yù)處理

      本文數(shù)據(jù)來自Kaggle官網(wǎng)的Give Me Some Credit數(shù)據(jù)集,主要描述個(gè)人消費(fèi)類信用卡貸款數(shù)據(jù)。由表1可知,該數(shù)據(jù)集有離散型和連續(xù)型數(shù)據(jù)并存特點(diǎn)。其中,失信客戶(少數(shù)類)和信用良好客戶(多數(shù)類)分別為10 026個(gè)和139 975個(gè),屬于不平衡數(shù)據(jù)集。

      Table 1 Feature attribute description表1 特征屬性描述

      在預(yù)處理數(shù)據(jù)時(shí),首先計(jì)算各自變量的缺失比,小于5%者刪除對(duì)應(yīng)樣本,大于5%者使用均值插補(bǔ)法補(bǔ)全,得到少數(shù)類和多數(shù)類樣本分別為8 357個(gè)和111 912個(gè);其次,為了消除不同量綱對(duì)特征的影響,采用極大極小歸一化法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;最后,將數(shù)據(jù)集按8:2劃分為訓(xùn)練集和測(cè)試集。

      2.2 實(shí)驗(yàn)設(shè)置

      采用原始特征集、基于mRMR特征選擇算法以及集成型特征選擇方法構(gòu)建個(gè)人信用評(píng)估分類模型,對(duì)比其使用性能來驗(yàn)證本文集成模型的有效性,具體通過python代碼編程實(shí)現(xiàn)。

      2.2.1 異質(zhì)集成分類模型

      mRMR是常見的特征選擇算法之一,它同時(shí)考慮了特征間的冗余性以及特征與目標(biāo)變量的相關(guān)性,即選擇與目標(biāo)類別相關(guān)性最大、特征之間冗余性最小的特征子集。

      假設(shè)特征集

      S

      中的第

      i

      個(gè)特征用

      f

      表示,則

      S

      與類別

      c

      之間最大相關(guān)最小冗余的度量方法如下:

      其中,

      I

      (

      f

      ,

      c

      )和

      I

      (

      f

      ,

      f

      )分別表示特征

      f

      與類別

      c

      和特征

      f

      之間的相關(guān)性度量。

      2.2.2 參數(shù)設(shè)置

      為克服誤分類造成的代價(jià)敏感問題,多次調(diào)參后引入類權(quán)重參數(shù)class_weight。若迭代次數(shù)太少會(huì)導(dǎo)致模型不收斂,故設(shè)置max_iter=10 000。更多參數(shù)設(shè)置見表2。

      Table 2 Integrated classification model parameter settings表2 集成分類模型參數(shù)設(shè)置

      2.2.3 性能評(píng)價(jià)指標(biāo)

      在個(gè)人信用評(píng)估研究中,金融機(jī)構(gòu)更加關(guān)注的是少數(shù)類樣本的預(yù)測(cè)準(zhǔn)確度。在不平衡數(shù)據(jù)問題中,對(duì)少數(shù)類和多數(shù)類的整體分類精度是衡量模型優(yōu)劣的重要標(biāo)志。下面基于混淆矩陣構(gòu)建評(píng)價(jià)模型性能指標(biāo),如表3所示。

      Table 3 Confusion matrix表3 混淆矩陣

      其中,TP表示少數(shù)類樣本預(yù)測(cè)正確的數(shù)量,F(xiàn)N表示少數(shù)類樣本預(yù)測(cè)錯(cuò)誤的數(shù)量,F(xiàn)P表示多數(shù)類樣本預(yù)測(cè)錯(cuò)誤的數(shù)量,TN表示多數(shù)類樣本預(yù)測(cè)正確的數(shù)量。少數(shù)類樣本召回率

      rr

      、多數(shù)類樣本召回率

      rr

      、少數(shù)類樣本查準(zhǔn)率

      pr

      、綜合分類預(yù)測(cè)能力G-means和少數(shù)類分類精確度Fvalue的定義分別表示如下:

      考慮到少數(shù)類和多數(shù)類樣本的總體預(yù)測(cè)性能,Gmeans值越大說明模型綜合分類的預(yù)測(cè)性越強(qiáng),可整體反應(yīng)模型對(duì)不平衡數(shù)據(jù)的分類性能。F-value考慮了少數(shù)類樣本的召回率和查準(zhǔn)率,能全面反映少數(shù)類樣本的分類精度,其值越大表明模型對(duì)于少數(shù)類樣本的識(shí)別能力越強(qiáng)。

      2.3 個(gè)人信用數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與分析

      在原始特征集中基于mRMR特征選擇算法和基于集成型特征選擇算法篩選出的特征子集見表4。從表4可以看出,無論從特征之間相關(guān)性、冗余性還是重要性角度,表4中的7個(gè)特征都與個(gè)人信用評(píng)估密切相關(guān)。

      Table4 mRMR feature subset and integrated feature subset表4 mRMR特征子集與集成型特征子集

      續(xù)表

      分別將兩組特征子集的對(duì)應(yīng)數(shù)據(jù)作為集成模型的輸入,預(yù)測(cè)結(jié)果如表5所示。

      Table 5 Integrated model and prediction results based on mRMR model and existing literatures表5 集成型模型與基于mRMR模型和已有文獻(xiàn)預(yù)測(cè)結(jié)果 (%)

      由表5可知,本文模型和基于mRMR特征選擇構(gòu)建的模型評(píng)價(jià)指標(biāo)均優(yōu)于基于原始特征全集模型評(píng)價(jià)指標(biāo)。事實(shí)上,相比基于原始特征全集構(gòu)建的模型,本文模型的G-means和F-value分別提升8%和18%,而基于mRMR特征選擇算法構(gòu)建模型的性能均提升1%,可見本文模型的分類效果較mRMR特征選擇算法模型有大幅提高。此外,與文獻(xiàn)[23]的實(shí)證結(jié)果相比,

      rr

      降低了11.94%,

      rr

      增加了15.43%,G-Means、F-value和AUC的性能分別提升10.76%、21.07%和0.64%。

      rr

      的增加是以犧牲多數(shù)類樣本的正確預(yù)測(cè)為代價(jià),這表明代價(jià)敏感算法和集成特征選擇算法的結(jié)合有效降低了多數(shù)類的影響,增強(qiáng)了少數(shù)類的重要性,從而提升了不平衡數(shù)據(jù)整體的分類效果,但AUC指標(biāo)提升較小。

      3 結(jié)語

      本文提出一種結(jié)合代價(jià)敏感和集成算法的異質(zhì)集成個(gè)人信用評(píng)估分類模型。首先借助Best-KS分箱將連續(xù)型數(shù)據(jù)離散化;然后利用IV、互信息、信息增益率和基尼指數(shù)集成特征選擇算法;接著基于代價(jià)敏感構(gòu)建L1邏輯回歸、彈性網(wǎng)邏輯回歸、貝葉斯、決策樹和神經(jīng)網(wǎng)絡(luò)基模型;最后通過G-means賦權(quán),實(shí)現(xiàn)動(dòng)態(tài)加權(quán)投票策略。實(shí)證結(jié)果表明,本文模型的預(yù)測(cè)性能優(yōu)于基于原始特征集以及利用mRMR特征選擇后構(gòu)建的個(gè)人信用評(píng)估分類模型,具有一定的魯棒性。

      利用本文模型將二分類問題推廣至多分類問題方案以進(jìn)一步提高模型分類性能是未來的研究方向。

      猜你喜歡
      個(gè)人信用特征選擇代價(jià)
      基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估
      個(gè)人信用信息何以應(yīng)由憲法保護(hù)?——一個(gè)制度論證的進(jìn)路
      法大研究生(2020年2期)2020-01-19 01:43:22
      愛的代價(jià)
      海峽姐妹(2017年12期)2018-01-31 02:12:22
      代價(jià)
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      嚴(yán)重交通違法行為將直接與個(gè)人信用掛鉤
      汽車與安全(2016年5期)2016-12-01 05:22:05
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      成熟的代價(jià)
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      陈巴尔虎旗| 沅陵县| 双流县| 静海县| 东兴市| 波密县| 河北省| 景谷| 门头沟区| 苏州市| 江山市| 安顺市| 平泉县| 随州市| 平安县| 黔西| 夏河县| 贡嘎县| 宜宾市| 同仁县| 宜章县| 永清县| 东平县| 横山县| 长武县| 璧山县| 石狮市| 宁德市| 淮南市| 灵丘县| 泸西县| 武城县| 安丘市| 石景山区| 临朐县| 凭祥市| 沅江市| 芜湖县| 仪陇县| 高阳县| 鹿邑县|