• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于組合特征選擇的隨機(jī)森林信用評(píng)估①

      2022-05-10 12:12:44饒姍姍冷小鵬
      關(guān)鍵詞:樣本數(shù)特征選擇森林

      饒姍姍,冷小鵬

      (成都理工大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)安全學(xué)院(牛津布魯克斯學(xué)院),成都 610051)

      當(dāng)下是金融經(jīng)濟(jì)的飛速發(fā)展時(shí)代,個(gè)人信用評(píng)估數(shù)據(jù)普遍表現(xiàn)為高維度、高復(fù)雜度等特點(diǎn),無關(guān)、冗余的評(píng)價(jià)因子會(huì)直接影響信用評(píng)估模型的準(zhǔn)確性,而評(píng)價(jià)因子的優(yōu)劣取決于特征選擇方法的選擇是否合理、全面.目前常用的特征選擇方法包括過濾法(filter)、包裹法(wrapper)、嵌入法(embedded)[1].Filter 方法利用統(tǒng)計(jì)學(xué)方法評(píng)估變量與預(yù)測(cè)變量間的關(guān)系,該方法優(yōu)勢(shì)在于計(jì)算簡(jiǎn)單、速度快;wrapper 方法通過對(duì)生成的子特征組合與其他組合進(jìn)行比較,依賴于學(xué)習(xí)算法的準(zhǔn)確度;embedded 方法是通過在訓(xùn)練模型的過程中根據(jù)準(zhǔn)確度學(xué)習(xí)并選擇出最優(yōu)的特征組合.本文選用的信息量模型(information value)與XGBoost (extreme gradient boosting)分別是Filter和Embedded 方法的實(shí)現(xiàn).結(jié)合兩種不同的特征選擇方法不僅能夠提高輸入變量的有效性同時(shí)增強(qiáng)了整個(gè)模型的可解釋性.

      近二十年來,信用風(fēng)險(xiǎn)評(píng)估方法主要分為兩部分:統(tǒng)計(jì)學(xué)方法和機(jī)器學(xué)習(xí)方法.Fernandes 等[2]利用邏輯回歸算法建立了信用評(píng)估模型,并通過實(shí)驗(yàn)證實(shí)了logistic 算法在信貸評(píng)估業(yè)務(wù)的可行性,成為了主流的統(tǒng)計(jì)學(xué)方法之一.郭暢[3]將IV與Lasso-Logistic 結(jié)合,通過IV 排除風(fēng)險(xiǎn)識(shí)別能力、穩(wěn)定性較差的變量,整體提升了信用預(yù)測(cè)模型的效果.然而隨著信息技術(shù)的迅猛發(fā)展,傳統(tǒng)的統(tǒng)計(jì)學(xué)評(píng)分模型暴露出3 個(gè)主要問題:一是模型單一;二是處理數(shù)據(jù)維度較小;三是主要以專家評(píng)價(jià)法為主,預(yù)測(cè)結(jié)果缺乏客觀性[4];為了解決這些問題,學(xué)者們嘗試將機(jī)器學(xué)習(xí)建模技術(shù)應(yīng)用在個(gè)人信用評(píng)估業(yè)務(wù)中,其中主要包括決策樹[5]、BP 神經(jīng)網(wǎng)絡(luò)[6]、支持向量機(jī)(SVM)[7]等模型,但單一機(jī)器學(xué)習(xí)模型處理的數(shù)據(jù)維度和預(yù)測(cè)精度有限,為決定該問題,集成算法逐漸應(yīng)用在個(gè)人信用評(píng)估領(lǐng)域中.Twala[8]、Zhu 等[9]使用5 類信用數(shù)據(jù)證實(shí)了集成算法在信用評(píng)估領(lǐng)域表現(xiàn)出更優(yōu)的預(yù)測(cè)效果并且多個(gè)分類器組合顯著提高了整個(gè)模型的學(xué)習(xí)能力;蕭超武等[10]基于組合分類模型隨機(jī)森林(RF),發(fā)現(xiàn)RF 模型分類準(zhǔn)確率、穩(wěn)定性更高,并且噪聲容忍度高,訓(xùn)練過程中能夠效避免過擬合現(xiàn)象.周永圣等[11]首次將XGBoost和隨機(jī)森林模型兩種不同的集成算法融入到信用評(píng)估中,證實(shí)了XGBoost 算法基于特征重要性能有效剔除信用數(shù)據(jù)冗余變量,但該實(shí)驗(yàn)缺少對(duì)比實(shí)驗(yàn)且變量選取較隨意、可靠性較低.李欣等[12]提出一種基于改進(jìn)網(wǎng)格搜索優(yōu)化的XGBoost模型,實(shí)驗(yàn)結(jié)果顯示F-score和G-mean均優(yōu)于其他機(jī)器學(xué)習(xí)模型,進(jìn)一步表明集成算法的優(yōu)越性.

      鑒于個(gè)人信用數(shù)據(jù)維度高、變量冗余度高的特點(diǎn),本文采用IV-XGBoost 組合特征選擇方法對(duì)隨機(jī)森林模型進(jìn)行優(yōu)化,不僅避免了傳統(tǒng)特征選擇方法的單一性同時(shí)能夠更好解決數(shù)據(jù)維度過高的問題;IV 值剔除冗余、無預(yù)測(cè)能力的變量,XGBoost 利用變量打分機(jī)制篩選變量,采樣逐步排除法輸出最優(yōu)特征集,相比根據(jù)特征重要性排名隨意選取的方法,該組合特征選擇模型更加合理并且可信度高;此外超參數(shù)組合會(huì)直接影響RF 模型的預(yù)測(cè)效果,利用網(wǎng)格-5 折對(duì)RF 中的重要參數(shù)進(jìn)行參數(shù)尋優(yōu).最后實(shí)驗(yàn)結(jié)果表明基于新型的組合特征選擇方法的隨機(jī)森林相比其他單一的機(jī)器學(xué)習(xí)方法以及原始的集成算法有著更高的穩(wěn)定性和預(yù)測(cè)準(zhǔn)確率.

      1 特征選擇理論與方法

      1.1 證據(jù)權(quán)重(WOE)與信息價(jià)值(IV)

      WOE (weight of evidence)即為證據(jù)權(quán)重,通過編碼的方式將自變量表示成其對(duì)目標(biāo)變量的區(qū)分程度的形式.根據(jù)WOE值大小反映某屬性對(duì)目標(biāo)的影響,若同一屬性的不同劃分標(biāo)準(zhǔn)計(jì)算出的WOE值越大,則表明該屬性對(duì)目標(biāo)屬性的區(qū)分度越大,其計(jì)算公式:

      其中,WOE(x)是變量進(jìn)行分箱處理后第i組的WOE值,其中pyi是該組未響應(yīng)樣本(‘未違約客戶’)占比;pni是響應(yīng)樣本(‘違約客戶’)占比;yi是某變量第i個(gè)屬性對(duì)應(yīng)的未響應(yīng)樣本數(shù),yT是所有未響應(yīng)樣本數(shù);ni是某變量第i個(gè)屬性對(duì)應(yīng)的響應(yīng)樣本數(shù),nT是是所有響應(yīng)樣本數(shù).

      信息量(IV)是基于WOE 算法改進(jìn)的衡量指標(biāo),其計(jì)算本質(zhì)是某變量所有屬性的WOE值加權(quán)求和,其值大小反映了變量對(duì)目標(biāo)變量的預(yù)測(cè)能力.IV 通常應(yīng)用在風(fēng)控模型中評(píng)價(jià)因子的選擇,其計(jì)算公式:

      其中,WOEi是某變量進(jìn)行離散化處理后第i組的WOE 值;其中yi是某變量第i個(gè)屬性對(duì)應(yīng)的未響應(yīng)樣本數(shù);T是所有未響應(yīng)樣本數(shù);ni是某變量第i個(gè)屬性對(duì)應(yīng)的響應(yīng)樣本數(shù);nT所有響應(yīng)樣本數(shù).

      1.2 XGBoost 特征選擇

      1.2.1 算法原理

      XGBoost[13]是基于梯度提升算法GBDT 改進(jìn)的新型集成學(xué)習(xí)算法,其主要算法思想是將多個(gè)分類精度較低的子樹模型進(jìn)行迭代組合從而構(gòu)建出準(zhǔn)確度、穩(wěn)定性更強(qiáng)的模型.XGBoost 在GBDT的原目標(biāo)函數(shù)上加入了正則項(xiàng),因此加快了收斂效率的同時(shí)降低過擬合風(fēng)險(xiǎn).其變換后的公式如下:

      式(4)計(jì)算所有子樹的復(fù)雜度總和,其中Ω (f)是正則化項(xiàng);N代表子樹中葉子節(jié)點(diǎn)個(gè)數(shù);λ代表了葉子節(jié)點(diǎn)權(quán)重O的懲罰系統(tǒng)值;γ是衡量樹的分割難度大小,用于控制樹生長(zhǎng).

      XGBoost與GBDT的不同之處在于前者是以泰勒公式二階導(dǎo)展開,從而加快了函數(shù)收斂速度且提高了模型預(yù)測(cè)準(zhǔn)確度,其變換后目標(biāo)函數(shù)為:

      其中,Ij∈{q(Xi)=j},hi為[l(α)]′′,gi為[l(α)]′.

      1.2.2 XGBoost 特征選擇原理

      機(jī)器學(xué)習(xí)中特征選擇是建模工作中至關(guān)重要的環(huán)節(jié),XGBoost 采用梯度提升的原理對(duì)樣本進(jìn)行分類,該模型是根據(jù)計(jì)算各個(gè)變量的重要性來進(jìn)行特征選擇,其主要原理是子樹節(jié)點(diǎn)在分裂的同時(shí)計(jì)算其信息增益量,并選擇差值最大的指標(biāo)作為下一次的分裂屬性,直到完成全部計(jì)算.本文根據(jù)XGBoost 計(jì)算后輸出的特征重要性排名,由低到高逐個(gè)加入到特征集并計(jì)算RF模型準(zhǔn)確度,選取準(zhǔn)確度最高的特征集作為最終特征選擇的結(jié)果.

      2 改進(jìn)的隨機(jī)森林個(gè)人信用評(píng)估模型

      2.1 隨機(jī)森林算法

      隨機(jī)森林是Breiman[14]提出的基于樹的集成學(xué)習(xí)算法,根據(jù)特征數(shù)對(duì)每個(gè)樣本選取分裂指標(biāo)進(jìn)而構(gòu)建單棵子樹.隨機(jī)森林旨在集成多個(gè)弱分類器來構(gòu)建一個(gè)強(qiáng)分類器,各個(gè)基分類器之間相互互補(bǔ),降低了方差以及過擬合的風(fēng)險(xiǎn),從而提高模型的性能.

      RF是在Bagging 集成學(xué)習(xí)和隨機(jī)子空間的基礎(chǔ)上進(jìn)一步優(yōu)化的集成學(xué)習(xí)算法,由服從獨(dú)立同分步隨機(jī)向量 θi生成的i棵樹{Wi(x,θi),i=1,2,3,···},i棵子樹最終形成集成樹模型.RF 模型的最終結(jié)果采用基分類器中平均票數(shù)最多的結(jié)果作為輸出.隨機(jī)森林模型算法流程如下:

      (1)采用Bootstrap 方法有放回的從總量為W的訓(xùn)練集中隨機(jī)抽取形成N個(gè)子訓(xùn)練集 {Ni},i∈{1,2,3,4,5,···,k}每個(gè)訓(xùn)練子樣本對(duì)應(yīng)一棵CART 樹.

      (2)隨機(jī)森林由i棵分類樹構(gòu)成,每棵分類樹的子節(jié)點(diǎn)在進(jìn)行分裂時(shí)隨機(jī)選擇分裂指標(biāo)數(shù)n(n≤M),其中M為總樣本的指標(biāo)個(gè)數(shù),根據(jù)衡量指標(biāo)大小選擇最優(yōu)分割指標(biāo)進(jìn)行劃分.

      (3)不斷重復(fù)步驟(2),直至森林中所有的子樹構(gòu)建完成.

      (4)由i棵子樹形成最終隨機(jī)森林,將待測(cè)試樣本引入構(gòu)建好的隨機(jī)森林,最終結(jié)果采用投票選舉的方式產(chǎn)生.其最終的決策函數(shù)Prf(X)由式(6)得出:

      其中,w(X,θi)為單個(gè)分類決策樹;l(·)為指標(biāo)函數(shù)表示滿足式子的樣本總數(shù);k為待建子樹棵數(shù);Y為目標(biāo)變量,解釋為是否違約;θi是隨機(jī)變量.

      隨機(jī)森林的決策結(jié)果取決于每一棵子樹的訓(xùn)練結(jié)果,分裂指標(biāo)的選取決定了分裂標(biāo)準(zhǔn),隨機(jī)森林一般采用基尼指數(shù)(Gini),其大小衡量了各節(jié)點(diǎn)混亂程度,其計(jì)算如下:

      其中,p(y|c)為客戶類別y在子樹c節(jié)點(diǎn)的條件概率;一般來說基尼指數(shù)越大,表明在該節(jié)點(diǎn)處的數(shù)據(jù)越趨向均勻分布,樣本越純;當(dāng)Gini指數(shù)為0 時(shí),表明該節(jié)點(diǎn)所有樣本均為一個(gè)類.

      2.2 改進(jìn)的RF 模型流程

      基于IV-XGBoostRF的個(gè)人信用評(píng)估算法模型流程圖(如圖1),其運(yùn)行步驟如下:

      圖1 IV-XGBoost-RF 模型

      步驟(1)剔除異常值、重復(fù)值、缺失值,對(duì)數(shù)據(jù)中的連續(xù)型變量采用最優(yōu)決策樹分箱進(jìn)行離散化、歸一化.

      步驟(2)采用皮爾遜相關(guān)分析排除變量間的強(qiáng)相關(guān)變量進(jìn)而排除變量間共線性可能;同時(shí)進(jìn)行WOE 編碼以及計(jì)算分箱后各變量屬性的IV 值,并通過IV 值篩選產(chǎn)生初步的特征集;根據(jù)XGBoost 輸出該特征集的重要性完成組合特征選擇.

      步驟(3) 利用超參數(shù)曲線確定森林大小參數(shù)n_estimators、網(wǎng)格搜索確定其他重要參數(shù);為了減少訓(xùn)練集、測(cè)試集劃分的隨機(jī)性,實(shí)驗(yàn)過程采用五折交叉驗(yàn)證,將數(shù)據(jù)集A隨機(jī)分為5 份訓(xùn)練樣本,A1,A2,…,A5,每一個(gè)樣本Ai都逐次作為訓(xùn)練數(shù)據(jù),其余為測(cè)試數(shù)據(jù).

      步驟(4)模型評(píng)估.

      3 實(shí)證分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)集來自UCI 德國(guó)某銀行信用數(shù)據(jù),利用該數(shù)據(jù)集驗(yàn)證改進(jìn)的隨機(jī)森林模型的可行性,數(shù)據(jù)集主要從個(gè)人基本信息、賬戶信息、貸款信息3 個(gè)方面對(duì)客戶進(jìn)行描述,樣本大小為1 000 個(gè)樣本,其中正例700 例,反例300,不平衡率為2.3,具體的指標(biāo)信息如表1所示.

      表1 數(shù)據(jù)集信息說明

      3.2 數(shù)據(jù)預(yù)處理與分析

      (1)變量分箱

      選用最優(yōu)決策樹分箱,通過比較Gini系數(shù)大小決定分箱點(diǎn),對(duì)數(shù)據(jù)集中R2 (貸款期限)、R5 (貸款金額)、R13 (年齡) 3 個(gè)連續(xù)型變量進(jìn)行決策樹分箱同時(shí)計(jì)算IV、WOE 值,結(jié)果如表2所示.

      表2 貸款期限R2與貸款金額R5 及年齡R13 證據(jù)權(quán)重

      (2)皮爾遜相關(guān)分析

      根據(jù)計(jì)算得到各變量間相關(guān)性系數(shù)范圍為0.01-0.4,各指標(biāo)間關(guān)聯(lián)性均呈弱相關(guān),因此排除變量間共線性可能.同時(shí)結(jié)果顯示支票賬戶情況、貸款期限、信用記錄特征與是否違約相關(guān)度較高.

      3.3 特征選擇

      基于IV-XGBoost 進(jìn)行特征篩選,具體步驟如下:

      (1)根據(jù)信息價(jià)值計(jì)算公式分別計(jì)算20 個(gè)指標(biāo)對(duì)應(yīng)IV 值(如表3),剔除信息量小于0.02的特征,即R17、R19、R11、R18,剩余16 個(gè)待篩選特征.

      表3 各指標(biāo)IV 值大小及排名

      (2)根據(jù)圖2中XGBoost 對(duì)16 個(gè)特征的重要性排名結(jié)果,采用逐步減小變量個(gè)數(shù)(如表4),以準(zhǔn)確度作為衡量標(biāo)準(zhǔn)最終選擇XGBoost 重要性排名前14的特征(加粗為準(zhǔn)確度最高).

      圖2 XGBoost 特征重要性排序

      表4 特征數(shù)量選擇及模型準(zhǔn)確度 (%)

      3.4 模型性能評(píng)估

      經(jīng)過信息值IV 以及XGBoost 特征選擇后保留了14 個(gè)信用評(píng)估特征,使用超參數(shù)學(xué)習(xí)曲線結(jié)合網(wǎng)格搜索確定RF 模型重要參數(shù)n_estimators=104、max_features=4、min_samples_split=3,該參數(shù)組合下的RF 評(píng)估性能最優(yōu).為了進(jìn)一步驗(yàn)證改進(jìn)后的隨機(jī)森林模型的性能,實(shí)驗(yàn)分別與其他五種機(jī)器學(xué)習(xí)模型相比較;實(shí)驗(yàn)過程采用五折交叉驗(yàn)證減小隨機(jī)性對(duì)結(jié)果的影響,據(jù)此作以下分析:

      (1)根據(jù)表5實(shí)驗(yàn)結(jié)果,改進(jìn)后的隨機(jī)森林的準(zhǔn)確度分別高于默認(rèn)參數(shù)下的隨機(jī)森林、邏輯回歸、支持向量機(jī)、BP 神經(jīng)網(wǎng)絡(luò)模型0.90%、3.80%、2.70%、1.30%.

      表5 5 種模型實(shí)驗(yàn)結(jié)果

      (2)ROC 曲線用來衡量模型分類性能優(yōu)劣的一種圖像,ROC 曲線越靠近左上方模型分類效果越好;其ROC 曲線下方于X、Y 軸圍成的面積為AUC 值,其范圍在0-1 之間,AUC 值越高表明模型性能越優(yōu).圖3顯示改進(jìn)的隨機(jī)森林模型AUC 值高于其他模型,其AUC 值為到0.971,ROC 曲線更靠近左上方.

      圖3 5 種模型ROC 曲線

      (3)未改進(jìn)的隨機(jī)森林模型F-score為0.874 2,改進(jìn)后隨機(jī)森林F-score為0.895 7,有明顯的提升.

      4 結(jié)論與展望

      本文提出了組合特征選擇的方法,首次將傳統(tǒng)的風(fēng)控指標(biāo)-信息價(jià)值(IV)和新型集成學(xué)習(xí)方法XGBoost相結(jié)合,以隨機(jī)森林作為信用評(píng)估器.現(xiàn)針對(duì)提出的改進(jìn)方法作以下幾點(diǎn)總結(jié):

      (1)根據(jù)組合特征選擇結(jié)果總結(jié)出銀行系統(tǒng)應(yīng)該更關(guān)注貸款與賬戶相關(guān)信息,如支票賬戶狀態(tài)、信用記錄、貸款期限、貸款目的、儲(chǔ)蓄賬戶情況、固定資產(chǎn)等銀行賬戶等因素;個(gè)人基本信息中更關(guān)注就業(yè)情況、婚姻狀況因素.符合常理.

      (2)基于IV-XGBoost的組合特征選擇方法相比直接通過分類算法的特征重要性排序剔除特征更加合理且符合業(yè)務(wù)邏輯;同時(shí) IV 計(jì)算量小且簡(jiǎn)單,當(dāng)數(shù)據(jù)維度較大時(shí),可以有效地減少模型訓(xùn)練時(shí)間從而進(jìn)一步提高算法整體性能.

      (3)與未改進(jìn)的隨機(jī)森林模型比較,改進(jìn)的隨機(jī)森林模型Accuracy 平均值提高0.90%,F-score 提高了2.15%,AUC 提高了0.20%,證實(shí)本文提出的IVXGBoost 組合特征選擇方法的有效性和可行性.

      不足以及未來展望:1)本文的實(shí)驗(yàn)還有一些不足,由于條件有限實(shí)驗(yàn)數(shù)據(jù)集較小,僅能證實(shí)特征選擇方法和集成模型有效性和可行性,在大數(shù)據(jù)集上該組合特征選擇的效率高低并未得到證實(shí);2)面對(duì)大數(shù)據(jù)集的個(gè)人信用數(shù)據(jù),能否將大數(shù)據(jù)技術(shù)與集成學(xué)習(xí)算法相結(jié)合也是未來研究的主要方向.

      猜你喜歡
      樣本數(shù)特征選擇森林
      勘 誤 聲 明
      哈Q森林
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      哈Q森林
      哈Q森林
      哈Q森林
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      三時(shí)間間隔圓錐補(bǔ)償姿態(tài)更新算法性能分析
      田間鑒定雜交棉品種純度的適宜時(shí)期和樣本數(shù)
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      东丽区| 中超| 榆社县| 贺州市| 融水| 彰化县| 汪清县| 克东县| 临朐县| 宜州市| 峨边| 西城区| 南京市| 长汀县| 永顺县| 大荔县| 曲周县| 黄大仙区| 如东县| 大同市| 嘉义县| 凤山县| 富锦市| 和林格尔县| 祁门县| 安图县| 开平市| 江永县| 南雄市| 永兴县| 茌平县| 伊川县| 章丘市| 凤山市| 达孜县| 子长县| 互助| 怀来县| 会同县| 漠河县| 巫山县|