• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于異構(gòu)集成模型的個人信用評估研究

      2022-04-19 00:47:24張承鈿何浩龍許建龍
      計(jì)算機(jī)仿真 2022年3期
      關(guān)鍵詞:個人信用子集分類器

      張承鈿,何浩龍*,許建龍

      (1. 汕頭大學(xué)計(jì)算機(jī)系,廣東 汕頭 515000;2. 汕頭大學(xué)智能制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,廣東 汕頭 515000)

      1 引言

      傳統(tǒng)的以信用卡信息為基礎(chǔ)的個人信用評估方法已不能滿足銀行金融產(chǎn)業(yè)發(fā)展的需要,由于個人信用評估數(shù)據(jù)集存在非均衡性,數(shù)據(jù)集中信用良好的客戶遠(yuǎn)遠(yuǎn)大于信用較差的客戶,利用傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法很難得到令人滿意的分類結(jié)果,因此個人信用分類問題的研究重點(diǎn)之一在于解決數(shù)據(jù)的非均衡性[1]。

      國內(nèi)外許多學(xué)者針對非均衡數(shù)據(jù)分類問題進(jìn)行了大量的研究,并提出了各種解決方法。文獻(xiàn)[2]提出利用聚類算法對多數(shù)類樣本進(jìn)行欠采樣抽取,獲取與少數(shù)類樣本數(shù)量相同的多數(shù)類樣本構(gòu)成新的數(shù)據(jù)集。文獻(xiàn)[3]提出一種基于迭代提升欠采樣的集成學(xué)習(xí)方法,通過多次采樣并迭代不斷修正抽樣概率,最后從中選擇最好的分類器。彭敏等[4]提出一種基于SVM聚類的欠采樣方法,通過對多數(shù)類樣本進(jìn)行層次的欠采樣,可以在不影響多數(shù)類樣本的基礎(chǔ)上提高少數(shù)類樣本的分類效果。Napierala K等[5]提出一種基于類標(biāo)簽的方法,通過標(biāo)注少數(shù)類樣本權(quán)重,最后提高分類準(zhǔn)確率。以上這些研究表明,有效的非均衡數(shù)據(jù)處理方法可以提高分類的準(zhǔn)確率。

      在個人信用評估方面,已經(jīng)有許多研究人員使用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)的方法來構(gòu)建個人信用評估模型[6]。常用的機(jī)器學(xué)習(xí)方法有邏輯回歸(Logistic Regression,LR),支持向量機(jī)(Support Vector Machine,SVM),決策樹(Decision Trees,DT)等。

      基于以上的分析,本文提出一種基于異構(gòu)集成模型(Heterogeneous Ensemble Model,HEM)算法用來提高個人信用風(fēng)險(xiǎn)評估的準(zhǔn)確率[7]。模型首先采用重復(fù)隨機(jī)欠采樣的方法將訓(xùn)練集中的少數(shù)類樣本與等量多數(shù)類樣本劃分成多個訓(xùn)練集,劃分后每個訓(xùn)練集都是多數(shù)類和少數(shù)類別相等的數(shù)據(jù)集。接著將每個訓(xùn)練集輸入到各個不同參數(shù)的XGBoost模型中進(jìn)行訓(xùn)練,利用XGBoost模型中生成的提升樹葉子結(jié)點(diǎn)得到新的特征向量。然后將新生成的特征和原來的訓(xùn)練集合并生成新的訓(xùn)練集,輸入到各個參數(shù)不同的LR模型中訓(xùn)練生成不同的基分類器。接著輸入測試集,讓每個LR基分類器進(jìn)行分類預(yù)測并對結(jié)果進(jìn)行集成,最終得到該異構(gòu)集成模型的預(yù)測結(jié)果。

      2 不平衡數(shù)據(jù)集處理

      個人信用評估數(shù)據(jù)集存在好壞客戶數(shù)據(jù)不均衡問題,由于數(shù)據(jù)集中的多數(shù)類樣本數(shù)量遠(yuǎn)遠(yuǎn)大于少數(shù)類樣本,導(dǎo)致在訓(xùn)練時(shí),分類結(jié)果往往偏向于多數(shù)類樣本而容易忽略少數(shù)類樣本,造成預(yù)測結(jié)果存在誤差[8]。解決數(shù)據(jù)不平衡問題的方法主要有過采樣、欠采樣和混合采樣。

      2.1 EasyEnsemble欠采樣方法

      EasyEnsemble采樣方法通過欠采樣抽取將數(shù)據(jù)集中的多數(shù)類樣本隨機(jī)劃分成與少數(shù)類樣本相等的若干個子集,每個子集分別與少數(shù)類合并生成新的數(shù)據(jù)子集。這樣使得每個數(shù)據(jù)子集都是類別均衡的數(shù)據(jù)集,并且集成后總的數(shù)據(jù)集信息量并沒有減少[9]。

      2.2 產(chǎn)生訓(xùn)練子集

      首先確定數(shù)據(jù)集中少數(shù)類樣本總數(shù)t,采用欠采樣方法從總的訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)}中隨機(jī)采樣t個多數(shù)類樣本(采樣每個子集時(shí)使用不放回采樣),將這些少數(shù)類樣本和隨機(jī)采樣的多數(shù)類樣本組成多個新的訓(xùn)練子集D1,D2,…,Dn。

      每個訓(xùn)練子集雖然都是由欠采樣抽樣生成的,但是總的數(shù)據(jù)集卻沒有丟失重要信息,因此可以采用這種方法解決數(shù)據(jù)不均衡問題[10]。

      3 異構(gòu)集成模型

      異構(gòu)集成模型(HEM)算法是Bagging算法的一種擴(kuò)展,其基本思想是通過對原始數(shù)據(jù)集多次抽樣,輸入不同參數(shù)在這些子集上訓(xùn)練出不同的基分類器,最后融合這些基分類器,按簡單平均方法輸出分類結(jié)果。由于不同模型的基分類器之間存在一定的差異性,各自生成的分類決策邊界不同,因此,在基分類器融合后可以得到更加清晰地邊界。從模型的整體角度看,融合更加清晰地邊界有利于減少模型的分類錯誤,從而得到更好的預(yù)測結(jié)果。

      3.1 XGBoost方法

      XGBoost是由陳天奇博士提出的極端梯度提升樹類算法,它是在GDBT(Gradient Boosting)算法的基礎(chǔ)上提出的支持多線程并行計(jì)算模型,通過迭代和減少殘差的方向生成新的樹,組成一個準(zhǔn)確率高的強(qiáng)學(xué)習(xí)器。

      (1)

      式(1)中,xi表示第i個特征向量,fk表示第k個子決策樹模型。為了學(xué)習(xí)到模型函數(shù),模型引入的目標(biāo)函數(shù)為

      (2)

      (3)

      式(3)中,γ為樹懲罰正則項(xiàng),具有前剪枝的作用,抑制結(jié)點(diǎn)向下的分裂;λ為葉子權(quán)重懲罰正則項(xiàng),在計(jì)算分割點(diǎn)增益時(shí)可以起到平滑的作用;T為樹總的葉子結(jié)點(diǎn)個數(shù);ωj為第j個葉子結(jié)點(diǎn)的權(quán)值。通過對式(2)目標(biāo)函數(shù)L的二階泰勒公式展開,其中一階導(dǎo)數(shù)部分為

      (4)

      泰勒二階導(dǎo)數(shù)部分為

      (5)

      綜合以上分析,模型采用二階泰勒公式替換,帶入正則化懲罰項(xiàng)系數(shù),得到XGBoost模型最終的目標(biāo)函數(shù)為

      (6)

      式(6)中,Ij表示樹中第j個葉子結(jié)點(diǎn)的樣本集合,目標(biāo)函數(shù)L值越小表示生成的樹結(jié)點(diǎn)越穩(wěn)定。在生成樹的類型確定后,利用貪心生成樹方法遍歷所有輸入特征的切分點(diǎn),將樹結(jié)點(diǎn)分裂前后的目標(biāo)函數(shù)值相減,其中相減后增益最大的結(jié)點(diǎn)是生成樹最佳的切分點(diǎn),對應(yīng)生成葉子結(jié)點(diǎn)特征為最佳特征。

      3.2 XGBoost特征與LR融合模型

      原始訓(xùn)練數(shù)據(jù)集經(jīng)過欠采樣抽樣分組處理,分成多個訓(xùn)練子集后,每個訓(xùn)練子集為均衡訓(xùn)練數(shù)據(jù)集。接下來利用XGBoost訓(xùn)練得到新的數(shù)據(jù)特征,將訓(xùn)練子集輸入到XGBoost模型中進(jìn)行學(xué)習(xí)并且每個子集輸入不同的參數(shù),得到k棵樹,每棵樹上有n1,n2,…,nk個葉子結(jié)點(diǎn)。每個預(yù)測樣本在每棵樹中都會落在一個葉子結(jié)點(diǎn)上面,那么以落在每棵樹上的葉子結(jié)點(diǎn)作為該樣本的特征值,就得到一個n1+n2+…+nk維的稀疏矩陣,其中有k個值為1,其余值為0。

      經(jīng)過XGBoost特征轉(zhuǎn)換后,再將得到這些新特征與之前原始特征進(jìn)行融合,組成新的特征輸入到LR中進(jìn)行訓(xùn)練。在原有特征基礎(chǔ)上增加組合特征,通過擴(kuò)展數(shù)據(jù)的維度用來間接提高模型的學(xué)習(xí)能力,在此基礎(chǔ)上建立的LR模型可以有效提高LR模型的預(yù)測準(zhǔn)確率。

      3.3 異構(gòu)集成模型

      基于機(jī)器學(xué)習(xí)中的異構(gòu)集成分析,提高傳統(tǒng)的XGBoost算法的泛化能力,本文提出一種異構(gòu)集成模型(HEM),該模型結(jié)合集成算法思想和XGBoost低偏差特性,該流程如圖1所示。

      圖1 HEM模型流程

      該方法的包括四個部分,具體方法如下:

      1)模型首先使用EasyEnsemble方法,將不均衡的個人信用數(shù)據(jù)集劃分成若干個樣本均衡的訓(xùn)練子集;同時(shí)設(shè)置XGBoost模型的參數(shù)范圍,組合多份不同參數(shù)集用于訓(xùn)練;

      2)將處理后的訓(xùn)練集中訓(xùn)練多個XGBoost模型,在原始特征空間進(jìn)行特征轉(zhuǎn)換,產(chǎn)生不同的新特征;

      3)將XGBoost模型得到的分類結(jié)果作為新的特征,與原始特征進(jìn)行融合,組成新的數(shù)據(jù)集輸入到LR1,LR2,…,LRm中進(jìn)行學(xué)習(xí)。為減少融合過程中過擬合的風(fēng)險(xiǎn),在第一層分類結(jié)果中加入了隨機(jī)噪聲,公式如下

      XTi=X+Θ(Ti)

      (7)

      式(7)中X為原始特征向量,XTi為融合后的故障特征向量。Ti為子模型的預(yù)測結(jié)果;Θ(·)表示引入隨機(jī)噪聲。

      4)最后輸入測試數(shù)據(jù)集對每個子模型得到的預(yù)測結(jié)果進(jìn)行融合,按ωj,j∈[1,n],通過堆疊方式,構(gòu)建綜合決策層,權(quán)值ωj的計(jì)算如式(8)所示。

      (8)

      式(8)中,η為常值,得到最終的預(yù)測結(jié)果。

      4 實(shí)驗(yàn)與分析

      4.1 數(shù)據(jù)集描述

      為了驗(yàn)證本文提出的異構(gòu)集成模型算法的有效性,利用UCI數(shù)據(jù)庫中的德國個人信用數(shù)據(jù)集對模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。該數(shù)據(jù)集一共包含了1000個客戶的基本信息,其中包括了700個信用良好客戶與300個違約客戶,每一客戶的信息有20個特征,包括10個離散特征和10個連續(xù)特征。

      該UCI數(shù)據(jù)集被廣泛用于評估個人信用模型的驗(yàn)證中,具有可靠的參考性。

      4.2 數(shù)據(jù)預(yù)處理和特征工程

      在本數(shù)據(jù)集中,由于存在年齡、信用卡額度和信用卡使用期限等不同的量綱,對比實(shí)驗(yàn)中SVM是基于距離度量的分類方法,它對于數(shù)據(jù)之間的數(shù)量級別不同非常敏感,數(shù)據(jù)之間差別較大容易導(dǎo)致較大的分類結(jié)果誤差。為了消除這個影響,本實(shí)驗(yàn)在進(jìn)行模型訓(xùn)練前使用均值方差標(biāo)準(zhǔn)化方法對年齡、信用卡額度和信用卡使用期數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

      本實(shí)驗(yàn)采用均值方差標(biāo)準(zhǔn)化方法處理,將原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化處理,其轉(zhuǎn)換函數(shù)為

      (9)

      式(9)中,xmean是數(shù)據(jù)樣本的平均值,S是數(shù)據(jù)樣本之間的標(biāo)準(zhǔn)差。這樣標(biāo)準(zhǔn)化處理后的數(shù)據(jù)不一定在0-1之間,但是所有數(shù)據(jù)標(biāo)準(zhǔn)化后符合標(biāo)準(zhǔn)正態(tài)分布,這種方法可以有效防止出現(xiàn)極端數(shù)據(jù)值的情況,也使得本實(shí)驗(yàn)更加規(guī)范。

      4.3 模型評價(jià)指標(biāo)

      評價(jià)分類器性能有很多指標(biāo),通常來說精確率越高,分類效果越好,但是在數(shù)據(jù)樣本分布不均衡的情況下,精確率越高并不一定意味著是一個性能好的模型。例如預(yù)測客戶信用好壞,由于信用良好的客戶遠(yuǎn)遠(yuǎn)大于信用違約客戶數(shù)量,在極大概率下都是信用好的客戶,所以隨便一個模型預(yù)測是信用好的客戶,它精確率都可以達(dá)到99%以上,因此使用精確率來評價(jià)一個算法模型的性能來說是不夠的。

      本文使用AUC值來評價(jià)模型的性能。ROC(Receiver Operating Characteristic)曲線是以假正率為橫軸和真正率縱軸的曲線,AUC是ROC曲線下方的面積,一個好的分類模型的曲線應(yīng)該盡可能靠近ROC曲線左上角。ROC曲線在數(shù)據(jù)不平衡條件下仍能很好展現(xiàn)模型實(shí)際情況,為了量化ROC的好壞,用ROC曲線與X軸圍成的面積即AUC值來判斷分類器性能。

      4.4 實(shí)驗(yàn)設(shè)計(jì)

      首先為了驗(yàn)證EasyEnsemble方法在處理非均衡數(shù)據(jù)時(shí)的有效性,實(shí)驗(yàn)用原始數(shù)據(jù)集、SMOTE過采樣算法和EasyEnsemble欠采樣算法進(jìn)行數(shù)據(jù)處理,分別用LR、DT、SVM、XGBoost和HEM的基分類器算法(XGBoost-LR)進(jìn)行實(shí)驗(yàn)對比分析。經(jīng)過參數(shù)調(diào)優(yōu),本實(shí)驗(yàn)中XGBoost模型的學(xué)習(xí)率為0.03,生成樹最大深度為7,特征采樣比例為0.8,模型迭代次數(shù)為100次。

      表1 不同算法處理后基分類器AUC值

      表1為使用不同不平衡數(shù)據(jù)算法處理后基分類器分類的AUC值。從實(shí)驗(yàn)結(jié)果可以看出,訓(xùn)練子集經(jīng)過EasyEnsemble處理后的AUC值比原始數(shù)據(jù)集和SMOTE算法處理的AUC值分別提升約3%和2%,說明EasyEnasemble欠采樣方法處理后的數(shù)據(jù)對提升基分類器的分類準(zhǔn)確率效果更好。

      為了驗(yàn)證本文提出的HEM算法模型的有效性,實(shí)驗(yàn)以AUC為評價(jià)指標(biāo),并與當(dāng)前常用的機(jī)器學(xué)習(xí)算法進(jìn)行對比分析。經(jīng)過參數(shù)調(diào)優(yōu),本實(shí)驗(yàn)中HEM模型使用40個子模型,每個子模型中的XGBoost學(xué)習(xí)率擾動范圍為0.01~0.03,樹最大深度擾動為6~8,特征采樣比擾動為0.7~0.8,迭代次數(shù)擾動為100~200次。

      實(shí)驗(yàn)結(jié)果如表2所示,其中對比實(shí)驗(yàn)的LR、DT、SVM和XGBoost集成模型包括了40個子模型,每個子模型輸入不同的數(shù)據(jù)子集和參數(shù)訓(xùn)練,最后進(jìn)行融合集成。表2中Fold1、Fold2、Fold3、Fold4、Fold5分別是各個集成模型進(jìn)行五次交叉驗(yàn)證的結(jié)果,其中Avg為這些結(jié)果的平均值。

      表2 各集成分類算法AUC值

      從表2可以看出,在5個評估模型中,本文提出的HEM和其它算法相比準(zhǔn)確度均有不同程度的提高。其中,HEM模型的AUC平均值為0.916,分別高出LR、DT、SVM、XGBoost集成模型的10.9%、7.7%、12.5%、5.8%,平均值提高了7.38%。

      為說明HEM模型在這次案例研究中的優(yōu)勢,該模型與其它常用算法在個人信用風(fēng)險(xiǎn)評估中的結(jié)果進(jìn)行對比。將本算法與邏輯回歸(LR),決策樹(DT),支持向量機(jī)(SVM),XGBoost(XGB)等進(jìn)行實(shí)驗(yàn)對比,結(jié)果如圖2所示:

      圖2 不同模型評估結(jié)果對比

      從圖2的結(jié)果可以看出,在同樣的數(shù)據(jù)條件下,本文提出的HEM模型用來個人信用評估的結(jié)果好于其它傳統(tǒng)方法,同時(shí)比原始的XGBoost的效果更好。

      4.5 K-S檢驗(yàn)

      在信用評分領(lǐng)域,經(jīng)常使用的非參數(shù)檢驗(yàn)——Kolmogorov-Smirnov檢驗(yàn)法,其評價(jià)指標(biāo)是K-S值,它用于檢驗(yàn)輸入的不同特征對最終個人的信用風(fēng)險(xiǎn)結(jié)果的影響。K— S統(tǒng)計(jì)量測兩個分布之間的最大垂直距離,在評價(jià)二元分類模型的預(yù)測能力時(shí),通常,K-S統(tǒng)計(jì)量越大,模型對正負(fù)樣本的判別能力就越強(qiáng)。

      圖3 HEM模型K-S圖

      對于正負(fù)樣本,圖3、圖4對比了兩種不同的輸入特征,對累計(jì)占比進(jìn)行了模型預(yù)測。圖3中采用HEM模型評估的K-S最大值為0.687;圖4中采用LR模型評估的K-S最大值為0.489,低于HEM模型評估的K-S值0.198。

      圖4 LR模型K-S圖

      綜上可以得出,本文提出的HEM模型可以更好的區(qū)分好客戶和壞客戶,對于個人信用風(fēng)險(xiǎn)評估有明顯的提升作用。從另一個角度分析,對于刻畫個人信用畫像可以起到補(bǔ)充和完善的作用。

      5 結(jié)束語

      針對個人信用風(fēng)險(xiǎn)評估中出現(xiàn)的好壞客戶數(shù)量嚴(yán)重不均衡的數(shù)據(jù)特性,基于XGBoost構(gòu)建新特征和集成學(xué)習(xí)的思想,提出一種異構(gòu)集成模型算法。實(shí)驗(yàn)通過對UCI德國信用數(shù)據(jù)集進(jìn)行驗(yàn)證,并將本文模型與目前常見的機(jī)器學(xué)習(xí)方法進(jìn)行比較分析,結(jié)果證明本文提出的模型在個人信用評估應(yīng)用上的有效性,這些提升對于銀行等金融行業(yè)來說將具有重要參考價(jià)值。

      猜你喜歡
      個人信用子集分類器
      由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個人信用評估
      關(guān)于奇數(shù)階二元子集的分離序列
      個人信用信息何以應(yīng)由憲法保護(hù)?——一個制度論證的進(jìn)路
      法大研究生(2020年2期)2020-01-19 01:43:22
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      嚴(yán)重交通違法行為將直接與個人信用掛鉤
      汽車與安全(2016年5期)2016-12-01 05:22:05
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      樟树市| 永善县| 青冈县| 陆丰市| 清涧县| 四川省| 东兴市| 湟中县| 景谷| 庐江县| 潼南县| 扎兰屯市| 临夏县| 雅安市| 长丰县| 靖州| 临安市| 防城港市| 利川市| 白城市| 正定县| 大石桥市| 武强县| 金门县| 广德县| 伊春市| 新乡县| 赞皇县| 耿马| 呼伦贝尔市| 甘孜| 丰台区| 荥阳市| 普陀区| 宜阳县| 利津县| 呼图壁县| 莱西市| 永福县| 和硕县| 九台市|