• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于支持向量機(jī)集成的個(gè)人信用評估研究

      2020-07-17 08:20:30劉瀟雅王應(yīng)明
      關(guān)鍵詞:分類器準(zhǔn)確率證據(jù)

      劉瀟雅,王應(yīng)明

      福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福州 350116

      1 引言

      隨著國民生活水平的提高,人們的消費(fèi)心理與消費(fèi)觀念發(fā)生翻天覆地的變化,包括個(gè)人消費(fèi)貸款、個(gè)人住房貸款、信用卡等在內(nèi)的個(gè)人信貸業(yè)務(wù)逐漸成為了商業(yè)銀行的一個(gè)重要的利潤增長點(diǎn)[1]。信用評估是指根據(jù)客戶的若干原始資料,通過綜合考察影響客戶及其家庭的內(nèi)外客觀、微觀環(huán)境,使用嚴(yán)謹(jǐn)?shù)姆治龇椒?,將其分為正常類和違約類,或給出一個(gè)違約概率或信用等級[2]。

      除了早期通過分析員閱讀個(gè)人資料決定信用的好壞這種主觀性非常強(qiáng)的方法之外[3],傳統(tǒng)用于信用評估的主要是統(tǒng)計(jì)學(xué)方法比如判別分析[4]、logistic回歸[5]等,這些方法雖然簡單,但在處理非線性問題時(shí)效果較差。經(jīng)過幾十年的發(fā)展,大量人工智能方法被用于信用評估領(lǐng)域,例如神經(jīng)網(wǎng)絡(luò)[6]、k-近鄰判別分析[7]等,但這些方法多數(shù)基于傳統(tǒng)統(tǒng)計(jì)學(xué)理論建模,依賴海量數(shù)據(jù)并且容易出現(xiàn)過學(xué)習(xí)現(xiàn)象[8]。支持向量機(jī)(Supoort Vector Machine,SVM)在解決小樣本、非線性識別問題中表現(xiàn)出許多獨(dú)特優(yōu)勢,且基于統(tǒng)計(jì)學(xué)習(xí)理論,具有很強(qiáng)的泛化推廣能力,近年來成為信用評估的重要方法。肖文兵等[9]將支持向量機(jī)用于信用評估領(lǐng)域并在交叉驗(yàn)證中尋找核函數(shù)最優(yōu)參數(shù),提高分類準(zhǔn)確率。肖智等[10]利用支持向量機(jī)建立了大學(xué)生助學(xué)貸款個(gè)人信用評價(jià)分析模型,通過實(shí)證體現(xiàn)了支持向量機(jī)方法在分類問題中的優(yōu)越性。Abedin等[11]利用支持向量機(jī)工具對個(gè)人信用評估結(jié)果預(yù)測,并與神經(jīng)網(wǎng)絡(luò)模型做了比較,實(shí)驗(yàn)驗(yàn)證了SVM泛化能力強(qiáng)、魯棒性好的優(yōu)點(diǎn)。

      一般認(rèn)為集成模型可以綜合單個(gè)分類器的優(yōu)點(diǎn),分類效果更好,所以在單一支持向量機(jī)研究的基礎(chǔ)上發(fā)展了支持向量機(jī)的集成方法。陳云等[12]將隨機(jī)子集模型和AdaBoost兩種集成策略合成,提出SVM混合集成策略模型用于信用評估,提高了分類的準(zhǔn)確率。吳沖等[13]建立了基于模糊積分的支持向量機(jī)集成方法,綜合考慮每個(gè)子分類器輸出的重要性,并對商業(yè)銀行的信用風(fēng)險(xiǎn)進(jìn)行評估,通過實(shí)證分析得出了集成方法分類精度更高的結(jié)論。夏國斌[14]使用Bagging算法集成支持向量機(jī)信用評估結(jié)果,并與傳統(tǒng)判別分析與邏輯回歸做了比較。然而這些集成方法均沒有考慮到基分類器對分類結(jié)果的判斷能力的差異性和可靠性這一問題。

      證據(jù)理論在不確定性信息表達(dá)和合成方面優(yōu)勢突出,因此在融合不確定性結(jié)果中得到了廣泛的應(yīng)用。但是基分類器的判斷結(jié)果相互沖突時(shí),DS證據(jù)理論會得出與直觀相悖的結(jié)論?;诖?,本文提出基于改進(jìn)DS證據(jù)理論的支持向量機(jī)集成個(gè)人信用評估方法。利用SVM的后驗(yàn)概率,混淆矩陣和類別標(biāo)簽構(gòu)造DS證據(jù)理論概率賦值函數(shù)。對于沖突結(jié)果,計(jì)算分類器間支持度的權(quán)重和專家權(quán)重對分類器賦權(quán),區(qū)分可信度并修正沖突。除此外,模型訓(xùn)練之前,利用C4.5決策樹信息熵增益率理論,約減冗余屬性,提高模型整體效率。實(shí)驗(yàn)部分,使用UCI公開信用數(shù)據(jù)檢驗(yàn)?zāi)P托Ч?,結(jié)果表明,集成方法比單一模型分類效果更好,本文集成模型較于其他集成模型可以取得更高的預(yù)測精度,具有良好的現(xiàn)實(shí)意義和應(yīng)用前景。

      2 DS證據(jù)理論組合規(guī)則

      證據(jù)理論最早由Dempster提出[15],后來他的學(xué)生Shafer將理論進(jìn)行了完善。對于某類判決問題,用一個(gè)完備集合Θ表示其所有的可能結(jié)果,如果集合中元素之間是兩兩互斥的,稱這個(gè)完備集合Θ為辨識框架。如果集函數(shù)m:2Θ→[ ]0,1滿足:

      設(shè)m1和m2是兩個(gè)獨(dú)立的基本概率賦值,組合之后的基本概率賦值m=m1⊕m2(⊕是正交和)。設(shè)BEL1和BEL2是同一辨識框架的兩個(gè)信任函數(shù),m1和m2分別是對應(yīng)的基本概率賦值,焦元分別是A1,A2,…,Ak和 B1,B2,…,Br。

      DS的組合規(guī)則如下[16]:

      其中,K是沖突因子,反映了證據(jù)之間的沖突程度。

      由式(1)可以看出,當(dāng)K等于1時(shí)證據(jù)理論的合成規(guī)則顯然不再適用。

      3 基于支持向量機(jī)的基本概率賦值

      DS證據(jù)理論中,基本概率賦值函數(shù)(BPA)往往難以確定,本文將SVM與DS證據(jù)理論結(jié)合實(shí)現(xiàn)基本概率賦權(quán)。大致思路為:首先得到SVM的后驗(yàn)概率輸出,作為初步的判別結(jié)果;其次通過混淆矩陣得到真實(shí)類別和預(yù)測結(jié)果之間的關(guān)系作為局部可信度估計(jì)值;然后將局部可信度加權(quán)融合到后驗(yàn)概率中作為基本概率值。

      3.1 SVM后驗(yàn)概率輸出

      使用證據(jù)理論對SVM集成時(shí)需要知道SVM預(yù)測樣本輸出的概率值,因此需要將傳統(tǒng)SVM輸出的類別標(biāo)簽轉(zhuǎn)化為概率軟輸出。sigmoid函數(shù)可以將支持向量機(jī)輸出結(jié)果轉(zhuǎn)化為后驗(yàn)概率輸出[17-18],具體方式如下:

      f是標(biāo)準(zhǔn)SVM輸出結(jié)果,A和B是函數(shù)中的參數(shù)值,可以通過求解參數(shù)集合的最小負(fù)對數(shù)似然值而得:

      3.2 基于混淆矩陣的可信度計(jì)算

      假定類別數(shù)為k的分類問題,利用分類器l分類后所得到的混淆矩陣表示形式如下:

      將分類器l的局部可信度記為PCl(wi),它表示當(dāng)前的樣本屬于類別i的一種支持度,即對分類器局部的一種信任程度。

      將其融入到支持向量機(jī)的概率型判別輸出Pi之中可得:

      ml(wi)即表示分類器l對樣本x屬于某類i的概率賦值即BPA。

      4 基于改進(jìn)DS證據(jù)理論的SVM集成個(gè)人信用評估模型

      信用評估問題中,單個(gè)分類器的判別準(zhǔn)確性往往也有限,且可能會出現(xiàn)泛化不佳的問題。組合多個(gè)分類器得到一個(gè)綜合的結(jié)果的集成模型,已經(jīng)成為了提高信用評估分類問題準(zhǔn)確率和穩(wěn)定性的一個(gè)有效的手段。各基分類器的輸出都具有一定的不確定性,對于這些不確定性信息的集成過程也是一個(gè)不確定的推理過程。本文個(gè)人信用評估模型采用了集成方法,對DS證據(jù)理論處理沖突問題時(shí)的缺陷進(jìn)行了改進(jìn),考慮基于證據(jù)間支持度的權(quán)值ρ和樣本分類精度λ并依此對分類器賦權(quán),同時(shí)考慮屬性約減,提高模型訓(xùn)練效率。

      整體思想為:首先利用C4.5決策樹計(jì)算數(shù)據(jù)集屬性貢獻(xiàn)率,依據(jù)貢獻(xiàn)率大小約減屬性減少冗余;其次利用SVM構(gòu)造DS證據(jù)理論的概率賦值函數(shù)BPA;然后檢驗(yàn)結(jié)果是否有沖突,對沖突證據(jù)賦權(quán);最后用DS證據(jù)理論融合規(guī)則對SVM集成完成最終決策。

      4.1 DS證據(jù)理論沖突改進(jìn)方法

      由式(1)可知,當(dāng)沖突因子K=1或者趨近于1時(shí),顯然證據(jù)理論合成規(guī)則不再適用,如果繼續(xù)合成會出現(xiàn)與事實(shí)不符的結(jié)果?;诖?,本文對沖突證據(jù)進(jìn)行了改進(jìn)。

      假設(shè)信用評估系統(tǒng)有l(wèi)個(gè)SVM分類器,識別框架含有N個(gè)命題,H是識別框架的任意子集。mi(i=1,2,…,j,…,l)是基本概率賦值:

      相互獨(dú)立的證據(jù)體之間的夾角余弦可以用如下形式來表示[19]:

      由余弦定理可知,夾角的余弦值為1時(shí),表明兩個(gè)證據(jù)完全重合,沒有差異。隨著夾角的增大,余弦值越來越小,到90°時(shí),余弦值為0,兩證據(jù)不相關(guān)。因此,可以用夾角余弦值表示證據(jù)之間的相似程度,它的值越小表明判別結(jié)果之間的相似度越低,證據(jù)越?jīng)_突,越大表明相似度越高。式(10)計(jì)算出的相似度值用矩陣形式表示如下:

      相似矩陣行和定義為證據(jù)間的支持度,用Supi表示,支持度越高表明某個(gè)證據(jù)越為可靠,應(yīng)該賦予的權(quán)重越大。以ρ表示平均支持度并作為基于證據(jù)間支持度的權(quán)重:

      分類器本身分類準(zhǔn)確率是衡量其性能最直觀的指標(biāo),因此本文還考慮了樣本在測試集上的預(yù)測準(zhǔn)確率λ作為專家權(quán)重修正基于支持度的權(quán)重?;诸惼鞯姆诸悳?zhǔn)確率越高說明其可靠性越強(qiáng),應(yīng)該給予的權(quán)值越大。均衡考慮分類器間差異與分類器自身分類效果優(yōu)劣,定義總權(quán)重γ為:

      依據(jù)總權(quán)重對基分類器的基本概率分配函數(shù)加權(quán),即可改進(jìn)在DS融合過程中可能出現(xiàn)的證據(jù)沖突問題。

      4.2 基于改進(jìn)DS證據(jù)理論的SVM集成個(gè)人信用評估模型

      基于改進(jìn)DS證據(jù)理論和SVM的個(gè)人信用評估集成模型如圖1所示,具體步驟如下:

      步驟1 C4.5決策樹約簡屬性。C4.5決策樹以信息熵增益率方法測試屬性,克服了傳統(tǒng)算法中屬性選擇偏向于選擇取值多的屬性的缺點(diǎn)。具體步驟有:

      (1)設(shè)置損失比例。信用評估的實(shí)際問題中,將信用“好”的客戶誤判為信用“差”的客戶損失的可能僅僅是貸款利息,而將信用“差”的客戶誤判為信用“好”的客戶則可能遭受巨大的違約風(fēng)險(xiǎn),二者所造成的損失不對等,決策樹模型設(shè)置損失比例將可能導(dǎo)致的損失引入系統(tǒng)的分析過程。

      (2)訓(xùn)練最優(yōu)樹。對現(xiàn)有樣本迭代,增大誤判樣本被抽為訓(xùn)練集的可能性,提高模型精度。確定決策樹的修剪嚴(yán)重性,生成最優(yōu)樹。

      圖1 改進(jìn)DS證據(jù)理論的SVM集成模型

      (3)計(jì)算屬性貢獻(xiàn)率。依據(jù)信息熵增益率原理,計(jì)算最優(yōu)樹下屬性對分類結(jié)果貢獻(xiàn)率,約減冗余屬性。

      步驟2訓(xùn)練SVM基分類器。

      步驟3計(jì)算SVM后驗(yàn)概率及局部可信度。

      步驟4利用SVM結(jié)果合成基本概率賦值函數(shù)。

      步驟5若證據(jù)間存在沖突,計(jì)算基于支持度的權(quán)值ρ和基于分類準(zhǔn)確率的權(quán)值λ,并合成最終分類器權(quán)值γ,對分類器的可信賴程度加以區(qū)分。

      步驟6用DS證據(jù)理論做SVM的結(jié)果集成,并輸出最終判決。

      5 實(shí)證分析

      5.1 數(shù)據(jù)集介紹及屬性約減

      實(shí)驗(yàn)選取UCI機(jī)器學(xué)習(xí)庫的兩組真實(shí)公開信貸數(shù)據(jù)進(jìn)行模型效果驗(yàn)證,分別為德國信貸數(shù)據(jù)和澳大利亞信貸數(shù)據(jù)。數(shù)據(jù)集描述如表1,考慮樣本數(shù)值相差較大,實(shí)驗(yàn)之前已對其歸一化處理,德國信貸數(shù)據(jù)屬性具體描述如表2所示。

      表1 數(shù)據(jù)集描述

      依托clementine12.0平臺,對數(shù)據(jù)集5折交叉驗(yàn)證:實(shí)驗(yàn)結(jié)果表明按損失比例2∶1,Boosting迭代次數(shù)10,修剪嚴(yán)重性85可生成德國數(shù)據(jù)集的最優(yōu)樹,各個(gè)屬性貢獻(xiàn)率如圖2所示。按損失比例2∶1,Boosting迭代次數(shù)10,修剪嚴(yán)重性65生成澳大利亞數(shù)據(jù)集最優(yōu)樹,各個(gè)屬性貢獻(xiàn)率如圖3所示。

      選取對于分類結(jié)果貢獻(xiàn)率不為零的屬性,除去類別標(biāo)簽德國數(shù)據(jù)集由24維約減為12維:變量1(0.263 4)、變量4(0.147 8)、變量2(0.135 2)、變量3(0.122 6)、變量17(0.112 2)、變量5(0.076)、變量10(0.063 1)、變量21(0.044 1)、變量 13(0.02)、變量 24(0.009 4)、變量 20(0.005 4)、變量16(0.000 8);澳大利亞數(shù)據(jù)集由14維約減為 9維:屬性 8(0.767 8)、屬性5(0.054 2)、屬性 3(0.052)、屬性 2(0.033 2)、屬性 9(0.032 6)、屬性 14(0.009 1)、屬性12(0.007 7)、屬性7(0.004 3)、屬性11(0.002 5)。

      表2 德國信貸數(shù)據(jù)集描述

      圖2 德國數(shù)據(jù)集屬性貢獻(xiàn)率

      圖3 澳大利亞數(shù)據(jù)集屬性貢獻(xiàn)率

      5.2 實(shí)驗(yàn)設(shè)計(jì)

      常見多分類器集成思路有兩個(gè),一是將不同形式分類器集成,另一個(gè)是使用同形式的不同類型的分類器。本文選擇集成方法的第二種,選用三種基于不同核函數(shù)的支持向量機(jī)作為基分類器,這三種核函數(shù)分別為線性核、多項(xiàng)式核和高斯核,分別表示為SVM1、SVM2和SVM3。實(shí)驗(yàn)依托Matlab 2016a平臺,使用Libsvm工具包,所有的支持向量機(jī)最優(yōu)參數(shù)均用網(wǎng)格法通過交叉驗(yàn)證求得。

      為驗(yàn)證本文模型效果的優(yōu)越性,在兩組公開數(shù)據(jù)集上,實(shí)驗(yàn)同時(shí)與不同核函數(shù)支持向量機(jī)單一模型、神經(jīng)網(wǎng)絡(luò)模型、未改進(jìn)的DS集成模型(DS-SVM)、基于bagging集成算法的SVM模型(Bagging-SVM)和基于Boosting集成算法的SVM模型(Boosting-SVM)等常見用于信用評估的模型進(jìn)行了比較。同時(shí)為證明屬性約減的必要性,將計(jì)算結(jié)果分為兩類:一類是不經(jīng)過屬性約減的情況,稱為情況1;另一種是考慮屬性約減的情況,稱為情況2。

      5.3 評價(jià)指標(biāo)

      本文選擇兩個(gè)指標(biāo)來評估模型的效果,分別是F-score和平均準(zhǔn)確率(Average),這兩個(gè)指標(biāo)可以綜合常用于信用評估的precision查準(zhǔn)率與recall召回率,根據(jù)表3混淆矩陣,指標(biāo)的計(jì)算方法如下:

      表3 混淆矩陣

      5.4 實(shí)驗(yàn)結(jié)果及分析

      不同分類器得到基于識別率的混淆矩陣表示如下:C11,C12,C13表示情況1下的 SVM1、SVM2、SVM3輸出的混淆矩陣,C21,C22,C23表示情況2下SVM1、SVM2、SVM3輸出的混淆矩陣。

      德國數(shù)據(jù)集混淆矩陣為:

      依據(jù)已經(jīng)得到的混淆矩陣,由公式(7)計(jì)算可得兩個(gè)數(shù)據(jù)集各分類器可信度值見表4所示。

      表4 局部可信度

      將支持向量機(jī)的后驗(yàn)概率,局部可信度利用式(8)合成概率分配函數(shù)(BPA),并按照4.2節(jié)內(nèi)容計(jì)算權(quán)值λ和ρ同時(shí)合成最終賦權(quán)權(quán)值γ。測試樣本集成后分類結(jié)果和對比模型結(jié)果見表5和表6。

      通過實(shí)驗(yàn)從表5、表6中可以得到如下結(jié)論:

      (1)比較七個(gè)模型屬性約減前后評價(jià)指標(biāo)大小可知,在兩個(gè)測試數(shù)據(jù)集上,情況2各分類器的平均準(zhǔn)確率和F評分均高于情況1。以澳大利亞數(shù)據(jù)集SVM3為例,在屬性約簡前F評分為0.810,平均準(zhǔn)確率為78.4%;屬性約減后F評分為0.853,平均準(zhǔn)確率為83.8%,F(xiàn)評分提升了0.043,平均準(zhǔn)確率提升了5.4個(gè)百分點(diǎn),說明非重要屬性的減少不會影響模型的精度,反而減少冗余屬性可以優(yōu)化支持向量機(jī)受無關(guān)維度影響導(dǎo)致準(zhǔn)確率下降的缺陷,從而提升模型效果。

      (2)兩組實(shí)驗(yàn)中,集成模型F評分和準(zhǔn)確率明顯優(yōu)于各個(gè)單一支持向量機(jī)分類器,說明了集成方法的優(yōu)越性。本文提出的改進(jìn)DS證據(jù)理論集成方法,充分利用了SVM輸出的所有信息,將對分類有用的類別標(biāo)簽、后驗(yàn)概率、混淆矩陣都進(jìn)行了融合,同時(shí)改進(jìn)了沖突證據(jù)引起的決策失誤,對分類器加權(quán)區(qū)分可信度,性能更明顯高于單一的模型和普通DS證據(jù)理論集成方法,在測試集上準(zhǔn)確率可達(dá)90%左右。

      表5 德國數(shù)據(jù)集實(shí)證結(jié)果

      表6 澳大利亞信貸數(shù)據(jù)集

      (3)基于改進(jìn)DS證據(jù)理論的SVM集成方法,屬性約減前后F評分值和平均準(zhǔn)確率均高于Bagging-SVM集成、Boosting-SVM集成方法和普通DS-SVM。說明本文提出的集成模型實(shí)用、有效,充分考慮分類器差異性,且改進(jìn)沖突證據(jù)對提升模型準(zhǔn)確率有明顯效果。

      用柱狀圖直觀比較不同核函數(shù)預(yù)測精度,如圖4,圖5所示。從圖中可以看出情況2精度均明顯高于情況1,面向高維多樣本信用評估數(shù)據(jù)時(shí),高斯核函數(shù)分類精度最佳,其次是多項(xiàng)式核函數(shù),最后是線性核函數(shù)。高斯核函數(shù)由于參數(shù)較多項(xiàng)式函數(shù)少,計(jì)算復(fù)雜度低,且比線性核函數(shù)更適合處理多維數(shù)據(jù),所以是信用評估方面最優(yōu)的核函數(shù)選擇。

      圖4 德國數(shù)據(jù)集核函數(shù)比較

      圖5 澳大利亞數(shù)據(jù)集核函數(shù)比較

      6 總結(jié)與展望

      在信貸消費(fèi)日益普及的高速信息化社會,個(gè)人信用評估的研究意義越來越重要,信用評估方法的好壞直接影響了信貸消費(fèi)的走向健康與否,分類精度哪怕1%的提升都會挽回金融機(jī)構(gòu)數(shù)以萬計(jì)的損失。在此背景下,本文提出了一種基于改進(jìn)DS證據(jù)理論的支持向量機(jī)集成個(gè)人信用評估算法,并且考慮了冗余屬性對分類結(jié)果的影響,將屬性約減這一因素納入模型中。該模型優(yōu)點(diǎn)是不僅集成了分類器達(dá)到了較好分類效果且有更強(qiáng)的“魯棒性”,并且利用數(shù)據(jù)集實(shí)際分類信息構(gòu)造基本概率分配函數(shù)使得概率賦值更加可靠,同時(shí)修正了沖突證據(jù)造成的分類誤差,較單一SVM模型和傳統(tǒng)集成方法效能明顯提高,具有很好的泛化能力,說明此模型用于個(gè)人信用評估是可行和有效的。

      未來進(jìn)一步研究方向:(1)如何在保證精度的前提下將改進(jìn)模型用于多分類情況中值得進(jìn)一步思考。(2)本文的子分類器使用了三種不同核函數(shù)的分類器,以后可以考慮將不同類型的分類器組合集成,例如SVM、神經(jīng)網(wǎng)絡(luò)、決策樹。

      猜你喜歡
      分類器準(zhǔn)確率證據(jù)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      對于家庭暴力應(yīng)當(dāng)如何搜集證據(jù)
      紅土地(2016年3期)2017-01-15 13:45:22
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      手上的證據(jù)
      “大禹治水”有了新證據(jù)
      洪洞县| 包头市| 灵寿县| 福鼎市| 灵宝市| 元氏县| 佛教| 永州市| 鸡东县| 海淀区| 新密市| 疏勒县| 锡林郭勒盟| 三门县| 隆昌县| 雅安市| 延安市| 余江县| 仁寿县| 泰兴市| 灵璧县| 瑞安市| 乐平市| 浦城县| 江阴市| 平乡县| 济宁市| 晋江市| 宁阳县| 弥勒县| 石城县| 来宾市| 乐安县| 诏安县| 深水埗区| 五大连池市| 灌云县| 江门市| 红桥区| 德保县| 宁德市|