• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于半監(jiān)督學習的客戶信用評估集成模型研究

      2017-07-08 09:31:48黃靜薛書田肖進
      軟科學 2017年7期

      黃靜 薛書田 肖進

      摘要:將半監(jiān)督學習技術(shù)與多分類器集成模型Bagging相結(jié)合,構(gòu)建類別分布不平衡環(huán)境下基于Bagging的半監(jiān)督集成模型(SSEBI),綜合利用有、無類別標簽的樣本來提高模型的性能。該模型主要包括三個階段:(1)從無類別標簽數(shù)據(jù)集中選擇性標記一部分樣本并訓練若干個基本分類器;(2)使用訓練好的基本分類器對測試集樣本進行分類;(3)對分類結(jié)果進行集成得到最終分類結(jié)果。在五個客戶信用評估數(shù)據(jù)集上進行實證分析,結(jié)果表明本研究提出的SSEBI模型的有效性。

      關(guān)鍵詞:信用評估;類別分布不平衡;半監(jiān)督學習;Bagging;半監(jiān)督集成

      DOI:10.13956/j.ss.1001-8409.2017.07.28

      中圖分類號:F83046;TP18 文獻標識碼:A 文章編號:1001-8409(2017)07-0131-04

      Semisupervised Learning Based Multiple Classifiers

      Ensemble Model for Customer Credit Scoring

      HUANG jinga, XUE Shutianb, XIAO Jinb

      (a. Public Administration School; b.Business School,Sichuan University, Chengdu 610064)

      Abstract:This paper combines semisupervised learning with multiple classifiers ensemble model Bagging, and proposes a semisupervised ensemble model based on Bagging for imbalanced data (SSEBI), which is expected to improve the model performance by comprehensively using samples with and without class labels. This model includes the following three phases: (1) Selectively label some samples from the data set without class labels and train several base classifiers; (2) Classify samples in test set by the trained base classifiers respectively; (3) Obtain the final classification results with integrating the classification results of all the base classifiers. Empirical analyses are conducted in five customer credit scoring data sets, and the results show the effectiveness of the SSEBI model.

      Key words:credit scoring; imbalanced class distribution; semisupervised learning; Bagging; semisupervisedensemble

      引言

      隨著我國經(jīng)濟的快速發(fā)展,人們的消費方式也在發(fā)生改變,住房按揭、汽車貸款、信用卡等信用消費規(guī)模不斷擴大,信用交易已經(jīng)成為市場經(jīng)濟條件下重要的交易方式。但是信用交易迅速發(fā)展的同時也帶來了越來越多的信用欺詐行為,給商業(yè)銀行帶來巨大的損失。如何準確而有效地預測客戶可能發(fā)生的惡意信用欺詐行為,必須依賴已有的數(shù)據(jù)對客戶進行信用評估。

      客戶信用評估是依據(jù)客戶信用欺詐風險的大小來劃分客戶的信用等級[1]。傳統(tǒng)的信用評估模型有神經(jīng)網(wǎng)絡(luò)、logistic回歸、貝葉斯、進化計算、k-近鄰、遺傳規(guī)劃和支持向量機(support vector machine,SVM)等,為客戶信用評估建模的研究做出很大貢獻。但由于客戶信用評估數(shù)據(jù)集通常是薄靶、類別分布不平衡的,即信用好的客戶樣本數(shù)要遠高于信用差的客戶樣本數(shù);如果繼續(xù)采用上述傳統(tǒng)信用評估模型來對客戶進行分類,就會造成信用差的少數(shù)類客戶較高的錯誤分類率[2]。就給企業(yè)帶來的損失而言,錯誤分類一個少數(shù)類客戶會高于錯誤分類一個多數(shù)類客戶。

      目前用于處理信用評估數(shù)據(jù)集中類別分布不平衡問題的方法主要有兩類:數(shù)據(jù)層次方法,即重抽樣技術(shù)[2];算法層次方法,主要是代價敏感學習[3]。即使使用這些技術(shù),單一客戶信用評估模型也很難準確分類整個樣本空間。但是如果采用多分類器集成,即將多個單一分類模型的分類結(jié)果集成,客戶信用評估模型的有效性將有望提升[4,5]。如Paleologo等在多分類器集成模型Bagging的基礎(chǔ)上提出Subagging信用評估模型,取得較好效果[6]。

      上述研究為客戶信用評估做出了重要貢獻,但分析發(fā)現(xiàn),都屬于監(jiān)督式的分類建模范式,即僅使用原始有類別標記的訓練集來訓練分類模型,但在現(xiàn)實中很多信用評估問題,有類別標記的樣本數(shù)是遠少于無類別標記的客戶樣本數(shù)的。如果僅使用少量有類別標記的樣本而舍棄大量無類別標記的樣本來建模,即監(jiān)督式建模范式,會造成大量有用信息的浪費,使模型性能得不到大的提升。

      在機器學習領(lǐng)域新興的半監(jiān)督學習(semi-supervised learning,SSL)有效地解決了這個問題[7]。其中比較有代表性的方法是由Blum和Mitchell[8]提出的協(xié)同訓練模型(Co-training);Zhou和Li[9]提出的半監(jiān)督集成模型:Tri-training;王嬌等[10]構(gòu)建的基于隨機子空間的半監(jiān)督協(xié)同訓練模型(Random SubspacebasedCO-training,RASCO);Hady和Schwenker[11]提出的基于投票的協(xié)同訓練算法(Co-training by committee,CoBC);蘇艷等[12]提出的基于動態(tài)隨機子空間的協(xié)同訓練模型(Dynamic Random Subspace based CO-training,DRSCO)。深入研究這些半監(jiān)督式學習模型,發(fā)現(xiàn)除了tri-training和CoBC,其他模型沒有考慮數(shù)據(jù)集的類別分布不平衡性對其性能的影響,在選擇性標記樣本后還是構(gòu)建單一分類模型作為最終分類模型。因此已有的半監(jiān)督式學習模型在現(xiàn)實信用評估問題中難以取得廣泛應(yīng)用。

      綜上所述,本文將集成學習中應(yīng)用廣泛的Bagging算法[13]跟半監(jiān)督學習相結(jié)合,構(gòu)建了類別分布不平衡環(huán)境下基于Bagging的半監(jiān)督集成模型(Semi-Supervised Ensemble model based on Bagging for Imbalanced data,SSEBI)。實證分析結(jié)果表明本文所提出的SSEBI模型不僅具有良好的選擇性標記樣本機制,同時也具有優(yōu)異的信用評估性能。

      1SSEBI模型

      11模型構(gòu)建的基本思路

      本文提出的SSEBI模型的建模過程主要包括以下3個階段:(1)構(gòu)建N個基本分類器;(2)使用訓練好的N個基本分類器對測試集中的樣本進行分類;(3)對分類結(jié)果集成得到最終的分類結(jié)果。

      12平衡數(shù)據(jù)集類別分布

      本文采用數(shù)據(jù)層次方法即重抽樣技術(shù)來平衡數(shù)據(jù)集的類別分布。隨機向下抽樣技術(shù)和隨機向上抽樣技術(shù)均是常用的重抽樣技術(shù),但是這兩種重抽樣方法均有不足之處,隨機向下抽樣則是最終的訓練集樣本數(shù)目很少,隨機向上抽樣會導致少數(shù)類中重復樣本太多。所以本研究采用隨機向上抽樣和隨機向下抽樣相結(jié)合,提出一種混合抽樣方法來平衡數(shù)據(jù)集類別分布,假設(shè)數(shù)據(jù)集中有n1個多數(shù)類客戶樣本,有n2個少數(shù)類客戶樣本,將其中的多數(shù)類客戶樣本隨機向下抽樣至ceiln1+n22個,將少數(shù)類客戶樣本隨機向上抽樣至ceiln1+n22個,其中ceil( )是向上取整函數(shù)。

      13詳細建模步驟

      輸入:N:基本分類器個數(shù),K:計算被標記樣本的標記置信度時從原始有類別標記的訓練集L中為樣本選取的近鄰樣本個數(shù)(標記置信度=k/K,k為與樣本預測類別標記相同的近鄰樣本個數(shù)),Theta:標記置信度閾值,p:U中被選擇性標記的樣本的比例。

      輸出:測試集Test的分類結(jié)果。

      初始化:L′=L,Q=Φ,i=1。

      階段1:構(gòu)建N個基本分類器

      (1)計算U中被選擇性標記樣本集Q中樣本個數(shù)占U中全部樣本的百分比b=size(Q)/size(U),若b>p,轉(zhuǎn)到步驟(5);

      (2)混合抽樣L′平衡其類別分布,并訓練SVM、logistic回歸和樸素貝葉斯3個分類模型;

      (3)使用訓練好的3個分類模型來預測U中樣本類別標簽,并將預測類別一致的樣本放置于候選集Uj中,同時計算Uj中每個樣本的標記置信度;

      (4)從Uj中選用標記置信度大于Theta的樣本添加到L'中,同時也將它們添加到Q中;

      (5)使用Bootstrap抽樣技術(shù)從L′中抽取一個訓練子集,并使用混合抽樣平衡其類別分布;

      (6)訓練一個BP神經(jīng)網(wǎng)絡(luò)作為基本分類器Ci,若i

      階段2:對測試集中的樣本進行分類

      (7)使用分類器池中的N個基本分類器C1,C2,…,CN分別對測試集Test中的樣本進行分類得到分類結(jié)果R1,R2,…,RN。

      階段3:對分類結(jié)果集成得到最終的分類結(jié)果

      (8)采用多數(shù)投票法將R1,R2,…,RN進行集成得到最終的分類結(jié)果。

      2實證分析

      為了分析本研究SSEBI模型的性能,本文選取5個信用評估數(shù)據(jù)集進行實驗。同時,比較分析SSEBI模型和已有的監(jiān)督式(Subagging和RSS[14])和半監(jiān)督式分類模型(CoBag,TritrainingCoBag,Tritraining,RASCO和DRSCO)的信用評估性能。

      21數(shù)據(jù)集介紹

      本文在5個信用評估數(shù)據(jù)集上進行實驗(見表1)。根據(jù)5個數(shù)據(jù)集均包含的類別標簽,將全部的樣本劃分為少數(shù)類樣本(信用差的樣本)和多數(shù)類樣本(信用好的樣本)。5個數(shù)據(jù)集的正負樣本比例見表1最后一列,可知5個數(shù)據(jù)集均屬于類別分布不平衡數(shù)據(jù)集。

      22實驗設(shè)置

      對于本研究中所使用的數(shù)據(jù)集,均按照3:3:4的比例將其隨機劃分為訓練集L、無類別標記的數(shù)據(jù)集U和測試集Test3個子集。

      在本文中,為了保證比較的公平性,SSEBI模型和其他參與比較的模型均采用BPerrorbackpropagation神經(jīng)網(wǎng)絡(luò)作為基本分類器。進一步地,在SSEBI模型中當p=06,Theta=055,N=40,K=9時模型的信用評估性能達到最佳,因此,除非特別說明,p,Theta,N和K這4個參數(shù)均保持在該數(shù)值。

      最后,所有實驗均是在MATLABR2014a軟件平臺上編程實現(xiàn),每一種模型的分類結(jié)果均是5次實驗結(jié)果的平均值。

      23評價準則

      本文采用ACCaccuracyrate和AUC(areaunderthe ROCcurve)準則對模型性能進行評估。

      (1)ACC準則

      ACC是指每一種半監(jiān)督式模型對無類別標記數(shù)據(jù)集U中樣本類別標記的準確率,即U中被正確標記的樣本在全部被標記樣本中所占的比率,其定義如下:

      ACC=f1f2(1)

      其中,f1表示無類別標記數(shù)據(jù)集U中被類別標記正確的樣本個數(shù),f2表示U中被選擇性標記的全部樣本個數(shù)。

      (2)AUC準則

      由于現(xiàn)實的信用評估數(shù)據(jù)集的類別分布都是高度不平衡的,此時通過計算模型在測試集上的總體分類精度來評價模型信用評估性能的方法已不太實用,而ROC(receiver operating characteristic curve)曲線恰好能夠解決這個問題。但直接采用ROC曲線來比較不同模型的性能會帶來諸多不便,因此使用AUC(area under the ROC curve)值來比較模型的分類性能優(yōu)劣是一個更好的選擇。

      24模型性能比較分析

      241模型的ACC值比較分析

      在本文中ACC是指分類模型對無類別標記數(shù)據(jù)集U中樣本類別標記的準確率,因此參與比較的模型必須為半監(jiān)督式分類模型。表2給出了本文提出的SSEBI模型與其他4種半監(jiān)督式分類模型的標記準確率,即ACC值。在各個數(shù)據(jù)集上取得的最大標記準確率均已加粗表示。括號內(nèi)為在相應(yīng)數(shù)據(jù)集上取得的ACC值排名,排名越小,模型的選擇性標記樣本機制越好,表的最后一行表示5個模型在5個信用評估數(shù)據(jù)集上的平均排名。

      分析實驗結(jié)果,可以得到以下結(jié)論:

      (1)從表2可以看出,本文提出的SSEBI模型在ukthomas信用評估數(shù)據(jù)集上取得了最大的ACC值,在german、PAKDD2009和givecredit信用評估數(shù)據(jù)集上取得的ACC值僅低于RASCO模型或Tritraining模型。從表2最后一行可知,SSEBI模型平均排名為20,僅低于Tritraining模型,表明SSEBI模型具有良好的選擇性標記樣本機制。

      (2)從表2中5個數(shù)據(jù)集上的平均排名來看,SSEBI模型和RASCO模型的選擇性標記樣本機制要優(yōu)于CoBag和DRSCO模型。其原因可能是因為初始有類別標記訓練集L中的樣本個數(shù)較少,難以訓練出分類性能很高的基本分類器,此時即使采用協(xié)同訓練的方法也會錯誤標記U中的樣本,從而人為地引入了更多的噪聲,降低了模型的分類性能。而SSEBI和RASCO模型在對U中樣本選擇性標記過程中,都對被標記樣本進行了剪輯操作,剔除一部分噪聲樣本,從而提高其選擇性標記樣本的正確率。

      242模型的AUC值比較分析

      本文提出的SSEBI模型與參與比較的其他6種分類模型在5個信用評估數(shù)據(jù)集上得到的AUC值如表3所示。根據(jù)表3,可以得到以下3個結(jié)論:

      (1)SSEBI模型在australia、ukthomas、PAKDD2009 3個信用評估數(shù)據(jù)集上取得了最大的AUC值,在german和givecredit兩個信用評估數(shù)據(jù)集上取得的AUC值僅低于CoBag模型或RSS模型。同時,從平均排名上來看,SSEBI模型的AUC值平均排名為14,是最小的。因此,SSEBI模型的整體分類性能要優(yōu)于其他6種模型。

      (2)從5個信用評估數(shù)據(jù)集上的平均排名來看,本文所提出的SSEBI模型以及CoBag模型的平均排名都要小于兩種監(jiān)督式模型Subagging和RSS模型,且SSEBI、CoBag、Subagging和RSS模型均屬于集成模型。這表明半監(jiān)督學習,即綜合使用有無類別標記的樣本來增強模型的學習,確實可以提升模型的信用評估性能。

      (3)從表3中還可以看出,SSEBI和CoBag模型在5個信用評估數(shù)據(jù)集上取得的AUC值均要大于RASCO和DRSCO模型的AUC值,且Tritraining模型在5個信用評估數(shù)據(jù)集上的平均排名也要低于DRSCO模型。這可能是因為SSEBI、CoBag和Tritraining模型都屬于半監(jiān)督式集成分類模型。本文提出的SSEBI模型在迭代選擇性標記樣本的同時構(gòu)建了多個基本分類器,CoBag模型在選擇性標記樣本后根據(jù)最終得到的訓練集分別訓練了多個基本分類器,Tritraining模型也訓練了3個基本分類器來迭代選擇性標記樣本,然后再對測試集中的樣本進行集成分類。而RASCO和DRSCO模型在選擇性標記樣本后只構(gòu)建了單個分類器對測試集中的樣本進行分類。這一結(jié)果表明,在一般情況下半監(jiān)督式集成分類模型的信用評估性能優(yōu)于半監(jiān)督式單一分類模型。

      3結(jié)論

      本文針對信用評估中的實際問題,在類別不平衡環(huán)境下,結(jié)合半監(jiān)督學習和集成方法中應(yīng)用較為廣泛的Bagging算法,構(gòu)建了基于Bagging半監(jiān)督集成分類模型SSEBI,并將模型用于客戶信用評估。在5個客戶信用評估數(shù)據(jù)集上與兩種常用的監(jiān)督式集成模型和4種已有的半監(jiān)督式模型進行的比較顯示,SSEBI模型具有良好的選擇性標記樣本機制,具有優(yōu)異的信用評估性能。

      參考文獻:

      [1]Orgler Y E. A Credit Scoring Model for Commercial Loans[J]. Journal of Money, Credit and Banking,1970,2(4):435-445.

      [2]Marqués A, García V, Sánchez J. On the Suitability of Resampling Techniques for the Class Imbalance Problem in Credit Scoring[J]. Journal of the Operational Research Society,2013,64(7):1060-1070.

      [3]鄒鵬, 李一軍, 郝媛媛. 基于代價敏感性學習的客戶價值細分[J]. 管理科學學報,2009,12(001):48-56.

      [4]Xiao J, He C Z, Jiang X Y, et al. A Dynamic Classifier Ensemble Selection Approach for Noise Data[J]. Information Sciences,2010,180(18):3402-3421.

      [5]肖進, 劉敦虎, 顧新, 等. 銀行客戶信用評估動態(tài)分類器集成選擇模型[J]. 管理科學學報,2015,3:10.

      [6]Paleologo G, Elisseeff A, Antonini G. Subagging for Credit Scoring Models[J]. European Journal of Operational Research, 2010,201(2): 490-499.

      [7]Zhu X. Semi-supervised Learning Literature Survey[A]. Technical Report 1530[R/OL]. Department of Computer Sciences, University of Wisconsin at Madison, Madison, WI, 2006. http://www.cs.wisc.edu/?jerryzhu/pub/ssl survey.pdf.,2006.

      [8]Blum A, Mitchell T. In Combining Labeled and Unlabeled Data with Co-training[C]. Proceedings of the Eleventh Annual Conference on Computational Learning Theory, ACM: 1998.92-100.

      [9]Zhou Z H, Li M. Tri-training: Exploiting Unlabeled Data Using Three Classifiers[J]. Knowledge and Data Engineering, IEEE Transactions on,2005,17(11):1529-1541.

      [10] 王嬌, 羅四維, 曾憲華. 基于隨機子空間的半監(jiān)督協(xié)同訓練算法[J]. 電子學報,2008,36(12): 60-65.

      [11]Hady M, Schwenker F. In Co-training by Committee: A New Semi-supervised Learning Framework[C]. Data Mining Workshops, ICDMW'08. IEEE International Conference on, IEEE: 2008.563-572.

      [12]蘇艷, 居勝峰, 王中卿, 等. 基于隨機特征子空間的半監(jiān)督情感分類方法研究[J]. 中文信息學報,2012,26(4):85-90.

      [13]Breiman L. Bagging Predictors[J]. Machine Learning,1996,24(2):123-140.

      [14]Ho TK. The Random Subspace Method for Constructing Decision Forests[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,1998,20(8):832-844.

      (責任編輯:石琳娜)

      宽城| 上饶市| 平昌县| 从江县| 宝丰县| 吕梁市| 措美县| 岱山县| 从化市| 吴忠市| 五常市| 铁力市| 宣城市| 安远县| 抚顺市| 安新县| 巴林左旗| 游戏| 蓬安县| 易门县| 务川| 克拉玛依市| 太湖县| 明水县| 长子县| 花莲市| 大化| 安西县| 商洛市| 剑河县| 岚皋县| 重庆市| 德保县| 视频| 驻马店市| 丰原市| 浏阳市| 隆化县| 德州市| 威宁| 龙山县|