• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Isomap的樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)器的信用預(yù)測(cè)

      2018-01-23 10:21:11葉曉楓許義仿
      中州大學(xué)學(xué)報(bào) 2017年6期
      關(guān)鍵詞:降維樸素貝葉斯

      葉曉楓,許義仿

      (華北水利水電大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,鄭州 450046)

      信用評(píng)估是如今金融機(jī)構(gòu)評(píng)估風(fēng)險(xiǎn)的主要方法,主要包括三個(gè)步驟:明確信用影響因素;獲取影響因素的動(dòng)態(tài)特征;構(gòu)建模型評(píng)估客戶信用等級(jí)[1-2]。當(dāng)前國(guó)內(nèi)外常用的信用評(píng)估方法和理論有數(shù)學(xué)規(guī)劃、統(tǒng)計(jì)方法、決策樹(shù)、專(zhuān)家系統(tǒng)、支持向量機(jī)、K近鄰方法、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等。由于樸素貝葉斯具有較強(qiáng)的推理能力與穩(wěn)定分類(lèi)效率,對(duì)缺失數(shù)據(jù)不敏感,與其他算法相比有較小的誤差率,因而被稱(chēng)為是一種有效而簡(jiǎn)單的概率分類(lèi)方法。因現(xiàn)實(shí)世界大部分問(wèn)題與樸素貝葉斯中的“獨(dú)立性假設(shè)”不符合,所以符合實(shí)際語(yǔ)義環(huán)境的分類(lèi)器的改進(jìn)起引了許多學(xué)者的研究興趣,樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)器[3](Tree Augmented Na?ve Bayesian Classifier,TAN)、通用貝葉斯網(wǎng)絡(luò)分類(lèi)器 (General Bayesian Networks Classifier,GBN)、選擇性樸素貝葉斯分類(lèi)器[4](Selective Na?ve Bayesian Classifier,SNB)、判別分析的樸素貝葉斯分類(lèi)器[5](Discriminate Analysis Na?ve Bayesian Classifier,DANB)等都屬于這一類(lèi)的改進(jìn)。

      TAN模型可以使用多項(xiàng)式時(shí)間復(fù)雜度找到最優(yōu)的增強(qiáng)樹(shù)貝葉斯網(wǎng)絡(luò)分類(lèi)結(jié)構(gòu),這不但能確保計(jì)算的可行性,而且擴(kuò)展了樸素貝葉斯分類(lèi)器,放寬了樸素貝葉斯“各屬性相互獨(dú)立”限制條件。然而對(duì)于信用評(píng)估模型來(lái)說(shuō),信用評(píng)估數(shù)據(jù)具有非線性、高維度、特征多等特點(diǎn),如何從高維數(shù)據(jù)中提取有效的特征直接關(guān)系著評(píng)估模型的準(zhǔn)確率。

      本文在現(xiàn)有的基礎(chǔ)上提出基于Isomap的樹(shù)增強(qiáng)樸素貝葉斯(Isomap-TAN)信用評(píng)估模型,將數(shù)據(jù)降維作為數(shù)據(jù)預(yù)處理中的一步,簡(jiǎn)化樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)模型的結(jié)構(gòu),并選取1069家企業(yè)的財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行實(shí)證分析,結(jié)果表明模型的分類(lèi)精度得到改善。

      1 模型介紹

      1.1 Isomap 數(shù)據(jù)降維

      Isomap算法以多維尺度變換(MDS)為基礎(chǔ)。Isomap的主要思想是:計(jì)算最近鄰圖中的最短距離得到測(cè)地距離,之后運(yùn)用MDS算法獲得嵌入在高維空間中的低維光滑流形的表示[6]。

      Isomap算法[7]步驟如下:

      步驟1 計(jì)算樣本點(diǎn)之間的歐氏距離矩陣,建立鄰域關(guān)系圖G(V,E),對(duì)每個(gè)xi(i=1,2,…,N)計(jì)算其k近鄰xi1,xi2,…xik,記為Nj,以點(diǎn)xi為定點(diǎn),歐氏距離d(xi,xij)為邊,建立鄰域關(guān)系圖G(V,E)。

      確定近鄰點(diǎn)有2種方法:

      ii.利用k-近鄰法,事先給定近鄰個(gè)數(shù)k,然后確定近鄰點(diǎn)。

      步驟2 計(jì)算測(cè)地距離D=(dij)n×n以達(dá)到近鄰關(guān)系圖G(V,E)中尋找最短路徑的目標(biāo),即

      步驟3 對(duì)距離D=(dij)N×N運(yùn)用古典MDS方法,求得最低維嵌入Y={y1,y2,…,yN}。

      1.2 樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)模型

      樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)模型(Tree Augmented Na?ve Bayesian Classifier,TAN)是定義在U*={A1,A2…An,C}上的有約束貝葉斯網(wǎng),Ai是離散屬性變量,C是類(lèi)變量。Pa(C)=φ,Pa(Ai)至多有一個(gè)除C以外的其他屬性可以有一個(gè)相關(guān)的邊指向它[8]。如圖1所示,Geiger[9]表示了這類(lèi)模型的證明過(guò)程。由Chow等[10]的學(xué)習(xí)樹(shù)結(jié)構(gòu)的貝葉斯網(wǎng)算法可知,若所有屬性都是離散屬性,那么可以構(gòu)造出學(xué)習(xí)TAN網(wǎng)絡(luò)結(jié)構(gòu)的算法。

      圖1 樹(shù)增強(qiáng)樸素貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖

      TAN算法[11]描述如下:

      (1)將訓(xùn)練樣本輸入并初始化變成統(tǒng)一的格式,然后定義屬性變量與類(lèi)變量,且用離散化方法處理所有的連續(xù)變量。

      (2)判斷。如果是分類(lèi)任務(wù),則轉(zhuǎn)向(4);如果是訓(xùn)練任務(wù),則轉(zhuǎn)向(3)。

      (3)成立貝葉斯概率表和TAN結(jié),然后檢驗(yàn)所有的訓(xùn)練樣本。

      i.當(dāng)i≠j時(shí),計(jì)算每對(duì)屬性變量的條件互信息熵I(Xi;Xj|C),

      ii.成立一個(gè)結(jié)點(diǎn)是X1,X2…Xn的加權(quán)完全無(wú)向圖,其中Xi,Xj之間的權(quán)重是I(Xi,Xj|C),i≠j。

      iii.成立該無(wú)向圖的最大權(quán)重跨度樹(shù)。

      iv.找到一個(gè)屬性結(jié)點(diǎn)當(dāng)作根節(jié)點(diǎn),且令所有邊的方向都變?yōu)橛筛?jié)點(diǎn)指向外,這樣可以將無(wú)向圖變?yōu)橛邢驁D。

      v.將類(lèi)結(jié)點(diǎn)指向加入到有向圖里,然后增加從類(lèi)結(jié)點(diǎn)指向Xi的弧,最后得到樹(shù)增強(qiáng)樸素貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。

      vi.依據(jù)v產(chǎn)生的結(jié)構(gòu)圖,建立貝葉斯概率表。

      (4)調(diào)用貝葉斯概率表,得出分類(lèi)結(jié)果。

      1.3 融合Isomap數(shù)據(jù)降維的樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)模型

      運(yùn)用Isomap融合樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)算法構(gòu)建信用評(píng)估模型的基本想法:用Isomap算法進(jìn)行數(shù)據(jù)降維作為樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)算法的前置預(yù)處理系統(tǒng),對(duì)高維度、非線性的企業(yè)財(cái)務(wù)樣本進(jìn)行降維處理,從而簡(jiǎn)化樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)模型結(jié)構(gòu),縮短訓(xùn)練時(shí)間,提高分類(lèi)精度。

      1.3.1 指標(biāo)體系的選擇

      財(cái)務(wù)指標(biāo)是指公司總結(jié)、評(píng)估財(cái)務(wù)狀況以及經(jīng)營(yíng)成果的相對(duì)指標(biāo),通過(guò)分析公司的財(cái)務(wù)指標(biāo)可以幫助銀行正確判斷和評(píng)價(jià)公司的經(jīng)濟(jì)效益,進(jìn)而決定是否貸款給這些公司。為了判斷公司是否具備按時(shí)還貸的良好信用,幫助銀行對(duì)上市公司進(jìn)行準(zhǔn)確的貸款發(fā)放,財(cái)務(wù)指標(biāo)的選擇就非常重要。

      通過(guò)研究其他文獻(xiàn)選取的有效財(cái)務(wù)指標(biāo)以及大公國(guó)際信用評(píng)級(jí)的主要財(cái)務(wù)指標(biāo),本文選取了上市公司的15個(gè)財(cái)務(wù)指標(biāo),指標(biāo)分類(lèi)為運(yùn)營(yíng)能力(流動(dòng)資產(chǎn)周轉(zhuǎn)率、應(yīng)收賬款周轉(zhuǎn)率、存貨周轉(zhuǎn)率)、盈利能力(毛利率、凈資產(chǎn)收益率、每股主營(yíng)業(yè)收入、凈利率)、償債能力指標(biāo)(資產(chǎn)負(fù)債率、速動(dòng)比率、流動(dòng)比率、現(xiàn)金比率)、發(fā)展能力(股東權(quán)益增長(zhǎng)率、凈資產(chǎn)增長(zhǎng)率、每股收益增長(zhǎng)率、總資產(chǎn)增長(zhǎng)率)。

      1.3.2 模型的構(gòu)建

      圖2為融合Isomap數(shù)據(jù)降維的樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)模型架構(gòu)圖,算法描述如下:

      (1)指標(biāo)體系的構(gòu)建。在財(cái)務(wù)數(shù)據(jù)庫(kù)中,抽取能夠表示企業(yè)信用等級(jí)的指標(biāo)。

      (2)特征提取。降低特征向量的維數(shù)用Isomap算法。

      (3)建立分類(lèi)器。針對(duì)樣本分類(lèi)的樹(shù)增強(qiáng)樸素貝葉斯算法。

      圖2 Isomap融合樹(shù)增強(qiáng)樸素貝葉斯的信用評(píng)估架構(gòu)圖

      2 實(shí)驗(yàn)

      2.1 數(shù)據(jù)來(lái)源

      本文根據(jù)在滬深交易所上市的1069家企業(yè)的財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行實(shí)證研究,其全部實(shí)驗(yàn)數(shù)據(jù)均選自新浪財(cái)經(jīng)網(wǎng)。從中選取了15個(gè)財(cái)務(wù)指標(biāo)作為關(guān)鍵變量,并且這15個(gè)指標(biāo)全是數(shù)值型屬性變量,類(lèi)變量有兩個(gè)狀態(tài){good,bad},相應(yīng)地將全部企業(yè)劃分為兩類(lèi):good,即“具有信用好的條件”的企業(yè);bad,即“不具有信用好的條件”的企業(yè)。從1069個(gè)企業(yè)樣本中抽取769個(gè)作為訓(xùn)練集,剩下300個(gè)樣本作為測(cè)試集。

      2.2 數(shù)據(jù)預(yù)處理

      2.2.1 離差標(biāo)準(zhǔn)化

      根據(jù)源數(shù)據(jù)呈現(xiàn)的特征,當(dāng)數(shù)據(jù)之間存在較大的變異程度,就考慮對(duì)源數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化。因?yàn)楸疚牡牧烤V有很多不同并且數(shù)據(jù)差異很大,所以我們對(duì)源數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化,結(jié)果顯示數(shù)據(jù)大小標(biāo)準(zhǔn)化后比較集中,沒(méi)有變異程度很大的數(shù)據(jù)。本文在做離差標(biāo)準(zhǔn)化時(shí),采用Matlab進(jìn)行自主編程。

      2.2.2 離散化

      根據(jù)TAN 模型的要求,變量必須為離散型變量。所見(jiàn)到的信用評(píng)估問(wèn)題中,經(jīng)常包含混合變量,其中混合變量包括連續(xù)性的屬性變量和離散型變量,因此對(duì)離散型變量需采用離散化方法。本文采用Fayyad[12]對(duì)連續(xù)變量進(jìn)行預(yù)離散化,從而滿足TAN算法的要求。

      2.2.3 利用Isomap降維

      利用Isomap算法能夠?qū)Ω呔S特征數(shù)據(jù)進(jìn)行低維描述,即用最近鄰居方法將k值(k=3,L30)代入,反復(fù)代入k值從而達(dá)到參數(shù)尋優(yōu),最后得到最小殘差的k值(這里k表示最近鄰居點(diǎn)個(gè)數(shù))。Isomap算法是在Matlab軟件上實(shí)現(xiàn)的,利用Matlab軟件可以得出不同k值的低維嵌入殘差圖,然后對(duì)由不同k值得到的一系列的殘差圖進(jìn)行分析,得出k=4時(shí)是最小殘差,殘差圖如圖3所示。當(dāng)橫坐標(biāo)維數(shù)(Isomap dimensionality)增加時(shí),縱坐標(biāo)殘差(Residual variance)是減小的,這就表示Isomap算法的使用能夠?qū)崿F(xiàn)數(shù)據(jù)降維,而數(shù)據(jù)“內(nèi)在”的真實(shí)維度是找到曲線上突然停止顯著下降的“肘”點(diǎn)來(lái)判斷的[13]。

      圖3 殘差和Isomap維數(shù)的關(guān)系

      由圖3可以看出,當(dāng)維數(shù)d<3時(shí),曲線明顯下降至“肘”點(diǎn);當(dāng)維數(shù)d>3時(shí),曲線變平緩而殘差大致相同。因此能夠得出結(jié)論:Isomap算法得到的降維后的真實(shí)“內(nèi)在”維數(shù)為d=4。

      2.3 實(shí)驗(yàn)結(jié)果及分析

      為驗(yàn)證Isomap-TAN評(píng)估模型的性能,選擇樸素貝葉斯模型和未降維的TAN模型進(jìn)行對(duì)比分析,各模型的分類(lèi)精度如表1所示。

      表1 分類(lèi)準(zhǔn)確率測(cè)試結(jié)果 %

      本文用R軟件編寫(xiě)NB和TAN的分類(lèi)程序。從表1可以看出,對(duì)不同的樣本,Isomap-TAN評(píng)估模型有一定的優(yōu)勢(shì):當(dāng)評(píng)估good企業(yè)時(shí),Isomap-TAN模型優(yōu)于TAN 模型;對(duì)bad企業(yè)進(jìn)行評(píng)估時(shí),Isomap-TAN模型優(yōu)于NB模型。就整體而言,本文提出的Isomap-TAN信用評(píng)估模型整體預(yù)測(cè)準(zhǔn)確率為95.75%,高于樸素貝葉斯模型和樹(shù)增強(qiáng)樸素貝葉斯模型。這是因?yàn)榻?jīng)過(guò)Isomap算法的降維處理,將原始數(shù)據(jù)從15維降到4維,減少了噪音的干擾,使柔和的重要特征指標(biāo)體系更具有代表性,有效提高了分類(lèi)的精度,而沒(méi)有經(jīng)過(guò)降維處理的樹(shù)增強(qiáng)樸素貝葉斯評(píng)估模型,可能由于指標(biāo)過(guò)多,指標(biāo)之間存在冗余,從而影響了其分類(lèi)的精度。雖然在數(shù)值上提高的精度不是很大,但是在處理大樣本數(shù)據(jù)的時(shí)候,反映到具體數(shù)據(jù)中的差別有可能就會(huì)特別大。綜上所述,基于Isomap的樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)模型在經(jīng)過(guò)Isomap算法的降維處理后,不僅能簡(jiǎn)化樹(shù)增強(qiáng)樸素貝葉斯分類(lèi)模型的結(jié)構(gòu),降低模型的計(jì)算復(fù)雜度,而且提高了分類(lèi)精度,在一定程度上可以幫助銀行對(duì)企業(yè)進(jìn)行比較客觀的信用評(píng)估。

      3 結(jié)語(yǔ)

      建立科學(xué)的信用評(píng)估模型,能夠?yàn)檠芯咳藛T提供重要的決策支持,減少損失。本文提出的Isomap-TAN模型結(jié)合Isomap和TAN的優(yōu)點(diǎn),利用Isomap算法進(jìn)行降維處理,從原始數(shù)據(jù)的15維變量降到了4維,將柔和的四維特征作為樹(shù)增強(qiáng)樸素貝葉斯模型的輸入特征,最終得到了Isomap-TAN信用評(píng)估模型。選取2015年1069家企業(yè)進(jìn)行實(shí)驗(yàn)分析,分析顯示此模型的分類(lèi)精度比樸素貝葉斯與樹(shù)增強(qiáng)樸素貝葉斯模型高,這樣不但能夠?qū)somap算法運(yùn)用在非線性的金融數(shù)據(jù)上,而且為銀行信用評(píng)估提供了一種新的思路。

      [1]Li X L,Zhong Y.An Overview of personal oredit scoring:techniques and future work[J].International Journal of Intelligence Science,2012,2(4):181-189.

      [2]肖進(jìn),劉敦虎,顧新,等.銀行客戶信用評(píng)估動(dòng)態(tài)分類(lèi)器集成選擇模型[J].管理科學(xué)學(xué)報(bào),2015(3):114-126.

      [3]Friedman N,Dan G,Goldszmidt M.Bayesian network classifiers[J].Machine Learning,1997,29(2):131-163.

      [4]Langley P,Sage S.Induction of selective bayesian classifiers[C]// Tenth International Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc,2013:399-406.

      [5]李旭升,郭耀煌.基于多重判別分析的樸素貝葉斯分類(lèi)器[J].信息與控制,2005,34(5):580-584.

      [6]趙連偉,羅四維,趙艷敞,等.高維數(shù)據(jù)流形的低維嵌入及嵌入維數(shù)研究[J].軟件學(xué)報(bào),2005,16(8):1423-1430.

      [7]段志臣,芮小平,張立媛.基于流形學(xué)習(xí)的非線性維數(shù)約簡(jiǎn)方法[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2012,42(8):230-241.

      [8]李旭升,郭春香,郭耀煌.擴(kuò)展的樹(shù)增強(qiáng)樸素貝葉斯網(wǎng)絡(luò)信用評(píng)估模型[J].系統(tǒng)工程理論與實(shí)踐,2008,28(6):129-136.

      [9]Geiger D.An entropy-based learning algorithm of Bayesian conditional trees[C]// Eighth International Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc,1992:92-97.

      [10]Lee C H L,Liu A,Chen W S.Pattern discovery of fuzzy time series for financial prediction[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(5):613-625.

      [11]郭春香,李旭升.貝葉斯網(wǎng)絡(luò)個(gè)人信用評(píng)估模型[J].系統(tǒng)管理學(xué)報(bào),2009,18(3):249-254.

      [12]Fayyad U M.Multi-interval discretization of continuous-valued attributes for classification learning[C]// International Joint Conference on Artificial Intelligence,1993:1022-1027.

      [13]康莉.基于流形學(xué)習(xí)的分類(lèi)算法及其應(yīng)用研究[D].西安:西安科技大學(xué),2010.

      猜你喜歡
      降維樸素貝葉斯
      混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
      隔離樸素
      樸素的安慰(組詩(shī))
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      最神奇最樸素的兩本書(shū)
      貝葉斯公式及其應(yīng)用
      基于貝葉斯估計(jì)的軌道占用識(shí)別方法
      一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      拋物化Navier-Stokes方程的降維仿真模型
      原阳县| 天镇县| 垦利县| 灵石县| 卢龙县| 陇川县| 桐柏县| 抚松县| 石泉县| 宁乡县| 门源| 长海县| 武平县| 宣汉县| 西平县| 巴林右旗| 滕州市| 凤庆县| 黔南| 英山县| 米林县| 咸丰县| 遂平县| 安顺市| 四川省| 大英县| 团风县| 田林县| 竹山县| 白沙| 尼木县| 武邑县| 三河市| 靖西县| 清流县| 顺平县| 睢宁县| 延川县| 南川市| 临夏市| 连江县|