• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于不平衡數(shù)據(jù)的公司破產(chǎn)預(yù)測研究

      2022-03-22 08:41:00周文泳馮麗霞段春艷
      關(guān)鍵詞:決策樹分類器神經(jīng)網(wǎng)絡(luò)

      周文泳,馮麗霞,段春艷

      (1.同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海 200092;2.同濟(jì)大學(xué)機(jī)械與能源工程學(xué)院,上海 201804)

      企業(yè)破產(chǎn)是企業(yè)財務(wù)困境中最為嚴(yán)峻的情形,企業(yè)經(jīng)營狀況不僅關(guān)系到企業(yè)的生存和發(fā)展,還影響到全球的經(jīng)濟(jì),因此準(zhǔn)確預(yù)測企業(yè)經(jīng)營狀況至關(guān)重要。傳統(tǒng)的企業(yè)經(jīng)營風(fēng)險預(yù)測常常是決策者依據(jù)經(jīng)驗對企業(yè)當(dāng)前情況進(jìn)行判斷,然而這對決策者提出了很高的要求,且決策過程也易受決策者的主觀意識或外界因素干擾。如今隨著大數(shù)據(jù)時代的到來,這種傳統(tǒng)的預(yù)測方法已不能滿足現(xiàn)代社會經(jīng)濟(jì)發(fā)展的需求。

      早期建立了單變量判別模型[1]、多元線性判別模型[2]等用于破產(chǎn)預(yù)測的數(shù)學(xué)模型,而后多元邏輯回歸模型在財務(wù)困境預(yù)測研究中漸漸發(fā)展,解決了判別分析中的許多問題,如受假設(shè)條件的約束[3]。自20世紀(jì)90年代以來,隨著人工智能和機(jī)器學(xué)習(xí)的興起,決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等先進(jìn)技術(shù)在破產(chǎn)預(yù)測領(lǐng)域得到了快速發(fā)展,眾多研究也證實了神經(jīng)網(wǎng)絡(luò)、決策樹等機(jī)器學(xué)習(xí)算法在破產(chǎn)預(yù)測中具有更優(yōu)的預(yù)測效果[4-9]。然而,實際預(yù)測的樣本中往往是破產(chǎn)企業(yè)數(shù)量遠(yuǎn)小于未破產(chǎn)企業(yè)數(shù)量,樣本數(shù)據(jù)的不均衡總是導(dǎo)致機(jī)器學(xué)習(xí)的預(yù)測性能下降。這一問題的主要特征表現(xiàn)為,在少數(shù)類樣本量極少的情況下,分類器無法充分學(xué)習(xí)到少數(shù)類樣本的特征,進(jìn)而難以識別少數(shù)類樣本。常見的解決思路是在數(shù)據(jù)層面將數(shù)據(jù)進(jìn)行預(yù)處理,通過重抽樣調(diào)整多數(shù)類與少數(shù)類的數(shù)量以實現(xiàn)類間樣本量的平衡;此外在算法層面,運用集成學(xué)習(xí)算法對分類器進(jìn)行增強(qiáng)[10]。Galar等[11]根據(jù)不同的基本集成學(xué)習(xí)算法和處理類不平衡問題的手段,劃分了四類集成解決方案——代價敏感提升和數(shù)據(jù)預(yù)處理后分別基于提升、自助匯聚,以及結(jié)合提升與自舉匯聚的雙集成學(xué)習(xí),并選擇了4.5分類器(Classifier 4.5,C4.5)決策樹作為基分類器,證明了在數(shù)據(jù)不平衡情形下,通過聯(lián)合預(yù)處理技術(shù)(隨機(jī)欠抽樣等)和集成學(xué)習(xí)算法,可以獲得更好的預(yù)測效果。而后也有一些研究基于支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、C4.5決策樹等模型,將人工少數(shù)類過采樣法(SMOTE)和自助匯聚、自適應(yīng)提升等集成技術(shù)結(jié)合,獲得了較好的分類結(jié)果[12-14]。Shen等[15]基于SMOTE抽樣,對比了支持向量機(jī)、決策樹等多種集成分類器,發(fā)現(xiàn)RF的分類效果較優(yōu)。然而,過大的數(shù)據(jù)量會限制支持向量機(jī)的使用能力,此外決定其預(yù)測能力的核函數(shù)往往也需要慎重地手動選擇[16]。相反,神經(jīng)網(wǎng)絡(luò)不僅適用于大樣本,其自動提取數(shù)據(jù)特征的能力可一定程度上緩解核函數(shù)帶來的問題[17]。目前已有學(xué)者將神經(jīng)網(wǎng)絡(luò)集成用于信息安全[18-19]、環(huán)境質(zhì)量鑒別[20]、工業(yè)故障診斷[21]等多個研究領(lǐng)域,而用于公司破產(chǎn)預(yù)測領(lǐng)域的研究還較少。

      因此,本文在前人研究基礎(chǔ)上,選取神經(jīng)網(wǎng)絡(luò)和決策樹作為基分類器,將數(shù)據(jù)預(yù)處理與集成算法結(jié)合構(gòu)建公司破產(chǎn)預(yù)測模型,并對加利福尼亞大學(xué)爾灣分校(University of California Irvine,UCI)機(jī)器學(xué)習(xí)數(shù)據(jù)庫提供的2007~2013年間一萬多家波蘭制造業(yè)公司進(jìn)行實驗。主要貢獻(xiàn)包括:①在數(shù)據(jù)層面,選擇三種重抽樣方法——隨機(jī)欠抽樣、隨機(jī)過抽樣、SMOTE抽樣進(jìn)行預(yù)處理以實現(xiàn)類間樣本量的平衡,并擇優(yōu)選出適合不同基分類器的抽樣方法;②在算法層面,整合集成學(xué)習(xí)自助匯聚思想以提高單一分類器的預(yù)測效果。實驗得出以神經(jīng)網(wǎng)絡(luò)為基分類器的模型結(jié)果優(yōu)于以決策樹為基分類器的模型結(jié)果,表明本文的研究方法能更有效地消除實際應(yīng)用中不平衡數(shù)據(jù)的影響,且在企業(yè)破產(chǎn)預(yù)測領(lǐng)域具有較高的適用性,可為企業(yè)經(jīng)營檢測提供積極支撐。

      1 研究方法

      1.1 數(shù)據(jù)預(yù)處理技術(shù)

      數(shù)據(jù)的預(yù)處理旨在預(yù)先對初始數(shù)據(jù)采取相關(guān)的審查、篩選、排序等必要措施[22]。數(shù)據(jù)預(yù)處理技術(shù)包含缺失、冗余信息處理,指標(biāo)集優(yōu)化篩選,標(biāo)準(zhǔn)化處理,抽樣消除樣本數(shù)據(jù)不平衡等多個階段。

      首先,初始樣本數(shù)據(jù)往往存在缺失值,在所有待考察的屬性下并非均有對應(yīng)的數(shù)值,若不預(yù)先處理掉缺失值,會致使一些分類模型無法建立,如神經(jīng)網(wǎng)絡(luò)等。一般可通過特殊值、均值或眾數(shù)等數(shù)值進(jìn)行插補(bǔ),而當(dāng)存在缺失值的個案在數(shù)據(jù)集里的占比很小時亦可采取直接剔除的手段。

      其次,在眾多經(jīng)濟(jì)指標(biāo)中,各指標(biāo)之間難免會有相關(guān)性,因而導(dǎo)致數(shù)據(jù)冗余。若將所有指標(biāo)直接代入建立分類模型,不僅會拖慢分類器的運行速度,還容易降低分類精度和模型的可解釋性,因此選擇類似主成分分析這樣的手段根據(jù)指標(biāo)間的相關(guān)性進(jìn)行線性重組,進(jìn)而得到能表示原始指標(biāo)信息的少數(shù)幾個綜合性指標(biāo)。

      此外,為了像神經(jīng)網(wǎng)絡(luò)這樣的模型能夠較好地運行,其輸入數(shù)據(jù)需進(jìn)行標(biāo)準(zhǔn)化處理以消除量綱的影響,常見的方法如零-均值標(biāo)準(zhǔn)化、最小-最大標(biāo)準(zhǔn)化等。零-均值法適用于當(dāng)數(shù)據(jù)呈正態(tài)分布時,通過轉(zhuǎn)化函數(shù)為將其化為標(biāo)準(zhǔn)正態(tài)分

      布,其中μ為樣本數(shù)據(jù)的均值,σ為樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。而當(dāng)數(shù)據(jù)呈現(xiàn)非正態(tài)或均勻分布時,可對每一個輸入的數(shù)值型向量x,減去x中的最小值再除以x中值的范圍以此將數(shù)據(jù)化至0~1范圍內(nèi),函數(shù)表達(dá)式為

      最后,由于分類器對不均衡數(shù)據(jù)集的有偏性,即多數(shù)類樣本容易識別而少數(shù)類樣本識別困難。本文分別通過隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣處理來平衡數(shù)據(jù)集。隨機(jī)欠抽樣主要是對多數(shù)類觀測數(shù)采取隨機(jī)剔除的方式,使得數(shù)據(jù)集達(dá)到平衡,該方法在數(shù)據(jù)量很大時非常有效。隨機(jī)過抽樣以隨機(jī)重復(fù)少數(shù)類觀測的方式來增添樣本數(shù)目。SMOTE抽樣也稱人工數(shù)據(jù)合成法,利用生成人工數(shù)據(jù)來消除不平衡現(xiàn)象,而不僅是重復(fù)原始觀測值。該方法基于特征空間(而非數(shù)據(jù)空間)產(chǎn)生與少數(shù)類觀測相似的新數(shù)據(jù),而相似性則通過歐氏距離得以衡量。

      1.2 機(jī)器學(xué)習(xí)算法

      決策樹算法是用于建立預(yù)測模型的有監(jiān)督學(xué)習(xí)算法,是一種以樹形結(jié)構(gòu)來建立模型的遞歸劃分探索法[17],結(jié)構(gòu)示意圖如圖1所示。

      圖1 決策樹結(jié)構(gòu)示意圖Fig.1 Schematic diagram of decision tree structure

      決策樹通過很多算法都可以實現(xiàn),5.0分類器(Classifier 5.0,C5.0)是其最知名算法之一。它是由計算機(jī)科學(xué)家J.Ross Quinlan對之前的C4.5算法的改進(jìn),運算速度更快且更精準(zhǔn)。C5.0決策樹算法使用熵(entropy)來度量特征數(shù)據(jù)X的純度,如式(1)所示[23];然后再計算信息增益(gain)來決定根據(jù)哪一個特征進(jìn)行分割,如式(2)所示[23]。決策樹對于絕大多數(shù)的分類問題均適用。

      人工神經(jīng)網(wǎng)絡(luò)是通過仿照生物神經(jīng)網(wǎng)絡(luò)而開拓出來的進(jìn)行信息處理的模型[24]。其中,多層前饋網(wǎng)絡(luò)是應(yīng)用最廣泛和最受歡迎的人工神經(jīng)網(wǎng)絡(luò)之一,特別是在分類判別問題的應(yīng)用中。圖2顯示了該網(wǎng)絡(luò)的基本結(jié)構(gòu)[25]。輸入數(shù)據(jù)的特征數(shù)量直接決定網(wǎng)絡(luò)輸入層的節(jié)點個數(shù),輸出層的節(jié)點個數(shù)則由需要得出的結(jié)果數(shù)目決定。而對于隱藏層的節(jié)點個數(shù),當(dāng)下尚且并無一個絕對的標(biāo)準(zhǔn)。需要反復(fù)訓(xùn)練擁有不同節(jié)點數(shù)的模型,然后對比并適當(dāng)?shù)丶踊驕p其個數(shù)。隱層節(jié)點數(shù)目過大則使得模型易于出現(xiàn)過擬合,且計算量大、訓(xùn)練緩慢;過小則容易導(dǎo)致無法分類。

      圖2 多層前饋網(wǎng)絡(luò)示意圖[25]Fig.2 Schematic diagram of multilayer feedforward network[25]

      集成學(xué)習(xí)算法的核心是通過整合眾多的單個弱學(xué)習(xí)器來建立強(qiáng)學(xué)習(xí)器。首先,輸入訓(xùn)練數(shù)據(jù)建立多個模型,產(chǎn)生多個預(yù)測;之后,再利用投票表決或其他更復(fù)雜的方法來決定最終預(yù)測結(jié)果。使用集成學(xué)習(xí)的好處就是能節(jié)省尋找單一最佳模型的時間,并且由于集合了多個學(xué)習(xí)器的結(jié)果,也降低了單一學(xué)習(xí)器過擬合的可能性。自助匯聚法于1996年由Breiman[26]提出,該集成方法通過在一個訓(xùn)練集合上重復(fù)訓(xùn)練進(jìn)而得到多個分類器。它對相對不穩(wěn)定的單一學(xué)習(xí)器(如決策樹和神經(jīng)網(wǎng)絡(luò)(neural network,NN))能產(chǎn)生較好的分類效果,因為此類學(xué)習(xí)器會由于數(shù)據(jù)的細(xì)小改變而產(chǎn)生差別很大的模型。

      1.3 基于不平衡數(shù)據(jù)的公司破產(chǎn)預(yù)測模型構(gòu)建

      本文將數(shù)據(jù)預(yù)處理技術(shù)與集成算法結(jié)合構(gòu)建企業(yè)破產(chǎn)預(yù)測模型,在數(shù)據(jù)層面,涵蓋缺失值處理、冗余信息處理、消除樣本不平衡等多個階段;再在算法層面,選取單隱層前饋神經(jīng)網(wǎng)絡(luò)和C5.0決策樹作為基分類器,并結(jié)合集成學(xué)習(xí)自助匯聚思想來提高基分類器的預(yù)測性能。本文的模型構(gòu)建路徑如圖3所示。

      圖3 基于不平衡數(shù)據(jù)的公司破產(chǎn)預(yù)測模型構(gòu)建路徑Fig.3 Building path of corporate bankruptcy prediction model based on imbalanced data

      首先,將原始樣本加載至R軟件中進(jìn)行初步的數(shù)據(jù)預(yù)處理。由于本文所用樣本量較大,因此選擇直接刪除法進(jìn)行缺失值處理。在冗余信息處理時,采用主成分分析法對通過缺失值處理的剩余指標(biāo)進(jìn)行降維,從縱向上精簡輸入屬性的維數(shù)。然后按9:1的比例將主成分分析之后產(chǎn)生的新數(shù)據(jù)集拆分為訓(xùn)練集和測試集。用0表示未破產(chǎn)類別,1表示破產(chǎn)類別。

      其次,為了消除不均衡數(shù)據(jù)的影響,先在數(shù)據(jù)處理層面進(jìn)行重抽樣處理,分別通過隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣三種抽樣處理,使兩類數(shù)據(jù)量的比例達(dá)到1:1。

      進(jìn)而,將隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣三種抽樣技術(shù)分別與C5.0決策樹、單隱層前饋神經(jīng)網(wǎng)絡(luò)兩種基分類器相結(jié)合,創(chuàng)建6種不同的單一分類器,并在測試集上進(jìn)行測試,通過比較選擇出最適合各個基分類器的抽樣方法。

      最后,再從提高單一分類器性能的角度,將最優(yōu)抽樣技術(shù)與集成算法自助匯聚法結(jié)合,形成隨機(jī)森林(random forest,RF)和神經(jīng)網(wǎng)絡(luò)集成兩類集成分類器。其中,RF是通過C5.0決策樹算法與自助匯聚算法整合,為決策樹模型增添多樣性;神經(jīng)網(wǎng)絡(luò)集成則是通過單隱層前饋神經(jīng)網(wǎng)絡(luò)與自助匯聚算法整合,以重新抽取訓(xùn)練數(shù)據(jù)集的方式來增添神經(jīng)網(wǎng)絡(luò)集成的差異程度。兩者均是從橫向角度對訓(xùn)練集實施多次選取得到多個有差異的網(wǎng)絡(luò)個體,進(jìn)而獲得有差異的分類器。同樣在測試集上進(jìn)行檢測,最終比較擇出分類效果最佳的破產(chǎn)預(yù)測模型。

      1.4 評價指標(biāo)

      (1)ROC曲線下面積

      對于不平衡數(shù)據(jù)的分類問題,傳統(tǒng)的分類精度評價準(zhǔn)則確實能從宏觀上映現(xiàn)分類性能,但并不表示能得出對的分類結(jié)果。因為當(dāng)多數(shù)類樣本數(shù)目遠(yuǎn)大于少數(shù)類時,后者能被識別的概率幾乎為零。所以即使把所有樣本都?xì)w為多數(shù)類,評價的精度依舊很高。Weiss等[27]的研究也證實,一般的分類精度評價標(biāo)準(zhǔn)會致使少數(shù)類的分類性能不佳。

      受試者操作特征(receiver operating characteristic,ROC)曲線一般用于查驗尋找真陽性與規(guī)避假陽性兩者的權(quán)衡性。分別以假陽性比、真陽性比作為橫、縱坐標(biāo)畫平面圖,得到ROC曲線,示意圖見圖4[28]。為了更好地計量,計算ROC曲線的下方面積(area under the ROC,AUC)值來評判其二元分類的優(yōu)劣,它表示預(yù)測的陽性類排在陰性類前面的概率。因其同時考慮了分類器對陽性類和陰性類的分類性能,因此即使在樣本數(shù)據(jù)不平衡的情況下也能對分類器性能做出合理評價[29]。通常AUC的值使用如下評分體系:0.9~1.0=A(優(yōu)秀),0.8~0.9=B(良好),0.7~0.8=C(一般),0.6~0.7=D(較差),0.5~0.6=F(無法區(qū)分)。

      圖4 ROC曲線[28]Fig.4 The ROC curve[28]

      (2)十折交叉驗證

      本文所選取的決策樹和神經(jīng)網(wǎng)絡(luò)兩類基分類器均屬于相對不穩(wěn)定的學(xué)習(xí)器,為了使訓(xùn)練效果取得較為準(zhǔn)確的評價,對每個模型都進(jìn)行十折交叉驗證。將數(shù)據(jù)集分成10部分,依次把9份合并當(dāng)成訓(xùn)練集,剩余1份單獨當(dāng)成驗證集來進(jìn)行測驗。每次試驗都會產(chǎn)生相應(yīng)的評價值,然后將10次結(jié)果的均值作為其最終評價。

      2 研究設(shè)計

      2.1 數(shù)據(jù)預(yù)處理

      本文采用的波蘭公司財務(wù)狀況數(shù)據(jù)集由UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫提供。樣本數(shù)據(jù)包括64個財務(wù)指標(biāo),收集了近700家在2007-2013年間破產(chǎn)的公司和10 000多家仍在運營的公司數(shù)據(jù)。根據(jù)數(shù)據(jù)預(yù)測周期建立了5個分類案例。數(shù)據(jù)預(yù)處理步驟如下:

      (1)統(tǒng)一數(shù)據(jù)類型。將數(shù)據(jù)文件加載至R軟件中,前64列的財務(wù)指標(biāo)均轉(zhuǎn)化為數(shù)值型,最后一列分類指標(biāo)轉(zhuǎn)化為因子型——“0”表示未破產(chǎn),“1”表示破產(chǎn)。

      (2)缺失值處理。本文所用樣本量較大,首先統(tǒng)計了有缺失數(shù)據(jù)的行,即指標(biāo)數(shù)據(jù)有缺失的公司,發(fā)現(xiàn)超過50%的公司都有缺失數(shù)據(jù)。接著對列進(jìn)行缺失值統(tǒng)計,發(fā)現(xiàn)了指標(biāo)x21(銷售(n)/銷售(n-1))和x37((流動資產(chǎn)-存貨)/長期負(fù)債)在5個預(yù)測期的樣本數(shù)據(jù)中存在著大面積的缺失,因此首先剔除掉這兩個指標(biāo)。此時再統(tǒng)計含有缺失值的公司個數(shù),發(fā)現(xiàn)缺失率都降到了15%以內(nèi),這時即可直接刪除這些公司數(shù)據(jù)。

      (3)指標(biāo)降維。利用主成分分析方法對通過缺失值處理的62個剩余經(jīng)濟(jì)指標(biāo)進(jìn)行降維。為消除各不同指標(biāo)中量綱的影響,先將數(shù)據(jù)通過零-均值標(biāo)準(zhǔn)化,再用函數(shù)提取主成分。當(dāng)方差累積貢獻(xiàn)率至80%時即舍棄剩余的部分。本實驗中第1至第5年的樣本得到的主成分個數(shù)分別是10、10、13、15、14個,各碎石圖如圖5所示。

      圖5 第1至第5年的樣本的主成分碎石圖Fig.5 Principal component lithotripsy diagrams of the samples from the first to the fifth years

      (4)創(chuàng)建隨機(jī)的測試集和訓(xùn)練集。為保證分類器的訓(xùn)練效果,以9:1的比例對主成分分析后的數(shù)據(jù)集進(jìn)行劃分,即90%的訓(xùn)練集和10%的測試集。劃分后的樣本數(shù)量如表1所示。

      表1 劃分后的樣本數(shù)量Tab.1 The number of samples after partition

      (5)抽樣處理不平衡數(shù)據(jù)。對訓(xùn)練數(shù)據(jù)采取重抽樣——分別通過隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣。利用R軟件中的添加包ROSE(Random Over Sampling Examples,隨機(jī)過抽樣例子)以實現(xiàn)數(shù)據(jù)量1:1的平衡。例如第1年有5 593個原始多數(shù)類樣本,采用隨機(jī)過采樣法把少數(shù)類樣本也增添至5 593個,由此數(shù)據(jù)集共有11 186條觀測。

      2.2 算法實現(xiàn)

      本實驗分別測試C5.0決策樹模型和單隱層前饋神經(jīng)網(wǎng)絡(luò)模型在采用隨機(jī)過抽樣、隨機(jī)欠抽樣、SMOTE抽樣技術(shù)后的分類性能,選擇最適合本實驗數(shù)據(jù)的抽樣技術(shù);然后再將最優(yōu)抽樣技術(shù)與自助匯聚法結(jié)合,尋找分類性能最佳的應(yīng)用模型,并運用十折交叉驗證得到的AUC值進(jìn)行分類效果評價。

      (1)三類抽樣法與C5.0決策樹。使用C5.0添加包建立決策樹模型,將抽樣技術(shù)處理過后的訓(xùn)練數(shù)據(jù)集用于訓(xùn)練C5.0決策樹模型,然后再對仍舊保持不平衡狀態(tài)的測試數(shù)據(jù)集進(jìn)行測試。

      (2)三類抽樣法與神經(jīng)網(wǎng)絡(luò)。為了確保神經(jīng)網(wǎng)絡(luò)運行,其輸入數(shù)據(jù)最好是在0附近,因此先將數(shù)據(jù)采用最小-最大標(biāo)準(zhǔn)化。使用NNET添加包構(gòu)建單隱層前饋神經(jīng)網(wǎng)絡(luò)模型。對于參數(shù)的選擇上,本文根據(jù)以往研究經(jīng)驗,對隱藏層的節(jié)點個數(shù),依照經(jīng)驗公式初始設(shè)置為5,再適當(dāng)加上和減去一點余量,反復(fù)訓(xùn)練模型并測試[30]。其次為了更好防止過擬合,設(shè)置權(quán)重衰減參數(shù)。根據(jù)每個模型訓(xùn)練的實際情況進(jìn)行權(quán)重衰減參數(shù)值在0.001~0.1之間的調(diào)整。

      (3)RF與神經(jīng)網(wǎng)絡(luò)集成。兩者都是基于自助匯聚法思想,其中,RF是通過C5.0決策樹算法與自助匯聚法算法整合,為決策樹模型增添多樣性;神經(jīng)網(wǎng)絡(luò)集成則是將單隱層的前饋神經(jīng)網(wǎng)絡(luò)與自助匯聚法算法整合,以重新抽取訓(xùn)練數(shù)據(jù)集的方式來增添神經(jīng)網(wǎng)絡(luò)集成的差異程度。本文意圖通過實驗將兩者進(jìn)行比較。使用RF和CARET兩個添加包分別構(gòu)建RF模型和神經(jīng)網(wǎng)絡(luò)集成模型。最終所有模型都通過十折交叉驗證求出AUC值,作為其分類評價結(jié)果。

      3 結(jié)果分析

      根據(jù)前面幾節(jié)所介紹的步驟,把5個預(yù)測期的數(shù)據(jù)都分別代入單一分類器和集成分類器進(jìn)行運算,得到對公司破產(chǎn)預(yù)測的分類評價結(jié)果如表2和表3所示。

      表2 單一分類器的預(yù)測效果(AUC值及評價等級)Tab.2 Prediction effect of single classifier(AUC value and evaluation grade)

      表3 集成分類器的預(yù)測效果(AUC值及評價等級)Tab.3 Prediction effect of ensemble classifier(AUC value and evaluation level)

      (1)單一分類器比較

      首先比較3種數(shù)據(jù)重抽樣技術(shù)分別對C5.0決策樹和單隱層前饋神經(jīng)網(wǎng)絡(luò)的分類效果的影響。對于C5.0決策樹,通過五期AUC的平均值來比較三類不同抽樣法,結(jié)果顯示與欠抽樣技術(shù)結(jié)合的決策樹(C等)的分類性能更佳。因此為了后續(xù)模型性能的提升,選擇欠抽樣法與RF結(jié)合。對于單隱層前饋神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)與欠抽樣、SMOTE抽樣結(jié)合的模型性能都比較優(yōu)良(均為C等),因此為后面階段神經(jīng)網(wǎng)絡(luò)的集成選擇隨機(jī)欠抽樣與SMOTE抽樣。兩種分類器的實驗結(jié)果均顯示欠抽樣技術(shù)在處理不均衡數(shù)據(jù)上的良好效用。其次,比較兩類單一分類器,從AUC平均數(shù)值上來看,欠抽樣、SMOTE抽樣下的單隱層前饋神經(jīng)網(wǎng)絡(luò)(0.79、0.77),更優(yōu)于欠抽樣下的C5.0決策樹(0.73)。

      (2)集成分類器比較

      從集成學(xué)習(xí)的角度比較集成分類器和單一分類器,結(jié)果顯示無論是通過集成學(xué)習(xí)之后的決策樹模型還是集成神經(jīng)網(wǎng)絡(luò),模型的預(yù)測性能都有所提升。尤其是針對那些集成前分類效果較差的預(yù)測期數(shù)據(jù),模型集成后其性能有顯著的提升,如第3年數(shù)據(jù)的決策樹模型(從D到C)和第5年數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型(從D到B)。再從不同分類器的角度比較隨機(jī)欠抽樣下的RF,與隨機(jī)欠抽樣、SMOTE抽樣下的神經(jīng)網(wǎng)絡(luò)集成,從評價均值上來看后兩者對于公司破產(chǎn)預(yù)測效果更優(yōu)(C、B、B)。

      4 結(jié)論

      2020年新冠疫情的爆發(fā)更是加大了企業(yè)對破產(chǎn)預(yù)測的重視程度。本文著眼于破產(chǎn)預(yù)測中樣本類別數(shù)據(jù)不均衡且樣本規(guī)模較大的問題,從增加分類器差異度的角度,對傳統(tǒng)的預(yù)測模型進(jìn)行改進(jìn),建立了基于重抽樣技術(shù)和自助匯聚集成算法兩者聯(lián)合的機(jī)器學(xué)習(xí)模型,并對UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中一萬余條波蘭制造業(yè)公司數(shù)據(jù)進(jìn)行實驗。本研究選取C5.0決策樹與單隱層前饋神經(jīng)網(wǎng)絡(luò)兩種基分類器,結(jié)合數(shù)據(jù)層和算法層兩方面的改進(jìn),并通過十折交叉驗證的AUC值進(jìn)行評判。

      最終實證結(jié)果顯示:

      (1)針對類別不平衡的公司破產(chǎn)預(yù)測樣本,隨機(jī)欠抽樣和SMOTE抽樣技術(shù)能輔助單一分類器獲得更優(yōu)良的預(yù)測效果;

      (2)進(jìn)而結(jié)合集成學(xué)習(xí)自助匯聚思想時,神經(jīng)網(wǎng)絡(luò)集成模型的預(yù)測結(jié)果不僅優(yōu)于其單一分類器模型,也更優(yōu)于RF模型。本文構(gòu)建的預(yù)測模型結(jié)合了數(shù)據(jù)層面和算法層面的改進(jìn),通過大量的樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練,有效消減了實際應(yīng)用中不平衡訓(xùn)練集帶來的影響,得到了具有較好預(yù)測性能的集成分類器,能準(zhǔn)確預(yù)測公司破產(chǎn)風(fēng)險,可應(yīng)用于記錄了眾多財務(wù)指標(biāo)屬性的公司數(shù)據(jù)集中,為公司經(jīng)營檢測提供積極支撐,進(jìn)而使公司及早實施相關(guān)措施預(yù)防破產(chǎn)。

      總而言之,建立科學(xué)、準(zhǔn)確且實用的公司破產(chǎn)預(yù)測模型,不僅能夠幫助企業(yè)管理者及時地識別公司潛在的經(jīng)營風(fēng)險,還能幫助投資者等眾多利益相關(guān)方做出正確的投融資決定以免遭受巨大損失,同時對國家及地方政府的資金、人力等投入規(guī)劃的制定也具有重要的輔助作用。此外,隨著技術(shù)的不斷更新升級,公司破產(chǎn)預(yù)測模型也依舊是在不斷變化中發(fā)展的。從起初企業(yè)家的經(jīng)驗判斷、判別分析,到如今的機(jī)器學(xué)習(xí)算法,公司破產(chǎn)預(yù)測研究始終是一個永恒且熱門的話題。面對新時代背景下不斷涌現(xiàn)的新的難題與挑戰(zhàn),未來應(yīng)不斷探索新途徑,持續(xù)對破產(chǎn)預(yù)測模型進(jìn)行調(diào)整和創(chuàng)新,以完善公司破產(chǎn)預(yù)測領(lǐng)域的研究。

      未來研究可進(jìn)一步從此方向入手:針對神經(jīng)網(wǎng)絡(luò)這種黑箱方法,建立更優(yōu)參數(shù)配置的神經(jīng)網(wǎng)絡(luò)集成模型,提升集成學(xué)習(xí)后的預(yù)測效果;除了常用的單隱層前饋神經(jīng)網(wǎng)絡(luò),還可以嘗試采用徑向基神經(jīng)網(wǎng)絡(luò)等其他方法。

      作者貢獻(xiàn)聲明:

      周文泳:指導(dǎo)研究方案和論文撰寫,全文審閱。

      馮麗霞:數(shù)據(jù)收集與處理,算法實現(xiàn),撰寫論文。

      段春艷:指導(dǎo)研究方案和論文撰寫,審閱及修訂論文。

      猜你喜歡
      決策樹分類器神經(jīng)網(wǎng)絡(luò)
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于決策樹的出租車乘客出行目的識別
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      黔南| 乌拉特前旗| 绥滨县| 阳城县| 新郑市| 遂宁市| 宿松县| 无锡市| 邵武市| 丰台区| 阿坝县| 汤原县| 紫阳县| 德安县| 湘潭市| 来宾市| 南丹县| 云龙县| 达拉特旗| 黄平县| 绥阳县| 西乌| 克拉玛依市| 保定市| 陕西省| 巴楚县| 内丘县| 凤山县| 张家口市| 东安县| 峨眉山市| 台南县| 东辽县| 邵东县| 扶风县| 庆云县| 莆田市| 三江| 常宁市| 景泰县| 郁南县|