• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于加權(quán)高斯過(guò)程的上市公司財(cái)務(wù)危機(jī)預(yù)警

      2022-04-26 08:10:04王文勝
      關(guān)鍵詞:識(shí)別率預(yù)警準(zhǔn)確率

      王文勝,沈 超

      (杭州電子科技大學(xué) 經(jīng)濟(jì)學(xué)院,浙江 杭州 310018)

      自我國(guó)經(jīng)濟(jì)從高速向高質(zhì)量發(fā)展轉(zhuǎn)型以來(lái),經(jīng)濟(jì)進(jìn)入新常態(tài),增速逐漸放緩,企業(yè)管理水平面臨巨大挑戰(zhàn)。部分企業(yè)經(jīng)營(yíng)效率低下、對(duì)外界市場(chǎng)不確定性的應(yīng)變能力不足,導(dǎo)致企業(yè)財(cái)務(wù)危機(jī)屢見(jiàn)不鮮,不僅破壞企業(yè)穩(wěn)健運(yùn)營(yíng),同時(shí)也損害了廣大投資者的利益,故建立科學(xué)高效的財(cái)務(wù)預(yù)警模型,推動(dòng)企業(yè)在危機(jī)惡化前采取有效措施,對(duì)企業(yè)和投資者雙方都有積極意義。

      一、文獻(xiàn)回顧及研究動(dòng)機(jī)

      上市企業(yè)財(cái)務(wù)預(yù)警本質(zhì)上歸屬二分類問(wèn)題,預(yù)警模型主要分為兩類,統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)。前者包括單變量預(yù)測(cè)[1]、多元判別分析[2]等,后者包含邏輯斯蒂回歸(Logistic)、支持向量機(jī)(SVM)等。與統(tǒng)計(jì)模型相比,機(jī)器學(xué)習(xí)能夠更有效地處理數(shù)據(jù)間的復(fù)雜關(guān)系,準(zhǔn)確率更高[3],逐漸成為主流。Ohlson[4]采用Logistic對(duì)企業(yè)財(cái)務(wù)危機(jī)進(jìn)行預(yù)警,并對(duì)樣本企業(yè)輸出破產(chǎn)概率,證明Logistic有效性;方匡南等[5]針對(duì)財(cái)務(wù)指標(biāo)間的網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系,構(gòu)建基于網(wǎng)結(jié)構(gòu)的Logistic模型;李長(zhǎng)山[6]利用因子分析和Logistic建立風(fēng)險(xiǎn)預(yù)警,著重強(qiáng)調(diào)企業(yè)的獲利能力和償債能力;朱發(fā)根等[7]首次將SVM運(yùn)用于高新技術(shù)上市公司財(cái)務(wù)預(yù)警,整體準(zhǔn)確率高達(dá)90%;劉玉敏等[8]結(jié)合粒子群優(yōu)化算法改進(jìn)傳統(tǒng)SVM,精確尋找最優(yōu)參數(shù),模型預(yù)測(cè)效率得到提升。但Logistic、SVM在財(cái)務(wù)預(yù)警領(lǐng)域仍存在一些難以克服的缺陷:Logistic決策面是基于線性的,難以處理財(cái)務(wù)預(yù)警這類非線性問(wèn)題,并且其對(duì)樣本量大小要求比較高,現(xiàn)實(shí)中往往無(wú)法滿足;SVM能較好適應(yīng)非線性、小樣本場(chǎng)景,但其核函數(shù)、超參數(shù)選取困難,往往需要借助粒子群優(yōu)化、遺傳算法等[9]參數(shù)尋優(yōu)方法。因此有必要討論一種新的有效方法來(lái)識(shí)別財(cái)務(wù)風(fēng)險(xiǎn)問(wèn)題。

      高斯過(guò)程分類(GPC)是一種新穎性的非參概率分類算法,理論基礎(chǔ)嚴(yán)密,具備計(jì)算簡(jiǎn)單、參數(shù)自適應(yīng)獲取、后驗(yàn)概率估計(jì)更加精確等優(yōu)勢(shì),同樣適用于非線性、小樣本場(chǎng)景。Huang[10]利用變分高斯過(guò)程分類對(duì)信用評(píng)級(jí)進(jìn)行預(yù)測(cè),每年最低預(yù)測(cè)錯(cuò)誤率GPC均優(yōu)于Logistic、SVM等;Antunes等[11]針對(duì)財(cái)務(wù)破產(chǎn)概率進(jìn)行分析與可視化,相比Logistic、SVM,GPC除更鮮明的概率解釋外,破產(chǎn)預(yù)測(cè)準(zhǔn)確率更高,表明GPC在財(cái)務(wù)預(yù)警領(lǐng)域具有可行性。

      財(cái)務(wù)預(yù)警領(lǐng)域普遍存在數(shù)據(jù)不平衡性,即正常企業(yè)數(shù)遠(yuǎn)遠(yuǎn)大于風(fēng)險(xiǎn)企業(yè)。若使用不平衡樣本直接建模,會(huì)導(dǎo)致分類結(jié)果偏向多數(shù)類[12]從而丟失模型預(yù)警能力。王澤霞和李正治[13]采用配對(duì)樣本方式解決數(shù)據(jù)不平衡,檢驗(yàn)管理層語(yǔ)調(diào)是否能改善模型預(yù)警效率;但數(shù)據(jù)進(jìn)行配對(duì)時(shí),會(huì)丟失部分多數(shù)類樣本信息。熊毅和張友棠[14]運(yùn)用全部樣本構(gòu)建Logit模型,通過(guò)確定F計(jì)分臨界值進(jìn)行預(yù)警;模型處理全部不平衡樣本時(shí),分類閾值會(huì)發(fā)生偏移,Provost[15]提出閾值移動(dòng)可解決不平衡問(wèn)題,但閾值的確定較為困難。聶瑞華和石洪波[16]通過(guò)SMOTE對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,反復(fù)試驗(yàn)確定過(guò)采樣比例,再結(jié)合貝葉斯網(wǎng)絡(luò)進(jìn)行分類,在平均準(zhǔn)確率和標(biāo)準(zhǔn)差方面取得較優(yōu)結(jié)果;過(guò)采樣能緩解數(shù)據(jù)不平衡性,但其抽樣比例需反復(fù)試驗(yàn)確定,若選取不當(dāng),結(jié)果會(huì)適得其反,此外過(guò)采樣還會(huì)破壞原始數(shù)據(jù)結(jié)構(gòu),增加噪聲引入的可能性。Huang等[17]構(gòu)建組合核函數(shù),在特征加權(quán)基礎(chǔ)上運(yùn)用單類支持向量機(jī)(OCSVM)構(gòu)建財(cái)務(wù)困境預(yù)測(cè)模型;OCSVM屬于新穎性檢測(cè),建模時(shí)僅運(yùn)用到單一類別樣本,而財(cái)務(wù)預(yù)警歸屬二分類,亦會(huì)丟失部分樣本信息。

      此外,財(cái)務(wù)預(yù)警領(lǐng)域代價(jià)敏感問(wèn)題也不容忽視,在現(xiàn)實(shí)中,風(fēng)險(xiǎn)企業(yè)的錯(cuò)分代價(jià)往往大于正常企業(yè)。張濤等[18]構(gòu)建樣本依賴矩陣,通過(guò)最小風(fēng)險(xiǎn)貝葉斯決策對(duì)分類結(jié)果進(jìn)行后處理,實(shí)現(xiàn)代價(jià)敏感,在UCI標(biāo)準(zhǔn)信用數(shù)據(jù)集上取得優(yōu)良結(jié)果;羅康洋和王國(guó)強(qiáng)[19]利用改進(jìn)MRMR算法結(jié)合代價(jià)敏感支持向量機(jī)建模預(yù)測(cè),少數(shù)類識(shí)別率有所提高;馬彪等[20]將代價(jià)敏感引入變分高斯過(guò)程中,在傳統(tǒng)GPC聯(lián)合似然函數(shù)上引入不同權(quán)重系數(shù),使得錯(cuò)分少數(shù)類樣本的代價(jià)大于錯(cuò)分多數(shù)類樣本的代價(jià),最終實(shí)現(xiàn)改善少數(shù)類樣本預(yù)測(cè)精度的目的。

      文獻(xiàn)回顧發(fā)現(xiàn),從模型選取來(lái)看,GPC相對(duì)于傳統(tǒng)Logistic、SVM模型具備非線性擬合能力強(qiáng),超參數(shù)自適應(yīng)獲取等優(yōu)勢(shì),但其在財(cái)務(wù)預(yù)警領(lǐng)域的應(yīng)用研究不多;從樣本不平衡角度來(lái)看,配對(duì)樣本和單類學(xué)習(xí)會(huì)丟失部分樣本信息,閾值移動(dòng)和過(guò)采樣則是臨界點(diǎn)和抽樣比例難以確定;從代價(jià)敏感角度來(lái)看,已有學(xué)者證明加權(quán)高斯過(guò)程分類算法的有效性,但并未運(yùn)用至財(cái)務(wù)領(lǐng)域?qū)嵶C研究,并且其樣本的權(quán)重矩陣設(shè)定困難。因此,本文首先將GPC應(yīng)用于財(cái)務(wù)預(yù)警領(lǐng)域;其次針對(duì)數(shù)據(jù)不平衡性,以配對(duì)樣本為基礎(chǔ)樣本,運(yùn)用單類支持向量機(jī)充分挖掘剩余正常企業(yè)蘊(yùn)含的信息,以此形式綜合考慮整體樣本;最后,利用訓(xùn)練好的OCSVM對(duì)配對(duì)樣本進(jìn)行異常檢測(cè),憑借輸出的異常分?jǐn)?shù)進(jìn)行樣本權(quán)重矩陣設(shè)定,結(jié)合加權(quán)高斯過(guò)程分類構(gòu)建財(cái)務(wù)預(yù)警模型,以此檢驗(yàn)GPC能否提高財(cái)務(wù)預(yù)警效力以及剩余正常企業(yè)樣本是否包含財(cái)務(wù)預(yù)警的信息增量。

      二、模型構(gòu)建

      (一)單類支持向量機(jī)模型的構(gòu)建

      財(cái)務(wù)預(yù)警數(shù)據(jù)中正常企業(yè)數(shù)量遠(yuǎn)多于風(fēng)險(xiǎn)企業(yè),本文以配對(duì)樣本為基礎(chǔ)樣本,采用單類支持向量機(jī)模型(OCSVM)挖掘剩余正常企業(yè)信息。OCSVM是標(biāo)準(zhǔn)支持向量機(jī)的變體形式,對(duì)數(shù)據(jù)異常值點(diǎn)具有出色的識(shí)別能力。其有兩種學(xué)習(xí)形式,超球法和超平面法,本文采用超球法。它將樣本數(shù)據(jù)通過(guò)核函數(shù)映射至高維空間,使得大部分樣本盡可能被包含在超球體區(qū)域內(nèi),少部分點(diǎn)位于超球體外。若樣本點(diǎn)落在區(qū)域內(nèi),則認(rèn)為該點(diǎn)為正常點(diǎn),反之則為異常點(diǎn)。涵蓋剩余正常企業(yè)的超球體表達(dá)式如下:

      (1)

      其中a表示球體中心,R表示球體半徑,ξi表示松弛變量,其允許將超球體區(qū)域外的部分點(diǎn)視為正常點(diǎn)。為平衡球體體積與目標(biāo)樣本數(shù)量,添加懲罰項(xiàng)系數(shù)C,因此目標(biāo)函數(shù)為:

      (2)

      通過(guò)引入拉格朗日乘子,將式(1)代入式(2),構(gòu)建拉格朗日函數(shù),然后通過(guò)偏導(dǎo)求極值。最終目標(biāo)函數(shù)簡(jiǎn)化為:

      (3)

      (4)

      由式(3)、式(4)解出αi便可知球體中心α、R,當(dāng)樣本點(diǎn)與α之間距離大于R,則視為異常點(diǎn);反之,則視為正常點(diǎn)。在財(cái)務(wù)預(yù)警領(lǐng)域,異常點(diǎn)即代表風(fēng)險(xiǎn)企業(yè),利用訓(xùn)練好的OCSVM對(duì)配對(duì)樣本進(jìn)行異常檢測(cè),輸出異常分?jǐn)?shù)并對(duì)其歸一化至0-1區(qū)間,用score表示,用于權(quán)重設(shè)置。score越小,樣本點(diǎn)屬于異常點(diǎn)的幾率就越大?;阱e(cuò)分代價(jià)敏感思想,通過(guò)加大異常點(diǎn)的樣本權(quán)重以期望提高風(fēng)險(xiǎn)企業(yè)識(shí)別率,參考孟安波等[21]的做法,權(quán)重表達(dá)式如下:

      ui=exp(1-scorei)

      (5)

      (二)加權(quán)高斯過(guò)程分類模型的構(gòu)建

      高斯過(guò)程分類(GPC)是結(jié)合貝葉斯方法和核技巧的非參概率分類算法,通過(guò)訓(xùn)練數(shù)據(jù)對(duì)目標(biāo)變量的后驗(yàn)概率進(jìn)行建模,再采用非線性映射函數(shù)將隱函數(shù)值轉(zhuǎn)換至0-1之間。相比于傳統(tǒng)Logistic、SVM等模型,GPC非線性求解能力出色,參數(shù)自適應(yīng)獲取,模型收斂能力更強(qiáng)。假設(shè)X為樣本的特征空間,D={(x1,y1),(x2,y2),…,(xn,yn)}為訓(xùn)練數(shù)據(jù)集合,其中n表示樣本個(gè)數(shù),xi∈X,yi∈[-1,1]。

      1.先驗(yàn)分布

      二元分類基本思想為確定潛在映射函數(shù)f(x),對(duì)測(cè)試樣本進(jìn)行分類。高斯過(guò)程分類便假定f(x)為一個(gè)高斯過(guò)程,即在f(x)上添加零均值,協(xié)方差為K的高斯分布先驗(yàn),即f(X|θ)~GP(0,K),相應(yīng)的概率密度函數(shù)可表示為:

      (6)

      其中K表示協(xié)方差函數(shù),也稱作核函數(shù),本文采用平方指數(shù)協(xié)方差函數(shù),其表示如下:

      (7)

      式(6)的θ={σf,l}表示超參數(shù),可通過(guò)極大似然估計(jì)自適應(yīng)獲得。

      2.加權(quán)聯(lián)合似然函數(shù)

      傳統(tǒng)二分類中,樣本屬于某標(biāo)簽的可能性用條件概率表示:

      p(yi|fi)=φ(yifi)

      (8)

      (9)

      其中φ表示擠壓函數(shù),將輸出值轉(zhuǎn)化為概率值,一般采用Logistic回歸函數(shù),形式如式(9)所示。基于樣本獨(dú)立性假設(shè),二分類樣本y服從伯努利分布,其聯(lián)合似然函數(shù)表示為:

      (10)

      財(cái)務(wù)預(yù)警領(lǐng)域錯(cuò)分代價(jià)敏感,為提高風(fēng)險(xiǎn)企業(yè)識(shí)別率,結(jié)合經(jīng)OCSVM處理后所得的樣本權(quán)重ui,改進(jìn)為加權(quán)聯(lián)合似然函數(shù)[22]:

      (11)

      3.后驗(yàn)分布及其Laplace近似

      根據(jù)上述先驗(yàn)分布以及加權(quán)聯(lián)合似然函數(shù),結(jié)合貝葉斯原理可得后驗(yàn)分布:

      (12)

      那么,與x*對(duì)應(yīng)的潛在函數(shù)f*的后驗(yàn)分布為:

      (13)

      計(jì)算過(guò)程中后驗(yàn)分布p(f|D,θ)積分困難,參考文獻(xiàn)[23]使用Laplace進(jìn)行高斯近似,最終f*的近似后驗(yàn)分布為:

      (14)

      4.概率預(yù)測(cè)

      最后,通過(guò)f*的近似后驗(yàn)分布進(jìn)行預(yù)測(cè):

      (15)

      (16)

      三、上市企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的實(shí)證研究

      (一)數(shù)據(jù)來(lái)源

      本文數(shù)據(jù)來(lái)源為國(guó)泰安數(shù)據(jù)庫(kù),以滬深A(yù)股制造業(yè)上市企業(yè)為研究對(duì)象,選取其在2016—2020年的經(jīng)營(yíng)狀態(tài)為樣本,以被特殊處理作為風(fēng)險(xiǎn)的標(biāo)志,ST企業(yè)記為1,正常企業(yè)記為0。參照石曉軍等[24]做法,以t-2年的財(cái)務(wù)數(shù)據(jù)預(yù)測(cè)t年是否會(huì)被特殊處理,因此選取2014—2018年財(cái)務(wù)數(shù)據(jù)進(jìn)行匹配。樣本共搜集ST企業(yè)91家,正常企業(yè)546家,按照1:2配比原則,隨機(jī)選取182家正常企業(yè)與91家ST企業(yè)配對(duì),其余364家正常企業(yè)作為剩余樣本用作異常檢測(cè)。獲取總體樣本之后,需進(jìn)行數(shù)據(jù)預(yù)處理,主要包括:一是對(duì)缺失值進(jìn)行填補(bǔ),運(yùn)用指標(biāo)均值進(jìn)行填充;二是對(duì)各項(xiàng)指標(biāo)進(jìn)行歸一化處理。

      (二)變量選擇與降維

      參照文獻(xiàn)一般做法,從償債能力、發(fā)展能力、經(jīng)營(yíng)能力、盈利能力方面共選取25個(gè)初始變量,具體如表1所示。

      表1 初始候選變量

      1.指標(biāo)雙重顯著性檢驗(yàn)

      針對(duì)初始變量能否有效區(qū)分ST與正常企業(yè)進(jìn)行雙重顯著性檢驗(yàn),即雙樣本Kolmogorov-Smirnov(K-S)檢驗(yàn)和Mann Whitney-U(MW-U)檢驗(yàn)。兩樣本K-S檢驗(yàn)其分布是否存在顯著差異,MW-U檢驗(yàn)兩樣本均值是否存在顯著差異,初始變量的雙重顯著性檢驗(yàn)結(jié)果如表2、表3所示。

      表2 K-S檢驗(yàn)結(jié)果

      表3 MW-U檢驗(yàn)結(jié)果

      為保證變量篩選嚴(yán)格性,只有當(dāng)某指標(biāo)在雙重檢驗(yàn)中結(jié)果均不顯著才會(huì)被剔除,綜上結(jié)果保留所有變量。

      2.主成分提取

      多指標(biāo)建模會(huì)存在多重共線性問(wèn)題,導(dǎo)致模型預(yù)測(cè)精度下降,因此采用主成分分析提取主成分,避免多重共線性。運(yùn)用整體樣本進(jìn)行主成分降維,KMO統(tǒng)計(jì)量值為0.719,Bartlett球形檢驗(yàn)顯著性為0;以80%累計(jì)方差貢獻(xiàn)率作為提取標(biāo)準(zhǔn),共選擇12個(gè)主成分,累計(jì)方差貢獻(xiàn)率為81.51%。

      (三)評(píng)價(jià)指標(biāo)選擇

      本文將風(fēng)險(xiǎn)企業(yè)記作正例,用1表示;正常企業(yè)記作負(fù)例,用0表示。TP表示實(shí)際為正例預(yù)測(cè)也為正例的樣本;FN表示實(shí)際為正例但預(yù)測(cè)為負(fù)例的樣本;FP表示實(shí)際為負(fù)例但預(yù)測(cè)為正例的樣本;TN表示實(shí)際為負(fù)例同時(shí)預(yù)測(cè)也為負(fù)例的樣本。由此可計(jì)算FPR、TPR,F(xiàn)PR表示實(shí)際為負(fù)例但預(yù)測(cè)為正例的比例,TPR表示實(shí)際為正例預(yù)測(cè)也為正例的占比。Roc曲線下方面積大小(AUC)為TPR、FPR構(gòu)成的曲線面積大小,通常以此度量模型對(duì)正負(fù)例樣本的區(qū)分能力,AUC值越大,模型分類效果越好;在數(shù)據(jù)平衡情況下,準(zhǔn)確率(ACC)能較好反映對(duì)正負(fù)例樣本整體的分類精度;召回率(Recall)則更注重少數(shù)類識(shí)別率,表示實(shí)際為正例的樣本中被預(yù)測(cè)為正例的樣本比例,1-Recall即表示第一類錯(cuò)誤率(棄真),Recall越高,第一類錯(cuò)誤率越低,對(duì)風(fēng)險(xiǎn)企業(yè)識(shí)別率越高。在現(xiàn)實(shí)生活中誤判風(fēng)險(xiǎn)企業(yè)的代價(jià)往往比誤判正常企業(yè)高得多,因此著重關(guān)注Recall。故本文選用三項(xiàng)指標(biāo)AUC、ACC、Recall作為分類評(píng)價(jià)標(biāo)準(zhǔn),均由混淆矩陣給出,具體表達(dá)式如下:

      表4 混淆矩陣

      (17)

      (18)

      AUC=AreaTPR-FPR

      (19)

      (20)

      (21)

      (四)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警結(jié)果分析

      從配對(duì)樣本的91家ST企業(yè)和182家正常企業(yè)中,隨機(jī)選取64家ST企業(yè)和127家正常企業(yè)作為訓(xùn)練樣本,剩余27家ST企業(yè)和55家正常企業(yè)作為測(cè)試樣本。通過(guò)python進(jìn)行模擬實(shí)驗(yàn),預(yù)測(cè)結(jié)果如表5所示。

      表5 預(yù)警模型訓(xùn)練和測(cè)試結(jié)果

      從表5測(cè)試集表現(xiàn)可看出,未引入OCSVM異常權(quán)重時(shí),使用Logistic模型27家ST企業(yè)中有8家企業(yè)被誤判,55家正常企業(yè)中有5家被誤判;使用SVM模型27家ST企業(yè)中有8家企業(yè)被誤判,55家正常企業(yè)中有4家被誤判;使用GPC模型27家ST企業(yè)中有10家企業(yè)被誤判,55家正常企業(yè)中有2家被誤判,表明相較于Logistic和SVM,GPC對(duì)正常企業(yè)識(shí)別率更高,而對(duì)風(fēng)險(xiǎn)企業(yè)識(shí)別率稍有不足。從整體測(cè)試集表現(xiàn)來(lái)看,GPC與SVM優(yōu)于Logistic模型,均達(dá)到85.4%,結(jié)合圖1來(lái)看,未引入剩余正常企業(yè)信息時(shí),GPC的AUC達(dá)到0.929 3,優(yōu)于Logistic、SVM,表明GPC模型對(duì)于上市企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)具有良好的預(yù)警效果。

      現(xiàn)實(shí)中往往存在代價(jià)敏感問(wèn)題,風(fēng)險(xiǎn)企業(yè)的識(shí)別率高低占據(jù)主導(dǎo)。綜合考慮剩余正常企業(yè)信息,引入OCSVM異常檢測(cè)后,結(jié)合GPC,27家ST企業(yè)中僅有8家企業(yè)被誤判,55家正常企業(yè)中有2家被誤判,風(fēng)險(xiǎn)企業(yè)識(shí)別率從63.0%提升至70.4%,整體預(yù)測(cè)準(zhǔn)確率從85.4%提升至87.8%。結(jié)合圖1來(lái)看,引入剩余正常企業(yè)信息后,OCSVM-GPC的AUC進(jìn)一步提升至0.934 7,表明GPC融入剩余正常企業(yè)信息后,模型預(yù)測(cè)效力進(jìn)一步提高,在建模時(shí)需綜合利用整體樣本信息,僅使用配對(duì)樣本會(huì)導(dǎo)致部分信息增量丟失。

      圖1 Roc曲線

      (五)穩(wěn)健性檢驗(yàn)

      進(jìn)行穩(wěn)健性檢驗(yàn),排除因訓(xùn)練集、測(cè)試集劃分不一致而導(dǎo)致的結(jié)果偏差。進(jìn)行100次不同的子集劃分,劃分比例均保持7 ∶3,觀察其AUC、ACC、Recall均值及標(biāo)準(zhǔn)差,試驗(yàn)結(jié)果如表6所示。

      表6 穩(wěn)健性檢驗(yàn)結(jié)果

      由表6結(jié)果可知,GPC在AUC、準(zhǔn)確率方面均優(yōu)于Logistic和SVM,但Recall方面處于劣勢(shì);引入剩余正常企業(yè)信息后,AUC、準(zhǔn)確率相對(duì)于GPC進(jìn)一步提高,Recall也顯著提升。這表明初始狀態(tài)下GPC對(duì)于風(fēng)險(xiǎn)企業(yè)識(shí)別率低,而引入剩余正常企業(yè)信息后,能明顯提高風(fēng)險(xiǎn)企業(yè)識(shí)別率,從而提升整體預(yù)測(cè)準(zhǔn)確率,該結(jié)論與表5所得結(jié)論相一致。從標(biāo)準(zhǔn)差來(lái)看,SVM、GPC、OCSVM-GPC的穩(wěn)健性不相上下,均優(yōu)于Logistic。

      四、結(jié)論

      本文首先借鑒GPC分類方法的優(yōu)勢(shì),將其引入財(cái)務(wù)預(yù)警領(lǐng)域;其次針對(duì)配對(duì)樣本會(huì)造成部分正常企業(yè)樣本信息丟失的局限性,采用OCSVM構(gòu)建異常檢測(cè)模型,充分挖掘剩余正常企業(yè)信息;再次,利用訓(xùn)練好的OCSVM對(duì)配對(duì)樣本輸出異常分?jǐn)?shù),構(gòu)建樣本權(quán)重矩陣,并將樣本權(quán)重矩陣與加權(quán)高斯過(guò)程分類模型結(jié)合,實(shí)現(xiàn)代價(jià)敏感;最后,選取滬深A(yù)股制造業(yè)上市企業(yè)2016—2020年的數(shù)據(jù)進(jìn)行實(shí)證分析,結(jié)果表明,OCSVM-GPC模型相較于Logistic、SVM和傳統(tǒng)GPC來(lái)說(shuō),風(fēng)險(xiǎn)企業(yè)識(shí)別率更高,整體分類準(zhǔn)確率也更高。本文的主要結(jié)論為:

      1.GPC整體預(yù)測(cè)效力優(yōu)于Logistic和SVM

      從整體準(zhǔn)確率來(lái)說(shuō),GPC、SVM均達(dá)到85.4%,均優(yōu)于Logistic的84.1%;從風(fēng)險(xiǎn)企業(yè)識(shí)別率來(lái)說(shuō),GPC僅為63.0%,劣于Logistic、SVM的70.4%;從正常企業(yè)識(shí)別率來(lái)說(shuō),GPC為96.4%,遠(yuǎn)高于Logistic和SVM的90.9%、92.7%;從AUC來(lái)說(shuō),GPC為0.929 3,高于Logistic、SVM的0.823 6、0.909 1。綜上,GPC存在風(fēng)險(xiǎn)企業(yè)識(shí)別率不足的缺陷,但其整體識(shí)別率與SVM相持平并高于Logistic,在AUC指標(biāo)上優(yōu)于Logistic和SVM。因此GPC整體預(yù)測(cè)效力優(yōu)于Logistic和SVM,也進(jìn)一步說(shuō)明GPC在財(cái)務(wù)預(yù)警領(lǐng)域的適用性。

      2.樣本配對(duì)時(shí),丟失部分樣本信息中包含財(cái)務(wù)預(yù)警的信息增量,應(yīng)考慮整體樣本

      本文以配對(duì)樣本為基礎(chǔ)樣本,創(chuàng)新性地引入OCSVM異常檢測(cè)模型來(lái)充分挖掘部分剩余企業(yè)信息。利用OCSVM模型輸出配對(duì)樣本點(diǎn)的異常分?jǐn)?shù),進(jìn)行樣本權(quán)重矩陣的設(shè)定,并結(jié)合樣本權(quán)重矩陣和加權(quán)高斯過(guò)程分類,實(shí)現(xiàn)代價(jià)敏感。實(shí)證結(jié)果表明,在數(shù)據(jù)劃分不變情況下,綜合考慮剩余部分企業(yè)信息后,OCSVM-GPC對(duì)于風(fēng)險(xiǎn)企業(yè)識(shí)別率為70.4%,遠(yuǎn)高于傳統(tǒng)GPC;整體分類準(zhǔn)確率達(dá)到87.8%,高于Logistic、SVM和傳統(tǒng)GPC。因此建模時(shí),單單考慮配對(duì)樣本有失偏頗,需綜合考慮整體樣本信息,異常檢測(cè)輸出樣本權(quán)重矩陣結(jié)合代價(jià)敏感類模型為此提供了一種解決思路。

      猜你喜歡
      識(shí)別率預(yù)警準(zhǔn)確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      法國(guó)發(fā)布高溫預(yù)警 嚴(yán)陣以待備戰(zhàn)“史上最熱周”
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      園林有害生物預(yù)警與可持續(xù)控制
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      将乐县| 壤塘县| 遵义市| 大厂| 城市| 许昌县| 浏阳市| 通渭县| 贺兰县| 新巴尔虎左旗| 大关县| 阳山县| 泰州市| 南昌县| 特克斯县| 沙坪坝区| 稻城县| 乡城县| 南通市| 鸡东县| 民县| 博客| 和硕县| 景德镇市| 满城县| 平安县| 闽侯县| 富顺县| 格尔木市| 门源| 绵阳市| 会理县| 遵义县| 化德县| 清镇市| 册亨县| 万荣县| 汉沽区| 阿瓦提县| 青岛市| 靖宇县|