呂心潔
摘 要:本文基于SMOTE算法和隨機(jī)森林算法提出了SMOTE-RF企業(yè)財(cái)務(wù)困境預(yù)測(cè)方法,即通過SMOTE算法構(gòu)造人工數(shù)據(jù)增加少數(shù)類樣本數(shù)量,以隨機(jī)森林算法作為分類器對(duì)企業(yè)財(cái)務(wù)困境進(jìn)行預(yù)測(cè)。實(shí)證結(jié)果表明,SMOTE-RF比SVM和神經(jīng)網(wǎng)絡(luò)具有更好的預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性。
關(guān)鍵詞:財(cái)務(wù)困境;不平衡樣本;SMOTE;隨機(jī)森林
一、引言
財(cái)務(wù)困境,又稱財(cái)務(wù)危機(jī),是企業(yè)危機(jī)的最綜合、最顯著的表現(xiàn)。財(cái)務(wù)困境的預(yù)測(cè)一直是實(shí)務(wù)界和理論界廣泛持續(xù)進(jìn)行的研究課題。正確地預(yù)測(cè)企業(yè)財(cái)務(wù)困境,對(duì)于保護(hù)相關(guān)利益主體、提高企業(yè)防范財(cái)務(wù)危機(jī)能力具有重要的現(xiàn)實(shí)意義。
但發(fā)生財(cái)務(wù)困境的企業(yè)只是少數(shù),占企業(yè)總數(shù)量的比重極小。而當(dāng)一個(gè)數(shù)據(jù)樣本中一個(gè)或幾個(gè)類別的數(shù)據(jù)數(shù)量遠(yuǎn)大于其他類別的數(shù)據(jù)數(shù)量時(shí),這樣的數(shù)據(jù)樣本就是不平衡數(shù)據(jù)樣本。因此,對(duì)上市企業(yè)的財(cái)務(wù)困境進(jìn)行預(yù)測(cè)時(shí),主要面對(duì)的是不平衡樣本。綜觀財(cái)務(wù)困境預(yù)測(cè)研究文獻(xiàn),處理不平衡樣本主要有三種方法:一是忽略不平衡樣本的影響,如陳曉和陳治鴿,肖珉等。但忽略樣本的不平衡性,會(huì)使得預(yù)測(cè)模型過多關(guān)注多數(shù)類樣本,導(dǎo)致對(duì)少數(shù)類樣本的分類性能下降。二是采用財(cái)務(wù)困境企業(yè)與非財(cái)務(wù)困境企業(yè)1:1配對(duì)的方法構(gòu)建平衡樣本,如Beaver,Altman,吳世農(nóng)和盧賢義,喬卓等。構(gòu)建平衡樣本,固然可以提高預(yù)測(cè)模型的準(zhǔn)確率。但根據(jù)Zmijewski的研究,若樣本結(jié)構(gòu)比例與現(xiàn)實(shí)中實(shí)際比例的偏差較大,會(huì)影響模型的實(shí)際預(yù)測(cè)能力。三是利用基于不平衡樣本的改進(jìn)算法。通過利用采樣算法、設(shè)置懲罰系數(shù)等方法以克服樣本不平衡性帶來(lái)的影響。但構(gòu)建的混合算法,在預(yù)測(cè)準(zhǔn)確性、預(yù)測(cè)穩(wěn)定性和泛化性上仍不夠理想。
基于此,本文以滬深兩市上市企業(yè)作為研究對(duì)象,構(gòu)建SMOTE-RF財(cái)務(wù)困境預(yù)測(cè)模型,并以實(shí)際數(shù)據(jù)證明比其他預(yù)測(cè)模型(如SVM模型、神經(jīng)網(wǎng)絡(luò)模型)具有更好的預(yù)測(cè)效果。
二、SMOTE-RF方法
SMOTE-RF方法即是先利用SMOTE算法仿制數(shù)據(jù)樣本中少數(shù)類樣本的信息,構(gòu)造人工數(shù)據(jù)以平衡數(shù)據(jù)比例結(jié)構(gòu),再通過隨機(jī)森林方法對(duì)處理后的數(shù)據(jù)樣本進(jìn)行學(xué)習(xí)分類。該方法主要是針對(duì)于不平衡數(shù)據(jù)樣本,能有效地提高模型對(duì)不平衡數(shù)據(jù)樣本的預(yù)測(cè)能力。
1.SMOTE算法
2002年,Chawla首次提出了合成少數(shù)類過取樣方法(SMOTE)。SMOTE方法主要是通過人工合成少數(shù)類樣本以提高少數(shù)類樣本的比例,降低數(shù)據(jù)結(jié)構(gòu)比例的偏斜度。SMOTE方法可以增加新的并不存在的數(shù)據(jù)樣本,所以在一定程度上避免了分類器的過度擬合。SMOTE算法首先對(duì)少數(shù)類的每一個(gè)樣本x,搜索其k個(gè)最近鄰樣本,然后隨機(jī)選取這k個(gè)最近鄰中的一個(gè)樣本記為y,再在x與y之間進(jìn)行隨機(jī)線性插值,構(gòu)造新的少數(shù)類樣本xnew。若需要增加更多的人造樣本,只需重復(fù)上述步驟,直至所有少數(shù)類樣本均處理完畢。
2.隨機(jī)森林方法
三、實(shí)證分析
1.樣本選取
目前,國(guó)內(nèi)學(xué)術(shù)界普遍采用證監(jiān)會(huì)定義ST企業(yè)的標(biāo)準(zhǔn)作為財(cái)務(wù)困境公司的判定依據(jù)。本文也遵從此做法,選取滬深兩市2010年至2012年各年度的ST公司作為財(cái)務(wù)困境企業(yè)樣本,其余非ST公司(不包括金融業(yè))作為非財(cái)務(wù)困境企業(yè)樣本。在預(yù)測(cè)時(shí)間上,本文以上市公司T-3年的財(cái)務(wù)指標(biāo)數(shù)據(jù)建立預(yù)測(cè)模型,即用上市公司發(fā)生財(cái)務(wù)困境事件三年前的數(shù)據(jù)來(lái)預(yù)測(cè)該公司是否會(huì)在T年出現(xiàn)財(cái)務(wù)困境而被特別處理。財(cái)務(wù)困境樣本公司的首次ST年份數(shù)據(jù)和所有樣本公司的財(cái)務(wù)指標(biāo)數(shù)據(jù)來(lái)自于國(guó)泰安數(shù)據(jù)庫(kù)。
2.指標(biāo)選擇
本文采用的財(cái)務(wù)指標(biāo)如表1所示。
3.評(píng)價(jià)標(biāo)準(zhǔn)
每年度被ST的公司相對(duì)于上市公司整體而言只是極少數(shù)。在樣本數(shù)據(jù)中,ST企業(yè)與非ST企業(yè)的數(shù)量比最高達(dá)到了1:97,呈現(xiàn)出較強(qiáng)的不平衡性。因此,本文選取了針對(duì)不平衡問題的分類性能評(píng)價(jià)標(biāo)準(zhǔn):Fmeasure和Gmean,公式如下:
其中,Sensitivity代表少數(shù)類正確率,Specificity代表多數(shù)類正確率,Precision代表少數(shù)類查準(zhǔn)率。
4.預(yù)測(cè)結(jié)果及分析
為對(duì)比不同建模方法的預(yù)測(cè)能力,本文還建立了SVM模型和神經(jīng)網(wǎng)絡(luò)模型。模型參數(shù)如下:SMOTE-RF中,分類樹的數(shù)目ntree取值200-1000,每個(gè)內(nèi)部節(jié)點(diǎn)的候選特征數(shù)m取默認(rèn)值sqrt(m);SVM的核函數(shù)選擇徑向基函數(shù),gamma取值0.1,設(shè)置懲罰系數(shù)C為10、100、500、1000、2000;神經(jīng)網(wǎng)絡(luò)模型采用一個(gè)隱藏層數(shù),隱藏層節(jié)點(diǎn)數(shù)為1-50。預(yù)測(cè)結(jié)果如表2所示。
比較各年度分類結(jié)果可以看出,SMOTE-RF的Gmean值和Fmeasure值最高,說明SMOTE-RF方法的預(yù)測(cè)性能要優(yōu)于SVM和神經(jīng)網(wǎng)絡(luò)。同時(shí),SMOTE-RF方法在三個(gè)年度對(duì)少數(shù)類樣本、多數(shù)類樣本的預(yù)測(cè)準(zhǔn)確率以及Gmean值和Fmeasure值始終穩(wěn)定在95%以上,表明SMOTE-RF方法具有較高的預(yù)測(cè)準(zhǔn)確率和較好的預(yù)測(cè)穩(wěn)定性。而SVM和神經(jīng)網(wǎng)絡(luò)對(duì)該類不平衡數(shù)據(jù)樣本的預(yù)測(cè)能力則較弱,對(duì)多數(shù)類樣本判別雖較準(zhǔn),但少數(shù)類樣本判別正確率明顯偏低,因此Gmean值和Fmeasure值也都較低。并且,SVM的預(yù)測(cè)波動(dòng)幅度較大,也驗(yàn)證了”不平衡數(shù)據(jù)樣本會(huì)對(duì)傳統(tǒng)預(yù)測(cè)模型性能產(chǎn)生影響”的觀點(diǎn)。
四、結(jié)論
通過利用SMOTE-RF方法對(duì)我國(guó)上市企業(yè)財(cái)務(wù)困境預(yù)測(cè)的實(shí)證研究可以看到,將發(fā)生財(cái)務(wù)困境的企業(yè)放到滬深兩市所有企業(yè)中進(jìn)行預(yù)測(cè)時(shí),SMOTE-RF方法的預(yù)測(cè)準(zhǔn)確率較高,誤判率較小,泛化性能好,說明采用SMOTE-RF方法對(duì)上市企業(yè)整體進(jìn)行財(cái)務(wù)困境預(yù)測(cè)是確實(shí)可行的。
參考文獻(xiàn):
[1]陳曉,陳治鴻.中國(guó)上市公司的財(cái)務(wù)困境[J].中國(guó)會(huì)計(jì)與財(cái)務(wù)研究,2000,4:55-72.
[2]消珉.我國(guó)企業(yè)集團(tuán)上市公司財(cái)務(wù)預(yù)警與信用風(fēng)險(xiǎn)評(píng)估研究[D].電子科技大學(xué),2012.5.
[3]W. Beaver. Financial Ratios as Predictors of Failure[J].Journal of Accounting Research,1966,4:71-111.
[4]E. I. Altman. Financial Ratios as Predictors of Failure[J].Journal of Accounting Research, 1996,4:71-111.
[5]吳世農(nóng),盧賢義.我國(guó)上市公司財(cái)務(wù)困境的預(yù)測(cè)模型研究[J].經(jīng)濟(jì)研究,2001,6:46-55.
[6]喬卓.上市公司財(cái)務(wù)困境預(yù)測(cè)模型實(shí)證研究[J].財(cái)經(jīng)科學(xué),2002,7:21-24.
[7]Zmijewski. M.E. Methodological Issues Related to the Estimation of Financial Disterss Prediction Model[J].Journal of Accounting Research,1984,NO.22.