汪 敏 傅祺煒
?
基于樸素貝葉斯網(wǎng)絡(luò)的上市公司信用風險預(yù)警研究
汪敏傅祺煒
傅祺煒(1991-),女,漢,江西吉安人,碩士研究生,研究方向:公司理財。
摘要:本文運用PCA方法提取出對信用風險具有顯著影響的特征指標,同時運用EP-T方法離散樣本數(shù)據(jù)并學(xué)習貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)與參數(shù),以此建立樸素貝葉斯網(wǎng)絡(luò)(Naive Bayesian Network,NB)信用風險預(yù)警模型;最后通過交叉驗證(Cross Validation)對模型進行5次獨立建模測試,并利用性能評價指標將NB模型與Logistic模型、MLP神經(jīng)網(wǎng)絡(luò)模型、RBF神經(jīng)網(wǎng)絡(luò)模型進行對比分析。實證研究結(jié)果表明,盡管四種模型均能對上市公司信用風險進行預(yù)警,但NB模型表現(xiàn)出了更好的預(yù)測精度與穩(wěn)定性。
關(guān)鍵詞:信用風險;NB模型;PCA;EP-T方法;交叉驗證
引言
現(xiàn)代市場經(jīng)濟是建立在信用基礎(chǔ)上的信用經(jīng)濟,如何提高信用風險預(yù)測精度、強化信用風險識別能力,越來越受到各國監(jiān)管部門的重視。而上市公司作為我國經(jīng)濟發(fā)展的核心力量,一旦發(fā)生信用違約,不但會損害投資者的利益,而且會進一步降低信用評級,從而增加融資成本、限制融資渠道,嚴重的會使公司陷入破產(chǎn)的境地。因此,構(gòu)建科學(xué)有效地信用風險預(yù)警模型對促進我國經(jīng)濟的健康發(fā)展具有重要的理論意義與實踐意義。
而貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)模型以貝葉斯理論為基礎(chǔ),不僅能更好地結(jié)合先驗信息與樣本信息,而且能挖掘數(shù)據(jù)間的因果關(guān)系,因而被廣泛運用于信用風險預(yù)警中。其中,樸素貝葉斯網(wǎng)絡(luò)(Naive Bayesian Network,NB)模型,因其網(wǎng)絡(luò)結(jié)構(gòu)的簡易性以及在相關(guān)領(lǐng)域中的優(yōu)秀表現(xiàn)受到了學(xué)者的廣泛關(guān)注。鑒于此,本文將NB模型運用于上市公司信用風險預(yù)警研究。
一、上市公司信用風險預(yù)警方法的構(gòu)建
(一)構(gòu)建上市公司信用風險預(yù)警模型
圖1 樸素貝葉斯網(wǎng)絡(luò)模型
而在NB模型中,節(jié)點變量之間的參數(shù)學(xué)習即為學(xué)習各節(jié)點的條件概率,從而構(gòu)成條件概率表CPT。根據(jù)貝葉斯規(guī)則,計算有關(guān)屬性節(jié)點所對應(yīng)的父節(jié)點出現(xiàn)的概率就歸結(jié)為實現(xiàn)最大后驗概率(Maximum A Posterior,MAP),即求:
(1)
其中P(x1,x2,…,xn)是常量,因此,本文要判斷上市公司是否發(fā)生信用風險,只需要根據(jù)訓(xùn)練集D1學(xué)習信用風險特征指標所代表的屬性變量的條件概率P(xi|cm),(i=1,2,…,n)與先驗概率P(cm),即可得到網(wǎng)絡(luò)參數(shù)。
二、實證結(jié)果與分析
(一)樣本選取
本文數(shù)據(jù)主要來源于CSMAR數(shù)據(jù)庫。研究的樣本數(shù)據(jù)為從2000年到2013年間我國A股市場因財務(wù)狀況異常而被特別處理(ST)的157家上市公司作為作為信用風險樣本和與其配對的789家財務(wù)正常公司作為非信用風險樣本,總共946家公司作為研究樣本。
(二)特征指標選取與篩選
鑒于以往的研究成果,本文選取樣本第(t-2) 年而不是第(t-1)年的財務(wù)指標數(shù)據(jù),且第(t-2)年時該ST公司并非處于ST狀態(tài)作為研究依據(jù)[6,7]?;诖?,初步選取了反映企業(yè)盈利能力、償債能力和營運能力等6個類別共16個財務(wù)指標作為建模的備選指標,見表1。
表1 待篩選預(yù)警指標變量
由表1可以看出,本文所選取的預(yù)警指標包含6個類別,每個類別都包含多個備選財務(wù)指標,考慮到財務(wù)指標之間存在高度相關(guān)性,還將運用PCA方法對備選指標進行篩選,從而降低甚至消除指標變量間的多重共線性影響。
由表2的KMO統(tǒng)計量和Bartlett球形檢驗結(jié)果看出,本文研究樣本的KMO統(tǒng)計量為0.578>0.5,顯著性水平P=0.000<0.05,說明運用PCA方法是合適的。
表2 KMO統(tǒng)計量檢驗和Bartlett球形檢驗
根據(jù)各指標的貢獻率,并依據(jù)特征值大于1的原則,本文利用PCA方法提取出7個因子,其累計貢獻率為85.923%,大于80%,說明所提取出的7個因子能夠比較全面地反映上市公司的全部信息。最后,根據(jù)載荷因子矩陣,得到7個因子分別為凈資產(chǎn)收益率(X1)、總資產(chǎn)收益率(X2)、資產(chǎn)負債率(X6)、總資產(chǎn)周轉(zhuǎn)率(X10)、凈資產(chǎn)比率(X12)、固定資產(chǎn)比率(X14)和每股收益(X15)。
(三)基于樸素貝葉斯網(wǎng)絡(luò)的信用風險預(yù)警模型的確定
由于貝葉斯網(wǎng)絡(luò)主要用來處理離散數(shù)據(jù),而定量財務(wù)指標幾乎全部為連續(xù)取值屬性,鑒于多數(shù)財務(wù)指標表現(xiàn)出“尖峰后尾”的特點,本文采用更能捕捉這種分布特點的EP-T(Extended Pearson-Tukey)方法對篩選出的7個連續(xù)預(yù)警指標進行離散化處理。然后,模型的參數(shù)學(xué)習就可以利用網(wǎng)絡(luò)結(jié)構(gòu)并結(jié)合訓(xùn)練樣本數(shù)據(jù)學(xué)習獲得,具體結(jié)果見表3。
表3 條件概率表
(四)模型預(yù)測效果分析
為了增強實證研究的穩(wěn)健性,本文采用交叉驗證,分5次從信用風險樣本和非信用風險樣本中各抽取30家和140家公司組成測試樣本,同時將余下的776家公司作為訓(xùn)練樣本。利用訓(xùn)練樣本分別建立NB模型、Logistic模型、MLP神經(jīng)網(wǎng)絡(luò)模型和RBF神經(jīng)網(wǎng)絡(luò)模型,并利用測試樣本對各模型的性能評價指標進行對比分析,結(jié)果如表4所示。
表4 上市公司信用風險預(yù)警模型分類準確率
由表4可以看出,四種模型的平均整體預(yù)測分類準確率Pall都在80%以上,說明四種模型都具有較好的分類效果,但是對比而言,NB模型分類準確率相對較高,達到了91.88%;而從錯誤分類來看,四種模型發(fā)生第一類錯誤比率Perror1都相對較低,而發(fā)生第二類錯誤比率Perror2都相對較高,但NB模型發(fā)生兩類錯誤比率都是最低的,尤其是發(fā)生第一類錯誤的比率只有2.66%。
圖2 四種模型的整體預(yù)測分類準確率Pall對比折線圖
進一步地,從圖2可以直觀地看出,Logistic模型整體預(yù)測分類準確率相對較低,說明Logistic模型對信用風險的預(yù)測精度相對于其他三種模型而言較低;而將NB模型與MLP神經(jīng)網(wǎng)絡(luò)模型以及RBF神經(jīng)網(wǎng)絡(luò)模型對比發(fā)現(xiàn),兩種神經(jīng)網(wǎng)絡(luò)模型波動幅度都比NB模型大,尤其是RBF神經(jīng)網(wǎng)絡(luò)模型的波動幅度最大,說明神經(jīng)網(wǎng)絡(luò)模型對信用風險測度缺乏一定的穩(wěn)定性。通過以上對比發(fā)現(xiàn),盡管四種模型均能對上市公司的信用風險進行研究,NB模型則表現(xiàn)出了更高的分類準確率和穩(wěn)定性。
三、結(jié)論
就整體上而言,NB模型更能夠?qū)︻愃菩庞蔑L險這樣的具有復(fù)雜非線性關(guān)系的風險管理問題進行有效預(yù)警,具有很高的實用價值。對于投資者而言,能夠運用NB模型提前捕捉風險信號,進而作出合理的投資決策以規(guī)避風險帶來的損失;對于相關(guān)的政府經(jīng)濟管理者而言,能夠運用NB模型對可能發(fā)生風險問題的領(lǐng)域進行預(yù)測,及時制定合理的監(jiān)管政策,從而穩(wěn)定市場秩序,促進經(jīng)濟的持續(xù)健康發(fā)展。(作者單位:成都理工大學(xué)商學(xué)院)
參考文獻:
[1]張鵬,曹陽.上市公司信用風險度量研究[J].財經(jīng)問題研究,2012,(3):66-71
[2]Pearl J.Probabilistic reasoning in intelligent system:networks of plausible inference[J].California:Morgan Kaufman,1988,(3):383-408
[3]Heckerman D.Bayesian networks for data mining [J].Data Mining and Knowledge Discovery, 1997,(1):79-119
[4]Friedman N, Geiger D.Bayesian network classifier[J].Machine Learning,1997,(22):131-163
[5]石洪波,劉亞琴,等.貝葉斯分類器的判別式參數(shù)學(xué)習[J].計算機應(yīng)用,2011,(4):1075-1078
[6]任永平,梅強.中小企業(yè)信用評級指標體系探討[J].現(xiàn)代經(jīng)濟探討,2001,(4):60-62
[7]劉國風.企業(yè)財務(wù)危機預(yù)警應(yīng)確立的指標體體系[J].商業(yè)研究,2009,(3):153-156
[8]劉淑蓮,王真,等.基于因子分析的上市公司信用評級應(yīng)用研究[J].財經(jīng)問題研究,2008,(7):53-60
[9]Keefer, D.L., Bodily, S.E.-Point Approximations for Continuous Random Variables [J].Management Science, 1983,(29):595-609
作者簡介:汪敏(1990-),女,漢,安徽六安人,碩士研究生,研究方向:公司理財。