黃曉瑋
摘?要:有效的財務預警有助于利益相關(guān)者判斷上市公司的經(jīng)營狀況并做出決策、規(guī)避風險。機器學習模型可以快速處理大量的數(shù)據(jù),挖掘出有價值的信息并得出結(jié)論,能夠高效地對上市公司的財務狀況做出判斷并預警。本文從常用的機器學習模型及其在財務預警中的應用兩個方面進行了歸納,最后指出了機器學習在財務預警方面未來可能的研究方向。
關(guān)鍵詞:機器學習;文本分析;財務預警
中圖分類號:F23?文獻標識碼:A??doi:10.19311/j.cnki.16723198.2023.03.052
0?引言
證券市場中總存在一些上市公司由于公司經(jīng)營不善、內(nèi)部管理不規(guī)范、外部環(huán)境改變等原因引發(fā)公司財務危機。由于財務信息存在滯后性,以及部分上市公司存在盈余管理、財務舞弊等情況,導致利益相關(guān)者做出錯誤的判斷而利益受損。機器學習具有快速處理大量數(shù)據(jù)的優(yōu)點,能高效挖掘出有價值的信息病得出結(jié)論,因此很多學者將機器學習應用到財務預警當中。基于此,本文首先介紹了幾個在財務預警中常用的機器學習模型,包括邏輯回歸(Logistic?Regression,LR)、決策樹(Decision?Tree,DT)、樸素貝葉斯、支持向量機(Support?vector?Machine,SVM)、神經(jīng)網(wǎng)絡和集成學習,然后通過收集和整理相關(guān)文獻詳細介紹了機器學習在財務預警中的應用,最后進行了總結(jié)分析。
1?財務預警中常用的機器學習模型
1.1?邏輯回歸(LR)
LR主要用于解決分類問題,無需事先對數(shù)據(jù)的分布進行假設,避免了假設分布不準確的問題。具體來說,先找一個合適的預測分類函數(shù)來預測輸入數(shù)據(jù)的分類結(jié)果。然后再構(gòu)建一個損失函數(shù)來預測輸出與實際類別的差,最后找到損失函數(shù)的最小值,即可找到最準確的預測函數(shù)。預測函數(shù)的值表示概率值,一般以50%作為分類閾值來進行分類。
1.2?決策樹(DT)
DT是一種基于特征對實例進行分類的樹形結(jié)構(gòu),其主要優(yōu)點是模型具有可讀性,分類速度快。DT由結(jié)點和有向邊組成,結(jié)點包括根結(jié)點、內(nèi)部結(jié)點和葉結(jié)點。根結(jié)點為初始分類特征,內(nèi)部節(jié)點代表某個特征,葉結(jié)點代表某個類。DT從根結(jié)點開始,有向到達內(nèi)部結(jié)點進行特征判斷,并按照值選擇輸出分支,直到到達葉結(jié)點的類別,即決策結(jié)果。若DT存在過擬合問題,則可通過剪枝,即從已生成的樹上剪掉一些結(jié)點來解決。
1.3?樸素貝葉斯
樸素貝葉斯是基于貝葉斯定理的一種常用分類方法,其實現(xiàn)簡單,學習與預測的效率都很高。樸素貝葉斯假設特征條件是互相獨立的,其通過訓練數(shù)據(jù)獲得類別Y的先驗概率P(Y)、條件概率P(X|Y)后,再求得后驗概率P(Y|X)的估計,然后基于此模型對給定的輸入X利用貝葉斯定理求出各個后驗概率,選擇后驗概率最大的輸出類別y。
1.4?支持向量機(SVM)
SVM可用于解決二分類問題。對于一個線性可分的數(shù)據(jù)集,可通過找到間隔最大的超平面作為決策面來為樣本分類。而對于非線性可分的數(shù)據(jù)集,可通過引入隱式的核函數(shù)將樣本映射到更高維度的空間中來找到間隔最大的超平面,以解決在原始特征空間里線性不可分的問題,常用的核函數(shù)有線性核、多項式核、高斯核等。
1.5?神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡是目前最流行的機器學習模型之一。神經(jīng)元是神經(jīng)網(wǎng)絡中最基本的成分,它接收到來自n個其他神經(jīng)元傳遞過來的輸入信號并通過帶權(quán)重的連接傳遞到神經(jīng)元,神經(jīng)元接收到的總輸入值將與當前神經(jīng)元的閾值進行比較,然后通過激活函數(shù)來決定使神經(jīng)元“興奮”或“抑制”,以產(chǎn)生神經(jīng)元的輸出。神經(jīng)網(wǎng)絡就是把多個這樣的神經(jīng)元按一定的層次結(jié)構(gòu)連接起來而成。神經(jīng)網(wǎng)絡有多種類型,包括感知機、BP神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等。
1.6?集成學習
集成學習是使用一種或多種算法構(gòu)建并結(jié)合多個弱學習器以產(chǎn)生強學習器來完成學習任務的一種方法,相比單一學習器有更強的泛化性能。集成學習中最常用的是裝袋法(Bagging)和提升法(Boosting)。
1.6.1?Bagging
Bagging通過自助采樣法獲得采樣集,也就是先從包含M個樣本的數(shù)據(jù)集中隨機取出一個樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集,即同一個樣本可能在同一個采樣集中重復出現(xiàn),這樣隨機采樣m次后就可以得到含有m個樣本的采樣集,將上述操作重復T次后,即可得到T個含m個訓練樣本的采樣集,然后基于每個采樣集訓練出一個基學習器,再將這些基學習器進行結(jié)合。在對預測輸出進行結(jié)合時,通常對分類任務使用簡單投票法,對回歸任務則通常使用簡單平均法。隨機森林(randomforests,RF)是Bagging擴展模型中的典型模型之一。
1.6.2?Boosting
Boosting的訓練樣本均為同一組,它是通過改變訓練樣本的權(quán)重來學習多個基學習器。先訓練出一個初始的基訓練器,根據(jù)該基訓練器的結(jié)果,提高分類錯誤的樣本權(quán)重,再按照新的權(quán)重訓練下一個基學習器,直到達到預先指定的學習次數(shù),再將這些基學習器加權(quán)組合,以提高最終模型的準確性。AdaBoost、全梯度下降樹(GBDT)、極端梯度提升(XGBoost)都是Boosting的常用算法。
2?基于財務數(shù)據(jù)的財務預警研究
2.1?單機器學習模型
朱發(fā)根,劉拓,傅毓維(2009)選取高新技術(shù)產(chǎn)業(yè)的上市公司為研究范圍,運用SVM構(gòu)建財務預警模型。結(jié)果表明,該模型具有90%的預警精度,可以對企業(yè)兩年后的財務狀況作出較可靠的判斷。趙文平,王園園,張一楠等(2015)構(gòu)建了基于貝葉斯網(wǎng)絡的工業(yè)上市公司財務預警模型。發(fā)現(xiàn)該模型在公司被ST前三年的準確率分別為91.05%、95.03%、97.35%,對工業(yè)上市公司財務風險的預測取得了較好的結(jié)果。王秋瑋,葉楓(2018)構(gòu)建了決策樹C5.0的財務預警模型,發(fā)現(xiàn)該模型可以較好地預測ST公司的財務困境程度。
有學者構(gòu)建了多個機器學習財務預警模型并進行對比。唐鋒,孫凱(2008)采用主成分分析法(PCA)和BP人工神經(jīng)網(wǎng)絡構(gòu)建財務危機預警模型。結(jié)果表明BP神經(jīng)網(wǎng)絡模型達到了建模樣本90.8%和檢驗樣本90%的判正率,而采用PCA建立的模型分別是90%和81.7%,基于BP神經(jīng)網(wǎng)絡的預警模型效果更好。蔣盛益,汪珊,蔡余沖(2010)建立了7個財務預警模型,包括貝葉斯網(wǎng)絡、決策樹、基于規(guī)則的分類(JRip)、最近鄰分類(1NN)、多層感知機、BP神經(jīng)網(wǎng)絡和LR。發(fā)現(xiàn)最近鄰分類、多層感知機、BP神經(jīng)網(wǎng)絡及邏輯回歸這四類方法的效果接近,且明顯好于貝葉斯網(wǎng)絡、DT、JRip。
2.2?多機器學習融合模型
多位學者將PCA應用到各類機器學習模型中,發(fā)現(xiàn)可使模型效果得到提升。劉玉敏,申李瑩,任廣乾(2017)構(gòu)建了PCA-PSO-SVM模型來進行財務風險預測。先通過PCA進行數(shù)據(jù)降維處理,再將SVM的參數(shù)作為PSO的粒子,將分類準確率作為PSO的目標函數(shù)進而得到優(yōu)化的SVM。發(fā)現(xiàn)PCA-PSO-SVM模型在較短的預警期間內(nèi),其準確率好于單純的SVM模型。石先兵(2020)通過使用PCA分析原始數(shù)據(jù),然后將結(jié)果嵌入SVM中來構(gòu)建企業(yè)財務預警模型。結(jié)果顯示,PCA-SVM財務危機預警模型的準確率總體高于80%以上,對制造業(yè)上市公司有較好的財務危機預警效果。
將單機器學習模型作為集成學習法中的弱學習器能夠提高模型的預警效果。陸正華,周航(2013)構(gòu)建了BP_Adaboost財務預警模型,發(fā)現(xiàn)用BP神經(jīng)網(wǎng)絡作為弱分類器的Adaboost算法構(gòu)建的財務預警模型誤差率更低。朱昶勝,田慧星,馮文芳(2021)構(gòu)建了Adaboost-DEGWO-SVM組合模型來預測上市公司財務困境。其將差分進化(DE)應用到灰狼算法(GWO)中來實現(xiàn)對SVM參數(shù)的尋優(yōu),最后通過Adaboost算法提高DEGWO-SVM的分類能力。結(jié)果表明,Adaboost-DEGWO-SVM組合預測模型的分類準確率可達到91.3%。趙雪峰,吳偉偉,吳德林等(2022)構(gòu)建出以特征因果關(guān)系分析為基礎的CFW-Boost模型,其將CART決策樹作為弱分類器。并構(gòu)建了LR、Lasso-Logistic,SVM、PCA-SVM、RF、卷積神經(jīng)網(wǎng)絡(CNN)及長短期記憶網(wǎng)絡與之進行對比,發(fā)現(xiàn)CFW-Boost相比其他模型具有更高的準確率和穩(wěn)定性。
張露,劉家鵬,田冬梅(2022)則融合了兩種集成學習方法,其將基于Up-Down集成采樣的Bagging-Vote模型與基于Tomek-Smote采樣的Stacking模型進行融合,再加入股票交易數(shù)據(jù)來得到Stacking-Bagging-Vote(SBV)多源信息融合模型,發(fā)現(xiàn)該融合模型在預測性能上有了較大的提升。
3?涉及文本分析的財務預警研究
近年來,在財務預警研究中使用機器學習分析文本信息的研究增多。阮素梅,杜旭東,李偉等(2022)構(gòu)建了9個常用的機器學習模型,包括LR、SVM、神經(jīng)網(wǎng)絡、DT、GBDT、XGBoost、AdaBoost、RF和Bagging,對使用單一財務數(shù)據(jù)的模型和增加了文本信息的模型進行財務風險識別效果對比。發(fā)現(xiàn)在加入文本信息,可以顯著提升多數(shù)機器學習模型識別上市公司財務風險的性能。梁龍躍,劉波(2022)通過提取財務困境公司與正常上市公司年報中“經(jīng)營情況討論與分析”和“審計報告”的文本特征,并與財務指標數(shù)據(jù)結(jié)合,構(gòu)建了LR、XGBoost、人工神經(jīng)網(wǎng)絡(ANN)、CNN四種財務風險預警模型。對文本特征的提取分別采用了BERT-AE、Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型進行對比,結(jié)果顯示使用BERT-AE提取文本特征的XGBoost模型效果最好。
4?結(jié)論
機器學習是在財務預警中常用的方法,包括LR、DT、樸素貝葉斯、SVM、神經(jīng)網(wǎng)絡和集成學習等。其在財務預警的應用中,從主要對財務數(shù)據(jù)進行分析的單機器學習預警模型逐漸向多機器學習模型融合發(fā)展,并且對于特征提取、模型算法不斷的優(yōu)化使得模型的預警效果得到提高。近年來,隨著機器學習的不斷深入發(fā)展,文本信息也成了財務預警模型的分析對象,并且進一步的提高了模型的預警效果。未來可以對特征提取、算法優(yōu)化、文本信息分析這些方面進行更深入研究,提高財務預警模型的現(xiàn)實指導意義。
參考文獻
[1]梁龍躍,劉波.基于文本挖掘的上市公司財務風險預警研究[J].計算機工程與應用,2022,58(4):255266.
[2]陳藝云.基于信息披露文本的上市公司財務困境預測:以中文年報管理層討論與分析為樣本的研究[J].中國管理科學,2019,27(7):?2334.
[3]趙雪峰,吳偉偉,吳德林,等.面向特征因果分析的CFW-Boost企業(yè)財務風險預警模型[J].系統(tǒng)管理學報,2022,31(2):?317328.
[4]朱昶勝,田慧星,馮文芳.基于Adaboost算法結(jié)合DEGWO-SVM的財務困境預測[J].蘭州理工大學學報,2021,47(6):?100107.
[5]張露,劉家鵬,田冬梅.基于Stacking-Bagging-Vote多源信息融合模型的財務預警應用[J].計算機應用,2022,42(1):?280286.
[6]陸正華,周航.基于BP_Adaboost算法的上市公司財務預警研究[J].財會通訊,2013,(23):117119.
[7]唐鋒,孫凱.基于BP人工神經(jīng)網(wǎng)絡的上市公司財務危機預警研究[J].現(xiàn)代經(jīng)濟(現(xiàn)代物業(yè)下半月刊),2008,(S1):161162.
[8]張秋水,羅林開,劉晉明.基于支持向量機的中國上市公司財務困境預測[J].計算機應用,2006,(S1):105107.
[9]蔣盛益,汪珊,蔡余沖.基于機器學習的上市公司財務預警模型的構(gòu)建[J].統(tǒng)計與決策,2010,(9):166167.
[10]王秋瑋,葉楓.新常態(tài)下ST公司財務困境預警研究——基于C5.0算法的財報面板數(shù)據(jù)[J].財會通訊,2018,(23):107111,129.
[11]朱發(fā)根,劉拓,傅毓維.基于SVM的高新技術(shù)企業(yè)財務危機預警研究[J].科技進步與對策,2009,26(11):7375.
[12]劉玉敏,申李瑩,任廣乾.基于PCAPSOSVM的上市公司財務危機預警[J].管理現(xiàn)代化,2017,37(3):1214.
[13]趙文平,王園園,張一楠,等.基于貝葉斯網(wǎng)絡的上市公司財務風險預警模型[J].財會月刊,2015,(23):6669.
[14]周志華.機器學習[M].北京:清華大學出版社,2016.
[15]趙衛(wèi)東.機器學習[M].北京:人民郵電出版社,2018.
[16]李航.機器學習方法[M].北京:清華大學出版社,2022.
[17]石先兵.基于PCASVM的企業(yè)財務危機預警模型構(gòu)建[J].財會通訊,2020,(10):131134.
[18]阮素梅,杜旭東,李偉,等.數(shù)據(jù)要素、中文信息與智能財務風險識別[J].經(jīng)濟問題,2022,(1):107113.