洪欣琪
摘要:基于集成思想選擇L1、隨機森林、極限樹、f_classif、XGBoost五種方法構建特征選擇集成評分模型并篩選出關鍵特征,利用SMOTE算法處理非平衡數(shù)據,在此數(shù)據預處理基礎上基于LightGBM算法建立財務困境預測模型并將實驗結果與以邏輯回歸、支持向量機、決策樹、XGBoost等算法為基礎建立的預測模型對比。結果顯示,在測試集上LightGBM集成學習模型對中小企業(yè)財務困境預測準確率高達0.950 877、AUC值為0.975 8遠遠高于基于其他算法的預測模型。這對金融企業(yè)精準評價中小企業(yè)的財務風險以及政府實施中小企業(yè)政策扶持提供決策參考。
關鍵詞:財務困境預測;集成學習;LightGBM;特征選擇
中圖分類號:F275;TP311.1? ? ? 文獻標志碼:A? ? ? 文章編號:1008-4657(2021)03-0057-17
引言
我國中小企業(yè)是在經濟運行中發(fā)揮關鍵作用的社會主義經濟發(fā)展主體,在穩(wěn)定就業(yè)、平穩(wěn)經濟增長、促進技術創(chuàng)新和推動結構轉型中作用顯著。2018年末我國中小企業(yè)達到1? 807萬家[ 1 ],在全部規(guī)模的企業(yè)單位中占比99.8%。截至2019年,我國中小企業(yè)營業(yè)收入已達到約78.1萬億元,2019~2023預計年均復合增長率約為3.75%,2023年將達到90.5萬億元。2018年中小企業(yè)吸納就業(yè)人口23? 300.4萬人,在全部企業(yè)就業(yè)人口中占比79.4%[ 2 ]。中小企業(yè)雖然地位關鍵,但絕大多數(shù)中小企業(yè)將會面臨“第三門檻”的現(xiàn)象[ 3 ],即中小企業(yè)到達第三個經營年份將會面臨破產的風險,這主要是由于企業(yè)出現(xiàn)財務困境而導致,所以利用技術手段辨別可能會陷入財務困境的中小企業(yè)對銀行、政府以及中小企業(yè)自身發(fā)展非常必要。
建立財務困境預警體系以及預警模型從而精準識別可能會出現(xiàn)財務困境中小企業(yè)的過程尤為重要。傳統(tǒng)的財務困境預警模型以利用計量方法為主導,但隨著科技的發(fā)展和學術研究發(fā)現(xiàn)利用機器學習方法建立的財務困境預警模型比計量模型更準確且高效。本文在傳統(tǒng)的機器學習算法的基礎上,以集成思想為主導,創(chuàng)新性的采用2017年由微軟亞洲研究院提出的輕量化梯度促進機(Light Gradient Boosting Machine, LightGBM)算法建立中小企業(yè)財務困境預測模型,為了提高模型預測精度和準確性在數(shù)據預處理階段通過過采樣處理非平衡財務數(shù)據,并建立特征選擇集成評分模型來進一步篩選影響判斷財務狀況的關鍵特征。在與邏輯回歸、支持向量機、決策樹、XGBoost等算法做對比實驗時,LightGBM財務困境預測模型的預測準確性高達0.950? 877,遠高于其他預測模型。實驗結果表明本文對LightGBM算法的創(chuàng)新應用不僅具有理論研究意義,對銀行、政府和中小企業(yè)自身具有現(xiàn)實的實踐意義。
1? ? ? ? ?文獻綜述
在中小企業(yè)財務困境的界定上,不同的學者持有不同的看法。在國外,以Beaver? ? W H等[ 4 ]的研究觀點作為最經典的財務困境的定義,即出現(xiàn)債務拖欠、無法支付股息紅利出現(xiàn)違約行為,最終企業(yè)實行破產清算。Carmichael? ?D? R[ 5 ]在前者的研究基礎上擴大了對財務困境定義的范圍,認為當企業(yè)出現(xiàn)流動資金短缺、股本不足時也視作出現(xiàn)財務困境的信號。在國內,吳世農等[ 6 ]提出公司陷入財務困境的過程就是從正常到逐步惡化的過程。張金昌等[ 7 ]對財務困境的界定更加全面,不僅將財務困境界定義為從資金緊張、債務違約到企業(yè)失敗破產的動態(tài)過程還將企業(yè)財務困境問題歸結為資金供求失衡。
上世紀80年代以來,機器學習算法在各個領域廣泛應用逐漸取代了數(shù)理統(tǒng)計建模方法并走向成熟,邏輯回歸、神經網絡、決策樹、隨機森林、支持向量機等方法在中小企業(yè)財務困境預測上均有著廣泛的應用。其中在邏輯回歸算法研究中Dreiseitl S等[ 8 ]提出邏輯回歸能夠實現(xiàn)向前、向后和逐步變量選擇,令模型更易理解實現(xiàn)更小的泛化錯誤。眾多文獻中對于支持向量機的研究較為豐富,更多的是與其他算法的對比分析,Huh J等[ 9 ]利用小樣本實驗對比支持向量機與BP神經網絡的分類效果并發(fā)現(xiàn)支持向量機的效果更好。方匡南等[ 10 ]建立的SGL-SVM方法以及Mehdipour V等[ 11 ]在支持向量機與GEP的對比實驗中也得出了相同結論。神經網絡在企業(yè)財務困境預測的應用中,Odom M D等[ 12 ]率先引入ANN模型來預測公司破產,Sung? T? K等[ 13 ]等學者使用辨別算法、遺傳算法、神經網絡來編輯決策樹,其結果可解釋并改善機器學習的“黑箱”特性。當對機器學習算法深入研究之后,學者們逐漸意識到單一學習器存在許多弊端,為了優(yōu)化研究結果,集成學習成為研究熱點[ 14 ]。集成學習將單一學習器作為基學習器以投票算法集成最終實驗結果[ 15 ]。Dietterich T? G[ 16 ]在文章中總結道最原始的集成算法是采用多數(shù)投票制的貝葉斯平均。Jiang? M R等[ 17 ]集成模式分解、極限學習、改進的和諧搜索算法等預測股票價格。Zhao Y等[ 18 ]將深層自然網絡模型和Bagging集成模型相結合建立SDAE-B模型,以上學者均得出結論:基于集成算法的模型在回歸和預測方面的表現(xiàn)優(yōu)于單一算法模型。2017年在集成學習領域再次實現(xiàn)了創(chuàng)新,提出了LightGBM算法,該算法在集成學習的基礎上從數(shù)據和特征兩方面進行改進,實現(xiàn)對大型數(shù)據集的學習并降低了內存的消耗[ 18 ]。作為集成學習領域的研究熱點,Minastireanu? E? A[ 19 ]利用LightGBM算法建立個人網絡貸款違約預測模型,我國學者Sun? P? C [ 20 ]和馬曉君等[ 21 ]對以LightGBM算法為基礎的個人網絡貸款違約預測模型進行了深入研究。在許多復雜問題的預測上,包括GPU惡意軟件預測[ 22 ]、房價預測[ 23 ]、谷歌商店顧客購買力預測[24]等,LightG BM算法均提供了良好的解決路徑和精確的實驗結果,并且眾多研究根據LightG BM模型的預測結果能夠獲取研究問題的主要影響因素[ 25 ]。通過對國內外文獻的梳理我們發(fā)現(xiàn)LightG BM算法在許多學科的應用上表現(xiàn)極佳,主要包括提升了訓練速度、訓練精度,降低了訓練內存、支持并行學習、更快的處理海量數(shù)據等。本文認為將性能優(yōu)良的LightGBM算法應用于中小企業(yè)財務困境預測上將會促進該領域的發(fā)展。
對財務困境預測的研究一直是金融領域或者會計領域研究的熱點問題,如果企業(yè)走向破產不僅會對自身和與之合作的金融機構帶來致命打擊還會引起整個金融市場的波動,因此對企業(yè)財務困境進行科學而準確的預測至關重要。隨著機器學習領域的研究成果逐漸豐富,在財務困境預測問題上應用集成學習深入研究更具有理論意義和實踐意義。通過對以往學者針對集成學習以及LightGBM算法應用的總結發(fā)現(xiàn),LightG BM算法發(fā)展時間較短,眾多針對LightG BM算法的研究并不豐富且很少涉及中小企業(yè)財務困境預測問題。本文創(chuàng)新性的將LightG BM算法應用于中小企業(yè)財務困境預測方面并建立財務困境預測模型,而且在數(shù)據預處理時利用過采樣處理非平衡財務數(shù)據集并建立特征選擇集成評分模型篩選重要實驗特征并在此基礎上進一步提高財務困境預測的準確性。
2? ? ? ? ?理論基礎
通過建立財務預警模型能夠對可能出現(xiàn)的財務危機進行及時反映,對企業(yè)和相關金融機構來說根據財務困境預測模型結果能夠基本掌握企業(yè)自身或是目標客戶財務狀況,及時采取應對措施降低財務風險;對于政府來說,及時了解眾多公司的財務狀況有助于其科學而全面的管控維持市場秩序。但是建立精準的財務困境預警模型對技術要求非常高,若不能保證模型預測精度和準確性將會給市場上的多方主體帶來巨大損失。2017年由亞洲微軟研究院研發(fā)并開源的LightGBM算法是一個基于梯度決策樹的框架。作為集成學習技術框架下的新的分支LightGBM算法的提出主要為了解決XGBoost算法在運算時間和運算內存損耗上的弊端,兩種算法的核心思想以及理論支撐基本一致。LightGBM算法以決策樹為基礎、將GBDT作為核心并通過二階泰勒展開,利用直方圖算法、優(yōu)化葉子生長策略、直方圖差加速等方法改進GBDT,在數(shù)據和特征兩方面分別利用GOSS方法和EFB方法做了加速處理。LightGBM提出后在諸多應用中實現(xiàn)了高速、高準確率以及大規(guī)模數(shù)據處理的作用現(xiàn)已成為機器學習算法領域的應用熱點。下文將以LightGBM算法理論實現(xiàn)的邏輯順序梳理相關算法的理論支撐。
2.1? ? ? ? ?決策樹
決策樹形成的二叉樹結構可以作為多層的規(guī)則集合或者類空間和特定空間的條件概率分布,既可以用于分類任務也可以用于回歸任務,本文主要以決策樹二分類算法為基礎來討論。各個節(jié)點的排放順序決定決策樹的構建,有3種排放節(jié)點順序的策略包括:信息增益、增益比、基尼系數(shù),這3種策略決定了決策樹的劃分標準,一般選擇信息增益最大的屬性作為根節(jié)點并通過遞歸計算最優(yōu)的節(jié)點屬性便組成最優(yōu)決策樹。
信息增益? =? 樣本熵 - 所有測試屬性熵的合
其中,熵是指樣本集純度,理論上熵值越小樣本集純度越高,熵的計算公式如下所示
在上述公式中,pm為第m類樣本的占比。
信息熵指帶入測試的屬性對于樣本集純度的增益效果,即對樣本純度的提升效果。與熵值相反,信息熵則是越大越好。信息熵計算公式如下所示
在上式中,AW為滿足某個測試屬性的樣本集。
為避免過擬合并能夠在未知的測試集樣本中取得較好得效果,“剪枝”過程非常重要。決策樹中“剪枝”包括“預剪枝”和“后剪枝”,“預剪枝”是指在劃分節(jié)點之前計算,若該節(jié)點劃分不能實現(xiàn)泛化能力的提高則停止劃分;“后剪枝”是指生成決策樹后自下而上對非節(jié)點進行考察,若葉節(jié)點被子樹替代能夠提高泛化能力則將此葉節(jié)點替換為子樹。
2.2? ? ? ? 集成學習
集成學習(Ensemble Learning)是將若干個基學習器相結合最終實現(xiàn)超過單一學習器學習效果的目的。集成學習根據需要預測的樣本集生成若干基學習器,基學習器首先進行訓練得到各自的預測結果,之后按照集成策略將基學習器得到的結果進行結合,最后獲得最優(yōu)結果。當下,有兩種集成學習方法被廣泛使用:一種是裝袋算法(Bootstrap aggregating, Bagging)對訓練集抽取時采取有放回的方式,產生眾多子數(shù)據集,根據子數(shù)據集建立若干基學習器在互不干擾的條件下分別進行訓練得到訓練結果,利用簡單投票法或加權求和法結合基學習器產生的結果得到更為精確的數(shù)據。Bagging方法能夠將數(shù)據并行化處理,在隨機森林算法中有充分體現(xiàn)。另一種是提升算法(Boosting),Boosting方法建立一系列機制能夠將弱學習器提升為強學習器,體現(xiàn)一種整體思想。首先對完整數(shù)據集進行訓練得到一個弱學習器并獲取訓練誤差,更新數(shù)據權重,讓誤差數(shù)據在下一輪訓練中加強學習,經過反復學習迭代,訓練誤差將會逐漸降低,最終得到最為準確的訓練結果。GBDT、XGBoost算法、LightGBM算法均采用了Boosting算法。
2.3? ? ? ? GBDT
GBDT在提升樹(BDT)算法的每棵樹殘差疊加過程進行改進,向損失函數(shù)負梯度方向進行優(yōu)化,提升弱回歸樹最終形成強回歸樹。
設每顆決策樹有N個子葉,故每棵樹劃分了N個不相干的區(qū)域,分別為R1m,R2m,…R3m,并將Rnm的預測值確定為bnm。回歸樹可以用下方公式描述
在x∈Rnm時I(*)值為1,其他情況為0。
將改進模型的梯度下降步長設置為βm,則新的回歸樹公式為:
其中,L(y1,fm-1(x1))為梯度提升決策回歸樹的損失函數(shù),梯度下降的優(yōu)化條件是使損失函數(shù)最小化,利用回歸樹替換,上式可以轉化為:
2.4? ?LightGBM算法
在GBDT的基礎上LightGBM算法在很多方面做出了改進,除了在數(shù)據和特征兩方面提升了訓練速度,還利用二階泰勒展開式優(yōu)化了算法的目標函數(shù)將決策樹的復雜度作為正則項。
LightGBM算法為了使指定的損失函數(shù)L(y1,f(x))最小化,通過訓練找到f(x)的近似值f(x),其中f(x)又叫做優(yōu)化函數(shù),可以表示成
在LightGBM模型中集成K顆回歸樹來擬合最終的模型,這一過程可以表示為
模型中回歸樹用Mq(x),q∈{1,2,…,J}表示,M為葉子節(jié)點樣本權重向量,J為回歸樹中葉子個數(shù)。特別的,在生成第t顆樹時之前的(t-1)顆樹的信息均會被利用,因此經過t次迭代生成的目標函數(shù)將如下所示
在上式中,Ω(fm(x))為正則化項,目的式為讓模型在訓練數(shù)據時避免過擬合的現(xiàn)象。對目標函數(shù)進行二階泰勒展開,則展開后的目標函數(shù)可以表示為
在確定樹結構為q(x)后,相應的目標函數(shù)為
上式中為每個葉子節(jié)點的最優(yōu)權值得分,模型需要實現(xiàn)的最優(yōu)化問題是指將目標函數(shù)最小化,通過計算回歸樹葉子節(jié)點的分裂收益使分裂收益達到最大,并選擇收益最大的分裂特征,將這一過程持續(xù)迭代,直到滿足條件為止。分裂收益可以由下式表示
隨著機器學習所面對的問題日益復雜、數(shù)據逐漸龐大,特征維度不斷提高,LightGBM算法模型能夠深化訓練層次,通過使用直方圖算法、Leaf-wise葉子生長策略、直方圖加速算法來降低計算速度、減少算法復雜度、降低計算機內存使用最關鍵的是很大程度上提高了模型訓練的準確性。
3? ?研究設計
3.1? ?樣本選取
本文實驗數(shù)據均來源于國泰安數(shù)據庫,共選取777家中小上市公司2015~2019年的財務數(shù)據,其中被“ST”處理的企業(yè)為77家,正常企業(yè)為707家,符合實際市場情況。由于企業(yè)連續(xù)兩年出現(xiàn)虧損會被“ST”處理,即被認為企業(yè)出現(xiàn)財務困境,本文認為若企業(yè)在T年被“ST”處理一般此消息在T-1年的年報中就已經公布,所以選擇T-2年的財務數(shù)據進行財務困境預測建模更合理??紤]到企業(yè)應對財務危機存在時滯且模型結果容易出現(xiàn)過擬合,本文選擇利用T-2、T-3、T-4年的中小企業(yè)財務數(shù)據和非財務數(shù)據分別建模,其中非財務數(shù)據的選擇參考了王瑞芳[ 26 ]、楊青龍等[ 27 ]學者的研究成果選擇了企業(yè)管理類指標數(shù)據。為了減少實驗過程中可能會出現(xiàn)的異常情況,在數(shù)據集構建時根據以下標準對數(shù)據進行預篩選:
剔除銀行業(yè)、證券業(yè)等價格波動較大的公司;
剔除財務報表公布不完整的公司;
剔除因其他原因被ST處理的公司。
財務數(shù)據由60個反映中小企業(yè)的償債能力、發(fā)展能力、經營能力、每股指標、現(xiàn)金流和盈利能力的財務指標和4個反映中小企業(yè)股權信息指標構成,如下表1所示。在樣本的劃分上,將被“ST”處理的中小企業(yè)設定為存在財務困境的企業(yè),“非ST”的中小企業(yè)設定為正常公司,以數(shù)據集的70%作為訓練集,訓練分類模型,以30%作為測試集來檢驗模型的實際分類效果。
3.2? ?數(shù)據預處理
3.2.1? ?缺失值探索及插補
由于中小企業(yè)規(guī)模較小財務管理水平有限,從數(shù)據庫獲取的原始數(shù)據存在部分缺失現(xiàn)象,本文首先利用python對所獲取的中小企業(yè)64個財務指標進行缺失值探索,結果如下表2所示。
由上表可知共有25個特征不存在缺失值,但某些財務特征缺失值達78.14%,簡單刪除缺失值將會損失大量數(shù)據造成模型訓練效果不佳,故本文選擇對數(shù)據集缺失值進行插補。經過數(shù)據分布的抽樣檢驗結果如圖1所示,該數(shù)據集不服從正態(tài)分布所以無法利用平均值、眾數(shù)等簡單方法進行填補,本文使用的K-最近鄰(KNN)法通過相關性分析或歐氏距離確定與缺失值最近的K個樣本,通過對K個樣本值的加權平均來估計缺失值實現(xiàn)較好的插補效果。
3.2.2? ?異常值處理
由于中小企業(yè)財務管理水平有限或者人工統(tǒng)計數(shù)據時出現(xiàn)紕漏,所獲取的中小企業(yè)財務數(shù)據中存在不符合整體數(shù)據特征的情況,當數(shù)據集中包含大量異常值將會影響最終實驗結果。本文利用描述性統(tǒng)計對數(shù)據集中的異常值進行探索,結果如表3所示。
本文對財務數(shù)據的描述性統(tǒng)計包括平均值、最大值、最小值以及在1%、5%、10%...99%時的數(shù)據分布,根據描述性統(tǒng)計結果共有10個財務指標數(shù)據整體出現(xiàn)異常,部分數(shù)據出現(xiàn)嚴重的量綱不統(tǒng)一的現(xiàn)象例如Max最小的僅有2.79最大卻達到了12 212,某些數(shù)據在99%分布時占比為81.64出現(xiàn)了嚴重右偏,本文將10個整體異常的異常值刪除,并統(tǒng)一數(shù)據量綱。異常財務指標如表4所示。
3.2.3? ?非平衡數(shù)據的處理
現(xiàn)實中,“ST”處理的中小企業(yè)數(shù)量要遠遠小于正常企業(yè),所以收集的原始數(shù)據集高度不平衡,當使用非平衡數(shù)據訓練預測模型時便會出現(xiàn)分類器失真的現(xiàn)象。其中本文數(shù)據中正常樣本有707個但存在財務困境樣本有70個存在嚴重不平衡,經過綜合分析選擇利用抗噪性更強、更適用于本文數(shù)據的SMOTE算法來平衡數(shù)據集,SMOTE算法的核心思想是人工合成少數(shù)類實現(xiàn)數(shù)據樣本平衡。
3.2.4? ?特征選擇
為了選擇與中小企業(yè)發(fā)生財務困境關聯(lián)密切的財務特征,本文對所收集到的64個中小企業(yè)財務指標進行特征選擇。許多研究在進行特征選擇時方法較為單一,對預測模型效果有一定的影響,本文集成L1正則化(L1)、極限樹、隨機森林、特征選擇過濾器(f_classif)、XGBoost五種特征選擇方法構建特征選擇評分模型。
本文所選擇構建特征選擇集成模型的5種特征選擇算法涵蓋了兩大主流特征選擇方法:單變量特征選擇和Embedding特征選擇法。其中f_classif代表了單變量特征選擇主要解決分類任務的特征選擇需要,保留評分最高的K個特征;L1特征選擇與極限樹特征選擇屬于Embedding特征選擇法這一類,通過設置懲罰項得到稀疏解從而實現(xiàn)降維的目的并且可以根據重要性對所選特征進行打分,其中極限樹又叫做極端隨機數(shù),與隨機森林采用的Bagging模型不同,極限樹采用的是所有樣本并且完全隨機地得到分叉值,因為分裂過程是隨機的所以特征選擇也是隨機進行的。這樣的特性使得極限樹在某種程度上能夠取得比隨機森林更好更全面的結果;基于隨機森林和XGBoost算法建立的特征選擇模型將機器學習算法中的打分機制引入特征選擇,逐漸成為主流方法。本文通過集成這5種特征選擇方法最終從64個財務指標中篩選出14個實驗特征,特征選擇評分模型流程圖如圖2所示。
根據構建的特征選擇評分模型,5種特征選擇方法分別按照對財務困境預測的重要性進行排序,其中L1特征選擇篩選出19個財務指標,隨機森林特征選擇篩選出15個財務指標,極限樹特征選擇篩選出19個財務指標,f_classif特征選擇篩選出24個財務指標,XGBoost特征選擇篩選出18個財務指標,在評分模型中當財務指標被1種特征選擇方法選中時計1分,評分達到3分或3分以上的財務指標作為最終的訓練特征。各種方法及評分模型最終篩選出的財務指標如表5、表6所示。
在5種特征選擇方法中,極限樹算法不僅可以挑選出關鍵特征還能生成所有特征對于企業(yè)財務困境預測重要性排序有助于深入分析企業(yè)財務特征與非財務特征對中小企業(yè)財務困境預測的影響程度。生成的結果如表7所示。
由上表展示的結果可知代表中小上市公司發(fā)展能力的財務指標在財務困境預測中的占據十分重要的地位。重要性排在前十位的指標分別是總資產增長率、每股留存收益、資產報酬率、流動資產凈利潤率、總資產凈利潤率、每股未分配利潤、凈資產收益率、營業(yè)利潤率、可持續(xù)增長率、權益乘數(shù)。本文認為特征重要性排序可以作為特征選擇集成模型結果的有效補充并增添機器學習算法的可解釋性。無論是最終選擇的實驗特征還是特征重要性排序,本文發(fā)現(xiàn)非財務指標對財務困境預測的影響較小,建立模型時還是以財務指標數(shù)據作為最終實驗數(shù)據。
3.3? ?評價指標
為了辨別LightGBM集成學習模型的分類效果以及與其他分類器相比是否更優(yōu),本文引入6種評價指標,分別為準確率、精準率、召回率、f1_score、AUC(Area Under the Curve)和ROC曲線(Receiver Operating characteristic Curve)。首先,我們根據樣本真實的類別和模型預測類別的組合形成4類,分別為TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例)。很明顯將這4類所包含的樣本相加就是完整的數(shù)據集,分類結果的混淆矩陣如表8所示。
3.3.1? ?準確率
準確率(accuarcy)正確分類的樣本占總樣本的比率即正確分類的概率,是判斷分類模型分類效果最直觀的評價指標,計算公式為
準確率的判斷受數(shù)據是否平衡的影響較大,當數(shù)據非平衡時,準確率會出現(xiàn)虛高的情況,需要預先處理非平衡數(shù)據以及與其他評價指標相結合。
3.3.2? ?精準率、召回率與f1_score
精準率(precision)又稱作查準率,表示在分類器判別為正例的樣本中有多少是真正的正例。精準率公式如下所示
召回率(recall)又稱作查全率,表示樣本的所有正例中有多少被準確的分辨出來。召回率公式如下所示
精準率與召回率是一對相互矛盾的概念,當精準率高時召回率便低,所以在實際情況下在不同的領域側重于不同的指標,例如在傳染病例辨別中需要100%將病例辨別出來這就需要較高的召回率。為了調和精準率與召回率產生的結果,本文引入f_score評價指標。f_score又稱作平衡F分數(shù),是精準率與召回率的調和平均數(shù),公式如下所示
3.3.3? ?AUC值與ROC曲線
ROC曲線是受試者工作特征曲線的簡稱,以真陽率(TPR)為縱坐標,假陽率(FPR)為橫坐標的感受性曲線。ROC曲線之所以被廣泛應用是因為不同于傳統(tǒng)二分類的評價方式在ROC曲線上可以反映更多模糊的中間狀態(tài),適應范圍更廣泛。
如果一個分類器的ROC曲線將另一個分類器的ROC曲線包裹住,則說明前者的分類效果更出色。但是,如果兩個分類器的ROC曲線相交則無法通過曲線圖來分辨效果,因此本文引入表示ROC曲線下方面積的AUC值,設ROC曲線是由眾多點連接而成,點的坐標分別為{(x1,y1),(x2,y2),…,(xn,yn)},則
AUC值越高說明模型分類效果越好。
3.4? ?實驗結果及分析
本文通過代碼實現(xiàn)建立了LightGBM集成學習模型,通過對訓練集的學習來訓練模型,再利用測試集檢驗模型的分類效果,最終T年基于LightGBM算法財務困境預測模型的準確率達到95.0877%,實驗結果與真實值之間的均方誤差為0.233 2,并獲得LightGBM最終的ROC曲線和AUC值,LightGBM模型ROC曲線和AUC值如圖3所示。
為了驗證基于LightGBM算法的財務困境分類模型的實際分類效果,基于T年的數(shù)據利用對邏輯回歸、支持向量機、決策樹等機器學習模型以及XGBoost集成學習模型進行訓練和測試,在本文所選的對比算法中邏輯回歸與支持向量機是典型的線性分類器,主要處理二分類問題。其中邏輯回歸不僅能夠處理大規(guī)模數(shù)據實現(xiàn)分類還能夠生成具有定性作用的連續(xù)型數(shù)值,而支持向量機在運算速度和運算準確性上遠高于邏輯回歸。決策樹算法是典型的非線性分類器能夠完成多分類任務,并且能夠處理相關性不高的數(shù)據,通過剪枝操作能夠使決策樹模型更具有靈活性在準確性的提高上和適應數(shù)據范圍上有了進一步的發(fā)展。XGBoost不同于以上4種機器學習方法而是屬于集成學習范疇并且在集成學習中占據重要地位,作為一種優(yōu)化分布式梯度增強庫在實現(xiàn)過程中表現(xiàn)出更高效、更便捷、更靈活等特點,是一種新穎的處理稀松數(shù)據的樹學習算法。實驗結果如表9所示。
T年財務數(shù)據建立的所有模型訓練集的效果要優(yōu)于測試集,集成學習模型的分類預測效果整體好于機器學習模型。在機器學習模型中,決策樹模型在訓練集上的效果最好,召回率達到0.999 6,AUC值達到0.999 5,接近于完全正確分類,但是在測試集上結果卻不理想,AUC值僅0.754 3;支持向量機模型和邏輯回歸模型在測試集上都展現(xiàn)出良好的分類效果,AUC值分別為0.959 4和0.941 5;在集成學習模型的對比中,無論在訓練集還是在測試集上LightGBM都表現(xiàn)出出眾的的分類效果,各種分類評價指標略高于另一個集成學習算法XGBoost,其中在測試集上AUC值達到0.975 8是所有分類預測模型中最高的,并且LightGBM集成學習模型所花費的時間更短,分類預測效率更高。
為了更直觀的對比不同分類預測模型的效果,本文還在實驗中實現(xiàn)了各種模型的ROC曲線圖,如圖4~8所示。
由以上每種分類模型的ROC曲線圖可以看出,比起機器學習分類模型,XGBoost和LightGBM集成分類模型的ROC曲線更凸向左上方,而LightGBM模型的ROC曲線將XGBoost包裹住,說明LightGBM集成學習模型的分類效果是最好的。
為了檢驗不同年份的財務數(shù)據對識別中小企業(yè)財務困境的效果產生的影響,本文利用T-2、T-3、T-4年的數(shù)據對邏輯回歸、支持向量機、決策樹等機器學習模型以及XGBoost、LightGBM集成學習模型進行訓練和測試,對比結果如下表10~12所示。
通過對表10~12所示的實驗結果比較可知距離T年越近的財務數(shù)據反映中小企業(yè)財務問題就越明顯劃分預測中小企業(yè)是否出現(xiàn)財務困境的準確性就越高。無論是機器學習算法還是集成算法訓練集正確率要高于測試集,這是符合理論邏輯的,經過結果對比可以發(fā)現(xiàn)在機器學習算法中支持向量機和決策樹的分類效果要優(yōu)于邏輯回歸,而支持向量機與決策樹在不同的評價指標下表現(xiàn)各異。在集成學習算法中,XGBoost與LightGBM在訓練集上均表現(xiàn)出完美的分類效果,在測試集上基于LightGBM算法建立的中小企業(yè)財務困境預測模型要明顯優(yōu)于基于XGBoost算法建立的模型,在T-2年LightGBM算法實現(xiàn)了高達0.968 8的AUC值。
4? ?結論與展望
本文從國泰安數(shù)據庫獲取777家中小上市公司的財務指標數(shù)據和非財務數(shù)據作為原始數(shù)據,并將原始非平衡數(shù)據進行平衡化處理,利用L1、隨機森林、極限樹、f_classif、XGBoost等5種特征選擇構建特征選擇評分模型,從64個財務指標中篩選出14個作為本文的實驗特征組成更加緊湊、更高密度的數(shù)據集使得訓練后的模型預測效果更好。本文首次將LightGBM集成學習模型在中小企業(yè)財務困境預測上應用,并將經過預處理的數(shù)據以7:3的比例劃分訓練集與測試集,利用訓練集訓練模型,測試集檢驗最終結果,最終結果顯示LightGBM集成學習模型測試集上的準確率達到95.087 7%,AUC值達到97.58%。在與不同的分類模型分類效果的比較中,集成學習模型的分類效果要優(yōu)于簡單的機器學習模型,在眾多的集成學習模型中,LightGBM的分類效果最好。
中小企業(yè)在我國國民經濟中占據重要地位,為我國稅收和就業(yè)貢獻巨大力量,對中小企業(yè)財務困境預測現(xiàn)在和未來都將會是會計與金融領域的熱點問題,中小企業(yè)的財務困境的預測對金融機構和監(jiān)管機構都非常重要。本文通過特征選擇集成評分模型篩選實驗特征并對所選中小上市公司各類指標重要性進行排序發(fā)現(xiàn)代表企業(yè)發(fā)展能力的財務指標對是否出現(xiàn)財務困境問題的影響較大,據此實驗結果為提高我國中小上市公司綜合發(fā)展能力提出幾點建議:
首先為提高中小上市公司的可持續(xù)發(fā)展能力在不同的生命周期應該關注的焦點各不相同[ 28 ]。在企業(yè)初始創(chuàng)立時期整體較為脆弱,應該關注企業(yè)所處行業(yè)環(huán)境、政府的政策支持、初創(chuàng)產品的優(yōu)勢以及企業(yè)自身的技術條件;當企業(yè)進入成長期便應該追求外部大量的資金支持其擴大再生產、內部嚴謹?shù)慕M織結構配合企業(yè)的進一步發(fā)展;在企業(yè)步入成熟期后需要將各方面的條件協(xié)調起來共同發(fā)揮作用,包括經營規(guī)范、管理制度、組織結構和人力資源等;如果企業(yè)出現(xiàn)財務困境轉而進入衰退期則需要在技術創(chuàng)新和企業(yè)轉型上投入大量精力并利用企業(yè)文化激發(fā)內部二次創(chuàng)業(yè)的激情。
其次為提高中小上市公司的創(chuàng)新發(fā)展能力應該增加對以下六個方面的關注[ 29 ]:以國家政策方向作為企業(yè)發(fā)展大方向,把握國家的政策優(yōu)勢;依托國家新基建發(fā)展力量,實現(xiàn)企業(yè)轉型;提高金融體系的創(chuàng)新力度,降低金融與實體之間資金對接壁壘;將內部管理流程責任制分配,實現(xiàn)企業(yè)內部組織模式優(yōu)化;結合中小上市公司“小規(guī)模、輕資產”的特點形成供應鏈多方合作機制;營造企業(yè)創(chuàng)新發(fā)展的健康生態(tài),實現(xiàn)發(fā)展模式創(chuàng)新。
本文通過對數(shù)據預處理、特征選擇以及集成學習模型的探討提出以下幾點展望:
第一,由于中國的中小上市公司所有權結構和治理結構的特殊性,導致數(shù)據有一定的限制性,而且金融數(shù)據的非平衡性是普遍現(xiàn)象,未來可以拓寬中小上市公司的數(shù)據類型,并進一步探索非平衡數(shù)據的處理。第二,在模型訓練過程中不同類型的誤差將會造成不同的損失,可以給誤差“不等成本”計算“成本敏感”,嘗試引入假設檢驗、交叉驗證t檢驗和McNemar檢驗來比較在泛化功能上是否將優(yōu)于其他分類器。第三,本文提出的特征選擇評分模型以及LightGBM集成學習模型可以嘗試應用于深度學習領域,并試驗性地探索和解釋模型的“黑箱”特性。
參考文獻:
[1] 馮海波,陸倩倩.對中小企業(yè)減稅可以提高其吸納就業(yè)能力嗎——基于中小板上市公司數(shù)據的分析[J].稅務研究,2020(10):21-28.
[2] 國家統(tǒng)計局.我國企業(yè)信息化水平持續(xù)提升——第四次全國經濟普查系列報告之四[EB/OL].(2019-12-05)[2021-2-8].http://www.stats.gov.cn/tjsj/zxfb/201912/t20191205_1715468.html.
[3] 陽友明.對中小企業(yè)財務風險預警體系構建研究[J].財會學習,2017(7):61.
[4] Beaver W H, Financial ratios as predictors of failure[J]. Journal of Accounting Research, 1966(4): 71-111.
[5] Carmichael D R. The auditors reporting obligation: The meaning and implementation of the fourth standard of reporting[J]. Audit Res Monogr, 1972(2): 94.
[6] 吳世農,盧賢義.我國上市公司財務困境的預測模型研究[J].經濟研究,2001(6):46-55.
[7] 張金昌,王大偉.財務困境預警:概念界定與理論辨析[J].財經論叢,2020(12):61-69.
[8] Dreiseitl S, Ohno-Machado Lucila. Logistic regression and artificial neural network classification models: A methodology review[J]. Journal of Biomedical Informatics, 2002, 35(5)352-359.
[9] Huh J, Park Jong hun, Shin Dong min, et al. A hierarchical svm based behavior inference of human operators using a hybrid sequence kernel[J]. Sustainability, 2019, 11(18): 4 836.
[10] 方匡南,楊陽.SGL-SVM方法研究及其在財務困境預測中的應用[J].統(tǒng)計研究,2018,35(8):104-115.
[11] Mehdipour V,Memarianfard M. Application of support vector machine and gene expression programming on tropospheric ozone prognosticating for tehran metropolitan[J]. Civil Engineering Journal,2017,3(8): 557.
[12] Odom M D, Sharda R. A neural network model for bankruptcy prediction[J].International Joint Conference on Neural Networks, 1990(2): 163-168.
[13] Sung T K, Chang Namsik, Gunhee Lee. Dynamics of modeling in data mining: Interpretive approach to bankruptcy prediction[J/OL].Dynamics of Modeling in Data Mining: Interpretive Approach to Bankruptcy Prediction,1999,16(1): 63-85.
[14] Tsai C F,Hsu Y F,Yen David C. A comparative study of classifier ensembles for bankruptcy prediction[J]. Applied Soft Computing,2014(24): 977-984.
[15] Zhu Y, Zhou L, Xie C, et al. Forecasting SMEscredit risk in supply chain finance with an enhanced hybrid ensemble machine learning approach[J]. Prod Econ,2019(211): 22-33.
[16] Dietterich T G. Ensemble methods in machine learning[J]. International Workshop on Multiple Classifier Systems, 2000(1):1-2.
[17] Jiang M R, Jia L F, Chen Z S, et al. The two-stage machine learning ensemble models for stock price prediction by combining mode decomposition, extreme learning machine and improved harmony search algorithm[J]. Annals of Operations Research, 2020.
[18] Zhao Y, Li J P, Yu L. A deep learning ensemble approach for crude oil price forecasting[J].Energy Economics, 2017(66): 9-16.
[19] Minastireanu E A.Light GBM Machine Learning Algorithm to Online Click Fraud Detection[J]. Journal of Information Assurance & Cybersecurity. 2019:263928.
[20] Sun P C. Research on credit rating model of P2P project based on LightGBM algorithms[C].Proceedings of 2019 6th International Conference on Machinery, Mechanics, Materials, and Computer Engineering. Huhhot: Francis Academic Press, 2019: 345-348.
[21] 馬曉君,沙靖嵐,牛雪琪.基于LightGBM算法的P2P項目信用評級模型的設計及應用[J].數(shù)量經濟技術經濟研究,2018,35(5):144-160.
[22] Yadkikar P R. GPU based malware prediction using LightGBM and XGBoost[D]. California: California State University, 2020.
[23] 顧桐,許國良,李萬林,等. 基于集成LightGBM和貝葉斯優(yōu)化策略的房價智能評估模型[J].計算機應用,2020,40(9):2 762-2 767.
[24] 葉志宇,馮愛民,高航.基于深度LightGBM集成學習模型的谷歌商店顧客購買力預測[J]. 計算機應用,2019,39(12):3 434-3 439.
[25] Soo Y K. Predicting hospitality financial distress with ensemble models: The case of US hotels, restaurants, and amusement and recreation[J].Serv Bus,2018(12): 483-503.
[26] 王瑞芳.基于Lasso-logistic和XGBoost的上市公司財務困境預測[D].武漢:中南財經政法大學,2019.
[27] 楊青龍,田曉春,胡佩媛.基于LASSO方法的企業(yè)財務困境預測[J].統(tǒng)計與決策,2016(23):170-173.
[28] 張小紅.生命周期視角下中小企業(yè)可持續(xù)發(fā)展能力評價研究[J].管理觀察,2019,(28):15-16.
[29] 李波,林詩敏,洪露,等.提升科技型中小企業(yè)創(chuàng)新發(fā)展能力[N].貴州日報,2020-05-13(010).
[責任編輯:鄭筆耕]