童潔 蔣紅艷
摘?要:?財務(wù)舞弊不僅損害了投資者信心,也對資本市場產(chǎn)生極大影響。為預(yù)測企業(yè)的財務(wù)舞弊行為,文章選取2016-2020未發(fā)生舞弊行為與首次發(fā)生舞弊行為的企業(yè)作為研究對象,依據(jù)Python機器學(xué)習(xí)算法建立決策樹、支持向量機、神經(jīng)網(wǎng)絡(luò)及邏輯回歸模型,基于舞弊三因素理論選取44個指標(biāo)預(yù)測企業(yè)財務(wù)舞弊行為,并通過SHAP可解釋性工具重點關(guān)注單個指標(biāo)變化對財務(wù)舞弊預(yù)測的重要性程度,同時分析財務(wù)指標(biāo)以及非財務(wù)指標(biāo)對預(yù)測財務(wù)舞弊的相互作用、預(yù)測錯誤的樣本查看的影響。研究結(jié)果表明支持向量機對于預(yù)測舞弊效果最優(yōu),邏輯回歸在模型的精確度表現(xiàn)最佳。
關(guān)鍵詞:?財務(wù)舞弊;?機器學(xué)習(xí);?預(yù)測;?可解釋性分析
中圖分類號:F275;F406.7?文獻(xiàn)標(biāo)識碼:A??文章編號:1005-6432(2023)11-0000-04
[DOI]10.13939/j.cnki.zgsc.2023.11.000
1??引言
近些年來,部分上市公司出于維持股價、避免退市等動機,存在虛構(gòu)資產(chǎn)、虛構(gòu)利潤等財務(wù)舞弊行為,給投資者們造成了巨大的損失,也對資本市場的穩(wěn)定產(chǎn)生影響[1]。由于審計機構(gòu)的獨立性有限[2],僅依靠審計意見無法有效預(yù)測企業(yè)的財務(wù)舞弊行為,故而如何有效識別出企業(yè)財務(wù)舞弊行為,是一直存在的亟待解決的難題。
隨著大數(shù)據(jù)和人工智能的興起,機器學(xué)習(xí)在模擬對象具體特征、處理復(fù)雜及大量的數(shù)據(jù)時具有優(yōu)越性,通過對大數(shù)據(jù)進(jìn)行多維度統(tǒng)計分析,剔除干擾信息,可得到預(yù)測準(zhǔn)確率較高的結(jié)果。所以,利用機器學(xué)習(xí)方法對財務(wù)舞弊因素進(jìn)行研究具有一定的優(yōu)勢。
本文的創(chuàng)新之處:一是本文根據(jù)舞弊理論,選取預(yù)測指標(biāo)共44個,涵蓋財務(wù)指標(biāo)和非財務(wù)指標(biāo),相比以往研究更全面;二是在決策樹模型中,除使用網(wǎng)格搜索外,還編制程序自行改變樹深參數(shù)進(jìn)行訓(xùn)練;三是可解釋性分析全面嚴(yán)謹(jǐn),使用多個可解釋性工具進(jìn)行分析,其結(jié)論均可互相驗證和補充。
2??模型與算法
2.1支持向量機
支持向量機是一種廣義線性分類器[3],應(yīng)用于解決復(fù)雜的回歸和分類問題,以間隔最大化為原則,將線性不可分?jǐn)?shù)據(jù)擴展到多維空間中,并運用超平面進(jìn)行劃分,尋找全局最優(yōu)解,增強模型的泛化能力,從而解決對小樣本、非線性的統(tǒng)計預(yù)測。
若利用支持向量機進(jìn)行財務(wù)舞弊識別,首先要找到舞弊和非舞弊的樣本點中離這個超平面最近的點,并使這個點到超平面的距離最大化,從而區(qū)分出舞弊樣本和非舞弊樣本,確定的這個超平面也就可以作為判斷樣本是否舞弊了的分類器[4]。
其中,Q為最優(yōu)化目標(biāo)值;W為權(quán)重系數(shù)。
最后通過Lagrangian函數(shù),轉(zhuǎn)化為對偶形式,以求取最優(yōu)超平面,設(shè),
為拉格朗日因子;
為核函數(shù),包括以線性核函數(shù)、多項式核函數(shù)、RBF核函數(shù)等[5],得到回歸函數(shù)如下:
2.2邏輯回歸
邏輯回歸作為比較常用的機器學(xué)習(xí)方法,屬于廣義回歸模型。邏輯回歸模型的因變量為二分類變量[6],利用已有訓(xùn)練集樣本數(shù)據(jù)進(jìn)行模型擬合,利用所得模型對測試集進(jìn)行預(yù)測,公式如下:
2.3決策樹
決策樹由結(jié)點和有向邊構(gòu)成,是一種以樹狀結(jié)構(gòu)進(jìn)行表達(dá)的預(yù)測模型[7]。決策樹從根節(jié)點開始在不同屬性空間進(jìn)行最優(yōu)屬性選擇,以此分裂不同的分支并繼續(xù)在屬性空間中進(jìn)行最優(yōu)屬性選擇,直至屬性分純。其中,C5.0以信息熵的下降速度作為確定最佳分支變量和分割閥值的依據(jù)。
2.4神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是經(jīng)典的機器學(xué)習(xí)算法,根據(jù)給定的訓(xùn)練樣本,不斷將誤差項作為反饋信號進(jìn)行多層次的算法訓(xùn)練,調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)。神經(jīng)網(wǎng)絡(luò)主要包含輸入層、隱含層和輸出層三層,不同層之間的神經(jīng)元可以利用通道進(jìn)行信息傳輸[8]。本文將個財務(wù)指標(biāo)的樣本數(shù)據(jù)作為輸入層,將是否舞弊作為輸出層。
2.5SHAP模型
除去模型自身特征重要度衡量指標(biāo),SHAP模型也可反映某個特征對整體模型和結(jié)果的貢獻(xiàn)程度。計算某個特征(指標(biāo))的歸因值(shap?value),將模型的預(yù)測值解釋為每個輸入特征的歸因值之和,使其輸出結(jié)果具有可加一致性[9]。
對于每一個預(yù)測樣本,模型輸出預(yù)測值,shap?value為該樣本中每個特征(指標(biāo))分配到的數(shù)值[10]。
其中表示樣本的shap?value,使用這種方法既可以確保貢獻(xiàn)值加和為最終預(yù)測結(jié)果,也能消除模型間結(jié)構(gòu)性差異帶來的可解釋性差異。如果某指標(biāo)在大多數(shù)樣本上表現(xiàn)出了一致的趨勢,那么說明模型認(rèn)定這一指標(biāo)具有重要的正向或者負(fù)向作用。
3??數(shù)據(jù)及變量選擇
3.1樣本數(shù)據(jù)選取
本文預(yù)選取從2016-2020年發(fā)生財務(wù)舞弊的樣本進(jìn)行研究,依據(jù)國泰安CSMAR數(shù)據(jù)庫,根據(jù)違規(guī)類型篩選出“虛構(gòu)利潤、虛假記載、虛列資產(chǎn)、重大遺漏、披露不實”五大類型舞弊公司樣本共288個。由于需要獲取樣本對應(yīng)的數(shù)據(jù)資料,我們選取首次舞弊年份作為樣本的研究年份;且為了統(tǒng)一樣本股票類型,篩后保留A股主板樣本共205個。
本文根據(jù)《中國上市公司質(zhì)量評價報告》選取非舞弊公司樣本,將報告中公司進(jìn)行違規(guī)處理篩選,選取在2016-2020年間非舞弊樣本共205個。
根據(jù)選取的樣本進(jìn)行樣本清洗并收集數(shù)據(jù),因退市或未核算等原因,不同指標(biāo)均含有缺失值,由于同一指標(biāo)的缺失值數(shù)量較少且是面板數(shù)據(jù),本文利用刪除指標(biāo)缺失值對應(yīng)樣本的方式進(jìn)行樣本刪除。經(jīng)整理,選取262個樣本,包括舞弊樣本124個,非舞弊樣本138個。
由于選擇的指標(biāo)存在正向指標(biāo)和逆向指標(biāo),故而對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,具體方法如下:
3.2變量選擇
根據(jù)舞弊三因素理論,企業(yè)財務(wù)舞弊的發(fā)生需要滿足三個前提,分別是舞弊機會、舞弊壓力以及舞弊借口[11]。舞弊機會主要是指企業(yè)的內(nèi)部制度存在漏洞或其他原因允許企業(yè)進(jìn)行財務(wù)舞弊。舞弊壓力是指當(dāng)企業(yè)面對較大的破產(chǎn)風(fēng)險或其他財務(wù)風(fēng)險承受的壓力。舞弊借口是指企業(yè)認(rèn)為財務(wù)舞弊行為不易被發(fā)現(xiàn)且在下一年的財務(wù)報表可以調(diào)整今年財務(wù)舞弊帶來的影響。根據(jù)三因素主要選擇以下財務(wù)指標(biāo)以及非財務(wù)指標(biāo)。
進(jìn)行財務(wù)指標(biāo)數(shù)據(jù)與非財務(wù)指標(biāo)數(shù)據(jù)收集時,利用wind金融終端和國泰安CSMAR數(shù)據(jù)庫獲取各樣本指標(biāo)數(shù)值,并利用Python軟件對數(shù)據(jù)進(jìn)行整理和指標(biāo)計算。
選取財務(wù)指標(biāo):流動比率、資產(chǎn)負(fù)債率、利息保障倍數(shù)、年化總資產(chǎn)凈利率、營業(yè)成本率、凈利率、管理費用增長率、總資產(chǎn)增長率、可持續(xù)增長率、營業(yè)收入增長率、存貨周轉(zhuǎn)率、應(yīng)收賬款周轉(zhuǎn)率、總資產(chǎn)周轉(zhuǎn)率、經(jīng)營杠桿、財務(wù)杠桿、綜合杠桿、全部現(xiàn)金回收率、營業(yè)收入現(xiàn)金含量、托賓Q值、賬面市值、破產(chǎn)風(fēng)險(Z值)、避免退市或者ST和資產(chǎn)減值準(zhǔn)備增長率/
選取非財務(wù)指標(biāo):董事長與總經(jīng)理兼任情況、董事人數(shù)、獨立董事比例、監(jiān)事人數(shù)、高管前3名薪酬總額、第一大股東控制度、股權(quán)集中度、總資產(chǎn)凈利潤率行業(yè)比值、銷售費用率行業(yè)比值、營業(yè)外收入占比行業(yè)比值、資產(chǎn)負(fù)債率行業(yè)比值、營業(yè)收入增長率行業(yè)比值、審計意見類型、審計師規(guī)模、會計事務(wù)所變更次數(shù)、交易方關(guān)聯(lián)程度、總資產(chǎn)周轉(zhuǎn)率前年比值、總資產(chǎn)凈利潤率前年比值、銷售費用率前年比值、營業(yè)收入現(xiàn)金含量前年比。
數(shù)據(jù)預(yù)處理:由于本文選擇的指標(biāo)數(shù)量較多,為提升模型擬合效果,在建立模型前對變量進(jìn)行低方差過濾,過濾掉差異小的變量。同時為了避免不同變量的量綱差異對模型預(yù)測產(chǎn)生影響,進(jìn)行了特征標(biāo)準(zhǔn)化處理。上述處理完成后進(jìn)行了降維處理,減少指標(biāo)數(shù)量。
4??實證分析
4.1模型識別及效果分析
在特征標(biāo)準(zhǔn)化及降維至20維的數(shù)據(jù)處理方法下,神經(jīng)網(wǎng)絡(luò)及支持向量機模型準(zhǔn)確率均分別達(dá)到最大值83.02%及86.79%;決策樹以及邏輯回歸模型在特征標(biāo)準(zhǔn)化的處理方法下,準(zhǔn)確率分別達(dá)到最大值67.92%及86.79%。在特征標(biāo)準(zhǔn)化處理下,除決策樹模型外,剩余三種模型的準(zhǔn)確率均得到大幅提升。且數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,降維至20維的數(shù)據(jù)在所有模型中準(zhǔn)確率最高。
由圖1不同模型的分類結(jié)果對比圖得,除決策樹模型外,其余模型的準(zhǔn)確率均達(dá)到87%以上。邏輯回歸的精確率最高,支持向量機的召回率與F1分?jǐn)?shù)最高。
由圖2不同深度的決策樹效果對比得,深度為9層的決策樹模型識別效果最好,準(zhǔn)確率、精確率、F1分?jǐn)?shù)均達(dá)到最大值。深度為5層的決策樹模型的召回率最大。隨著決策樹層數(shù)的增多,四項模型性能參數(shù)均出現(xiàn)先減小后增至最高點,再減小的趨勢。
4.2決策樹結(jié)果討論
根據(jù)最佳樹深和降維選擇,生成決策樹部分規(guī)則如下:
第一,高管前3名薪酬總額小于等于4394700元且總資產(chǎn)凈利率小于等于8.577的上市公司更容易發(fā)生舞弊行為。
第二,高管前3名薪酬總額小于等于4394700元、總資產(chǎn)凈利率大于8.577且交易方關(guān)聯(lián)度小于等于0.002的上市公司更容易發(fā)生舞弊行為。
第三,高管前3名薪酬總額大于4394700元且全部現(xiàn)金回收率小于等于0.032的上市公司更容易發(fā)生舞弊行為。
以上規(guī)則是C5.0決策樹經(jīng)過迭代結(jié)果后,最終選擇出來的規(guī)則。通過以上規(guī)則發(fā)現(xiàn)影響變量的重要性因素分別有“總資產(chǎn)周轉(zhuǎn)率”、“高管前3名薪酬總額”、“全部現(xiàn)金回收率”等。
4.3可解釋性分析
由圖3特征排列重要性圖得,企業(yè)的年化總資產(chǎn)凈利率、高管前3名薪酬總額對企業(yè)是否舞弊最為重要,營業(yè)收入增長率、經(jīng)營杠桿以及資產(chǎn)負(fù)債率行業(yè)比值的影響次之,賬面市值比、總資產(chǎn)凈利潤率行業(yè)比值等因素對企業(yè)舞弊行為的發(fā)生存在一定影響,但影響較小。財務(wù)杠桿以及總資產(chǎn)周轉(zhuǎn)率等因素對預(yù)測企業(yè)是否舞弊貢獻(xiàn)度低。
如圖4所有樣本按照相似性排列的summary?plot所示,從相似性角度分析,相似的非舞弊公司共同具體的特征為高管前3名薪酬總額較低、全部現(xiàn)金回收率較低;相似的舞弊公司共同具體的特征為年化總資產(chǎn)凈利率較大、營業(yè)收入現(xiàn)金含量前年比較高。
由圖5發(fā)生財務(wù)舞弊樣本的force?plot圖得,樣本企業(yè)發(fā)生舞弊概率低于基準(zhǔn)線,發(fā)生舞弊的概率為低風(fēng)險。樣本企業(yè)的年化總資產(chǎn)凈利率、高管前3名薪酬總額以及賬面市值比對發(fā)生舞弊行為均具有負(fù)向貢獻(xiàn),三者的負(fù)向影響程度依次遞減。
5??結(jié)論
本研究得出以下結(jié)論:支持向量機與神經(jīng)網(wǎng)絡(luò)、決策樹以及邏輯回歸相比,財務(wù)舞弊的預(yù)測效果最好。采用邏輯回歸模型預(yù)測時,模型的精確度最高;采用支持向量機預(yù)測時,模型的召回率以及F1分?jǐn)?shù)最高。隨著決策樹深度的增加,模型的預(yù)測效果先升后降;且在不同深度的決策樹模型中,財務(wù)舞弊的預(yù)測效果在深度為9的模型中最佳。
其次,總資產(chǎn)凈利率、股權(quán)集中度以及高管前三名薪酬總額等指標(biāo)對預(yù)測財務(wù)舞弊十分重要,應(yīng)當(dāng)重點關(guān)注。其中,高管前三名薪酬總額、交易方關(guān)聯(lián)度與企業(yè)發(fā)生財務(wù)舞弊的可能性存在負(fù)相關(guān)關(guān)系。總資產(chǎn)凈利率與企業(yè)發(fā)生財務(wù)舞弊的可能性主要存在正相關(guān)關(guān)系。
根據(jù)以上結(jié)論得出以下建議:完善企業(yè)內(nèi)部控制制度,保證董事以及監(jiān)事數(shù)量,落實其監(jiān)督責(zé)任。采用股權(quán)激勵等多種薪酬激勵方式,提升管理層積極性。建立風(fēng)險預(yù)警制度,及時識別經(jīng)營風(fēng)險;同時企業(yè)內(nèi)外部的監(jiān)管者應(yīng)當(dāng)加強對企業(yè)的監(jiān)督以及處罰措施,對于發(fā)生了財務(wù)舞弊的公司要監(jiān)督其進(jìn)行整改。審計人員應(yīng)當(dāng)建立完備的審計程序,針對容易發(fā)生舞弊的項目應(yīng)當(dāng)要重點審查。
參考文獻(xiàn)
[作者簡介]童潔,女,安徽安慶人,研究方向:?統(tǒng)計分析、機器學(xué)習(xí);蔣紅艷,女,湖南衡陽人,研究方向:財務(wù)會計。