• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      機器學習對上市公司年報錯報的識別研究
      ——財務重述預測的視角

      2022-03-15 09:29:32曾慶超許諾
      中國注冊會計師 2022年2期
      關鍵詞:錯報年報盈余

      | 曾慶超 許諾

      一、引言

      財務報告作為上市公司對外披露信息的主要載體,是投資者獲得公司信息的重要途徑,也是審計師出具審計意見的重要參考。錯報導致的財務重述,是自愿或被審計師及監(jiān)管者責令進行修正的一種事后補救行為;造成嚴重負面影響的財務重述主要是由于收入確認不恰當、成本費用不真實等原因所導致的,這些行為本身就是實現(xiàn)盈余管理目標而運用的具體方式,反映了上市公司前期發(fā)布的盈余信息不真實,存在誤導投資者決策的錯誤。根據(jù)美國會計總署(GAO)的研究報告,在1997到2002年間,由于企業(yè)發(fā)布關于盈余的重述公告,給投資者造成了1千億美元的損失。錯報導致的重述不僅使財務報告的可靠性受到質(zhì)疑,損害了投資者的利益,也意味著以前年度財報是低質(zhì)量的,從而加大注冊會計師審計當期財報的風險。之前研究表明,在財務重述的樣本中,調(diào)減盈余的樣本占到了七成左右;因錯報導致的重述表明會計系統(tǒng)存在問題(甚至是經(jīng)營管理問題),導致預期的未來現(xiàn)金流下降,并且暗示管理層試圖通過粉飾來掩蓋收入下降問題,因而財務重述通常會向投資者傳遞消極信號,從而造成更大的市值下降,使得市場反應顯著為負。因此,研究錯報及其導致的財務重述具有現(xiàn)實意義。現(xiàn)有研究從公司業(yè)績、股權(quán)結(jié)構(gòu)、治理結(jié)構(gòu)等方面分析了財務重述公司的特點,監(jiān)管部門為了保障上市公司會計信息披露的質(zhì)量,對其年報強制執(zhí)行外部審計,并陸續(xù)出臺了中國注冊會計師審計準則,以降低審計風險,提高審計質(zhì)量。然而本文的財務重述年報樣本中,九成被出具了標準無保留審計意見(即錯報在當年未被識別出來),這說明隨著上市公司的盈余管理手段愈發(fā)隱蔽,單純依賴傳統(tǒng)的風險評估方法可能難以有效識別錯報風險。

      機器學習是當下被廣泛應用的信息技術,它讓計算機能夠自動地從某些數(shù)據(jù)中總結(jié)出規(guī)律,并得出某種預測模型,進而利用該模型對未知數(shù)據(jù)進行預測。分類是重要的機器學習方法,其目的是從給定人工標注的分類訓練樣本中學習一個分類模型,面對新數(shù)據(jù),根據(jù)這個分類模型將其映射到給定類別的某一個類中,甄別上市公司財報是否存在重述的可能,比較適合采用分類方法中的二分類方法。目前運用較廣泛的分類方法有極限梯度提升樹(xgboost)、神經(jīng)網(wǎng)絡、隨機森林(random forest)、K近鄰(K-nearest neighbor)、支持向量機(support vector machine)、樸素貝葉斯(naive bayes)等。

      錯報與財務重述具有因果關系:后期出現(xiàn)的財務重述,很大程度上由于當期的錯報未被識別;若能預測后期將發(fā)生財務重述,說明當期財報很可能存在錯報。因此本文的研究邏輯是,通過機器學習預測財務重述的能力反映其識別錯報的能力,研究的主要貢獻有:第一,在統(tǒng)一的輸入樣本基礎上,通過與logistic回歸比較,實證檢驗了極限梯度提升樹、神經(jīng)網(wǎng)絡、隨機森林、K近鄰、支持向量機、樸素貝葉斯等機器學習方法在預測上市公司年報調(diào)減盈余的財務重述方面的良好效果,從而證明機器學習應用于識別上市公司年報錯報的可行性。第二,檢驗了現(xiàn)有文獻關于財務重述公司特征的甄別能力,發(fā)現(xiàn)營運能力、盈利能力、流動比率與股權(quán)集中度等特征對上市公司年報調(diào)減盈余的財務重述的預測起到重要作用。

      二、研究設計

      (一)樣本選擇與配對

      以2016至2018年滬深A股制造業(yè)上市公司為研究對象,結(jié)合現(xiàn)有研究方法,若公司年報之后因錯報進行了調(diào)減盈余的財務重述,選為為正樣本(若同一公司有多個年度的年報發(fā)生重述,視為不同正樣本),并對其進行配對選取年報未財務重述的公司作為負樣本。負樣本的配對遵循以下原則:(1)參考證監(jiān)會 2012 發(fā)布的《上市公司行業(yè)分類指引》選擇大類相同或相近的;(2)非財務重述的年報披露年度與相匹配的財務重述年報一致;(3)非財務重述年報對應的上市公司在以后年度也未發(fā)生過財務重述行為;(4)總資產(chǎn)規(guī)模相近;(5)剔除數(shù)據(jù)缺失的樣本。最終獲得104個樣本,正樣本和負樣本各52個,數(shù)據(jù)來源于csmar數(shù)據(jù)庫。運用機器學習方法對上市公司年報財務重述行為進行預測,是通過從既有數(shù)據(jù)中挖掘公司進行年報財務重述的共同規(guī)律并學習之,從而在未知數(shù)據(jù)上對重述行為進行預測;因此,將2016、2017年的樣本作為訓練集,將2018年的樣本作為測試集,即通過在2016、2017年樣本上分別學習重述樣本與非重述樣本的規(guī)律,并將其運用于2018年樣本財務重述的識別,樣本分布如表1。重述樣本中有約10%當年被外部審計師出具了非標準審計意見,即絕大多數(shù)因錯報而后期發(fā)生調(diào)減盈余的財務重述的年報,當期并沒有被審計師發(fā)現(xiàn),可見僅僅依靠傳統(tǒng)的風險評估方法可能難以有效識別調(diào)減盈余的錯報風險。

      表1 訓練集與測試集樣本分布

      (二)特征選擇

      1.財務重述與財務業(yè)績。資本市場壓力,比如對未來盈利增長的高預期、更高的未償債務水平,會促使公司采取激進會計政策,以提高當期收益并在隨后進行調(diào)減盈余的財務重述,即財務重述的重要動因就是盈余操縱,公司管理層為了達成財務預期、滿足融資需求或完成薪酬契約,可能運用各種手段進行盈余操縱,若此行為被識破,隨之而來的便是財務重述;而業(yè)績不好的公司更可能進行盈余管理;重述公司在重述期的業(yè)績通常會惡化,包括收入方面和現(xiàn)金流方面,具體地,重述公司往往盈利水平低、流動性差、資產(chǎn)周轉(zhuǎn)速度慢、負債水平高,且自由現(xiàn)金流不足,總應計水平與財務重述行為具有部分顯著的正相關關系。

      2.財務重述與公司治理及股權(quán)結(jié)構(gòu)。內(nèi)部控制缺陷是導致財務重述發(fā)生的最為主要的原因,區(qū)分公司治理實踐優(yōu)劣的因素對于財務重述的預測可能有幫助,監(jiān)事會規(guī)模較大的公司發(fā)生財務重述的概率較低,外部獨立審計也是保證公司財務信息質(zhì)量的有效措施。重述公司往往股權(quán)分散,大股東的監(jiān)管能有效降低管理層機會主義行為,尤其是股權(quán)集中度較高時,大股東的利益與公司的績效更為密切,從而促使其對公司的會計系統(tǒng)進行更有力地監(jiān)督以控制會計差錯的發(fā)生,同時對管理層的機會主義傾向產(chǎn)生震懾作用。

      基于以上文獻的研究結(jié)論,選取特征變量如下:選取總應計率代表公司盈余管理情況,選取總資產(chǎn)凈利潤率、扣除非經(jīng)常性損益后的總資產(chǎn)凈利潤率、凈資產(chǎn)收益率和扣除非經(jīng)常性損益后的基本每股收益代表公司盈利能力,選取流動比率代表公司流動性,選取總資產(chǎn)周轉(zhuǎn)率代表公司營運能力,選取資產(chǎn)負債率代表公司負債水平,選取經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額/資產(chǎn)總額代表公司自由現(xiàn)金流狀況,選取監(jiān)事比例代表公司監(jiān)事會規(guī)模,選取是否披露內(nèi)控審計報告及內(nèi)控審計報告意見代表公司外部獨立審計情況,選取股權(quán)集中度代表公司股權(quán)結(jié)構(gòu)。由于需要對年報在將來會否因錯報而重述做出預測,而重述公司的年報財務數(shù)據(jù)在當年披露時是不準確的,故涉及年報財務數(shù)據(jù)的特征變量取重述期的前一期數(shù)據(jù),其他特征變量取重述期數(shù)據(jù),如表2。

      表2 特征變量及其解釋

      (三)分類方法及其評估指標

      1.常用的機器學習分類方法。極限梯度提升樹(xgboost)是一個基于梯度提升模型的可擴展樹學習系統(tǒng)。它將多個弱評估器通過迭代的方式結(jié)合成一個強評估器,在每次梯度提升的迭代中,之前學習的殘差被用于校正先前建立的評估器從而優(yōu)化損失函數(shù);同時,xgboost模型在損失函數(shù)中加入正則化從而防止過擬合,而它的輸出是迭代過程中各個弱評估器共同投票的結(jié)果。在2015年機器學習競賽—Kaggle的29個獲勝方案中,xgboost模型被17個方案所使用,成為最流行的機器學習模型。

      神經(jīng)網(wǎng)絡是模擬和簡化生物神經(jīng)元的機理,將多個神經(jīng)元相互連接組成復雜模型,通過神經(jīng)元之間的復雜聯(lián)系建立輸入到輸出的映射關系,從而實現(xiàn)自學習的過程。多層感知機(MLP)神經(jīng)網(wǎng)絡是一種基礎的神經(jīng)網(wǎng)絡模型,它的輸入層、隱藏層和輸出層是全連接的,每一層的神經(jīng)元接受大量其他層神經(jīng)元的輸入,通過非線性輸入、輸出關系,實現(xiàn)從輸入狀態(tài)空間到輸出狀態(tài)空間非線性映射的。作為神經(jīng)網(wǎng)絡的基礎模型,多層感知機神經(jīng)網(wǎng)絡對于內(nèi)部規(guī)律不太清晰或難以用一組數(shù)學表達式進行概括的情境,可達到良好的預測效果。

      隨機森林是采用裝袋法(bagging)進行集成學習的模型,它利用決策樹作為基評估器,在樹分枝的節(jié)點選擇時,使用特征的隨機子集而非從所有特征中挑選某個特征。通過將隨機性添加到樹的構(gòu)造過程中,使得每顆樹都不相同,最后綜合所有樹的結(jié)果作為輸出,在保障預測能力的同時降低過擬合,提高模型的泛化能力。

      K近鄰是一種非參數(shù)分類方法,對于一個給定的被預測值,在訓練集中尋找K個最接近它的值(近鄰),將這K個近鄰的投票結(jié)果作為被預測值的取值。由于其原理簡單、誤差可控及能處理非線性問題等優(yōu)點,仍然是機器學習的重要成員。

      支持向量機是根據(jù)VC維理論和結(jié)構(gòu)風險最小化原則,在學習能力和模型復雜度之間尋求平衡;為了提高泛化能力,通過核函數(shù)的選擇,把低維向量映射到高維空間中并尋找超平面,在所有訓練樣本中尋找處于決策邊界的支持向量(support vector)并據(jù)此進行分類的。其目標函數(shù)的優(yōu)化為凸優(yōu)化問題,使得其在尋找全局最優(yōu)解、擴展性等方面表現(xiàn)不俗,在應用中能良好適應各種數(shù)據(jù)集。

      2.分類的評估指標。對于上市公司年報財務重述行為的預測,本文采用二分類方法,即分類的輸出有且只有兩種情況:陽性(Positive)或陰性(Negative),而相對于真實情況,分類的輸出可能是正確的(True)或錯誤的(False),因此,二分類的結(jié)果可歸納為正確的陽性(TP)、正確的陰性(TN)、錯誤的陽性(FP)和錯誤的陰性(FN)四種情況,而FP與FN的數(shù)量分別代表第Ⅰ類錯誤和第Ⅱ類錯誤的數(shù)量;相應的有如下評估指標。準確率(Accuracy)是評估分類結(jié)果最基本的指標,取值在0至1之間,計算所有樣本中被正確分類樣本的比例,通常準確率越高則分類結(jié)果越好,此指標直觀而解釋性好,但不能具體查看各個類別的分類結(jié)果情況。精確率(Precision)又稱查準率,計算所有被分類為陽性的樣本中的正確比例,取值在0至1之間,越大表示對陽性樣本的識別越精準。召回率(Recall)又稱查全率,計算所有真實的陽性樣本中被正確分類的比例,取值在0至1之間,越大表示對陽性樣本的識別越完全。精確率與召回率是一對此增彼減的評估指標,而無論哪一個太低都不理想,為了整合二者的評估結(jié)果,可使用F1分值進行評估,在分類方法對正樣本的識別能力上做出綜合的評價。第Ⅰ(Ⅱ)類錯誤率,錯誤的陽性(錯誤的陰性)樣本占所有陰性(陽性)樣本的比例。具體計算公式如下。

      上述四個指標以比率的方式評估分類結(jié)果,如果要以數(shù)量的方式查看分類結(jié)果,可使用混淆矩陣(Confusion Matrix),正確的陽性、正確的陰性、錯誤的陽性和錯誤的陰性各有多少樣本,如表3。本文數(shù)據(jù)分析工具使用基于Python 3.9.5的NumPy 1.20.3、Pandas 1.3.1、Matplotlib 3.4.2、SciPy 1.7.0、Scikit-Learn 0.24.2及Excel 2019。

      表3 混淆矩陣

      三、實證檢驗與分析

      (一)描述性分析

      表4對重述樣本和非重述樣本在特征方面進行了對比,發(fā)現(xiàn)二者在公司業(yè)績、公司治理與股權(quán)結(jié)構(gòu)方面存在明顯差異。重述樣本的盈利水平顯著更低,表現(xiàn)為總資產(chǎn)凈利潤率(在10%水平上顯著)、扣除非經(jīng)常性損益后的總資產(chǎn)凈利潤率(在10%水平上顯著)、凈資產(chǎn)收益率(在10%水平上顯著)及扣除非經(jīng)常性損益后的基本每股收益(在5%水平上顯著)都更低;流動性較差,表現(xiàn)為流動比率偏低;營運能力更差,表現(xiàn)為總資產(chǎn)周轉(zhuǎn)率更低(在5%水平上顯著);負債水平偏高,表現(xiàn)為資產(chǎn)負債率更高(在5%水平上顯著);現(xiàn)金流狀況顯著更差,表現(xiàn)為經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額/資產(chǎn)總額更低(在1%水平上顯著);盈余管理的可能性較高,表現(xiàn)為總應計率偏高,支持了之前研究的結(jié)論。在公司治理方面,重述樣本的監(jiān)事比例與披露內(nèi)控審計報告比例反而更高,這與之前研究的結(jié)論不一致,但這種差異不存在顯著性;而內(nèi)控審計報告意見的嚴重程度顯著偏高(在10%水平上顯著),支持了關于重述公司的治理能力較差的結(jié)論;股權(quán)集中度顯著更低(在1%水平上顯著),支持了關于重述公司的股權(quán)更為分散的結(jié)論。

      表4 特征的描述性統(tǒng)計

      (二)機器學習預測結(jié)果分析

      為了提高機器學習的學習能力和學習速率,在使用機器學習分類方法之前,對特征數(shù)據(jù)進行無量綱化(采用標準化方法),即將訓練集的各個特征列縮放成均值為0、方差為1,并按相同的縮放比例對測試集的各個特征列進行縮放處理。之后依次使用各分類方法,在2016、2017年訓練集上學習規(guī)律,然后對2018年測試集的樣本執(zhí)行甄別并檢驗其結(jié)果,如表5。

      表5 機器學習分類方法評估結(jié)果

      在準確率方面,多層感知機神經(jīng)網(wǎng)絡、極限梯度提升樹、K近鄰、隨機森林與支持向量機都優(yōu)于logistic回歸,樸素貝葉斯與logistic回歸持平,其中極限梯度提升樹、多層感知機神經(jīng)網(wǎng)絡與K近鄰最高,表明多數(shù)機器學習分類方法在區(qū)分調(diào)減盈余的年報錯報與未錯報年報方面表現(xiàn)較好。在精確率方面,所有機器學習方法都優(yōu)于logistic回歸,且多數(shù)機器學習方法的精確率超過80%,最高者為樸素貝葉斯(達到100%);可見機器學習分類方法對調(diào)減盈余的年報錯報識別的誤判率較低(準確性較好)。在召回率方面,多層感知機神經(jīng)網(wǎng)絡高于logistic回歸,樸素貝葉斯低于logistic回歸,其他機器學習方法與logistic回歸持平,表明多數(shù)機器學習分類方法對調(diào)減盈余的年報錯報識別的遺漏率較高(全面性較差)。機器學習分類方法對于調(diào)減盈余的年報錯報識別強于準確性而疏于全面性,注冊會計師在應用于風險評估程序時,對于預測為陽性的年報樣本應警覺并設計進一步審計程序;對于預測為陰性的年報樣本亦不能放松警惕。進一步分析混淆矩陣,發(fā)現(xiàn)在錯誤的陽性樣本數(shù)量(或第Ⅰ類錯誤率)方面,所有機器學習方法表現(xiàn)都優(yōu)于logistic回歸,表現(xiàn)最好的樸素貝葉斯對于陽性的誤判率為零(第Ⅰ類錯誤率為零),體現(xiàn)了機器學習方法在調(diào)減盈余的年報錯報識別方面規(guī)避第Ⅰ類錯誤的能力更強;而在錯誤的陽性樣本數(shù)量(或第Ⅰ類錯誤率)方面,多層感知機神經(jīng)網(wǎng)絡高于logistic回歸,樸素貝葉斯低于logistic回歸,其他機器學習方法與logistic回歸持平,反映了機器學習方法在調(diào)減盈余的年報錯報識別方面規(guī)避第Ⅱ類錯誤的能力不突出。特別地,多層感知機神經(jīng)網(wǎng)絡在各個指標的表現(xiàn)都優(yōu)于logistic回歸。

      除了可以分析各分類方法的表現(xiàn),某些分類模型在建模過程中對各個特征的重要性進行了計算,從而能夠觀察各個特征對于分類方法的重要性程度。選取能夠查看特征重要性的分類方法中表現(xiàn)較好的極限梯度提升樹和隨機森林,其特征重要性排序如圖1和圖2;為便于分析,制成表6??梢姼鱾€特征對于兩種分類方法的學習都產(chǎn)生了一定的影響,但影響大小并不完全相同。其中對于極限梯度提升樹的學習影響最大的前五個特征分別是總資產(chǎn)周轉(zhuǎn)率、股權(quán)集中度、是否披露內(nèi)控審計報告、扣除非經(jīng)常性損益后的基本每股收益以及流動比率;而對于隨機森林的學習影響最大的前五個特征分別是總資產(chǎn)周轉(zhuǎn)率、股權(quán)集中度、扣除非經(jīng)常性損益后的基本每股收益、經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額/資產(chǎn)總額以及流動比率;其中總資產(chǎn)周轉(zhuǎn)率、股權(quán)集中度、扣除非經(jīng)常性損益后的基本每股收益和流動比率四個特征在兩個分類方法中都屬于重要性排名前五的特征,且前三個特征在之前樣本均值t檢驗中都有顯著差異(顯著性分別為5%、1%和5%),表明營運能力、盈利能力、流動比率等公司業(yè)績特征與股權(quán)集中度特征在調(diào)減盈余的財務重述行為的預測方面起到了重要作用;而是否披露內(nèi)控審計報告與經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額/資產(chǎn)總額兩個特征,在兩個分類方法中分別屬于重要性排名前五位和重要性排名后五位的特征,其重要性表現(xiàn)不穩(wěn)定。同時,對于兩個分類方法影響排名后五位的特征中,都出現(xiàn)了內(nèi)控審計報告意見和總應計率,表明二者對調(diào)減盈余的財務重述行為的預測的作用不明顯。

      圖1 極限梯度提升樹特征重要性

      圖2 隨機森林特征重要性

      表6 特征重要性比較

      四、結(jié)論

      選取2016至2018年滬深A股制造業(yè)上市公司中年報發(fā)生調(diào)減盈余的財務重述的52家公司和年報未發(fā)生財務重述的52家配對公司為樣本,以2016和2017年的樣本作為訓練集,以2018年的樣本作為測試集,分別運用機器學習和logistic回歸對財務重述進行預測并比較結(jié)果,同時檢驗現(xiàn)有文獻關于財務重述公司特征對財務重述行為的預測能力。結(jié)果顯示,與logistic回歸相比,多層感知機神經(jīng)網(wǎng)絡、極限梯度提升樹、K近鄰、隨機森林與支持向量機等機器學習方法在上市公司財務報告重述行為預測的準確率、F1分值和第Ⅰ類錯誤率等方面都表現(xiàn)更優(yōu),其中多層感知機神經(jīng)網(wǎng)絡在各個指標都表現(xiàn)更優(yōu);表明機器學習能有效識別調(diào)減盈余的年報錯報,可在注冊會計師執(zhí)行風險評估程序中運用,以降低審計風險。研究還發(fā)現(xiàn),營運能力、盈利能力、流動比率與股權(quán)集中度等特征對上市公司年報調(diào)減盈余的財務重述行為的預測起到重要作用。

      會計信息質(zhì)量對于內(nèi)部管理者的管理、股權(quán)與債權(quán)人的決策,分析師的預測等利益相關者都有重要影響,而注冊會計師的審計質(zhì)量是披露會計信息質(zhì)量的重要保障,財政部2019年更新了18項關于中國注冊會計師的審計準則,推動了風險導向?qū)徲嫷膶嵤?。通過研究機器學習對上市公司年報錯報的識別,以期給注冊會計師識別錯報風險提供參考,給監(jiān)管部門監(jiān)督、查處信息披露失真行為提供借鑒,給投資者、分析師等對財報的甄別使用提供參考。

      猜你喜歡
      錯報年報盈余
      基于數(shù)據(jù)挖掘的重大錯報風險識別和評估研究
      我刊2021年影響因子年報
      我刊2021年影響因子年報
      我刊2021年影響因子年報
      儒家文化、信用治理與盈余管理
      “事前震懾”與“事后糾偏”:分析師關注對財務錯報和重述的跨期監(jiān)管研究
      關于經(jīng)常項目盈余的思考
      中國外匯(2019年10期)2019-08-27 01:58:00
      上市公司2015年年報重要數(shù)據(jù)
      淺析重要性水平與重大錯報風險的關系
      時代金融(2012年17期)2012-04-29 11:37:21
      重大錯報風險、審計風險、檢查風險與重要性
      審計與理財(2009年4期)2009-05-22 11:31:18
      开原市| 拜城县| 体育| 富民县| 柳州市| 嘉黎县| 丹江口市| 嘉荫县| 赤峰市| 尼勒克县| 罗田县| 龙海市| 甘肃省| 随州市| 右玉县| 尤溪县| 胶州市| 开江县| 青铜峡市| 斗六市| 女性| 古浪县| 额尔古纳市| 静乐县| 曲阜市| 新龙县| 中阳县| 宁陕县| 德保县| 镇赉县| 江山市| 平遥县| 广南县| 怀来县| 郁南县| 共和县| 汉沽区| 且末县| 景德镇市| 侯马市| 达拉特旗|