孫 灝 ,朱曉謙 ,李建平
(1.中國(guó)科學(xué)院 科技戰(zhàn)略咨詢(xún)研究院,北京 100190;2.中國(guó)科學(xué)院大學(xué) 公共政策與管理學(xué)院,北京 100049;3.中國(guó)科學(xué)院大學(xué) 經(jīng)濟(jì)與管理學(xué)院,北京 100190)
近年來(lái),國(guó)內(nèi)外上市公司的財(cái)務(wù)困境事件頻發(fā),給市場(chǎng)投資者帶來(lái)巨大的損失,使得財(cái)務(wù)困境的準(zhǔn)確預(yù)測(cè)受到市場(chǎng)投資者、監(jiān)管機(jī)構(gòu)等的高度關(guān)注。Habib等[1]從4個(gè)方面總結(jié)了現(xiàn)有研究對(duì)財(cái)務(wù)困境的定義,分別為業(yè)務(wù)經(jīng)營(yíng)失敗、無(wú)法償還到期債務(wù)、申請(qǐng)破產(chǎn)保護(hù)以及發(fā)生貸款違約。為了更有效地預(yù)測(cè)公司是否陷入財(cái)務(wù)困境,現(xiàn)有研究對(duì)各種類(lèi)型的數(shù)據(jù)信息進(jìn)行分析,包括公司財(cái)務(wù)信息[2]、股票市場(chǎng)信息[3]以及公司披露的文本類(lèi)信息[4]等。
早期的財(cái)務(wù)困境預(yù)測(cè)研究大多基于公司的財(cái)務(wù)和市場(chǎng)數(shù)據(jù)等定量信息。Altman[2]從公司的財(cái)務(wù)報(bào)表中提取了5個(gè)財(cái)務(wù)比率指標(biāo)建立了Z-score模型,證明了財(cái)務(wù)比率指標(biāo)能為財(cái)務(wù)困境預(yù)測(cè)提供有效信息。Shumway[3]基于股權(quán)價(jià)值波動(dòng)率、股權(quán)超額收益率等市場(chǎng)信息構(gòu)建了風(fēng)險(xiǎn)模型,發(fā)現(xiàn)市場(chǎng)信息夠提升財(cái)務(wù)困境的預(yù)測(cè)效果。這些定量信息在之后的財(cái)務(wù)困境預(yù)測(cè)研究中也得到普遍應(yīng)用[5-8]。然而,這些定量信息主要是對(duì)公司財(cái)務(wù)狀況的高度凝練和總結(jié),只能刻畫(huà)公司部分的經(jīng)營(yíng)情況。
近年來(lái),相關(guān)研究開(kāi)始關(guān)注社交媒體及公司披露的文本信息在財(cái)務(wù)困境預(yù)測(cè)中的作用[9]。與定量信息直觀地反映公司的經(jīng)營(yíng)和財(cái)務(wù)狀況相比,文本信息則是對(duì)公司的經(jīng)營(yíng)情況進(jìn)一步具體的解釋與分析,能夠?qū)Χ啃畔⑻峁┯行У难a(bǔ)充。陳藝云等[10]采用百度新聞中公司的新聞報(bào)道文本進(jìn)行財(cái)務(wù)困境預(yù)測(cè)。Mayew 等[4]基于公司財(cái)務(wù)報(bào)告中的管理層討論與分析 (Management Discussion and Analysis,MD&A)構(gòu)建財(cái)務(wù)困境預(yù)測(cè)模型。呂喜梅等[11]分析了公司在出現(xiàn)重大事件時(shí)披露的臨時(shí)報(bào)告在財(cái)務(wù)困境預(yù)測(cè)中的作用。上述研究都發(fā)現(xiàn)各類(lèi)文本類(lèi)信息可以提升財(cái)務(wù)困境的預(yù)測(cè)效果。然而,媒體報(bào)道、MD&A 及臨時(shí)報(bào)告等文本信息主要是對(duì)公司當(dāng)前業(yè)務(wù)經(jīng)營(yíng)信息、財(cái)務(wù)報(bào)告數(shù)據(jù)等的解釋和分析,對(duì)公司未來(lái)可能面臨情況的內(nèi)容較少[12]。
根據(jù)各國(guó)監(jiān)管機(jī)構(gòu)的要求,上市公司通常需要根據(jù)當(dāng)前的經(jīng)營(yíng)情況預(yù)判未來(lái)潛在的重要風(fēng)險(xiǎn),并以文本的形式在財(cái)務(wù)報(bào)告中披露[13]。例如,美國(guó)上市公司被證券交易委員會(huì)(Securities and Exchange Commission,SEC)強(qiáng)制要求在年度財(cái)務(wù)報(bào)告中的Item 1A 章節(jié)增加Risk Factor部分,披露使公司面臨風(fēng)險(xiǎn)的重要因素,以幫助投資者更清楚地了解公司的風(fēng)險(xiǎn)情況[14]。相比于社交媒體及公司披露的MD&A 等文本內(nèi)容,財(cái)務(wù)報(bào)告中的文本風(fēng)險(xiǎn)信息能夠更加直接和前瞻地刻畫(huà)公司未來(lái)的風(fēng)險(xiǎn)[13]。此外,現(xiàn)有研究發(fā)現(xiàn),該部分內(nèi)容在整個(gè)財(cái)務(wù)報(bào)告中的篇幅占比越來(lái)越高[15],并能夠真實(shí)和有效地反映公司未來(lái)面臨的風(fēng)險(xiǎn)情況[14]。然而,鮮有研究分析該信息在財(cái)務(wù)困境預(yù)測(cè)中的作用。
本文引入公司在年度財(cái)務(wù)報(bào)告中以文本形式披露的風(fēng)險(xiǎn)信息進(jìn)行財(cái)務(wù)困境預(yù)測(cè),并構(gòu)建了能夠刻畫(huà)所披露的風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性的文本特征指標(biāo)——風(fēng)險(xiǎn)可能性。該指標(biāo)通過(guò)公司披露風(fēng)險(xiǎn)時(shí)語(yǔ)氣的強(qiáng)弱實(shí)現(xiàn)量化,并結(jié)合常用的文本特征指標(biāo)對(duì)文本風(fēng)險(xiǎn)信息進(jìn)行特征提取,包括文本長(zhǎng)度、情感、可讀性以及樣板性[16-18]。本文選取了5種主流的機(jī)器學(xué)習(xí)方法,對(duì)文本特征指標(biāo)的財(cái)務(wù)困境預(yù)測(cè)能力進(jìn)行評(píng)估,包括邏輯回歸(Logistic Regression,LR)、支持向量機(jī)(Support Vector Machine,SVM)、神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)、隨機(jī)森林(Random Forest,RF)及XGBoost模型。為了檢驗(yàn)本文提出的風(fēng)險(xiǎn)可能性相比常用的文本特征指標(biāo),是否更適用于處理文本風(fēng)險(xiǎn)信息,進(jìn)一步對(duì)比分析了各個(gè)文本特征指標(biāo)在財(cái)務(wù)困境預(yù)測(cè)中的重要程度。此外,對(duì)財(cái)務(wù)困境預(yù)測(cè)的時(shí)間窗口進(jìn)行變化,分析文本風(fēng)險(xiǎn)信息的預(yù)測(cè)能力隨預(yù)測(cè)時(shí)長(zhǎng)增加時(shí)的變動(dòng)情況。
本文的創(chuàng)新和貢獻(xiàn)主要體現(xiàn)在兩個(gè)方面:①引入公司在年報(bào)中披露的文本風(fēng)險(xiǎn)信息進(jìn)行財(cái)務(wù)困境預(yù)測(cè),拓展了現(xiàn)有研究預(yù)測(cè)財(cái)務(wù)困境時(shí)所使用的數(shù)據(jù)類(lèi)型?,F(xiàn)有研究在財(cái)務(wù)困境預(yù)測(cè)中采用的文本數(shù)據(jù)類(lèi)型主要包括MD&A[4]、企業(yè)臨時(shí)報(bào)告[11]和社交媒體[10]等,主要是對(duì)公司當(dāng)前財(cái)務(wù)信息、經(jīng)營(yíng)情況等方面的解釋和分析[12]。相比之下,本文引入的公司在財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息能夠更加直接和前瞻地描述公司未來(lái)可能面臨的風(fēng)險(xiǎn)[13]。②構(gòu)建了適用于文本風(fēng)險(xiǎn)信息的特征指標(biāo)——風(fēng)險(xiǎn)可能性,實(shí)現(xiàn)了對(duì)所披露風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性的刻畫(huà)。現(xiàn)有研究在分析金融文本數(shù)據(jù)的特征時(shí),主要從情感、可讀性及樣板性等維度進(jìn)行考慮[16,19],然而,這些特征指標(biāo)不適用于從文本風(fēng)險(xiǎn)信息中提取風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響情況的特征信息。本文提出的風(fēng)險(xiǎn)可能性指標(biāo),能夠定量地刻畫(huà)出公司受到所披露風(fēng)險(xiǎn)影響的可能性大小,從而幫助預(yù)測(cè)公司是否陷入財(cái)務(wù)困境。
除結(jié)構(gòu)化的定量信息外,以非結(jié)構(gòu)化形式存在的文本類(lèi)數(shù)據(jù)在各類(lèi)數(shù)據(jù)中的比重不斷上升,并在財(cái)務(wù)困境預(yù)測(cè)領(lǐng)域得到廣泛應(yīng)用[4,9,11,17]。根據(jù)信息的來(lái)源,這些文本可以劃分為社交媒體信息和公司披露信息兩種類(lèi)別[19]。
現(xiàn)有研究常見(jiàn)的社交媒體類(lèi)文本數(shù)據(jù)主要包括新聞報(bào)道、微博、Twitter和股票論壇等,這類(lèi)社交媒體信息具有發(fā)布時(shí)間間隔短的優(yōu)勢(shì),可以幫助投資者及時(shí)地了解公司的動(dòng)態(tài)信息[20-21]。陳藝云等[10]通過(guò)爬蟲(chóng)技術(shù)從百度新聞中收集了公司的新聞報(bào)道文本內(nèi)容,分析發(fā)現(xiàn),公司的負(fù)面報(bào)道比例越高,出現(xiàn)財(cái)務(wù)困境的可能性就越大。Lu等[22]基于《華爾街日?qǐng)?bào)》發(fā)布的新聞報(bào)道信息構(gòu)建了公司信用違約預(yù)測(cè)模型,結(jié)果表明,在定量指標(biāo)基礎(chǔ)上預(yù)測(cè)效果得到顯著提升。何賢杰等[20]基于中國(guó)上市公司在新浪微博上發(fā)布的信息,研究發(fā)現(xiàn),公司治理水平越高的公司更傾向于開(kāi)設(shè)微博賬號(hào),并發(fā)布公司的相關(guān)信息。Jung等[23]分析了公司在Twitter平臺(tái)發(fā)布的季度收益公告文本信息,發(fā)現(xiàn)經(jīng)營(yíng)情況較差的公司會(huì)選擇性地在Twitter上發(fā)布更少的信息。Zhao等[24]分析市場(chǎng)投資者在股票論壇中發(fā)布的評(píng)論文本信息,發(fā)現(xiàn)投資者對(duì)公司的財(cái)務(wù)及經(jīng)營(yíng)情況表現(xiàn)出更消極的態(tài)度時(shí),公司出現(xiàn)財(cái)務(wù)困境的可能性越大。
公司披露的各類(lèi)文本數(shù)據(jù)也受到了較為廣泛的關(guān)注,主要包括公司財(cái)務(wù)報(bào)告中的MD&A 部分、財(cái)務(wù)報(bào)告的附注部分以及公司發(fā)生重要事件時(shí)披露的臨時(shí)報(bào)告等。這類(lèi)公司披露信息是以文本的形式對(duì)公司經(jīng)營(yíng)情況的說(shuō)明和分析,可以作為公司定量財(cái)務(wù)信息的有效補(bǔ)充,幫助投資者更為全面地了解公司的經(jīng)營(yíng)情況[25]。Mayew 等[4]通過(guò)分析上市公司在年報(bào)中披露的MD&A 內(nèi)容,發(fā)現(xiàn)財(cái)務(wù)困境公司的管理者在披露時(shí)傾向于使用更多的負(fù)面情感詞匯。陳藝云[17]基于中國(guó)上市公司披露的MD&A文本,研究結(jié)果驗(yàn)證了MD&A 文本信息能有效幫助預(yù)測(cè)公司財(cái)務(wù)困境。Zhao等[24]基于財(cái)務(wù)報(bào)告附注、MD&A 等文本信息構(gòu)建財(cái)務(wù)困境預(yù)測(cè)模型,發(fā)現(xiàn)在財(cái)務(wù)指標(biāo)基礎(chǔ)上融合文本信息能夠顯著提升預(yù)測(cè)效果。Gandhi等[26]對(duì)銀行業(yè)公司在年度財(cái)務(wù)報(bào)告中披露的文本內(nèi)容進(jìn)行分析,發(fā)現(xiàn)負(fù)面情感詞匯的數(shù)量越多時(shí),公司發(fā)生財(cái)務(wù)困境的可能性越大。呂喜梅等[11]通過(guò)采用公司披露的臨時(shí)報(bào)告文件信息,構(gòu)建了中國(guó)新三板企業(yè)財(cái)務(wù)困境預(yù)測(cè)模型,發(fā)現(xiàn)提取的公司權(quán)益變動(dòng)、資金管理等主題信息能夠顯著提升預(yù)測(cè)效果。
除了上述公司披露的文本數(shù)據(jù)類(lèi)型,各國(guó)的監(jiān)管機(jī)構(gòu)通常還要求公司在財(cái)務(wù)報(bào)告中披露可能對(duì)公司未來(lái)發(fā)展戰(zhàn)略和經(jīng)營(yíng)目標(biāo)的實(shí)現(xiàn)產(chǎn)生不利影響的風(fēng)險(xiǎn)因素。例如,美國(guó)證券交易委員會(huì)于2005年頒布的公司信息披露法規(guī)中,美國(guó)上市公司應(yīng)當(dāng)在其年度報(bào)告Form 10-K 文件中的Item 1A 章節(jié)新增Risk Factor部分,詳細(xì)、規(guī)范地披露公司未來(lái)可能面臨的重要風(fēng)險(xiǎn)因素[27]。這類(lèi)文本風(fēng)險(xiǎn)信息是公司的管理層基于公司實(shí)際的經(jīng)營(yíng)情況分析得出的風(fēng)險(xiǎn)信息,相比于公司披露的其他類(lèi)型文本信息,能夠更為直觀地反映公司所面臨的風(fēng)險(xiǎn)情況[12,28]。此外,監(jiān)管機(jī)構(gòu)對(duì)公司披露的文本風(fēng)險(xiǎn)信息內(nèi)容的真實(shí)性及有效性進(jìn)行了嚴(yán)格監(jiān)督,且已有研究發(fā)現(xiàn),文本風(fēng)險(xiǎn)信息對(duì)公司未來(lái)所面臨的財(cái)務(wù)風(fēng)險(xiǎn)、法律訴訟風(fēng)險(xiǎn)等有一定的預(yù)見(jiàn)能力[14]。因此,文本風(fēng)險(xiǎn)信息的優(yōu)勢(shì)在于直接和前瞻地反映了公司的潛在風(fēng)險(xiǎn),能夠作為公司定量信息的有益補(bǔ)充。然而,現(xiàn)有研究很少關(guān)注這類(lèi)文本風(fēng)險(xiǎn)信息在財(cái)務(wù)困境預(yù)測(cè)中的作用,故引入文本風(fēng)險(xiǎn)信息構(gòu)建財(cái)務(wù)困境預(yù)測(cè)模型,分析其能否提升財(cái)務(wù)困境預(yù)測(cè)效果。
現(xiàn)有研究在分析金融文本的特征時(shí)大多從情感、可讀性及樣板性等維度進(jìn)行考慮,有關(guān)結(jié)論也驗(yàn)證了這些文本特征的確能夠從文本中挖掘得到有效信息[16,19]。姚加權(quán)等[29]針對(duì)中文金融文本分別構(gòu)建了適用于年度財(cái)務(wù)報(bào)告和社交媒體的情感詞典,并發(fā)現(xiàn)基于情感詞典得到的情感特征指標(biāo)能夠有效預(yù)測(cè)公司股票收益率、成交量及波動(dòng)率等市場(chǎng)因素。Loughran等[30]同樣構(gòu)建了適用于英文金融文本的情感詞典,并發(fā)現(xiàn)該詞典相比于一般性的詞典能夠更好地刻畫(huà)金融文本中的情感特征。Li[31]對(duì)公司年度財(cái)務(wù)報(bào)告中披露的文本內(nèi)容進(jìn)行可讀性分析,發(fā)現(xiàn)盈余收入越差的公司的財(cái)務(wù)報(bào)告可讀性越差,這是因?yàn)楣緸榱私档凸善笔袌?chǎng)波動(dòng)而故意模糊信息[32]。樣板性也稱(chēng)為文本相似性,在金融文本領(lǐng)域主要用于刻畫(huà)不同公司之間披露文本的相似程度,以及同一公司在不同時(shí)期披露文本的相似程度[19]。
不同于一般類(lèi)型的金融文本,本文引入的文本風(fēng)險(xiǎn)信息的主要內(nèi)容是公司未來(lái)可能面臨的潛在風(fēng)險(xiǎn)。該風(fēng)險(xiǎn)信息是各公司基于自身的經(jīng)營(yíng)情況,對(duì)未來(lái)潛在的重要風(fēng)險(xiǎn)的預(yù)判,因而不同公司之間所披露的風(fēng)險(xiǎn)存在一定程度的差異[13],且不同的風(fēng)險(xiǎn)對(duì)公司的經(jīng)營(yíng)情況產(chǎn)生的影響也不同[14]。本文通過(guò)分析各個(gè)公司所披露的風(fēng)險(xiǎn)信息對(duì)該公司產(chǎn)生的影響情況,從而幫助預(yù)測(cè)公司是否陷入財(cái)務(wù)困境。然而,現(xiàn)有研究常用的文本特征指標(biāo)難以刻畫(huà)出文本風(fēng)險(xiǎn)信息對(duì)公司產(chǎn)生的影響情況,因此,本文提出新的文本特征指標(biāo),該指標(biāo)能夠定量地刻畫(huà)公司受到所披露風(fēng)險(xiǎn)影響的可能性大小,從而用于財(cái)務(wù)困境預(yù)測(cè)。
綜上所述,現(xiàn)有研究對(duì)財(cái)務(wù)困境預(yù)測(cè)問(wèn)題已經(jīng)進(jìn)行了較為豐富的研究,但是在采用的文本數(shù)據(jù)類(lèi)型、文本特征的分析方法兩個(gè)方面還存在一定不足。首先,現(xiàn)有研究在財(cái)務(wù)困境預(yù)測(cè)中采用的文本信息主要包括MD&A[4]、企業(yè)臨時(shí)報(bào)告[11]和社交媒體[10]等類(lèi)型,這些文本信息主要是對(duì)公司當(dāng)前財(cái)務(wù)信息、經(jīng)營(yíng)情況等方面的解釋和分析,對(duì)公司未來(lái)經(jīng)營(yíng)情況的前瞻性描述較少[12];其次,現(xiàn)有研究在分析金融文本數(shù)據(jù)特征時(shí)主要從情感[29]、可讀性[31]及樣板性[19]等維度進(jìn)行考慮,由于這些文本特征指標(biāo)主要用于分析常見(jiàn)的文本信息,不適用于特定類(lèi)型的文本,故本文引入直接和前瞻地披露公司未來(lái)風(fēng)險(xiǎn)情況的文本風(fēng)險(xiǎn)信息,并針對(duì)該文本的特征提出了風(fēng)險(xiǎn)可能性指標(biāo),用于刻畫(huà)公司受到所披露風(fēng)險(xiǎn)影響的可能性大小。
本文基于上市公司年度財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息進(jìn)行財(cái)務(wù)困境預(yù)測(cè)。考慮到美國(guó)上市公司在年報(bào)中披露的風(fēng)險(xiǎn)信息相比于其他國(guó)家更為詳細(xì)和規(guī)范[13],本文選擇美國(guó)上市公司披露的文本風(fēng)險(xiǎn)信息進(jìn)行分析。美國(guó)證券交易委員會(huì)在2005年頒布的Regulation S-K 法規(guī)要求,上市公司應(yīng)當(dāng)在年度財(cái)務(wù)報(bào)告Form10-K中Item1A章節(jié)新增“Risk Factor”部分,詳細(xì)披露公司認(rèn)為對(duì)未來(lái)發(fā)展戰(zhàn)略和經(jīng)營(yíng)目標(biāo)可能產(chǎn)生不利影響的風(fēng)險(xiǎn)因素。在以HTML格式存儲(chǔ)的Form 10-K 報(bào)告中,各章節(jié)通過(guò)不同的HTML標(biāo)簽進(jìn)行標(biāo)記,因此,可以采用正則表達(dá)式匹配識(shí)別Item 1A 章節(jié),從而提取出“Risk Factor”這一章節(jié)的文本風(fēng)險(xiǎn)信息。
公司通常以一個(gè)標(biāo)題加一段詳細(xì)解釋的方式來(lái)披露每一個(gè)風(fēng)險(xiǎn)因素,標(biāo)題基本可以清晰地概括各個(gè)風(fēng)險(xiǎn)因素,平均每份財(cái)務(wù)報(bào)告大約包含21 個(gè)標(biāo)題[33]。每個(gè)標(biāo)題通常討論一類(lèi)風(fēng)險(xiǎn)因素,Bao等[33]通過(guò)構(gòu)建無(wú)監(jiān)督的主題模型方法,從2006~2010年間所有美國(guó)上市公司披露的文本風(fēng)險(xiǎn)信息中,識(shí)別出所有行業(yè)中公司面臨的25種風(fēng)險(xiǎn)因素,包括“人力資源”“股價(jià)波動(dòng)”“競(jìng)爭(zhēng)”“信用風(fēng)險(xiǎn)”和“國(guó)際風(fēng)險(xiǎn)”等。表1為4個(gè)風(fēng)險(xiǎn)標(biāo)題的示例,通過(guò)這些標(biāo)題分別總結(jié)出“產(chǎn)品服務(wù)”“稅收波動(dòng)”“信息系統(tǒng)安全”及“法律監(jiān)管”4個(gè)風(fēng)險(xiǎn)因素可能影響公司未來(lái)的經(jīng)營(yíng)和收益。因此,美國(guó)上市公司在年度財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息能夠清晰地刻畫(huà)出公司經(jīng)營(yíng)過(guò)程中面臨的風(fēng)險(xiǎn)情況,可以作為財(cái)務(wù)困境預(yù)測(cè)的有效補(bǔ)充信息。
表1 美國(guó)上市公司年度財(cái)務(wù)報(bào)告Form 10-K 中披露的風(fēng)險(xiǎn)信息示例
2.2.1風(fēng)險(xiǎn)可能性指標(biāo) 相比于以往研究常用的金融類(lèi)文本數(shù)據(jù),財(cái)務(wù)報(bào)告中的文本風(fēng)險(xiǎn)信息披露的主要是公司未來(lái)可能面臨的風(fēng)險(xiǎn)因素。通過(guò)對(duì)公司在年報(bào)中披露的大量文本風(fēng)險(xiǎn)信息的分析發(fā)現(xiàn),公司在披露風(fēng)險(xiǎn)信息時(shí)語(yǔ)氣的強(qiáng)弱存在差異,表現(xiàn)為使用情態(tài)動(dòng)詞的不同。如表1所示,公司在披露“產(chǎn)品服務(wù)”風(fēng)險(xiǎn)因素時(shí)使用的情態(tài)動(dòng)詞為must,語(yǔ)氣較強(qiáng),表示該風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性較高;在披露“稅收波動(dòng)”“信息系統(tǒng)安全”及“法律監(jiān)管”3個(gè)風(fēng)險(xiǎn)因素時(shí),使用的情態(tài)動(dòng)詞分別為could、may及could,語(yǔ)氣較弱,表示這3個(gè)風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性較低。由上述分析可以看出,公司披露風(fēng)險(xiǎn)信息時(shí)的語(yǔ)氣強(qiáng)弱能夠反映出該公司受到風(fēng)險(xiǎn)影響的可能性的差異。因此,本文在利用文本風(fēng)險(xiǎn)信息進(jìn)行財(cái)務(wù)困境預(yù)測(cè)時(shí),從語(yǔ)氣強(qiáng)弱的角度分析公司披露的風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性。然而,文本長(zhǎng)度、情感分析、可讀性分析等常用的金融類(lèi)文本特征分析方法,難以反映文本中的語(yǔ)氣強(qiáng)弱并刻畫(huà)出公司披露的風(fēng)險(xiǎn)對(duì)公司的影響情況。
為了刻畫(huà)一個(gè)公司受到未來(lái)可能面臨的風(fēng)險(xiǎn)影響的可能性大小,本文提出了風(fēng)險(xiǎn)可能性指標(biāo),通過(guò)分析公司披露文本風(fēng)險(xiǎn)信息時(shí)的語(yǔ)氣強(qiáng)弱實(shí)現(xiàn)量化。由于情態(tài)動(dòng)詞的語(yǔ)氣強(qiáng)弱能夠反映表達(dá)者對(duì)其描述內(nèi)容的信息程度高低[30],故通過(guò)分析文本風(fēng)險(xiǎn)信息中情態(tài)動(dòng)詞的語(yǔ)氣強(qiáng)弱以構(gòu)建風(fēng)險(xiǎn)可能性指標(biāo)。首先從公司披露的各個(gè)風(fēng)險(xiǎn)因素的標(biāo)題及詳細(xì)解釋中識(shí)別出情態(tài)動(dòng)詞,然后對(duì)情態(tài)動(dòng)詞的強(qiáng)弱程度進(jìn)行區(qū)分以分析每個(gè)風(fēng)險(xiǎn)因素的語(yǔ)氣強(qiáng)弱,最后對(duì)各個(gè)風(fēng)險(xiǎn)因素的語(yǔ)氣強(qiáng)弱進(jìn)行綜合,從而得到能夠反映公司披露的文本風(fēng)險(xiǎn)信息整體語(yǔ)氣強(qiáng)弱的“風(fēng)險(xiǎn)可能性”指標(biāo)。與以往研究常用的金融文本分析方法相比,該指標(biāo)的優(yōu)勢(shì)在于可以更為直觀地刻畫(huà)出公司披露的風(fēng)險(xiǎn)信息對(duì)公司產(chǎn)生影響的可能性。
假設(shè)一個(gè)公司在其年度財(cái)務(wù)報(bào)告Form 10-K的Risk Factor部分共披露了N個(gè)風(fēng)險(xiǎn)因素,表示為(r1,r2,…,rN)。為了分析各個(gè)風(fēng)險(xiǎn)因素中情態(tài)動(dòng)詞的語(yǔ)氣強(qiáng)弱,引入Loughran等[30]研究得出的情態(tài)動(dòng)詞語(yǔ)氣強(qiáng)弱詞典。如表2 所示,Loughran等[30]根據(jù)語(yǔ)氣強(qiáng)弱將情態(tài)動(dòng)詞劃分為兩類(lèi),包括18個(gè)強(qiáng)語(yǔ)氣情態(tài)動(dòng)詞及27個(gè)弱語(yǔ)氣情態(tài)動(dòng)詞?;谠撛~典,從第i個(gè)風(fēng)險(xiǎn)因素ri的標(biāo)題及詳細(xì)解釋中識(shí)別出現(xiàn)的所有情態(tài)動(dòng)詞,并根據(jù)語(yǔ)氣強(qiáng)弱進(jìn)行劃分,從而得到強(qiáng)語(yǔ)氣及弱語(yǔ)氣情態(tài)動(dòng)詞的數(shù)量,分別記為重復(fù)該步驟,可得N個(gè)風(fēng)險(xiǎn)因素(r1,r2,…,rN)中強(qiáng)語(yǔ)氣及弱語(yǔ)氣情態(tài)動(dòng)詞的數(shù)量,分別記為為了綜合評(píng)估N個(gè)風(fēng)險(xiǎn)因素的語(yǔ)氣強(qiáng)弱的整體情況,進(jìn)一步分析了N個(gè)風(fēng)險(xiǎn)因素中強(qiáng)語(yǔ)氣情態(tài)動(dòng)詞在所有情態(tài)動(dòng)詞中的數(shù)量比重的均值,從而得到N個(gè)風(fēng)險(xiǎn)因素對(duì)公司產(chǎn)生影響的可能性的綜合情況,即風(fēng)險(xiǎn)可能性指標(biāo),如下式所示:
表2 Loughran和McDonald的情態(tài)動(dòng)詞語(yǔ)氣強(qiáng)弱詞典
該指標(biāo)的數(shù)值大小區(qū)間為[0,1],數(shù)值越大,表示公司披露的風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性越大。綜上可知,本文提出的風(fēng)險(xiǎn)可能性指標(biāo)能夠刻畫(huà)出財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息對(duì)公司產(chǎn)生影響的可能性的綜合情況,從而有利于公司的財(cái)務(wù)困境預(yù)測(cè)。
2.2.2常用文本特征指標(biāo) 在分析金融類(lèi)的文本時(shí),現(xiàn)有研究通常利用情感、可讀性、長(zhǎng)度及樣板性等特征指標(biāo)從文本中提取有效信息[4,18,16],因此,除了采用本文構(gòu)建的風(fēng)險(xiǎn)可能性指標(biāo),也利用這些文本特征指標(biāo)對(duì)公司在年度財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息進(jìn)行分析和效果對(duì)比。
文本長(zhǎng)度指標(biāo)是現(xiàn)有研究中較為常用的刻畫(huà)文本特征的指標(biāo),主要通過(guò)文本中詞語(yǔ)的數(shù)量的Log值進(jìn)行刻畫(huà)[14],如下式所示:
文本情感指標(biāo)的常用刻畫(huà)方法為詞袋法[17],主要基于Loughran等[30]針對(duì)金融文本構(gòu)建的情感詞典。利用該詞典可以對(duì)文本中正面和負(fù)面情感詞語(yǔ)進(jìn)行識(shí)別并統(tǒng)計(jì),分別得到正面及負(fù)面情感詞語(yǔ)的數(shù)量,從而構(gòu)建了情感指標(biāo),如下式所示:
文本的可讀性主要用于刻畫(huà)文本內(nèi)容被讀者理解的難易程度,通常采用霧指數(shù)實(shí)現(xiàn)量化[16]。霧指數(shù)表示讀者在第一遍閱讀一篇文章時(shí),需要多少年的教育水平才能讀懂。例如一篇文章的霧指數(shù)為5,表示讀者在第一遍讀該文章時(shí)需要5年的教育才能讀懂。該指標(biāo)主要通過(guò)句子理解難度(句子中包含詞語(yǔ)數(shù)量越多則越難)和詞語(yǔ)難度(詞語(yǔ)音節(jié)越多則越難)兩個(gè)方面實(shí)現(xiàn)度量[32],如下式所示:
文本的樣板性刻畫(huà)了特定文本內(nèi)容和其他文本內(nèi)容之間的相似程度,可用于分析不同公司之間披露的文本內(nèi)容的相似程度[19]。Dyer等[18]將樣板性定義為公司披露的文本中存在樣板性的句子的詞語(yǔ)數(shù)量占全文詞語(yǔ)數(shù)量的比重,如下式所示。其中,句子存在樣板性通過(guò)該句子和同會(huì)計(jì)年度中其他公司(至少75%)披露的文本是否有相同的短語(yǔ)(詞語(yǔ)數(shù)量至少為4)刻畫(huà),
基于文本風(fēng)險(xiǎn)信息的特征指標(biāo),本文選用了5種主流的機(jī)器學(xué)習(xí)方法進(jìn)行財(cái)務(wù)困境預(yù)測(cè),包括邏輯回歸、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林以及XGBoost[4,9,26]。邏輯回歸在線性回歸的基礎(chǔ)上增加了Sigmoid函數(shù)進(jìn)行非線性映射,以處理分類(lèi)問(wèn)題,并通過(guò)L1正則化防止過(guò)擬合[11]。支持向量機(jī)通過(guò)在特征空間中尋找最優(yōu)超平面,以最大化數(shù)據(jù)樣本中支持向量與超平面之間的間隔距離,并利用非線性核函數(shù)處理數(shù)據(jù)的線性不可分問(wèn)題[34]。標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)構(gòu)建以神經(jīng)元和激活函數(shù)為基礎(chǔ)的多層神經(jīng)網(wǎng)絡(luò),并通過(guò)后向傳播方法進(jìn)行參數(shù)優(yōu)化以訓(xùn)練模型[35]。隨機(jī)森林和XGBoost是基于多個(gè)決策樹(shù)方法的集成模型,并分別通過(guò)Bagging等[36]策略方法進(jìn)行集成學(xué)習(xí)。
本文選用了4個(gè)常用的評(píng)估指標(biāo)對(duì)模型的預(yù)測(cè)效果進(jìn)行度量[11,36-37],包括總準(zhǔn)確率、一型、二型準(zhǔn)確率和AUC(Area under the Receiver Operating Characteristic),分別表示模型將所有樣本、財(cái)務(wù)困境樣本和非財(cái)務(wù)困境樣本正確分類(lèi)的百分比。具體定義如下所示:
式中:TP(True Positive)為財(cái)務(wù)困境樣本被正確預(yù)測(cè)為財(cái)務(wù)困境的數(shù)量;FN (False Negative)為財(cái)務(wù)困境樣本被錯(cuò)誤預(yù)測(cè)為非財(cái)務(wù)困境的數(shù)量;TN(True Negative)為非財(cái)務(wù)困境樣本被正確預(yù)測(cè)為非財(cái)務(wù)困境的數(shù)量;FP(False Positive)為非財(cái)務(wù)困境公司被錯(cuò)誤預(yù)測(cè)為財(cái)務(wù)困境的數(shù)量。AUC指標(biāo)刻畫(huà)了模型對(duì)財(cái)務(wù)困境樣本及非財(cái)務(wù)困境樣本的綜合預(yù)測(cè)能力,通過(guò)ROC(Receiver Operating Characteristic)曲線下面積計(jì)算得到,其取值范圍在0 和1 之間,AUC越接近1,模型的預(yù)測(cè)效果越好。
本節(jié)采用美國(guó)上市公司在年度財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息進(jìn)行實(shí)證研究,檢驗(yàn)在定量指標(biāo)基礎(chǔ)上融入文本風(fēng)險(xiǎn)信息能否提升財(cái)務(wù)困境的預(yù)測(cè)效果,并分析了本研究提出的風(fēng)險(xiǎn)可能性指標(biāo)相比于常用文本特征指標(biāo)的重要度。
實(shí)證研究基于美國(guó)上市公司在年度財(cái)務(wù)報(bào)告Form 10-K 中的“Risk Factor”部分披露的文本風(fēng)險(xiǎn)信息數(shù)據(jù)。由于美國(guó)證券交易委員會(huì)從2005年開(kāi)始要求美國(guó)上市公司在財(cái)務(wù)報(bào)告中披露 “Risk Factor”部分,美國(guó)的上市公司在2006的年度財(cái)務(wù)報(bào)告中開(kāi)始披露文本風(fēng)險(xiǎn)信息,故樣本數(shù)據(jù)的時(shí)間區(qū)間確定為2006~2020年。從美國(guó)證券交易委員會(huì)的EDGAR 數(shù)據(jù)庫(kù)中收集公司的Form-10K 報(bào)表,并對(duì)“Risk Factor”部分的文本風(fēng)險(xiǎn)信息數(shù)據(jù)進(jìn)行提取和清洗,共得到8 071 家美國(guó)上市公司的81 167個(gè)年度文本風(fēng)險(xiǎn)信息數(shù)據(jù)。
為了分析引入文本風(fēng)險(xiǎn)信息后對(duì)公司財(cái)務(wù)困境預(yù)測(cè)的提升效果,綜合參考Altman[2]、陳藝云[17]及Mayew 等[4]研究中使用的定量指標(biāo),共選取了8個(gè)常用的財(cái)務(wù)和市場(chǎng)指標(biāo)作為比較基準(zhǔn),包括營(yíng)運(yùn)資本/總資產(chǎn)、留存收益/總資產(chǎn)、息稅前利潤(rùn)/總資產(chǎn)、權(quán)益市值/債務(wù)面值、銷(xiāo)售收入/總資產(chǎn)、波動(dòng)率、超額收益率和相對(duì)規(guī)模。剔除存在缺失值的公司樣本,得到35 058個(gè)年度樣本。
參考以往研究定義財(cái)務(wù)困境的方式[26],根據(jù)公司的退市代碼,將證券交易所強(qiáng)制退市(退市代碼在300~599之間)的公司作為財(cái)務(wù)困境樣本[26],其他公司作為非財(cái)務(wù)困境樣本。最終得到648個(gè)財(cái)務(wù)困境公司樣本,34 410個(gè)非財(cái)務(wù)困境樣本。公司的退市代碼和定量指標(biāo)都來(lái)自沃頓商學(xué)院數(shù)據(jù)庫(kù)(Wharton Research Data Services,WRDS)。
基于2.2節(jié)中的方法度量公司財(cái)務(wù)報(bào)告中文本風(fēng)險(xiǎn)信息的文本特征,包括本文提出的風(fēng)險(xiǎn)可能性指標(biāo)以及常見(jiàn)的情感、可讀性、長(zhǎng)度和樣板性指標(biāo)。表3所示為財(cái)務(wù)困境公司和非財(cái)務(wù)困境公司樣本的5 種文本特征指標(biāo)的均值、中位數(shù)和標(biāo)準(zhǔn)差。為了驗(yàn)證各文本特征指標(biāo)在兩類(lèi)公司樣本之間是否存在顯著差異,采用獨(dú)立樣本T檢驗(yàn)分別對(duì)各文本特征指標(biāo)進(jìn)行顯著性檢驗(yàn),并根據(jù)檢驗(yàn)結(jié)果T值的正負(fù)號(hào)分析文本特征指標(biāo)和公司財(cái)務(wù)困境之間的關(guān)系。
表3 文本特征指標(biāo)的統(tǒng)計(jì)檢驗(yàn)結(jié)果
由表3可見(jiàn),各文本特征指標(biāo)的T檢驗(yàn)結(jié)果都顯著,表明5個(gè)文本特征指標(biāo)在財(cái)務(wù)困境及非財(cái)務(wù)困境樣本之間的均值存在顯著差異。本文提出的風(fēng)險(xiǎn)可能性指標(biāo)的T檢驗(yàn)結(jié)果顯著為正,表明公司披露的文本風(fēng)險(xiǎn)信息的風(fēng)險(xiǎn)可能性指標(biāo)越高,更可能發(fā)生財(cái)務(wù)困境。初步驗(yàn)證了公司在披露文本風(fēng)險(xiǎn)信息時(shí)使用更高比重的強(qiáng)語(yǔ)氣情態(tài)動(dòng)詞,即認(rèn)為風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性更大時(shí),出現(xiàn)財(cái)務(wù)困境可能性更大。
由常用的文本特征指標(biāo)可以發(fā)現(xiàn),長(zhǎng)度和情感指標(biāo)的T檢驗(yàn)結(jié)果顯著為正,表明公司在披露的文本風(fēng)險(xiǎn)信息中內(nèi)容越多或情感越積極時(shí),發(fā)生財(cái)務(wù)困境的可能性越高;而可讀性及樣板性指標(biāo)的T檢驗(yàn)結(jié)果顯著為負(fù),表明公司披露的文本風(fēng)險(xiǎn)信息更難以被讀者理解,或與其他公司披露的文本風(fēng)險(xiǎn)信息的相似程度越低時(shí),發(fā)生財(cái)務(wù)困境的可能性越高。與以往研究基于MD&A 文本驗(yàn)證的情感越消極的公司更可能出現(xiàn)財(cái)務(wù)困境的結(jié)果相比[4,17],本文發(fā)現(xiàn),情感越積極的公司反而更可能發(fā)生財(cái)務(wù)困境,分析造成此差異的主要原因是,文本風(fēng)險(xiǎn)信息與MD&A 文本所披露的內(nèi)容在情感特征方面存在不同[27]。
為了驗(yàn)證本文引入文本風(fēng)險(xiǎn)信息對(duì)公司財(cái)務(wù)困境預(yù)測(cè)的提升效果,將現(xiàn)有研究[2,4,17]中常用的定量指標(biāo)(包括財(cái)務(wù)指標(biāo)和市場(chǎng)指標(biāo),具體見(jiàn)3.1節(jié))作為財(cái)務(wù)困境預(yù)測(cè)效果的比較基準(zhǔn)。如2.3節(jié)所示,采用常見(jiàn)的邏輯回歸、支持向量機(jī)、標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和XGBoost[4,9]5種模型,進(jìn)行財(cái)務(wù)困境預(yù)測(cè)。
由于上市公司的年度財(cái)務(wù)報(bào)告通常在會(huì)計(jì)年度結(jié)束后的4個(gè)月內(nèi)編制完成,可能導(dǎo)致公司t年陷入財(cái)務(wù)困境時(shí)t-1年的財(cái)務(wù)報(bào)告還未公布,故參考陳藝云[17]的方法,基于公司t-2年的數(shù)據(jù)建立模型預(yù)測(cè)其是否在t年陷入財(cái)務(wù)困境。在模型構(gòu)建過(guò)程中,邏輯回歸的正則化參數(shù)為5,支持向量機(jī)的核函數(shù)為高斯核函數(shù)、正則化參數(shù)為5,標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)共4層、隱藏層維度為10,隨機(jī)森林及XGBoost中基決策樹(shù)數(shù)量為100。模型的訓(xùn)練采用現(xiàn)有研究中常用的訓(xùn)練集80%、測(cè)試集20%樣本數(shù)據(jù)劃分方式[9]得到28 046個(gè)訓(xùn)練樣本及7 012個(gè)測(cè)試樣本??紤]各模型需要調(diào)整超參數(shù)以最優(yōu)化模型性能,從訓(xùn)練集中劃分出20%的樣本作為驗(yàn)證集,并采用網(wǎng)格搜索方法對(duì)各模型的超參數(shù)進(jìn)行尋優(yōu)。由于財(cái)務(wù)困境預(yù)測(cè)問(wèn)題中財(cái)務(wù)困境樣本的數(shù)量通常顯著少于非財(cái)務(wù)困境樣本,具有樣本不均衡的特點(diǎn),故采用代價(jià)敏感學(xué)習(xí)方法[38],對(duì)不同類(lèi)別樣本的分類(lèi)錯(cuò)誤賦以不同的懲罰權(quán)重,提高模型對(duì)財(cái)務(wù)困境類(lèi)樣本的重視程度,并通過(guò)網(wǎng)格搜索方法確定最優(yōu)的懲罰權(quán)重。采用5折交叉驗(yàn)證將各模型重復(fù)訓(xùn)練5次,在測(cè)試集上得到的準(zhǔn)確率的平均值作為最終的預(yù)測(cè)結(jié)果。
表4所示為基于定量指標(biāo)以及引入文本風(fēng)險(xiǎn)信息特征指標(biāo)后的財(cái)務(wù)困境預(yù)測(cè)結(jié)果?;诔R?jiàn)的定量指標(biāo)的財(cái)務(wù)困境預(yù)測(cè)結(jié)果中,XGBoost模型的AUC 值最高,為88.63%,對(duì)應(yīng)的總準(zhǔn)確率為81.49%,一型準(zhǔn)確率為81.46%,二型準(zhǔn)確率為81.50%。Mai等[9]基于美國(guó)上市公司定量指標(biāo)的AUC值為80.70%,呂喜梅等[11]基于中國(guó)上市公司定量指標(biāo)的AUC值為85.80%。對(duì)比發(fā)現(xiàn),本文基于定量指標(biāo)的AUC值較高,驗(yàn)證了定量指標(biāo)選取的合理性。
表4 引入文本指標(biāo)的財(cái)務(wù)困境預(yù)測(cè)結(jié)果對(duì)比 %
在定量指標(biāo)的基礎(chǔ)上引入文本風(fēng)險(xiǎn)信息的5個(gè)文本特征指標(biāo),對(duì)公司財(cái)務(wù)困境的預(yù)測(cè)結(jié)果顯示,各模型的預(yù)測(cè)效果都得到明顯提升,仍然是XGBoost模型的AUC 值最高,達(dá)到91.84%,對(duì)應(yīng)的總準(zhǔn)確率為84.22%,一型準(zhǔn)確率為84.15%,二型準(zhǔn)確率為84.22%,在僅使用定量指標(biāo)的基礎(chǔ)上分別提升了3.21%、2.73%、2.69%和3.22%。由實(shí)證結(jié)果可見(jiàn),公司在年度財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息可以作為常用的定量指標(biāo)的有效補(bǔ)充,采用風(fēng)險(xiǎn)可能性、長(zhǎng)度、情感、可讀性及樣板性文本特征指標(biāo)能夠從文本中提取有效信息,并提高定量指標(biāo)對(duì)財(cái)務(wù)困境的預(yù)測(cè)能力。
為了檢驗(yàn)相比于常用的文本特征指標(biāo),本文構(gòu)建的風(fēng)險(xiǎn)可能性指標(biāo)是否更適用于分析文本風(fēng)險(xiǎn)信息,本節(jié)對(duì)各個(gè)文本特征指標(biāo)在預(yù)測(cè)財(cái)務(wù)困境時(shí)的重要度進(jìn)行分析。在本文選用的5種機(jī)器學(xué)習(xí)模型中,隨機(jī)森林和XGBoost是基于決策樹(shù)的集成模型,不僅能夠預(yù)測(cè)公司是否陷入財(cái)務(wù)困境,而且能夠評(píng)估預(yù)測(cè)時(shí)各個(gè)特征指標(biāo)的重要性[39]?,F(xiàn)有研究通常通過(guò)基尼重要度指標(biāo)來(lái)度量此類(lèi)集成模型中特征指標(biāo)的重要性[39]。具體而言,在集成模型中的決策樹(shù)構(gòu)建過(guò)程中,需要根據(jù)特征變量對(duì)目標(biāo)變量的區(qū)分能力強(qiáng)弱選擇強(qiáng)特征作為樹(shù)節(jié)點(diǎn),區(qū)分能力的強(qiáng)弱則通過(guò)加入特征變量前后基尼系數(shù)的變化程度來(lái)刻畫(huà),即基尼重要指數(shù)。當(dāng)特征指標(biāo)的基尼重要指數(shù)越大,則表示該特征的重要度越大,在模型預(yù)測(cè)過(guò)程中所提供的信息量越多。因此,本文通過(guò)度量隨機(jī)森林和XGBoost模型中特征變量的基尼重要度,分析各類(lèi)文本特征指標(biāo)在財(cái)務(wù)困境預(yù)測(cè)中的重要度。
圖1 所示為本文構(gòu)建的風(fēng)險(xiǎn)可能性指標(biāo)以及4種金融文本中常用的情感、可讀性、樣板性、長(zhǎng)度和樣板性指標(biāo)的基尼重要度大小及其排序結(jié)果。由圖1可見(jiàn),無(wú)論在隨機(jī)森林還是XGBoost模型中,風(fēng)險(xiǎn)可能性指標(biāo)的基尼重要度都顯著高于4種常用的文本特征指標(biāo)。該結(jié)果表明,對(duì)于公司在年度財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息,本文根據(jù)該文本特點(diǎn)構(gòu)建的風(fēng)險(xiǎn)可能性指標(biāo)更適用于提取該文本中包含的重要信息。在實(shí)際中,利用公司披露的文本風(fēng)險(xiǎn)信息評(píng)估財(cái)務(wù)困境時(shí),應(yīng)當(dāng)充分關(guān)注公司在描述文本內(nèi)容時(shí)的語(yǔ)氣強(qiáng)弱。當(dāng)文本中情態(tài)動(dòng)詞的語(yǔ)氣越強(qiáng),說(shuō)明披露的風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性越大,該公司陷入財(cái)務(wù)困境的概率越大。
圖1 文本特征指標(biāo)的基尼重要指數(shù)大小排序
對(duì)公司財(cái)務(wù)困境的預(yù)警越早,越有利于市場(chǎng)投資者及時(shí)避免財(cái)務(wù)困境造成的風(fēng)險(xiǎn)損失。因此,本節(jié)通過(guò)分析隨著財(cái)務(wù)困境預(yù)測(cè)的時(shí)間窗口的提前,模型效果的變化情況,探究公司在年報(bào)中披露的文本風(fēng)險(xiǎn)信息能否提供更早的財(cái)務(wù)困境預(yù)警信號(hào)。在3.2節(jié)使用公司t-2年的信息預(yù)測(cè)t年是否陷入財(cái)務(wù)困境的基礎(chǔ)上,分別使用公司t-3、t-4年的信息預(yù)測(cè)t年是否陷入財(cái)務(wù)困境。為了確保不同預(yù)測(cè)時(shí)長(zhǎng)下結(jié)果的可對(duì)比性,各模型的構(gòu)建及訓(xùn)練過(guò)程與3.2節(jié)保持一致。
圖2所示為不同預(yù)測(cè)時(shí)長(zhǎng)下,僅使用定量指標(biāo)及引入刻畫(huà)財(cái)務(wù)報(bào)告中文本風(fēng)險(xiǎn)信息的文本特征指標(biāo)后,運(yùn)用各類(lèi)模型進(jìn)行財(cái)務(wù)困境預(yù)測(cè)得到的AUC值。由圖2各子圖中實(shí)線(左邊坐標(biāo)軸)可見(jiàn),隨著預(yù)測(cè)時(shí)長(zhǎng)從提前2年增加至提前4年,無(wú)論是僅使用定量指標(biāo),還是引入文本特征指標(biāo)后,各類(lèi)模型預(yù)測(cè)效果的AUC 值都有所降低。此結(jié)果與Mayew等[4]和Mai等[9]基于MD&A 文本進(jìn)行不同時(shí)長(zhǎng)的財(cái)務(wù)困境預(yù)測(cè)的研究結(jié)論一致,在預(yù)測(cè)公司未來(lái)更遠(yuǎn)的財(cái)務(wù)困境時(shí),僅使用定量指標(biāo)或引入文本信息后所能提供的有效信息量會(huì)減少。值得注意的是,在定量指標(biāo)基礎(chǔ)上引入文本特征指標(biāo)后,各類(lèi)機(jī)器學(xué)習(xí)方法的預(yù)測(cè)效果AUC值的下降趨勢(shì)更為緩慢。
圖2 不同預(yù)測(cè)時(shí)長(zhǎng)下各類(lèi)模型的財(cái)務(wù)困境預(yù)測(cè)效果
進(jìn)一步分別計(jì)算在2年、3年及4年的預(yù)測(cè)時(shí)長(zhǎng)下,引入文本特征指標(biāo)前后AUC 值的變化。由圖2各子圖中虛線(右邊坐標(biāo)軸)可見(jiàn),在5類(lèi)機(jī)器學(xué)習(xí)方法下,隨著預(yù)測(cè)時(shí)長(zhǎng)的增加,從文本風(fēng)險(xiǎn)信息中提取的文本特征對(duì)預(yù)測(cè)效果AUC 值的提升值變得更大。該結(jié)果表明,定量指標(biāo)的預(yù)測(cè)能力隨時(shí)間窗口的提前逐漸下降;與此相反,本文引入的公司在財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息的預(yù)測(cè)能力并沒(méi)有下降,反而隨著預(yù)測(cè)時(shí)間的提前能夠提供更多的信息。本文分析主要原因是,相比于刻畫(huà)公司當(dāng)前經(jīng)營(yíng)情況的財(cái)務(wù)及市場(chǎng)定量指標(biāo),財(cái)務(wù)報(bào)告中的文本風(fēng)險(xiǎn)信息更為前瞻地披露了公司未來(lái)可能面臨的風(fēng)險(xiǎn)情況[27],從而能夠提供更早的預(yù)警信息。因此,運(yùn)用財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息來(lái)輔助財(cái)務(wù)困境預(yù)測(cè)是必要且有效的。
在3.2節(jié)中是采用訓(xùn)練集80%、測(cè)試集20%的方式隨機(jī)劃分的數(shù)據(jù)集,除此之外,按年份時(shí)間節(jié)點(diǎn)劃分?jǐn)?shù)據(jù)集也是一類(lèi)常用的方式[17,28]。為了檢驗(yàn)3.2節(jié)的結(jié)論是否受到數(shù)據(jù)集劃分方式的影響,將2006~2015年、2016~2020年間的公司樣本分別作為訓(xùn)練集和測(cè)試集,重復(fù)3.2節(jié)中模型的訓(xùn)練及測(cè)試得到財(cái)務(wù)困境預(yù)測(cè)結(jié)果。由表5可見(jiàn),在定量指標(biāo)的基礎(chǔ)上,引入公司在財(cái)務(wù)報(bào)告中披露的文本風(fēng)險(xiǎn)信息后,各類(lèi)模型的效果依然有顯著的提升,XGBoost模型的AUC 值最高,為88.87%,共提升了3.55%。此結(jié)果表明,在不同的數(shù)據(jù)集劃分方式下,在定量指標(biāo)基礎(chǔ)上融入文本風(fēng)險(xiǎn)信息依然能夠顯著提升財(cái)務(wù)困境的預(yù)測(cè)效果,驗(yàn)證了3.2節(jié)結(jié)論的穩(wěn)健性。
表5 按時(shí)間劃分樣本數(shù)據(jù)集的結(jié)果 %
財(cái)務(wù)困境預(yù)測(cè)問(wèn)題一般存在著顯著的樣本不均衡問(wèn)題,由于財(cái)務(wù)困境樣本的數(shù)量通常顯著小于非財(cái)務(wù)困境樣本,模型會(huì)傾向于將未知公司樣本預(yù)測(cè)為非財(cái)務(wù)困境類(lèi),從而導(dǎo)致模型難以正確預(yù)測(cè)財(cái)務(wù)困境樣本。在3.2 節(jié)中,采用了代價(jià)敏感學(xué)習(xí)方法[38]增加了損失函數(shù)中財(cái)務(wù)困境類(lèi)樣本的權(quán)重,以處理樣本不均衡問(wèn)題。除此之外,在數(shù)據(jù)預(yù)處理階段,對(duì)訓(xùn)練樣本進(jìn)行重新采樣也是一類(lèi)常見(jiàn)的樣本不均衡處理方法[40],如過(guò)采樣方法生成額外的少數(shù)類(lèi)樣本,或下采樣方法去除部分多數(shù)類(lèi)樣本,從而使訓(xùn)練樣本中的各類(lèi)樣本達(dá)到均衡。為了檢驗(yàn)3.2節(jié)的結(jié)論是否會(huì)受到樣本不均衡處理方法的影響,分別引入常用的SMOTE(Synthetic Minority Oversampling Technique)過(guò)采樣方法及隨機(jī)下采樣方法[40],對(duì)原始樣本進(jìn)行處理,采樣結(jié)果如表6所示。
表6 不均衡財(cái)務(wù)困境樣本重新采樣后的樣本分布
基于兩類(lèi)重新采樣后的樣本得出的財(cái)務(wù)困境預(yù)測(cè)結(jié)果如圖3 所示。與3.2 節(jié)中的結(jié)論一致,不論采用過(guò)采樣還是下采樣方法,在定量指標(biāo)的基礎(chǔ)上引入文本風(fēng)險(xiǎn)信息后,各類(lèi)模型的預(yù)測(cè)效果AUC值都有顯著提升,證明了研究結(jié)論的有效性和穩(wěn)健型。
圖3 基于過(guò)采樣和下采樣樣本不均衡處理方法的預(yù)測(cè)效果
本文引入公司在財(cái)務(wù)報(bào)告中以文本形式披露的風(fēng)險(xiǎn)信息進(jìn)行財(cái)務(wù)困境預(yù)測(cè),并構(gòu)建了能刻畫(huà)所披露風(fēng)險(xiǎn)對(duì)公司產(chǎn)生影響的可能性大小的文本特征指標(biāo),與其他常用文本特征指標(biāo)作為機(jī)器學(xué)習(xí)方法的預(yù)測(cè)變量,以進(jìn)行財(cái)務(wù)困境的預(yù)測(cè)?;?006~2020年美國(guó)35 706個(gè)上市公司年度樣本進(jìn)行實(shí)證研究,主要結(jié)論包括:
(1) 在常用的財(cái)務(wù)及市場(chǎng)各類(lèi)定量指標(biāo)的基礎(chǔ)上,引入公司披露的文本風(fēng)險(xiǎn)信息可以顯著提升財(cái)務(wù)困境預(yù)測(cè)的準(zhǔn)確率。
(2) 與情感、可讀性、樣板性等常見(jiàn)的文本特征指標(biāo)相比,本文構(gòu)建的風(fēng)險(xiǎn)可能性指標(biāo)更適用于分析財(cái)務(wù)報(bào)告中的風(fēng)險(xiǎn)信息,且該指標(biāo)越大,即公司受所披露風(fēng)險(xiǎn)影響的可能性越大時(shí),公司越有可能出現(xiàn)財(cái)務(wù)困境。
(3) 隨著財(cái)務(wù)困境預(yù)測(cè)時(shí)間窗口的提前,引入的文本風(fēng)險(xiǎn)信息能夠更為顯著地提升預(yù)測(cè)效果,即文本風(fēng)險(xiǎn)信息能夠?yàn)樨?cái)務(wù)困境提供較早的預(yù)警信息。
研究結(jié)果可以為市場(chǎng)參與者、監(jiān)管機(jī)構(gòu)在分析公司的財(cái)務(wù)困境風(fēng)險(xiǎn)時(shí)提供新的數(shù)據(jù)視角,除了分析公司的財(cái)務(wù)、市場(chǎng)等各類(lèi)定量數(shù)據(jù),還應(yīng)當(dāng)重點(diǎn)關(guān)注公司在財(cái)務(wù)報(bào)告中以文本形式披露的信息。未來(lái)研究可以考慮來(lái)自監(jiān)管機(jī)構(gòu)的問(wèn)詢(xún)函、公司披露的關(guān)聯(lián)交易公告等多種類(lèi)型的文本信息,從更多的角度分析公司的經(jīng)營(yíng)和財(cái)務(wù)狀況,以幫助預(yù)測(cè)公司是否會(huì)陷入財(cái)務(wù)困境。