張 熠,徐 陽(yáng),李維萍
(南京審計(jì)大學(xué) 信息工程學(xué)院,江蘇 南京 211815)
近些年來(lái),我國(guó)上市公司違規(guī)丑聞?lì)l發(fā),對(duì)投資者的決策以及證券市場(chǎng)的秩序都造成了巨大影響,甚至影響國(guó)家的經(jīng)濟(jì)運(yùn)行。因此目前識(shí)別上市公司違規(guī)的研究層出不窮。傳統(tǒng)違規(guī)識(shí)別是基于年報(bào)中的結(jié)構(gòu)化數(shù)據(jù)構(gòu)建財(cái)務(wù)指標(biāo)。隨著文本分析技術(shù)的不斷發(fā)展,學(xué)者們開(kāi)始重視年報(bào)中的非結(jié)構(gòu)化數(shù)據(jù)即文本數(shù)據(jù),利用文本分析技術(shù)提取文本信息,構(gòu)建語(yǔ)義、語(yǔ)調(diào)等相關(guān)指標(biāo)用于違規(guī)預(yù)測(cè)?!豆_(kāi)發(fā)行證券的公司信息披露內(nèi)容與格式準(zhǔn)則第2號(hào)——年度報(bào)告的內(nèi)容與格式(2021年修訂)》中指出,公司年報(bào)中應(yīng)該包括經(jīng)營(yíng)情況討論與分析、董事會(huì)報(bào)告、監(jiān)事會(huì)報(bào)告等內(nèi)容。這些非結(jié)構(gòu)化文本主觀性強(qiáng),其編寫(xiě)者更有可能對(duì)其進(jìn)行粉飾夸大甚至編制虛假財(cái)務(wù)報(bào)告,從而造成重大錯(cuò)報(bào)風(fēng)險(xiǎn)。在傳統(tǒng)審計(jì)工作中,隨著企業(yè)規(guī)模擴(kuò)大,企業(yè)的經(jīng)濟(jì)活動(dòng)愈加復(fù)雜,審計(jì)工作量也隨之變大,多數(shù)情況下在審計(jì)過(guò)程中發(fā)現(xiàn)的都是財(cái)務(wù)報(bào)表中存在的技術(shù)性錯(cuò)誤,審計(jì)風(fēng)險(xiǎn)依然存在。此外,在有限的時(shí)間內(nèi),注冊(cè)會(huì)計(jì)師在審計(jì)時(shí)會(huì)依據(jù)經(jīng)驗(yàn)將注意力更多地放置在高風(fēng)險(xiǎn)領(lǐng)域。而隨著時(shí)間的推移,企業(yè)的違規(guī)手段愈加復(fù)雜和隱蔽,僅僅依靠審計(jì)師的經(jīng)驗(yàn)和傳統(tǒng)的財(cái)務(wù)報(bào)告分析手段并不能識(shí)別出更多的違規(guī)行為。因此根據(jù)傳統(tǒng)的審計(jì)模式與方法,審計(jì)人員仍有較大造成審計(jì)失敗的風(fēng)險(xiǎn)。為了進(jìn)一步規(guī)避審計(jì)風(fēng)險(xiǎn)、減少審計(jì)失敗,亟需提高注冊(cè)會(huì)計(jì)師識(shí)別企業(yè)違規(guī)的能力。本文基于Brown的思想,利用LDA(Latent Dirichlet Allocation)主題模型提取上市公司年報(bào)的潛在主題內(nèi)容,構(gòu)建主題指標(biāo),捕獲年報(bào)中管理者是否存在違規(guī)意圖并獲得審計(jì)線索。與傳統(tǒng)的審計(jì)模式相比,利用主題挖掘技術(shù)可以更快速地鎖定更多的審計(jì)疑點(diǎn),降低審計(jì)風(fēng)險(xiǎn),提高審計(jì)效率,輔助注冊(cè)會(huì)計(jì)師更精準(zhǔn)、更快速地判斷上市公司是否存在違規(guī)行為并出具正確的審計(jì)意見(jiàn)。
由于我國(guó)的審查制度以及相關(guān)的法律法規(guī)等都在不斷完善,對(duì)于常用的違規(guī)手段都能夠監(jiān)察到位,但仍有上市公司為了謀取巨額利潤(rùn)而鋌而走險(xiǎn)。為了避免被審計(jì)人員發(fā)現(xiàn)其違規(guī)行為,上市公司的違規(guī)手段也在隨著時(shí)間的推移不斷地發(fā)生變化,采用更新穎、更隱蔽的違規(guī)方法與手段。為了探究基于年報(bào)文本所構(gòu)建的主題指標(biāo)是否可以識(shí)別出不斷變化的違規(guī)手法,本文采用滾動(dòng)窗口的方法來(lái)研究年報(bào)主題與上市公司是否存在違規(guī)行為之間的相關(guān)性,并觀察各時(shí)間窗口內(nèi)與違規(guī)相關(guān)的主題的演化情況。同時(shí),為了檢驗(yàn)主題指標(biāo)是否可有效地對(duì)年報(bào)中的違規(guī)進(jìn)行預(yù)測(cè),本文在每個(gè)時(shí)間窗口上運(yùn)行LDA主題模型構(gòu)建主題指標(biāo),基于主題指標(biāo)運(yùn)用多種機(jī)器學(xué)習(xí)算法構(gòu)建上市公司違規(guī)預(yù)測(cè)模型,并對(duì)每個(gè)時(shí)間窗口后一年的違規(guī)情況進(jìn)行預(yù)測(cè)。此外,由于違規(guī)樣本占比較低,樣本數(shù)據(jù)存在不平衡現(xiàn)象,本文使采用多種指標(biāo)評(píng)估了模型的預(yù)測(cè)能力并對(duì)主題指標(biāo)、財(cái)務(wù)指標(biāo)、文本特征指標(biāo)以及合并指標(biāo)的預(yù)測(cè)效果進(jìn)行了對(duì)比分析。
本文的主要貢獻(xiàn)主要體現(xiàn)在:首先,不同于之前研究中用到的傳統(tǒng)財(cái)務(wù)指標(biāo)和文本特征指標(biāo),本文通過(guò)挖掘銀行年報(bào)的潛在主題信息來(lái)構(gòu)建主題指標(biāo),并用于對(duì)上市公司違規(guī)識(shí)別,且提升了傳統(tǒng)指標(biāo)違規(guī)識(shí)別的準(zhǔn)確性,進(jìn)一步降低了審計(jì)風(fēng)險(xiǎn)并提升了審計(jì)效率。其次,本文分析了主題指標(biāo)與違規(guī)的相關(guān)性以及與違規(guī)顯著相關(guān)的主題隨時(shí)間推移呈現(xiàn)的變化情況,得到了盡管違規(guī)手法愈加隱蔽且復(fù)雜,主題指標(biāo)仍可以有效識(shí)別的結(jié)論。最后,在相同的輸入樣本的基礎(chǔ)上,檢驗(yàn)了不同指標(biāo)體系、不同機(jī)器學(xué)習(xí)算法在上市銀行違規(guī)識(shí)別上的優(yōu)劣,找到了更為高效的智能化違規(guī)識(shí)別方法。
關(guān)于上市公司違規(guī)識(shí)別的研究可以劃分為兩個(gè)方面,分別是基于財(cái)務(wù)信息的違規(guī)識(shí)別研究以及基于非財(cái)務(wù)信息的違規(guī)識(shí)別研究。在傳統(tǒng)的基于結(jié)構(gòu)化財(cái)務(wù)數(shù)據(jù)預(yù)測(cè)上市公司違規(guī)的研究中,為了識(shí)別多種類(lèi)型的違規(guī),所選變量應(yīng)盡量涵蓋公司業(yè)績(jī)的各個(gè)方面,因此一般所使用的初始財(cái)務(wù)變量呈現(xiàn)出數(shù)量多且復(fù)雜的特點(diǎn)。Dechow等為了發(fā)現(xiàn)美國(guó)上市公司存在的財(cái)務(wù)舞弊現(xiàn)象,從應(yīng)計(jì)質(zhì)量、財(cái)務(wù)績(jī)效、非財(cái)務(wù)績(jī)效、表外活動(dòng)和資本市場(chǎng)等五個(gè)方面選擇28個(gè)結(jié)構(gòu)化變量,建立舞弊識(shí)別模型。針對(duì)中國(guó)上市公司的舞弊現(xiàn)象,有研究也從財(cái)務(wù)杠桿、營(yíng)運(yùn)能力、盈利能力等方面選擇財(cái)務(wù)變量構(gòu)建舞弊識(shí)別模型。盡管常規(guī)的財(cái)務(wù)指標(biāo)在違規(guī)預(yù)測(cè)中可以表現(xiàn)出很好的預(yù)測(cè)性能,但在財(cái)務(wù)變量的選取過(guò)程中存在較強(qiáng)的主觀性,對(duì)模型的分類(lèi)效果也存在相應(yīng)的干擾。同時(shí)隨著上市公司違規(guī)手法的愈加高明與隱蔽,僅利用財(cái)務(wù)指標(biāo)也無(wú)法識(shí)別出更多的違規(guī)現(xiàn)象。有研究發(fā)現(xiàn),與財(cái)務(wù)信息相比,非財(cái)務(wù)信息在反映公司經(jīng)營(yíng)活動(dòng)和未來(lái)發(fā)展前景上表現(xiàn)更加突出。隨著文本分析技術(shù)和自然語(yǔ)言處理技術(shù)的不斷發(fā)展,學(xué)者們便將注意力轉(zhuǎn)移到年報(bào)中的文本上,并利用年報(bào)文本構(gòu)建相關(guān)指標(biāo)從而挖掘年報(bào)文本與違規(guī)之間的內(nèi)在聯(lián)系。有研究發(fā)現(xiàn)舞弊公司年報(bào)中的管理層與討論(MD&A)部分中會(huì)增加美化公司績(jī)效的內(nèi)容。此外,與非舞弊年報(bào)相比,舞弊年報(bào)中的句子會(huì)較多使用被動(dòng)語(yǔ)態(tài)和不確定的詞匯。國(guó)內(nèi)在這方面的研究主要基于情感分析,研究發(fā)現(xiàn)年報(bào)中的情感特征有助于財(cái)務(wù)舞弊的識(shí)別。通過(guò)梳理國(guó)內(nèi)外的研究發(fā)現(xiàn),用于識(shí)別違規(guī)的文本特征指標(biāo)主要涉及文本語(yǔ)調(diào)、可讀性、相似性等,但以上指標(biāo)只能反映文本披露形式,并不能揭示文本披露信息的內(nèi)在含義。本文通過(guò)對(duì)年報(bào)文本進(jìn)行主題挖掘,提取年報(bào)潛在主題信息并構(gòu)建適合中國(guó)市場(chǎng)的違規(guī)識(shí)別模型,可以輔助注冊(cè)會(huì)計(jì)師發(fā)現(xiàn)更多的審計(jì)疑點(diǎn),從而進(jìn)一步規(guī)避了審計(jì)風(fēng)險(xiǎn)。
本文利用LDA主題模型提取年報(bào)潛在主題。LDA主題模型由Blei等人在2003年提出,該主題模型是一個(gè)概率主題模型,通過(guò)建模后可獲得文本所對(duì)應(yīng)的主題概率分布。目前在國(guó)內(nèi)LDA主題模型主要用于社交網(wǎng)絡(luò)、情報(bào)分析等領(lǐng)域。如關(guān)鵬等將LDA主題模型應(yīng)用在科技情報(bào)分析中,對(duì)基于不同科學(xué)文獻(xiàn)文本語(yǔ)料庫(kù)而建立的模型的主題發(fā)現(xiàn)效果進(jìn)行對(duì)比評(píng)價(jià)。目前將LDA主題模型應(yīng)用到經(jīng)濟(jì)和金融領(lǐng)域的研究較少,有研究將LDA主題模型應(yīng)用到財(cái)經(jīng)新聞文本上并基于此分析主題強(qiáng)度與孟買(mǎi)股票交易所敏感指數(shù)的每日收盤(pán)價(jià)等指標(biāo)之間的相關(guān)關(guān)系,并將主題熱度用于預(yù)測(cè)指數(shù)的漲跌。近幾年在國(guó)內(nèi)也有學(xué)者將LDA主題模型應(yīng)用到財(cái)經(jīng)文本上,在此基礎(chǔ)上研究主題的強(qiáng)度、熱度或其他特征,并將結(jié)果進(jìn)行可視化。如傅魁等人對(duì)LDA主題模型進(jìn)行擴(kuò)展,提出SGC-LDA財(cái)經(jīng)文本主題研究模型。
綜上,國(guó)內(nèi)外的學(xué)者們?cè)跇?gòu)建違規(guī)預(yù)測(cè)模型時(shí)關(guān)注到了財(cái)務(wù)信息與文本披露的形式,并基于此來(lái)構(gòu)建財(cái)務(wù)指標(biāo)和文本特征指標(biāo),但較少研究年報(bào)中所披露的主題內(nèi)容并將其應(yīng)用于上市公司違規(guī)識(shí)別中。本文采用LDA主題模型對(duì)年報(bào)文本建模,構(gòu)建反映文本語(yǔ)義的主題指標(biāo),并用于識(shí)別上市銀行是否存在違規(guī)行為。與財(cái)務(wù)指標(biāo)和文本特征指標(biāo)相比,主題指標(biāo)蘊(yùn)含了更為豐富的上下文信息和語(yǔ)義信息,從理論上來(lái)說(shuō)可以更為準(zhǔn)確地識(shí)別出公司管理者是否有違規(guī)意圖。因此與單一傳統(tǒng)指標(biāo)相比,基于主題指標(biāo)的違規(guī)識(shí)別模型打破了原有的審計(jì)模式,充分利用中文年報(bào)的非財(cái)務(wù)信息,將主題挖掘技術(shù)運(yùn)用到審計(jì)中,幫助注冊(cè)會(huì)計(jì)師更快速獲得豐富的審計(jì)線索,從而減少審計(jì)失敗的可能性,更大程度地規(guī)避審計(jì)風(fēng)險(xiǎn)。目前在國(guó)內(nèi)還沒(méi)有將年報(bào)主題信息用于違規(guī)識(shí)別方面的研究,因此研究文本主題指標(biāo)與違規(guī)之間的聯(lián)系對(duì)于中國(guó)市場(chǎng)來(lái)說(shuō)具有重要意義。
我國(guó)年報(bào)中披露的管理層討論與分析、董事會(huì)報(bào)告等文本信息不僅總結(jié)了公司上一年的經(jīng)營(yíng)成果、財(cái)務(wù)狀況,也對(duì)公司即將要發(fā)生的重大事項(xiàng)和未來(lái)可能發(fā)生的變化進(jìn)行了討論與分析,因此年度報(bào)告中的文本數(shù)據(jù)可以反映公司將來(lái)的發(fā)展風(fēng)險(xiǎn)和趨勢(shì)。此外,在上市公司年報(bào)中,文本數(shù)據(jù)所占篇幅明顯高于財(cái)務(wù)數(shù)據(jù),尤其在近幾年,年報(bào)篇幅逐漸增加,除去三大報(bào)表,非結(jié)構(gòu)化文本占比明顯上升。因此通過(guò)對(duì)上市公司年報(bào)中的文本信息進(jìn)行挖掘和分析,了解公司整體的業(yè)績(jī)和發(fā)展趨勢(shì),可以獲取更多的有效信息,無(wú)論是對(duì)于投資者的選擇,還是注冊(cè)會(huì)計(jì)師的決策,都是不可缺少的。
即使上市公司年報(bào)文本中蘊(yùn)含著豐富的信息,但由于文本篇幅過(guò)長(zhǎng),完全依靠人工閱讀、理解并直接提取文本中的有效信息難度非常大,且效率非常低。因此在本文中使用LDA主題模型對(duì)年報(bào)文本潛在的主題進(jìn)行挖掘。主題挖掘是利用主題模型挖掘語(yǔ)料中的隱藏信息,發(fā)現(xiàn)一系列非結(jié)構(gòu)化文本中的主題,也就是找出表達(dá)文本中心思想的主題詞。同時(shí),本文選用LDA主題模型這一最為通用的主題模型,提取具有語(yǔ)義信息的主題。因此,采用LDA主題模型所發(fā)掘出的年報(bào)文本的主題信息可以很好地反映出年報(bào)的潛在語(yǔ)義。由于年報(bào)中的非結(jié)構(gòu)化文本在編寫(xiě)時(shí)自由度較大,主觀性較強(qiáng),可以傳達(dá)公司許多內(nèi)部信息,管理者為了牟利或掩蓋本身經(jīng)營(yíng)問(wèn)題可能會(huì)對(duì)年報(bào)文字部分進(jìn)行美化,在用詞遣句上避重就輕或進(jìn)行選擇性披露,導(dǎo)致其年報(bào)文本內(nèi)容發(fā)生變化,繼而導(dǎo)致使用LDA主題模型對(duì)年度報(bào)告挖掘后得到的主題信息也會(huì)發(fā)生改變。因此,年報(bào)文本主題是與上市公司違規(guī)顯著相關(guān)的,通過(guò)年報(bào)主題可以反映出由于要掩蓋違規(guī)行為所導(dǎo)致的年報(bào)內(nèi)容的變化。此外,隨著時(shí)間的推移,我國(guó)的會(huì)計(jì)準(zhǔn)則、審計(jì)準(zhǔn)則和監(jiān)管手段也在不斷進(jìn)行修正與完善,在一定程度上阻止了某些違規(guī)行為的出現(xiàn),但總會(huì)產(chǎn)生一些新的違規(guī)手段與方法,為了避免被審計(jì)人員發(fā)現(xiàn),發(fā)生違規(guī)行為的年報(bào)中討論的重點(diǎn)會(huì)隨著時(shí)間的推移而變化,即可用于識(shí)別違規(guī)行為的主題并不是一成不變的,會(huì)隨著違規(guī)手段的變化而變化。因此,可利用年報(bào)文本的主題信息去識(shí)別新出現(xiàn)的且更隱蔽的違規(guī)行為。基于以上的理論分析,本文提出假設(shè)H1。
H1:年報(bào)文本主題會(huì)隨著上市公司違規(guī)手段的變化而發(fā)生變化。
目前識(shí)別上市公司違規(guī)的方法大多是基于結(jié)構(gòu)化的財(cái)務(wù)數(shù)據(jù)或股票市場(chǎng)數(shù)據(jù),但利用此類(lèi)數(shù)據(jù)存在的一個(gè)缺點(diǎn)是違規(guī)公司會(huì)故意操縱當(dāng)期的績(jī)效指標(biāo)和會(huì)計(jì)交易數(shù)據(jù)以便與本公司之前的業(yè)績(jī)數(shù)據(jù)或同行的業(yè)績(jī)數(shù)據(jù)保持一致,使得違規(guī)行為不易被發(fā)現(xiàn),而且有研究指出結(jié)構(gòu)化的財(cái)務(wù)報(bào)表數(shù)據(jù)可提供給投資者的信息是有限的。因此,僅僅利用財(cái)務(wù)指標(biāo)構(gòu)建的違規(guī)識(shí)別模型的效果存在一定的不足。為了彌補(bǔ)財(cái)務(wù)數(shù)據(jù)的缺陷,研究人員利用財(cái)務(wù)報(bào)告中的非結(jié)構(gòu)化文本數(shù)據(jù)去發(fā)現(xiàn)上市公司是否違規(guī)。有研究利用年報(bào)文本的語(yǔ)言結(jié)構(gòu)特征來(lái)構(gòu)建與違規(guī)相關(guān)的指標(biāo),如文本可讀性、語(yǔ)調(diào)等。盡管研究發(fā)現(xiàn)利用文本特征指標(biāo)來(lái)識(shí)別舞弊有一定的效果,但在一些研究中對(duì)于文本特征指標(biāo)仍然存在質(zhì)疑,即文本特征是否可以真正捕獲到管理者違規(guī)的意圖。有語(yǔ)言學(xué)研究表明,很難從披露文本的文本特征中辨別出其中是否存在欺騙或混淆視聽(tīng)的內(nèi)容。此外,Loughran和McDonald指出常用的文本語(yǔ)言特征指標(biāo)并不能反映出文本的上下文和語(yǔ)義信息,從而導(dǎo)致利用文本語(yǔ)言特征指標(biāo)建立的違規(guī)識(shí)別模型效果就會(huì)有所限制。為了進(jìn)一步提升違規(guī)識(shí)別模型的效果,本文基于Brown的思想,運(yùn)用LDA主題模型構(gòu)造年報(bào)的主題指標(biāo),提取年報(bào)文本中潛在的語(yǔ)義信息,反映出年報(bào)文本表達(dá)的真正含義并捕獲公司管理者的違規(guī)意圖。綜上,基于年報(bào)非結(jié)構(gòu)化文本的主題指標(biāo)不僅蘊(yùn)含豐富信息,還具有語(yǔ)義內(nèi)涵,可以反映出文本披露的具體內(nèi)容,可以彌補(bǔ)財(cái)務(wù)指標(biāo)和文本特征指標(biāo)在預(yù)測(cè)違規(guī)時(shí)的不足。因此,相對(duì)而言,在傳統(tǒng)單一指標(biāo)的基礎(chǔ)上,主題指標(biāo)可以提升識(shí)別上市公司違規(guī)的性能?;谝陨戏治?,本文提出假設(shè)2。
H2:在財(cái)務(wù)指標(biāo)和文本特征指標(biāo)的基礎(chǔ)上,年報(bào)文本主題指標(biāo)可以進(jìn)一步提升違規(guī)識(shí)別模型的性能。
由于我國(guó)相關(guān)的法律法規(guī)等都在不斷推進(jìn),若選擇時(shí)間過(guò)早的樣本,樣本對(duì)應(yīng)的上市銀行的治理結(jié)構(gòu)、經(jīng)營(yíng)環(huán)境間存在著較大差異,導(dǎo)致樣本數(shù)據(jù)不可比。另外考慮到近期產(chǎn)生違規(guī)的公司還未被證監(jiān)會(huì)認(rèn)定,同時(shí)為了研究用于預(yù)測(cè)違規(guī)主題的變化過(guò)程,本文選取我國(guó)36家A股上市銀行在2010—2019年間發(fā)布的年報(bào)作為研究樣本。其中上市銀行的年度報(bào)告均從巨潮資訊網(wǎng)中下載得到;文本語(yǔ)言特征數(shù)據(jù)是對(duì)銀行年報(bào)進(jìn)行文本分析以及人工計(jì)算整理的方式取得;財(cái)務(wù)數(shù)據(jù)來(lái)自于國(guó)泰安數(shù)據(jù)庫(kù)。最終本文得到215個(gè)公司-年度層面的上市公司數(shù)據(jù)。
1.被解釋變量
本文的被解釋變量為是否違規(guī)(),違規(guī)數(shù)據(jù)來(lái)源于國(guó)泰安經(jīng)濟(jì)金融研究數(shù)據(jù)庫(kù)()和色諾芬數(shù)據(jù)庫(kù)(),并經(jīng)過(guò)人工合并得到。若上市公司在上期年報(bào)和當(dāng)期年報(bào)發(fā)布之間發(fā)生了違規(guī)行為,則將上市公司當(dāng)期樣本的變量賦值為1,若上市公司未發(fā)生違規(guī),則賦值為0。最終本文得到68個(gè)違規(guī)樣本,147個(gè)非違規(guī)樣本。
表1 主題指標(biāo)變量定義
2.解釋變量
本文的解釋變量為文本的主題指標(biāo)變量。同時(shí)為了對(duì)比主題指標(biāo)的預(yù)測(cè)效果,本文將財(cái)務(wù)變量、文本特征變量也作為解釋變量。
(1)主題指標(biāo)變量()
本文使用LDA主題模型進(jìn)行年報(bào)主題指標(biāo)的構(gòu)建。LDA主題模型可以得到相應(yīng)數(shù)據(jù)集的兩個(gè)概率分布,分別是“文檔-主題”概率分布以及“主題-詞”概率分布,其中“文檔-主題”概率分布就是我們所構(gòu)建的主題指標(biāo)。此外,為了研究隨著時(shí)間推移,與違規(guī)相關(guān)的主題指標(biāo)的變化情況,本文采取滾動(dòng)窗口的方式,將2010—2019年的樣本區(qū)間劃分為五個(gè)時(shí)間窗口,在五個(gè)時(shí)間窗口上分別運(yùn)行LDA主題模型并構(gòu)建相應(yīng)的主題指標(biāo)。表1呈現(xiàn)了每個(gè)時(shí)間窗口所構(gòu)建的主題指標(biāo)變量的定義。LDA主題模型是無(wú)監(jiān)督機(jī)器學(xué)習(xí)模型,只需提供文本集合和要生成的主題數(shù)。其中主題數(shù)對(duì)于LDA主題模型的聚類(lèi)效果有很大影響。但目前如何得到主題模型的最優(yōu)主題數(shù)這一問(wèn)題尚未有最佳的方法。在以往的研究中選擇最優(yōu)主題數(shù)常用的方法是最小困惑度法,困惑度是指所構(gòu)建的主題模型對(duì)一篇文檔屬于某一主題的不確定程度。困惑度越小,表示模型對(duì)于文本的主題選擇越不“困惑”。但研究發(fā)現(xiàn)基于最小困惑度法得到的最優(yōu)主題數(shù)數(shù)量過(guò)多,主題間相似度高,存在冗余情況。
本文首先嘗試使用最小困惑度方法來(lái)確定最終要產(chǎn)生的主題數(shù)量,將主題數(shù)分別設(shè)置為1至51,分別訓(xùn)練LDA模型并計(jì)算模型困惑度。結(jié)果如圖1所示。結(jié)果顯示根據(jù)最小困惑度方法得到的最優(yōu)主題數(shù)為36個(gè)。對(duì)36個(gè)主題進(jìn)行可視化,觀察主題的分布情況。結(jié)果如圖2所示(圖2中列示了11個(gè)主題圈,其他由于占比較小未列示,有需要可聯(lián)系作者)。圖中每一個(gè)圓圈代表一個(gè)主題,從可視化圖中可以看出圓圈之間存在很多重疊部分,表示36個(gè)主題間存在很高的重復(fù)性即存在冗余主題數(shù),驗(yàn)證了通過(guò)最小困惑度方法得到的最優(yōu)主題數(shù)量過(guò)多。
圖1 困惑度與主題數(shù)的關(guān)系
圖2 36個(gè)主題可視化結(jié)果
表2 最優(yōu)主題數(shù)
為了避免主題相似度過(guò)高,本文借鑒王澤賢的主題數(shù)選擇方法即最小冗余主題數(shù)法,即在初設(shè)最大主題數(shù)的基礎(chǔ)上,采用二分法逐步減小主題數(shù)量,使得最終得到的主題兩兩之間JS散度為0。最終得到的主題數(shù)結(jié)果如表2所示。
(2)財(cái)務(wù)變量(-)
本文基于美國(guó)學(xué)者Dechow研究的F-score舞弊識(shí)別模型中的變量體系,并對(duì)其變量進(jìn)行篩選,最終選擇12個(gè)變量作為本文的財(cái)務(wù)變量,分別為公司資產(chǎn)、應(yīng)收賬款變動(dòng)、總應(yīng)計(jì)、軟資產(chǎn)占比、現(xiàn)金銷(xiāo)售變動(dòng)、資產(chǎn)回報(bào)率變動(dòng)、凈值市價(jià)比、前期持有期收益率、并購(gòu)情況、會(huì)計(jì)師事務(wù)所是否為四大、融資現(xiàn)金流量、重組情況。財(cái)務(wù)變量的具體定義如表3所示。
表3 財(cái)務(wù)變量定義
(3)文本特征變量()
本文基于Brown等使用的文本語(yǔ)言特征變量及其構(gòu)建方法,對(duì)36家上市銀行在2010—2019年間披露的年報(bào)全文,通過(guò)文本分析等方式構(gòu)建文本特征指標(biāo)。由于美國(guó)與中國(guó)的年報(bào)在披露標(biāo)準(zhǔn)與內(nèi)容上有所不同,因此本文對(duì)其變量進(jìn)行篩選。最終選擇的文本特征變量分別為著重號(hào)數(shù)量、換行數(shù)、標(biāo)簽數(shù)、平均句長(zhǎng)、詞長(zhǎng)標(biāo)準(zhǔn)差、段長(zhǎng)標(biāo)準(zhǔn)差、平均重復(fù)句數(shù)、句長(zhǎng)標(biāo)準(zhǔn)差、唯一詞比例、Coleman-Liau指數(shù)、Fog指數(shù)、主動(dòng)句比例、被動(dòng)句比例、消極詞比例、積極詞比例。變量的具體定義如表4所示。
表4 文本特征變量定義
隨著計(jì)算機(jī)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)已經(jīng)逐漸成為研究的熱點(diǎn),若能使用機(jī)器學(xué)習(xí)識(shí)別上市公司的違規(guī)行為,對(duì)于審計(jì)師、投資者以及各類(lèi)監(jiān)管機(jī)構(gòu)都能起到重要的輔助作用。識(shí)別上市公司的違規(guī)行為適用于機(jī)器學(xué)習(xí)模型的分類(lèi)算法。本文選取目前常用的機(jī)器學(xué)習(xí)分類(lèi)算法,分別為邏輯回歸模型(Logistic Regression)、K-近鄰模型(K-nearest neighbor,簡(jiǎn)稱(chēng)KNN)、支持向量機(jī)(Suppprt Vector Machine,簡(jiǎn)稱(chēng)SVM)、隨機(jī)森林(Random Forest,簡(jiǎn)稱(chēng)RF)、AdaBoost(Adaptive Boosting)、多層感知器(Multilayer Perceptron,簡(jiǎn)稱(chēng)MLP)。本文在五個(gè)時(shí)間窗口上,將主題指標(biāo)、財(cái)務(wù)指標(biāo)、文本特征指標(biāo)、主題指標(biāo)+財(cái)務(wù)指標(biāo)、主題指標(biāo)+文本特征指標(biāo)分別作為以上機(jī)器學(xué)習(xí)模型的輸入指標(biāo),并對(duì)每個(gè)時(shí)間窗口后一年的違規(guī)情況進(jìn)行預(yù)測(cè),比較不同指標(biāo)體系、不同機(jī)器學(xué)習(xí)模型在識(shí)別上市公司違規(guī)時(shí)的優(yōu)劣,探究加入主題指標(biāo)是否能夠提高財(cái)務(wù)指標(biāo)或文本特征指標(biāo)的預(yù)測(cè)效果。
(1)
(2)
(3)
(4)
(5)
本文構(gòu)建以上邏輯回歸模型驗(yàn)證主題指標(biāo)的有效性,并與財(cái)務(wù)指標(biāo)、文本特征指標(biāo)及合并指標(biāo)進(jìn)行對(duì)比分析。模型中為上文中構(gòu)建的主題指標(biāo),-為財(cái)務(wù)指標(biāo),為文本特征指標(biāo)。同樣地,本文還將構(gòu)建KNN、SVM、RF、AdaBoost和MLP模型,并對(duì)不同模型的違規(guī)識(shí)別效果進(jìn)行對(duì)比。
1.財(cái)務(wù)變量描述性統(tǒng)計(jì)
本文財(cái)務(wù)變量的描述性統(tǒng)計(jì)如表5所示。表中的財(cái)務(wù)變量均來(lái)自CSMAR數(shù)據(jù)庫(kù),涵蓋了我國(guó)36家上市銀行在2010—2019年間的財(cái)務(wù)數(shù)據(jù),各個(gè)財(cái)務(wù)變量的具體定義如上文表3所示。本文將樣本劃分為兩類(lèi)樣本,分別是正常樣本與違規(guī)樣本,并標(biāo)記為0、1,為了對(duì)比兩類(lèi)樣本在同一財(cái)務(wù)變量上的差別,在表5中對(duì)每一類(lèi)都進(jìn)行了描述性統(tǒng)計(jì)。
表5 財(cái)務(wù)變量描述性統(tǒng)計(jì)
2.文本特征變量描述性統(tǒng)計(jì)
本文文本特征變量的描述性統(tǒng)計(jì)如表6所示。表中的文本特征變量是對(duì)36家上市銀行2010—2019年的年報(bào)進(jìn)行文本分析后計(jì)算得到的。各個(gè)文本特征變量的具體定義如上文表4所示。為了對(duì)比兩類(lèi)樣本在同一文本特征變量上的差別,本文在表6中對(duì)每一類(lèi)樣本都進(jìn)行了描述性統(tǒng)計(jì)。
表6 文本特征變量描述性統(tǒng)計(jì)
本文采用滾動(dòng)回歸驗(yàn)證通過(guò)LDA主題模型所提取的年報(bào)主題指標(biāo)與違規(guī)之間的相關(guān)性以及在不同時(shí)間段內(nèi)與違規(guī)顯著相關(guān)的主題的變化情況。本文的樣本區(qū)間為2010—2019年,將每五年作為一個(gè)時(shí)間窗口,最終將樣本區(qū)間劃分為五個(gè)窗口,分別是2010—2014年、2011—2015年、2012—2016年、2013—2017年、2014—2018年,在五個(gè)窗口上分別運(yùn)行LDA模型,提取每個(gè)窗口年報(bào)文本的潛在主題。為了便于展示,本文計(jì)算所有主題對(duì)應(yīng)的詞語(yǔ)權(quán)重向量間的余弦相似度,基于相似度將所有窗口內(nèi)的單個(gè)主題聚合為組合主題,最終在整個(gè)樣本區(qū)間內(nèi)生成14個(gè)組合主題。
圖3 組合主題顯著性與主題變化情況
為了呈現(xiàn)與違規(guī)顯著相關(guān)的主題在不同時(shí)間段內(nèi)的變化情況,本文分別對(duì)每個(gè)時(shí)間窗口上的主題指標(biāo)構(gòu)建邏輯回歸模型,根據(jù)回歸系數(shù)的值判斷組合主題的顯著性。下圖3描述了在樣本預(yù)測(cè)年份2015-2019年上每個(gè)組合主題是否存在以及是否與違規(guī)顯著相關(guān)。圖中正方形表示在50%的置信水平下,該組合主題中至少一個(gè)子主題與違規(guī)顯著負(fù)相關(guān)且其他子主題與違規(guī)均不顯著相關(guān);菱形表示在50%的置信水平下,該組合主題中至少一個(gè)子主題與違規(guī)顯著正相關(guān)且其他子主題與違規(guī)均不顯著相關(guān);三角形表示該組合主題中所有子主題與違規(guī)相關(guān)性均不顯著或多個(gè)子主題顯著但顯著性符號(hào)相反。
通過(guò)圖3可以發(fā)現(xiàn)存在多個(gè)主題與違規(guī)顯著相關(guān)。隨著時(shí)間的推移,可以觀察到某些主題的變化情況,如組合主題2在2015年和2018年中與違規(guī)均無(wú)顯著相關(guān)關(guān)系,但在2019年與違規(guī)呈現(xiàn)出負(fù)相關(guān)關(guān)系;同時(shí)隨著時(shí)間變化,也出現(xiàn)了一些之前未出現(xiàn)過(guò)的且與違規(guī)顯著相關(guān)的主題,如組合主題12、13、14,在前兩年中未曾出現(xiàn),在2017年、2018年出現(xiàn)并與違規(guī)呈顯著相關(guān)關(guān)系。因此本文認(rèn)為對(duì)于一些新出現(xiàn)的違規(guī)行為,盡管手段更加隱蔽且復(fù)雜,我們依然可以通過(guò)主題指標(biāo)找到與違規(guī)之間的相關(guān)關(guān)系,從而可有效識(shí)別違規(guī)。
表7 二分類(lèi)混淆矩陣
在機(jī)器學(xué)習(xí)算法中,常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率()、精確率()、召回率()、F1分?jǐn)?shù)和F2分?jǐn)?shù)。為了直觀地解釋以上指標(biāo),本文基于混淆矩陣對(duì)以上指標(biāo)進(jìn)行定義如表7所示。
基于此,本文將準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)、F2分?jǐn)?shù)定義如下。
(6)
(7)
(8)
(9)
(10)
式中,表示準(zhǔn)確率,表示精確率,表示召回率,F(xiàn)1表示F1分?jǐn)?shù),F(xiàn)2表示F2分?jǐn)?shù)。
由于在本文中違規(guī)樣本與正常樣本存在不平衡現(xiàn)象,有些機(jī)器學(xué)習(xí)算法會(huì)將樣本全部預(yù)測(cè)為無(wú)違規(guī)從而造成準(zhǔn)確率很高,但顯然此時(shí)準(zhǔn)確率指標(biāo)已經(jīng)失去參考意義。因此本文選取精確率、召回率、F1分?jǐn)?shù)和F2分?jǐn)?shù)作為分類(lèi)的評(píng)價(jià)指標(biāo)。在審計(jì)工作中,重要的是盡可能將違規(guī)樣本識(shí)別出來(lái),因此召回率與F2分?jǐn)?shù)更為關(guān)鍵。由于本文將全部樣本劃分成到五個(gè)時(shí)間窗口,并在每個(gè)時(shí)間窗口上都建立違規(guī)識(shí)別模型,在每個(gè)窗口后一年上進(jìn)行預(yù)測(cè)得到模型預(yù)測(cè)結(jié)果,因此下文中的精確率、召回率、F1分?jǐn)?shù)和F2分?jǐn)?shù)都是取五個(gè)時(shí)間窗口上的平均值。
表8 主題指標(biāo)和財(cái)務(wù)指標(biāo)下的預(yù)測(cè)效果對(duì)比
為了驗(yàn)證本文構(gòu)建的主題指標(biāo)的有效性以及假設(shè)H2,本文先將主題指標(biāo)和財(cái)務(wù)指標(biāo)-進(jìn)行對(duì)比。除此之外,本文還將主題指標(biāo)和財(cái)務(wù)指標(biāo)進(jìn)行合并,同時(shí)作為模型的解釋變量,來(lái)研究主題指標(biāo)是否可以彌補(bǔ)財(cái)務(wù)指標(biāo)中的信息損失,使基于合并指標(biāo)的模型與基于財(cái)務(wù)指標(biāo)的模型相比,預(yù)測(cè)效果有進(jìn)一步的提高。因此本文將對(duì)、-、+-三種指標(biāo)體系的預(yù)測(cè)效果進(jìn)行比較,并分別構(gòu)建多種機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比分析。基于不同指標(biāo)的模型預(yù)測(cè)結(jié)果如表8所示。
在違規(guī)識(shí)別中,我們著重關(guān)注模型的召回率以及F2分?jǐn)?shù)。從實(shí)驗(yàn)結(jié)果中可以看出,當(dāng)采用單一財(cái)務(wù)指標(biāo)作為輸入指標(biāo)時(shí),邏輯回歸模型Logistic的召回率和F2分?jǐn)?shù)最高,分別為73.84%和65.40%,其次是支持向量機(jī)和多層感知器,召回率分別達(dá)到6559和6361。且與單一財(cái)務(wù)指標(biāo)相比,基于單一主題指標(biāo)的違規(guī)識(shí)別模型召回率普遍較低,但其中基于主題指標(biāo)的多層感知機(jī)的精確率和召回率都較高,說(shuō)明基于主題指標(biāo)的模型可以即準(zhǔn)確又盡可能多地識(shí)別出上市公司違規(guī)。除此之外,基于單一主題指標(biāo)的邏輯回歸模型Logistic和K-近鄰模型的召回率和F2分?jǐn)?shù)也較高。為了探究主題指標(biāo)的加入是否可以提升財(cái)務(wù)指標(biāo)的識(shí)別性能,我們著重對(duì)比財(cái)務(wù)指標(biāo)與主題指標(biāo)+財(cái)務(wù)指標(biāo)的召回率和F2分?jǐn)?shù),發(fā)現(xiàn)與單一財(cái)務(wù)指標(biāo)相比,除邏輯回歸模型Logistic外,其余五個(gè)模型基于合并指標(biāo)的召回率和F2分?jǐn)?shù)都有較大提升,其中-近鄰模型基于合并指標(biāo)的召回率提升最為明顯,相較于單一財(cái)務(wù)指標(biāo),召回率提高了17.12%。實(shí)驗(yàn)結(jié)果表明,主題指標(biāo)可以彌補(bǔ)財(cái)務(wù)指標(biāo)的不足,提升了財(cái)務(wù)指標(biāo)的違規(guī)識(shí)別性能。
表9 主題指標(biāo)與文本特征指標(biāo)下的預(yù)測(cè)效果對(duì)比
為了進(jìn)一步驗(yàn)證假設(shè)H2,本文將主題指標(biāo)和文本特征指標(biāo)的預(yù)測(cè)效果進(jìn)行對(duì)比。同樣地,本文也構(gòu)建主題指標(biāo)和文本特征指標(biāo)的合并指標(biāo)+來(lái)探究主題模型是否可以彌補(bǔ)文本特征模型中缺少的語(yǔ)義信息,使得合并指標(biāo)的預(yù)測(cè)效果優(yōu)于文本特征指標(biāo)的預(yù)測(cè)效果?;诓煌笜?biāo)的模型預(yù)測(cè)結(jié)果如表9所示。
從實(shí)驗(yàn)結(jié)果中可以看出,當(dāng)采用單一文本特征指標(biāo)進(jìn)行違規(guī)識(shí)別時(shí),隨機(jī)森林RF的召回率最高,達(dá)到了68.77%,其次是邏輯回歸Logistic和多層感知器MLP,召回率分別為63.76%、60.32%。通過(guò)對(duì)比單一文本特征指標(biāo)和主題指標(biāo)的識(shí)別性能可以發(fā)現(xiàn),除隨機(jī)森林RF外,其余五個(gè)模型基于主題指標(biāo)的召回率都高于基于文本特征指標(biāo)的召回率,說(shuō)明在利用主題指標(biāo)進(jìn)行識(shí)別違規(guī)時(shí),集成學(xué)習(xí)模型可能并不適用。為了探究主題指標(biāo)的加入是否可以提升文本特征指標(biāo)的識(shí)別性能,我們著重對(duì)比文本特征指標(biāo)與主題指標(biāo)+文本特征指標(biāo)的召回率和F2分?jǐn)?shù)。通過(guò)對(duì)比發(fā)現(xiàn),相較于單一的文本特征指標(biāo),除邏輯回歸模型Logistic外,其余五個(gè)機(jī)器學(xué)習(xí)模型基于合并指標(biāo)的召回率都有較大提升,其中提升最多的是K-近鄰模型KNN,相較于單一文本特征指標(biāo),召回率提升了18.05%。實(shí)驗(yàn)結(jié)果表明,主題指標(biāo)可以彌補(bǔ)文本特征指標(biāo)的不足,提升文本特征指標(biāo)的違規(guī)識(shí)別率。
本文基于A股上市銀行年度報(bào)告的文本數(shù)據(jù)和相關(guān)財(cái)務(wù)數(shù)據(jù),構(gòu)建了財(cái)務(wù)指標(biāo)、文本特征指標(biāo),并運(yùn)用LDA主題模型對(duì)年報(bào)文本建模構(gòu)建主題指標(biāo),并在不同指標(biāo)下分別建立機(jī)器學(xué)習(xí)預(yù)測(cè)模型,以發(fā)現(xiàn)上市銀行是否存在違規(guī)行為。研究發(fā)現(xiàn):第一,基于年報(bào)文本所構(gòu)建的主題指標(biāo)可有效預(yù)測(cè)上市銀行違規(guī)。第二,本文提取出與違規(guī)顯著相關(guān)的主題指標(biāo)后發(fā)現(xiàn),可用于識(shí)別違規(guī)的主題并不是一成不變的,呈現(xiàn)出迭代更新的現(xiàn)象。第三,將主題指標(biāo)與財(cái)務(wù)指標(biāo)、文本特征指標(biāo)合并后共同構(gòu)建的違規(guī)模型的預(yù)測(cè)效果優(yōu)于僅使用財(cái)務(wù)指標(biāo)、文本特征指標(biāo)構(gòu)建的違規(guī)識(shí)別模型,說(shuō)明主題指標(biāo)可提供財(cái)務(wù)指標(biāo)和文本特征指標(biāo)中所缺少的語(yǔ)義信息,能夠提升財(cái)務(wù)指標(biāo)和文本特征指標(biāo)違規(guī)識(shí)別的性能。