黃佳佳(博士),李鵬偉(博士),徐 超(教授)
在信息爆炸的時(shí)代背景下,審計(jì)對(duì)象所產(chǎn)生的數(shù)據(jù)量日益龐大,進(jìn)而對(duì)現(xiàn)有審計(jì)數(shù)據(jù)基礎(chǔ)和審計(jì)分析方法提出了新要求。國(guó)家審計(jì)署相關(guān)領(lǐng)導(dǎo)也指出,應(yīng)推進(jìn)以大數(shù)據(jù)為核心的審計(jì)信息化建設(shè),構(gòu)建大數(shù)據(jù)審計(jì)工作模式,積極開(kāi)展審計(jì)大數(shù)據(jù)的綜合利用[1]。討論和運(yùn)用大數(shù)據(jù)思想與技術(shù)創(chuàng)新當(dāng)前審計(jì)工作模式就不可避免地涉及對(duì)審計(jì)文本大數(shù)據(jù)的處理。現(xiàn)有關(guān)于大規(guī)模文本數(shù)據(jù)的研究和應(yīng)用大多是采用互聯(lián)網(wǎng)文本,如微博、新聞、網(wǎng)絡(luò)評(píng)論等,而采用審計(jì)領(lǐng)域相關(guān)文本的研究相對(duì)較少。人工智能領(lǐng)域?qū)<艺J(rèn)為,有效利用大數(shù)據(jù)價(jià)值的主要任務(wù)不是獲取越來(lái)越多的數(shù)據(jù),而是從數(shù)據(jù)中挖掘知識(shí),對(duì)知識(shí)進(jìn)行有效的組織關(guān)聯(lián),并用其解決實(shí)際問(wèn)題[2]。從大數(shù)據(jù)技術(shù)與不同領(lǐng)域結(jié)合應(yīng)用的效果來(lái)看,大數(shù)據(jù)技術(shù)的應(yīng)用效果也與領(lǐng)域高度相關(guān),即當(dāng)擁有領(lǐng)域相關(guān)知識(shí)支撐時(shí),往往文本挖掘技術(shù)的應(yīng)用效果更佳。本文總結(jié)分析了審計(jì)文本數(shù)據(jù)的來(lái)源及特點(diǎn),認(rèn)為審計(jì)文本具有領(lǐng)域特殊性,因此有必要構(gòu)建審計(jì)領(lǐng)域知識(shí)庫(kù),使得采用大數(shù)據(jù)分析方法和人工智能文本分析方法分析審計(jì)文本時(shí)準(zhǔn)確性更高、可理解性更強(qiáng)。
在大數(shù)據(jù)時(shí)代,知識(shí)圖譜不僅改變了搜索模式,也改變了文本分析技術(shù)。知識(shí)圖譜與語(yǔ)義分析相結(jié)合可使得語(yǔ)義搜索更加準(zhǔn)確、智能推薦更稱(chēng)心如意,也可以實(shí)現(xiàn)自動(dòng)問(wèn)答、人機(jī)對(duì)話等新智能體驗(yàn)。審計(jì)作為一項(xiàng)具有較多專(zhuān)家經(jīng)驗(yàn)參與其中的工作,基于大數(shù)據(jù)構(gòu)建的審計(jì)知識(shí)圖譜可以幫助審計(jì)人員快速排查審計(jì)風(fēng)險(xiǎn)點(diǎn)、有效提升審計(jì)工作效率、降低審計(jì)風(fēng)險(xiǎn),進(jìn)而實(shí)現(xiàn)審計(jì)智能化?;诖?,本文提出了一種大數(shù)據(jù)驅(qū)動(dòng)的審計(jì)領(lǐng)域知識(shí)庫(kù)構(gòu)建方法(該審計(jì)知識(shí)庫(kù)可對(duì)外開(kāi)放共享),并探討了其在審計(jì)業(yè)務(wù)中的應(yīng)用方式。
學(xué)者們普遍認(rèn)為審計(jì)所用的數(shù)據(jù)早已超越了統(tǒng)計(jì)和抽樣調(diào)查,審計(jì)數(shù)據(jù)具備海量、異構(gòu)、多樣等大數(shù)據(jù)特性[1,3]。秦榮生[4]認(rèn)為大數(shù)據(jù)有助于實(shí)現(xiàn)審計(jì)監(jiān)督全覆蓋,而數(shù)據(jù)綜合分析可幫助提升解釋審計(jì)問(wèn)題和風(fēng)險(xiǎn)的深度與廣度。在審計(jì)技術(shù)方面,有學(xué)者開(kāi)始考慮文本挖掘在審計(jì)領(lǐng)域的應(yīng)用。張志恒等[5]構(gòu)建了審計(jì)領(lǐng)域的文本挖掘框架,并探討了若干種文本挖掘方法在審計(jì)領(lǐng)域的應(yīng)用,為文本數(shù)據(jù)審計(jì)提供了新方向和新思路。此外,也有學(xué)者將文本挖掘方法應(yīng)用到審計(jì)實(shí)務(wù)中,主要包括文本關(guān)鍵詞抽取與標(biāo)簽云展示、文本相似度計(jì)算、文本情感分析、關(guān)聯(lián)規(guī)則挖掘等[3,6],采用這些技術(shù)的目的是從被審計(jì)單位的相關(guān)文件中發(fā)現(xiàn)審計(jì)疑點(diǎn)、總結(jié)投訴人員特點(diǎn)、評(píng)估被審計(jì)單位政策執(zhí)行情況、評(píng)估銀行信貸申請(qǐng)報(bào)告的情感傾向、挖掘上市公司的交易網(wǎng)絡(luò)和審計(jì)費(fèi)用與盈余質(zhì)量的關(guān)系等[3,6,7]。
當(dāng)前審計(jì)文本數(shù)據(jù)挖掘主要是直接利用現(xiàn)有文本挖掘算法,鮮有研究深入考慮審計(jì)領(lǐng)域?qū)I(yè)性對(duì)文本挖掘方法的挑戰(zhàn)。顧圣杰等[8]探討了知識(shí)圖譜在審計(jì)風(fēng)險(xiǎn)識(shí)別方面的應(yīng)用價(jià)值,認(rèn)為基于專(zhuān)家先驗(yàn)知識(shí)的知識(shí)圖譜能夠提升審計(jì)效率、實(shí)現(xiàn)審計(jì)智能化和審計(jì)風(fēng)險(xiǎn)點(diǎn)全覆蓋。在通用領(lǐng)域,國(guó)內(nèi)外學(xué)者已構(gòu)建的代表性知識(shí)庫(kù)包括Freebase[9]、Word-Net[10]等。但這些知識(shí)庫(kù)并非為審計(jì)領(lǐng)域?qū)iT(mén)構(gòu)建的,因而其可能沒(méi)有包含審計(jì)領(lǐng)域?qū)I(yè)詞匯,以及這些詞匯/概念的語(yǔ)義信息及相互之間的關(guān)系。
大數(shù)據(jù)時(shí)代的到來(lái)給政府和企業(yè)的財(cái)務(wù)管理和審計(jì)工作都帶來(lái)了巨大變化。這種變化不僅意味著審計(jì)數(shù)據(jù)規(guī)模越來(lái)越大,而且意味著審計(jì)技術(shù)與方法具有大數(shù)據(jù)特征。
1.審計(jì)大數(shù)據(jù)。多數(shù)學(xué)者認(rèn)為,進(jìn)入大數(shù)據(jù)時(shí)代后,審計(jì)環(huán)境、審計(jì)數(shù)據(jù)與審計(jì)技術(shù)等都需要或者正在發(fā)生較大變革,審計(jì)正在進(jìn)入審計(jì)大數(shù)據(jù)時(shí)代[1]。那么,什么是審計(jì)大數(shù)據(jù)?呂天陽(yáng)等[1]認(rèn)為,審計(jì)大數(shù)據(jù)是“在大數(shù)據(jù)時(shí)代開(kāi)展審計(jì)監(jiān)督所需的審計(jì)對(duì)象自身或與其相關(guān)對(duì)象的各類(lèi)數(shù)據(jù)及其分析手段的統(tǒng)稱(chēng)”。
由于審計(jì)對(duì)象自身提供的財(cái)務(wù)數(shù)據(jù)可能存在造假等問(wèn)題,因而無(wú)法滿足審計(jì)需求。當(dāng)前的合規(guī)性審計(jì)所需數(shù)據(jù)越來(lái)越多樣化、多源化。此外,國(guó)家審計(jì)也在關(guān)注績(jī)效審計(jì)、政策落實(shí)跟蹤審計(jì)等。這些審計(jì)內(nèi)容涉及的數(shù)據(jù)來(lái)源范圍廣、覆蓋面大,使得國(guó)家審計(jì)需要在原有審計(jì)數(shù)據(jù)基礎(chǔ)上進(jìn)一步擴(kuò)大數(shù)據(jù)來(lái)源,綜合使用不同部門(mén)提供的數(shù)據(jù),如財(cái)政部、商務(wù)部、國(guó)家統(tǒng)計(jì)局等。
可以說(shuō)審計(jì)大數(shù)據(jù)的數(shù)據(jù)來(lái)源是以領(lǐng)域政務(wù)大數(shù)據(jù)為基礎(chǔ),并包括與各審計(jì)對(duì)象相關(guān)的社會(huì)大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)。這些數(shù)據(jù)來(lái)源不同、類(lèi)型各異,整合和有效利用大規(guī)模的審計(jì)數(shù)據(jù)變得更加困難,進(jìn)而對(duì)審計(jì)技術(shù)提出了更高的要求,即以關(guān)系數(shù)據(jù)為基礎(chǔ)的傳統(tǒng)SQL查詢(xún)分析手段已顯得捉襟見(jiàn)肘。趙琛[11]認(rèn)為,面向非結(jié)構(gòu)化文本、面向?qū)ο箝g網(wǎng)狀關(guān)系的智能分析方式是未來(lái)審計(jì)技術(shù)創(chuàng)新的重要方向。
2.文本數(shù)據(jù)審計(jì)。在審計(jì)大數(shù)據(jù)時(shí)代,海量的多源異構(gòu)數(shù)據(jù)極大地拓展了審計(jì)數(shù)據(jù)的范圍。例如,在企業(yè)內(nèi)部審計(jì)中,審計(jì)對(duì)象已不再局限于與被審計(jì)單位財(cái)務(wù)相關(guān)的數(shù)據(jù),被審計(jì)單位內(nèi)部的規(guī)章制度、會(huì)議記錄、合同通知等文本數(shù)據(jù)也是重點(diǎn)審計(jì)對(duì)象;此外,與被審計(jì)單位相關(guān)的互聯(lián)網(wǎng)文本,如單位新聞、股票評(píng)論等也具有重要的輔助價(jià)值[5]。通過(guò)對(duì)非結(jié)構(gòu)化文本的分析挖掘,可以更加全面地評(píng)估被審計(jì)單位的內(nèi)部控制情況、違法違規(guī)問(wèn)題等。
在面向文本數(shù)據(jù)的審計(jì)工作中,常用的文本挖掘技術(shù)包括文本檢索、關(guān)聯(lián)特征挖掘、分類(lèi)、聚類(lèi)、提取關(guān)鍵詞、構(gòu)建文本摘要、結(jié)果可視化等。例如:通過(guò)文本檢索技術(shù)可使審計(jì)人員快速找到相關(guān)法律法規(guī),也可快速檢索到被審計(jì)對(duì)象的相關(guān)文檔,如通知公告、政策文件等;通過(guò)文本相似性分析(如聚類(lèi)、分類(lèi))技術(shù)分析銀行信貸客戶的調(diào)查報(bào)告可迅速評(píng)估報(bào)告編寫(xiě)員工的履職情況,進(jìn)而有效降低內(nèi)部控制合規(guī)風(fēng)險(xiǎn)[6]。
審計(jì)知識(shí)庫(kù)構(gòu)建框架如圖1所示,其構(gòu)建過(guò)程包含如下幾個(gè)步驟:①審計(jì)領(lǐng)域?qū)I(yè)詞典收集與標(biāo)注:基于專(zhuān)家指定的小規(guī)模種子詞匯迭代式獲取百科文本超鏈接詞匯,最后人工標(biāo)注出專(zhuān)業(yè)詞匯。②審計(jì)專(zhuān)業(yè)詞典的語(yǔ)義向量訓(xùn)練:基于審計(jì)領(lǐng)域詞典的大規(guī)模百科文本及領(lǐng)域的其他文本資料,利用深度學(xué)習(xí)算法訓(xùn)練審計(jì)專(zhuān)業(yè)詞匯的詞向量。③審計(jì)領(lǐng)域知識(shí)圖譜構(gòu)建:邀請(qǐng)審計(jì)領(lǐng)域?qū)<覙?gòu)建審計(jì)領(lǐng)域本體知識(shí)框架,利用百科文本的infobox信息抽取審計(jì)三元組構(gòu)建審計(jì)知識(shí)圖譜。
圖1 審計(jì)知識(shí)庫(kù)構(gòu)建框架
1.審計(jì)領(lǐng)域詞匯表構(gòu)建。在文本挖掘中,一般首先需要對(duì)文本進(jìn)行分詞,然后才能實(shí)施關(guān)鍵詞檢索、分類(lèi)、聚類(lèi)等。分詞就是將連續(xù)的句子單元分割成若干個(gè)詞匯。例如,對(duì)“切實(shí)加強(qiáng)領(lǐng)導(dǎo)干部經(jīng)濟(jì)責(zé)任審計(jì)工作,對(duì)規(guī)范權(quán)力運(yùn)行、促進(jìn)依法行政、推進(jìn)國(guó)家治理體系和治理能力現(xiàn)代化具有重要意義”這一文本,需分割成“切實(shí) 加強(qiáng) 領(lǐng)導(dǎo)干部經(jīng)濟(jì)責(zé)任審計(jì)工作規(guī)范權(quán)力運(yùn)行促進(jìn)依法行政推進(jìn)國(guó)家治理體系 治理能力現(xiàn)代化 具有重要意義”。由于審計(jì)文本具有較強(qiáng)的領(lǐng)域?qū)I(yè)性,即存在較多專(zhuān)業(yè)詞匯,如“領(lǐng)導(dǎo)干部經(jīng)濟(jì)責(zé)任審計(jì)”“國(guó)家治理體系”等,直接使用當(dāng)前的通用文本挖掘軟件(如HanLP、Jieba等)往往無(wú)法識(shí)別這些詞匯。例如:使用HanLP對(duì)上述句子進(jìn)行分詞時(shí),會(huì)將“領(lǐng)導(dǎo)干部經(jīng)濟(jì)責(zé)任審計(jì)”這一專(zhuān)業(yè)名詞分割成“領(lǐng)導(dǎo)”“干部”“經(jīng)濟(jì)”“責(zé)任”“審計(jì)”5個(gè)詞匯。這些零散的詞匯難以表達(dá)原來(lái)專(zhuān)業(yè)術(shù)語(yǔ)的語(yǔ)義內(nèi)涵,進(jìn)而降低了后續(xù)文本挖掘方法的準(zhǔn)確性。
因此,本文認(rèn)為,提高文本挖掘技術(shù)在審計(jì)領(lǐng)域應(yīng)用效果的首要工作即為構(gòu)建審計(jì)領(lǐng)域?qū)I(yè)詞典。為此,本文通過(guò)一種貪心式爬蟲(chóng)技術(shù)從百度百科詞條中自動(dòng)獲取審計(jì)領(lǐng)域相關(guān)詞匯,具體而言包括如下步驟:①請(qǐng)審計(jì)領(lǐng)域?qū)I(yè)人員人工構(gòu)建一個(gè)較小規(guī)模的審計(jì)領(lǐng)域核心種子詞匯(共500個(gè)詞匯),包括“中華人民共和國(guó)審計(jì)署”“政府審計(jì)”“三公經(jīng)費(fèi)”等詞匯。②利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從百度百科中爬取這些詞匯的超鏈接詞匯,如從“中華人民共和國(guó)審計(jì)署”的百度百科信息中可獲得超鏈接詞匯“審計(jì)署”“中國(guó)審計(jì)報(bào)社”“審計(jì)署外交外事審計(jì)局”“侯凱”“中華人民共和國(guó)審計(jì)法”等詞條。③將上述超鏈接詞匯加入到種子詞匯集中,繼續(xù)爬取這些詞匯的超鏈接詞匯。④經(jīng)過(guò)3輪爬蟲(chóng),即可獲得數(shù)十萬(wàn)條候選審計(jì)領(lǐng)域?qū)I(yè)詞匯及其百度百科文本。此外,我們也從互聯(lián)網(wǎng)上搜索到審計(jì)專(zhuān)業(yè)詞匯的中英文對(duì)照表,進(jìn)而獲得擴(kuò)展候選詞表。⑤針對(duì)上述候選詞匯,邀請(qǐng)3位審計(jì)領(lǐng)域?qū)<疫M(jìn)行人工標(biāo)注并剔除不相干詞匯。若2位以上專(zhuān)家認(rèn)為該詞匯非領(lǐng)域相關(guān)詞匯,則剔除該詞匯。最后,共獲得28792個(gè)審計(jì)領(lǐng)域相關(guān)詞匯。此外,在人工標(biāo)注過(guò)程中,我們還對(duì)相關(guān)詞匯進(jìn)行了分類(lèi),類(lèi)別包括領(lǐng)域?qū)S忻~、領(lǐng)域核心詞匯、人名、機(jī)構(gòu)名和相關(guān)詞匯,匯總信息如表1所示。
表1 審計(jì)領(lǐng)域詞匯表統(tǒng)計(jì)匯總
表1中,領(lǐng)域核心詞匯僅指審計(jì)領(lǐng)域常用的核心詞,而領(lǐng)域?qū)S忻~主要包含審計(jì)領(lǐng)域各類(lèi)法律法規(guī)及準(zhǔn)則名稱(chēng),人名主要包括審計(jì)、會(huì)計(jì)、經(jīng)濟(jì)管理領(lǐng)域著名的人物姓名,機(jī)構(gòu)名包括我國(guó)各審計(jì)機(jī)關(guān)、國(guó)內(nèi)外銀行、國(guó)內(nèi)外知名企業(yè)及大學(xué)等,相關(guān)詞匯主要包括審計(jì)、會(huì)計(jì)、經(jīng)濟(jì)管理領(lǐng)域常用的詞匯。
2.審計(jì)領(lǐng)域詞向量訓(xùn)練。在當(dāng)前基于深度學(xué)習(xí)的文本挖掘技術(shù)中,使用詞向量(Word embedding)作為詞匯的語(yǔ)義表達(dá)形式已成為一種共識(shí)?;贖arris[12]提出的分布假說(shuō),詞向量即上下文相似的詞匯,其語(yǔ)義也相似。基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,如CBOW和Sikp-gram模型[13],在大規(guī)模文本上訓(xùn)練出的詞向量可有效表達(dá)詞匯之間的語(yǔ)義相似性,進(jìn)而更加有效地度量文本之間的相似性,從而提高文本分類(lèi)、文本聚類(lèi)等任務(wù)的準(zhǔn)確性。
詞向量所表達(dá)的語(yǔ)義與訓(xùn)練該向量的文本語(yǔ)料密切相關(guān)。例如,與通用語(yǔ)料(維基百科語(yǔ)料)相比,利用本文構(gòu)建的審計(jì)領(lǐng)域語(yǔ)料訓(xùn)練出的詞向量模型與審計(jì)專(zhuān)業(yè)詞匯最相似的詞匯集合并不一致(這里對(duì)兩種語(yǔ)料進(jìn)行分詞時(shí),均導(dǎo)入了本文構(gòu)建的審計(jì)領(lǐng)域詞表)。表2展示了在兩種語(yǔ)料下分別訓(xùn)練出的詞向量中,部分審計(jì)領(lǐng)域詞匯中排名前五的最相似詞匯的差異。
從表2可以看出,對(duì)于一些在通用領(lǐng)域和審計(jì)領(lǐng)域共用但語(yǔ)義差距較大的詞匯,使用審計(jì)領(lǐng)域文本語(yǔ)料訓(xùn)練出的詞向量更能表達(dá)這些詞匯在審計(jì)領(lǐng)域的語(yǔ)義概念,這些詞匯的相似詞匯也均為審計(jì)領(lǐng)域詞匯,而通用語(yǔ)料訓(xùn)練出的詞向量無(wú)法準(zhǔn)確度量這些領(lǐng)域詞匯之間的語(yǔ)義相似性;對(duì)于審計(jì)和會(huì)計(jì)領(lǐng)域詞匯,通用語(yǔ)料訓(xùn)練出的詞向量更能表達(dá)審計(jì)領(lǐng)域經(jīng)常共同出現(xiàn)的詞匯,這對(duì)提高審計(jì)領(lǐng)域文本搜索準(zhǔn)確性而言意義重大。
表2 不同語(yǔ)料訓(xùn)練出的語(yǔ)義相似詞匯對(duì)比
因此,有必要收集審計(jì)領(lǐng)域?qū)I(yè)文本來(lái)訓(xùn)練審計(jì)領(lǐng)域?qū)I(yè)詞匯的詞向量。本文在標(biāo)注審計(jì)專(zhuān)業(yè)詞匯后,將這些專(zhuān)業(yè)詞匯對(duì)應(yīng)的百度百科文本也保留下來(lái)作為部分訓(xùn)練語(yǔ)料,共包括2403條百科詞條。此外,本文還收集了審計(jì)領(lǐng)域的其他文本數(shù)據(jù)來(lái)構(gòu)建訓(xùn)練語(yǔ)料庫(kù),包括審計(jì)和會(huì)計(jì)電子教材、各審計(jì)機(jī)關(guān)網(wǎng)站的新聞和公告等、審計(jì)/會(huì)計(jì)等法律準(zhǔn)則。語(yǔ)料統(tǒng)計(jì)信息如表3所示。
對(duì)上述收集到的原始文本語(yǔ)料進(jìn)行文本清洗等預(yù)處理,共獲得53695條審計(jì)領(lǐng)域文本語(yǔ)料。將上文構(gòu)建的審計(jì)領(lǐng)域?qū)I(yè)詞匯表導(dǎo)入分詞軟件jieba中,對(duì)上述語(yǔ)料進(jìn)行分詞、剔除停用詞處理。將處理完成后的語(yǔ)料投入到詞向量模型CBOW中,即可訓(xùn)練出包含審計(jì)專(zhuān)業(yè)詞匯的詞向量模型。將該模型訓(xùn)練出的詞向量應(yīng)用于審計(jì)文本挖掘任務(wù),如關(guān)鍵詞檢索、相似文本搜索等任務(wù),可提高這些挖掘任務(wù)的精準(zhǔn)度。
3.審計(jì)領(lǐng)域知識(shí)圖譜構(gòu)建。以知識(shí)圖譜為代表的知識(shí)庫(kù)是將人類(lèi)知識(shí)組織成結(jié)構(gòu)化的知識(shí)系統(tǒng),其是推動(dòng)人工智能學(xué)科發(fā)展和應(yīng)用(如智能檢索、智能推薦、智能問(wèn)答等)的重要基礎(chǔ)技術(shù)[14]。知識(shí)圖譜使用三元組描述客觀世界中概念、實(shí)體及它們之間的關(guān)系。三元組中的概念/實(shí)體表示為圖譜中的邊,概念/實(shí)體之間的關(guān)系表達(dá)為圖譜中點(diǎn)之間的連邊。例如,表4所示的三元組可構(gòu)建成圖2所示的圖譜。
表4 審計(jì)三元組示例
圖2 審計(jì)三元組知識(shí)圖譜示例
構(gòu)建知識(shí)圖譜的代價(jià)較大,且并非一氣呵成,需要循序漸進(jìn)地從零到有、從小到大不斷擴(kuò)充,以保證知識(shí)的準(zhǔn)確性和有效性。此外,完全依賴(lài)自動(dòng)化方法構(gòu)建的知識(shí)圖譜往往準(zhǔn)確性難以保證,一般需要人工構(gòu)建基礎(chǔ)本體知識(shí),然后在此基礎(chǔ)上自動(dòng)化擴(kuò)建圖譜。
(1)本體建設(shè)。本體即“一種概念化的精確的規(guī)格說(shuō)明”[15],用于描述某個(gè)領(lǐng)域內(nèi)概念與概念之間的關(guān)系。一般情況下,構(gòu)建本體需要本領(lǐng)域相關(guān)專(zhuān)家的指導(dǎo)[16]。針對(duì)審計(jì)知識(shí)圖譜的構(gòu)建,我們首先邀請(qǐng)審計(jì)領(lǐng)域?qū)<覙?gòu)建了審計(jì)概念框架,如圖3所示。然后在該框架的基礎(chǔ)上,進(jìn)一步構(gòu)建和擴(kuò)充相關(guān)概念的子概念。例如:在“資源環(huán)境審計(jì)”概念下構(gòu)建關(guān)系“審計(jì)內(nèi)容”,包括實(shí)體“財(cái)務(wù)審計(jì)”“合規(guī)審計(jì)”等;在“審計(jì)客體”概念下擴(kuò)充子概念“農(nóng)業(yè)審計(jì)”“社會(huì)保障審計(jì)”等。
圖3 審計(jì)知識(shí)圖譜本體框架
通過(guò)上述人工構(gòu)建本體的方法,共構(gòu)建本體三元組878個(gè)。該本體庫(kù)主要描述審計(jì)領(lǐng)域重要概念與概念之間的隸屬關(guān)系,是整個(gè)知識(shí)圖譜的“骨架”。其他抽取出的實(shí)體均屬于該“骨架”的下級(jí)概念或?qū)嶓w。
(2)結(jié)構(gòu)化信息抽取。利用百科infobox中的結(jié)構(gòu)化信息從零到有構(gòu)建知識(shí)圖譜是常用手段。例如,從圖4的“中華人民共和國(guó)審計(jì)署”百度詞條的infobox信息中可抽?。ā爸腥A人民共和國(guó)審計(jì)署”,“成立時(shí)間”,“1983年9月15日”)、(“中華人民共和國(guó)審計(jì)署”,“機(jī)關(guān)隸屬”,“中華人民共和國(guó)國(guó)務(wù)院”)等三元組。
圖4 “中華人民共和國(guó)審計(jì)署”百度詞條infobox信息
通過(guò)上述自動(dòng)化抽取方式,共抽取出74802條三元組。這些三元組來(lái)自審計(jì)領(lǐng)域中專(zhuān)業(yè)詞匯的百度詞條infobox,因而信息來(lái)源可靠、準(zhǔn)確性較高,可填充到本體庫(kù)中,構(gòu)建出審計(jì)知識(shí)圖譜的基礎(chǔ)版本。此外,根據(jù)這些詞條與本體庫(kù)的對(duì)應(yīng)關(guān)系,可將抽取出的三元組映射到本體網(wǎng)絡(luò)的子節(jié)點(diǎn)上。例如:從“資源環(huán)境審計(jì)”詞條中抽取的相關(guān)三元組可歸并到“資源環(huán)境審計(jì)”概念下;根據(jù)關(guān)鍵詞“準(zhǔn)則”可將“中國(guó)注冊(cè)會(huì)計(jì)師執(zhí)業(yè)準(zhǔn)則”相關(guān)三元組映射到“準(zhǔn)則”概念下。
除了從infobox中抽取的信息,本文還從其他渠道收集審計(jì)領(lǐng)域結(jié)構(gòu)化信息,如會(huì)計(jì)科目編號(hào)、會(huì)計(jì)/審計(jì)專(zhuān)業(yè)名詞中英文對(duì)照表、審計(jì)法律法規(guī)準(zhǔn)則列表、審計(jì)機(jī)構(gòu)列表、審計(jì)人物、審計(jì)機(jī)關(guān)領(lǐng)導(dǎo)信息等,將其填充入基礎(chǔ)知識(shí)圖譜中,這部分結(jié)構(gòu)化數(shù)據(jù)約包含2萬(wàn)條三元組。
基于上述構(gòu)建的本體框架和從結(jié)構(gòu)化信息中抽取出的三元組,本文共構(gòu)建了包含約10萬(wàn)條三元組的審計(jì)領(lǐng)域知識(shí)圖譜,并使用圖形數(shù)據(jù)庫(kù)neo4j框架為該知識(shí)圖譜設(shè)計(jì)了一款具有可視化界面的審計(jì)知識(shí)圖譜系統(tǒng)。該系統(tǒng)包括圖譜本體目錄索引和圖譜實(shí)體查詢(xún)功能,分別如圖5和圖6所示。
圖5 “審計(jì)知識(shí)圖譜系統(tǒng)”本體結(jié)構(gòu)樹(shù)狀索引
圖6 “審計(jì)知識(shí)圖譜系統(tǒng)”實(shí)體查詢(xún)結(jié)果可視化
該審計(jì)知識(shí)圖譜并非一次建成、永久不變。由于被審計(jì)單位千差萬(wàn)別,被審計(jì)單位的各項(xiàng)信息也在實(shí)時(shí)更新,因此構(gòu)建出的基礎(chǔ)版知識(shí)圖譜應(yīng)具有動(dòng)態(tài)更新、手動(dòng)/自動(dòng)添加三元組等功能。具體而言:使用者可在該圖譜基礎(chǔ)上動(dòng)態(tài)更新圖譜中節(jié)點(diǎn)/邊的信息;可將從其他文本/結(jié)構(gòu)化數(shù)據(jù)中獲得的審計(jì)三元組加入到本圖譜中;可在該圖譜框架下導(dǎo)入其他領(lǐng)域知識(shí)圖譜,如地理信息圖譜、企業(yè)投資圖譜等,以便應(yīng)用于具體審計(jì)業(yè)務(wù)。
在當(dāng)前數(shù)字化審計(jì)方式中,常采用“總體分析、發(fā)現(xiàn)疑點(diǎn)、分散核查、系統(tǒng)研究”的審計(jì)思路。下文將以陳偉等[3]討論的扶貧審計(jì)為例,探討如何將審計(jì)知識(shí)庫(kù)與上述審計(jì)思路相結(jié)合,進(jìn)一步提升審計(jì)線索挖掘的準(zhǔn)確性和可解釋性。
1.審計(jì)領(lǐng)域詞典在標(biāo)簽云分析中的應(yīng)用。審計(jì)領(lǐng)域詞典是提高審計(jì)文本挖掘準(zhǔn)確性的重要基石。在對(duì)審計(jì)文本進(jìn)行分詞和剔除停用詞時(shí),導(dǎo)入該領(lǐng)域詞典可提高審計(jì)領(lǐng)域詞匯分割的準(zhǔn)確性,為特征抽取與展示、文本分類(lèi)/聚類(lèi)、關(guān)聯(lián)規(guī)則挖掘等任務(wù)提供基礎(chǔ)保障。
以扶貧審計(jì)為例,當(dāng)獲得某地扶貧審計(jì)相關(guān)數(shù)據(jù)后,為快速了解被審計(jì)單位對(duì)扶貧政策的總體執(zhí)行情況,可對(duì)該單位相關(guān)扶貧項(xiàng)目文本文件進(jìn)行關(guān)鍵詞抽取,并使用標(biāo)簽云方式展示[3]。在關(guān)鍵詞抽取之前,需要對(duì)文本進(jìn)行分詞,若分詞結(jié)構(gòu)不合理,即不能將審計(jì)領(lǐng)域?qū)S妹~識(shí)別出來(lái),則展示出的詞標(biāo)簽往往具有一定的迷惑性。例如,“道路硬化”→(“道路”“硬化”)、“危房改造”→(“危房”“改造”)。因此,一個(gè)可行思路是對(duì)審計(jì)文本進(jìn)行分詞時(shí)導(dǎo)入本文建設(shè)的審計(jì)領(lǐng)域詞匯表作為分詞軟件的自定義詞表,從而提高分詞結(jié)果的準(zhǔn)確性和可解釋性。
2.詞向量在審計(jì)關(guān)鍵詞/文本相似性分析中的應(yīng)用。相似詞匯可能使用不同的字符表達(dá),這在傳統(tǒng)的詞袋子模型下被認(rèn)為是不同的特征,進(jìn)而增加了特征維度,使得基于特征的文本分析算法準(zhǔn)確性降低。使用詞向量度量詞匯之間的相似性可將表達(dá)相似或含義相同的詞匯歸并為一個(gè)特征,進(jìn)而提高特征詞抽取和文本相似度度量的準(zhǔn)確性。以扶貧審計(jì)標(biāo)簽云為例,原始標(biāo)簽中出現(xiàn)的相似詞匯,如“活動(dòng)室”和“活動(dòng)場(chǎng)所”、“幫扶”和“扶持”可分別歸并為一個(gè)詞匯,以進(jìn)一步提高標(biāo)簽云可視化結(jié)果的可解釋性和信息量。
在文本相似度度量方面,引入詞向量可將每個(gè)文本表達(dá)成特征空間中詞向量的拼接或者在詞向量基礎(chǔ)上使用深度學(xué)習(xí)技術(shù),如循環(huán)神經(jīng)網(wǎng)絡(luò)、fasttext[17]等,構(gòu)建文本向量,再計(jì)算文本相似度,將會(huì)提高相似度度量的準(zhǔn)確性。
以了解被審計(jì)單位對(duì)扶貧政策的執(zhí)行情況為例,對(duì)每一年的扶貧項(xiàng)目文件進(jìn)行相似度分析,以檢測(cè)扶貧項(xiàng)目的變化情況[3]。在計(jì)算文本相似度時(shí),一般以整個(gè)文本集的重要詞語(yǔ)作為特征空間,并以詞匯的TF-IDF作為其在空間中的權(quán)重。這樣每個(gè)文本即表達(dá)成特征空間中的向量,文本之間的相似性即為兩個(gè)向量之間的歐氏距離或余弦相似度。這種做法存在兩個(gè)問(wèn)題:一是特征空間高維稀疏,即一個(gè)文本只在若干個(gè)特征維度上有非零值,而在其他維度上值為零;二是特征相互獨(dú)立,某些相似的詞匯依舊被認(rèn)為具有兩個(gè)不相干的特征。這兩個(gè)問(wèn)題都會(huì)導(dǎo)致對(duì)文本相似度的計(jì)算不夠準(zhǔn)確,使用詞向量構(gòu)建的句子向量來(lái)度量句子相似度將會(huì)提高其計(jì)算的準(zhǔn)確性。
3.審計(jì)知識(shí)圖譜在審計(jì)實(shí)務(wù)中的應(yīng)用。知識(shí)圖譜通過(guò)三元組這一簡(jiǎn)潔的知識(shí)表示形式,既能提高數(shù)據(jù)表達(dá)效率,又能通過(guò)圖譜可視化提高數(shù)據(jù)表現(xiàn)能力。使用審計(jì)知識(shí)圖譜可輔助審計(jì)人員快速發(fā)現(xiàn)審計(jì)疑點(diǎn)以及這些疑點(diǎn)之間的關(guān)聯(lián)關(guān)系;此外,基于審計(jì)知識(shí)圖譜可構(gòu)建更加精準(zhǔn)的審計(jì)領(lǐng)域搜索引擎,以便在審計(jì)工作中快速準(zhǔn)確地搜索到與搜索詞相關(guān)的審計(jì)/會(huì)計(jì)準(zhǔn)則/法規(guī)、審計(jì)方法、審計(jì)底稿模板等信息。
以扶貧資金使用情況審計(jì)為例,在通過(guò)關(guān)鍵詞提取和標(biāo)簽云可視化分析后,發(fā)現(xiàn)了相關(guān)疑點(diǎn),如扶貧資金使用方面包含“餐費(fèi)”“高爾夫”“中介費(fèi)”“煙酒”等支出。那么,如何從這些線索中快速找到審計(jì)證據(jù)?一個(gè)思路是在已有的審計(jì)知識(shí)圖譜的基礎(chǔ)上,從被審計(jì)單位的相關(guān)扶貧資金支出數(shù)據(jù)中抽取出包含上述線索詞的三元組并整合到圖譜中,構(gòu)建出當(dāng)前被審計(jì)單位的臨時(shí)知識(shí)圖譜,即可分析出這些費(fèi)用的使用金額、報(bào)銷(xiāo)人、收款單位/人、支出項(xiàng)目等情況。
以扶貧內(nèi)容合理性審計(jì)為例,在通過(guò)關(guān)鍵詞獲得扶貧項(xiàng)目?jī)?nèi)容中存在“制革”“有色”“冶煉”等關(guān)鍵詞,那么怎樣快速判斷被審計(jì)單位是否投資了高污染、高能耗等國(guó)家禁止的行業(yè)項(xiàng)目呢?一個(gè)思路是利用詞向量從被審計(jì)單位的相關(guān)投資文件中抽取出包含上述關(guān)鍵詞或與上述關(guān)鍵詞相似的命名實(shí)體,以進(jìn)一步確認(rèn)被審計(jì)單位投資項(xiàng)目的具體名稱(chēng)。若投資項(xiàng)目中確實(shí)包含國(guó)家禁止的項(xiàng)目,則可在當(dāng)前知識(shí)圖譜的基礎(chǔ)上接入企業(yè)投資關(guān)系知識(shí)圖譜,進(jìn)一步確認(rèn)這些投資項(xiàng)目的法定代表人、注冊(cè)資本等信息。
本文討論了如何構(gòu)建審計(jì)知識(shí)庫(kù),探究了該知識(shí)庫(kù)在審計(jì)實(shí)務(wù)工作中的示范應(yīng)用。本文所構(gòu)建的審計(jì)知識(shí)庫(kù)包括三部分內(nèi)容,分別是審計(jì)領(lǐng)域詞典、審計(jì)領(lǐng)域詞匯的詞向量及訓(xùn)練詞向量的領(lǐng)域文本語(yǔ)料、審計(jì)領(lǐng)域知識(shí)圖譜。該知識(shí)庫(kù)的運(yùn)用將有助于提升面向?qū)徲?jì)文本數(shù)據(jù)挖掘的準(zhǔn)確性和可理解性。未來(lái)可使用深度學(xué)習(xí)方法從非結(jié)構(gòu)化文本中深入挖掘包含審計(jì)領(lǐng)域詞匯的三元組信息,以進(jìn)一步擴(kuò)充該知識(shí)圖譜。此外,還應(yīng)進(jìn)一步將該知識(shí)庫(kù)與審計(jì)應(yīng)用實(shí)務(wù)有機(jī)結(jié)合,例如在知識(shí)庫(kù)基礎(chǔ)上構(gòu)建審計(jì)準(zhǔn)則、審計(jì)方法等智能檢索功能,為審計(jì)業(yè)務(wù)查詢(xún)提供便利。