| 李佳正
近年來,大數(shù)據(jù)技術(shù)的發(fā)展和廣泛應(yīng)用給國家經(jīng)濟(jì)社會(huì)帶來了深刻的影響,也給審計(jì)工作帶來了新的機(jī)遇。2014年《國務(wù)院關(guān)于加強(qiáng)審計(jì)工作的意見》明確指出“探索在審計(jì)實(shí)踐中運(yùn)用大數(shù)據(jù)技術(shù)的途徑,加大數(shù)據(jù)綜合利用力度,提高運(yùn)用信息化技術(shù)查核問題、評(píng)價(jià)判斷、宏觀分析的能力”。在此背景下,學(xué)術(shù)界和實(shí)務(wù)界關(guān)于大數(shù)據(jù)技術(shù)在審計(jì)工作中的應(yīng)用展開了廣泛的研究。劉星等(2016)闡釋了大數(shù)據(jù)審計(jì)的內(nèi)涵,并提出了推進(jìn)大數(shù)據(jù)審計(jì)工作所面臨的困難與挑戰(zhàn)。陳偉等(2017,2018)探討了網(wǎng)絡(luò)爬蟲、本文挖掘、數(shù)據(jù)可視化技術(shù)在審計(jì)領(lǐng)域的應(yīng)用,以及電子數(shù)據(jù)審計(jì)方向面臨的機(jī)遇與挑戰(zhàn)。劉國城等(2019)基于數(shù)據(jù)科學(xué)理論,論述了大數(shù)據(jù)審計(jì)的總體流程。
作為大數(shù)據(jù)技術(shù)的核心架構(gòu),數(shù)據(jù)倉庫承載著整個(gè)業(yè)務(wù)過程全鏈路的數(shù)據(jù)(王珊等,2011)。隨著我國經(jīng)濟(jì)的快速增長、上市公司規(guī)模的逐漸擴(kuò)大、業(yè)務(wù)過程的逐漸豐富,審計(jì)證據(jù)的數(shù)量也迅速增長,類型和來源渠道也變得愈加多樣化。然而,在大多數(shù)審計(jì)工作中尚未建立起覆蓋整個(gè)審計(jì)業(yè)務(wù)流程的數(shù)據(jù)倉庫,這極大地限制了大數(shù)據(jù)技術(shù)在審計(jì)應(yīng)用中的效果,難以發(fā)揮出大數(shù)據(jù)技術(shù)的真正潛力。數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合(William H.Inmon)。利用數(shù)據(jù)倉庫對(duì)審計(jì)數(shù)據(jù)進(jìn)行有效的組織、存儲(chǔ),對(duì)于規(guī)范審計(jì)流程、提高審計(jì)效率具有重大作用。因此,本文擬立足于審計(jì)理論與實(shí)務(wù),基于數(shù)據(jù)倉庫的設(shè)計(jì)思想,結(jié)合當(dāng)前大數(shù)據(jù)在審計(jì)以及互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用,研究基于數(shù)據(jù)倉庫技術(shù)的大數(shù)據(jù)審計(jì)方法。
審計(jì)數(shù)據(jù)的來源十分廣泛,既包含被審計(jì)單位的賬簿、報(bào)表、電子數(shù)據(jù)表這些會(huì)計(jì)信息數(shù)據(jù),也包含分析師報(bào)告、與競爭者的比較數(shù)據(jù)等其他的信息數(shù)據(jù)。這些審計(jì)數(shù)據(jù)之間有著復(fù)雜且密切的聯(lián)系,需要借助大數(shù)據(jù)手段對(duì)這些數(shù)據(jù)進(jìn)行組織和加工,以實(shí)現(xiàn)數(shù)據(jù)利用效率的最大化。
在建設(shè)數(shù)據(jù)倉庫之前,審計(jì)數(shù)據(jù)往往散落地存儲(chǔ)在事務(wù)所各個(gè)審計(jì)師的電腦上,甚至一些紙質(zhì)版審計(jì)證據(jù)未建立電子數(shù)據(jù)存檔。當(dāng)一個(gè)復(fù)雜的審計(jì)項(xiàng)目涉及到跨業(yè)務(wù)、跨小組合作時(shí),這樣的審計(jì)數(shù)據(jù)組織方式會(huì)帶來以下幾點(diǎn)問題:(1)審計(jì)師難以高效率獲取到指定主題的審計(jì)數(shù)據(jù);(2)數(shù)據(jù)落實(shí)情況和計(jì)算口徑不一致,缺乏可比性,難以整合;(3)缺乏審計(jì)數(shù)據(jù)收集和加工的標(biāo)準(zhǔn)化流程,數(shù)據(jù)質(zhì)量難以保證;(4)審計(jì)師大多通過本地Excel操作數(shù)據(jù),難以處理大規(guī)模的數(shù)據(jù)量,也不便于進(jìn)行數(shù)據(jù)權(quán)限的控制。
與傳統(tǒng)數(shù)據(jù)庫的組織方式不同,數(shù)據(jù)倉庫一般通過維度建模的方式來組織數(shù)據(jù)表。維度建模過程主要有四步:確定業(yè)務(wù)過程、確定粒度、確定維度、確定事實(shí)。對(duì)于審計(jì)業(yè)務(wù),維度建模過程見表1所示。
表1 審計(jì)業(yè)務(wù)維度建模過程
根據(jù)維度建模思想組織好數(shù)據(jù)表之后,通常還需要進(jìn)行數(shù)據(jù)倉庫的分層,對(duì)數(shù)據(jù)倉庫進(jìn)行分層有助于更加清晰地把握數(shù)據(jù)的組織結(jié)構(gòu)、追蹤數(shù)據(jù)血緣、減少重復(fù)開發(fā)、將復(fù)雜問題簡單化,實(shí)現(xiàn)以空間換時(shí)間的目的,提高數(shù)據(jù)存儲(chǔ)組織、處理和查詢的效率。
在大數(shù)據(jù)的實(shí)務(wù)領(lǐng)域,通常將數(shù)據(jù)倉庫由下至上分為明細(xì)數(shù)據(jù)層(ODS層)、基礎(chǔ)層(BAS層)、事實(shí)層(FACT層)和主題層(TOPIC層),對(duì)于審計(jì)數(shù)據(jù)倉庫,可以設(shè)計(jì)如圖1所示的數(shù)據(jù)倉庫分層。
圖1 審計(jì)數(shù)據(jù)倉庫分層設(shè)計(jì)
ODS層中主要存儲(chǔ)審計(jì)業(yè)務(wù)過程中得到的原始數(shù)據(jù),例如被審計(jì)單位的賬簿和憑證中所記錄的經(jīng)營活動(dòng)發(fā)生金額、被審計(jì)單位的財(cái)務(wù)報(bào)表、被審計(jì)單位內(nèi)部控制數(shù)據(jù)、分析師報(bào)告數(shù)據(jù)、通過網(wǎng)絡(luò)爬蟲等手段得到的有關(guān)被審計(jì)單位的數(shù)據(jù)等。它的主要功能是積累和保存歷史數(shù)據(jù)。
BAS層會(huì)對(duì)ODS層的數(shù)據(jù)進(jìn)行適當(dāng)?shù)那逑础⒕S度補(bǔ)全和整合工作。它的主要功能是保證數(shù)據(jù)的質(zhì)量,及時(shí)響應(yīng)審計(jì)業(yè)務(wù)的變動(dòng),避免頻繁更新數(shù)據(jù)倉庫的數(shù)據(jù)處理邏輯。
FACT層會(huì)基于維度建模的思想,根據(jù)審計(jì)業(yè)務(wù)的特點(diǎn),整合BAS的數(shù)據(jù)表,形成審計(jì)業(yè)務(wù)的事實(shí)表,如被審計(jì)單位的經(jīng)營活動(dòng)事實(shí)、進(jìn)行的審計(jì)程序事實(shí)等。它的主要功能是提高審計(jì)人員查詢數(shù)據(jù)的效率。
TOPIC層會(huì)根據(jù)審計(jì)人員的個(gè)性化數(shù)據(jù)分析需求,對(duì)某一專題的數(shù)據(jù)進(jìn)行整合,如被審計(jì)單位的會(huì)計(jì)數(shù)據(jù)主題、被審計(jì)單位自身畫像主題等。它的作用是滿足使用者個(gè)性化分析的需求。
在數(shù)據(jù)倉庫建設(shè)完成之后,可以高效地利用其中存儲(chǔ)的數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行挖掘、建模、可視化處理等操作,以發(fā)現(xiàn)其中隱藏的數(shù)據(jù)模式、偏差、不一致等信息,從而獲得進(jìn)一步的審計(jì)證據(jù),提高審計(jì)質(zhì)量。因此,在數(shù)據(jù)的來源、數(shù)據(jù)質(zhì)量的維護(hù)、大數(shù)據(jù)存儲(chǔ)與處理、數(shù)據(jù)的查詢、數(shù)據(jù)可視化、數(shù)據(jù)挖掘等方面,審計(jì)數(shù)據(jù)倉庫還需要其他工具和算法的配合,才能最大化發(fā)揮它的作用。
1.數(shù)據(jù)來源方面:借助Python提供的爬蟲庫或者其他網(wǎng)絡(luò)爬蟲產(chǎn)品,從第三方財(cái)經(jīng)網(wǎng)站、政府工商網(wǎng)站等爬蟲與被審計(jì)單位相關(guān)的數(shù)據(jù),豐富審計(jì)數(shù)據(jù)的來源,增加審計(jì)證據(jù)的可靠性。
2.數(shù)據(jù)質(zhì)量維護(hù)方面:建立數(shù)據(jù)指標(biāo)字典,保證數(shù)據(jù)指標(biāo)口徑的一致性。建立數(shù)據(jù)處理的標(biāo)準(zhǔn)化流程,給不同類別的審計(jì)人員設(shè)置相適應(yīng)的數(shù)據(jù)使用權(quán)限。
3.大數(shù)據(jù)存儲(chǔ)與處理:使用分布式文件系統(tǒng)HDFS對(duì)審計(jì)原始數(shù)據(jù)進(jìn)行存儲(chǔ),使用大數(shù)據(jù)處理引擎Spark進(jìn)行大數(shù)據(jù)的計(jì)算和處理。審計(jì)數(shù)據(jù)的使用人員無需了解數(shù)據(jù)的底層架構(gòu),只需要編寫SQL查詢語句便可得到需要的數(shù)據(jù),極大地降低了學(xué)習(xí)成本。
4.數(shù)據(jù)的查詢:離線數(shù)據(jù)倉庫的查詢速度往往隨著數(shù)據(jù)量的增大和運(yùn)算程度的復(fù)雜化而變得緩慢,無法滿足審計(jì)人員即席查詢的需求,因此需要聯(lián)機(jī)分析處理引擎(Online Analytical Processing, OLAP)這一“發(fā)動(dòng)機(jī)”的配合,目前主流的OLAP引擎有Doris、Druid、ClickHouse、Kylin等。
5.數(shù)據(jù)的可視化:可視化是對(duì)審計(jì)數(shù)據(jù)最直觀的呈現(xiàn),利用可視化的折線趨勢圖、條形圖、多維查詢等,審計(jì)人員更容易發(fā)現(xiàn)數(shù)據(jù)之間的勾稽關(guān)系,輔助進(jìn)行控制測試、分析性程序等操作。對(duì)于數(shù)據(jù)的可視化方法,可以使用Python等編程工具提供的繪圖庫,也可以借助Tableau等BI分析軟件。
6.數(shù)據(jù)挖掘:數(shù)據(jù)挖掘技術(shù)是在海量、隨機(jī)的數(shù)據(jù)中搜尋隱藏的、具有價(jià)值的信息的過程(何晨煒等,2017)。在對(duì)審計(jì)數(shù)據(jù)進(jìn)行挖掘的過程中,往往會(huì)用到分類、回歸、聚類等機(jī)器學(xué)習(xí)算法。當(dāng)前,審計(jì)數(shù)據(jù)挖掘已經(jīng)應(yīng)用到了預(yù)測企業(yè)內(nèi)部控制重大缺陷(劉瑾等,2021)、財(cái)務(wù)報(bào)表造假(吳勇等,2021)、債務(wù)違約預(yù)測(潘澤清,2018)等領(lǐng)域。
綜上所述,可以得到基于數(shù)據(jù)倉庫技術(shù)的審計(jì)大數(shù)據(jù)架構(gòu),見圖2所示。
圖2 基于數(shù)據(jù)倉庫技術(shù)的審計(jì)大數(shù)據(jù)架構(gòu)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)倉庫技術(shù)可以輔助我們對(duì)海量的審計(jì)數(shù)據(jù)進(jìn)行高效的存儲(chǔ)、處理、查詢和管理。在此基礎(chǔ)上,可以結(jié)合數(shù)據(jù)可視化技術(shù)、數(shù)據(jù)挖掘算法對(duì)審計(jì)數(shù)據(jù)進(jìn)行個(gè)性化的分析和深層次的挖掘,更高效率地進(jìn)行數(shù)據(jù)分析、開展審計(jì)程序、進(jìn)行風(fēng)險(xiǎn)評(píng)估等工作,從而提高對(duì)審計(jì)數(shù)據(jù)的綜合利用力度,提升審計(jì)質(zhì)量。