王秋菲 欒丹 張洛迪
【摘 要】 大數據背景下,低成本、高效率地獲取審計證據是實現審計信息化建設的關鍵環(huán)節(jié)。網絡爬蟲作為一種自動采集網絡信息的技術,能有效擴展數據分析的范圍,提高數據挖掘的速度。文章在分析網絡爬蟲技術獲取審計證據的原理、內容和流程的基礎上,以亞太實業(yè)審計為案例,利用爬蟲技術對其2009—2016年大數據進行挖掘分析,結果表明爬蟲技術爬取到的信息可以成為揭示公司財務舞弊行為的重要審計證據。因此,網絡爬蟲技術應用于審計程序中,能提高數據挖掘效率,精準提取審計證據。
【關鍵詞】 大數據審計; 網絡爬蟲技術; 數據挖掘; 審計方法
【中圖分類號】 F239.4 ?【文獻標識碼】 A ?【文章編號】 1004-5937(2020)17-0131-06
一、引言
大數據概念的提出引發(fā)了審計技術的巨大變化,利用大數據技術提升審計工作效率成為國內外審計領域高度關注的熱點問題。2015—2017年中共中央辦公廳、國務院辦公廳出臺相關文件,包括《促進大數據發(fā)展行動綱要》《關于實行審計全覆蓋的實施意見》《關于深化國有企業(yè)和國有資本審計監(jiān)督的若干意見》等,表明加快信息化建設是完善我國審計體系的必經之路。與此同時,國內外實踐界也從不同角度解釋了大數據對審計的影響。美國注冊會計師協(xié)會在2015年2月的Accounting Horizons發(fā)表了多篇有關大數據技術影響審計效率的文章;國際內部審計師協(xié)會在2017年發(fā)布的《理解與審計大數據》指南中,分析了大數據對審計的挑戰(zhàn);中國注冊會計師協(xié)會在2017年工作報告中要求會計師事務所使用大數據及人工智能等數據挖掘技術降低審計風險,提高審計效率和工作質量。2017年,世界審計組織大數據工作組會議在南京舉行,工作組18個成員國針對大數據時代的審計工作進行交流分享。習近平總書記在2018年主持召開的中央審計委員會第一次會議中強調“要堅持科技強審,加強審計信息化建設”。因此,以大數據技術為核心的審計信息化建設已成為中國全面實現審計覆蓋的必經之路。
在傳統(tǒng)的審計模式下,搜索不到“重要審計證據”是導致審計失敗的重要原因。在大數據背景下,海量信息有利于注冊會計師更加全面地分析企業(yè)狀況,探尋企業(yè)舞弊的線索,有效識別和降低審計風險。大數據在審計領域發(fā)揮作用的前提條件是被審計單位數據能和外部數據進行集成分析,但是由于我國尚未建立數據訪問與數據共享的機制,有效的審計數據并不能低成本獲得。2010—2019年中國證監(jiān)會發(fā)布的關于審計失敗行政處罰書數量總體呈攀升趨勢,每年受到處罰的會計師事務所均不少于2家,2017年高達6家。審計失敗不僅使會計師事務所受到沖擊,簽字注冊會計師的名譽也會受到損害。如何在大數據環(huán)境下獲取外部數據已成為大數據審計的重要問題。本文選取海南亞太實業(yè)發(fā)展股份有限公司(以下簡稱“亞太實業(yè)”公司代碼000691)審計失敗作為具體的案例,利用網絡爬蟲技術對其2009—2016年的大數據進行挖掘,提取新的審計證據進行分析,發(fā)現爬蟲技術獲得的證據可以有效地降低審計風險,避免審計失敗。
二、大數據審計的相關研究綜述
(一)大數據技術對審計的影響
大數據改變了傳統(tǒng)的審計數據采集與處理方法,因此,許多學者將研究的視角聚焦于大數據技術對審計判斷與決策、審計技術與方法以及審計功能的影響。Connolly[1]從數據功能的角度對審計大數據進行了界定,并提出交易數據、互動數據和觀測數據的集合就是大數據。Davis et al.[2]將大數據引入計算機網絡審計模型中,發(fā)現其可以更好地幫助審計人員評估被審計企業(yè)的風險。Moffitt et al.[3]認為,大數據改變了審計人員的判斷和收集審計證據的方式。Lohr[4]、Yoon et al.[5]認為大數據技術是對傳統(tǒng)審計取證方式的有力補充,利用大數據技術能夠提高審計決策的質量和審計水平。Hoogduin et al.[6]認為,大數據技術的引入能夠解決以傳統(tǒng)規(guī)則為基礎的審計系統(tǒng)缺陷,減少審計人員對客戶數據的依賴,并提供獨立的基準評估審計證據。Lombardi[7]指出,大數據時代審計人員可以通過使用數據技術挖掘外部數據降低客戶風險、舞弊風險。Koskivaara[8]認為,通過數據挖掘技術能夠發(fā)現企業(yè)的舞弊,并使審計師成為最大的受益者。秦榮生[9-10]認為,大數據技術推動了與風險審計模式相對的整體審計模式的形成和運用,為審計師獲取相關關系證據提供技術基礎,推動高效審計的成長。魯清仿等[11]研究了大數據對審計證據的影響,研究結果表明,大數據技術突破了傳統(tǒng)證據收集的技術局限性,降低獲取審計證據的成本,注冊會計師通過分析更多的審計證據,能有效降低審計風險。程平等[12-13]認為,大量結構化和非結構化數據存儲在云平臺中,使得審計人員能夠更加便捷、快速地獲取非標準化數據。王秋菲等[14]將大數據因素引入審計風險識別模型,從審計主體、審計客體和大數據因素三方面來研究影響審計風險識別的關鍵因素。
(二)網絡爬蟲技術在審計中的應用
在審計的研究中,現有大數據技術大多集中在數據分析和處理上,而對相關數據的獲取關注較少。目前,有四種主要的審計數據收集方法:直接復制、通過中間文件收集、通過ODBC接口以及備份/恢復進行收集。由于尚未建立信息共享平臺,審計需要的財務數據和非財務經營數據無法獲得,因此審計人員可以通過某些軟件工具獲取在線數據,也可以在Internet上實現對被審計單位公開報告的風險信息自動提取,以降低審計風險并提高審計效率。
網絡爬蟲是一項技術,根據一定規(guī)則,用戶可以從海量的大數據中自動獲取想要的信息,并且該技術的使用可以擴充數據分析的范圍,更全面地發(fā)掘相關的審計線索。張志恒等[15]認為,網絡爬蟲的實質是文本挖掘,并設計出文本挖掘的審計框架。陳偉等[16]將網絡爬蟲技術應用于審計中,利用主題爬蟲方法將代碼制作成腳本文件,為網絡爬蟲和審計的結合奠定了理論基礎。肖敏[17]將關鍵詞替換為審計程序可以理解的腳本,發(fā)現挖掘出的審計證據比傳統(tǒng)的取證模式更加豐富。
國內外學者的相關研究表明,大數據技術可以有效降低審計風險。然而,如何利用大數據技術挖掘審計證據的研究卻很少,盡管我國的學者提出可以使用網絡爬蟲收集和挖掘審計證據,但沒有具體的案例分析整個應用過程。因此,利用具體的案例研究網絡爬蟲的應用具有重要的現實意義。
三、網絡爬蟲技術原理及應用
(一)網絡爬蟲技術挖掘數據原理
網絡爬蟲的主要作用是在海量的互聯網信息中抓取有效信息并存儲。根據實施的技術和系統(tǒng),網絡爬蟲可以分為通用網絡爬蟲、主題網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲,審計證據獲取主要應用的是主題網絡爬蟲。主題網絡爬蟲可以根據對應的主題有目的地進行爬取,聚焦網絡爬蟲將目標定位在互聯網中與主題相關的頁面,初始URL的獲取是通過對抓取目標的定義以及相關的描述[18]。主題爬蟲通常分為三步:
第一步,確定需要爬取的網頁,用戶確定需要爬取的網址。
第二步,爬蟲軟件爬取網頁。通過軟件輸入代碼或輸入關鍵詞,目前市場上有兩種產品,一種是基于Python語言運行的Anaconda軟件,下載后需要專業(yè)人士輸入代碼,運行后爬取目標網頁上用戶需要的數據;另一種是八爪魚等爬蟲軟件,適合非專業(yè)人士應用,直接輸入用戶所需要查找的關鍵詞便可以自動搜索相關網頁。第一種產品的優(yōu)點是用戶可以設置篩選細節(jié),包括去除廣告等。缺點是較為復雜且需要專業(yè)的計算機知識基礎。第二種產品的優(yōu)點是對于非計算機專業(yè)人士方便簡潔,缺點是搜索到的內容精準度有一定下降,但相對人工搜索效率與準確率仍大大提高。
第三步,爬蟲軟件輸出結果。在分析被爬取網頁的代碼時,如果找到與用戶輸入代碼或關鍵詞相符的網址就會被保存起來,如果網頁內有新的網址,爬蟲軟件或代碼會繼續(xù)爬取新網址的代碼,獲取所需的數據,最終輸出一個Excel表格,以便用戶查詢。
(二)網絡爬蟲技術挖掘審計證據的內容和流程
利用網絡爬蟲技術挖掘審計證據就是在互聯網上獲得被審計單位的公共數據,并將這些數據和從被審計單位獲得的數據以及直接從其他單位獲得的數據進行對比,進而獲得更多反映被審計單位經營成果和財務狀況的信息。
1.審計證據的內容
在大數據背景下,爬蟲技術可以獲得海量的數據,為了便于數據的分析和對比,審計人員可以根據實際情況進行政策環(huán)境爬蟲測試、行業(yè)環(huán)境爬蟲測試、企業(yè)經營爬蟲測試以及關聯方爬蟲測試。
大量審計失敗的案例表明,影響審計風險的重要因素是政策環(huán)境和行業(yè)環(huán)境。注冊會計師通過分析被審計單位提供的審計證據,可以了解企業(yè)的資產狀況和經營成果,但無法和同類企業(yè)進行對比分析,也就無從驗證企業(yè)經營成果的合理性。企業(yè)在行業(yè)中的地位,行業(yè)在國家經濟體系中的位置都是決定企業(yè)盈虧與整體運營情況的重要因素,有效的政策和行業(yè)環(huán)境爬蟲測試可以揭露該企業(yè)與行業(yè)整體經濟行為的矛盾點,進而成為審計風險判斷的重要線索。經營測試分為內部經營測試與外部經營測試,大數據審計下的經營測試為外部測試,目的就是利用網絡爬蟲技術在大數據第三方海量平臺中搜索被審計單位經營數據,將外部測試結果與內部符合性測試的結果進行對比,檢查是否能夠相互照應吻合[19]。注冊會計師可以通過企業(yè)外部的經營測試結果信息來判斷該企業(yè)是否經營良好,盈利是否強勁,外部評價是否正面等。例如該企業(yè)面臨各種訴訟,關聯子公司被抵押或股權交易,管理層頻繁更換,股評網站收到網友大面積負面評價,但該公司各類指標卻顯示非?!皟?yōu)越”,這種情況提醒注冊會計師應盡快評估被審計單位的審計風險,加強審計控制程序,對相關的信息進行更細致的問詢,并核查是否屬實。企業(yè)旗下有許多關聯子公司,控制或有重大影響的關聯公司對審計師的被審計單位都有可能造成財務舞弊的潛在可能,因為大多數企業(yè)為了更加隱蔽地操作財務舞弊手段,往往不會在自身做手腳,而是從關聯企業(yè)的賬務上轉嫁到自己的資產、利潤中,注冊會計師應對被審計單位的關聯方企業(yè)進行大數據測試,同樣從海量的大數據第三方獲取關聯方的數據資源,將與被審計單位相關的部分進行重合甄別,判斷是否屬實,評估關聯方財務舞弊的概率與審計風險,從而決定是否加強后續(xù)的審計程序,有效控制關聯方的財務舞弊行為。表1給出了不同測試關注的要點。
2.審計證據的流程
運用爬蟲技術獲取審計證據的步驟有四步:
第一步,確定網絡信息獲取的途徑與范圍。在符合性測試的基礎上,確定抓取目標網站并分析對應的網頁。第二步,捕獲相關信息。采用相關網絡爬蟲軟件,實現網絡數據的抓取。第三步,測試判斷分析所收集到的政策、環(huán)境、經營及關聯交易信息對被審計單位的影響,判斷相關信息能否成為驗證被審計單位發(fā)生財務舞弊的線索。第四步,審計評估。爬取數據與符合性測試獲得的數據進行匹配,估計審計風險。對超出安全范圍的內容,重新設計實質性測試程序,提高審計效率和質量[20]。具體流程見圖1。
四、網絡爬蟲技術在亞太實業(yè)審計中應用
(一)亞太實業(yè)審計失敗案例背景
2016年2月19日,中國證監(jiān)會發(fā)布信息公布了關于處理海南亞太實業(yè)發(fā)展股份有限公司(以下簡稱“亞太實業(yè)”)信息披露違規(guī)行為的結果。該公告的發(fā)布坐實亞太實業(yè)連續(xù)5年存在違反信息披露規(guī)定。亞太實業(yè)2010—2012年財務報告由國富浩華會計師事務所出具、2013—2014年由瑞華會計師事務所出具,兩家事務所均出具無保留意見審計報告。2017年1月6日,證監(jiān)會發(fā)布“中國證監(jiān)會行政處罰決定書(瑞華會計師事務所、溫亭水、秦寶)〔2017〕1號”,標志著瑞華會計師事務所對亞太實業(yè)審計失敗,具體違法事實見圖2。
上市公司故意舞弊行為在很大程度上為注冊會計師執(zhí)行審計程序增加了難度,審計師作為外部人員,僅僅依靠被審計單位提供的資料,常常會忽略重大事項的影響力,從而對審計內容誤判。亞太實業(yè)審計失敗的案例中,瑞華事務所根據亞太實業(yè)提供的相關資料認定重要性水平僅為120萬元,沒有正確評估審計風險,進而導致了審計失敗。本文采用網絡爬蟲技術從政策環(huán)境、行業(yè)環(huán)境、經營環(huán)境、關聯方交易等方面對亞太實業(yè)2009—2016年的互聯網數據進行挖掘,并分析相關信息對判別企業(yè)財務狀況的作用,為評估審計風險提供補充。
網絡爬蟲搜索到亞太實業(yè)高層更換頻繁,對外訴訟較多,較多糾紛處理不清,存在大量金額擔保行為,內部控制存在重大缺陷。此外,注冊會計師依靠傳統(tǒng)審計并未查明其有2個數額巨大的擔保,僅根據公司提供的材料核實一項。網絡爬蟲技術清晰查詢到亞太實業(yè)的訴訟材料中有兩份擔保訴訟,合計4 800萬元以上。注冊會計師應該進一步核實該事項,按照相關會計準則進行處理并披露。
從以上分析可以得出,亞太實業(yè)在運營及管理中存在很多風險點,在傳統(tǒng)審計模式下,注冊會計師無法準確了解和識別出這些風險。注冊會計師除了提高自身警覺性,完善審計程序,更應該利用大數據環(huán)境以及網絡爬蟲技術挖掘被審計企業(yè)的信息,以便于獲取更加可靠的審計證據,避免審計失敗。
五、結論
本文采用爬蟲技術對亞太實業(yè)2009—2016年互聯網數據進行深度挖掘,發(fā)現部分爬取數據可以從政策環(huán)境、行業(yè)環(huán)境、經營環(huán)境以及關聯方交易等方面對傳統(tǒng)審計程序獲得證據進行補充。如果注冊會計師在審計過程中能借助爬蟲技術獲得這些信息并調整審計實質性測試程序,亞太實業(yè)審計失敗或許可以避免。因此,網絡爬蟲技術在審計領域應用有助于注冊會計師獲取重要的外部信息,能有效地推動大數據審計發(fā)展,提升審計效率。
【參考文獻】
[1] CONNOLLY S.Key drivers for the Big Data market,blog posting,May 14th[EB/OL].http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/.2012(7).
[2] DAVIS J T,MASSEY A P,Lovell II R E R.Supporting a complex audit judgment task:an expert network approach[J].European Journal of Operational Research,1997,103(2):350-372.
[3] MOFFITT K C,VASARHELYI M A.AIS in an age of Big Data[J].Journal of Information Systems,2013,27(2):1-19.
[4] LOHR S.A data explosion remakes retailing[N].New York Times,2010-01-02.
[5] YOON K,HOOGDUIN L,ZHANG L.Big Data as complementary audit evidence[J].Accounting Horizons,2015,29(2):431-438.
[6] HOOGDUIN L,YOON K,ZHANG L.Integrating different forms of data for audit evidence:markets research becoming relevant to assurance[D].Working Paper CARLab,Rutgers Business School,2014.
[7] LOMBARDI D R.Using an expert system to debias auditor judgment:an experimental study[D].Rutgers University-Graduate School-Newark,2012.
[8] KOSKIVAARA E.Artificial neural networks in analytical review procedures[J].Managerial Auditing Journal,2004,19(2):191-223.
[9] 秦榮生.大數據、云計算技術對審計的影響研究[J].審計研究,2014(6):23-28.
[10] 秦榮生.我國內部審計的新使命與發(fā)展新路徑[J].會計之友,2019(8):2-5.
[11] 魯清仿,梁子慧.大數據對風險導向審計影響的研究[J].河南師范大學學報(哲學社會科學版),2015,42(2):55-58.
[12] 程平,孫瑜.基于財務云平臺的單位層面內部控制優(yōu)化研究——以重慶海事局為例[J].會計之友,2018(9):123-125.
[13] 程平,白沂.大數據時代基于財務共享服務模式的IT審計[J].會計之友,2016(24):128-131.
[14] 王秋菲,秦爽,石丹.基于大數據的審計風險識別與控制問題研究[J].會計之友,2018(24):93-100.
[15] 張志恒,成雪嬌.大數據環(huán)境下基于文本挖掘的審計數據分析框架[J].會計之友,2017(16):117-120.
[16] 陳偉,居江寧.基于大數據可視化技術的審計線索特征挖掘方法研究[J].審計研究,2018(1):16-21.
[17] 肖敏.大數據背景下做好政策落實跟蹤審計的探討[N].中國審計報,2018-08-22(006).
[18] 潘曉英,陳柳,余慧敏,等.主題爬蟲技術研究綜述[J].計算機應用研究:2020(4):961-965.
[19] 王秋菲,張洛迪,欒丹.大數據下的數據挖掘技術降低審計風險研究[J].遼寧經濟,2019(12):42-43.
[20] 劉國城,陳正升.大數據審計的發(fā)展態(tài)勢、總體策劃與流程分析[J].會計之友,2019(8):30-35.