武茗馨
[摘要]隨著大數(shù)據(jù)時代的到來,審計工作在思維模式、技術方法、審計重點等方面發(fā)生了重大變化。在金融信息快速增長、金融創(chuàng)新不斷升級的環(huán)境下,金融行業(yè)內(nèi)部審計部門對大數(shù)據(jù)技術的需求也在不斷增加。本文從金融行業(yè)內(nèi)部審計應用大數(shù)據(jù)技術的背景出發(fā),通過對大數(shù)據(jù)及其相關技術的介紹,分析大數(shù)據(jù)的具體應用,探討大數(shù)據(jù)對相關領域的影響,對金融行業(yè)內(nèi)部審計的發(fā)展做出展望。
[關鍵詞]大數(shù)據(jù) 大數(shù)據(jù)技術 內(nèi)部審計 大數(shù)據(jù)
一、大數(shù)據(jù)及基本技術概述
(一)大數(shù)據(jù)概述
作為一個新興概念,大數(shù)據(jù)至今尚未有明確統(tǒng)一的定義。大數(shù)據(jù)研究先驅(qū)麥肯錫公司(McKinsey&Company)認為,大數(shù)據(jù)指的是大小超出常規(guī)數(shù)據(jù)庫軟件的采集、存儲、管理和分析等能力的數(shù)據(jù)集。這一定義包含兩方面的意義:第一,隨著時間推移和技術進步,符合大數(shù)據(jù)標準的數(shù)據(jù)集的大小會有所變化;第二,不一定要超過特定容量值的數(shù)據(jù)才算是大數(shù)據(jù)。此外,大數(shù)據(jù)研究機構高德納咨詢公司(Gartner Group)也對大數(shù)據(jù)給出定義:大數(shù)據(jù)是需要高效創(chuàng)新的處理模式來提高洞察力、增強決策力的海量、快速和多樣化的信息資產(chǎn)。這一定義提出了大數(shù)據(jù)的三大特征:大量化(volume)、快速化(Velocity)和多樣化(vafiety),簡稱大數(shù)據(jù)的“3V”特點。近年來,隨著對大數(shù)據(jù)的深入研究,大數(shù)據(jù)的特點逐漸由“3V”演變?yōu)椤?V”甚至更多,包括:真實性(Veracity)、價值(value)、可變性(variability)、有效性(varidity)、波動性(volatility)、復雜性(complexity)等等,圖1.1展示了大數(shù)據(jù)的特點。
(二)大數(shù)據(jù)技術
根據(jù)大數(shù)據(jù)處理的生命周期,大數(shù)據(jù)技術體系中的關鍵技術包括:非結構化數(shù)據(jù)采集技術、數(shù)據(jù)清洗篩選技術、數(shù)據(jù)分布式存儲系統(tǒng)、數(shù)據(jù)并行計算分析技術、數(shù)據(jù)可視化技術等。
1.非結構化數(shù)據(jù)采集技術。大數(shù)據(jù)時代,數(shù)據(jù)信息來源十分廣泛,包括手機、電腦、網(wǎng)絡、衛(wèi)星、社交媒體、交通工具、射頻信號、電子發(fā)射器等。從這些渠道所采集的數(shù)據(jù)往往格式不一,對大量數(shù)據(jù)進行格式轉(zhuǎn)換的效率低下,并會增加數(shù)據(jù)采集的難度。據(jù)統(tǒng)計,在現(xiàn)有大數(shù)據(jù)存儲系統(tǒng)中,非結構化數(shù)據(jù)和半結構化數(shù)據(jù)約占80%,因此,傳統(tǒng)的數(shù)據(jù)采集工具已經(jīng)無法滿足時代的需要,非結構化數(shù)據(jù)采集技術必不可少。如今,大多數(shù)互聯(lián)網(wǎng)企業(yè)都建立了自己的大數(shù)據(jù)采集系統(tǒng),例如:Facebook的Scribe系統(tǒng)、Cloudera的Flume系統(tǒng)、Apache的Chukwa系統(tǒng)、Linkedin的Kafka系統(tǒng)等。這些非結構化數(shù)據(jù)采集系統(tǒng)具有良好的可擴展性和容錯機制,并且是開源的系統(tǒng),用戶可以根據(jù)不同需要選擇適合的數(shù)據(jù)采集技術。
2.數(shù)據(jù)清洗篩選技術。在大數(shù)據(jù)采集之后,需要對海量數(shù)據(jù)進行簡單的預處理,主要包括清洗技術和篩選技術。這兩項大數(shù)據(jù)技術適用于將網(wǎng)絡中的大量損壞、冗余、無用的數(shù)據(jù)進行徹底清理,優(yōu)化多源數(shù)據(jù)和多模式數(shù)據(jù),對采集來的數(shù)據(jù)進行整合,將高質(zhì)量數(shù)據(jù)轉(zhuǎn)化為信息,并加以提取用于分析。因此,數(shù)據(jù)清洗篩選技術能夠控制不同來源的數(shù)據(jù)質(zhì)量,為數(shù)據(jù)分析提供基礎性的技術保障。Hadoop平臺正是為了加快數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載進程,提高并行數(shù)據(jù)預處理而開發(fā)的。概括來說,Hadoop是一系列開源產(chǎn)品的組合,其核心的內(nèi)容是:HDFS(Hadoop Distributed File System)和MapReduce,HDFS可以為海量數(shù)據(jù)提供存儲功能,MapReduce則為海量數(shù)據(jù)提供計算。
3.數(shù)據(jù)分布式存儲系統(tǒng)。非結構化數(shù)據(jù)存儲于分布式文件系統(tǒng)中,因而分布式存儲系統(tǒng)在大數(shù)據(jù)時代相當重要。傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)采用集中的方式,將所有數(shù)據(jù)存儲于一臺服務器中,存儲服務器的可靠性和安全性成為系統(tǒng)性能的瓶頸,也無法滿足大規(guī)模數(shù)據(jù)存儲應用的需要。而分布式數(shù)據(jù)存儲系統(tǒng)采用可擴展的系統(tǒng)結構,借助多臺服務器分擔存儲負荷,利用位置服務器定位存儲信息,不僅可以提高系統(tǒng)整體的可靠性、安全性、可用性和存取效率,還具備可擴展功能。目前,常見的數(shù)據(jù)分布式存儲系統(tǒng)主要有:GFS(Google File System)、HDFS、Lustre并行分布式文件系統(tǒng)、Ceph存儲系統(tǒng)等。以HDFS為例,圖1.2展示了數(shù)據(jù)分布式存儲系統(tǒng)的運行模式。
4.數(shù)據(jù)并行計算分析技術。對于混合負載的大數(shù)據(jù)庫進行分析處理是十分復雜困難的,對海量數(shù)據(jù)進行依次順序計算分析不僅費時費力,還存在影響系統(tǒng)安全的風險。表1.1展示了大數(shù)據(jù)分析技術的基本要求,由此可見,數(shù)據(jù)并行計算分析技術是大數(shù)據(jù)分析的關鍵技術。
非結構化數(shù)據(jù)主要通過分布式計算結構進行處理分析,基于不同的計算模型。目前,主要的并行計算結構有如下三種:
第一,MapReduce模型。這一模型應用較為廣泛,運用映射(Map)和規(guī)約(Reduce)函數(shù),將一組鍵值對映射成一組新的鍵值對,從而保證所有映射的鍵值對共享相同的鍵組,適用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。
第二,Bulk Synchronous Parallel模型,簡稱BSP模型。這是一種具有可擴展并行性能的并行程序模型,與簡單計算模型相似,但區(qū)別在于:BSP模型在每次運算過后,對所有節(jié)點都會進行同步處理,適用于迭代計算。Google的圖算法引擎Pregel即基于此模型。
第三,DAG圖模型。這一模型利用無回路有向圖(DAG)描述復雜的計算處理關系和過程。微軟公司的Dryad項目即采用這一模型。
5.數(shù)據(jù)可視化技術。數(shù)據(jù)可視化技術是指利用表格、圖像、色彩、動畫等形式,對數(shù)據(jù)信息加以可視化解釋的技術。在大數(shù)據(jù)時代,面對海量數(shù)據(jù)信息,利用數(shù)據(jù)可視化技術能夠更加直觀、便捷的對數(shù)據(jù)分析結果進行展示,并進一步幫助研究人員進行大數(shù)據(jù)分析與挖掘。數(shù)據(jù)可視化技術適用范圍廣泛,涉及生物醫(yī)藥、氣象地理、商務金融、社交媒體、公共服務等眾多領域,并處在進一步發(fā)展開發(fā)階段。
二、大數(shù)據(jù)技術在金融行業(yè)內(nèi)部審計中的應用
(一)數(shù)據(jù)采集
金融行業(yè)具有數(shù)據(jù)集中度高、信息化程度高、業(yè)務關聯(lián)度高等特點,這些特點使得金融審計在數(shù)據(jù)采集方面存在采集時間長、存儲難度大、處理速度慢等困難。大數(shù)據(jù)時代,金融行業(yè)內(nèi)部審計部門在數(shù)據(jù)采集上不再拘泥于單一的業(yè)務單位或傳統(tǒng)的采集系統(tǒng),而是從審計需要出發(fā),整合歷史數(shù)據(jù),針對金融機構業(yè)務開展情況有的放矢地進行數(shù)據(jù)采集。同時,借助計算機輔助審計軟件,對非結構化數(shù)據(jù)、半結構化數(shù)據(jù)進行統(tǒng)一采集,把不同信息來源都納入審計證據(jù)的范圍之內(nèi)。此外,聯(lián)網(wǎng)審計也成為大數(shù)據(jù)時代下金融審計的重要方式。通過建立即時、快速、保密的專有數(shù)據(jù)網(wǎng)絡傳輸通道,對被審計單位數(shù)據(jù)進行動態(tài)采集、傳輸和接收,采集到的原始數(shù)據(jù)經(jīng)過安全檢查后再導入集中的審計數(shù)據(jù)庫服務器中,實現(xiàn)了集中審計、實時審計和遠程審計的需要。
(二)數(shù)據(jù)分析
在完成數(shù)據(jù)采集之后,金融行業(yè)內(nèi)部審計部門的主要工作在于對數(shù)據(jù)進行整合分析,發(fā)現(xiàn)諸如大額交易、頻繁交易、相似交易等異常數(shù)據(jù)信息,通過實施實質(zhì)性程序,分析復核有關問題。大數(shù)據(jù)時代下,審計人員主要利用計算機實施審計工作,在審計分析平臺上,通過多維分析、查詢分析、關聯(lián)分析、專題分析等技術手段構建審計模型,找出趨勢、異常和錯誤,把握總體、鎖定重點、精確延伸,運用函數(shù)模型批量審核數(shù)據(jù)、篩選問題并自動匯總分析結果,必要時再核對賬簿或報表,最終根據(jù)需要生成數(shù)據(jù)分析報告。此外,通過對大量數(shù)據(jù)進行查詢分析、線索分析、預警分析等,也能夠有效確定金融機構各類業(yè)務的風險狀況,完善金融產(chǎn)品的設計與開發(fā)。
(三)數(shù)據(jù)挖掘
目前,數(shù)據(jù)挖掘技術在審計中的應用尚處于起步階段,主要與數(shù)據(jù)分析技術相結合應用。例如,通過數(shù)據(jù)挖掘的分類技術,可以從金融企業(yè)數(shù)據(jù)庫中提取年度財務報表、重要客戶交易等歷史數(shù)據(jù),利用演化分析技術,將歷年數(shù)據(jù)與經(jīng)濟指標對照,評估企業(yè)風險的可接受水平。此外,通過聚類分析,可以將數(shù)據(jù)庫中具有相似特征的交易數(shù)據(jù)進行分組,在評估貸款企業(yè)還貸能力、確認重復記賬的應收利息、鑒別虛假財務指數(shù)等方面起到作用。數(shù)據(jù)挖掘技術還可以通過建立知識庫,對已經(jīng)進行的數(shù)據(jù)分析工作和已經(jīng)得到的規(guī)律、模型等進行記憶存儲,并在以后的審計實踐中自動更新,從而便于審計人員在后續(xù)工作中隨時提取資料,或在原有成果上進行有選擇的改進,以適應不斷變化的審計要求??紤]到大數(shù)據(jù)挖掘技術的巨大潛力,運用數(shù)據(jù)挖掘技術解決傳統(tǒng)金融審計方法原先沒有涉及的問題,提升金融審計的后續(xù)影響和作用,將是未來數(shù)據(jù)挖掘技術的主要發(fā)展方向。
三、大數(shù)據(jù)技術對金融行業(yè)內(nèi)部審計的影響探討
(一)有利影響
1.整合金融行業(yè)資源,便于審計業(yè)務開展。金融行業(yè)的特點決定了金融數(shù)據(jù)資料的復雜,在大數(shù)據(jù)金融的背景下,傳統(tǒng)審計方法難以應對海量數(shù)據(jù)的采集分析工作。隨著金融創(chuàng)新的不斷升級,金融產(chǎn)品推陳出新,金融行業(yè)的海量數(shù)據(jù)資源需要進行整合管理,轉(zhuǎn)換為規(guī)范統(tǒng)一的數(shù)據(jù)信息。利用大數(shù)據(jù)技術,對數(shù)據(jù)統(tǒng)一采集管理,針對重點審計對象進行實時跟蹤,不僅可以有效避免數(shù)據(jù)獲取不充分的情況,整合審計資源,更有利于提高審計人員的工作效率,便于合理分配審計力量,為后續(xù)審計工作的開展奠定基礎。
2.利用縱向、橫向比較,全面發(fā)現(xiàn)審計疑點。一方面,在數(shù)據(jù)分析平臺上,審計模型和審計結果均可以進行保存和修正,以便于多次使用。在后續(xù)審計過程中借鑒以往審計模型和經(jīng)驗,提高分析處理效率,保證審計人員高效、準確地開展審計工作,這是大數(shù)據(jù)技術在縱向比較上的優(yōu)勢。另一方面,利用聯(lián)網(wǎng)審計技術可以對各分行、支行進行同時的數(shù)據(jù)采集與分析工作,以便立足于整體角度評價有關指標,對審計過程中發(fā)現(xiàn)的疑點問題進行全面排查,這是大數(shù)據(jù)技術在橫向比較上的特點。
3.降低人為錯誤風險,提高審計效率。在對數(shù)據(jù)資料進行采集和預處理的階段,借助數(shù)據(jù)清洗篩選技術可以快速排查明顯重復、遺漏或錯誤的數(shù)據(jù),并對存疑數(shù)據(jù)進行批量處理。而在分析處理的階段,通過構建大數(shù)據(jù)分析模型,對金融數(shù)據(jù)進行多層次、多角度的篩選評價,可以有效提高發(fā)現(xiàn)問題的準確性、及時性、全面性,規(guī)避傳統(tǒng)審計方法下人為原因造成的錯查、漏查的可能,將人為錯誤的風險盡量降低,保證全面、及時、準確地發(fā)現(xiàn)問題,提高審計效率。
(二)不利影響
1.數(shù)據(jù)存儲與傳輸安全成為新問題。大數(shù)據(jù)時代下,金融業(yè)務普遍采用無紙化操作,大部分審計工作也相應地需要在計算機上進行,電子數(shù)據(jù)的存儲、傳輸、提取等環(huán)節(jié)能否得到安全可靠的保障成為新的問題。由于審計工作所涉及的信息數(shù)據(jù)量大并且涵蓋范圍廣,聯(lián)網(wǎng)審計等項目往往需要將分散數(shù)據(jù)遠程傳輸?shù)郊械臄?shù)據(jù)庫,然后進行統(tǒng)一分析。然而,一旦需要保密的關鍵數(shù)據(jù)遭到流出或竊取,對于金融機構內(nèi)部甚至整個金融行業(yè)都可能造成嚴重后果。因此,如何保證數(shù)據(jù)存儲與傳輸安全,對關鍵數(shù)據(jù)進行加密和權限設置是大數(shù)據(jù)時代需要解決的一大問題。
2.軟硬件設備匹配要求提高。大數(shù)據(jù)的大量化、快速化等特點對計算機軟硬件設備都提出了更高要求,金融機構不僅需要對存儲數(shù)據(jù)的服務器進行單獨存放、有序管理,確保服務器的安全、高效運作,審計部門也需要配備相應的適合于審計工作的計算機,安裝并更新審計軟件?,F(xiàn)實中,金融機構往往建立了自己的數(shù)據(jù)庫,如何將數(shù)據(jù)庫中的數(shù)據(jù)完好無損采集傳輸,并且不對原始數(shù)據(jù)和數(shù)據(jù)庫造成影響,保證審計人員可以直接利用所采集數(shù)據(jù),這些在軟硬件設備上都有了更高要求。
3.大數(shù)據(jù)技術利用程度仍處在較低層次。隨著大數(shù)據(jù)金融的不斷發(fā)展,審計工作不僅要求審計人員具備審計、會計、財務方面的專業(yè)知識,更對審計人員在計算機方面的能力提出更高要求。大數(shù)據(jù)技術涉及范圍廣,種類繁多,并且技術更新速度快,這對審計人員掌握大數(shù)據(jù)技術產(chǎn)生了一定難度。目前,審計行業(yè)對大數(shù)據(jù)技術的利用程度仍然不高,需要加大宣傳和培訓力度,幫助審計人員在工作中充分利用大數(shù)據(jù),避免資源浪費,避免出現(xiàn)“有而不用、用而不靈”的情況。