[摘要]本文在闡述大數(shù)據(jù)時代銀行內(nèi)部審計數(shù)據(jù)分析方法發(fā)展趨勢的基礎上,分析了統(tǒng)計與可視化分析技術應用于內(nèi)部審計工作的獨特優(yōu)勢,并通過展示真實性審計、合規(guī)性審計、效率性審計及經(jīng)濟性審計方面的典型應用案例,詮釋了該技術應用于銀行內(nèi)部審計的實施方向和廣闊空間。
[關鍵詞]大數(shù)據(jù) 統(tǒng)計分析 可視化分析 商業(yè)銀行 內(nèi)部審計
一、銀行內(nèi)部審計數(shù)據(jù)分析方法的發(fā)展趨勢
21世紀初,基于數(shù)據(jù)庫管理的結構化數(shù)據(jù)查詢技術開始應用到銀行內(nèi)部審計工作中,幫助內(nèi)部審計人員定向篩查異常交易,快速鎖定可疑對象,并逐漸成為主流的審計數(shù)據(jù)分析方法。但如今處于數(shù)據(jù)爆炸的時代,銀行業(yè)的數(shù)據(jù)更具有數(shù)量大、種類多、變化快的特征,傳統(tǒng)的數(shù)據(jù)存儲、處理以及分析技術已捉襟見肘。內(nèi)部審計要在大數(shù)據(jù)時代有效履行風險控制第三道防線的職能,需緊跟大數(shù)據(jù)技術的發(fā)展步伐,堅定地走“科技化審計”之路。銀行內(nèi)部審計數(shù)據(jù)分析方法的未來發(fā)展將呈現(xiàn)如下趨勢。
(一)全量整體性分析
利用傳統(tǒng)的數(shù)據(jù)庫技術對海量數(shù)據(jù)進行查詢分析,需耗用大量的計算機軟硬件資源,且運行速度難以保證。因此,審計人員往往按照時間、歸屬單位等維度對數(shù)據(jù)進行分段查詢,或者按照一定特征抽取部分樣本數(shù)據(jù)進行分析,再推斷總體狀況。大數(shù)據(jù)技術采用集群存儲、分布式運算,可以高效識別、歸類和查詢數(shù)據(jù),實現(xiàn)了對海量數(shù)據(jù)的高速檢索,從而為審計工作開展全量數(shù)據(jù)分析消除了技術壁壘。
(二)全程穿透式分析
在傳統(tǒng)模式下,數(shù)據(jù)存儲及處理成本較高,銀行內(nèi)部審計往往只存儲和處理核心業(yè)務的關鍵數(shù)據(jù),而且存儲期限較短,因此,以此為基礎的數(shù)據(jù)分析相對片面。而大數(shù)據(jù)平臺可以長期滾存全量數(shù)據(jù),這一升級使得審計人員可以針對跨業(yè)務條線、跨機構、跨產(chǎn)品的數(shù)據(jù)進行穿透式分析,也可以進行較長時段內(nèi)的趨勢分析,從而更加完整、準確、客觀地評價相關機構或條線的整體狀況,并及時揭示潛在風險。
(三)多元化綜合分析
由于技術的限制,傳統(tǒng)的數(shù)據(jù)查詢分析對象基本局限在結構化數(shù)據(jù),審計人員在面對同樣具有價值的文本、圖片、聲音及影像等大量非結構化數(shù)據(jù)時,往往束手無策,或需要通過人工分析處理,不僅效率低下,而且分析結果也不盡如人意。而大數(shù)據(jù)技術與自然語言處理、圖像分析、語音分析等技術的結合應用,即可化繁為簡,審計人員以此為基礎開展多元化的數(shù)據(jù)分析,可得出更豐富的分析結論。
二、銀行內(nèi)部審計應用統(tǒng)計與可視化分析技術的優(yōu)勢
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量大、增速快的特點為審計數(shù)據(jù)分析工作的開展帶來了機遇,但如何在龐大多樣的數(shù)據(jù)中快速、準確、高效地發(fā)現(xiàn)數(shù)據(jù)異常,如何以種種異常為線索,透過現(xiàn)象看本質(zhì)、發(fā)現(xiàn)深層次的問題,成為審計數(shù)據(jù)分析工作不得不面對的挑戰(zhàn)。近年來,國內(nèi)外審計業(yè)界嘗試應用統(tǒng)計及可視化分析技術,為審計人員開展數(shù)據(jù)分析工作帶來了嶄新的思路。該技術的應用優(yōu)勢主要體現(xiàn)在如下方面。
(一)借力統(tǒng)計分析,快速識別異常數(shù)據(jù),深入挖掘?qū)徲嬀€索
與傳統(tǒng)的結構化數(shù)據(jù)查詢相比,統(tǒng)計數(shù)據(jù)挖掘分析一般不預設主題,主要是根據(jù)現(xiàn)有數(shù)據(jù),進行基于各種算法的運算,快速發(fā)現(xiàn)數(shù)據(jù)中的離群值,實現(xiàn)高級別的數(shù)據(jù)分析需求,從而發(fā)揮估計、相關性分組、預測等作用。比較典型的算法包括用于聚類的 Kmeans、用于統(tǒng)計學習的SVM和用于分類的 NaiveBayes等。因此,審計人員進行數(shù)據(jù)分析時,不再局限于基于個人經(jīng)驗設定的異常篩查思路、腳本、模型以及異常值范圍,而是通過應用聚類分析、趨勢分析、回歸分析等經(jīng)過科學論證的統(tǒng)計分析方法,快速找出數(shù)據(jù)的分布特征,完整掌握數(shù)據(jù)的發(fā)展變化趨勢,準確找出數(shù)據(jù)間的相互影響因素,避免分析結果的片面性。
(二)依托可視化分析,直觀呈現(xiàn)數(shù)據(jù)特征,敏銳洞悉業(yè)務實質(zhì)
可視化分析是通過圖形分析處理復雜數(shù)據(jù)模型的一種方式,過去在一定程度上被簡單地理解為數(shù)據(jù)分析結果的展示工具,而忽略了其在數(shù)據(jù)分析過程中發(fā)揮的重要作用。借助人類大腦對圖像及文字接受處理能力的差異特性,可視化分析可通過圖形圖像模型,將大量枯燥的、以二維表格形式展現(xiàn)的數(shù)據(jù)以直觀、形象的方式展示給審計人員,有助于快速發(fā)現(xiàn)數(shù)據(jù)的特征、系統(tǒng)梳理數(shù)據(jù)的規(guī)律、深入挖掘數(shù)據(jù)背后隱藏的關系,從而有效地從海量數(shù)據(jù)中發(fā)現(xiàn)審計線索及其背后隱藏的問題。
三、統(tǒng)計與可視化分析技術在銀行內(nèi)部審計中的應用
本課題組聚焦近年來國內(nèi)外銀行業(yè)關注的風險點,從真實性、合規(guī)性、效率性及經(jīng)濟性等不同審計角度出發(fā),各挑選一個案例進行模擬數(shù)據(jù)演練,運用統(tǒng)計分析模型挖掘數(shù)據(jù)線索,并結合可視化技術梳理數(shù)據(jù)規(guī)律,具體分析思路及方法如下。
(一)真實性審計案例——企業(yè)授信客戶行業(yè)真實性核查
業(yè)務背景:為防范政策風險、信用風險及洗錢風險,銀行會限制甚至停止對某些高風險行業(yè)的授信,因此,這些行業(yè)的企業(yè)可能瞞報或錯報其真實行業(yè)以騙取銀行信貸資金或優(yōu)惠授信條件。銀行貸前調(diào)查和貸后審查主要依賴客戶提供的證明資料,客觀性不足,而現(xiàn)場驗證成本高且易被借款人提前安排。
審計思路:審計人員可先建立各類企業(yè)與交易對手行業(yè)匹配規(guī)則,再將授信客戶的賬戶交易流水在大數(shù)據(jù)平臺上進行統(tǒng)計分析,得出其偏離規(guī)則的情況,以指導現(xiàn)場審計,最終確認客戶實際經(jīng)營行業(yè)。這種方式較傳統(tǒng)的手工逐戶對碰以查找非相關交易對手,準確性高、耗時短。
統(tǒng)計挖掘分析:采用關聯(lián)規(guī)則學習模型算法,在銀行已積累或外購的大數(shù)據(jù)中學習,自動生成常規(guī)交易對手的行業(yè)相關性分析規(guī)則,具體步驟如下:
首先,定義授信客戶及其交易對手的行業(yè)集合。
其次,整合客戶的交易數(shù)據(jù),用于模型訓練數(shù)據(jù)集,如表1所示,以輔助建立常規(guī)交易對手行業(yè)的關聯(lián)規(guī)則關系模型。
再次,建立各類客戶行業(yè)的關聯(lián)規(guī)則關系。如圖1所示,由于在訓練集的數(shù)據(jù)中,大部分處于行業(yè)甲企業(yè)客戶的交易對手為行業(yè)A、B及C,因此,可以形成針對客戶行業(yè)甲的關聯(lián)規(guī)則。
然后,從數(shù)據(jù)中挖掘客戶行業(yè)與交易對手行業(yè)的相關性,即的關聯(lián)規(guī)則關系,及 。如果需要量化表達客戶行業(yè)與交易對手行業(yè)的相關性,則需計算每個關聯(lián)規(guī)則的置信度,即給定客戶行業(yè) X,其交易對手為 Y 公司所處行業(yè)公司的條件概率。在此過程中,可以通過調(diào)試置信度的值,控制模型訓練輸出關聯(lián)規(guī)則關系的強度,如將置信度調(diào)為0.1,即模型訓練輸出的關聯(lián)規(guī)則關系,是根據(jù)置信度每100名中至少有10名客戶擁有此類行業(yè)交易對手的關聯(lián)關系。
最后,將授信客戶的交易數(shù)據(jù)輸入已訓練的模型,對碰已建立的關聯(lián)規(guī)則關系,輸出偏離模型交易對手行業(yè)規(guī)則的客戶,即客戶報稱行業(yè)與實際交易對手行業(yè)不相關的情況。如圖2所示,把報稱行業(yè)甲的授信客戶與已建立的關聯(lián)規(guī)則關系對碰,并計算各授信客戶實際交易對手行業(yè)與已建立的關聯(lián)規(guī)則關系的吻合度。此步驟可以設定吻合度的閾值,篩選出吻合度低于閾值的授信戶進一步調(diào)查。除了計算客戶交易模式與其自身報稱行業(yè)的吻合度外,同時還可以計算客戶交易模式與其他行業(yè)的吻合度,如客戶的交易模式是否與高風險行業(yè)相似,從而篩查出疑似高風險客戶回避申報其真實行業(yè)的情況。
可視化分析:利用可視化工具,如圖3所示,以分層顏色顯示客戶報稱行業(yè)與規(guī)則吻合度的值,顏色越深代表吻合度越高。由于可視化工具具有高互動性,因此,審計人員可按實際需要調(diào)校數(shù)據(jù)顯示的維度與深度,即可視化結果輸出圖的數(shù)據(jù)列數(shù)目、運行結果與其客戶報稱行業(yè)吻合度的閾值。
(二)合規(guī)性審計案例——洗錢客戶群多層交易分析
業(yè)務背景:不法分子洗錢手段越來越隱蔽,往往會利用銀行渠道建立多層次的復雜交易網(wǎng)絡,以隱藏資金的真實流向。各國監(jiān)管部門對銀行反洗錢的要求日趨嚴格,因此銀行面臨著前所未有的監(jiān)管處罰風險。
審計思路:全量建立客戶之間的交易關系網(wǎng)絡,整體展示具有多層次復雜交易關系的客戶群,并識別出資金循環(huán)交易等疑似具有洗錢交易特征的客戶。相較于從單層交易入手,逐筆追蹤資金流向的傳統(tǒng)核查方法顯得更加完整、高效。結合可視化工具,可圖形化展示交易流,使復雜的資金流向一目了然。
統(tǒng)計挖掘分析:利用有向網(wǎng)絡圖模型將客戶的所有單層關系編織成一個網(wǎng)絡,再以不同算法提取交易網(wǎng)絡中的各種特征,如利用強連通子圖算法識別網(wǎng)絡中的循環(huán)群組,即客戶間資金呈現(xiàn)循環(huán)交易特征。如圖4所示,有向網(wǎng)絡圖是由節(jié)點與連接兩個節(jié)點并帶有方向性的邊組成,分別代表個體、兩個個體間的關系,而且邊可以加上權重,代表節(jié)點間關系的強度。
首先,定義客戶洗錢交易的有向網(wǎng)絡圖。在獲取全量客戶賬戶交易數(shù)據(jù)的基礎上,把各賬戶的單層交易關系導入有向網(wǎng)絡圖模型。之后,以每個客戶為一個節(jié)點,客戶之間的金融交易為邊,邊的權重代表兩個客戶一段時間內(nèi)的累計交易金額。如圖5所示,將取款戶作為起點,收款戶作為終點,若取款戶曾將款項入賬到收款戶,則兩客戶之間由有向線段相連。
可視化分析:把所有單層關系編織成全量的交易關系網(wǎng)絡圖,可視化地顯示客戶間的交易關系,就可發(fā)現(xiàn)涉及多層復雜交易關系的客戶群。如圖6所示,形成多個客戶交易群組,審計人員可據(jù)此入手,針對不同的群組,分析客戶交易的頻率、金額、對手、模式等,并對比客戶職業(yè)、收入、交易習慣等,識別疑似洗錢交易特征的客戶群。
(三)效率性審計案例——分行授信審批效率評估
業(yè)務背景:在互聯(lián)網(wǎng)金融企業(yè)“秒批貸款”的強烈沖擊下,授信審批效率成為決定傳統(tǒng)商業(yè)銀行貸款業(yè)務拓展的關鍵之一。各大銀行均設法提高授信審批效率,但由于多種因素作用,同一家銀行內(nèi)不同分行的授信審批效率存在差異,因此,需要客觀評估各分行審批效率并有針對性地加以改進。
審計思路:審計人員整體分析各分行整體平均授信審批時間及其年度間變化情況,再評估單個分行授信審批效率,并對偏離整體表現(xiàn)的分行進行調(diào)查。
統(tǒng)計挖掘分析:應用簡單線性回歸模型擬合上年與今年各分行授信項目的平均審批時間,并協(xié)助識別偏離整體表現(xiàn)的分行,再利用統(tǒng)計學的假設檢驗,推斷所有分行的整體變化,主要分析步驟如下:
首先,定義簡單線性回歸模型的自變量X(今年各分行授信項目平均處理天數(shù))與因變量Y(上年各分行授信項目平均處理天數(shù)),并假定兩者間的線性關系,其中為誤差項,從而利用自變量來預測因變量。
其次,利用回歸模型擬合數(shù)據(jù),計算出最優(yōu)擬合直線并輸出擬合線圖,再進行假設檢驗。如圖7所示,每一數(shù)據(jù)點代表一家分行,大部分數(shù)據(jù)點均置于擬合直線的附近。整體而言,擬合直線偏向橫軸一側(β= 1.49),因此分行的授信審批時間普遍較上年短。同時,計算出95%置信區(qū)間 =(1.406752,1.581935),區(qū)間完全處于大于1的一側,單邊對立假設成立,即整體而言,授信審批時間較上年改善,如圖8所示。
可視化分析:把回歸模型的擬合結果以圖表形式顯示出來,以可視化方式分析各分行審批效率的分布,從而識別偏離整體表現(xiàn)的機構。圖7中,右下角三點、左上角兩點偏離擬合直線,分別表示今年有三家分行授信審批時間較上年顯著增加,有兩家分行較上年明顯縮短,均需關注其背后的原因。
(四)經(jīng)濟性審計案例——客戶差異化存款利率的分布分析
業(yè)務背景:在存款利率逐步市場化的背景下,銀行會為客戶量身定制存款利率分層產(chǎn)品,即存款利率隨客戶存款規(guī)模變化而調(diào)整。存款利率定價的準確性直接影響銀行整體經(jīng)濟效益,因此需要科學評估。
審計思路:審計人員一方面綜合分析銀行整體利率風險狀況,另一方面快速識別異常利率組合,提示審計人員進行針對性審計。
統(tǒng)計挖掘分析:審計人員應用階梯函數(shù),圖形化展示客戶的利率分層方案,再用箱線圖分析其分布情況并識別異常利率組合,具體實施步驟如下:
首先,針對每一個賬戶存款利率分層方案 k,定義一個階梯函數(shù)如下:
并滿足以下條件:
(1) n≥0
(2) αi是正實數(shù),代表每個分層的利率
(3) Ai是左閉右開實數(shù)區(qū)間,代表每個分層的金額區(qū)間
(4) δAi是 Ai的指示函數(shù):
假設某一個賬戶的量身定制存款利率分層方案如下:
此方案的階梯函數(shù)為:
其次,應用箱線圖分析利率分層方案的分布。箱線圖是通過顯示數(shù)據(jù)的最小值、下四分位數(shù)(Q1)、中位數(shù)(Q2)、上四分位數(shù)(Q3)及最大值,來展現(xiàn)數(shù)據(jù)的分布情況。一般最大值的定義為 Q3+1.5(Q3-Q1)/2,而最小值定義為Q1-1.5(Q3-Q1)/2,超過最大值與最小值區(qū)間的數(shù)據(jù)被定義為離群值。
可視化分析:將每一客戶分層利率所定義的階梯函數(shù)繪制到同一圖表上,有助于了解客戶利率分層的整體分布情況,識別利率異常的離群值。如圖9所示,在不同的分層金額下,多個客戶利率方案經(jīng)箱線圖識別為離群值,即該利率較整體分布高,需進一步了解這些利率設定的合理性。
四、總結
身處大數(shù)據(jù)時代,面對海量的業(yè)務數(shù)據(jù),審計人員如果僅滿足于現(xiàn)場檢查、數(shù)據(jù)抽樣等傳統(tǒng)工作思路,將不可避免地被時代所淘汰。銀行內(nèi)部審計一方面需要建立“數(shù)據(jù)先行”理念,將統(tǒng)計與可視化分析等先進技術靈活應用于審計計劃制定、非現(xiàn)場數(shù)據(jù)分析、審計報告編寫等各個環(huán)節(jié);另一方面需要加強對復合型審計人才的培養(yǎng),審計人員在掌握金融業(yè)務知識的同時,需要加強對數(shù)據(jù)分析方法的學習,并將其靈活運用于日常審計工作中。
[作者單位:中國銀行(香港)有限公司,郵政編碼:999077,電子郵箱:luming@bochk.com]
主要參考文獻
陳偉,居江寧.基于大數(shù)據(jù)可視化技術的審計線索特征挖掘方法研究[J].審計研究, 2018(1)
田程濤.大數(shù)據(jù)審計下統(tǒng)計分析方法研究[J].會計之友, 2018(1)
王群,朱小英,關郁波.大數(shù)據(jù)背景下審計工作面臨的挑戰(zhàn)和啟示[J].沈陽大學學報(社會科學版), 2016(2)