敬智勇
[摘要]本文從數(shù)據(jù)挖掘技術(shù)輔助審計(jì)人員進(jìn)行審計(jì)數(shù)據(jù)分析、降低審計(jì)風(fēng)險(xiǎn)出發(fā),以聚類分析在某通信公司寬帶收入真實(shí)性審計(jì)項(xiàng)目中的應(yīng)用為例,探索如何利用數(shù)據(jù)挖掘技術(shù)從海量數(shù)據(jù)中獲取有用的審計(jì)線索,通過(guò)模型訓(xùn)練構(gòu)建出相關(guān)的數(shù)據(jù)模型,從而提升審計(jì)人員的數(shù)據(jù)分析能力,提高審計(jì)效率和質(zhì)量。
[關(guān)鍵詞]數(shù)據(jù)挖掘 通信行業(yè) 審計(jì) 聚類分析 模型
基于技術(shù)進(jìn)步的大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,通信行
業(yè)是較早運(yùn)用大數(shù)據(jù)技術(shù)的行業(yè)之一,數(shù)據(jù)挖掘技術(shù)在客戶分群、流失預(yù)測(cè)、資費(fèi)預(yù)演等經(jīng)營(yíng)領(lǐng)域得到大量應(yīng)用的同時(shí),也逐步應(yīng)用到審計(jì)領(lǐng)域,輔助審計(jì)人員進(jìn)行審計(jì)數(shù)據(jù)分析,降低審計(jì)風(fēng)險(xiǎn)。
數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析技術(shù)的不同點(diǎn)主要在于基于數(shù)據(jù)發(fā)現(xiàn)的方法不同。傳統(tǒng)的審計(jì)分析方法側(cè)重于推理驗(yàn)證,數(shù)據(jù)挖掘更側(cè)重于運(yùn)用模型算法來(lái)發(fā)現(xiàn)審計(jì)數(shù)據(jù)之間隱藏的重要內(nèi)部聯(lián)系。
一、相關(guān)概念
(一)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識(shí)的過(guò)程。
(二)聚類分析
聚類分析指將物理或抽象對(duì)象的集合分組為由類似的對(duì)象組成的多個(gè)群組的分析過(guò)程,是研究“物以類聚”的一種科學(xué)有效的方法。
(三)孤立點(diǎn)分析
孤立點(diǎn)又稱離群點(diǎn),是一組數(shù)據(jù)中不符合一般模型特征的另類對(duì)象。對(duì)此,Hawkins給出了其本質(zhì)性定義:孤立點(diǎn)是數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。
(四)DIKW模型
DIKW模型將數(shù)據(jù)、信息、知識(shí)、智慧納入金字塔形的層次體系,每一層比下一層多賦予一些特質(zhì),如圖1所示。數(shù)據(jù)是對(duì)現(xiàn)實(shí)生產(chǎn)和生活的客觀描述,最大限度從數(shù)值上反映現(xiàn)實(shí)世界;根據(jù)觀察和記錄采集到原始數(shù)據(jù),分析數(shù)據(jù)間的關(guān)系獲得了信息;知識(shí)是對(duì)信息加工后得到的有用資料;智慧是高等生物所特有的一種能力,是分析判斷、發(fā)明創(chuàng)造、解決問(wèn)題、預(yù)知未來(lái)的能力,主要表現(xiàn)為獲取、加工、應(yīng)用、傳播知識(shí)的能力。
二、通信公司內(nèi)部審計(jì)存在的問(wèn)題及數(shù)據(jù)挖掘基本框架設(shè)計(jì)
(一)存在問(wèn)題
目前通信行業(yè)內(nèi)部審計(jì)工作存在的主要問(wèn)題有以下幾點(diǎn):
1.審計(jì)效率低。目前傳統(tǒng)的審計(jì)方式,更多依靠審計(jì)人員的業(yè)務(wù)經(jīng)驗(yàn),在現(xiàn)場(chǎng)進(jìn)行數(shù)據(jù)的比對(duì)、排查、分析、確認(rèn)工作,因此效率極低。
2.審計(jì)輸出質(zhì)量較低。當(dāng)前的審計(jì)方式,以審計(jì)成果(底稿)為導(dǎo)向,審計(jì)完成后,輸出結(jié)果通常為審計(jì)底稿,對(duì)同類問(wèn)題的擴(kuò)展延伸發(fā)現(xiàn)不能起到較好的作用,更不能形成成熟可用的審計(jì)模型,無(wú)法完成從經(jīng)驗(yàn)到模型(智慧)的轉(zhuǎn)化。
3.存在問(wèn)題覆蓋不完整的風(fēng)險(xiǎn)。受限于大數(shù)據(jù)處理能力較差,當(dāng)前的審計(jì)方式中符合性驗(yàn)證居多,抽樣率較低,并且現(xiàn)場(chǎng)審計(jì)時(shí)間有限,實(shí)際執(zhí)行中可能存在審計(jì)計(jì)劃中的風(fēng)險(xiǎn)問(wèn)題未完全覆蓋的風(fēng)險(xiǎn)。
4.審計(jì)結(jié)果差異大。因?qū)徲?jì)人員的經(jīng)驗(yàn)不同,抽樣隨機(jī)性較大,因此,不同的審計(jì)人員對(duì)相同項(xiàng)目的審計(jì)可能出現(xiàn)不同的審計(jì)結(jié)論。
(二)數(shù)據(jù)挖掘?qū)徲?jì)方法的基本框架設(shè)計(jì)
為最大限度避免出現(xiàn)以上問(wèn)題,筆者基于DIKW模型,利用數(shù)據(jù)挖掘技術(shù),進(jìn)行數(shù)據(jù)挖掘?qū)徲?jì)方法的基本框架設(shè)計(jì),如圖2所示。
1.數(shù)據(jù)采集環(huán)節(jié)。根據(jù)審計(jì)項(xiàng)目計(jì)劃和風(fēng)險(xiǎn)點(diǎn)列表,采集被審計(jì)單位的海量電子數(shù)據(jù)和其他資料,包括財(cái)報(bào)、賬單、會(huì)計(jì)憑證、合同以及其他各種性質(zhì)的生產(chǎn)數(shù)據(jù)資料等。
2.數(shù)據(jù)整理環(huán)節(jié)。也叫數(shù)據(jù)清洗環(huán)節(jié),就是把“臟”的數(shù)據(jù)“洗干凈”,發(fā)現(xiàn)數(shù)據(jù)文件中存在的可識(shí)別的、不能反映事物真實(shí)狀態(tài)的數(shù)據(jù),如拼寫錯(cuò)誤、格式錯(cuò)誤、重復(fù)錯(cuò)誤、一致性錯(cuò)誤等,并對(duì)這些錯(cuò)誤數(shù)據(jù)進(jìn)行糾正、刪除、轉(zhuǎn)換等處理,達(dá)到提高數(shù)據(jù)可靠性的目的。
3.數(shù)據(jù)挖掘環(huán)節(jié)。即透過(guò)數(shù)據(jù)的表象找到隱藏的規(guī)律及聯(lián)系,以此來(lái)洞察未來(lái)(規(guī)范性),進(jìn)而幫助審計(jì)人員對(duì)被審計(jì)單位海量電子數(shù)據(jù)(財(cái)務(wù)報(bào)表、賬單、會(huì)計(jì)憑證、合同以及其他各種性質(zhì)的生產(chǎn)數(shù)據(jù)資料)進(jìn)行深層次的研究分析,獲得審計(jì)線索,發(fā)現(xiàn)審計(jì)疑點(diǎn)。
4.構(gòu)建模型環(huán)節(jié)。數(shù)據(jù)挖掘技術(shù)是用數(shù)據(jù)來(lái)產(chǎn)生模型,通過(guò)不斷的數(shù)據(jù)訓(xùn)練來(lái)優(yōu)化模型,再用數(shù)據(jù)去檢驗(yàn)?zāi)P?,模型的?gòu)造是從特殊到一般的歸納過(guò)程,從而擺脫了前提假設(shè)的束縛和主觀因素的干擾,使結(jié)果更加真實(shí)、客觀。
三、聚類分析在異常檢測(cè)中的具體應(yīng)用
(一)聚類方法的分類與作用
聚類分析己經(jīng)被廣泛應(yīng)用于各種領(lǐng)域,在研究應(yīng)用過(guò)程中,產(chǎn)生了各種不同的聚類方法,主要包括:基于模型的聚類方法、孤立點(diǎn)分析、層次方法、基于密度的方法、基于網(wǎng)格的方法、劃分方法等。
在審計(jì)數(shù)據(jù)分析中,審計(jì)人員都會(huì)檢查數(shù)據(jù)異常值,這些異常值就是孤立點(diǎn),通常是審計(jì)工作中需要關(guān)注的重點(diǎn)。運(yùn)用聚類分析孤立點(diǎn)檢測(cè)算法,可以發(fā)現(xiàn)審計(jì)中的異常數(shù)據(jù),從而發(fā)現(xiàn)隱藏的問(wèn)題線索和違規(guī)行為。
(二)孤立點(diǎn)分析具體應(yīng)用
在對(duì)某通信公司進(jìn)行收入真實(shí)性審計(jì)時(shí),抽查了2016年1月至2017年10月的列賬情況,調(diào)取了“用戶ID、用戶號(hào)碼、地市編碼、地市名稱、證件號(hào)碼、證件類型、網(wǎng)別編碼、網(wǎng)別名稱、產(chǎn)品套餐編碼、產(chǎn)品套餐名稱、用戶狀態(tài)、開戶時(shí)間、FEE1704、FEE1705、FEE1706、FEE1707、FEE1708、FEE1709、FEE1710、最大值、最小值、均值、方差、標(biāo)準(zhǔn)方差、在網(wǎng)時(shí)長(zhǎng)、資費(fèi)名稱、融合是否在用”等字段,旨在發(fā)現(xiàn)某一類用戶的異常數(shù)據(jù)。
首先進(jìn)行數(shù)據(jù)清洗工作,將非此區(qū)間入網(wǎng)的用戶及符合紅名單審批流程的欠費(fèi)用戶、公免用戶剔除。
然后將此用戶清單導(dǎo)入數(shù)據(jù)挖掘工具RapidMiner中,選擇DBscan算法,進(jìn)行異常用戶檢測(cè)。通過(guò)不斷的訓(xùn)練數(shù)據(jù),發(fā)現(xiàn)期間收入標(biāo)準(zhǔn)方差大于49.3的用戶極為集中,這部分用戶均為2016年7月份以后入網(wǎng)或者重入網(wǎng)的,共有8000余戶。
通過(guò)進(jìn)一步分析發(fā)現(xiàn),被審計(jì)單位在2016年8月份以后發(fā)展用戶時(shí),將部分用戶一次性繳納的終端款在開戶當(dāng)月列入。
按照基于DIKW模型的數(shù)據(jù)挖掘?qū)徲?jì)應(yīng)用基本框架要求,將以上訓(xùn)練模型調(diào)整為固定模型,對(duì)該審計(jì)單位的兄弟單位進(jìn)行模型應(yīng)用,亦發(fā)現(xiàn)了同類問(wèn)題。
四、結(jié)論
通過(guò)對(duì)數(shù)據(jù)挖掘技術(shù)在通信行業(yè)審計(jì)工作中的應(yīng)用研究,以及對(duì)研究過(guò)程的分析和理解,可以從中得出一些有意義的結(jié)論。
(一)通信行業(yè)大數(shù)據(jù)特征適合審計(jì)數(shù)據(jù)挖掘應(yīng)用
國(guó)內(nèi)各通信公司當(dāng)前的運(yùn)營(yíng)主要存在入網(wǎng)離網(wǎng)用戶量大、政策和產(chǎn)品多樣、信息孤島等情況,各系統(tǒng)應(yīng)用數(shù)據(jù)管理較為嚴(yán)格、真實(shí)性強(qiáng),導(dǎo)致其生產(chǎn)的數(shù)據(jù)極為符合IBM提出的5V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。因此,數(shù)據(jù)挖掘技術(shù)在通信公司內(nèi)部審計(jì)中的應(yīng)用必將成為眾多內(nèi)審人員研究的重點(diǎn)。
(二)數(shù)據(jù)挖掘宜通過(guò)DIKW模型進(jìn)行知識(shí)管理
目前,通信行業(yè)雖然在逐步嘗試數(shù)據(jù)挖掘技術(shù)在審計(jì)工作中的應(yīng)用,但應(yīng)用范圍不廣、研究不深,尚未形成眾多成熟的審計(jì)模型。廣大審計(jì)人員仍然通過(guò)報(bào)表分析、抽樣比對(duì)等傳統(tǒng)審計(jì)方式進(jìn)行問(wèn)題的鎖定,急需轉(zhuǎn)化為通過(guò)成熟數(shù)據(jù)挖掘模型庫(kù)的方式發(fā)現(xiàn)線索。
(三)成熟的數(shù)據(jù)挖掘算法可輔助發(fā)現(xiàn)未知問(wèn)題
審計(jì)人員可通過(guò)學(xué)習(xí)成熟的數(shù)據(jù)挖掘算法,對(duì)模型進(jìn)行優(yōu)化訓(xùn)練,從而從大量數(shù)據(jù)中快速地提取有用的知識(shí),發(fā)現(xiàn)隱藏在大量數(shù)據(jù)后面未知領(lǐng)域的審計(jì)線索。
(四)使用的數(shù)據(jù)挖掘工具符合成本效益原則
目前市場(chǎng)上通用型數(shù)據(jù)挖掘軟件較多,可適用于多種行業(yè)。當(dāng)前,在線審計(jì)和審前數(shù)據(jù)分析是審計(jì)過(guò)程的主要工作,占用了大量審計(jì)資源。利用數(shù)據(jù)挖掘技術(shù),可以大大降低審計(jì)人力資本,減少審計(jì)資源占用,提高審計(jì)質(zhì)量和效率,符合審計(jì)工作的成本效益原則。
(作者單位:中國(guó)聯(lián)通河北省分公司,郵政編碼:050011,電子郵箱:jingzhiyongcn@163.com)