倪賢卿, 梁華卓, 馮健鋆, 高卓
(1.華南農(nóng)業(yè)大學(xué)珠江學(xué)院經(jīng)濟(jì)管理學(xué)院, 廣東 廣州 510900;2.華南農(nóng)業(yè)大學(xué)珠江學(xué)院信息工程學(xué)院,廣東 廣州 510900;3.華南農(nóng)業(yè)大學(xué)珠江學(xué)院基礎(chǔ)部, 廣東 廣州 510900)
近年來(lái)隨著經(jīng)濟(jì)的高速發(fā)展,商業(yè)銀行業(yè)務(wù)徒增,ATM機(jī)應(yīng)用系統(tǒng)扮演著重要角色。相比銀行的柜臺(tái)服務(wù),ATM機(jī)具有無(wú)人看管,業(yè)務(wù)量大的特性,因此關(guān)于ATM機(jī)交易狀態(tài)的特征分析和異常檢驗(yàn)的研究就極具必要性[1],對(duì)ATM機(jī)交易的異常數(shù)據(jù)進(jìn)行及時(shí)、準(zhǔn)確的預(yù)報(bào)和報(bào)警是一項(xiàng)十分重要的事情。
商業(yè)銀行的ATM應(yīng)用系統(tǒng)包括前端和后端兩個(gè)部分。前端是部署在銀行營(yíng)業(yè)部和各自助服務(wù)點(diǎn)的ATM機(jī)(系統(tǒng)),后端是總行數(shù)據(jù)中心的處理系統(tǒng)。前端的主要功能是和客戶直接交互,采集客戶請(qǐng)求信息,然后通過(guò)網(wǎng)絡(luò)傳輸?shù)胶蠖?,再進(jìn)行數(shù)據(jù)和賬務(wù)處理[2]。持卡人從前端設(shè)備提交查詢、轉(zhuǎn)賬和取現(xiàn)等業(yè)務(wù)請(qǐng)求的任意一個(gè),到后臺(tái)處理完畢,并將處理結(jié)果返回到前端,通知持卡人業(yè)務(wù)處理最終狀態(tài),我們稱這樣完整的一個(gè)流程為一筆交易[3]。
商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)對(duì)各分行的交易信息進(jìn)行匯總統(tǒng)計(jì)。匯總信息包括業(yè)務(wù)量、交易成功率、交易響應(yīng)時(shí)間三個(gè)指標(biāo)。其中,業(yè)務(wù)量表示每分鐘總共發(fā)生的交易總筆數(shù);交易成功率表示每分鐘交易成功筆數(shù)和業(yè)務(wù)量的比率[4];交易響應(yīng)時(shí)間表示一分鐘內(nèi)每筆交易在后端處理的平均耗時(shí),ms。
交易數(shù)據(jù)分布存在以下特征:工作日和非工作日的交易量存在差別;一天內(nèi),交易量也存在業(yè)務(wù)低谷時(shí)間段和正常業(yè)務(wù)時(shí)間段。當(dāng)無(wú)交易發(fā)生時(shí),交易成功率和交易響應(yīng)時(shí)間指標(biāo)為空。
商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)為了實(shí)時(shí)掌握全行的業(yè)務(wù)狀態(tài),每分鐘就對(duì)各分行的交易信息進(jìn)行匯總統(tǒng)計(jì),所以異常檢測(cè)也應(yīng)該一分鐘檢測(cè)一次,這樣會(huì)使匯總統(tǒng)計(jì)更加合理[5]。我們對(duì)每一分鐘求其置信區(qū)間:根據(jù)正態(tài)分布特性,可以選取±2σ或±3σ作為其置信區(qū)間,也就是拉依達(dá)準(zhǔn)則法,在置信區(qū)間外即判斷為數(shù)據(jù)出現(xiàn)異常;如果選取±2σ作為其置信區(qū)間,每一個(gè)數(shù)據(jù)落入這個(gè)范圍的概率只有95%,排除了過(guò)多的正常值;如果選取±3σ作為其置信區(qū)間,每一個(gè)數(shù)據(jù)落入這個(gè)范圍的概率有99.7%,相比之下,選擇±3σ作為置信區(qū)間合理性更高[6]。
拉依達(dá)準(zhǔn)則:假設(shè)把被測(cè)量進(jìn)行等精度測(cè)量,獨(dú)立得到 x1,x2,…,xn,算出其算術(shù)平均值及剩余誤差 vi=xi-(i=1,2,…,n),并按貝塞爾公式算出標(biāo)準(zhǔn)差σ,若某個(gè)測(cè)量值Xb的剩余誤差vb(1≤b≤n),滿足|vb|=|xb-|>3σ,則認(rèn)為xb是含有較大誤差值的壞值,應(yīng)予剔除。
我們利用拉依達(dá)準(zhǔn)則法剔除異常值的思想來(lái)檢測(cè)異常值,也就是說(shuō),在正常情況下,數(shù)據(jù)都會(huì)落在±3σ的范圍內(nèi),如果有數(shù)據(jù)落入在這個(gè)范圍之外,則認(rèn)為小概率事件發(fā)生,在現(xiàn)實(shí)生活中,我們認(rèn)為小概率事件是不會(huì)發(fā)生,所以把在這個(gè)在范圍之外的數(shù)視為異常值,如果系統(tǒng)檢測(cè)到這樣的數(shù)就進(jìn)行報(bào)錯(cuò)。以下圖為交易量處理異常值之后的數(shù)據(jù)直方圖,由圖1可知,數(shù)據(jù)基本都在正態(tài)分布曲線內(nèi),此時(shí)均值為597.56,標(biāo)準(zhǔn)差為492.614,由±3σ作為置信區(qū),可知,正常值的范圍為(-880.282~2075)。
圖1 處理異常值后交易量數(shù)據(jù)直方圖
交易量異常檢測(cè)代碼如下:
圖2 處理異常值后成功率數(shù)據(jù)直方圖
對(duì)于成功率的異常檢測(cè),我們采用的方法和檢測(cè)交易量的方法一樣,圖2為成功率直方圖,其均值為0.947 3,標(biāo)準(zhǔn)差為0.025 6,對(duì)成功率求置信區(qū)間。選取±3σ,只求其下限,不考慮上限,成功率越高越好,在其下限外即判定該交易成功率出現(xiàn)異常。
檢測(cè)代碼如下:
對(duì)于響應(yīng)時(shí)間的異常檢測(cè),我們采用的方法和檢測(cè)交易量的方法一樣,下圖3為響應(yīng)時(shí)間第一次異常數(shù)據(jù)處理后的直方圖,發(fā)現(xiàn)還有一小小部分在正態(tài)分布曲線之外,于是,我們進(jìn)行了第二次處理[7]。如圖4所示,此時(shí),其均值為109.51,標(biāo)準(zhǔn)差為23.453,對(duì)響應(yīng)時(shí)間置信區(qū)間。同上選取±3σ,只求其上限,不考慮下限,響應(yīng)時(shí)間越低越好,在其上限外即判定該響應(yīng)時(shí)間出現(xiàn)異常。
圖3 第一次處理異常值后響應(yīng)時(shí)間數(shù)據(jù)直方圖
圖4 第二次處理異常值后響應(yīng)時(shí)間數(shù)據(jù)直方圖
如果僅有交易量異常,給出藍(lán)色警報(bào);如果是響應(yīng)時(shí)間出現(xiàn)異常,給出黃色報(bào)警;如果是成功率出現(xiàn)異常,給出紅色報(bào)警。
商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)通過(guò)對(duì)每家分行的匯總統(tǒng)計(jì)信息做數(shù)據(jù)分析,來(lái)捕捉整個(gè)前端和后端整體應(yīng)用系統(tǒng)運(yùn)行情況以及時(shí)發(fā)現(xiàn)異?;蚬收蟍8]。因此,對(duì)交易量,成功率和響應(yīng)時(shí)間這三個(gè)量進(jìn)行異常檢測(cè)并給以及時(shí)預(yù)報(bào)和報(bào)警顯得尤為重要,這也為我們后續(xù)研究提供了方向。