魏葳 耿一婷 呂倩等
關(guān)鍵詞:Stacking集成學(xué)習(xí)算法;用車(chē)記錄;異常數(shù)據(jù);識(shí)別方法
中圖法分類(lèi)號(hào):TP757 文獻(xiàn)標(biāo)識(shí)碼:A
1引言
電網(wǎng)企業(yè)每日有大量的現(xiàn)場(chǎng)檢修作業(yè),在日常的報(bào)銷(xiāo)費(fèi)用核算中,以現(xiàn)場(chǎng)作業(yè)為由的差旅費(fèi)用報(bào)銷(xiāo)項(xiàng)目占整個(gè)預(yù)算的70%以上。每月電網(wǎng)企業(yè)報(bào)銷(xiāo)單據(jù)頻數(shù)較大,在財(cái)務(wù)人員核查報(bào)銷(xiāo)項(xiàng)目真實(shí)性時(shí),需要耗費(fèi)大量的時(shí)間。隨著電網(wǎng)企業(yè)審計(jì)工作的日益頻繁,對(duì)日常報(bào)銷(xiāo)費(fèi)用管控的要求逐漸嚴(yán)格,近年來(lái)通過(guò)“回頭看”工作發(fā)現(xiàn),日常報(bào)銷(xiāo)中存在故意套取以及惡意報(bào)銷(xiāo)等行為。與此同時(shí),在電網(wǎng)企業(yè)的差旅費(fèi)報(bào)銷(xiāo)業(yè)務(wù)中,由于檢修作業(yè)活動(dòng)中的審計(jì)風(fēng)險(xiǎn)較大,表現(xiàn)出屢查、屢審等現(xiàn)象,存在較為嚴(yán)重的管理效率低的問(wèn)題。因此,為了尋求更加精益的差旅費(fèi)用管理方案,亟須研究一種電網(wǎng)現(xiàn)場(chǎng)檢修活動(dòng)工作人員用車(chē)記錄異常數(shù)據(jù)識(shí)別方法,使傳統(tǒng)的人工核驗(yàn)流程向自動(dòng)化方向發(fā)展。
2挖掘工作人員用車(chē)記錄異常數(shù)據(jù)
異常數(shù)據(jù)挖掘是識(shí)別工作人員用車(chē)記錄異常數(shù)據(jù)的基礎(chǔ),主要是為了找到隱藏在工作人員用車(chē)記錄數(shù)據(jù)背后的更重要的信息。時(shí)至今日,關(guān)于工作人員用車(chē)記錄的異常數(shù)據(jù)仍沒(méi)有一個(gè)確定的定義,但是Hawkins曾經(jīng)說(shuō)過(guò),異常數(shù)據(jù)并不是隨機(jī)產(chǎn)生的,而是與正常數(shù)據(jù)在一個(gè)不同的機(jī)制下形成的數(shù)據(jù)集,所以異常數(shù)據(jù)是明顯偏離于正常數(shù)據(jù)的對(duì)象?;诖耍疚耐ㄟ^(guò)數(shù)據(jù)密度來(lái)實(shí)現(xiàn)工作人員用車(chē)記錄異常數(shù)據(jù)的挖掘,密度即在一定范圍內(nèi)的異常數(shù)據(jù)點(diǎn)之間的距離。在進(jìn)行工作人員用車(chē)記錄異常數(shù)據(jù)挖掘過(guò)程中,主要需要掌握異常數(shù)據(jù)的可達(dá)距離以及可達(dá)密度,假設(shè)給定2個(gè)工作人員用車(chē)記錄異常數(shù)據(jù)對(duì)象a,b,則數(shù)據(jù)a相對(duì)于數(shù)據(jù)6的可達(dá)距離計(jì)算式為:
d0(a,b)=max{d1(a),d2(a,6)} (1)式中,d0(a,6)代表工作人員用車(chē)記錄異常數(shù)據(jù)點(diǎn)a與b之間的可達(dá)距離;d1(a)代表異常數(shù)據(jù)點(diǎn)n的k距離,該數(shù)據(jù)集中存在k-1個(gè)對(duì)象;d2(a,b)代表異常數(shù)據(jù)點(diǎn)a與b之間的歐氏距離。當(dāng)式(1)所求異常數(shù)據(jù)點(diǎn)可達(dá)距離數(shù)值較小,則表示數(shù)據(jù)點(diǎn)a與b之間的距離就是點(diǎn)a的k距離;反之,若式(1)所求異常數(shù)據(jù)點(diǎn)可達(dá)距離數(shù)值較大,則表示數(shù)據(jù)點(diǎn)a與b之間的距離是二者之間的實(shí)際距離。因此,如果工作人員用車(chē)記錄異常數(shù)據(jù)點(diǎn)的數(shù)量越多,那么各數(shù)據(jù)點(diǎn)之間的可達(dá)距離越相似。
實(shí)驗(yàn)過(guò)程中,選用基于自適應(yīng)DBSCAN的異常數(shù)據(jù)識(shí)別方法、基于卷積神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)識(shí)別方法作為實(shí)驗(yàn)對(duì)照組。為有效評(píng)估實(shí)驗(yàn)中3種識(shí)別方法的性能,使用精確率與召回率作為評(píng)估指標(biāo),指標(biāo)獲取計(jì)算式為:
式中,P代表用車(chē)記錄異常數(shù)據(jù)識(shí)別精確率:R代表用車(chē)記錄異常數(shù)據(jù)識(shí)別召回率:TP代表用車(chē)記錄正常數(shù)據(jù)被正確識(shí)別的數(shù)量:FP代表用車(chē)記錄異常數(shù)據(jù)被錯(cuò)誤識(shí)別的數(shù)量:FN代表用車(chē)記錄正常數(shù)據(jù)被錯(cuò)誤識(shí)別的數(shù)量。一般情況下,識(shí)別準(zhǔn)確率是評(píng)估異常數(shù)據(jù)識(shí)別方法性能的關(guān)鍵指標(biāo),但由于工作人員用車(chē)記錄的異常數(shù)據(jù)屬于不平衡數(shù)據(jù)集,使用準(zhǔn)確率無(wú)法很好地評(píng)價(jià)出各識(shí)別方法的優(yōu)劣,所以本文引入精確率與召回率作為評(píng)估指標(biāo),其中精確率可以體現(xiàn)出識(shí)別方法的誤報(bào)率,召回率可以體現(xiàn)出方法對(duì)于異常數(shù)據(jù)的識(shí)別能力。首先獲得這3種識(shí)別方法的精確率與召回率結(jié)果如圖1所示。
由圖1可知,隨著工作人員用車(chē)記錄異常數(shù)據(jù)量的不斷增加,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別方法精確率與召回率不斷降低,平均精確率為88.79%,平均召回率為86.03%,而基于自適應(yīng)DBSCAN的識(shí)別方法與本文基于Stacking集成學(xué)習(xí)算法的識(shí)別方法的精確率與召回率一直處于較為穩(wěn)定的狀態(tài),其中自適應(yīng)DBSCAN方法下的平均精確率為90.48%,平均召回率為88.31%,本文方法下的平均精確率為98.55v,較對(duì)照組方法提升9.76%,8.07%,平均召回率為95.86%,較對(duì)照組方法提升9.83%,7.55%。由此可以說(shuō)明,本文異常數(shù)據(jù)識(shí)別方法表現(xiàn)更好,適用于電網(wǎng)企業(yè)工作人員用車(chē)記錄核驗(yàn)工作。
6結(jié)束語(yǔ)
在電網(wǎng)企業(yè)日?,F(xiàn)場(chǎng)檢修作業(yè)報(bào)銷(xiāo)中,需要對(duì)職工出勤記錄、工作人員用車(chē)記錄以及食堂就餐打卡記錄等數(shù)據(jù)進(jìn)行核驗(yàn)工作。因此,本文引入Stacking集成學(xué)習(xí)算法,并設(shè)計(jì)一種工作人員用車(chē)記錄異常數(shù)據(jù)識(shí)別方法,不僅可以有效提升檢修作業(yè)現(xiàn)場(chǎng)的誤餐補(bǔ)助報(bào)銷(xiāo)檢查、審核工作的合規(guī)性、準(zhǔn)確性,而且可以有效紓解報(bào)銷(xiāo)人員與財(cái)務(wù)審核人員雙邊的工作壓力。同時(shí),本文通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了該識(shí)別方法性能優(yōu)越,可以實(shí)現(xiàn)電網(wǎng)企業(yè)工作人員用車(chē)記錄異常數(shù)據(jù)的精準(zhǔn)識(shí)別。
作者簡(jiǎn)介:
魏葳(1987—),碩士,初級(jí)會(huì)計(jì)師,研究方向:會(huì)計(jì)信息化。