基于Stacking集成學(xué)習(xí)算法的工作人員用車記錄異常數(shù)據(jù)識別方法

2023-05-30 10:48:04魏葳耿一婷呂倩等

計算機應(yīng)用文摘 2023年7期

魏葳　耿一婷　呂倩等

關(guān)鍵詞：Stacking集成學(xué)習(xí)算法；用車記錄；異常數(shù)據(jù)；識別方法

中圖法分類號：TP757 文獻標(biāo)識碼：A

1引言

電網(wǎng)企業(yè)每日有大量的現(xiàn)場檢修作業(yè)，在日常的報銷費用核算中，以現(xiàn)場作業(yè)為由的差旅費用報銷項目占整個預(yù)算的70%以上。每月電網(wǎng)企業(yè)報銷單據(jù)頻數(shù)較大，在財務(wù)人員核查報銷項目真實性時，需要耗費大量的時間。隨著電網(wǎng)企業(yè)審計工作的日益頻繁，對日常報銷費用管控的要求逐漸嚴(yán)格，近年來通過“回頭看”工作發(fā)現(xiàn)，日常報銷中存在故意套取以及惡意報銷等行為。與此同時，在電網(wǎng)企業(yè)的差旅費報銷業(yè)務(wù)中，由于檢修作業(yè)活動中的審計風(fēng)險較大，表現(xiàn)出屢查、屢審等現(xiàn)象，存在較為嚴(yán)重的管理效率低的問題。因此，為了尋求更加精益的差旅費用管理方案，亟須研究一種電網(wǎng)現(xiàn)場檢修活動工作人員用車記錄異常數(shù)據(jù)識別方法，使傳統(tǒng)的人工核驗流程向自動化方向發(fā)展。

2挖掘工作人員用車記錄異常數(shù)據(jù)

異常數(shù)據(jù)挖掘是識別工作人員用車記錄異常數(shù)據(jù)的基礎(chǔ)，主要是為了找到隱藏在工作人員用車記錄數(shù)據(jù)背后的更重要的信息。時至今日，關(guān)于工作人員用車記錄的異常數(shù)據(jù)仍沒有一個確定的定義，但是Hawkins曾經(jīng)說過，異常數(shù)據(jù)并不是隨機產(chǎn)生的，而是與正常數(shù)據(jù)在一個不同的機制下形成的數(shù)據(jù)集，所以異常數(shù)據(jù)是明顯偏離于正常數(shù)據(jù)的對象?；诖耍疚耐ㄟ^數(shù)據(jù)密度來實現(xiàn)工作人員用車記錄異常數(shù)據(jù)的挖掘，密度即在一定范圍內(nèi)的異常數(shù)據(jù)點之間的距離。在進行工作人員用車記錄異常數(shù)據(jù)挖掘過程中，主要需要掌握異常數(shù)據(jù)的可達距離以及可達密度，假設(shè)給定2個工作人員用車記錄異常數(shù)據(jù)對象a，b，則數(shù)據(jù)a相對于數(shù)據(jù)6的可達距離計算式為：

d（a，b）=max{d（a），d（a，6）} （1）式中，d（a，6）代表工作人員用車記錄異常數(shù)據(jù)點a與b之間的可達距離；d（a）代表異常數(shù)據(jù)點n的k距離，該數(shù)據(jù)集中存在k-1個對象；d（a，b）代表異常數(shù)據(jù)點a與b之間的歐氏距離。當(dāng)式（1）所求異常數(shù)據(jù)點可達距離數(shù)值較小，則表示數(shù)據(jù)點a與b之間的距離就是點a的k距離；反之，若式（1）所求異常數(shù)據(jù)點可達距離數(shù)值較大，則表示數(shù)據(jù)點a與b之間的距離是二者之間的實際距離。因此，如果工作人員用車記錄異常數(shù)據(jù)點的數(shù)量越多，那么各數(shù)據(jù)點之間的可達距離越相似。

實驗過程中，選用基于自適應(yīng)DBSCAN的異常數(shù)據(jù)識別方法、基于卷積神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)識別方法作為實驗對照組。為有效評估實驗中3種識別方法的性能，使用精確率與召回率作為評估指標(biāo)，指標(biāo)獲取計算式為：

式中，P代表用車記錄異常數(shù)據(jù)識別精確率：R代表用車記錄異常數(shù)據(jù)識別召回率：TP代表用車記錄正常數(shù)據(jù)被正確識別的數(shù)量：FP代表用車記錄異常數(shù)據(jù)被錯誤識別的數(shù)量：FN代表用車記錄正常數(shù)據(jù)被錯誤識別的數(shù)量。一般情況下，識別準(zhǔn)確率是評估異常數(shù)據(jù)識別方法性能的關(guān)鍵指標(biāo)，但由于工作人員用車記錄的異常數(shù)據(jù)屬于不平衡數(shù)據(jù)集，使用準(zhǔn)確率無法很好地評價出各識別方法的優(yōu)劣，所以本文引入精確率與召回率作為評估指標(biāo)，其中精確率可以體現(xiàn)出識別方法的誤報率，召回率可以體現(xiàn)出方法對于異常數(shù)據(jù)的識別能力。首先獲得這3種識別方法的精確率與召回率結(jié)果如圖1所示。

由圖1可知，隨著工作人員用車記錄異常數(shù)據(jù)量的不斷增加，基于卷積神經(jīng)網(wǎng)絡(luò)的識別方法精確率與召回率不斷降低，平均精確率為88.79%，平均召回率為86.03%，而基于自適應(yīng)DBSCAN的識別方法與本文基于Stacking集成學(xué)習(xí)算法的識別方法的精確率與召回率一直處于較為穩(wěn)定的狀態(tài)，其中自適應(yīng)DBSCAN方法下的平均精確率為90.48%，平均召回率為88.31%，本文方法下的平均精確率為98.55v，較對照組方法提升9.76%，8.07%，平均召回率為95.86%，較對照組方法提升9.83%，7.55%。由此可以說明，本文異常數(shù)據(jù)識別方法表現(xiàn)更好，適用于電網(wǎng)企業(yè)工作人員用車記錄核驗工作。

6結(jié)束語

在電網(wǎng)企業(yè)日常現(xiàn)場檢修作業(yè)報銷中，需要對職工出勤記錄、工作人員用車記錄以及食堂就餐打卡記錄等數(shù)據(jù)進行核驗工作。因此，本文引入Stacking集成學(xué)習(xí)算法，并設(shè)計一種工作人員用車記錄異常數(shù)據(jù)識別方法，不僅可以有效提升檢修作業(yè)現(xiàn)場的誤餐補助報銷檢查、審核工作的合規(guī)性、準(zhǔn)確性，而且可以有效紓解報銷人員與財務(wù)審核人員雙邊的工作壓力。同時，本文通過仿真實驗驗證了該識別方法性能優(yōu)越，可以實現(xiàn)電網(wǎng)企業(yè)工作人員用車記錄異常數(shù)據(jù)的精準(zhǔn)識別。

作者簡介：

魏葳（1987—），碩士，初級會計師，研究方向：會計信息化。