陳爾希,曾獻(xiàn)輝,胡征
(1.東華大學(xué) 信息科學(xué)技術(shù)學(xué)院,上海 201620;2.數(shù)字化紡織服裝技術(shù)教育部工程研究中心,上海 201620)
隨著高速公路聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大,行車距離越來越遠(yuǎn),對通過路網(wǎng)的車輛(尤其貨車等重載車輛)單次收費金額也越來越大,隨之而來的是利用各種作弊手段[1-6]逃費的車輛數(shù)的增加,因此逃費稽查越來越受到高速公路稽查部門的重視。目前,稽查部門主要以人工審核的方式綜合分析高速公路收費后臺數(shù)據(jù),從而查獲逃費車輛。這種工作模式效率極為低下,漏判、誤判重要逃費線索數(shù)據(jù)時有發(fā)生。為了充分挖掘通行數(shù)據(jù)中的信息價值,提高稽查部門的工作效率,高速公路管理部門迫切需要利用新技術(shù)來提升逃費稽查水平。
目前,國際上有關(guān)防逃費方面的研究有:Delbosc等[7]采用聚類分析法對逃費行為展開研究;Guarda等[8]、Troncoso等[9]針對高頻的公交逃費問題,通過負(fù)二項式回歸模型發(fā)現(xiàn)了導(dǎo)致逃費率增加的幾個關(guān)鍵因素,并提出規(guī)避逃費問題的五種方法;Jankowski[10]利用博弈論對逃費的動機(jī)進(jìn)行了分析,并指出不同博弈參與者的利益動機(jī),同時從博弈角度給出了一些防逃費建議。在國內(nèi),關(guān)于防逃費的研究主要有:刁洪祥等[11-14],劉勇等[15]采用聚類分析法、決策樹和神經(jīng)網(wǎng)絡(luò)算法對聯(lián)網(wǎng)收費數(shù)據(jù)進(jìn)行建模和分析逃費車輛,并提出了部分防逃費措施,但其研究基本停留在理論階段,尚未應(yīng)用到逃費稽查中;趙彥等[16]采用聚類分析、判別分析和邏輯回歸分析相結(jié)合的方法,構(gòu)建了通行卡逃費行為預(yù)測模型,但該模型對非超時逃費行為的識別能力不足;張曉航[17]提出使用數(shù)據(jù)挖掘工具WEAK實現(xiàn)對車牌不符、變檔等部分逃費行為的稽查。從實際應(yīng)用來看,這些方法存在數(shù)據(jù)收集困難、準(zhǔn)確性較低、實際應(yīng)用難度高等問題。
隨著高速公路大數(shù)據(jù)系統(tǒng)的形成,如何直接從車輛通行數(shù)據(jù)中挖掘出逃費車輛,對逃費稽查的實際應(yīng)用具有重要意義。為此,筆者將基于浙江省某高速公路近三年的通行歷史數(shù)據(jù),結(jié)合稽查部門的逃費車輛歷史記錄,分析逃費行為發(fā)生時可能出現(xiàn)的各種異常通行行為,提出用于評判車輛逃費可疑程度的車輛通行信用度評價指標(biāo),給出計算該指標(biāo)的多屬性效用模型,并利用BP神經(jīng)網(wǎng)絡(luò)算法對該模型進(jìn)行改進(jìn),最后對結(jié)果的適用性和準(zhǔn)確度加以驗證。
高速公路通行費計算方法是根據(jù)車輛在高速公路的出入信息和路徑信息,查找對應(yīng)車型在所經(jīng)過路段的基本費額,考慮車輛重量等因素,分別乘以對應(yīng)的通行里程,最后匯總相加得出該車通行的總費額。據(jù)此,車輛可能通過縮短里程或改變車型兩種方式實現(xiàn)通行費的偷逃。通過對稽查過程調(diào)研和已有偷逃車輛通行數(shù)據(jù)的分析,現(xiàn)歸納出11種典型的車輛通行異常行為,如表1所示。
表1 車輛逃費時可能出現(xiàn)的異常行為
以上11種異常行為對判斷車輛是否存在逃費行為提供了非常有價值的依據(jù),異常出現(xiàn)次數(shù)越多,逃費的可能性就越大?;诖耍疚膶⑻淤M稽查看作一個考慮多個評價屬性的決策性問題,構(gòu)建以11種異常出現(xiàn)次數(shù)為評價屬性的車輛信用度評價模型。利用該模型計算得到每輛車的信用度值,并據(jù)此判斷車輛逃費可疑度的大小,即信用度值越小,則出現(xiàn)逃費行為的可能性就越大。在實際應(yīng)用時,可考慮將信用值較小的車輛提供給稽查部門,從而提升人工稽查的效率和準(zhǔn)確度。
為了有效地甄別最有可能偷逃通行費的車輛,本文提出對每一輛車建立信用度的概念。該信用度僅用于對車輛在高速公路通行中出現(xiàn)各種異常情況的度量。信用度的取值范圍為0~100分,其中100分為信用度滿分,表示基本未出現(xiàn)過異常;0分是最差值,表示所有類別的異常出現(xiàn)次數(shù)都最多。車輛初始信用度值均為100分,根據(jù)出現(xiàn)異常的類別及次數(shù),該值將逐步降低。
以車輛信用度作為衡量車輛逃費可疑程度的量化指標(biāo),其計算可以看作是一個基于車輛異常行為出現(xiàn)次數(shù)的多屬性效用模型的決策問題,即考慮車輛的11種異常行為出現(xiàn)次數(shù)及其重要程度,通過某種計算模型,得到定量的綜合評估值。本文采用基于加權(quán)平均的多屬性效用模型進(jìn)行車輛信用度計算,具體采用扣分的方式進(jìn)行。首先,計算各類異常下每輛車的扣分情況,異常越多,扣分越多,最多扣100分;然后,將所有異常類型的扣分進(jìn)行加權(quán)平均,得到對應(yīng)車輛的總扣分;最后,用100分減去總扣分,即得到車輛的最終信用度值,計算方法為:
式(1)中:C為車輛信用度(分);wi為第i類異常的權(quán)重值;xi為第i類異常出現(xiàn)的次數(shù)(次);f(xi)為第i類異常出現(xiàn)次數(shù)的效用函數(shù)。
從式(1)可以看出,信用度評價模型的構(gòu)建可分為兩個步驟:
(1)確定每類異常的權(quán)值;
(2)確定每類異常出現(xiàn)次數(shù)的效用函數(shù)。
目前已有很多理論和方法用于確定權(quán)值,比如主觀賦值法、客觀賦值法和機(jī)器學(xué)習(xí)法等。本文通過對稽查人員的問卷調(diào)查、統(tǒng)計分析和多次試驗,得到相應(yīng)的權(quán)值。鑒于各類異常出現(xiàn)的次數(shù)雖然差別很大,但其效用函數(shù)基本相同,同時由于信用度的定義區(qū)間為[0,100],而異常次數(shù)的取值可能會超過100,故需要對異常出現(xiàn)次數(shù)進(jìn)行預(yù)處理,將數(shù)據(jù)歸一化到0~100范圍內(nèi),否則可能出現(xiàn)信用度值為負(fù)的情況,這是沒有意義的。
本文效用函數(shù)的構(gòu)建思路是:首先找出各類異常的平均出現(xiàn)次數(shù),然后估計出最大可能出現(xiàn)次數(shù),最后利用歸一化處理將效用值統(tǒng)一到0~100之間,具體按下式計算:
式(2)中:Xiavg為第i類異常的平均次數(shù)(次);Ximax為第i類異常的最大次數(shù)(次);f(xi)與xi的意義同式(1)。
為了驗證模型的適用性和有效性,本文基于浙江省某高速公路公司2015—2017年的通行數(shù)據(jù),分析得到約3×107輛車的通行異常行為數(shù)據(jù),接著利用前文給出的方法計算得出所有車輛的信用度值。部分車輛通行異常行為數(shù)據(jù)與信用度值如表2所示。表中的異常行為次數(shù)是根據(jù)高速公路車輛通行流水?dāng)?shù)據(jù)分析所得,比如車輛進(jìn)出站車牌不一致,根據(jù)收費系統(tǒng)中車輛進(jìn)出站的車牌,對比其相似度,相似度值大于或等于某個設(shè)定值,則認(rèn)為車牌是一致的,否則便不一致,對應(yīng)類型的異常次數(shù)加1。
表2 車輛的通行異常行為數(shù)據(jù)與信用度值
面對海量的車輛數(shù)據(jù),不可能對每輛信用度值較低的車輛進(jìn)行稽查。為了盡快發(fā)現(xiàn)有問題的車輛,將信用度最低的200輛車的信息提供給稽查部門進(jìn)行稽查,最終發(fā)現(xiàn)實際存在問題的車輛有30輛,其中19輛車曾被稽查過(新發(fā)現(xiàn)的問題車輛為11輛),另外還有35輛車無確鑿證據(jù),其余為正常車輛,模型正確率約為33%??梢?,所建模型雖然準(zhǔn)確率不高,但對逃費稽查工作還是有一定幫助的,可在一定程度上減少人工稽查的工作量,起到輔助稽查的作用。這同時說明本文提出的方法是正確的,也表明車輛通行異常數(shù)據(jù)與逃費行為之間的確存在一定的對應(yīng)關(guān)系。
分析發(fā)現(xiàn),多屬性效用模型正確率不高的原因在于:
(1)線性模型過于簡單,無法準(zhǔn)確地表示異常行為次數(shù)與車輛信用度值之間的關(guān)系;
(2)權(quán)重值分配不合理,權(quán)值的確定存在很大的主觀性;
(3)線性效用函數(shù)可能不夠準(zhǔn)確。
為了提高信用度計算的準(zhǔn)確度,下面在線性模型的基礎(chǔ)上利用BP神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)功能對模型進(jìn)行改進(jìn)。
BP神經(jīng)網(wǎng)絡(luò)是使用最廣泛的一種神經(jīng)網(wǎng)絡(luò)模型之一,它利用梯度下降算法,使權(quán)值沿著誤差函數(shù)的負(fù)梯度方向改變,以期使網(wǎng)絡(luò)的實際輸出與期望輸出的均方差最小化。由于BP神經(jīng)網(wǎng)絡(luò)算法能夠自主學(xué)習(xí)出一組具有代表性的權(quán)值和閾值,且具有良好的非線性逼近能力,故選用BP神經(jīng)網(wǎng)絡(luò)算法對多屬性效用模型進(jìn)行改進(jìn)。BP神經(jīng)網(wǎng)絡(luò)的設(shè)計主要包括網(wǎng)絡(luò)層數(shù)(主要指隱含層層數(shù))、各層節(jié)點數(shù)、傳遞函數(shù)、權(quán)值等,具體過程如下。
BP神經(jīng)網(wǎng)絡(luò)通常分輸入層、輸出層和隱含層,其中隱含層可以為一層或多層。本文選擇最典型的三層BP神經(jīng)網(wǎng)絡(luò),即隱含層為一層。BP神經(jīng)網(wǎng)絡(luò)的傳遞函數(shù)是Sigmoid函數(shù)。
輸入層的節(jié)點數(shù)應(yīng)等于輸入向量的分量數(shù)目。本文所建信用度模型的輸入量為車輛的11種異常行為特征,故輸入層節(jié)點數(shù)為11。輸出層節(jié)點則由信用度決定,故確定輸出層節(jié)點數(shù)為1。
雖然增加隱含層層數(shù)可以降低網(wǎng)絡(luò)誤差,提高精度,但也會使網(wǎng)絡(luò)復(fù)雜化,延長網(wǎng)絡(luò)訓(xùn)練時間,甚至出現(xiàn)“過擬合”的傾向,故隱含層節(jié)點數(shù)的確定對于模型可用性非常關(guān)鍵。根據(jù)專家和學(xué)者的經(jīng)驗[18],隱含層節(jié)點數(shù)Lh可按下式計算:
式(3)中:Li和Lo分別為神經(jīng)網(wǎng)絡(luò)輸入層和輸出層的節(jié)點數(shù)(個);α為0~10之間的常數(shù)。
現(xiàn)取Li=11,Lo=1,經(jīng)過多次仿真實驗發(fā)現(xiàn),當(dāng)α=3,即隱含層節(jié)點數(shù)為7時,模型的準(zhǔn)確率最高。
綜合以上,本文BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定為:輸入層節(jié)點數(shù)為11,中間層節(jié)點數(shù)為7,輸出層節(jié)點數(shù)為1,其拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1 用于計算車輛信用度的BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
一般情況下,初始權(quán)值要足夠小才有利于模型的訓(xùn)練。在神經(jīng)網(wǎng)絡(luò)中,如果簡單地將權(quán)值矩陣初始化為零矩陣,將會導(dǎo)致隱含層的每個單元相等。為了讓學(xué)習(xí)更有效率,一般將該矩陣初始化在區(qū)間[-ε,ε]內(nèi)。初始權(quán)值按下式計算:
式(4)中:ε是取值為0~1的數(shù);Θ為1×12的權(quán)值矩陣,且矩陣中的每個單元取值均在區(qū)間[-ε,ε]內(nèi);Li和Lo意義同前。
學(xué)習(xí)速率決定每次訓(xùn)練所產(chǎn)生權(quán)值的變化量,過大的學(xué)習(xí)速率可能導(dǎo)致系統(tǒng)不穩(wěn)定;否則,又會導(dǎo)致較長的訓(xùn)練時間。為保證系統(tǒng)的穩(wěn)定性,學(xué)習(xí)速率通常取值偏小,在0.01~0.7之間,本文取0.01。
為了驗證經(jīng)BP神經(jīng)網(wǎng)絡(luò)算法改進(jìn)后的多屬性效用模型的準(zhǔn)確率是否有所提升,本文基于多屬性效用模型計算出的信用度值,根據(jù)人工評價和以往稽查數(shù)據(jù)對部分樣本輸出數(shù)據(jù)加以調(diào)整,作為BP神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)。將樣本數(shù)據(jù)的80%作為訓(xùn)練集,10%作為驗證集,剩余的10%作為測試集,使用Matlab神經(jīng)網(wǎng)絡(luò)工具箱完成模型的建立與仿真。為了找出所訓(xùn)練多個模型中的效果最佳者,使用各個模型對驗證集數(shù)據(jù)進(jìn)行預(yù)測,并記錄模型的準(zhǔn)確率。接著,采用效果最佳模型所對應(yīng)的參數(shù)來調(diào)整模型參數(shù)。待模型訓(xùn)練完成后,利用其測試樣本中的車輛進(jìn)行信用度預(yù)測。部分測試數(shù)據(jù)的預(yù)測輸出和預(yù)測誤差如圖2和圖3所示。
圖2 模型預(yù)測輸出與期望輸出圖
圖3 模型信用度預(yù)測誤差曲線
選取全量數(shù)據(jù)進(jìn)行測試,仿真結(jié)果顯示模型的誤差約為3,即該模型預(yù)測所得車輛信用度值誤差為3分左右,顯然該精度能夠滿足應(yīng)用要求。
BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)完成后,本文對近3×107條車輛通行異常行為數(shù)據(jù)重新進(jìn)行計算,得到每輛車新的信用度值。然后,將信用度最低的200輛車提供給稽查部門進(jìn)行稽查,最終發(fā)現(xiàn)實際存在問題的車輛有91輛,其中32輛車曾經(jīng)已被稽查過(新發(fā)現(xiàn)的問題車輛為59輛),另外還有43輛車無確鑿證據(jù),其余為正常車輛,整體正確率為67%左右,取得了令人滿意的效果。
與多屬性效用模型相比,BP神經(jīng)網(wǎng)絡(luò)模型的稽查正確率從33%提升至67%,而且省去了復(fù)雜的權(quán)重確定過程,另外有效的學(xué)習(xí)能力使其具有較好的適應(yīng)性,對提升高速公路稽查水平具有很大幫助。
本文提出了以車輛信用度作為衡量逃費可疑度的量化指標(biāo),給出了基于BP神經(jīng)網(wǎng)絡(luò)模型的車輛信用度計算方法。該研究成果已實際應(yīng)用于浙江省某高速公路公司,取得了較好的效果。稽查部門根據(jù)模型給出的信用度值,實現(xiàn)了對逃費可疑車輛的精準(zhǔn)稽查,降低了工作強(qiáng)度。不過,本文提出的模型對于沒有在收費系統(tǒng)中留下逃費痕跡的逃費行為不具備稽查能力,在下一步研究中,將提升算法的自學(xué)習(xí)能力,降低算法對樣本的依賴程度,例如可考慮深度學(xué)習(xí)等算法;采用模糊數(shù)學(xué)模型實現(xiàn)對車輛信用度的評價,有效降低對異常行為次數(shù)值的依賴,使模型的準(zhǔn)確率更高。
參考文獻(xiàn)
[1]張友權(quán).淺談高速公路車輛逃費的主要方式及其應(yīng)對策略[J].北方交通,2011(8):66-68.
[2]楊偉明.高速公路聯(lián)網(wǎng)收費逃費作弊情況分析及其對策[J].中國高新技術(shù)企業(yè),2007(15):144-147.
[3]楊淑芹.聯(lián)網(wǎng)收費防止利用通行卡逃漏費的途徑和有效措施[J].交通世界(運(yùn)輸·車輛),2005(11):51-53.
[4]潘亮華.高速公路逃費手段及防治辦法[J].中國交通信息化,2011(2):99-100.
[5]韓慧英.高速公路逃費探源[J].安全與健康,2005(22):10.
[6]唐州生.高速公路車輛偷逃通行費的原因及應(yīng)對措施[J].西部交通科技,2011(3):70-73.
[7]DELBOSC A,CURRIE G.Cluster Analysis of Fare Evasion Behaviours in Melbourne,Australia[J].Transport Policy,2016,50:29-36.
[8]GUARDA P,GALILEA P,PAGET-SEEKINGS L,et al.What is Behind Fare Evasion in Urban Bus Systems?An Econometric Approach[J].Transportation Research Part A:Policy&Practice,2016,84:55-71.
[9]TRONCOSO R,GRANGEE L D.Fare Evasion in Public Transport A:Time Series Approach[J].Transportation Re?search Part A:Policy&Practice,2017,100:311-318.
[10]JANKOWSKI W B.Fare Evasion and Noncompliance:A Game Theoretical Approach[J].International Journal of Transport Economics,1991,18(3):275-287.
[11]刁洪祥.ETC系統(tǒng)客戶數(shù)據(jù)異常檢測方法的研究[D].長沙:長沙理工大學(xué),2004.
[12]刁洪祥.基于模糊C-均值聚類的ETC系統(tǒng)客戶的逃費分析研究[J].企業(yè)技術(shù)開發(fā),2005(10):8-10.
[13]刁洪祥.基于穩(wěn)定遺傳神經(jīng)網(wǎng)絡(luò)的ETC系統(tǒng)客戶逃費分析[J].電腦與信息技術(shù),2006(4):16-19.
[14]刁洪祥,劉偉銘.基于BP神經(jīng)網(wǎng)絡(luò)的ETC系統(tǒng)客戶的流失分析研究[J].企業(yè)技術(shù)開發(fā),2006(9):34-36.
[15]劉勇,刁洪祥,劉偉銘.基于改進(jìn)的模糊決策樹ETC系統(tǒng)客戶欺詐分析研究[J].交通與計算機(jī),2006(2):1-4.
[16]趙彥,吳淑玲,林志恒,等.高速公路通行卡逃費行為預(yù)測模型研究[J].中國科技論文,2015,10(19):2245-2251.
[17]張曉航.高速公路聯(lián)網(wǎng)收費稽查管理應(yīng)用研究[D].西安:長安大學(xué),2010.
[18]王小川.MATLAB神經(jīng)網(wǎng)絡(luò)43個案例分析[M].北京:北京航空航天大學(xué)出版社,2013.