徐藝文,徐寧彬,莊重文,陳忠輝
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116)
面向群智感知車聯(lián)網(wǎng)的異常數(shù)據(jù)檢測(cè)算法*
徐藝文,徐寧彬,莊重文,陳忠輝?
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116)
群智感知車聯(lián)網(wǎng)利用普通用戶的手機(jī)或平板電腦等智能終端獲得交通數(shù)據(jù),解決了車聯(lián)網(wǎng)以低成本獲取足夠數(shù)據(jù)的問(wèn)題,但卻凸顯了數(shù)據(jù)“質(zhì)”的問(wèn)題.為此,在分析群智感知車聯(lián)網(wǎng)的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)異常特點(diǎn)的基礎(chǔ)上,提出一種適用于群智感知車聯(lián)網(wǎng)的異常數(shù)據(jù)檢測(cè)算法,并依此剔除異常數(shù)據(jù),提高數(shù)據(jù)質(zhì)量.算法利用核密度估計(jì)理論對(duì)車聯(lián)網(wǎng)數(shù)據(jù)的概率密度進(jìn)行估計(jì),進(jìn)而構(gòu)建信任函數(shù)計(jì)算被檢數(shù)據(jù)的信任度,后根據(jù)統(tǒng)計(jì)學(xué)理論將信任度小于0的數(shù)據(jù)判定為異常數(shù)據(jù).最后對(duì)該算法的可行性及性能進(jìn)行了仿真,結(jié)果表明該算法的性能可滿足實(shí)用需求,且對(duì)比傳統(tǒng)的統(tǒng)計(jì)檢測(cè)法在檢測(cè)率和誤檢率上具有更好的性能.
車聯(lián)網(wǎng);群智感知;異常數(shù)據(jù)檢測(cè);核密度估計(jì)
近年來(lái),隨著汽車數(shù)量的持續(xù)增長(zhǎng),許多城市的道路承載容量已近飽和,道路擁堵問(wèn)題日益嚴(yán)重.車聯(lián)網(wǎng)技術(shù)在智能交通系統(tǒng)中的成功應(yīng)用,使其被認(rèn)為是解決道路擁堵問(wèn)題的最佳方法,吸引了大批研究人員的興趣[1-4],本文的研究也是基于該應(yīng)用場(chǎng)景.傳統(tǒng)車聯(lián)網(wǎng)的數(shù)據(jù)采集方式分為固定式采集和浮動(dòng)式采集兩種,但它們都存在明顯缺陷,前者安裝和維護(hù)成本偏高,后者存在浮動(dòng)車數(shù)量少而可能出現(xiàn)數(shù)據(jù)量不足的問(wèn)題.為解決以上問(wèn)題,有些學(xué)者提出了群智感知車聯(lián)網(wǎng)的思路,即利用普通用戶的手機(jī)或平板電腦等智能終端作為基本感知單元獲取所需的交通數(shù)據(jù),例如,文獻(xiàn)[3]通過(guò)讀取智能手機(jī)的加速度傳感器信息,并經(jīng)過(guò)坐標(biāo)旋轉(zhuǎn)獲得車輛的三軸加速度,結(jié)合從手機(jī)內(nèi)置GPS獲得的車速信息,判斷車輛運(yùn)行的顛簸狀況及剎車狀況,進(jìn)而判斷交通狀況是否良好;文獻(xiàn)[4]通過(guò)實(shí)測(cè)評(píng)估了智能手機(jī)用于實(shí)時(shí)交通流預(yù)測(cè)的性能.以上研究均驗(yàn)證了群智感知技術(shù)應(yīng)用于車聯(lián)網(wǎng)數(shù)據(jù)采集的可行性.
群智感知以極低的成本獲得海量交通數(shù)據(jù),很好地解決了車聯(lián)網(wǎng)數(shù)據(jù)“量”的問(wèn)題,但是另一方面,這些數(shù)據(jù)來(lái)源于大量未經(jīng)訓(xùn)練或認(rèn)證的普通用戶,惡化了數(shù)據(jù)“質(zhì)”的問(wèn)題,因此如何實(shí)現(xiàn)高效、高可靠的異常數(shù)據(jù)檢測(cè)在群智感知車聯(lián)網(wǎng)中顯得尤為重要.車聯(lián)網(wǎng)中,傳統(tǒng)的異常數(shù)據(jù)檢測(cè)算法主要有物理檢測(cè)法和統(tǒng)計(jì)檢測(cè)法[5-8],前者主要應(yīng)用交通流理論針對(duì)不同類型的交通數(shù)據(jù)設(shè)置相應(yīng)閾值,若數(shù)據(jù)超過(guò)閾值則判定為異常,該方法實(shí)現(xiàn)簡(jiǎn)單、檢測(cè)速度快,但它只適用于交通流理論涉及的數(shù)據(jù)類型(如速度、流量、時(shí)間占有率),不適用群智感知車聯(lián)網(wǎng)中新的數(shù)據(jù)類型(如三軸加速度),而且該方法在判定過(guò)程中使用大量的經(jīng)驗(yàn)值作為閾值,導(dǎo)致算法適用范圍窄且性能偏低;后者應(yīng)用統(tǒng)計(jì)學(xué)理論確定一個(gè)置信上限,若數(shù)據(jù)誤差超過(guò)該上限則判定為異常,該方法在理論上具有較高的檢測(cè)性能,但它是在假設(shè)數(shù)據(jù)服從正態(tài)分布的前提下進(jìn)行異常檢測(cè)的,而實(shí)際生活中由于駕駛行為和車輛性能的隨機(jī)性,車聯(lián)網(wǎng)數(shù)據(jù)并不一定服從正態(tài)分布,導(dǎo)致該方法在車聯(lián)網(wǎng)應(yīng)用中的實(shí)際檢測(cè)性能遠(yuǎn)不如理論性能.近幾年也有學(xué)者提出其他一些車聯(lián)網(wǎng)異常數(shù)據(jù)檢測(cè)方法,文獻(xiàn)[9]利用支持向量機(jī)的回歸估計(jì)模型,通過(guò)計(jì)算實(shí)際值與預(yù)測(cè)值之間的殘差來(lái)判別異常數(shù)據(jù);文獻(xiàn)[10]以k近鄰算法為基礎(chǔ),根據(jù)數(shù)據(jù)點(diǎn)與其相鄰數(shù)據(jù)節(jié)點(diǎn)之間的距離判斷異常數(shù)據(jù);文獻(xiàn)[11]采用小波分析方法分離交通流數(shù)據(jù)中的高頻與低頻分量,進(jìn)而求得原始信號(hào)與重構(gòu)信號(hào)的差值并結(jié)合最小二乘法找出異常數(shù)據(jù).此外,文獻(xiàn)[12]提出一種加入時(shí)間關(guān)聯(lián)因子曲線擬合的交通流異常挖掘方法,并運(yùn)用分箱思想設(shè)定正常值動(dòng)態(tài)范圍,從而剔除異常數(shù)據(jù).這些方法都有各自的優(yōu)勢(shì),但它們均主要針對(duì)傳統(tǒng)車聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行檢測(cè),不適用于群智感知這種具有特殊數(shù)據(jù)結(jié)構(gòu)及異常特點(diǎn)的應(yīng)用場(chǎng)景.為解決以上問(wèn)題,本文分析了群智感知車聯(lián)網(wǎng)的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)異常特點(diǎn),在此基礎(chǔ)上提出一種適用于該場(chǎng)景的基于核密度估計(jì)的異常數(shù)據(jù)檢測(cè)算法,并通過(guò)Matlab仿真驗(yàn)證其性能.
的特點(diǎn) 群智感知車聯(lián)網(wǎng)中,由于群智用戶的手機(jī)或平板電腦等智能終端內(nèi)的傳感器有限,實(shí)際應(yīng)用中往往不能直接從其內(nèi)置傳感器獲得我們所需的數(shù)據(jù),而是必須先對(duì)讀取的傳感器數(shù)據(jù)進(jìn)行某種變換后才能獲得,即群智用戶上傳的數(shù)據(jù)(以下簡(jiǎn)稱群智數(shù)據(jù))往往體現(xiàn)出如式(1)所示的結(jié)構(gòu):
(1)
2.1 算法原理
為了便于理解本文所提算法,現(xiàn)將算法中涉及的各個(gè)符號(hào)及其定義統(tǒng)一說(shuō)明,如表1所示.
表1 符號(hào)定義說(shuō)明Tab.1 Notations′ definition
(2)
(3)
實(shí)際應(yīng)用中,Plc一般可通過(guò)多次實(shí)驗(yàn)獲得,對(duì)于無(wú)法確定該值的應(yīng)用場(chǎng)景,可以用Kroneckerdelta函數(shù)近似,即:
(4)
統(tǒng)計(jì)學(xué)理論告訴我們:
①概率密度函數(shù)f(x)表征的是數(shù)據(jù)在x附近的概率[13];
②具有不尋常低概率的數(shù)據(jù)對(duì)象可定義為異常數(shù)據(jù)[14].
(5)
式中α為置信概率,在實(shí)際應(yīng)用中一般采用經(jīng)驗(yàn)值或通過(guò)樣本訓(xùn)練獲得.式(5)采用對(duì)數(shù)函數(shù)是為了使數(shù)據(jù)具有線性可加性,且具有更緊湊的數(shù)量級(jí)分布.最后,根據(jù)式(5)可計(jì)算出所有群智數(shù)據(jù)的信任度,若滿足:
r(Xic)>0
(6)
則認(rèn)為該數(shù)據(jù)正常,反之則認(rèn)為其異常.
以上算法的關(guān)鍵是fc(xs)的獲得,本文通過(guò)核密度估計(jì)實(shí)現(xiàn).
2.2 核密度估計(jì)的實(shí)現(xiàn)及其在實(shí)用中的修正
從數(shù)據(jù)集中提取獨(dú)立樣本X1,X2,…,Xn,假設(shè)該樣本與數(shù)據(jù)集具有相同的概率密度函數(shù)f(x),則根據(jù)核密度估計(jì)理論[15],該數(shù)據(jù)集的核密度估計(jì)為:
(7)
式中n為樣本容量,h為窗寬,K(·)為核函數(shù).理論和大量的實(shí)驗(yàn)已證明,在樣本容量足夠大的情況下(群智感知數(shù)據(jù)顯然符合這一前提),核函數(shù)的選取對(duì)核密度估計(jì)效果的影響不大,只需滿足對(duì)稱和單峰特性即可[15],所以本文選擇Epanechnikov核(簡(jiǎn)稱依潘核),即:
(8)
在核密度估計(jì)的實(shí)現(xiàn)中,核函數(shù)K(·)的支撐集是全體實(shí)數(shù).因此,當(dāng)數(shù)據(jù)樣本的真實(shí)密度函數(shù)的支撐集(函數(shù)f(x)的支撐集指{x | f(x) ≠ 0})有邊界時(shí),核密度估計(jì)會(huì)在其邊界處出現(xiàn)偏差,具體體現(xiàn)為邊界外的概率密度值仍大于0,這種現(xiàn)象稱為核密度估計(jì)的邊界效應(yīng).例如,車聯(lián)網(wǎng)數(shù)據(jù)中的車速是一個(gè)非負(fù)值,因此在車速為負(fù)值時(shí)其實(shí)際概率密度值應(yīng)為0,但是由于邊界效應(yīng)的存在,根據(jù)式(7)算得的核密度估計(jì)結(jié)果在負(fù)半軸上卻非零,這種情況會(huì)影響式(2)的計(jì)算結(jié)果,造成車速負(fù)值情況下ril卻非零,可能引起后續(xù)異常數(shù)據(jù)檢測(cè)的誤判.為解決該問(wèn)題,本文采用“邊界核”的方法[16]對(duì)式(7)進(jìn)行修正,邊界核的表達(dá)式為:
(9)
式中:
其中i為0,1,2;a為上邊界;b為下邊界;K(z)為核函數(shù);h為窗寬.將B(u)替換式(7)中的核函數(shù),可得邊界核的核密度估計(jì)為:
(10)
核密度估計(jì)的邊界效應(yīng)及修正結(jié)果將在本文第3部分的仿真中給出.
2.3 算法流程
綜合以上分析,本文所提出的基于核密度估計(jì)的異常數(shù)據(jù)檢測(cè)算法流程如下.
①劃分子數(shù)據(jù)集:將數(shù)據(jù)集D中的所有數(shù)據(jù)記錄按照變換值c(c=1,2,…,N)劃分成N個(gè)子數(shù)據(jù)集Dc,并從中分別提取獨(dú)立樣本用于后續(xù)核密度估計(jì);
② 核密度估計(jì):利用步驟①提取的數(shù)據(jù)樣本,根據(jù)式(10)計(jì)算出各子數(shù)據(jù)集Dc中各測(cè)量值分量的概率密度函數(shù)fc(x1),fc(x2),…,fc(xM);
④ 計(jì)算信任度:根據(jù)式(5)計(jì)算每一個(gè)被檢數(shù)據(jù)的信任度r(Xic);
⑤ 異常數(shù)據(jù)檢測(cè):若被檢數(shù)據(jù)Xic的信任度大于0,則判定其為正常數(shù)據(jù),否則判定為異常數(shù)據(jù).
3.1 數(shù)據(jù)來(lái)源
文獻(xiàn)[3]給出了通過(guò)手機(jī)獲取汽車三軸加速度
和速度并進(jìn)而判斷路面顛簸程度的算法,這是群智感知車聯(lián)網(wǎng)的一個(gè)典型應(yīng)用,本文將其作為仿真的應(yīng)用背景.為此,我們?cè)O(shè)計(jì)了一個(gè)基于Android平臺(tái)的應(yīng)用軟件,該軟件可實(shí)時(shí)讀取手機(jī)內(nèi)置的三軸加速度傳感器數(shù)據(jù)以及GPS模塊給出的車輛速度數(shù)據(jù),并根據(jù)文獻(xiàn)[3]的算法判斷當(dāng)前車輛行駛路面的顛簸程度.該應(yīng)用軟件的運(yùn)行界面如圖1所示,數(shù)據(jù)記錄示例如表2所示.
(a) 主界面 (b) 路面顛簸實(shí)時(shí)檢測(cè)結(jié)果圖1 應(yīng)用軟件運(yùn)行界面Fig.1 Application user interface
利用上述應(yīng)用軟件,我們?cè)诟V莸亩鄺l道路上進(jìn)行了一個(gè)多月的實(shí)驗(yàn),獲取了超過(guò)500萬(wàn)條數(shù)據(jù)記錄,將其作為后續(xù)仿真的數(shù)據(jù)源.
3.2 核密度估計(jì)結(jié)果
表2中,數(shù)據(jù)集每條記錄的內(nèi)容為:
Xic={xi,yi,zi,vi;c}
其中xi,yi,zi和vi分別代表第i次測(cè)量所得的三軸加速度和速度,c代表該次測(cè)量變換所得的路面顛簸程度,且c∈{1,2,3,4}(應(yīng)用軟件中將顛簸程度按不顛簸、輕度、中度和重度顛簸分為4級(jí),且分別對(duì)應(yīng)數(shù)值1~4).
表2 數(shù)據(jù)記錄示例Tab.2 Examples of data
圖2給出了c=2(即輕度顛簸)情況下車輛速度和三軸加速度的核密度估計(jì)結(jié)果.從圖2可看出車速明顯不服從正態(tài)分布,與傳統(tǒng)的統(tǒng)計(jì)檢測(cè)法的假設(shè)前提不符.車輛發(fā)生顛簸時(shí)會(huì)造成z軸加速度在正負(fù)值之間變化,因此圖2(c)的曲線顯示出雙峰結(jié)構(gòu),也不服從正態(tài)分布.
圖2(d)中虛線所示為直接使用依潘核(如式(8))進(jìn)行核密度估計(jì)的結(jié)果,可以看出在速度為負(fù)值時(shí)其概率密度卻不為0,并且區(qū)間[0,h](h為窗寬)內(nèi)的概率密度值明顯小于真實(shí)值,即出現(xiàn)了邊界效應(yīng).圖2(d)中實(shí)線給出了利用邊界核進(jìn)行修正后的效果,可以看出在速度為負(fù)值時(shí)的概率密度值被修正為0,而且該曲線與點(diǎn)劃線給出的實(shí)際概率密度曲線基本相符.
圖2 車輛速度和三軸加速度的核密度估計(jì)結(jié)果Fig.2 Results of kernel density estimation for vehicle velocity and three-axis acceleration
3.3 與傳統(tǒng)統(tǒng)計(jì)檢測(cè)法的性能對(duì)比
傳統(tǒng)的異常數(shù)據(jù)檢測(cè)算法中,物理檢測(cè)法只能檢測(cè)交通流理論涉及的數(shù)據(jù)類型,不適于本文群智感知的應(yīng)用場(chǎng)景,而傳統(tǒng)的統(tǒng)計(jì)檢測(cè)法中,狄克遜準(zhǔn)則、格拉布斯準(zhǔn)則和肖維勒準(zhǔn)則只適用于小樣本情況下的異常檢測(cè),只有拉依達(dá)準(zhǔn)則適用于大樣本情況,因此我們選擇拉依達(dá)準(zhǔn)則與本文所提算法進(jìn)行性能對(duì)比.在對(duì)比實(shí)驗(yàn)中,本文所提算法的具體流程可參見(jiàn)2.3節(jié),而拉依達(dá)準(zhǔn)則的處理流程簡(jiǎn)述如下:
① 將所有數(shù)據(jù)記錄按照顛簸程度c的不同劃分為4個(gè)子數(shù)據(jù)集Dc(c=1,2,3,4);
② 對(duì)每個(gè)子數(shù)據(jù)集中的4個(gè)測(cè)量值分量(速度和三軸加速度)分別抽樣,得到各個(gè)顛簸程度下,不同測(cè)量值分量的數(shù)據(jù)樣本,并通過(guò)這些數(shù)據(jù)樣本分別計(jì)算它們的均值與標(biāo)準(zhǔn)差;
③ 根據(jù)拉依達(dá)準(zhǔn)則判決依據(jù)[13],若被檢數(shù)據(jù)的任一分量與其對(duì)應(yīng)均值的差超過(guò)3倍標(biāo)準(zhǔn)差,則判定該數(shù)據(jù)為異常數(shù)據(jù).
為模擬實(shí)際應(yīng)用中的惡意數(shù)據(jù),在數(shù)據(jù)集的隨機(jī)位置人為加入了若干明顯異常的數(shù)據(jù),然后根據(jù)算法檢測(cè)結(jié)果計(jì)算檢測(cè)率Pd和誤檢率Pf,以此來(lái)對(duì)比兩種算法在性能上的優(yōu)劣.Pd和Pf的表達(dá)式如式(11)所示.
(11)
式中:Nr代表被判為異常的數(shù)據(jù)中真正異常的數(shù)據(jù)個(gè)數(shù),Sr代表實(shí)際異常數(shù)據(jù)的個(gè)數(shù),Nf代表被誤判為異常數(shù)據(jù)的個(gè)數(shù),Sd代表被判為異常的數(shù)據(jù)總數(shù).
圖3給出了兩種算法在不同異常數(shù)據(jù)規(guī)模情況下的檢測(cè)率和誤檢率,為使仿真結(jié)果更加直觀,圖中橫坐標(biāo)η是異常數(shù)據(jù)比率的對(duì)數(shù)值,具體公式為:
(12)
式中Sn代表參與異常檢測(cè)的數(shù)據(jù)總數(shù).考慮到實(shí)際應(yīng)用中異常數(shù)據(jù)一般較少,所以仿真中η的取值范圍為-30~-10 dB(即0.1%~10%).
圖3 與拉依達(dá)準(zhǔn)則的性能對(duì)比Fig.3 Performance comparison with the Pauta criterion
從圖3可看出:① 本文所提算法的檢測(cè)率遠(yuǎn)高于拉依達(dá)準(zhǔn)則,這是因?yàn)槔肋_(dá)準(zhǔn)則基于數(shù)據(jù)服從正態(tài)分布的假設(shè)進(jìn)行數(shù)據(jù)檢測(cè),而圖2(d)表明車速和z軸加速度明顯不服從正態(tài)分布(尤其z軸加速度的分布呈雙峰結(jié)構(gòu),與正態(tài)分布的單峰結(jié)構(gòu)差別很大),造成拉依達(dá)準(zhǔn)則實(shí)際檢測(cè)性能差;② 本文所提算法的誤檢率遠(yuǎn)低于拉依達(dá)準(zhǔn)則,其原因與①相同;③ 隨著異常數(shù)據(jù)的增加,拉依達(dá)準(zhǔn)則的檢測(cè)率急劇下降,而本文所提算法的檢測(cè)率卻僅下降少許,這是因?yàn)樵诶肋_(dá)準(zhǔn)則中,估計(jì)的樣本方差大于實(shí)際樣本方差,隨著異常數(shù)據(jù)的增加,方差偏差加大,則一些與真實(shí)值偏差較小的異常值會(huì)被認(rèn)定為正常值,從而導(dǎo)致檢測(cè)率下降,而異常數(shù)據(jù)的增加對(duì)核密度估計(jì)幾乎沒(méi)有影響.綜上,對(duì)比檢測(cè)率和誤檢率,本文所提算法具備更佳的性能,且其性能可滿足實(shí)際應(yīng)用需求.
針對(duì)群智感知車聯(lián)網(wǎng)系統(tǒng)帶來(lái)的數(shù)據(jù)質(zhì)量惡化問(wèn)題,本文提出了一種基于核密度估計(jì)的異常數(shù)據(jù)檢測(cè)算法,其區(qū)別于傳統(tǒng)方法的優(yōu)點(diǎn)主要在于:
①本文所提算法利用核密度估計(jì)直接從數(shù)據(jù)樣本中估計(jì)出車聯(lián)網(wǎng)數(shù)據(jù)的概率密度,而不依賴對(duì)數(shù)據(jù)分布的任何假設(shè),避免了傳統(tǒng)統(tǒng)計(jì)檢測(cè)法因預(yù)設(shè)分布與實(shí)際分布不一致而導(dǎo)致的檢測(cè)性能下降.
②算法針對(duì)群智感知場(chǎng)景下的特殊數(shù)據(jù)結(jié)構(gòu)而提出,適用性強(qiáng).
③仿真結(jié)果表明,本文所提算法具有較優(yōu)的檢測(cè)性能.
值得一提的是,在實(shí)際應(yīng)用中,對(duì)篩查出的異常數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘可能獲得正常數(shù)據(jù)所不能提供的新信息,因此在某些情況下不宜直接丟棄異常數(shù)據(jù).此時(shí)可根據(jù)式(5)將數(shù)據(jù)按信任度排序,并針對(duì)不同信任度等級(jí)的數(shù)據(jù)進(jìn)行區(qū)別化的數(shù)據(jù)挖掘,從而獲得一些隱藏信息.
[1] 蔣斌,徐驍,楊超,等.路網(wǎng)擁塞控制中的多目標(biāo)路徑?jīng)Q策模型研究[J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2015,42(4):121-129.
JIANGBin,XUXiao,YANGChao,et al.Amulti-objectiveroutingdecisionmodelinvehicletransportnetworkcongestioncontrol[J].JournalofHunanUniversity:NaturalSciences,2015,42(4):121-129.(InChinese).
[2] 邱敦國(guó),楊紅雨.一種基于雙周期時(shí)間序列的短時(shí)交通流預(yù)測(cè)算法[J].四川大學(xué)學(xué)報(bào):工程科學(xué)版,2013,45(5):64-68.
QIUDunguo,YANGHongyu.Ashort-termtrafficflowforecastalgorithmbasedondoubleseasonaltimeseries[J].JournalofSichuanUniversity:EngineeringScience,2013,45(5):64-68.(InChinese).
[3]MOHANP,PADMANABHANVN,RAMJEER.Nericell:richmonitoringofroadandtrafficconditionsusingmobilesmartphones[C]//Proceedingsofthe6thACMconferenceonEmbeddednetworksensorsystems.NewYork:ACMPress,2008:323-336.
[4]ANSAR1R,SARAMPAKHUL1P,GHOSH1s,et al.Evalua-tionofsmart-phoneperformanceforreal-timetrafficprediction[C]//Proceedingsof17thInternationalIEEEConferenceonIntelligentTransportationSystems.NewYork:IEEE,2014:3010-3015.
[5] 李穎宏,張永忠,王力.道路交通信息檢測(cè)技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2014:239-243.
LIYinghong,ZHANGYongzhong,WANGLi.Roadtrafficinformationdetectiontechnologyandapplication[M].Beijing:ChinaMachinePress,2014:239-243.(InChinese)
[6] 徐程,曲昭偉,陶鵬飛,等.動(dòng)態(tài)交通數(shù)據(jù)異常值的實(shí)時(shí)篩選與恢復(fù)方法[J].哈爾濱工程大學(xué)學(xué)報(bào),2016,37(2):211-217.
XUCheng,QUZhaowei,TAOPengfei,et al.Methodsofreal-timescreeningandreconstructionfordynamictrafficabnormaldata[J].JournalofHarbinEngineeringUniversity,2016,37(2):211-217.(InChinese)
[7] 劉喜梅,劉義芳,高林.小樣本道路旅行時(shí)間數(shù)據(jù)中的異常點(diǎn)剔除算法[J].青島科技大學(xué)學(xué)報(bào):自然科學(xué)版,2015,36(3):346-354.
LIUXimei,LIUYifang,GAOLin.Algorithmoutlierfilteringforsmallsimpledataoftraveltime[J].JournalofQingdaoUniversityofScienceandTechnology:NaturalScience,2015,36(3):346-354.(InChinese)
[8] 陸化普,孫智源,屈聞聰.基于動(dòng)態(tài)閾值的交通流故障數(shù)據(jù)實(shí)時(shí)識(shí)別方法[J].土木工程學(xué)報(bào),2015,48(11):126-132.
LUHuapu,SUNZhiyuan,QUWencong.Real-timeidentificationoftrafficerroneousdatabasedondynamicthreshold[J].ChinaCivilEngineeringJournal,2015,48(11):126-132.(InChinese)
[9] 李成兵,姚琛.交通流異常數(shù)據(jù)檢測(cè)研究及實(shí)證[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(20):244-246.
LIChengbing,YAOChen.Studyofrecognizingdiscrepanttrafficdataanditsvalidation[J].ComputerEngineeringandApplications,2013,49(20):244-246.(InChinese)
[10]DANGTT,NGANHYT,LIUW.Distance-basedk-nearestneighborsoutlierdetectionmethodinlarge-scaletrafficdata[C]//ProceedingsofIEEEInternationalConferenceonDigitalSignalProcessing.NewYork:IEEE,2015:507-510.
[11]李志敏,易良友,薛平,等.基于小波分析的交通流量異常數(shù)據(jù)檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2011,28(5):1677-1678.
LIZhiming,YILiangyou,XUEPing,et al.Short-termtrafficflowdetectionbasedonwavelet[J].ApplicationResearchofComputers,2011,28(5):1677-1678.(InChinese)
[12]陳珂,鄒權(quán).融入時(shí)間關(guān)聯(lián)因子曲線擬合的交通流異常挖掘方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(7):2561-2565.
CHENKe,ZOUQuan.Trafficflowanomalyminingmethodofcurvefittingofaddingtimecorrelationfactor[J].ComputerEngineeringandDesign,2013,34(7):2561-2565.(InChinese)
[13]鄧澤清,陳海英.概率論與數(shù)理統(tǒng)計(jì)[M].北京:科學(xué)出版社,2014:26-32.
DENGZeqing,CHENHaiying.Probabilityandstatistics[M].Beijing:SciencePress,2014:26-32.(InChinese)
[14]王星.大數(shù)據(jù)分析:方法與應(yīng)用[M].北京:清華大學(xué)出版社,2013:31.
WANGXing.Bigdataanalyze:methodsandapplications[M].Beijing:TsinghuaUniversityPress,2013:31.(InChinese)
[15]張夏菲.非參數(shù)核密度估計(jì)負(fù)荷模型在電網(wǎng)可靠性評(píng)估中的應(yīng)用[D].重慶:重慶大學(xué)電氣工程學(xué)院,2010:31-35.
ZHANGXiafei.Theapplicationofnon-parametrickerneldensityestimationloadmodelinpowersystemreliabilityevaluation[D].Chongqing:SchoolofElectricalEngineering,ChongqingUniversity,2010:31-35.(InChinese)
[16]SIMONOFFJS.Smoothingmethodsinstatistics[M].Germ-any:Springer,1996:49-54.
An Algorithm of Abnormal Data Detection for Internet of Vehicles Based on Crowdsensing
XU Yiwen,XU Ningbin,ZHUANG Zhongwen,CHEN Zhonghui?
(School of Physics and Information Engineering,F(xiàn)uzhou University,F(xiàn)uzhou 350116,China)
Internet of Vehicles (IoV) based on crowdsensing technology,which gets traffic data by smartphone or panel PC from ordinary person,has solved the problem that getting sufficient data at low cost.However,it also makes a new problem that the data quality of the system is deteriorated.To solve this problem,by analyzing the structure of crowdsensing data and the characteristics of abnormal data in crowdsensing IoV,a data detection algorithm is put forward to eliminate the abnormal data in IoV system and consequently improve data quality.In the algorithm,kernel density estimation theory is used to estimate the probability density of traffic data,and a belief function is then constructed to derive the confidence value of every detected data.According to the statistical theory,the data whose confidence value is less than 0 is regarded as abnormal data.Finally,the feasibility and performance of the presented algorithm are simulated.The results show that the proposed algorithm can meet practical demands and achieve better performance than that of traditional statistical detection methods.
internet of vehicles;crowdsensing;abnormal data detection;kernel density estimation
1674-2474(2017)08-0145-07
10.16339/j.cnki.hdxbzkb.2017.08.022
2017-02-21
國(guó)家自然科學(xué)基金海峽聯(lián)合基金重點(diǎn)支持項(xiàng)目(U1405251),Key Project of National Natural Science Foundation of China(U1405251);國(guó)家自然科學(xué)基金資助項(xiàng)目(61571129,61601126),National Natural Science Foundation of China(61571129,61601126);福建省自然科學(xué)基金資助項(xiàng)目(2015J01250,2016J01299),Natural Science Foundation of Fujian Province(2015J01250,2016J01299)
徐藝文(1976—),男,福建漳州人,福州大學(xué)副教授,博士
?通訊聯(lián)系人,E-mail:czh@fzu.edu.cn
TP391
A