李紅梅,唐 嵐(西華大學(xué) 汽車與交通工程學(xué)院,成都 610065)
?
基于weka的交通流預(yù)測(cè)研究
李紅梅,唐 嵐
(西華大學(xué) 汽車與交通工程學(xué)院,成都 610065)
摘 要:隨著智能交通系統(tǒng)ITS的廣泛研究和應(yīng)用,對(duì)智能交通系統(tǒng)采集的海量交通數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘成為國(guó)內(nèi)外專家學(xué)者研究的熱點(diǎn)。數(shù)據(jù)挖掘是一門實(shí)驗(yàn)性非常強(qiáng)的學(xué)科,Weka工作平臺(tái)匯集了當(dāng)今最前沿的數(shù)據(jù)預(yù)處理工具和學(xué)習(xí)算法,它為數(shù)據(jù)挖掘?qū)嶒?yàn)的整個(gè)過(guò)程提供了廣泛的支持。本文主要研究基于weka平臺(tái)的M5P模型樹對(duì)交通流數(shù)據(jù)中的交通速度進(jìn)行預(yù)測(cè),包括對(duì)數(shù)據(jù)的準(zhǔn)備、預(yù)處理、結(jié)果的表達(dá)及解釋。
關(guān)鍵詞:智能交通系統(tǒng); Weka; 交通流預(yù)測(cè)研究
城市路網(wǎng)信號(hào)監(jiān)控周期一般在120-300s之間,最長(zhǎng)不會(huì)超過(guò)600s,而車輛的行駛速度一般在10-60km/h之間,每個(gè)監(jiān)控路段內(nèi)的行駛時(shí)間一般為1-5分鐘。本文中使用的數(shù)據(jù)為四川某市2014年8月的交通流數(shù)據(jù),其中包含多個(gè)路段,數(shù)據(jù)錄入間隔為5分鐘。內(nèi)容如圖1所示。
從圖中看出有多個(gè)字段,由于本文主要分析交通流數(shù)據(jù)中的速度數(shù)據(jù),故只提取與本文速度預(yù)測(cè)相關(guān)的字段。包括VID_LANE_ ID(設(shè)備采集信息),LANEID(第幾條道),SPEED(速度),TRAFFICDATA(時(shí)間)。將數(shù)據(jù)整理成本文所需內(nèi)容,并將日期標(biāo)準(zhǔn)化后如圖2所示。
將數(shù)據(jù)另存為基于weka的交通流預(yù)測(cè).csv格式保存,在weka中打開基于weka的交通流預(yù)測(cè).csv文件,并另存為基于weka的交通流預(yù)測(cè).arff,這樣就保存為weka可以打開直接處理的數(shù)據(jù)格式了。
本文數(shù)據(jù)為隨機(jī)選取的某一天的某一路段數(shù)據(jù),因此在預(yù)測(cè)過(guò)程中可以將日期和前兩個(gè)屬性去掉。
2.1 算法的發(fā)展
時(shí)代的進(jìn)步依靠的是科技的進(jìn)步與發(fā)展,無(wú)論是在什么技術(shù)領(lǐng)域,它都隨著科技的進(jìn)步而發(fā)展,其中算法技術(shù)就是其中的一種。通過(guò)我們對(duì)算法的調(diào)查研究之后發(fā)現(xiàn),現(xiàn)階段應(yīng)用較為廣泛的就是M5P算法,它相對(duì)于其他算法而言約束條件少,運(yùn)算便捷。那么什么是M5P算法呢?下面就讓我們從具體的應(yīng)用之中來(lái)了解一下吧。
2.2 M5P算法
(1)樹的生長(zhǎng)。M5P模型樹是將輸入和輸出參數(shù)之間的非線性關(guān)系換成了分段式線性關(guān)系。M5P模型樹的劈分思想與決策樹的思想是基本相同的,但劈分的原則不同。決策樹的劈分原則是信息增益原則,而M5P模型樹的劈分原則是樣本屬性差異化原則,即SDR(Standard Deciation Reduction):
(2)樹的修剪。M5P算法就通過(guò)回歸線方程的建立將樹木的枝丫、節(jié)點(diǎn)與樹木整體進(jìn)行連接,通過(guò)方程的建立來(lái)規(guī)劃最優(yōu)修剪位置,同事在修剪的時(shí)候應(yīng)該遵循預(yù)測(cè)誤差減少量的原則。
(3)樹的平滑。Quinlan提出樹葉子節(jié)點(diǎn)的平滑方法。在每個(gè)葉節(jié)點(diǎn)處都有一個(gè)按線性回歸算法擬合的多元線性回歸方程,該方程能有效的彌補(bǔ)相鄰兩葉子節(jié)點(diǎn)之間的不連續(xù)性。
2.3 基于M5P模型樹預(yù)測(cè)交通速度
基于weka,運(yùn)載M5P模型樹算法,并將預(yù)測(cè)結(jié)果加以顯示,可以看到預(yù)測(cè)結(jié)果與真實(shí)值之間的差距。如圖3所示。
查看預(yù)測(cè)準(zhǔn)確率和絕對(duì)平均誤差值分別為85.44%和0.083%,得到了較好的預(yù)測(cè)效果。
參考文獻(xiàn):
[1]馬壽峰,賀國(guó)光,劉豹.智能交通系統(tǒng)中短時(shí)交通流預(yù)測(cè)系統(tǒng)的研究[J].預(yù)測(cè),2004,23(02):28-34.
DOI:10.16640/j.cnki.37-1222/t.2016.12.251
作者簡(jiǎn)介:李紅梅(1987-),女,四川渠縣人,碩士研究生,研究方向:汽車性能測(cè)試技術(shù)、汽車大數(shù)據(jù)挖掘等。