摘 要:本文在相關網站是選取了相同時間段內的30輛車,對相關數據進行了預處理,選取了以擁堵時間比例作為因變量,一方面單獨以司機自身的疲勞駕駛分析,一方面以行駛路程、轉向次數、平均速度以及行駛時間時間為影響變量。針對已經整合好的車輛作為訓練集初步建立了基于擁堵時間的多元線性預測模型,然后通過各指標間的多重共線性與顯著性分析,進一步建立了非線性逐步回歸作為擁堵時間預測模型。并進行兩兩誤差分析對比,預測效果對比后確定了更為精確的逐步回歸預測模型,并對此提出了該模型優(yōu)缺點以及推廣。
關鍵詞:數據預處理;非線性逐步回歸;定性與定量分析
一、問題分析框架
依據原始數據選取在相同時間段內的30輛車,以擁堵時間比例作為因變量,依據特征指標的選取原則以行駛路程、轉向次數、平均速度、以及時間為影響變量。取部分車輛作為訓練集初步建立了多元線性方程,然后進行各指標間的多重共線性與顯著性分析,進行逐步回歸進行影響汽車擁堵的重要指標變量得到逐步回歸后的方程。再依據剩下的部分車輛數據作為測試集,利用由此得到的擁堵時間逐步回歸方程得到的預測結果與測試集因變量進行對比,分析該車輛擁堵時間預測模型的誤差與均方差,以此得到更加精確的擁堵時間預測模型。
二、問題重述
在導航軟件中,行程時間的估計往往是一個重要的功能?,F有的導航軟件往往通過安裝該軟件的出租車或其他車輛來獲取實時GPS數據以確定當前的道路狀況。在交通嚴重堵塞的情況下,對車速的估計是不準確的。
問題是如何預測交通堵塞的時間?請收集現有數據,建立一個更準確的模型來解決這個問題。
三、符號說明
四、模型假設
(1)假設擁堵時間不受天氣因素的影響;
(2)假設我們所選取的主要的影響指標是能大程度概括汽車安全駕駛行為的;
(3)假設經過數據預處理后刪除的異常數據對總體數據的影響是不計的。
五、模型準備
數據預處理:對于 50 輛車的預處理,我們采用對數據清洗、數據集成、數據變換、數據規(guī)約。在這里發(fā)現車輛左右轉向燈幾乎在數據中都為零,我們對這一異常值進行了著重處理,利用每一輛車的方向角,我們制定了轉向標準并且結合經緯度在地圖中對其進行了驗證,發(fā)現在地圖上的明顯道路轉彎處基本和所處理的異常值符合。
(1)在對車輛軌跡處理中,我們在對應的坐標下,不同車輛不同程度上都出現了軌跡偏離現象。我們采用均值濾器進行軌跡數據異常處理以及清洗。由于車輛傳感器帶來的噪聲,所以車聯(lián)網收集的數據并不精確。
(2)對于異常數據處理:通過對初始數據的整理,發(fā)現在行駛路程為0的情況下,仍然存在著行駛時間不為0的情況,將此數據進行刪除。
(3)對于車輛轉向的數據處理:通過GPS返回的數據,我們依據車輛方向角的變化統(tǒng)計出車輛是否進行了轉向。
六、模型建立
(1)內在因素分析:疲勞駕駛處理
疲勞駕駛是駕駛人自身的行為,也會對交通擁堵造成內在的因素,我們取前二十輛車進行分析。可發(fā)現,駕駛者的疲勞駕駛程度與擁堵率是顯著正相關的,即代表駕駛者的本身內在因素也影響著擁堵時間的變化。
經求解,對其進行t檢驗,判斷總體P_Value,但這并不能說明回歸方程中的每一項都是顯著的,也不能說明各項之間完全非共線。
觀察每個變量的方差膨脹因子VIF,均小于5,即經過問題一處理后的因子完全不存在共線性。然后觀察每個指標的P_Value,各個影響擁堵時間的特征指標都大于0.05,是不顯著的。在這里我們選取行駛路程和轉向次數等這四個不顯著的因子,取其次數都為二,然后進行逐步回歸分析。
逐步回歸:
步驟1:對我們所選取的5個回歸自變量分別同因變量y(擁堵時間率)建立多元非線性回歸模型。
計算變量Xi,相應的回歸系數的 F檢驗統(tǒng)計量的值,記為,,取f其中的最大值。
對給定的顯著性水平,記相應的臨界值為,,則將Xi引入回歸模型,記I1為選入變量指標集合。
步驟2:建立因變量Y與自變量子集的二元回歸模型(即此回歸模型的回歸元為二元的),共有4個。計算變量的回歸系數 F檢驗的統(tǒng)計量值,記為,選其中最大者,記為,對應自變量標記為i2。
對給定的顯著性水平,記相應的臨界值為,則變量引入回歸模型。否則,終止變量引入過程。
步驟3:考慮因變量對變量子集的回歸重復步驟2。
依此方法重復進行,每次從未引入回歸模型的自變量中選取一個,直到經檢驗沒有變量引入為止。
不難發(fā)現,在進行擁堵時間的預測上,逐步回歸分析模型相對線性預測模型更加吻合真實數據。
經過對比:誤差在逐步回歸中得到了明顯改善,提高了該預測模型的精確性。
最終得到關于擁堵時間的預測模型:
七、模型推廣與改進
(1)對于數據預處理過程中壞值的數據記錄,我們可以通過問題建立的擁堵時間預測逐步回歸方程加以求解,完善問題中的數據樣本,提高模型的可靠性。
(2)按照實際情況可知,天氣因素必然會對擁堵時間產生一定影響。但是模型中并沒有體現這一因素,可能受到其同類因素的干擾導致顯著性不明顯。
參考文獻
[1]李琦.基于多源數據的交通狀態(tài)監(jiān)測與預測方法研究[D].吉林大學,2013年6月.
[2]David Hand,Heikki Mnnila.Padhraic Smyth數據挖掘原理[M].張銀奎,廖麗,宋俊等譯.機械工業(yè)出版社,中信出版社,2004
作者簡介
張靜茹(1999—),女,漢族,山東泰安市,本科,研究方向:農業(yè)APP設計與研發(fā)。