秦 佳
數(shù)據(jù)挖掘技術(shù)在公路交通管理系統(tǒng)中的應(yīng)用研究
秦 佳
介紹了用于預(yù)測(cè)決策的回歸分析方法,進(jìn)行預(yù)測(cè)決策數(shù)據(jù)挖掘模型設(shè)計(jì),并用公路交通管理系統(tǒng)中違章數(shù)據(jù)進(jìn)行驗(yàn)證,得出較優(yōu)的用于公路交通管理預(yù)測(cè)決策的數(shù)據(jù)挖掘模型。
數(shù)據(jù)挖掘;預(yù)測(cè)決策;回歸分析
數(shù)據(jù)挖掘作為數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的重要應(yīng)用,利用一系列方法,從海量數(shù)據(jù)中提取隱含在其中的有用信息和知識(shí),并對(duì)數(shù)據(jù)進(jìn)行深層分析、挖掘,為企業(yè)提供綜合性分析決策信息。實(shí)現(xiàn)數(shù)據(jù)共享,統(tǒng)一分析平臺(tái)的數(shù)據(jù)環(huán)境,為高質(zhì)量的決策提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
公路交通管理系統(tǒng)是在原闖紅燈抓拍系統(tǒng)的基礎(chǔ)上,對(duì)抓拍的圖片進(jìn)行后臺(tái)管理的系統(tǒng),擴(kuò)展了對(duì)于監(jiān)測(cè)不按導(dǎo)向車(chē)道行駛、停車(chē)壓線、超速等各種違法行為的綜合管理。利用數(shù)據(jù)挖掘技術(shù),對(duì)交通違規(guī)車(chē)輛數(shù)據(jù)進(jìn)行分析和處理,初步實(shí)現(xiàn)交通違規(guī)車(chē)輛管理的分析和管理預(yù)測(cè)功能。
利用回歸分析的方法,進(jìn)行數(shù)據(jù)挖掘,建立包括時(shí)間變量在內(nèi)的線性回歸模型。預(yù)測(cè)時(shí),輸入任意的時(shí)間和自變量,利用回歸模型對(duì)目標(biāo)進(jìn)行預(yù)測(cè)。
影響交通管理的因素很多,主要體現(xiàn)在闖紅燈、酒后駕車(chē)、無(wú)證駕駛、超載、上下班高峰時(shí)間、主要地段車(chē)流量、路況、天氣等方面。為了優(yōu)化模型,便于數(shù)據(jù)的處理,使之更加貼近實(shí)際情況。
采用多元線性回歸的方法建立公路交通管理預(yù)測(cè)模型,利用四元線性回歸方程,分析影響因素與公路交通管理預(yù)測(cè)之間的線性關(guān)系,從而簡(jiǎn)化分析過(guò)程,提高系統(tǒng)預(yù)測(cè)和決策能力。現(xiàn)將闖紅燈(rtrl_id)、酒后駕車(chē)(drunk driving_id)、上下班高峰時(shí)間(time_id)、天氣(climate_id)這四個(gè)影響因素作為自變量,利用回歸輸出的連續(xù)變量,用于公路交通管理的預(yù)測(cè)。
為了保證數(shù)據(jù)的一致性、有效性和層次性,要有統(tǒng)一數(shù)據(jù)的來(lái)源,為數(shù)據(jù)挖掘做準(zhǔn)備。采用某市交通綜合信息數(shù)據(jù)倉(cāng)庫(kù),作為公路交通管理預(yù)測(cè)模型的數(shù)據(jù)來(lái)源。利用OLAP技術(shù),將不同的多個(gè)點(diǎn)的 POS 系統(tǒng)數(shù)據(jù)及不同類(lèi)型的數(shù)據(jù),從數(shù)據(jù)庫(kù)系統(tǒng)中抽取、轉(zhuǎn)換并加載到數(shù)據(jù)倉(cāng)庫(kù)。在建立好的數(shù)據(jù)倉(cāng)庫(kù)中,將系統(tǒng)網(wǎng)絡(luò)中記錄著來(lái)自不同地段的交通基本數(shù)據(jù)(交通的基本信息和車(chē)輛的違章細(xì)節(jié))集中在一起,作為源數(shù)據(jù),其數(shù)據(jù)類(lèi)型可為Access、Oracle、SQL Server 及文本文件等。
針對(duì)不同的預(yù)測(cè)影響因子,對(duì)數(shù)據(jù)進(jìn)行最細(xì)粒度的匯總和加工,形成面向多個(gè)層面的新的、詳細(xì)的數(shù)據(jù)和層匯總數(shù)據(jù),在保證系統(tǒng)運(yùn)行穩(wěn)定的前提下,使得預(yù)測(cè)的主題完善、豐富。而在數(shù)據(jù)倉(cāng)庫(kù)中,存儲(chǔ)的是以季度或月為粒度的當(dāng)前基本數(shù)據(jù)和歷史基本數(shù)據(jù),就要對(duì)其按日為粒度作為預(yù)測(cè)數(shù)據(jù)的基礎(chǔ),再用于數(shù)據(jù)挖掘。
數(shù)據(jù)預(yù)處理的方法:在事實(shí)表中的rtrl_id、drunk driving_id、time_id、climate_id,利用 SQL Server 2000 中建立的 DTS 包,將時(shí)間維表與之相關(guān)聯(lián),進(jìn)行轉(zhuǎn)換處理,提取出所需的時(shí)間單位用于預(yù)測(cè)模型的計(jì)算。
3.1多元線性回歸模型。
設(shè)研究對(duì)象受多個(gè)因素x1,x2,x3…,xm(自變量)影響,各影響因素與預(yù)測(cè)目標(biāo)y(因變量)的關(guān)系是線性的,則其多元回歸線性模型為:
yi=β0+β1xi1+β2βi2+…+βmxim+εi(i=1,2,…,n)
(1)
式中:
yi,xim——預(yù)測(cè)目標(biāo)和影響因素的第i組觀測(cè)值;
εi——第i組觀測(cè)值對(duì)yi的隨機(jī)誤差;
β0,β1,…,βm——m+1個(gè)待估計(jì)的回歸參數(shù)。
在多元線性回歸模型中,做如下假設(shè):①y與xj(j=1,2,…,m)之間滿足線性關(guān)系;②xj是確定性變量,且在兩個(gè)自變量或多個(gè)自變量之間存在線性關(guān)系;③隨機(jī)誤差ε服從正態(tài)分布,且ε~N(0,σ2)。
其矩陣形式為:
Y=XB+ε
(2)
式中:
(3)
3.2模型檢驗(yàn)。
為了判斷多元線性回歸模型所反映的各變量之間的關(guān)系形式是否符合客觀實(shí)際,引入的因素是否有效,在將模型用于實(shí)際預(yù)測(cè)前,需對(duì)模型進(jìn)行檢驗(yàn)。常用的檢驗(yàn)方法有R檢驗(yàn)、F檢驗(yàn)和t檢驗(yàn)。
1)R檢驗(yàn):R稱(chēng)為復(fù)相關(guān)系數(shù)或全相關(guān)系數(shù),R的計(jì)算公式為:
(4)
R說(shuō)明x1~xm這一組影響因素與y的相關(guān)程度。利用R進(jìn)行判別時(shí),根據(jù)回歸模型的自由度n-m和給定的顯著性水平α,從相關(guān)系數(shù)臨界值表中查出臨界值Rα(n-m),若R≥Rα(n-m),表明模型的自變量和因變量間線性相關(guān)關(guān)系顯著,檢驗(yàn)通過(guò),模型可用于預(yù)測(cè);若R 2)檢驗(yàn):用來(lái)檢驗(yàn)整個(gè)回歸系數(shù)是否有意義,F(xiàn)的計(jì)算公式是: (5) 式中:m——影響因素的個(gè)數(shù); n——統(tǒng)計(jì)資料的個(gè)數(shù)。 F服從第一自由度為m-1,第二自由度為n-m的F分布,給定顯著水平α,查F分布表得Fα(m-1,n-m),如果F>Fα(m-1,n-m),則認(rèn)為這一組回歸系數(shù)有意義,可以利用所建立的多元線性回歸預(yù)測(cè)模型進(jìn)行預(yù)測(cè);否則認(rèn)為這一組回歸系數(shù)無(wú)意義,所建立的多元回歸模型不成立。 3)t檢驗(yàn):R檢驗(yàn)和F檢驗(yàn)都是將所有的自變量作為一個(gè)整體,來(lái)檢驗(yàn)它們與因變量y的相關(guān)程度以及回歸效果,而t檢驗(yàn)則是用來(lái)對(duì)每個(gè)回歸系數(shù)是否有意義進(jìn)行的檢驗(yàn)。 (6) Cjj—矩陣(X' X)-1主對(duì)角線上的第j個(gè)元素。 若|tj|>tα/2(n-m),說(shuō)明xj對(duì)y有顯著影響,可用于預(yù)測(cè),反之,說(shuō)明xj對(duì)y無(wú)顯著影響,應(yīng)刪除該影響因素,調(diào)整回歸模型。 為了驗(yàn)證四元線性回歸公路交通管理預(yù)測(cè)模型的可行性,選取某市2008—2009年兩年的數(shù)據(jù),按月匯總后的公路管理信息。將2008年數(shù)據(jù)用于建模,2009年數(shù)據(jù)作為模擬數(shù)據(jù),分6組用于評(píng)估預(yù)測(cè)的正確率。利用Matlab7.0編程分析實(shí)現(xiàn)公路管理預(yù)測(cè)模型的數(shù)據(jù)挖掘,分別用 R 檢驗(yàn)、F 檢驗(yàn)和 t 檢驗(yàn)法進(jìn)行模型評(píng)估,結(jié)果表明模型合格。并采用平均絕對(duì)百分比誤差 MAPE 來(lái)評(píng)估預(yù)測(cè)的精確性,預(yù)測(cè)結(jié)果見(jiàn)表1。 (7) 式中:yi——第i期實(shí)際值; fi——第i期預(yù)測(cè)值。 表1 預(yù)測(cè)結(jié)果 一個(gè)評(píng)價(jià)預(yù)測(cè)精度的參考標(biāo)準(zhǔn)認(rèn)為,平均絕對(duì)百分比誤差在 20%~50%之間的為可行預(yù)測(cè),高于50%的為良好預(yù)測(cè)。通過(guò)對(duì)線性回歸預(yù)測(cè)模型的驗(yàn)證,總的平均百分比誤差為42.86%,說(shuō)明此模型用來(lái)進(jìn)行公路交通管理預(yù)測(cè)是可行的。但還存在以下不足: (1)回歸分析方法只是用靜止的觀點(diǎn)描述各變量之間的因果關(guān)系,而沒(méi)有考慮現(xiàn)實(shí)交通活動(dòng)的動(dòng)態(tài)發(fā)展。 (2)交通的需求往往是由許多因素綜合決定的,但不可能對(duì)所有因素進(jìn)行建模,而只能考慮其中的一部分,這就已經(jīng)存在著誤差。 [1]徐國(guó)祥. 統(tǒng)計(jì)預(yù)測(cè)與決策[M]. 上海財(cái)經(jīng)大學(xué)出版社,2001. [2]包翠蓮,開(kāi)小明. MATLAB 語(yǔ)言在多元線性回歸中的應(yīng)用[J]. 安徽教育學(xué)院學(xué)報(bào),2005, (3):23. [3]李海宏. 基于企業(yè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的數(shù)據(jù)挖掘工具的實(shí)現(xiàn)[D]. 四川大學(xué),2003. [4]王艷輝,王卓,賈利民等. 鐵路客運(yùn)量數(shù)據(jù)挖掘預(yù)測(cè)方法及應(yīng)用研究[J]. 鐵道學(xué)報(bào),2004, (5):26 . OnApplicationofDataMiningTechnologyinHighwayTrafficManagementSystem Qin Jia The paper introduced the regression analysis method used in the expectation and decision-making. The model the data being used in decision-making is designed. The testing and checking of the rules and regulations has been made and the data mining model applied to the highway traffic management system has been found out . data mining;forecast and decision;regression analysis ClassNo.:TP311.131DocumentMark:A 孔祥春 鄭英玲) 秦佳,碩士,講師,雞西大學(xué)電氣與信息工程系,黑龍江·雞西。郵政編碼:158100 1672-6758(2010)06-0040-2 TP311.131 A4 模型的評(píng)估與分析