李綱,馬雙,郭姝娟,左忠義
(1.大連交通大學 交通運輸工程學院,遼寧 大連 116028; 2.大連海事大學 交通運輸管理學院,遼寧 大連 116026)*
?
基于決策樹的居民出行模式分析
李綱1,馬雙1,郭姝娟2,左忠義1
(1.大連交通大學 交通運輸工程學院,遼寧 大連 116028; 2.大連海事大學 交通運輸管理學院,遼寧 大連 116026)*
以印度尼西亞首都雅加達都市圈的居民出行調查數(shù)據(jù)為例,從兩方面進行研究:一是研究居民對輔助公共交通的使用情況,二是研究居民對出行模式選擇的問題,并對兩個子問題分別建立了兩個決策樹模型.研究結果確定了兩個模型的重要影響因素,并進一步探討了決策樹各節(jié)點劃分的規(guī)律,即揭示了上述各種影響因素的作用規(guī)律.
出行模式;決策樹;Exhaustive CHAID;輔助公共交通;雅加達都市圈
隨著社會經(jīng)濟的發(fā)展,城市化進程的加快,機動車保有量持續(xù)地增加,同時由于土地資源的有限性,交通擁堵問題變得日益嚴重.促進城市交通結構的合理改變,是滿足居民出行需求的同時改善城市交通狀況的主要手段之一.而出行模式的研究,作為系統(tǒng)性研究交通供需平衡的一部分,是當前交通理論研究的重點問題之一.
出行模式的早期研究采用集計的方法,其主要優(yōu)點是操作相對簡單,但是模型的建立缺少明確的行為假說,缺少嚴密的統(tǒng)計方法.20世紀70年代以來,以McFadden為代表的學者引用經(jīng)濟學中的效用理論,以概率論為基礎,將非集計模型推入實用階段[1].Mitchell和Rapkin建立了活動分析法,Peter Jones將此方法建立模型進行首次實證檢驗[2].決策樹算法是數(shù)據(jù)挖掘中一種主要的數(shù)據(jù)分類方法,它可以從一組無規(guī)則、無次序的樣本中推理出影響因素的分類規(guī)則[3].交通領域中,決策樹的算法正被逐漸地使用.Zhang et al建立了一個包含決策樹技術,集計logit模型和結構方程模型的混合模型[4].國內利用決策樹對居民出行進行了一定的研究.李庭洋等利用決策樹中CART算法構建交通方式選擇模型[5].王鳳英和黃章樹運用決策樹方法對居民出行數(shù)據(jù)進行了分類規(guī)則挖掘[6].李穎等以南京市居民出行調查數(shù)據(jù)為樣本實例,對個人屬性與出行方式進行了相關性研究[7].
本文以實際大樣本的個人出行調查數(shù)據(jù)為例,采用遍歷卡方自動交互檢驗的算法(Exhaustive Chi-squared Automatic Interaction Detector,簡稱,Exhaustive CHAID)探索影響交通模式的影響因素以及其作用規(guī)律,以期從數(shù)據(jù)挖掘角度理解居民出行的交通模式選擇行為.此方法的運用及成果可為政府今后制定合理的交通政策提供理論依據(jù).
決策樹是一個類似于樹結構的分析預測模型.根據(jù)樹的不同層次,可以把樹結構分為根結點(也稱父結點)、分支結點以及葉子結點.從決策樹的根結點到葉子結點的一條路徑就對應著一條預測規(guī)則,完整的一棵樹就對應著所有預測規(guī)則.在每個結點選擇分類效果最好的決策屬性對樣本集進行劃分,直至這棵樹能準確地將樣本集分類[8].
CHAID算法是構建決策樹的一種方法,是一種利用χ2統(tǒng)計量來識別最優(yōu)分裂屬性的分類算法.其將樣本集按所有自變量分別分類,形成多個二維交叉分類表.比較這些分類表的χ2統(tǒng)計量或最大似然估計值的大小,選取統(tǒng)計值最大的分類變量作為第一個分類變量;對已分好的最優(yōu)二維表繼續(xù)根據(jù)其余屬性(自變量)對樣本進行分類,即可得到多維交互表,從而生成決策樹[9].
(1)
(2)
其中:fij為實際分布概率,fij=Yij/n,Yij為第i類X第j類Y的分布頻數(shù),n為總樣本數(shù).Fij為與fij對應的理論分布頻數(shù)的估計值;Fij=(Yi./n)×(Y.j/n),Yi.為二維交叉分類表中第i行元素求和,Y.j為二維交叉分類表中第j列元素求和.
1991年Biggs等人提出了CHAID的改進算法——Exhaustive CHAID算法.Exhaustive CHAID在檢測交互過程中對變量類別一直合并至只剩兩個,最后比較這一系列的合并找出最強關聯(lián),選擇最佳拆分點[10].本文通過SPSS軟件實現(xiàn)這種算法.
本文所用數(shù)據(jù)是由日本國際協(xié)力機構(JICA)在印度尼西亞首都雅加達都市圈采集的個人出行調查數(shù)據(jù).樣本率為3%,共調查了100 864個家庭,共1 082 979次出行.調查方式為上門入戶調查.調查內容主要涉及家庭信息、個人信息和出行信息三方面內容.本次研究在上述樣本的基礎上隨機抽取50 000條數(shù)據(jù)作為分析樣本.經(jīng)數(shù)據(jù)整理,去掉含有部分缺失值的數(shù)據(jù),最終可利用46 592條數(shù)據(jù).
樣本中涉及到的輔助公共交通作為發(fā)展中國家極具特色的交通方式在雅加達也廣泛存在,其主要形式有四種:人力三輪車(Becak),摩托出租車(Ojek),動力三輪車(Bajaj)和小型公交車(Minbus).這些交通方式?jīng)]有固定線路(小公共汽車除外),隨叫隨停,起到了填補公共交通方式服務的缺失,為人們提供廉價的交通服務,提高居民出行的可達性.
3.1是否選擇輔助公共交通的模型分析
該決策樹模型是以是否選擇輔助公共交通作為因變量.在一次出行目的中,所用的所有出行方式只要有一種是輔助公共交通方式,就認為此次出行使用了輔助公共交通.該模型的具體設置如表1所示.
表1 是否選擇輔助公共交通的模型設置表
通過Exhaustive CHAID算法測算,在輸入的所有自變量中,出行時間、性別、年齡、家庭收入和交通費用占比對是否選擇輔助公共交通起主要作用.風險值和標準誤差反映模型的預測精度.風險值的計算方法是不正確分類的個案占總個案的比例.該模型風險值即預測錯誤的概率為29.3%,標準誤差為0.002,表明該模型有比較好的預測精度.
具體決策樹的結果由圖1表示.出行時間位于最高父節(jié)點,是“是否選擇輔助公共交通”模型的最大影響因素.由出行時間的統(tǒng)計分段可以看到,1 h之內的出行時間,對是否選擇輔助公共交通工具最為敏感.超過1 h的交通出行則統(tǒng)一合并為一組,其選擇輔助公共交通的比例大約為50%.在出行時間范圍內,隨著出行時間的增大,選擇使用輔助公共交通的比例隨之增加.
在出行時間第一層的影響下,性別和年齡對出行者是否選擇輔助公共交通產生進一步的影響.對于性別來說,節(jié)點1、2、4、8,是按性別進一步細分的.總結得出的規(guī)律是:女性選擇輔助公共交通的比例要高于男性.女性對交通舒適度的要求明顯高于男性,這就使得對于一部分步行者來說,輔助公共交通作為替步工具是首選方式.對于年齡來說,節(jié)點3、5、7,是按年齡進一步細分的.總結得出的規(guī)律是:年齡在12~21歲左右的出行者,選擇輔助公共交通的比例要高于其他年齡段的人群.
在第二層的基礎上,模型的第三層繼續(xù)細分.節(jié)點11(出行時間7~10 min,男性出行)下的節(jié)點26、27,按照交通費用占總支出的比例來分類,比例越大,使用輔助公共交通的概率越大.交通費用占比小于10%的,使用比例為7.9%,而大于10%的,為10.7%,可以看出兩者比例差別不大,說明交通費用占比對是否使用輔助公共交通影響不大.節(jié)點12(出行時間7~10 min,女性出行)下的28、29,按家庭收入分類,收入越高,越會選擇輔助公共交通.但是節(jié)點21與其不同.雖然也是按家庭收入分類,但是收入高反而使用的少.節(jié)點21代表出行時間在20~30 min,年齡大于30歲的個案.這表明在這兩個條件下,收入高的人群會選擇私人交通或其它公共交通多一些,而輔助公共交通工具因為有很多劣勢所以選擇的人不多.
圖1 是否選擇輔助公共交通的決策樹模型
3.2影響出行模式選擇的決策樹模型分析
在一次出行目的中,所用的所有出行方式中,頻率使用最高的幾種出行方式的組合作為出行模式的分析單元.將各種出行模式重新分類,使用頻率最高的9種出行模式列表如表2,占有效出行數(shù)據(jù)的93.9%.
表2 主要出行模式
考慮到步行(Walk)所占的數(shù)據(jù)比例較大為41.7%,不利于分析機動化的交通出行模式,因此分析中去掉步行方式.該模型的具體設置如表3:
表3 影響出行模式選擇的模型設置表
Exhaustive CHAID算法測算顯示,在輸入的所有自變量中,小汽車擁有量、出行時間、年齡、性別和職業(yè)對出行模式的選擇起主要作用.該模型風險值為50.9%,標準誤差為0.003.
該決策樹的模型結構由圖2所示,小汽車擁有量對于出行模式的選擇起到至關重要的作用.當家庭沒有小汽車(節(jié)點1)的時候,出行者基本使用非小汽車出行方式,部分或全部使用輔助公共交通可以達到55.5%以上.而在家庭有一輛小汽車的情況下(節(jié)點2),小汽車使用比例達到40.8%,家庭有一輛小汽車以上的情況下(節(jié)點3),小汽車的使用比例達到69.8%.
圖2 影響出行模式選擇的決策樹模型
在第一層的基礎上,第二層按出行時間和年齡分類.節(jié)點1(汽車擁有量為0)以下的7個節(jié)點,節(jié)點編號從4~10,是按照“出行時間”來劃分的.當出行時間非常少,小于10min時,選擇摩托車(motorcycle)的比例最大,達50.2%.隨著出行時間的增大,選擇使用小型公交車的比例逐漸增大,在20~30 min出行時間區(qū)間達到最大值(50.6%),大于其它交通方式.隨著出行時間的進一步增加,亦即出行距離增長,小型公交車的出行費用不再劃算,所占比例減少.而小型公交車和公交車的組合以及公交車本身者兩種出行模式隨出行時間的增長,利用的比例越來越高,在89min以上這個區(qū)間,小型公交車(minibus)與公交車的組合出行模式是最多的選擇.通過此決策樹從中可以看出各種交通模式在雅加達的實際應用范圍.
在第二層的基礎上,性別和職業(yè)是第三層的分類變量.就性別來說,節(jié)點4、9、10、13按性別細分,總結這些節(jié)點的規(guī)律,發(fā)現(xiàn)男性選擇摩托車(motorcycle)的比例最高,反映出男性更注重速度和時效.而女性選擇小型公共汽車(minibus)的比例更高,反映出女性注重可達性的同時更在意安全.節(jié)點5、6、7、8按職業(yè)細分,這些節(jié)點共同的規(guī)律是,工人使用摩托車和小型公交車的比例較高,而像學生,家庭主婦,退休者等,選擇使用小型公共汽車的比例更高,從中體現(xiàn)出出行者的個人出行偏好.
基于決策樹理論的出行模式研究是一種分析居民出行行為及影響因素的新途徑.本文利用Exhaustive CHAID算法,建立決策樹模型,以雅加達居民出行調查為例,研究個人出行行為中輔助公共交通方式的選擇以及出行模式的選擇的問題.研究結果表明出行時間、性別、年齡、家庭收入和交通費用占比對是否選擇輔助公共交通起主要作用.小汽車擁有量、出行時間、年齡、性別和職業(yè)對出行模式的選擇起主要作用.更為重要的是,這種方法以及所總結出的影響因素的作用規(guī)律可為城市交通結構的改善以及交通政策的制定提供一定的借鑒.
[1]陸化普.交通規(guī)劃理論與方法[M].北京:清華大學出版社,2006.
[3]張睿.ID3決策樹算法分析與改進[D].蘭州:蘭州大學,2010.
[4]JUNYI ZHANG,AKIMASA FUJIWARA,MAKOTO CHIKARAISHI.Comparative analysis of travel patterns in the developing cities based on a hybrid model[J].Journal of the Eastern Asia Society for Transportation Studies,2005(6):333- 4348.
[5]李庭洋,欒新,彭正洪.決策樹學習算法在交通方式選擇模型中的應用[J].武漢大學學報,2013,46(3):354- 358.
[6]王鳳英,黃章樹.基于決策樹技術的福州市居民出行特征分析[J].重慶工商大學學報,2007,24(3):264- 268.
[7]李穎,相麗瑾,荀玲玉.數(shù)據(jù)挖掘在居民出行調查數(shù)據(jù)分析中的應用[J].交通科技,2016,24(1):164- 167.
[8]潘永麗.決策樹分類算法的改進及其應用研究[D].昆明:云南財經(jīng)大學,2011.
[9]宋春華.天津市參保精神分裂癥患者住院費用分析[D].天津:天津醫(yī)科大學,2012.
[10]狄曉敏,謝紅薇.多疾病共同危險因素挖掘與MARS預測模型研究[J].計算機應用與軟件,2013,30(10):36- 40.
Analysis of Travel Patterns based on Decision Tree Models
LI Gang1,MA Shuang1,GUO Shujuan2,ZUO Zhongyi1
(1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,China; 2.College of Transportation Management,Dalian Maritime University,Dalian 116026,China)
To promote reasonable change of urban transportation structure,two aspects are focused by employing personal trip data in Jabodetabek metropolitan area, Indonesia.One is studying the usage of the paratransit,and the other is studying citizen travel patterns.Further,two decision tree models are built based on the above-mentioned aspects.The research results indicate the most significant factors to the two models,and explore the rules of the split value of decision tree nodes,i.e.,uncovering the rules of the above-mentioned influencing factors.
travel pattern; decision tree; exhaustive CHAID; paratransit; Jabodetabek metropolitan area
1673- 9590(2016)05- 0078- 05
2016- 07- 11
國家自然科學基金青年科學基金資助項目(71302085);浙江省自然科學基金青年科學基金資助項目(LQ13G010011);中央高?;究蒲袠I(yè)務費專項資金資助項目(3132016213)
李綱(1982- ),男,講師,博士,主要從事交通規(guī)劃方面的研究
E-mail:LIGangPE2012@hotmail.com.
A