陳文強(qiáng),王雪梅,王 濤,高 超,李 瓊
(1.長安大學(xué) 運(yùn)輸工程學(xué)院,陜西 西安 710064, 2.陜西匯德通市政工程有限公司,陜西 西安 710086)
“慢行交通”也稱非機(jī)動(dòng)化交通,方式主要包括步行、自行車等,其發(fā)展對(duì)于解決城市交通“最后一公里”問題、提高城市公共交通運(yùn)營效率具有重要作用。得益于移動(dòng)互聯(lián)網(wǎng)、移動(dòng)支付等技術(shù)進(jìn)步,無樁共享單車憑借使用方便、操作快捷等優(yōu)勢(shì),受到用戶的推崇,共享單車行業(yè)正進(jìn)入快速發(fā)展期,運(yùn)力過度投放、惡性競爭等問題逐漸暴露,嚴(yán)重影響行業(yè)健康發(fā)展。依據(jù)共享單車市場(chǎng)需求影響因素,制定精細(xì)化管理策略已成為企業(yè)亟需解決的重要問題,這就需要根據(jù)慢行交通方式選擇影響因素,研究慢行交通方式選擇行為。
交通方式選擇行為相關(guān)研究主要?dú)v經(jīng)集計(jì)方法/非集計(jì)方法,到基于活動(dòng)的分析方法,隨著交叉學(xué)科的發(fā)展,考慮心理因素、環(huán)境因素的交叉研究是重要方向[1-3]。近年來,深度學(xué)習(xí)方法在交通方式選擇行為建模方面的應(yīng)用越來越廣泛[4-5],由于可處理數(shù)據(jù)能力更強(qiáng),模型精度比傳統(tǒng)模型表現(xiàn)更好[6]。但對(duì)模型有重要影響的內(nèi)生潛在變量,如態(tài)度、偏好、感知等心理因素,被置于“黑箱”而得不到合理解釋。為提高慢行交通方式選擇模型預(yù)測(cè)精度和獲得有效的政策啟示,本研究將慢行交通方式選擇的影響因素分為個(gè)人信息、態(tài)度與認(rèn)知、建成與自然環(huán)境、出行信息4類,利用Lasso-logistic回歸模型與深度學(xué)習(xí)方法建立慢行交通方式選擇預(yù)測(cè)模型,提高模型精度和明確政策啟示。
論文其余部分的安排如下:第1節(jié)對(duì)相關(guān)文獻(xiàn)進(jìn)行綜述;第2節(jié)介紹本項(xiàng)研究方法和過程;第3節(jié)對(duì)研究結(jié)果進(jìn)行分析和討論;最后,總結(jié)全文并提出展望。
影響居民出行行為因素很多,可分為4類:個(gè)人屬性(B?cker等)[7],建成與自然環(huán)境(Roberts等)[8]、態(tài)度與認(rèn)知(Bolduc等)[9]、出行信息(Chang等)[10]。利用不同方法理論研究出行行為及影響因素之間關(guān)系的成果豐富。WU等[11]通過MNL模型從出行特性、環(huán)境等方面對(duì)北京的共享單車選擇影響因素進(jìn)行分析,發(fā)現(xiàn)出行距離、雨天、高溫和霧霾天氣都會(huì)影響共享單車的使用;Hagenauer等[12]通過對(duì)2010—2012年的荷蘭居民出行數(shù)據(jù)進(jìn)行研究,探討不同變量重要性以及與不同出行模式的關(guān)系,發(fā)現(xiàn)溫度因素對(duì)于自行車出行選擇尤為重要;Bamberg等[13]基于計(jì)劃行為理論研究發(fā)現(xiàn),態(tài)度、行為習(xí)慣會(huì)影響居民出行方式選擇意愿。Tran等[14]通過對(duì)日本名古屋821名受訪者,1 840次出行數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),環(huán)境保護(hù)、體育健身觀念的傳播,對(duì)于居民出行交通方式選擇步行、騎自行車具有十分積極的影響。Jia等[15]研究發(fā)現(xiàn)低碳知識(shí)與低碳習(xí)慣會(huì)直接影響步行、自行車出行的方式選擇。
相關(guān)研究對(duì)慢行交通發(fā)展具有重要的政策啟示,例如,可以通過宣貫環(huán)保、健康知識(shí)來提升城市居民慢行交通比例。但將中國城市慢行交通作為研究樣本的成果不多,中國慢行交通發(fā)展及影響因素具有自己的特點(diǎn),相應(yīng)的政策啟示也有所變化。
交通出行方式選擇行為預(yù)測(cè)是一個(gè)復(fù)雜的系統(tǒng),與影響因素間存在著一定的非線性關(guān)系。深度學(xué)習(xí)具有無可比擬的處理大數(shù)據(jù)能力,能夠從眾多影響因素中獲取內(nèi)在規(guī)律,具備很強(qiáng)的擬合任意非線性關(guān)系的能力。目前,利用深度學(xué)習(xí)方法對(duì)交通出行方式選擇問題相關(guān)研究成果豐富。例如,Cantarella等[16]訓(xùn)練了兩個(gè)具有不同架構(gòu)的人工神經(jīng)網(wǎng)絡(luò)(ANNs)來預(yù)測(cè)人們的出行模式選擇行為,發(fā)現(xiàn)這兩種ANNs都明顯優(yōu)于MNL模型。Celikoglu等[17]研究表明,神經(jīng)網(wǎng)絡(luò)能夠有效地校正出行選擇建模中的效用函數(shù)。Omrani等[18]研究表明ANNs比非集計(jì)模型更準(zhǔn)確。分類樹(CTs)也被應(yīng)用于出行方式選擇分析。例如,Xie等[19]將CTs和ANNs與MNL模型進(jìn)行比較,結(jié)果顯示CTs和ANNs比MNL表現(xiàn)更好。支持向量機(jī)(SVM)也在許多研究中得到了應(yīng)用。例如,Zhang等[20]比較了SVM,ANNS和MNL模型精度,結(jié)果發(fā)現(xiàn)SVM具有更高精度。相比之下,Omrani等[6]在對(duì)通勤者的出行方式選擇行為進(jìn)行建模時(shí)發(fā)現(xiàn)ANNS比SVN和MNL模型更準(zhǔn)確,但缺點(diǎn)也很明顯,神經(jīng)網(wǎng)絡(luò)模型的可解釋性較差。本研究利用深度學(xué)習(xí)方法中的神經(jīng)網(wǎng)絡(luò)對(duì)慢行交通方式選擇行為進(jìn)行建模,以期提高預(yù)測(cè)模型精度。
為了兼顧預(yù)測(cè)模型的可解釋性,提煉出啟示意義,同時(shí)盡量提升模型的預(yù)測(cè)準(zhǔn)確度,本研究將Lasso-logistic回歸模型與人工神經(jīng)網(wǎng)絡(luò)組合建立預(yù)測(cè)模型。Lasso-logistic回歸模型可以得到各特征變量的顯著性和權(quán)重值,從而可以有針對(duì)性地提出管理建議。
(1)因變量
本研究選取中國西安為樣本城市,通過RP(Revealed Preference)調(diào)查獲取西安慢行交通出行選擇行為及影響因素?cái)?shù)據(jù)。論文組10人于2019年6月10日—6月13日開展為期4天的RP線下調(diào)查,主要在大雁塔、小寨商圈人流密集場(chǎng)所,如地鐵站、公交站、商場(chǎng)、景區(qū)等地點(diǎn)通過發(fā)放禮物、現(xiàn)場(chǎng)問答的形式收集數(shù)據(jù)。調(diào)查小組共收集問卷1 130份,去除不完整和明顯錯(cuò)誤問卷,共獲得有效樣本931份,其中步行數(shù)據(jù)419份,自行車數(shù)據(jù)512份。
(2)自變量
①個(gè)人信息
借鑒B?cker等[7]成果,獲取慢行交通出行者個(gè)人信息,包括性別、年齡、教育程度、職業(yè)、私家車擁有、騎行技能、智能手機(jī)使用技能7個(gè)靜態(tài)屬性變量。
②建成與自然環(huán)境
借鑒相關(guān)研究成果,本研究在自變量中加入建成與自然環(huán)境因素,主要包括土地利用密度、區(qū)域人口密度、出行路況、步道可用性、自行車道可用性、自行車可獲得性、自行車性能、天氣、溫度、空氣質(zhì)量等8個(gè)變量。
③態(tài)度與認(rèn)知
Bamberg 等[13]基于計(jì)劃行為理論研究發(fā)現(xiàn),態(tài)度、過去行為、習(xí)慣和理性行為、主觀規(guī)范和感知行為控制會(huì)影響居民出行方式選擇意愿?;诖?,本研究在自變量中加入態(tài)度與認(rèn)知因素,主要包括環(huán)保意識(shí)、健康意識(shí)、儀態(tài)意識(shí)、安全意識(shí)、消費(fèi)觀念、出行習(xí)慣等6個(gè)變量。
④出行信息
借鑒CHANG等[10]的研究,本研究將出行距離、出行目的、出行時(shí)間、出行伙伴、費(fèi)用來源、道路熟悉、隨身攜帶、時(shí)間緊迫性、一次出行費(fèi)用、其他交通方式的可靠性等10個(gè)變量歸類到出行信息類中。
本研究模型中的可解釋變量共33個(gè),包括個(gè)人信息、建成環(huán)境、態(tài)度與認(rèn)知和出行信息變量4大類。表1列出了主要變量及其描述。
表1 慢行交通影響因素
續(xù)表1
續(xù)表1
本研究采用一次移動(dòng)平均值和眾數(shù)解決原始數(shù)列中有缺失值的問題,采用放回重復(fù)抽樣的方式解決正反兩類數(shù)據(jù)不對(duì)稱的問題。
2.2.1 步驟
借鑒文獻(xiàn)[21]試驗(yàn)步驟,本研究設(shè)計(jì)試驗(yàn)步驟如圖1所示。
圖1 試驗(yàn)步驟
(1)通過RP調(diào)查獲取出行數(shù)據(jù)。
(2)數(shù)據(jù)的預(yù)處理。
(3)根據(jù)數(shù)據(jù)處理需求對(duì)所得數(shù)據(jù)進(jìn)行篩選。
(4)Lasso-logistic回歸模型訓(xùn)練,輸出各個(gè)特征變量的權(quán)重值和顯著性指標(biāo),對(duì)自變量進(jìn)一步篩選。
(5)根據(jù)數(shù)據(jù)篩選情況將數(shù)據(jù)分組,分別輸入分類模型,訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)模型,得到預(yù)測(cè)模型。
(6)通過不同分類預(yù)測(cè)模型,從準(zhǔn)確率等指標(biāo)進(jìn)行模型評(píng)估。
2.2.2 Lasso-logistic模型與模型參數(shù)估計(jì)
Lasso-logistic回歸模型可以在求解回歸參數(shù)估計(jì)值時(shí)加入?yún)?shù)的懲罰項(xiàng)以實(shí)現(xiàn)對(duì)變量的選擇和參數(shù)估計(jì)。具體做法是對(duì)RSS最小化的目標(biāo)函數(shù)加入一個(gè)懲罰項(xiàng)L1范數(shù),使得模型由多解變?yōu)楦鼉A向于其中一個(gè)解。
Lasso-logistic回歸模型中的參數(shù)估計(jì)可以表示為:
(1)
2.2.3 人工神經(jīng)網(wǎng)絡(luò)模型
慢行交通方式選擇影響因素與選擇結(jié)果之間是一種非線性的關(guān)系,傳統(tǒng)的線性函數(shù)不能滿足這一映射。神經(jīng)網(wǎng)絡(luò)是一種能夠?qū)τ绊懸蛩睾洼敵鼋Y(jié)果之間的非線性關(guān)系進(jìn)行很好的擬合并完成分類任務(wù)的模型函數(shù)[22]。根據(jù)Buijs等[23]的研究結(jié)論,兼顧訓(xùn)練時(shí)長和模型的準(zhǔn)確度,本研究采用具有3層隱藏層的深度神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型,采用全連接的方式,包括輸入層x、隱藏層y、輸出層z,模型如圖2所示。
圖2 深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)模型
圖2中,每1個(gè)圓環(huán)代表1個(gè)神經(jīng)元節(jié)點(diǎn),在輸入層中,神經(jīng)元節(jié)點(diǎn)數(shù)目xd根據(jù)輸入數(shù)據(jù)的指標(biāo)數(shù)量確定;在輸出層中,神經(jīng)元節(jié)點(diǎn)數(shù)目zc根據(jù)輸出種類數(shù)確定,在隱藏層中,神經(jīng)元節(jié)點(diǎn)數(shù)目yh可以由經(jīng)驗(yàn)公式計(jì)算并多次測(cè)試得出。
本研究中影響慢行交通方式選擇的指標(biāo)有33個(gè),輸出指標(biāo)1,因此輸入層的神經(jīng)元節(jié)點(diǎn)數(shù)目xd為33,輸出層的數(shù)目zc為1。隱含層節(jié)點(diǎn)數(shù)的設(shè)置參考文獻(xiàn)[24],基于式(2)測(cè)試發(fā)現(xiàn)隱含層節(jié)點(diǎn)數(shù)取20時(shí)準(zhǔn)確率最高。
(2)
式中,yh為隱藏層神經(jīng)元節(jié)點(diǎn)數(shù);n為輸入層神經(jīng)元節(jié)點(diǎn)數(shù);l為輸出層神經(jīng)元節(jié)點(diǎn)數(shù)。
經(jīng)過多次試驗(yàn)選取模型參數(shù),選用relu函數(shù)作為隱藏層的激活函數(shù),sigmoid函數(shù)作為本模型輸出層的激活函數(shù),二元交叉熵(Binary Cross-Entropy)作為損失函數(shù),采用小批量梯度下降法(Mini-Batch Gradient Descent, MBGD)完成模型的優(yōu)化,經(jīng)過多輪嘗試,批數(shù)量batch-size定為20,學(xué)習(xí)率設(shè)定為0.01較為合適。采用批次和隨機(jī)訓(xùn)練法選擇訓(xùn)練樣本,每個(gè)批次設(shè)置為100個(gè)樣本,訓(xùn)練的迭代數(shù)為2 000 次,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)比為9∶1。
本研究利用R語言glmnet包來實(shí)現(xiàn)Lasso-logistic回歸,基于調(diào)節(jié)參數(shù)λ和均方誤差來選擇最優(yōu)模型。Lasso-logistic 回歸模型變量選取和模型各變量系數(shù)如圖3和表2所示。
圖3 參數(shù)變量選擇
表2 主要變量參數(shù)系數(shù)
由圖3可以看出,當(dāng)lnλ=-4.1時(shí),均方誤差最小,意味著變量由33個(gè)壓縮到19個(gè)時(shí),模型具備優(yōu)良性能。抽取出對(duì)應(yīng)19個(gè)變量的模型系數(shù)如表2所示。
從表2可以看出,時(shí)間價(jià)值、健康意識(shí)、出行伙伴、出行距離、出行偏好、自行車性能、天氣、自行車專用道、騎行技能等因素與共享單車選擇有正向關(guān)系,其中騎行技術(shù)變量對(duì)慢行交通方式選擇行為影響最大,影響系數(shù)為0.45,其次是自行車專用道建設(shè)(0.15),天氣(0.11)等;影響居民選擇步行的因素主要有性別、空氣質(zhì)量、交通狀況、道路熟悉程度、儀表態(tài)度、自行車可獲得性、是否有行李等;安全意識(shí)、環(huán)保意識(shí)等態(tài)度與認(rèn)知變量對(duì)慢行交通方式選擇行為影響較弱。
利用python編程語言,通過TensorFlow框架的keras集成庫完成模型的構(gòu)建,使用準(zhǔn)確率(Accuracy)和loss值指標(biāo)評(píng)估模型準(zhǔn)確率[25]。為了對(duì)比分析不同模型和不同數(shù)據(jù)集在預(yù)測(cè)準(zhǔn)確度上的效果,本研究將未經(jīng) Lasso-logistic回歸模型篩選的變量集和篩選后的變量集分別輸入到本研究構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)(Support Vector Machine,SVM)分類模型中。
其中,利用本研究構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型對(duì)931份未經(jīng) Lasso-logistic回歸模型篩選的變量集做訓(xùn)練和測(cè)試后,在迭代次數(shù)2 000次后,得到圖4所示的結(jié)果。
圖4 迭代2 000次的模型訓(xùn)練和測(cè)試結(jié)果
從“epoch-loss”圖可以很明顯地看出,迭代次數(shù)在250~500次時(shí),模型有最好的表現(xiàn),準(zhǔn)確率在80%以上。修改迭代次數(shù)至360次,模型在測(cè)試集上的預(yù)測(cè)準(zhǔn)確率達(dá)到了81.48%。同理,輸入Lasso-logistic回歸模型篩選的變量集,預(yù)測(cè)準(zhǔn)確率為85.65%。
將不同數(shù)據(jù)集輸入不同類型SVM模型中,樣本數(shù)據(jù)亂序情況與之前保持一致,測(cè)試結(jié)果如表3所示。
表3 支持向量機(jī)分類測(cè)試結(jié)果
表3中,表示3種不同支持向量機(jī)分類器對(duì)數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率,結(jié)果顯示經(jīng)Lasso-logistic回歸模型篩選的變量集輸入到LinearSVC的表現(xiàn)性能最好,有73.67%的準(zhǔn)確率。
對(duì)比神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)分類模型預(yù)測(cè)結(jié)果發(fā)現(xiàn),經(jīng)Lasso-logistic回歸模型對(duì)冗余變量進(jìn)行篩選后,模型的準(zhǔn)確性得到明顯提升。對(duì)于同一組數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)在與支持向量機(jī)分類器的對(duì)比中表現(xiàn)更加突出(見表4),具有較強(qiáng)的預(yù)測(cè)能力和泛化能力。
表4 不同模型的預(yù)測(cè)準(zhǔn)確率
本研究設(shè)計(jì)了影響慢行交通方式選擇的“個(gè)人信息、建成和自然環(huán)境、態(tài)度和認(rèn)知、出行信息”4個(gè)方面共33項(xiàng)因素指標(biāo),利用Lasso-logistic回歸模型,篩選出顯著性指標(biāo),將未篩選的自變量和篩選出的自變量分別輸入到深度學(xué)習(xí)分類模型中,訓(xùn)練構(gòu)建的3層神經(jīng)網(wǎng)絡(luò)模型和不同類型支持向量機(jī)模型,得到預(yù)測(cè)分類器,并從準(zhǔn)確率等指標(biāo)對(duì)分類器進(jìn)行評(píng)估。研究發(fā)現(xiàn),時(shí)間價(jià)值、出行距離、天氣、自行車專用道、騎行技能等是影響共享單車選擇的顯著性因素;空氣質(zhì)量、交通狀況、道路熟悉程度、儀表態(tài)度等是影響步行的顯著性指標(biāo);而安全意識(shí)、環(huán)保意識(shí)等態(tài)度與認(rèn)知變量對(duì)慢行交通方式選擇影響較弱。經(jīng)Lasso-logistic回歸模型對(duì)冗余變量進(jìn)行篩選后的數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確性得到明顯提升,預(yù)測(cè)精度由81.48%提高到85.65%。對(duì)于慢行交通選擇影響因素同一組數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)分類器的對(duì)比中表現(xiàn)更加突出。研究成果為改善慢行交通出行環(huán)境提供方向指導(dǎo),為共享單車企業(yè)和政府管理部門應(yīng)對(duì)慢行交通道路-環(huán)境因素的變化制定相應(yīng)策略提供參考。
慢行交通承擔(dān)著解決城市交通“最后一公里”功能,其發(fā)展對(duì)于提高整個(gè)城市交通運(yùn)行效率具有重要作用;慢行交通也是重要的綠色交通方式,對(duì)于提高城市空氣質(zhì)量、節(jié)能減排具有意義。慢行交通中的步行、自行車等方式適用范圍和影響因素有所不同,明確適用范圍和影響因素,有利于規(guī)劃建設(shè)促進(jìn)各自發(fā)展的建成環(huán)境,有利于營造引導(dǎo)綠色出行的政策環(huán)境。
研究結(jié)果顯示,正向影響居民選擇自行車出行的顯著性指標(biāo)按照影響程度由小至大順序分別為時(shí)間緊迫性、健康意識(shí)、是否結(jié)伴、出行距離、出行習(xí)慣、自行車性能、天氣、自行車專用道、騎行技能等。除去出行距離、是否結(jié)伴等出行信息及天氣等自然因素?zé)o法控制或改變外,其他因素可以通過干預(yù)加以改變。對(duì)于無法控制或改變的影響因素,供給方可以采取優(yōu)化資源、產(chǎn)品創(chuàng)新等增加乘客選擇自行車概率;對(duì)于可以改變或控制的影響因素,供給方盡量通過干預(yù)手段增加因素的正向影響來擴(kuò)大方式選擇的概率。例如,出行距離是影響居民自行車方式選擇的重要因素,在一定范圍內(nèi),出行距離越遠(yuǎn),選擇自行車出行的概率越大,企業(yè)可以在距離公共交通站點(diǎn)較遠(yuǎn)的需求發(fā)生點(diǎn)多投放共享單車,有效滿足乘客的需要;天氣也是影響自行車選擇的重要因素,下雨天選擇騎行的居民較少,共享單車企業(yè)可以提供雨披等防雨工具來提高自行車選擇概率;騎行技能是影響居民選擇自行車出行與否的最重要因素,也是可以改變的影響因素,如果共享單車企業(yè)能夠采取措施,讓更多居民掌握騎行技能或者提高騎行技能,從根本上提高自行車出行人群基數(shù),相關(guān)企業(yè)可以從中受益。
研究結(jié)果還顯示,安全意識(shí)、環(huán)保意識(shí)等態(tài)度與認(rèn)知變量對(duì)慢行交通方式選擇行為影響較弱。這可能與樣本中人口統(tǒng)計(jì)特征有關(guān),統(tǒng)計(jì)樣本中,45歲以下人群占到60%以上,這部分群體年富力強(qiáng),自信能夠駕馭慢行交通方式,更多關(guān)注慢行交通的功能性指標(biāo),而非安全性指標(biāo);而且,慢行交通中的步行、自行車都具有低碳環(huán)保特點(diǎn)。因此,想通過宣傳強(qiáng)調(diào)共享單車的安全性、環(huán)保性引導(dǎo)乘客選擇共享單車出行作用不大。
深度學(xué)習(xí)技術(shù)特點(diǎn)決定了要想獲得良好的分類效果,需要大數(shù)據(jù)支撐。本研究只獲取了931條數(shù)據(jù),數(shù)據(jù)量級(jí)方面對(duì)模型預(yù)測(cè)精度可能產(chǎn)生制約,因此未來研究可調(diào)查獲取更多、覆蓋面更廣的數(shù)據(jù),充分提高模型的預(yù)測(cè)精準(zhǔn)率。本研究只選擇了“個(gè)人信息、建成與環(huán)境、態(tài)度與認(rèn)知、出行信息”4類33個(gè)指標(biāo),在未來研究中,可以加入心理、出行習(xí)慣等因素,這樣數(shù)據(jù)面更廣,模型準(zhǔn)確性可能更高、適用性更好。