摘要:為了更好地解決學(xué)生上學(xué)安全問題,對安全程度、出行成本、家校距離、家庭位置等多因素共同作用下的上學(xué)出行方式選擇行為進(jìn)行了研究。建立了神經(jīng)網(wǎng)絡(luò)模型和多項(xiàng)式 Logit 模型,結(jié)果顯示神經(jīng)網(wǎng)絡(luò)模型可以更好地預(yù)測人們在學(xué)校旅行中的選擇,但是多項(xiàng)式 Logit 模型更能體現(xiàn)影響因素與結(jié)果的關(guān)系。因此在制定更加合理的交通發(fā)展戰(zhàn)略時(shí)應(yīng)參考多項(xiàng)式 Logit 模型。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)模型(ANN);多項(xiàng)式Logit模型(MNL);交通出行方式預(yù)測
一、簡介
本文研究目標(biāo)是為學(xué)生的上學(xué)出行方式選擇開發(fā)一個(gè)模型。由于出行方式受到各種因素的影響,本文根據(jù)參與者的個(gè)人和家庭屬性以及位置因素設(shè)置了幾個(gè)自變量。研究的主要解決方案是使用神經(jīng)網(wǎng)絡(luò)模型(ANN)和多項(xiàng)式 Logit 模型(MNL)來測試人們的出行方式選擇與其屬性之間的相關(guān)性。根據(jù)結(jié)果,此次研究將能夠在做出選擇時(shí)預(yù)測趨勢,并提出改進(jìn)想法以優(yōu)化整體交通系統(tǒng)。通常,大多數(shù)學(xué)生的上學(xué)是乘坐校車或汽車。由于學(xué)生中擁有駕照的比例仍然不高,此次研究還會(huì)考慮到測試者的家庭情況屬性,因?yàn)楦改缚赡軙?huì)在上班途中接送孩子。可能影響出行方式的因素里也包括一些極端天氣,例如暴風(fēng)雨或暴風(fēng)雪,所有考慮因素對于我們?yōu)槟J竭x擇模型選擇原始自變量都變得至關(guān)重要。本研究以 NHTS 2017 數(shù)據(jù)為基礎(chǔ),參照 NHTS 碼本對數(shù)據(jù)集進(jìn)行過濾,形成樣本數(shù)據(jù)庫。研究的重點(diǎn)是威斯康星州產(chǎn)生的以學(xué)校為目的地的旅行。
二、文獻(xiàn)綜述
一般將各種影響學(xué)生出行模式選擇的影響因素分為六組:物理環(huán)境和城市形態(tài)因素(例如:人口密度和土地利用)、特定模式因素(例如 :可達(dá)性和便利性)、出行者的個(gè)人屬性(例如:性別和年齡)、出行特征(例如:出行目的和出行距離)、出行需求管理的存在(例如:停車費(fèi)用)和心理因素(例如:習(xí)慣和態(tài)度)。不同的研究側(cè)重于不同的群體。
大多數(shù)研究都使用了MNL、NL、混合Logit模型。 一開始研究者們建立了二元 Logit 模型來分析影響學(xué)生選擇自行車和步行上學(xué)的因素。 學(xué)生的出行模式選擇是由情境因素和心理因素共同決定的,這兩個(gè)因素的分類更籠統(tǒng)。充分了解學(xué)生的出行模式選擇和促成因素可以幫助政府和學(xué)校制定和改進(jìn)政策和基礎(chǔ)設(shè)施,以幫助學(xué)生安全有效地通勤。
三、數(shù)據(jù)集
本研究使用的數(shù)據(jù)集是 NHTS(全國家庭出行調(diào)查)2017。通常,NHTS 數(shù)據(jù)集是最適合交通選擇建模的來源之一。 所有數(shù)據(jù)均收集了 24 小時(shí)內(nèi)的每日出行數(shù)據(jù),包括各種出行和出行者的屬性,例如出行目的、方式和出行時(shí)間,收集了全州所有出行、所有模式和所有目的的數(shù)據(jù)。數(shù)據(jù)集包括各種類型的數(shù)據(jù),如家庭數(shù)據(jù)、經(jīng)濟(jì)狀況、住房特征和其他人口統(tǒng)計(jì)信息等。雖然它不包括出行費(fèi)用或具體出行路線的信息,但此次研究創(chuàng)建了時(shí)間成本列作為模型開發(fā)需要。
四、數(shù)據(jù)處理
為了定位項(xiàng)目區(qū)域,此次研究過濾了威斯康星州的個(gè)人出行。但在瀏覽了代表上學(xué)出行模式的SCHTRN1一欄后,此次研究注意到只有一小部分參與者有正確的答案。大多數(shù)參與者在調(diào)查中選擇了“適當(dāng)跳過”,未加權(quán)百分比約為 90%。因此,刪除SCHTRN1列中帶有否定代碼的數(shù)據(jù),這4個(gè)無意義的選擇是:“適當(dāng)跳過”、“我不想回答”、“我不知道”和“未確定”。
威斯康辛州的數(shù)據(jù)集的原始大小約為 2800 個(gè)觀測值,但經(jīng)過第一步數(shù)據(jù)清理后,它變成了大約 300 個(gè)觀測值。
在密碼本列出的所有模式中發(fā)現(xiàn),2017 年的數(shù)據(jù)中從未出現(xiàn)過休閑車(房車、ATV、雪地摩托)和輔助客運(yùn)系統(tǒng)等幾種替代方案。更重要的是,幾種選擇是少數(shù),只有個(gè)位數(shù)的觀察。步行、汽車和校車是三種主要的選擇。因此,此次研究決定將這些模式分為 3 種新的不同類型:私家車、公共交通和非機(jī)動(dòng)車。
對于 Logit 模型,此次研究還需要對將數(shù)據(jù)集傳輸?shù)?Limdep 進(jìn)行一些調(diào)整。由于某些變量是選擇變量,例如 R_RACE 是受訪者的種族。 01 到 97 的值分別代表白人、黑人、亞洲人等。對于離散模型,尤其是多項(xiàng)式 Logit 建模,此次研究需要將這些變量轉(zhuǎn)換為只有 2 個(gè)值的二元變量:0 表示負(fù)數(shù),1 表示正數(shù)。因此,原始變量中的每個(gè)選擇都將其單獨(dú)的列作為新的二元自變量。
此外,由于模式選擇是模型的因變量,因此還需要進(jìn)行一些調(diào)整。 此次研究開發(fā)了 3 個(gè)新列,即 Activity、Nij 和 Altij。 Activity 顯示是否選擇了這種方法,Nij 表示受訪者能夠選擇的備選方案的數(shù)量,Altij 是每個(gè)受訪者從 1 到 3 的備選方案代碼,也就是上面提到的三個(gè)維度。 因此,每個(gè)單獨(dú)的觀察將有 3 行具有相同的旅行者屬性和不同的模式選擇。
五、方法論
(一)MNL 模型
本文考慮了兩種方法來開發(fā)本研究的預(yù)測模型。多項(xiàng)式Logit模型是一種特殊的離散選擇建模,它可以為不同的模式提出效用函數(shù)。 基本公式如下所示:一個(gè)明確的學(xué)校模式選擇多項(xiàng)式模型將采用以下形式:
其中Pk是學(xué)校旅行選擇模式k的概率,Uk是模式k的效用函數(shù),定義如下:
其中∝k= 常數(shù)向量;
和β = 以模式 k 從 i 到 j 的出行的行程特征和相應(yīng)的參數(shù)向量,包括出行時(shí)間;
SEm和 γ= 來自家庭m的學(xué)生的社會(huì)經(jīng)濟(jì)特征和相應(yīng)的參數(shù)向量,諸如收入和汽車擁有量等特征;
SCn和θ= 學(xué)校特征,例如入學(xué)率和學(xué)校 n 的相應(yīng)參數(shù)向量;
BE i和δ = 原點(diǎn) i 的建成環(huán)境特征和相應(yīng)的參數(shù)向量,其中 i 是社區(qū)、人口普查區(qū)、交通分析區(qū) (TAZ) 或其他小區(qū)域(向量可能包括密度、土地利用組合、步行質(zhì)量的測量和網(wǎng)站設(shè)計(jì));
BE j和 ω= 目的地 j 的構(gòu)建環(huán)境特征和相應(yīng)的參數(shù)向量;
k= 特定于模式 k的極值誤差向量。
輸入數(shù)據(jù)后可以得到一個(gè) Logit 模型,該模型將概率分配給來自家庭 m 的學(xué)生,在起點(diǎn) i 和目的地 j 之間旅行,選擇模式 k 去學(xué)校 n 的旅行。 MNL 模型將捕獲大多數(shù)影響為相關(guān)學(xué)校旅行選擇模式的效用或收益的變量。
(二)人工神經(jīng)網(wǎng)絡(luò)模型(ANN)
人工神經(jīng)網(wǎng)絡(luò)是一種受生物學(xué)啟發(fā)的計(jì)算模型,由數(shù)百個(gè)單個(gè)單元人工神經(jīng)元組成,這些單元與構(gòu)成神經(jīng)結(jié)構(gòu)的系數(shù)(權(quán)重)相連。該網(wǎng)絡(luò)最近被廣泛用于大數(shù)據(jù)處理。它可以在處理數(shù)據(jù)時(shí)提供高精度的分類功能。
對于這項(xiàng)研究,為了獲得更準(zhǔn)確的模型,使用了 ANN 方法。首先,15% 的數(shù)據(jù)集作為測試數(shù)據(jù)來測試我們得到的最終模型。然后使用數(shù)據(jù)集的其余部分作為程序的訓(xùn)練數(shù)據(jù)。最重要的一步是開發(fā)整個(gè)網(wǎng)絡(luò)。MSE(均方誤差)在網(wǎng)絡(luò)中用作成本函數(shù),旨在為網(wǎng)絡(luò)找到最佳輸出的成本函數(shù)。用于接近成本函數(shù)優(yōu)化值的方法是梯度下降。通過這種方式,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率正在逐層替換。因此,在論文中構(gòu)建了一個(gè)三層神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層和輸出層。
六、結(jié)果
有一半以上的學(xué)生乘私家車上學(xué)(54.26%),也有很多學(xué)生乘坐公交(38.8%)。只有少數(shù)學(xué)生步行或騎自行車上學(xué)(6.94%)。與此同時(shí),此次研究將這種分布與所有旅行的分布進(jìn)行了比較。發(fā)現(xiàn)這兩種分布非常不同,其主要原因是有很多學(xué)生選擇校車上下學(xué)。
(一)MNL 模型
對于 MNL 模型,三個(gè)效用函數(shù)的結(jié)果如下:
U(私家車)= A_car +B1*TIMECOST+C1*URBRUR_1+D1*WALK4EX
U(非機(jī)動(dòng)車)= A_nmotor +B2*MSACAT_3 +C2*WALK4EX
U(公交)= B3*TIMECOST+C3*WORKER_Y+D3*HHVEHCNT
在該模型中,該模型的卡方滿足標(biāo)準(zhǔn)值,這意味著這三個(gè)效用函數(shù)的置信度為 95%。
每個(gè)變量的系數(shù)如下:
許多其他論文和研究證明大量的時(shí)間成本促使人們出行方式選擇汽車,降低了選擇公共交通的可能。對于有工作和私家車多的家庭一般不會(huì)選擇公共交通,這些人更有可能使用汽車。還有兩個(gè)變量在其他論文中不常見。 WALK4EX 代表“因?yàn)殄憻挾x擇步行”,它對使用汽車有積極影響,而對步行或騎自行車有負(fù)面影響。此次研究認(rèn)為,如果一個(gè)人喜歡將步行視為運(yùn)動(dòng),他可能不喜歡將步行視為通勤方式。對于變量 MSACAT(居住地區(qū)),此次研究認(rèn)為,如果學(xué)生生活在人口較少的地區(qū)而且他們的學(xué)校就在附近,他們可以輕松步行上學(xué)。因此,這種情況促成非運(yùn)動(dòng)的概率更大。
(二)人工神經(jīng)網(wǎng)絡(luò)
在該網(wǎng)絡(luò)中,首先設(shè)置了網(wǎng)絡(luò)中的第一層,該網(wǎng)絡(luò)具有 31 個(gè)神經(jīng)元,用于每個(gè)人的 31 個(gè)特征。然后在隱藏層中,5 個(gè)神經(jīng)元工作足以獲得優(yōu)化值。此外,輸出層是一個(gè)三行矩陣,表示人們的模式選擇。在這個(gè)過程中,模型將步長設(shè)置為 0.01,以獲得更多具有相同錯(cuò)誤分類的迭代。
在陷入局部最優(yōu)解的情況下,該模型使用隨機(jī)梯度下降。 此外,成本函數(shù)是 MSE(均方誤差),旨在獲得輸出和目標(biāo)之間的最小二乘差。
結(jié)果如圖1所示。在 10 次迭代之前,錯(cuò)誤分類的數(shù)量迅速下降;并且經(jīng)過 20 次迭代,誤分類數(shù)出現(xiàn)振蕩,最終降為零。振蕩的原因是步長太大,不能有效地達(dá)到優(yōu)化值。
圖1? ? 人工神經(jīng)網(wǎng)絡(luò)模型圖
根據(jù)人工神經(jīng)網(wǎng)絡(luò)模型的結(jié)果,可以采用“權(quán)重”分析來解釋人工神經(jīng)網(wǎng)絡(luò)中輸入變量和輸出變量之間的關(guān)系。用作為敏感分析的“權(quán)重”分析定量計(jì)算輸入因素和輸出因素之間的聯(lián)系強(qiáng)度。通過這種方式,人工神經(jīng)網(wǎng)絡(luò)模型可以成功預(yù)測出行模式的選擇,從而比其他模型提供的估計(jì)精度更高。
從模型提供的權(quán)重可以看出,個(gè)人使用汽車的年里程對于判斷他是否使用非機(jī)動(dòng)車上學(xué)很重要。對于家庭父母是工人身份,判斷他使用汽車還是公交很重要,有工作的人的薪水更有可能買得起汽車。其他變量,如城市或郊區(qū)、家庭車輛數(shù)量、房屋是出租還是自有,也對結(jié)果有很大影響。一件有趣的事情是,我們曾假設(shè)家庭收入對模式選擇的影響很大,但結(jié)果表明影響并不比其他影響顯著。
七、局限
選擇威斯康星州的數(shù)據(jù)集并過濾數(shù)據(jù)后,只有大約 300 條有效數(shù)據(jù)而小數(shù)據(jù)集可能會(huì)降低模型的準(zhǔn)確性。特別是適用于大數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)在適用于小數(shù)據(jù)集時(shí)準(zhǔn)確性會(huì)降低。此外,模式選擇分布不平衡。選擇非動(dòng)員的人數(shù)與其他兩種相比太少了,這也影響了模型的準(zhǔn)確性。
另外,數(shù)據(jù)集沒有囊括上學(xué)的時(shí)間成本,只有距離。為了考慮這個(gè)變量,此次研究只是用模態(tài)的距離和平均速度來計(jì)算時(shí)間成本,不夠準(zhǔn)確。如果數(shù)據(jù)集有起點(diǎn)和終點(diǎn),最好使用 GOOGLE API 來獲取準(zhǔn)確的時(shí)間成本。
就現(xiàn)實(shí)意義而言,影響上學(xué)和返校方式選擇的因素可能略有不同。政策制定和進(jìn)一步研究,需要綜合考慮更多方面。
八、結(jié)束語
在決定選擇上學(xué)的方式時(shí),有很多可能的影響。在本文中,它討論了影響人們的一些一般特征,例如家庭車輛擁有量、家庭位置等。本文使用ANN和MNL模型來嘗試預(yù)測個(gè)人選擇。
從結(jié)果可以看出,ANN模型可以很好地預(yù)測人們在學(xué)校旅行中的選擇;但是,我們無法得到變量和人的決策之間的具體關(guān)系,而 MNL 模型可以清楚地呈現(xiàn)這種關(guān)系并且更具可解釋性。
此外,利用效用函數(shù),可以進(jìn)一步研究模型選擇的概率。因此,未來我們可能會(huì)花時(shí)間在 ANN 算法上做更多的推廣,以獲得更具體的結(jié)果,但在制定計(jì)劃或政策時(shí),應(yīng)該使用 MNL 模型。接下來可能會(huì)考慮如何將這兩個(gè)模型結(jié)合起來,以在模型構(gòu)建中提供高精度和特定的關(guān)系。隨著模式開發(fā)效率的提高,學(xué)生出行的交通擁堵問題將得到緩解。
作者單位:劉婉瑩? ? 長安大學(xué)公路學(xué)院
參? 考? 文? 獻(xiàn)
[1]宗芳,雋志才.基于活動(dòng)的出行方式選擇模型與交通需求管理策略[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2007(01):48-53.
[2]姚麗亞,孫立山,關(guān)宏志.基于分層Logit模型的交通方式選擇行為研究[J].武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版),2010,34(04):738-741.
[3]何保紅. 城市停車換乘設(shè)施規(guī)劃方法研究[D].東南大學(xué),2006.
[4]宋潔. 城市居民出行方式選擇預(yù)測方法研究[D].吉林大學(xué),2005.