孫啟鵬,曾開邦,張鍇琦*,楊藝琛,張士行
(長安大學(xué),a.經(jīng)濟(jì)與管理學(xué)院;b.陜西高校青年創(chuàng)新團(tuán)隊(duì)“未來交通與區(qū)域發(fā)展創(chuàng)新團(tuán)隊(duì)”;c.長安大學(xué)綜合運(yùn)輸經(jīng)濟(jì)管理中心;d.陜西高校新型智庫“綜合運(yùn)輸發(fā)展研究中心”;e.信息工程學(xué)院,西安710054)
共享單車近年來的迅速發(fā)展,極大地方便了居民“最后一公里”出行,且能緩解城市交通耗能[1],保護(hù)環(huán)境[2],但同時(shí)也產(chǎn)生了新的挑戰(zhàn),如過量投放造成資源浪費(fèi),占用人行道、地鐵站出入口等基礎(chǔ)設(shè)施[3],影響居民的日常出行和市容市貌等。為應(yīng)對(duì)這些挑戰(zhàn),學(xué)者們?cè)谡?guī)制、出行規(guī)律、需求預(yù)測、調(diào)度優(yōu)化等多個(gè)方面進(jìn)行探索。江南[4]探討了政府監(jiān)管對(duì)共享單車用戶的機(jī)會(huì)主義行為的調(diào)節(jié)機(jī)制。付學(xué)梅等[5]根據(jù)用戶在一天中的騎行開始時(shí)間對(duì)用戶進(jìn)行歸類,并基于赫希曼指數(shù)揭示了用戶騎行的時(shí)間規(guī)律。焦志倫等[6]基于舊金山灣區(qū)的共享單車數(shù)據(jù),發(fā)現(xiàn)隨機(jī)森林與迭代決策樹對(duì)共享單車即時(shí)需求預(yù)測的效果要優(yōu)于傳統(tǒng)回歸模型。李興華等[7]構(gòu)建了雙層規(guī)劃模型提高共享單車動(dòng)態(tài)調(diào)度的有效性,更好地平衡供需。高楹等[8]則將共享單車的出行時(shí)空特征和其空間調(diào)度相結(jié)合,在分析不同日期和時(shí)段共享單車源、匯點(diǎn)分布和土地利用性質(zhì)的基礎(chǔ)上,設(shè)計(jì)相應(yīng)的空間調(diào)度模型和算法,有效減少單車積壓或不足,提高其利用效率。
考慮出行規(guī)律有助于提高調(diào)度效率,本質(zhì)在于其能提供更準(zhǔn)確的時(shí)空需求預(yù)測,給了調(diào)度模型更準(zhǔn)確的數(shù)據(jù)和參數(shù)輸入。因此,本文嘗試將出行規(guī)律和需求預(yù)測結(jié)合起來,首先利用非負(fù)矩陣分解算法找到共享單車的出行規(guī)律,再把得到的出行規(guī)律與BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合,以此來準(zhǔn)確預(yù)測共享單車的需求,從而為共享單車投放管理、調(diào)度優(yōu)化等方面提供有效指導(dǎo)。
本文數(shù)據(jù)源于2017年摩拜公司舉行的摩拜杯算法挑戰(zhàn)賽,數(shù)據(jù)集包含了北京市5月10日、11日、12日、15日、16日、18日、19日(均在周內(nèi)工作日)共2484561條共享單車騎行數(shù)據(jù)。數(shù)據(jù)包含7個(gè)數(shù)據(jù)字段:訂單ID,用戶ID,車輛ID,車輛類別,騎行開始時(shí)間以及騎行的起點(diǎn)和終點(diǎn)。其中起終點(diǎn)為7位數(shù)的Geohash 編碼,代表約152 m×152 m 的空間,具體如表1所示。
表1 數(shù)據(jù)示例Table 1 Data example
利用以上NMF 分解得到的基矩陣和系數(shù)矩陣,以及5月10~18日的出發(fā)數(shù)據(jù),本文進(jìn)一步構(gòu)建了基于NMF 的BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測5月19日各區(qū)域不同時(shí)段內(nèi)共享單車的出行需求。同時(shí)還構(gòu)建了傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型和長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)預(yù)測模型進(jìn)行對(duì)照分析,驗(yàn)證結(jié)合NMF信息后是否有助于提高預(yù)測精度。預(yù)測結(jié)果準(zhǔn)確性采用均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)這兩個(gè)評(píng)價(jià)指標(biāo),公式為
式中:i為數(shù)據(jù)集中的第i個(gè)數(shù)據(jù);n為原始數(shù)據(jù)集中的數(shù)據(jù)個(gè)數(shù);ri為原始數(shù)據(jù)集中的真實(shí)值;pi為經(jīng)過預(yù)測模型預(yù)測得出的預(yù)測值;pˉ和rˉ分別為預(yù)測值和實(shí)際值的平均值。指標(biāo)越小,表明預(yù)測精度越高。
使用非負(fù)矩陣分解算法分解所觀測到的出行需求得到基矩陣(空間矩陣)和系數(shù)矩陣(時(shí)間矩陣)后,對(duì)各個(gè)區(qū)域i,以其對(duì)應(yīng)的基矩陣Wi為輸入節(jié)點(diǎn),以各時(shí)段(0~24 h)的共享單車出行量為輸出節(jié)點(diǎn),構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型。隱含層神經(jīng)元個(gè)數(shù)的選取則為
式中:P為隱含層神經(jīng)元個(gè)數(shù);l為輸入層神經(jīng)元個(gè)數(shù);L為輸出層神經(jīng)元個(gè)數(shù);δ為調(diào)節(jié)常數(shù),δ∈[1,10]??芍?,l=k且L=24,對(duì)式(7)所求范圍內(nèi)的P值逐一訓(xùn)練,根據(jù)評(píng)價(jià)指標(biāo)RMSE 和MAE選取最優(yōu)的隱含層神經(jīng)元個(gè)數(shù)。
表2 BP神經(jīng)網(wǎng)絡(luò)輸入輸出節(jié)點(diǎn)Table 2 Input and output points of BP neural network
依據(jù)1.3節(jié)的方法,對(duì)研究范圍內(nèi)7 d的共享單車出行數(shù)據(jù)分別進(jìn)行NMF 分解,計(jì)算k=[]2,10 時(shí)F范數(shù)的變化量和對(duì)應(yīng)的逆序群體穩(wěn)定性指標(biāo)Rk+1,分別如圖1和表3所示。
圖1 隨k 值變化圖Fig.1 Relationship between and k value
表3 逆序群體穩(wěn)定性指標(biāo)隨k 值變化表Table 3 Reverse population stability index by k value
利用系數(shù)矩陣H探討5 種出行模式在時(shí)間上的分布,結(jié)果如圖2所示,在5種出行模式中,第1、2 種模式存在早高峰(分別為7:00 和8:00),第4、5種模式則存在晚高峰(分別為18:00 與19:00),其他時(shí)刻出行量極低。第3 種出行模式在日間一直存在,且存在兩個(gè)小高峰,時(shí)間分別在11:00 與17:00左右。
圖2 5種出行模式的時(shí)間序列特征Fig.2 Temporal characteristics for five travel patterns
利用基矩陣W探討5 種出行模式在空間上的分布,利用ArcGIS 軟件進(jìn)行可視化,結(jié)果如圖3所示。深色區(qū)域代表共享單車出行數(shù)量較多??梢钥闯觯旱?種出行模式在空間上的分布幾乎全集中在地鐵站附近;第2 種出行模式比第1 種出行模式更靠近地鐵站,數(shù)量也更多;第3 種出行模式則開始向四周擴(kuò)散,深色區(qū)域也分布的更分散;第4 種出行模式的空間分布再次向地鐵站附近靠攏;第5種出行模式除了在地鐵站附近分布較多外,在郊區(qū)等地方也開始變得密集。
圖3 5種出行模式的空間分布特征Fig.3 Spatial characteristics for five travel patterns
結(jié)合共享單車5 種出行模式的時(shí)間和空間分布特征,可以推測這5種出行模式分別代表:①通勤出行中居住地到地鐵站的出行;②通勤出行中地鐵站到工作地點(diǎn)的最后一公里連接;③居民其他的非通勤出行行為,如休閑娛樂活動(dòng)等;④回程通勤出行中從工作地點(diǎn)到地鐵站;⑤回程通勤出行中從地鐵站到居住區(qū)的最后一公里連接。
基于NMF 的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,l=k=5,L=24,根據(jù)式(7)可知隱含層中節(jié)點(diǎn)個(gè)數(shù)P∈[6,15],對(duì)其進(jìn)行逐一訓(xùn)練,結(jié)果如表4所示??芍陔[含層個(gè)數(shù)等于10時(shí),ERMSE及EMAE的值均較小,所以,本模型的最終隱含層神經(jīng)元的個(gè)數(shù)選擇為10個(gè)。
表4 不同隱含層神經(jīng)元個(gè)數(shù)的參數(shù)指標(biāo)變化表Table 4 RMSE and MAE for each number of neurons in hidden layer
類似地,對(duì)于BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,其輸入層為5月10~18日t時(shí)刻出發(fā)量,輸出層為5月19日t時(shí)刻出發(fā)量,故l=6,L=1,根據(jù)式(7)可知隱含層中節(jié)點(diǎn)個(gè)數(shù)P∈[]4,12,依據(jù)ERMSE值最小選取P=7。
對(duì)于LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測模型,其輸入層和輸出層神經(jīng)元個(gè)數(shù)均為1,即l=L=1,選取P=10,隱藏層數(shù)為2時(shí),時(shí)間步數(shù)取為3,其ERMSE值最小。
表5為3種模型的預(yù)測精度指標(biāo),可以看出,基于非負(fù)矩陣分解算法的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型的ERMSE值和EMAE值均最小,即其預(yù)測精度大于LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測模型和BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型。另外,本文構(gòu)建的基于NMF的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型繼承了普通BP 神經(jīng)網(wǎng)絡(luò)簡單快捷的優(yōu)點(diǎn),在實(shí)際操作上更加簡便。相比之下,雖然LSTM神經(jīng)網(wǎng)路模型比BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度更高,但是以復(fù)雜程度更高的模型構(gòu)建過程為代價(jià)。
表5 3種預(yù)測模型RMSE和MAE值對(duì)比Table 5 RMSE and MAE for three prediction models
本文利用非負(fù)矩陣分解算法,把工作日的共享單車出行矩陣分解為空間特征矩陣(基矩陣)和時(shí)間特征矩陣(系數(shù)矩陣)的乘積,并識(shí)別出5 種典型的出行模式,即通勤出行中居住地到地鐵站的出行;通勤出行中地鐵站到工作地點(diǎn)的最后一公里連接;居民其他的非通勤出行行為,如休閑娛樂活動(dòng)等;回程通勤出行中從工作地點(diǎn)到地鐵站;回程通勤出行中從地鐵站到居住區(qū)的最后一公里連接。共享單車的出行都可以用這5 種出行模式的線性組合來表達(dá),這樣不僅降低了數(shù)據(jù)的內(nèi)存量,還使數(shù)據(jù)具有更高的辨識(shí)度。
本文構(gòu)建的基于非負(fù)矩陣分解算法的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,不僅在預(yù)測精度上比BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型和LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測模型更優(yōu),在實(shí)際操作上更為簡便,說明對(duì)共享單車時(shí)空出行規(guī)律的考慮確實(shí)可以提升需求預(yù)測的精度和效率。未來還需探討模型在不同出行情景下(周末、節(jié)假日或者大風(fēng)、雨雪天等)識(shí)別更多出行模式和預(yù)測出行需求的泛化能力。