陳紅,陳恒瑞,史轉轉,張敏,劉至真
(長安大學,運輸工程學院,西安710064)
在“互聯網+”的政策背景和“共享經濟”的市場推動下,共享單車作為一種新興的出行方式,依靠智能定位技術、移動支付、無樁化隨借隨還的優(yōu)勢迅速成為市場的寵兒,對傳統公共自行車系統產生了較大沖擊,主要表現在車輛周轉率下降和用戶轉移等問題。因此,提升其系統服務水平是維持公共自行車市場競爭力的重要手段。隨著信息技術快速發(fā)展,公共自行車系統內貯存的海量數據成為運營服務水平提升的有效支撐。為加快大數據落地應用和解決單車租還難等問題,有必要通過現實數據資源對城市公共自行車系統時空需求特征進行探索,從宏觀層面掌握區(qū)域內出行需求總體分布,以期為新階段下優(yōu)化設施配置提供決策依據;從落地層面建立站點級租還需求量預測模型,作為未來站點平衡調度的依據并推廣應用于共享單車系統,為改善服務水平提供技術和理論支撐。
目前,公共自行車租還需求預測主要集中在系統整體需求和站點需求。高效且便于操作的回歸模型是公共自行車系統整體需求預測的主流方法,其考慮了人口,經濟和社會條件,節(jié)假日,天氣和土地利用情況等重要的需求影響因素[1]。站點是公共自行車系統的基本單位,對站點的需求預測直接影響系統的規(guī)劃、設計和調度。面向站點層面的需求預測研究,大多數采用影響因素分析法和時間序列預測法。Kaltenbrunner[2]等利用時間序列分析方法(如自回歸滑動平均模型(ARMA))對站點需求進行預測。陳思濃[3]基于紐約市Citi Bike出行數據和歷史逐小時天氣數據,增加天氣滯后影響變量,建立帶誤差的多因素回歸模型(MFR-ARMA)。周敏[4]通過引入小波分析,基于BP 神經網絡搭建公共自行車站點租還量預測模型,研究發(fā)現,DE-BP 神經網絡在歷史數據間隔為30 min 以內且具有相似性的公共自行車站點租還需求量預測問題上具有一定的推廣性。以上研究本質上是考慮公共自行車站點自身特征,以及外部環(huán)境因素進行需求預測,但不同位置的站點因周邊的用地性質呈現不同的屬性特征,故還需要關注站點的功能,分析不同類型站點的自行車使用特性,基于站點周邊的用地性質,對站點進行分類預測,為高峰期間的區(qū)域平衡調度奠定基礎。
充分挖掘不同類型站點的自行車租還時空特性是提高預測準確性的前提?;诖?,本文采用聚類算法將站點按照租還特性進行聚類分析。提出基于興趣點(Point of Information, POI)數據的站點用地類型識別方法,構建以天氣質量、時間特征、站點位置為特征變量,以60,30,15 min時間粒度的站點租還車需求為目標的隨機森林模型,并利用寧波市公共自行車實際運行數據對模型進行驗證。
城市公共自行車系統規(guī)模大、站點數目多,逐個分析效率低下且無法有效掌握各站點間的內在聯系,以及不同類型站點的租還車規(guī)律,故采用KMeans[5]聚類算法對站點分類,利用DBI 指數(Davies-Bouldin Index)[6]確定最佳聚類結果,為站點需求預測提供基礎。
式中:IDBI為刻畫不同種類之間離散程度和同一類內數據對象的緊密程度的綜合型指標,其值越小,表示各類內對象相似度越高,類間的差異越大,聚類效果越佳;N為聚類個數;Si,Sj為第i,j類數據到其簇中心的平均距離;d()ci,cj類i與類j質心的距離;ci,cj為第i,j類的質心。
站點的活躍度與城市用地功能息息相關。騎行者基于不同出行需求所引發(fā)的站點租還車特征通常由城市用地功能所致,而POI點的分布是城市用地功能的直觀體現。本文利用百度地圖API 獲得寧波市區(qū)的POI 數據,共14 類,根據騎行用戶對各類POI 的顯著性認識來確定與POI 類型相關的土地利用類型?;谖覈恋乩矛F狀分類標準,結合相關研究成果[7],將寧波市公共自行車站點劃分為住宅、交通設施、辦公和商業(yè)休閑4 類。每類POI 權重的確定參考文獻[8]中各類POI 公眾認知度的調查結果,并著重考慮騎行者對各類POI的認知度進行權重調整。具體分析步驟如下:
(1)以公共自行車站點所在的地理位置為圓心,統計50 m(根據公共自行車換乘軌道交通車站的最大距離設定)半徑范圍內交通設施類POI 點的數量n1,若n1>0,則該站點為交通型。
(2)以公共自行車站點所在的地理位置為圓心,統計300 m(依據寧波市公共自行車服務半徑設定)半徑范圍內除交通類其余各類POI點的數量。
(3)根據步驟(2)的統計結果,計算各站點300 m范圍內各POI類型比例,即
式中:t為POI類型;nt為300 m范圍內第t種類型POI 數量;Nt為第t種類型POI 總數;ρt為300 m范圍內第t種類型POI數量占該類型POI總數的比例;ωt為第t類POI 權重系數;βt為300 m 范圍內第t類POI占比。
基于站點的公共自行車租還量需求預測多采用基于時間序列的BP 神經網絡方法,但本文數據量大且變量涉及離散和連續(xù)型數據,若采用BP 算法不僅運行效率低且容易出現過擬合現象。隨機森林模型能夠捕捉不同類型數據間的內在關系,適應性強,故本文采用隨機森林模型預測站點租還車需求,其算法流程及原理可以參考文獻[9]。
選擇平均絕對誤差(EMAE)、均方根誤差(ERMSE)和擬合優(yōu)度(ER2)這3個指標評估模型性能,計算公式分別為
式中:yz為第z個樣本的真實值;為真實值的平均值;fz為第z個樣本的預測值;m為樣本數。
公共自行車的需求量在不同時間呈現出規(guī)律性差異,故結合其變化的實際情況及預測目標,將每天5:00-22:00 按照15,30,60 min 的時間間隔進行站點的租還量需求預測。以30 min間隔為例,則1 d 分為34 個時間間隔,分別用1~34 表示,1 代表5:00-5:30,以此類推,34 代表21:30-22:00。本文選取預測因子包括:氣象因子、時間特征和站點位置特征,表1為具體包含的特征變量。
表1 變量描述Table 1 Variable description
采用寧波市公共自行車系統2016年7月-2017年6月的IC 卡刷卡記錄作為原始數據,共3336.39 萬條有效騎行記錄,研究區(qū)域為寧波市主城區(qū)范圍。
按照1.1 節(jié)的分析方法計算得到DBI 值如圖1所示,當聚類數設為5時,對應的DBI值最小,聚類效果最佳。圖2為不同類型的站點聚類分布,圖3為不同類型站點的借/還系數時間分布情況。
圖1 不同聚類數對應的DBI值Fig.1 DBI value corresponding to different cluster numbers
圖2 站點聚類分布Fig.2 Cluster distribution of stations
從圖2和圖3可以發(fā)現:第1 類站點共計368個,約占總數的33.67%,此類站點總體上均勻分布在寧波市外圍區(qū)域,早、晚高峰期間站點借、還車量呈現明顯的不均衡性。第2類站點共計26個,多分布于遠離市區(qū)、較為偏僻的城市邊緣地帶,還車早高峰、借車晚高峰特征尤為明顯。第3類站點共計450 個,約占總數的41.17%,主要分布于城市中心區(qū);借、還系數曲線均呈現早晚高峰且互相良好吻合的特征,表明該類站點在早晚高峰期總體上能夠達到租還平衡狀態(tài)。第4 類站點共計159 個,該類站點聚類中心借/還系數隨時間分布曲線均呈現早晚高峰特征。第5類站點共計90個,多分布于城市外圍,少量位于市中心區(qū),還車早高峰、借車晚高峰特征突出。
圖3 不同類型站點聚類中心借/還系數時間分布圖Fig.3 Time distribution of borrowing/returning coefficients of cluster centers of different types of sites
第5 類站點曲線特征與第2、4 類相近,但又存在明顯差異。第3 類站點早晚高峰集中程度區(qū)別較大,第5 類站點還車早高峰有所滯后,這些差異的背后是不同出行行為所致,反映在空間上為站點所處城市功能區(qū)的差異,故需要進一步挖掘站點周邊土地利用類型與自行車租還特性之間的關系。
圖4為站點日租還總量核密度與百度POI核密度空間分布,站點活躍度與POI點密度之間存在一定的空間耦合性,表明站點使用度與POI密度存在一定的正相關,而POI類型往往是城市用地功能類別的象征。因此,通過挖掘站點周邊土地利用類型有利于掌握該站點的使用規(guī)律特征。
圖4 站點日租還總量核密度與POI核密度空間分布圖Fig.4 Spatial distribution of total daily borrowing and returning nuclear density and POI nuclear density of stations
根據1.2 節(jié)所述步驟,最終判斷相應公共自行車站點的土地利用類型及POI 比例如表2所示。圖5為寧波市不同用地類型的公共自行車站點分布圖。圖6為基于POI 數據識別的不同用地類型站點的租還車數量隨時間分布圖。從時間和空間角度觀察可以發(fā)現,不同用地類型站點的租還車時間特性與前文基于站點租還時間特性聚類結果吻合度較高,從而驗證了基于POI 數據站點方法的可靠性。
表2 基于POI數據的站點類型劃分Table 2 Site type division based on POI data
圖5 不同用地類型的站點分布圖Fig.5 Site distribution of different land use types
圖6 不同用地類型站點租還車量隨時間分布圖Fig.6 Distribution of vehicle borrowing and returning volume with time at different land use types
以寧波市自行車租還車需求量最大的東門口站點為例,提取1周的運營數據。將實驗數據按照8∶1∶1劃分為訓練集、驗證集和測試集,訓練集用于模型學習訓練,驗證集用于模型參數調整,測試集用于模型性能評估。通過網格搜索和交叉驗證的方法確定隨機森林模型的參數組合,考慮到計算機運行效率和模型準確度,采用最大特征數為4,決策樹為300 的參數組合構建模型。為驗證隨機森林模型的準確性,以站點借車需求為例,分別構建在不同時間刻度情況下隨機森林和BP 神經網絡、K最近鄰的短時需求預測模型,表3為各模型的評價結果。
表3 不同模型預測精度比較Table 3 Comparison of prediction accuracy of different models
由表3可知:隨機森林回歸預測在所有時間間隔下的預測結果均好于其他算法,其擬合優(yōu)度ER2在預測時間間隔為60 min、30 min 時均達到0.8 以上,說明模型擬合效果較好,預測準確度較高;15 min時間粒度預測模型的擬合優(yōu)度有所降低,但其平均絕對誤差(EMAE)、均方根誤差(ERMSE)為各時間粒度模型中最小,分別達到2.48 和3.34,均在誤差范圍內,且以30 min為時間間隔的站點借車需求預測精度最高。
為驗證考慮站點土地利用類型特征后,模型是否能提高預測精度,以30 min 為時間間隔,構建站點借車需求和還車需求隨機森林預測模型。模型的評價效果如表4所示,預測結果如圖7所示??梢园l(fā)現:考慮站點土地利用類型特征變量后,租還車需求預測效果均有不同程度提升,說明土地利用類型是影響模型預測效果的重要特征之一;對于具體站點而言,其預測需求量和實際需求量非常接近,絕對誤差多分布于-2.5~2.5之間。
表4 租還車需求預測精度比較Table 4 Comparison of forecasting accuracy of vehicle borrowing and returning demand
圖7 東門口站點實際和預測租還車需求量對比圖Fig.7 Comparison of actual and predicted demand for vehicle borrowing and returning at Dongmenkou station
本文從時間特征的角度提出基于站點小時租還車系數的聚類方法;從空間特征的角度提出了基于POI數據的站點用地類型識別方法,并與租還時間特性聚類結果相互印證,驗證方法的有效性。本文在對公共自行車使用時空特性挖掘的基礎上,綜合考慮站點的時間特征、天氣因素、站點土地利用類型等數據,構建站點租還車需求預測的隨機森林模型。以寧波市東門口站點為例對模型進行驗證。結果表明:以30 min為間隔的站點租還車需求預測精度最高,考慮站點土地利用類型能有效提高模型預測精度,為改善服務水平提供技術和理論支撐,亦可服務于后期新一輪站點的布局規(guī)劃。