胡雅群,哈米提,許子凱
(1.新疆維吾爾自治區(qū)交通建設管理局項目執(zhí)行三處,烏魯木齊 830000;2.長安大學公路學院,西安 710064)
共享單車大提高了公共交通利用效率.在城市軌道交通與共享單車接駁需求預測的研究方面,學者們主要關注預測模型的比較和改進[1].Zilu Kang等[2]利用機器學習構建了3類預測模型,并比較模型優(yōu)劣.此外,其他學者也提出了不同的預測方法,如基于馬爾可夫鏈模型的預測方法[3-4]、貝葉斯分類[5]引入注意力機制的長短時記憶網(wǎng)絡預測模型[6]、二元Logit選擇模型[7-8]等.綜合現(xiàn)有研究可知,軌道交通接駁共享單車需求預測的研究主要關注于預測模型的比選.此類研究通常采用傳統(tǒng)的線性回歸預測和時間序列預測作為起點,轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動型預測方法.然而,目前的研究多采用單一預測方法,而對于組合模型的精度比較研究仍有提升空間.
針對軌道交通站點接駁共享單車停車分類研究,研究人員通常關注軌道交通站點的功能定位和停車需求特征.軌道交通站點是城市公共交通布局的核心,隨著地鐵物業(yè)的發(fā)展,使其成為城市集聚關鍵點[9-10].CERVERO[11-13]聚焦于香港地鐵,站點被聚為5類,計算了地體規(guī)模開發(fā)強度及混合度均值.其他研究,針對不同區(qū)位[14]、不同交通功能[15]將軌道交通站點劃分為不同類別.但是,由于軌道站點分類有差異,致使接駁的共享單車停放需求特征差異,產(chǎn)生不同類型站點配合停車設施規(guī)模不同的結果.值得注意的是,目前很少有研究考慮到不同類型的軌道交通站點對共享單車停車規(guī)模的影響,這導致共享單車在城市軌道交通站點周圍的投放顯得無序.因此,為了合理配置共享單車停車設施,需要進一步研究不同類型軌道交通站點的停車需求特征和對共享單車停車設施規(guī)模的影響.
基于上述分析,本文以K-means聚類算法進行分析,將分時段共享單車借還量作為變量,構建隨機森林和套索回歸算法下城市軌道站點周邊共享單車需求預測模型,最終對比不同算法下需求預測結果,為后續(xù)研究起到參考價值.
1)選擇K個聚類中心;
2)計算各站點到聚類中心的間距,以距離作為條件進行分配;
3)更新每個簇的聚類中心,如果變化則重新進行分配,直到收斂;
4)輸出聚類結果.
在開始之前,需要選擇合適的距離度量方法和目標函數(shù)來計算聚類質(zhì)心.計算誤差平方和:
(1)
(2)
式中,SSE為誤差平方和;k為聚類簇的數(shù)量;Ci為第i個簇;x為樣本數(shù)據(jù);μi為第i個簇Ci的聚類中心(質(zhì)心).
在軌道交通站點K-means分析中,多利用站點周圍土地利用維度、時間空間維度、商業(yè)經(jīng)濟維度.然而,這些變量對于共享單車連接站點需求差異的解釋并不直觀.因此,本文利用站點周邊分時段共享單車借還量作為變量.
輪廓系數(shù)(Sihouette Coefficient)用來評估聚類簇離散程度.當輪廓系數(shù)值離1近時,即效果越好,密集度越高;當輪廓系數(shù)值越接近-1時,即分離度高,結果不合理;輪廓系數(shù)計算見式(3):
(3)
式中,ai為樣本點i的簇內(nèi)不相似度;bi為樣本點i的簇外分散度;i為樣本數(shù).
如圖1所示,聚類簇數(shù)為5時,輪廓系數(shù)的值為0.856,為聚類結果中最接近1的簇數(shù),故本文將軌道交通站點類型劃分為5類,為了達到最好的結果.
圖1 輪廓系數(shù)確定聚類簇數(shù)
隨機森林是機器學習中的分支集成學習算法[17-19],即訓練時從原始數(shù)據(jù)集N里面,有放有回的抽取樣本,從而得到訓練集,但這樣會導致1個樣本可能會重復出現(xiàn).根據(jù)統(tǒng)計學理論,當n足夠大時,1個樣本不會被取到的概率約為0.368.
(4)
本文對m個結果計算算術平均值,從而得到弱學習器最終結果.即Bagging集成算法,它通過將多個模型的預測結果進行平均或投票等方式計算結果.如圖2所示.
圖2 集成學習示意圖
隨機森林算法如圖3所示.
圖3 隨機森林算法示意圖
套索回歸是由Robert Tibshirani提出的線性回歸方法.
給定數(shù)據(jù)集D=[(x1,y1),(x2,y2),…,(xm,ym)].線性回歸模型優(yōu)化函數(shù)為:
(5)
式中,θ為函數(shù)的回歸系數(shù);y為預測值;L為線性回歸優(yōu)化函數(shù);x為樣本數(shù)據(jù).
為了緩解函數(shù)過擬合,本文采用套索回歸模型正則化范數(shù)L1,從而式(5)變?yōu)?
(6)
2017年由《共享單車與電動車停放》研究表明,2017年北京地區(qū)摩拜共享單車的投放量占總量的40%,具有相對的代表性.故本文數(shù)據(jù)使用2017年摩拜單車在北京地區(qū)數(shù)據(jù).同時為了進行軌道站點接駁共享單車分布解析,筆者提前對數(shù)據(jù)進行篩選和清洗,留下合理的數(shù)據(jù)集.
3.2.1 K-means聚類結果分布
通過計算輪廓指標系數(shù),確定了最佳的聚類簇數(shù)為5,并使用Python程序?qū)崿F(xiàn)了K-means算法,并獲得了5類軌道站點的聚類結果.根據(jù)聚類結果,軌道站點類型被分別記為類型1~5,分布情況如圖4所示.
圖4 各類站點在北京城市軌道上的分布情況
站點類型的具體統(tǒng)計如表1所示.
3.2.2 K-means聚類結果分析
本節(jié)根據(jù)前文的聚類結果,得到五大類站點的共享單車借還狀況.通過標準化處理不同時段共享單車借還量,進而利用借還時間變化圖清晰展示借還特征.結果見表2.
由表2可知,類型2早高峰借車率最低、晚高峰借車率最高,類型3早高峰還車率最低、晚高峰借車率最高.相反,類型2晚高峰最低,類型3早高峰借車率最高,晚高峰借車率最低.
見圖5,結合不同類型軌道站點共享單車借還率分析得到對應類型:
圖5 共享單車時均借還率時間變化圖
1) 類型1從表中可看出,在早高峰時段,還車率略低于借車率.在晚高峰時段,借車率低于還車率.符合“居住就業(yè)混合型”站點特征.
2) 類型2從表中可看出,在早高峰時段,該類型站點的還車率遠高于借車率.在晚高峰時段,借車率遠高于還車率.符合“居住型”站點特征.
3) 類型3從表2中可看出,在早高峰時段,該類型站點的借車率遠高于還車率.在晚高峰時段,該類型站點的還車率遠高于借車率.符合“就業(yè)型”站點特征.
4) 類型4軌道交通站點在早高峰時段的借車量占全天借車總量的16.61%,而在全天還車總量中,早高峰時段的還車量占17.76%.符合“居住就業(yè)商業(yè)混合型”站點特征.
5) 類型5在早高峰時段,該類型站點在早高峰時段的借車率高于還車率.此外,在晚高峰時段內(nèi),還車率高于借車率.符合“以居住為主的居住就業(yè)混合型”站點特征.
3.3.1 實驗驗證評價標準
EV(解釋方差):
(7)
MAE(平均絕對誤差):
(8)
MSE(均方誤差):
(9)
R2(決定系數(shù)):
(10)
式中,m為測試集數(shù)量;yi為測試集上的真實值;i為測試集上的預測值;為實際的平均值.
實驗驗證評價標準中EV、R2的值接近1代表預測效果越好,MSE、MAE值越小代表預測精度越高.
3.3.2 隨機森林預測結果
隨機森林預測結果如圖6所示.
圖6 隨機森林預測結果
隨機森林模型可對特征進行重要度評分,不同站點重要度如圖7.
圖7表示,類型4站點在午高峰期間具有較高的特征重要度,這與其自身的特性有關.不同類型的站點受特征影響的程度也不盡相同.對隨機森林模型結果進行評估.評估結果見表3.
表3 隨機森林預測結果評價
3.3.3 套索回歸預測結果
套索回歸預測效果對比結果如圖8所示.
圖8 套索回歸預測結果
套索回歸訓練結果如圖9所示.
圖9 套索回歸模型指標重要性評估
根據(jù)圖9,在套索回歸模型中,站點小時共享單車使用情況影響最大.結果見表4.
表4 套索回歸模型預測結果評價
綜上所述,隨機森林模型在預測類型1、2、3、5站點上預測精度優(yōu)于套索回歸模型.套索回歸模型在類型4預測結果優(yōu)于隨機森林模型.
建立精度更高的組合模型,本文旨在提供共享單車在不同類型軌道交通站點周邊的使用情況,并比較了在不同類型軌道站點周圍需求預測中隨機森林和套索回歸2種算法的精度,為后續(xù)軌道站點和軌道站點周圍停車設施的規(guī)劃和建設提供參考價值.
本文利用共享單車借還量為聚類變量,聚為5類站點.這些類別分別對應特征:類型1~5分別為居住就業(yè)混合型、居住型、就業(yè)型、居住就業(yè)商業(yè)混合型、以居住為主的居住就業(yè)混合型.進而使用隨機森林和套索回歸2種算法構建需求預測模型,對5類站點計算其結果.進而利用EV、MAE、MSE和R2評估預測結果.結果表明,除類型4以外站點,隨機森林模型預測結果中表現(xiàn)最好.