向 玲,張小威,唐志航,楊 瑩,馬倩茜
(湖南工程學(xué)院 計(jì)算機(jī)與通信學(xué)院,湘潭 411104)
目前,大城市交通擁堵成為普遍現(xiàn)象[1-3].因此對(duì)占比最大的城市公交車(chē)的優(yōu)化管理也成為必然趨勢(shì)[4].由于公交車(chē)刷卡數(shù)據(jù)不完善,而刷卡數(shù)據(jù)又比較龐大和密集,因此需要對(duì)刷卡數(shù)據(jù)進(jìn)行聚類(lèi)分析[5].通過(guò)對(duì)三種聚類(lèi)算法(DBSCAN、k-means、DIANA)的對(duì)比,發(fā)現(xiàn)DBSCAN密度聚類(lèi)效果最佳,能夠獲得科學(xué)準(zhǔn)確符合現(xiàn)實(shí)要求的站點(diǎn)位置.同時(shí),結(jié)合統(tǒng)計(jì)與概率學(xué)的泊松分布規(guī)律等知識(shí)進(jìn)行分析預(yù)測(cè),獲得人們?cè)诟鱾€(gè)站點(diǎn)的出行規(guī)律,并構(gòu)建OD矩陣模型,為城市公交車(chē)站的優(yōu)化提供合理建議.
研究主要分五個(gè)模塊:挖掘目標(biāo)模塊、數(shù)據(jù)抽取模塊、數(shù)據(jù)探索與預(yù)處理模塊、挖掘建模模塊、模型應(yīng)用模塊.總體思路如圖1所示.
圖1右邊站點(diǎn)數(shù)據(jù)是從抽取數(shù)據(jù)中聚類(lèi)分析所得,上下車(chē)人數(shù)是由OD矩陣式優(yōu)化模型分析計(jì)算出的數(shù)據(jù).左邊的市民出行規(guī)律和城市公交車(chē)優(yōu)化建議是本項(xiàng)目的挖掘目標(biāo).
圖1 總體思路圖
根據(jù)上面五個(gè)模塊設(shè)計(jì)出本研究的總體開(kāi)發(fā) 流程,總體流程圖如圖2所示.
圖2 總體流程圖
第一步:查找數(shù)據(jù)資源獲取數(shù)據(jù)源.
第二步:抽取與深圳市某路公交站點(diǎn)相關(guān)的原始數(shù)據(jù),主要有地面公交車(chē)刷卡數(shù)據(jù)以及地面公交車(chē)GPS監(jiān)控?cái)?shù)據(jù)等.
第三步:數(shù)據(jù)探索與預(yù)處理,對(duì)從數(shù)據(jù)源中抽取出來(lái)的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、屬性規(guī)約和數(shù)據(jù)變換.
第四步:建模與應(yīng)用,本研究通過(guò)機(jī)器學(xué)習(xí)的聚類(lèi)算法分析和建模,用的聚類(lèi)模型是DBSCAN聚類(lèi)模型,DBSCAN聚類(lèi)用的是dbscan函數(shù).建模完成之后替換另外兩種算法重新分析并對(duì)比效果.
第五步:結(jié)果與反饋,通過(guò)構(gòu)建的OD矩陣模型分析,得出居民出行規(guī)律,最后反饋結(jié)果、給出優(yōu)化建議并進(jìn)行模型優(yōu)化.
城市公交車(chē)優(yōu)化分析模型流程圖如圖3所示.
圖3 城市公交車(chē)優(yōu)化分析模型流程圖
將預(yù)處理的公交車(chē)數(shù)據(jù)帶入聚類(lèi)模型進(jìn)行聚類(lèi)[6-7],得到相應(yīng)的聚類(lèi)結(jié)果后,為數(shù)據(jù)貼上標(biāo)簽.更換聚類(lèi)模型的聚類(lèi)算法,重新進(jìn)行聚類(lèi),對(duì)比分析不同聚類(lèi)算法的效果和特性[8-9].
本研究利用上車(chē)人數(shù)計(jì)算下車(chē)人數(shù),每個(gè)站點(diǎn)的下車(chē)人數(shù)為Dj.
其中,Dj為j站下車(chē)人數(shù);Sk為k站上車(chē)人數(shù);Pkj為k站上車(chē),途徑j(luò)-k站下車(chē)的概率.
最終居民公交出行的出行站數(shù)概率計(jì)算公式為:
其中,F(xiàn)ij是居民公交出行的出行站數(shù)概率服從的泊松分布,Wj是站點(diǎn)對(duì)乘客的吸引權(quán)重.
居民公交出行的出行站數(shù)概率服從的泊松分布(假設(shè)),F(xiàn)ij計(jì)算公式如下:
其中,λ為公交路線出行途經(jīng)的站點(diǎn)數(shù)的數(shù)學(xué)期望;Wj為j站權(quán)重;Fij為i站上車(chē)途經(jīng)j-i個(gè)站點(diǎn)下車(chē)的概率.
站點(diǎn)對(duì)乘客的吸引權(quán)重Wj計(jì)算公式如下:
Wj為j站的吸引權(quán)重,其中Sk為k站上車(chē)人數(shù).
通過(guò)聚類(lèi)和上面人流量預(yù)測(cè)模型分析出OD數(shù)據(jù)[10],得到OD調(diào)查結(jié)果,OD調(diào)查結(jié)果通常用一個(gè)二維表格表示,縱(Y)站點(diǎn)表示上車(chē)站臺(tái),橫(X)站點(diǎn)表示下車(chē)站臺(tái),矩陣中的數(shù)表示在Y站上車(chē)X站下車(chē)的人數(shù),最右側(cè)是各站點(diǎn)上車(chē)總?cè)藬?shù),最后一行是各站點(diǎn)下車(chē)總?cè)藬?shù),最后一個(gè)數(shù)據(jù)為該路公交車(chē)的總?cè)藬?shù).利用二維數(shù)組的形式接收并輸出OD矩陣[11].
在實(shí)驗(yàn)開(kāi)始前,首先獲取數(shù)據(jù)源,數(shù)據(jù)源中提供的數(shù)據(jù)有:出租車(chē)GPS監(jiān)控?cái)?shù)據(jù)、地面公交車(chē)GPS監(jiān)控?cái)?shù)據(jù)、地面公交車(chē)刷卡數(shù)據(jù)、地鐵站刷卡交易數(shù)據(jù);與城市公交車(chē)站點(diǎn)相關(guān)的原始數(shù)據(jù)主要有地面公交車(chē)GPS監(jiān)控?cái)?shù)據(jù)以及地面公交車(chē)刷卡數(shù)據(jù)等,相關(guān)數(shù)據(jù)有5萬(wàn)多條.需要對(duì)數(shù)據(jù)源中抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、屬性規(guī)約和數(shù)據(jù)變換.
(1)數(shù)據(jù)清洗:從業(yè)務(wù)以及建模的相關(guān)需要方面考慮,篩選出需要的數(shù)據(jù).包括缺失值處理、去除重復(fù)數(shù)據(jù)項(xiàng)、去除模糊數(shù)據(jù)項(xiàng).
(2)屬性規(guī)約:屬性選擇后的數(shù)據(jù)集,如表1所示.
表1 預(yù)處理后的數(shù)據(jù)集
在對(duì)數(shù)據(jù)進(jìn)行抽取和預(yù)處理后,從五萬(wàn)多條數(shù)據(jù)中篩選出某路公交車(chē)五天的相關(guān)刷卡數(shù)據(jù)1650條,將對(duì)篩選出來(lái)的數(shù)據(jù)進(jìn)行挖掘建模.刷卡數(shù)據(jù)比較密集,為了更好地體現(xiàn)路線上的位置關(guān)系,實(shí)驗(yàn)用到了高德開(kāi)放平臺(tái)做可視化處理.又知道某路公交車(chē)當(dāng)時(shí)的實(shí)際站點(diǎn)有56個(gè),從密集的刷卡數(shù)據(jù)中我們無(wú)法直接得出數(shù)據(jù)屬于前后哪個(gè)站點(diǎn),因此我們對(duì)刷卡數(shù)據(jù)進(jìn)行聚類(lèi),同時(shí)也對(duì)某路公交車(chē)站點(diǎn)進(jìn)行優(yōu)化.
(1)對(duì)刷卡數(shù)據(jù)進(jìn)行聚類(lèi),因?yàn)槭菍?duì)公交車(chē)站點(diǎn)進(jìn)行優(yōu)化分析,無(wú)法直接得知聚類(lèi)個(gè)數(shù),而kmeans和DIANA聚類(lèi)都需要提前確定聚類(lèi)個(gè)數(shù),所以先需要使用密DBSCAN度聚類(lèi)進(jìn)行優(yōu)化分析.聚類(lèi)過(guò)程需要不斷更改并測(cè)試DBSCAN的參數(shù)(掃描半徑eps、閾值min_samples),通過(guò)對(duì)聚類(lèi)效果評(píng)估分析最終確定參數(shù)值,聚類(lèi)評(píng)估包括對(duì)聚類(lèi)產(chǎn)生異常值點(diǎn)(不和其他密度相連)個(gè)數(shù)、聚類(lèi)個(gè)數(shù)、聚類(lèi)實(shí)際位置等.
實(shí)驗(yàn)測(cè)試分析最終確定參數(shù)eps=0.0011、min_sample=3,聚類(lèi)個(gè)數(shù)為39個(gè),即最終優(yōu)化的站點(diǎn)個(gè)數(shù).DBSCAN密度聚類(lèi)最優(yōu)結(jié)果如圖4所示.
圖4 DBSCAN聚類(lèi)效果圖
(2)根據(jù)上面優(yōu)化分析得到的聚類(lèi)個(gè)數(shù),在利用K-means聚類(lèi)(其中n_clusters=39),得動(dòng)態(tài)聚類(lèi)K-means,聚類(lèi)結(jié)果如圖5所示.
圖5 K-means聚類(lèi)效果圖
利用肘方法對(duì)K-means進(jìn)行評(píng)估分析,得到質(zhì)點(diǎn)距離平方和(SSE)與聚類(lèi)個(gè)數(shù)K的關(guān)系圖,如圖6所示.
圖6 肘方法評(píng)估K-Means聚類(lèi)圖
根據(jù)肘方法評(píng)估原理,用K-means對(duì)此數(shù)據(jù)集聚類(lèi)獲得最佳K值須取3~5之間,也就是聚類(lèi)個(gè)數(shù)在3~5個(gè)最好,這明顯不符合實(shí)際要求.
(3)再使用分裂的層次聚類(lèi)DIANA聚類(lèi),結(jié)果如圖7所示.
圖7 DIANA聚類(lèi)效果圖
根據(jù)聚類(lèi)算法評(píng)估指標(biāo)分析,得出三個(gè)聚類(lèi)算法的聚類(lèi)評(píng)估情況如表2所示.根據(jù)聚類(lèi)評(píng)估的各項(xiàng)指標(biāo)分析,密度聚類(lèi)DBSCAN的聚類(lèi)效果更佳,更適合這種交通線路分布結(jié)構(gòu)的數(shù)據(jù)集的聚類(lèi).
表2 聚類(lèi)評(píng)估指標(biāo)表
(4)根據(jù)挖掘模型我們還可以將數(shù)據(jù)進(jìn)行時(shí)段分析,分析得到時(shí)段的OD矩陣,分析得到更加細(xì)致的規(guī)律.在總OD矩陣表中該矩陣是典型的上對(duì)角矩陣,只有右上半邊有數(shù)據(jù)且前七列沒(méi)有數(shù)據(jù),為了更清楚直觀,實(shí)驗(yàn)將OD矩陣的上下車(chē)總?cè)藬?shù)用柱狀圖表示如圖8、圖9所示.
圖8 OD矩陣68路公交車(chē)上車(chē)人數(shù)預(yù)測(cè)分析柱狀圖
圖9 OD矩陣68路公交車(chē)下車(chē)人數(shù)預(yù)測(cè)分析柱狀圖
根據(jù)OD數(shù)據(jù)可以得到下面規(guī)律和優(yōu)化建議:
(1)居民出行規(guī)律
①人們對(duì)公交車(chē)的需求還是比較大的,幾乎百分之八十的人依然選擇了傳統(tǒng)城市公交車(chē)出行;
②居民乘坐公交車(chē)出行一般距離比較遠(yuǎn),一般都至少超過(guò)九站才下車(chē);
③居民在某路公交車(chē)中在1、7、9等位置的站點(diǎn)上車(chē)人數(shù)較多,在20、24、28、37、38等位置站點(diǎn)下車(chē)人數(shù)較多;
(2)城市公交車(chē)的優(yōu)化建議
①在上下車(chē)人數(shù)較多路段可以增設(shè)站點(diǎn)或者適當(dāng)改變公交車(chē)的??糠绞剑ò阎本€式改為港灣式),緩解上下車(chē)壓力;
②某路公交車(chē)的實(shí)際站點(diǎn)56個(gè),可縮減為39個(gè);
③在某公交車(chē)路線中,可以看到在1、7、9、20、24、28、37、38等出行人數(shù)較多的站點(diǎn)設(shè)置已經(jīng)非常密集了,因此無(wú)須再增設(shè),可以將這些站點(diǎn)中的直線??糠绞礁臑楦蹫呈酵??
采用機(jī)器學(xué)習(xí)聚類(lèi)算法對(duì)城市公交車(chē)站點(diǎn)進(jìn)行優(yōu)化分析,針對(duì)公交車(chē)的刷卡數(shù)據(jù)密度等因素,對(duì)公交車(chē)站點(diǎn)進(jìn)行有效的選址和壓縮,同時(shí)構(gòu)建上下車(chē)人數(shù)預(yù)測(cè)模型,分析出居民出行的OD矩陣.此優(yōu)化可以有效降低公交車(chē)運(yùn)輸成本,人們出行也更加方便,有利于緩解交通擁堵.另外,還可以為公交汽車(chē)公司提供輔助決策參考,在乘客少的路段可以提高行駛速度以提高效率、在上下車(chē)人數(shù)多的站點(diǎn)設(shè)置港灣式??糠绞降?本研究是針對(duì)城市公交車(chē)站點(diǎn)的設(shè)置進(jìn)行的優(yōu)化分析,同時(shí)本研究對(duì)火車(chē)、高鐵、BRT和輕軌地鐵等交通網(wǎng)絡(luò)規(guī)劃有很高的參考價(jià)值.