杜青松 李慧 劉振渤 馮子豪 楊玉潔
摘? 要:分析出租車載客熱點(diǎn)區(qū)域有利于掌握城市居民出行的時(shí)空分布特征。在深圳市出租車GPS抽樣數(shù)據(jù)的基礎(chǔ)上,引入DBSCAN空間聚類算法,并通過地圖匹配,對出租車載客點(diǎn)進(jìn)行聚類分析,利用數(shù)據(jù)挖掘手段得出出租車載客熱區(qū)。對5個(gè)典型載客熱區(qū)進(jìn)行分析,得出出租車載客量的時(shí)間分布特性,并探討其原因。研究結(jié)論有利于出租車公司了解客流分布規(guī)律和特征,提升對出租車調(diào)度的可行性和針對性,降低出租車空載率,減少運(yùn)營成本,可在一定程度上緩解交通擁堵。
關(guān)鍵詞:空載率;DBSCAN空間聚類;載客熱區(qū)
中圖分類號(hào):TP39;U121 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2023)19-0089-06
Analysis of Taxi Passenger Carrying Hotspots Based on DBSCAN Algorithm
DU Qingsong, LI Hui, LIU Zhenbo, FENG Zihao, YANG Yujie
(School of Automobile and Transportation, Xihua University, Chengdu? 610039, China)
Abstract: Analyzing the hot area of taxi passenger carrying is beneficial for understanding the spatiotemporal distribution characteristics of urban residents' travel. On the basis of GPS sampling data of taxis in Shenzhen, DBSCAN spatial clustering algorithm is introduced, and through map matching, clustering analysis is conducted on taxi loading points. Data mining methods are used to obtain taxi passenger carrying hot areas. Analyze 5 typical passenger carrying hot areas to obtain the time distribution characteristics of taxi car passenger carrying volume and explore their reasons. The research conclusion is beneficial for taxi companies to understand the distribution pattern and characteristics of passenger flow, improve the feasibility and pertinence of taxi scheduling, reduce the empty load rate of taxis, reduce operating costs, which can alleviate traffic congestion to some extent.
Keywords: No-load rate; DBSCAN spatial clustering; passenger carrying hot area
0? 引? 言
出租車出行是城市居民出行的重要方式之一,挖掘出租車的載客熱點(diǎn)區(qū)域能掌握城市居民出行的時(shí)空分布特征,同時(shí)為出租車司機(jī)提供有效的運(yùn)營調(diào)度信息,幫助其降低空載率,減少運(yùn)營成本。
目前已有諸多學(xué)者對出租車載客熱點(diǎn)區(qū)域挖掘及特征進(jìn)行了研究。孫立山等[1]采用改進(jìn)DBSCAN(density based spatial clustering of applications with noise)聚類算法對出租車載客熱區(qū)進(jìn)行挖掘,并利用BP神經(jīng)網(wǎng)絡(luò)對出行需求進(jìn)行了預(yù)測;韓勇等[2]利用DBSCAN聚類算法對出租車載客點(diǎn)數(shù)據(jù)進(jìn)行聚類分析后,通過核密度分析方法對載客熱區(qū)進(jìn)行了熱度評(píng)估;王鄭委[3]搭建Hadoop集群處理了出租車GPS數(shù)據(jù),并利用K-means聚類挖掘了出租車載客熱點(diǎn)區(qū)域;LUO等[4]提出了一種基于混合特征的密度測量方法,改進(jìn)了DBSCAN算法并驗(yàn)證了其可行性;Shen等[5]采用網(wǎng)格劃分思想改進(jìn)了DBSCAN算法并提取出乘客上下車熱點(diǎn);Yu等[6]建立了基于密度的帶噪聲時(shí)空聚類算法,提取了隨時(shí)間變化的歷史出租車乘客上下車熱點(diǎn)區(qū)域;Qi等[7]提出一種改進(jìn)的空間聚類算法RFDBSCAN,挖掘了出租車接送熱點(diǎn);田甜[8]利用出租車軌跡等數(shù)據(jù)分析了城市居民出行行為特征,并識(shí)別了城市交通熱點(diǎn)、探究了出租車需求影響因素;Hu等[9]利用出租車GPS數(shù)據(jù)識(shí)別了載客熱點(diǎn)區(qū)域,并分析了不同土地利用類型下司機(jī)搜尋乘客的時(shí)間序列分布動(dòng)態(tài)特征;Yang等[10]通過分析乘客對出租車的需求、土地使用模式等的相關(guān)性,得出出租車很可能是地鐵出行的補(bǔ)充,而與公交出行存在競爭關(guān)系。
對于出租車載客的熱點(diǎn)區(qū)域挖掘已有多種聚類算法,由于DBSCAN算法無須確定簇的個(gè)數(shù),在熱點(diǎn)區(qū)域挖掘上比K-means聚類算法有一定的優(yōu)勢,故本文將使用DBSCAN聚類算法對出租車GPS數(shù)據(jù)進(jìn)行聚類,再對聚類結(jié)果與實(shí)際地圖匹配,推算載客熱區(qū),結(jié)合時(shí)間因素分析不同時(shí)間段出租車載客熱點(diǎn)區(qū)域產(chǎn)生的原因及特征。
1? 出租車載客出行規(guī)律
1.1? 基礎(chǔ)數(shù)據(jù)及預(yù)處理
本文以Desheng Zhang教授的深圳市2013年10月22日星期二的出租車開源數(shù)據(jù)為研究對象,對數(shù)據(jù)進(jìn)行抽樣,其包含字段如表1所示。對數(shù)據(jù)進(jìn)行預(yù)處理,挖掘數(shù)據(jù)的基本信息,其步驟主要包括數(shù)據(jù)清洗、出租車載客狀態(tài)識(shí)別以及出租車的載客點(diǎn)提取。
1.1.1? 數(shù)據(jù)清洗
由于出租車是在建筑以及隧道較多的城市內(nèi)運(yùn)行,在采集GPS數(shù)據(jù)時(shí)可能會(huì)受到一定的干擾,出現(xiàn)部分噪聲數(shù)據(jù),首先就需要進(jìn)行數(shù)據(jù)的清洗工作,保證數(shù)據(jù)的正確性。處理后的部分?jǐn)?shù)據(jù)如表2所示。
1.1.2? 出租車載客狀態(tài)識(shí)別
由于出租車GPS數(shù)據(jù)僅提供出租車某時(shí)刻的載客狀態(tài),故需要將各個(gè)車輛按時(shí)間線展開,找出乘客上車與下車時(shí)的數(shù)據(jù)。當(dāng)同一車輛ID的Open Status列數(shù)據(jù)由0變?yōu)?時(shí),即代表出租車從空載狀態(tài)變?yōu)檩d客狀態(tài),該點(diǎn)即為出租車上客點(diǎn);同理,當(dāng)該列數(shù)據(jù)由1變?yōu)?時(shí),表示出租車從載客狀態(tài)變?yōu)榭蛰d狀態(tài),該點(diǎn)即為出租車的下客點(diǎn)。
1.1.3? 出租車的載客點(diǎn)提取
結(jié)合GPS軌跡數(shù)據(jù)和載客狀態(tài)數(shù)據(jù),提取出租車的載客點(diǎn),利用Python可視化工具,繪制出租車載客點(diǎn)熱力柵格圖,如圖1所示??梢钥闯龀鲎廛嚧蟛糠值妮d客點(diǎn)均為深圳市區(qū)內(nèi),與客觀相符。
1.2? 出租車載客時(shí)間分布規(guī)律
對抽樣數(shù)據(jù)統(tǒng)計(jì)一天內(nèi)各小時(shí)訂單量,如圖2所示。從圖中能明顯看出,乘客在一天內(nèi)早、中、晚均有一個(gè)出行需求的高峰。在00:00到04:00,乘客對出租車的需求驟降,在之后的06:00到08:00,出租車載客數(shù)量明顯上升,而在12:00、18:00兩個(gè)時(shí)間段,出現(xiàn)規(guī)律性的載客低谷期,而18:00后呈上升趨勢,這可能與深圳平均下班時(shí)間較晚有一定的關(guān)系。
1.3? 出租車載客時(shí)長分布規(guī)律
出租車完成1次訂單所花費(fèi)的時(shí)長即為出租車的載客時(shí)長。將載客時(shí)長轉(zhuǎn)換成分鐘制,利用Python繪制訂單平均持續(xù)時(shí)間的箱型圖,如圖3所示。
由圖3可知,一天中各時(shí)段深圳出租車的載客平均時(shí)長不會(huì)超過20分鐘,而在07:00—09:00時(shí)段和16:00—18:00時(shí)段,出租車的平均載客時(shí)長會(huì)處在較高的水平,可能是由于這兩個(gè)時(shí)段分別處于上下班高峰時(shí)段,乘客的通勤出行需求較大,導(dǎo)致了道路交通的擁堵,從而影響了出租車的出行速度,因而這兩個(gè)時(shí)段載客時(shí)長較其余時(shí)段較長。
2? 熱點(diǎn)區(qū)域提取及分析
DBSCAN算法是一種常用的密度聚類方法,其最核心的思想就是先發(fā)現(xiàn)高密度的樣本,把相近的高密度樣本逐步連成一片,進(jìn)而生成各種簇。而且可以在有噪聲的數(shù)據(jù)中發(fā)現(xiàn)不同類型的數(shù)據(jù)集[11]。
2.1? 算法參數(shù)確定
使用DBSCAN聚類算法需要首先確定搜索半徑ε以及鄰域內(nèi)的最小包含點(diǎn)數(shù)MinPts兩個(gè)參數(shù)。若搜索半徑ε恒定,過大的MinPts會(huì)導(dǎo)致聚類后只有高密度的點(diǎn)歸為簇,將識(shí)別出過多的噪聲點(diǎn);反之,會(huì)導(dǎo)致聚類后出現(xiàn)較多的簇,甚至將噪聲點(diǎn)歸入簇內(nèi)。以研究區(qū)域內(nèi)的數(shù)據(jù)為例,統(tǒng)計(jì)不同搜索半徑ε條件下聚類生成的簇的個(gè)數(shù)隨不同大小MinPts的變化,其具體結(jié)果如圖4所示。
圖4表明當(dāng)MinPts值大于等于30時(shí),該聚類生成的簇的個(gè)數(shù)在不同搜索半徑下變化較小,趨于穩(wěn)定因而本文將取MinPts的參數(shù)取為30。
若MinPts恒定,搜索半徑ε的取值過大會(huì)導(dǎo)致聚類后簇內(nèi)有較多噪聲點(diǎn);反之,會(huì)導(dǎo)致聚類后簇外噪聲點(diǎn)過多。在取MinPts為30時(shí),將不同搜索半徑ε(0.001、0.002、0.003、0.004及0.005)下聚類結(jié)果的簇中心點(diǎn)進(jìn)行可視化,如圖5所示。
分析表明,當(dāng)ε = 0.001、MinPts = 30時(shí),聚類效果最佳,既保留了城市中心熱點(diǎn)載客區(qū)域,也不至于將中型簇合并為一個(gè)大簇,符合城市中心區(qū)域出租車載客量較城市邊緣地帶多的實(shí)際。
2.2? 熱區(qū)提取
結(jié)合上節(jié)中選定的參數(shù),對研究區(qū)域內(nèi)出租車載客點(diǎn)進(jìn)行DBSCAN聚類算法分析,一共得到了31個(gè)簇,即31個(gè)載客熱點(diǎn)區(qū)域。為了獲取各個(gè)熱點(diǎn)區(qū)域的中心位置,方便后續(xù)處理,故對各簇內(nèi)數(shù)據(jù)做均值化處理。其式為:
(1)
式中:Ji(x)表示求得的第i個(gè)簇的均值經(jīng)度;n表示由DBSCAN聚類后第i個(gè)簇內(nèi)經(jīng)度數(shù)據(jù)個(gè)數(shù);Lngm表示第i個(gè)簇內(nèi)第m個(gè)經(jīng)度數(shù)據(jù)。
同理,對簇內(nèi)緯度數(shù)據(jù)做均值處理。
(2)
式中:Wi(x)表示求得的第i個(gè)簇的均值緯度;表示由DBSCAN聚類后第i個(gè)簇內(nèi)緯度數(shù)據(jù)個(gè)數(shù);Latm表示第i個(gè)簇內(nèi)第m個(gè)緯度數(shù)據(jù)。
通過計(jì)算,獲得出租車各載客點(diǎn)的中心位置坐標(biāo),部分?jǐn)?shù)據(jù)如表3所示。
利用DBSCAN聚類算法得出的簇中,結(jié)合高德開放平臺(tái),載客量前5的位置坐標(biāo)以及實(shí)際位置如表4所示。其余出租車載客熱點(diǎn)區(qū)域分別為:國貿(mào)商業(yè)大廈、水圍村、深圳北站、賽龍大院、深圳人才公園、深圳歡樂谷、荔枝公園、金威大廈、深圳市工人文化宮體育館、深圳東站、深圳市人民醫(yī)院、深圳大劇院、深圳市民公園、深圳購物公園、布吉一村、紅嶺中學(xué)(園嶺校區(qū))、建設(shè)天橋、匯商名苑、龍勝配件城、石芽嶺公園、左庭右院南區(qū)、皇冠體育中心、紅群樓小區(qū)、文心公園、卓越時(shí)代廣場、KK mall。
2.3? 熱區(qū)提取
由2.2節(jié)獲取的5個(gè)出租車載客熱點(diǎn)區(qū)域,分別對各區(qū)域載客訂單按時(shí)間排序,獲取一天24小時(shí)各小時(shí)的載客訂單量,對各熱點(diǎn)區(qū)域進(jìn)行特征分析。
2.3.1? 深圳寶安國際機(jī)場區(qū)域
深圳寶安國際機(jī)場區(qū)域?yàn)槿燧d客量最高區(qū)域,利用Python可視化工具,獲取一天各小時(shí)的載客訂單量折線條形圖,如圖6所示。
結(jié)果表明,該區(qū)域一天中出租車訂單量集中在夜間18:00—02:00時(shí)段,在02:00之后載客訂單會(huì)逐漸減少,直到09:00之后才會(huì)逐漸上升,而夜間23:00—02:00之間的載客量最大,可能是由于夜間公共交通部分停運(yùn),乘客只能選擇出租車出行,因而該時(shí)段載客訂單量達(dá)到高峰。
2.3.2? 皇庭居區(qū)域
皇庭居區(qū)域?yàn)槿燧d客量次高的區(qū)域。該區(qū)域住宅區(qū)較多,同時(shí)離地鐵口較近且該地鐵口包含兩條地鐵線路。利用Python可視化工具,獲取一天當(dāng)中各小時(shí)載客訂單量,具體如圖7所示。
結(jié)果表明,該區(qū)域00:00—01:00時(shí)段為出租車訂單量高峰時(shí)段,可能由于地鐵停運(yùn)保養(yǎng),出租車出行成為居民重要的出行方式。該區(qū)域雖然住宅區(qū)較多,但方便的軌道交通比出租車更具有吸引力,因而居民選擇軌道交通出行較多。其余3個(gè)訂單量小高峰時(shí)間段為通勤高峰時(shí)間段,乘客出行基數(shù)大,從而使得出租車訂單量較其余時(shí)段更多。
2.3.3? 港逸豪庭區(qū)域
港逸豪庭區(qū)域?yàn)槿燧d客量第三高的區(qū)域,深圳站坐落于該區(qū)域。利用Python可視化工具,繪制出該區(qū)域一天內(nèi)各小時(shí)載客訂單量如圖8所示。
結(jié)果表明,該區(qū)域僅在04:00前后載客量有明顯低谷,是由于夜間時(shí)段居民生產(chǎn)活動(dòng)減少,因而導(dǎo)致了出租車訂單量的減少。而在白天時(shí)段,由于該區(qū)域附近有火車站,居民出行活動(dòng)頻繁,對出租車的需求較大,因而出租車訂單量較多。但該區(qū)域17:00前后出租車訂單量也有一個(gè)小低谷,是由于該時(shí)段為出租車司機(jī)換班時(shí)段,出租車司機(jī)載客意愿下降甚至出現(xiàn)拒載現(xiàn)象,因而導(dǎo)致了訂單量的下降。
2.3.4? 越港商業(yè)中心區(qū)域
越港商業(yè)中心區(qū)域?yàn)檩d客量第四高的區(qū)域,該區(qū)域附近大多為商城購物中心,利用Python可視化工具繪制出的各小時(shí)載客訂單量如圖9所示。
結(jié)果表明,該區(qū)域在夜間20:00—02:00時(shí)段的載客訂單量一直保持一個(gè)較高的水平,是由于夜間道路交通狀況良好,且公共交通大多停運(yùn),乘客為了更快的出行而多選擇乘坐出租車,并側(cè)面反映出深圳市居民的夜生活較為活躍。而在10:00—12:00時(shí)段以及15:00前后為該區(qū)域出租車載客低谷期,是由于這些時(shí)段該區(qū)域居民出行活動(dòng)減少,將出租車作為出行工具的乘客也相應(yīng)減少。
2.3.5? 深圳五洲賓館區(qū)域
深圳五洲賓館區(qū)域?yàn)檩d客訂單量第五高的區(qū)域。附近除了賓館外還分布著較多的商業(yè)大廈,為深圳市的中心區(qū)域。同樣利用Python可視化工具繪制出該區(qū)域24小時(shí)內(nèi)的載客訂單分布,如圖10所示。
結(jié)果表明,白天時(shí)段由于附近商業(yè)大廈較多,居民均在公司辦公,出行活動(dòng)較少,因此出租車訂單量一直較少。而在夜間19:00—01:00時(shí)段隨著下班后居民出行活動(dòng)增加,并且夜間時(shí)段道路交通狀況良好,對出租車需求隨之增長,保持了較多且穩(wěn)定的訂單量。側(cè)面還反映出深圳市平均下班時(shí)間較晚,尤其在22:00前后下班的員工較多。
3? 結(jié)? 論
研究深圳市出租車載客熱點(diǎn)區(qū)域,通過DBSCAN聚類算法,對深圳市一天內(nèi)載客訂單量的前5位出租車載客熱點(diǎn)區(qū)域進(jìn)行了研究分析,得出了深圳市出租車前5位載客熱點(diǎn)區(qū)域一天24小時(shí)各時(shí)段的載客訂單量,分析各時(shí)段訂單量分布的原因,為出租車司機(jī)提供有效的運(yùn)營調(diào)度信息,幫助司機(jī)降低空載率,提高道路利用率,緩解交通擁堵。
在后續(xù)可以通過進(jìn)一步獲取更長時(shí)間跨度的出租車出行數(shù)據(jù)以及相關(guān)的氣象等數(shù)據(jù),深入挖掘出租車出行時(shí)空特性。同時(shí),在研究方法上可以進(jìn)一步考慮對聚類后區(qū)域中心點(diǎn)權(quán)重等多因素。
參考文獻(xiàn):
[1] 孫立山,賈琳,魏中華,等.基于GPS數(shù)據(jù)的出租車出行需求預(yù)測研究 [J].交通信息與安全,2021,39(5):128-136.
[2] 韓勇,樊順,周林,等.基于聚類算法的出租載客點(diǎn)時(shí)空分布特征研究 [J].中國海洋大學(xué)學(xué)報(bào):自然科學(xué)版,2019,49(S1):155-162.
[3] 王鄭委.基于大數(shù)據(jù)Hadoop平臺(tái)的出租車載客熱點(diǎn)區(qū)域挖掘研究 [D].北京:北京交通大學(xué),2016.
[4] LUO T,ZHENG X W,XU G L,et al. An Improved DBSCAN Algorithm to Detect Stops in Individual Trajectories [J/OL].ISPRS International Journal of Geo-Information,2017,6(3):[2023-03-05].https://doi.org/10.3390/ijgi6030063.
[5] SHEN Y,ZHAO L G,F(xiàn)AN J. Analysis and Visualization for Hot Spot Based Route Recommendation Using Short-Dated Taxi GPS Traces [J].Information,2015,6(2):134-151.
[6] YU H,LI Z N,ZHANG G H,et al. Extracting and Predicting Taxi Hotspots in Spatiotemporal Dimensions Using Conditional Generative Adversarial Neural Networks [J].IEEE Transactions on Vehicular Technology,2020,69(4):3680-3692.
[7] QI H,LIU P P. Mining Taxi Pick-Up Hotspots Based on Spatial Clustering [C]//2018 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computing, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI).Guangzhou:IEEE,2018:1711-1717.
[8] 田甜.基于出租車軌跡數(shù)據(jù)的居民出行特征及影響因素研究 [D].重慶:重慶交通大學(xué),2022.
[9] HU X W,AN S,WANG J. Taxi Driver's Operation Behavior and Passengers' Demand Analysis Based on GPS Data [J/OL].Journal of Advanced Transportation,2018,2018(1):1-11[2023-03-05].https://www.hindawi.com/journals/jat/2018/6197549/.
[10] YANG Z,F(xiàn)RANZ M L,ZHU S J,et al. Analysis of Washington, DC taxi demand using GPS and land-use data [J].Journal of Transport Geography,2018,66:35-44.
[11] 劉志遠(yuǎn),張文波.交通大數(shù)據(jù)理論與方法 [M].杭州:浙江大學(xué)出版社,2020.
作者簡介:杜青松(1998—),男,漢族,四川廣元人,碩士研究生在讀,研究方向:交通信息工程及控制;通訊作者:李慧(1976—),男,漢族,四川成都人,副教授,碩士研究生,研究方向:道路交通安全。
收稿日期:2023-04-05