基于密度分區(qū)的出租車(chē)載客熱點(diǎn)區(qū)域聚類(lèi)分析

2023-11-02 13:05:18任丹萍陳湘國(guó)

計(jì)算機(jī)應(yīng)用與軟件 2023年10期

任丹萍劉琳陳湘國(guó)

(河北工程大學(xué)信息與電氣工程學(xué)院河北邯鄲 056038)

(河北省安防信息感知與處理重點(diǎn)實(shí)驗(yàn)室河北邯鄲 056038)

0 引言

近年來(lái),由于國(guó)家政策對(duì)城市化發(fā)展的大力扶持,城市人口急劇增長(zhǎng),城市居民收入增加、生活水平改善,出租車(chē)逐漸成為城市居民出行的重要選擇方式[1]。同時(shí)隨著車(chē)載GPS的普及[2],交通軌跡大數(shù)據(jù)愈發(fā)受到重視,出租車(chē)GPS軌跡數(shù)據(jù)作為其中一項(xiàng)重要組成部分,成為該領(lǐng)域研究熱點(diǎn)[3]。

通過(guò)對(duì)出租車(chē)軌跡數(shù)據(jù)內(nèi)在規(guī)律的挖掘,可以得到城市人口活動(dòng)特征。例如在城市人口活動(dòng)的時(shí)空規(guī)律分析方面,張俊濤等[4]提出將高斯定律引入出租車(chē)軌跡挖掘,通過(guò)軌跡的方向和數(shù)量特征,基于不同時(shí)間段對(duì)出租車(chē)軌跡數(shù)據(jù)進(jìn)行挖掘。當(dāng)然,城市居民的活動(dòng)并非一成不變,在城市居民出行特征差異性方面[5],鄭曉琳等[6]根據(jù)出租車(chē)軌跡數(shù)據(jù)中的時(shí)空分布差異、行程距離差異、空間社團(tuán)結(jié)構(gòu)差異三個(gè)方面,反映出城市人口活動(dòng)模式的差異性,從而提升該研究在城市道路規(guī)劃等領(lǐng)域的應(yīng)用。出租車(chē)軌跡數(shù)據(jù)對(duì)城市人口活動(dòng)規(guī)律的分析也不局限于日常活動(dòng),對(duì)于特殊的出行場(chǎng)景,例如旅游[7]、購(gòu)物[8]等行為亦可以進(jìn)行規(guī)律的挖掘。

基于不同應(yīng)用場(chǎng)景,采用不同研究方法。結(jié)合出租車(chē)GPS軌跡數(shù)據(jù)的特點(diǎn),選取聚類(lèi)算法對(duì)熱點(diǎn)區(qū)域進(jìn)行挖掘,會(huì)達(dá)到更好的熱點(diǎn)區(qū)域分布效果[9]?；诿芏鹊木垲?lèi)算法更適用于移動(dòng)軌跡數(shù)據(jù)的聚類(lèi),對(duì)軌跡數(shù)據(jù)進(jìn)行劃分,例如DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法[10]可以從隨機(jī)分布的出租車(chē)軌跡數(shù)據(jù)中發(fā)現(xiàn)聚類(lèi)簇。在出租車(chē)載客熱點(diǎn)區(qū)域的分析過(guò)程中,劉盼盼[11]提出了一種帶有范圍控制的算法,可以對(duì)空間數(shù)據(jù)快速聚類(lèi),實(shí)現(xiàn)出租車(chē)軌跡數(shù)據(jù)的細(xì)聚類(lèi);王貝貝[12]則是從時(shí)間的角度結(jié)合聚類(lèi)算法對(duì)熱點(diǎn)區(qū)域進(jìn)行挖掘。但是由于該聚類(lèi)算法采用的全局參數(shù)會(huì)導(dǎo)致聚類(lèi)結(jié)果的精確度不高[13],所以,Kumar等[14]便對(duì)DBSCAN的聚類(lèi)結(jié)果進(jìn)行二次加工,使用最近原型規(guī)則將其擴(kuò)展至數(shù)據(jù)集的其余部分。蔡莉等[15]則是從時(shí)空特征的角度,融合了位置數(shù)據(jù),該模型基于數(shù)據(jù)層面,解決了軌跡數(shù)據(jù)分布不均勻的問(wèn)題。

在針對(duì)出租車(chē)軌跡數(shù)據(jù)的研究中,挖掘的載客熱點(diǎn)區(qū)域精確度不高,本文根據(jù)出租車(chē)GPS軌跡數(shù)據(jù)分布不均勻的特點(diǎn),提出一種基于密度分區(qū)的聚類(lèi)算法,對(duì)出租車(chē)軌跡數(shù)據(jù)進(jìn)行聚類(lèi)分析,得到城市人口活動(dòng)熱點(diǎn)區(qū)域。

1 數(shù)據(jù)預(yù)處理

1.1 數(shù)據(jù)描述

出租車(chē)軌跡數(shù)據(jù)集源于成都市1.4萬(wàn)多輛出租車(chē)的實(shí)際行駛軌跡,平均每天會(huì)產(chǎn)生5 000多萬(wàn)條出租車(chē)GPS軌跡數(shù)據(jù)?；谘芯坑布h(huán)境的限制,選取成都市一周內(nèi)的出租車(chē)GPS原始軌跡數(shù)據(jù)集,即以2014年8月18日至2014年8月24日的軌跡數(shù)據(jù)為例,作為實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集包含五個(gè)屬性,具體如表1所示。

表1 出租車(chē)GPS軌跡數(shù)據(jù)屬性

1.2 數(shù)據(jù)處理環(huán)境

基于出租車(chē)軌跡數(shù)據(jù)量較大,為提高軌跡數(shù)據(jù)處理速度,結(jié)合Spark部署模式的特點(diǎn)和硬件條件的限制,搭建Spark平臺(tái)的local模式作為數(shù)據(jù)預(yù)處理的計(jì)算環(huán)境。具體過(guò)程為下載ApacheSpark并解壓tra包,上傳至集群的每個(gè)節(jié)點(diǎn),設(shè)置PySpark模式的環(huán)境變量,從而可以在該模式下進(jìn)行基于Python的數(shù)據(jù)預(yù)處理工作。

1.3 數(shù)據(jù)清洗

目前出租車(chē)原始軌跡數(shù)據(jù)采集過(guò)程中,主要依靠車(chē)載GPS傳感器進(jìn)行數(shù)據(jù)采集與傳輸,但由于各種外部或內(nèi)部因素的影響,例如傳感器故障、GPS信號(hào)較差、人為干預(yù)等,會(huì)導(dǎo)致GPS信號(hào)斷傳、重傳,原始數(shù)據(jù)源缺失、重復(fù)或者存在異常值等。針對(duì)出租車(chē)軌跡數(shù)據(jù)中的“噪聲”數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,是數(shù)據(jù)預(yù)處理的第一步,也是獲取準(zhǔn)確的軌跡數(shù)據(jù)集的必要步驟。針對(duì)原始軌跡數(shù)據(jù)存在的問(wèn)題,具體清洗過(guò)程如下：

(1) 去空。出租車(chē)GPS原始軌跡數(shù)據(jù)中包含部分缺失字段,影響數(shù)據(jù)分析的準(zhǔn)確度。通過(guò)Python編程,篩選并刪除缺失字段及字段所在的數(shù)據(jù)行,從而實(shí)現(xiàn)了數(shù)據(jù)集的完整性。

(2) 排序。出租車(chē)GPS原始軌跡數(shù)據(jù)呈無(wú)序排列。通過(guò)將出租車(chē)軌跡數(shù)據(jù)先以出租車(chē)序號(hào)升序排列,再以當(dāng)前時(shí)刻升序排列,可以得到一天內(nèi)有序的軌跡數(shù)據(jù),達(dá)到了軌跡數(shù)據(jù)集的有序性的目的。

(3) 降重。出租車(chē)GPS原始軌跡數(shù)據(jù)含有重復(fù)數(shù)據(jù)。將出租車(chē)序號(hào)和當(dāng)前時(shí)刻兩個(gè)字段屬性共同作為去除重復(fù)數(shù)據(jù)的評(píng)判標(biāo)準(zhǔn),實(shí)現(xiàn)出租車(chē)軌跡數(shù)據(jù)的正確降重。

1.4 載客點(diǎn)提取

出租車(chē)軌跡數(shù)據(jù)的車(chē)載狀態(tài)發(fā)生變化的具體表現(xiàn)為,當(dāng)數(shù)值從“0”變?yōu)椤?”時(shí),表示當(dāng)前時(shí)刻出租車(chē)的車(chē)載狀態(tài)從空載變?yōu)檩d客,說(shuō)明此時(shí)有乘客上車(chē),其值為“1”對(duì)應(yīng)的經(jīng)緯度位置為出租車(chē)載客上車(chē)點(diǎn)位置。數(shù)值從“1”變?yōu)椤?”,表示當(dāng)前時(shí)刻出租車(chē)的車(chē)載狀態(tài)從載客變?yōu)榭蛰d,說(shuō)明此時(shí)有乘客下車(chē),其值為“0”對(duì)應(yīng)的經(jīng)緯度位置則為下車(chē)點(diǎn)位置。

具體地,通過(guò)Python編程將每行數(shù)據(jù)的車(chē)載狀態(tài)減去上一行數(shù)據(jù)的車(chē)載狀態(tài),通過(guò)其差值判斷此時(shí)刻出租車(chē)的車(chē)載狀態(tài)。若計(jì)算差值結(jié)果為“1”,表示該過(guò)程為乘客上車(chē)過(guò)程,選取車(chē)載狀態(tài)為“1”的數(shù)據(jù)行為上車(chē)點(diǎn)。若計(jì)算差值結(jié)果為“-1”,表示該過(guò)程為乘客下車(chē)過(guò)程,選取車(chē)載狀態(tài)為“0”的數(shù)據(jù)行為下車(chē)點(diǎn),從而得到出租車(chē)載客點(diǎn)數(shù)據(jù)集。

1.5 數(shù)據(jù)篩選

出租車(chē)一次有效載客行駛時(shí)長(zhǎng)是取決于乘客的實(shí)際出行需求,因此基于出租車(chē)上下車(chē)載客點(diǎn)數(shù)據(jù)集,計(jì)算乘客下車(chē)對(duì)應(yīng)時(shí)刻與上車(chē)對(duì)應(yīng)時(shí)刻之間的時(shí)間差值,得到一次有效載客行駛時(shí)長(zhǎng)。出租車(chē)載客時(shí)長(zhǎng)的變化趨勢(shì)如圖1所示。

圖1 出租車(chē)載客行駛時(shí)長(zhǎng)

由圖1分析可知,出租車(chē)載客行駛時(shí)長(zhǎng)的高峰集中于10至20 min內(nèi)。隨著出租車(chē)載客行駛時(shí)長(zhǎng)增加,載客量逐漸減少,變化曲線呈現(xiàn)出先增后減的規(guī)律。結(jié)合實(shí)際,選取載客行駛時(shí)長(zhǎng)在2 min至2 h以?xún)?nèi)的軌跡數(shù)據(jù)。同時(shí)限定出租車(chē)載客行駛范圍,取東經(jīng)103°95′～104°18′和北緯30°54′～30°733′為研究區(qū)域。

1.6 坐標(biāo)轉(zhuǎn)換

為保證信息安全,不同地圖采用不同的坐標(biāo)系,因此軌跡數(shù)據(jù)匹配地圖時(shí)需要進(jìn)行坐標(biāo)轉(zhuǎn)換[16],即軌跡數(shù)據(jù)在同一地球的映射下,通過(guò)坐標(biāo)的加密和解密,進(jìn)行不同坐標(biāo)系統(tǒng)間的相互轉(zhuǎn)換。本文應(yīng)用的坐標(biāo)系種類(lèi)如表2所示。

表2 坐標(biāo)系說(shuō)明

2 出租車(chē)載客行為時(shí)空分析

2.1 載客時(shí)間特征分析

城市居民的基本出行規(guī)律具有周期性,并且考慮到一天的出租車(chē)載客量存在偶然性,所以計(jì)算一周內(nèi)工作日和非工作日的出租車(chē)平均載客量作為出租車(chē)載客高峰時(shí)段的分析數(shù)據(jù),得到工作日和非工作日不同時(shí)段內(nèi)出租車(chē)載客量隨時(shí)間的變化規(guī)律如圖2所示。

圖2 出租車(chē)載客高峰分析

由圖2分析可知,工作日和非工作日出租車(chē)載客量曲線變化趨勢(shì)總體相似。根據(jù)高峰期特征,即在某時(shí)間段內(nèi)出租車(chē)載客量明顯增多且高于相鄰時(shí)段內(nèi)出租車(chē)的載客量可知,工作日出租車(chē)每時(shí)段平均載客量共出現(xiàn)三個(gè)高峰期,分別為早高峰(9：00-11：00)、午高峰(13：00-15：00)和晚高峰(20：00-22：00),符合成都居民“早九晚十”的生活節(jié)奏。非工作日載客高峰期則分為午高峰(13：00-15：00)和晚高峰(20：00-22：00)。

此外,通過(guò)載客時(shí)長(zhǎng),應(yīng)用數(shù)學(xué)統(tǒng)計(jì)方法計(jì)算載客時(shí)長(zhǎng)分布數(shù),得到工作日和非工作日不同時(shí)間間隔內(nèi)出租車(chē)的載客量變化如圖3所示。

圖3 出租車(chē)載客時(shí)長(zhǎng)分布數(shù)

由圖3分析可知,在工作日和非工作日期間,出租車(chē)載客時(shí)長(zhǎng)數(shù)的變化趨勢(shì)基本一致,隨著載客時(shí)長(zhǎng)的增加,載客次數(shù)增長(zhǎng),至載客時(shí)長(zhǎng)為5至15 min內(nèi),載客次數(shù)達(dá)到高峰;超過(guò)30 min的時(shí)段內(nèi),出租車(chē)載客量?jī)H占全部的5%左右。由此可知,出租車(chē)載客時(shí)長(zhǎng)大部分集中在30 min以?xún)?nèi),選擇出租車(chē)出行更多的是短途出行。

2.2 載客空間特征分析

出租車(chē)載客空間,即出租車(chē)載客的上車(chē)點(diǎn)位置空間分布。結(jié)合出租車(chē)載客的時(shí)序特征,通過(guò)核密度分析不同時(shí)間段內(nèi)出租車(chē)載客空間分布規(guī)律如圖4所示。

圖4 每時(shí)段載客空間分布

由圖4分析可知,每時(shí)段的出租車(chē)載客空間分布不盡相同,比如在非高峰期時(shí)段內(nèi),出租車(chē)的載客區(qū)域分布較為平均;臨近載客高峰時(shí)段,載客的熱點(diǎn)區(qū)域分布逐漸凸顯。而在早高峰、午高峰和晚高峰期間,載客空間的分布層次最為分明,熱點(diǎn)區(qū)域分布集中。

因此,根據(jù)出租車(chē)載客的空間分布隨時(shí)間的變化呈現(xiàn)出的遞增和遞減規(guī)律,分析其載客空間分布圖,具體結(jié)果如表3所示。

表3 出租車(chē)載客區(qū)域統(tǒng)計(jì)表

3 出租車(chē)載客熱點(diǎn)區(qū)域挖掘

3.1 算法思想

基于密度分區(qū)的DBSCAN聚類(lèi)算法主要是通過(guò)求取每個(gè)出租車(chē)上車(chē)點(diǎn)位置數(shù)據(jù)的局部密度,得到密度峰值點(diǎn)作為簇中心。計(jì)算剩余軌跡點(diǎn)與密度峰值點(diǎn)間的歐氏距離,將其歸入到距離最小的峰值點(diǎn)鄰域內(nèi),實(shí)現(xiàn)對(duì)軌跡數(shù)據(jù)集基于密度的快速劃分,得到不同密度的軌跡數(shù)據(jù)集。計(jì)算不同軌跡數(shù)據(jù)集對(duì)應(yīng)的參數(shù)Eps和MinPts,實(shí)現(xiàn)基于密度分區(qū)的局部DBSCAN聚類(lèi),最后輸出合并聚類(lèi)結(jié)果。

3.2 算法步驟

基于密度分區(qū)的DBSCAN算法的相關(guān)定義如下：

定義1(局部密度) 對(duì)于給定的數(shù)據(jù)集D,其內(nèi)對(duì)象i的局部密度如下：

(1)

對(duì)于χ(x)函數(shù)定義為：

(2)

式中：dij表示對(duì)象i與j之間的歐氏距離;dc表示截?cái)嗑嚯x,且由于該參數(shù)對(duì)實(shí)驗(yàn)結(jié)果影響較小,因此該參數(shù)的取值為使得數(shù)據(jù)集D內(nèi)的每個(gè)對(duì)象的相鄰平均對(duì)象數(shù)約為數(shù)據(jù)集內(nèi)數(shù)據(jù)總數(shù)的2%[17]。

定義2(高局部密度點(diǎn)間的距離) 對(duì)于數(shù)據(jù)集D中的任意對(duì)象i,與局部更高密度點(diǎn)間的距離定義為：

(3)

其中,存在一種極端情況,即對(duì)象i本身的局部密度到達(dá)最高時(shí),則該點(diǎn)的δi值定義為：

(4)

定義3(決策值) 對(duì)于數(shù)據(jù)集D中的任意對(duì)象i,結(jié)合該點(diǎn)的局部密度ρi和高局部密度距離δi得到其決策值,定義如下：

γi=ρi×δi

(5)

基于上述算法定義的闡述,基于密度分區(qū)的DBSCAN算法具體步驟如下：

步驟1輸入出租車(chē)上車(chē)點(diǎn)位置數(shù)據(jù)集D,計(jì)算任意上車(chē)位置間的距離矩陣。

步驟2根據(jù)距離矩陣和截?cái)嗑嚯xdc,計(jì)算每個(gè)上車(chē)位置的局部密度ρi。

步驟3計(jì)算與高密度上車(chē)位置點(diǎn)的最小距離δi。

步驟4計(jì)算決策值γi,判斷決策值差值是否大于其均值,若是,則標(biāo)記為簇中心。

步驟5將剩余上車(chē)位置數(shù)據(jù)點(diǎn)按其局部密度降序排列,依次判斷并劃分到距離自己最近的簇中心,生成不同密度的上車(chē)點(diǎn)位置數(shù)據(jù)集Di。

步驟6計(jì)算不同密度上車(chē)點(diǎn)密度數(shù)據(jù)集Di對(duì)應(yīng)的參數(shù)Epsi和MinPtsi。

步驟7將上車(chē)點(diǎn)密度數(shù)據(jù)集內(nèi)的所有數(shù)據(jù)點(diǎn)均標(biāo)記為未訪問(wèn)狀態(tài),任選一個(gè)未訪問(wèn)的上車(chē)點(diǎn),判斷該上車(chē)點(diǎn)以Epsi為半徑的鄰域內(nèi)是否包含MinPtsi個(gè)上車(chē)點(diǎn)。若是,標(biāo)記為核心點(diǎn),建立新簇C,將鄰域內(nèi)所有的上車(chē)點(diǎn)加入簇C;否則,標(biāo)記為噪聲點(diǎn)。

步驟8將簇C中尚未訪問(wèn)的上車(chē)點(diǎn)依次計(jì)算其鄰域內(nèi)是否包含至少M(fèi)inPtsi個(gè)上車(chē)點(diǎn)。若是,則將鄰域內(nèi)未歸入任何一個(gè)簇的上車(chē)點(diǎn)加入到簇C中。

步驟9重復(fù)步驟8,繼續(xù)檢查C中未訪問(wèn)的上車(chē)點(diǎn),直至沒(méi)有新的上車(chē)點(diǎn)加入簇C為止。

步驟10重復(fù)步驟7-步驟9,直到所有上車(chē)點(diǎn)都加入某個(gè)簇或者標(biāo)記為噪聲點(diǎn)。合并不同密度上車(chē)點(diǎn)位置數(shù)據(jù)集Di的聚類(lèi)結(jié)果,輸出。

3.3 參數(shù)確定

本文利用出租車(chē)軌跡數(shù)據(jù)集自身的空間特性,自適應(yīng)地求取參數(shù)值[18]。

(1) 確定Eps參數(shù)候選列表。參數(shù)Eps的選取,通過(guò)計(jì)算輸入的出租車(chē)上車(chē)點(diǎn)位置數(shù)據(jù)集D中每個(gè)元素間的歐氏距離,得到其距離分布矩陣DISTn×n如下：

DISTn×n={dist(i,j)|1≤i≤n,1≤j≤n}

(6)

式中：n表示數(shù)據(jù)集D中對(duì)象數(shù)量;DISTn×n矩陣內(nèi)的每一個(gè)元素為數(shù)據(jù)集D中的對(duì)象i和對(duì)象j間的歐氏距離。

將距離分布矩陣DISTn×n內(nèi)的每一行元素按照升序進(jìn)行排列,則第K列(K=1,2,…,n)的元素即為數(shù)據(jù)集D內(nèi)所有對(duì)象的K-最近鄰距離向量,表示為DISTn×k。對(duì)DISTn×k內(nèi)的元素求數(shù)學(xué)期望,得到K-最近鄰的平均距離作為參數(shù)Eps的候選參數(shù)列表,如圖5所示。

圖5 Eps參數(shù)候選列表和K值關(guān)系

(2) 確定MinPts參數(shù)列表。參數(shù)MinPts的選取,在參數(shù)Eps的基礎(chǔ)上,求出每個(gè)Eps對(duì)應(yīng)的鄰域內(nèi)包含的對(duì)象數(shù),采用數(shù)學(xué)期望法計(jì)算所有對(duì)象數(shù)的均值,即為數(shù)據(jù)集D的鄰域密度閾值MinPts的值,計(jì)算公式如下：

(7)

式中：n為數(shù)據(jù)集D中的對(duì)象總數(shù);Pi為對(duì)象i在以Eps為半徑的鄰域內(nèi)包含的對(duì)象數(shù)量。MinPts參數(shù)候選列表與K值的關(guān)系曲線如圖6所示。

圖6 MinPts參數(shù)候選列表和K值關(guān)系

(3) 確定最優(yōu)參數(shù)。根據(jù)上述內(nèi)容確定的參數(shù)列表,依次選取K列元素對(duì)應(yīng)的Eps值和MinPts值作為輸入進(jìn)行DBSCAN算法聚類(lèi),可以得到不同K值對(duì)應(yīng)的最終聚類(lèi)結(jié)果和生成的簇?cái)?shù)。當(dāng)同一個(gè)簇?cái)?shù)連續(xù)出現(xiàn)三次及以上次數(shù)時(shí),聚類(lèi)結(jié)果趨于穩(wěn)定,直至簇?cái)?shù)再發(fā)生變化前,選取最后的K值最為最優(yōu)K值,此時(shí)最優(yōu)K值對(duì)應(yīng)的Eps和MinPts的值作為最優(yōu)參數(shù)。通過(guò)該計(jì)算方法得到的聚類(lèi)簇?cái)?shù)與K值之間的關(guān)系如圖7所示。

圖7 聚類(lèi)簇?cái)?shù)和K值關(guān)系

可以看出,當(dāng)簇?cái)?shù)為6時(shí)聚類(lèi)結(jié)果趨于穩(wěn)定,直至簇?cái)?shù)再次發(fā)生變化前取得最優(yōu)K值,此時(shí)K=12,結(jié)合圖5、圖6可知,對(duì)應(yīng)的最優(yōu)Eps=0.006 593 03,MinPts=18。

3.4 結(jié)果分析

選用的出租車(chē)實(shí)際上車(chē)點(diǎn)位置數(shù)據(jù)集含有7 824個(gè)數(shù)據(jù),對(duì)其進(jìn)行不同聚類(lèi)分析,聚類(lèi)參數(shù)的選取和聚類(lèi)結(jié)果如表4所示,具體聚類(lèi)結(jié)果如圖8所示。

(a) 原始數(shù)據(jù) (b) DBSCAN算法

表4 參數(shù)選取和聚類(lèi)結(jié)果分析

從參數(shù)選取方面對(duì)比可知,DBSCAN聚類(lèi)算法的參數(shù)需要依靠人工經(jīng)驗(yàn)確定,上述參數(shù)在MinPts一定的情況下,以0.01為初始值,5×10-6為步長(zhǎng),需經(jīng)過(guò)18 675次調(diào)參得出。KANN-DBSCAN算法和基于密度分區(qū)的聚類(lèi)算法則可以通過(guò)計(jì)算自適應(yīng)得到最優(yōu)參數(shù)。

從聚類(lèi)結(jié)果方面對(duì)比可知,本文算法的精確率有所提高,主要因?yàn)樵卺槍?duì)數(shù)據(jù)密度分布不均勻情況下,無(wú)論是DBSCAN聚類(lèi)算法還是KANN-DBSCAN算法,兩者均采用全局參數(shù),得出的結(jié)果只能反映研究范圍內(nèi)最熱門(mén)的乘車(chē)區(qū)域,無(wú)法精確地反映出再往下一級(jí)的熱門(mén)乘車(chē)區(qū)域。但這并不符合實(shí)際情況,如果出租車(chē)都集中于圖8(b)和圖8(c)所示的熱門(mén)區(qū)域,這不僅會(huì)造成打車(chē)供需的不平衡,還會(huì)導(dǎo)致交通擁堵,反而得不償失?；诿芏确謪^(qū)的聚類(lèi)算法很好地解決了這一問(wèn)題,針對(duì)同一等級(jí)的局部密度自適應(yīng)生成對(duì)應(yīng)的局部參數(shù),進(jìn)行局部數(shù)據(jù)的聚類(lèi)后合并,聚類(lèi)的結(jié)果如表4所示?；诿芏确謪^(qū)的聚類(lèi)算法共生成20個(gè)簇,也就是20個(gè)相對(duì)熱門(mén)的乘車(chē)區(qū)域,相較于其他兩種算法,對(duì)全城出租車(chē)的調(diào)度、平衡乘車(chē)供求都具有一定的積極作用。但也由于該算法是針對(duì)局部密度進(jìn)行討論,所以在時(shí)間復(fù)雜度方面并未有所提高。

3.5 實(shí)驗(yàn)結(jié)果展示

基于上述研究?jī)?nèi)容,對(duì)工作日和非工作日的各時(shí)段載客高峰期進(jìn)行基于密度分區(qū)的聚類(lèi)分析和結(jié)果展示。

(1) 工作日各時(shí)段載客高峰期聚類(lèi)結(jié)果。工作日各時(shí)段載客高峰期經(jīng)過(guò)基于密度分區(qū)的聚類(lèi)分析,具體聚類(lèi)分析結(jié)果如表5所示。

表5 工作日載客高峰分析結(jié)果

可以看出,工作日每時(shí)段載客高峰期對(duì)應(yīng)的數(shù)據(jù)量即為載客次數(shù),聚類(lèi)簇?cái)?shù)為出租車(chē)載客熱點(diǎn)區(qū)域數(shù),噪聲數(shù)則為非載客熱點(diǎn)區(qū)域的載客次數(shù)。其中,早高峰和午高峰的熱點(diǎn)區(qū)域數(shù)量較為相近,除了載客量上的變化,更多的是因?yàn)楣ぷ魅瞻滋斐鲂兄饕菫榱松习嗪蜕蠈W(xué)等,出行熱點(diǎn)區(qū)域較為固定。晚上出行更多的是個(gè)人因素,可供選擇的目的地增多,出行熱點(diǎn)區(qū)域也隨著增多。而在非載客熱點(diǎn)區(qū)域,則是早高峰和晚高峰載客次數(shù)較多。

(2) 非工作日各時(shí)段載客高峰期聚類(lèi)結(jié)果。非工作日各時(shí)段載客高峰期經(jīng)過(guò)基于密度分區(qū)的聚類(lèi)分析,具體聚類(lèi)分析結(jié)果如表6所示。

表6 非工作日載客高峰分析結(jié)果

可以看出,相較于非工作日載客午高峰的載客熱點(diǎn)區(qū)域數(shù)量而言,非工作日載客晚高峰的載客熱點(diǎn)區(qū)域增加了16個(gè),較多為三環(huán)附近的居民區(qū)。其次,非載客熱點(diǎn)區(qū)域也是晚高峰載客的可能性更高。

綜上所述,基于工作日和非工作日載客高峰期的實(shí)驗(yàn)數(shù)據(jù),實(shí)現(xiàn)了基于密度分區(qū)的聚類(lèi)分析,其聚類(lèi)結(jié)果不僅驗(yàn)證了出租車(chē)載客高峰期空間特征分析結(jié)果的準(zhǔn)確性,并更進(jìn)一步精確細(xì)化了載客熱點(diǎn)區(qū)域,以及在非載客熱點(diǎn)區(qū)域,早晚高峰期時(shí)段的載客率更高。

4 結(jié) 語(yǔ)

隨著經(jīng)濟(jì)的快速發(fā)展和居民生活水平的提高,城市居民選擇出租車(chē)作為出行方式的需求量增加,隨之出租車(chē)行業(yè)規(guī)模也逐漸擴(kuò)大且管理也愈加規(guī)范。但是為了進(jìn)一步提高資源的利用率,減少乘客乘車(chē)的等待時(shí)間,基于成都市出租車(chē)的歷史軌跡數(shù)據(jù)的處理與分析,得到結(jié)論如下。

(1) 出租車(chē)GPS原始軌跡數(shù)據(jù)集預(yù)處理。為了保證下一步數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,對(duì)出租車(chē)原始軌跡數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗、篩選有效載客行駛時(shí)長(zhǎng)和范圍、載客點(diǎn)提取、坐標(biāo)轉(zhuǎn)換。

(2) 出租車(chē)載客行為時(shí)空特征分析。基于預(yù)處理后的出租車(chē)載客上車(chē)點(diǎn)軌跡數(shù)據(jù)集,從時(shí)間和空間兩方面,分析得到出租車(chē)載客高峰時(shí)段和載客特點(diǎn),以及每時(shí)段出租車(chē)載客空間分布特征。為出租車(chē)載客熱點(diǎn)區(qū)域的分析提供依據(jù)。

(3) 出租車(chē)載客的熱點(diǎn)分析。針對(duì)出租車(chē)軌跡數(shù)據(jù)密度分布不均勻的特點(diǎn),提出基于密度分區(qū)的聚類(lèi)算法,有效提高了載客區(qū)域分布的精確度。

此次研究?jī)H對(duì)載客熱點(diǎn)區(qū)域進(jìn)行挖掘,沒(méi)有考慮出租車(chē)載客其他影響因素。結(jié)合自然環(huán)境、網(wǎng)約車(chē)發(fā)展等各方面影響因素,建立不同因素影響模型,是下一步出租車(chē)軌跡數(shù)據(jù)的研究重點(diǎn)。