晉澤倩, 陳艷艷, 李臣
(北京工業(yè)大學(xué)城市建設(shè)學(xué)部, 北京 100124)
研究居民出行時空特征及其內(nèi)在機制為城市規(guī)劃建設(shè)、運營管理、交通政策提供了數(shù)據(jù)支撐,對城市空間發(fā)展、城市規(guī)劃具有重要意義。當(dāng)前企事業(yè)人群出行量在城市居民出行中占比逐漸增高,2020年北京市企事業(yè)人群出行量占比已超47%,武漢市企事業(yè)人群出行量占比約55%,因此探究企事業(yè)人群的出行特征分析對城市居民出行特征研究具有重要意義。
Peterson等[1]基于調(diào)查問卷數(shù)據(jù),確定了對公園游客出行模式影響最大的時空變量,并利用時空變量對旅游群體進行聚類。Calderón等[2]基于網(wǎng)約車數(shù)據(jù),對居民出行時空特征和通勤模式進行分析,得到出行目的為工作和上學(xué)的網(wǎng)約車用戶較多。Wang等[3]基于個人出行軌跡數(shù)據(jù),提出了包含行程分割、出行模式和出行類型識別的完整出行鏈提取過程。Zhang等[4]基于南京市共享單車出行數(shù)據(jù),研究了共享單車系統(tǒng)中綠色出行行為的時空特征。蘇躍江等[5]根據(jù)傳統(tǒng)入戶抽樣調(diào)查居民的社會經(jīng)濟屬性,以及手機信令數(shù)據(jù)獲取居民出行影響因素及出行時空特征分布。周英迪等[6]提出了基于出租車軌跡和興趣點(point of interest, POI)數(shù)據(jù)的地理信息系統(tǒng)(geographic information system,GIS)時空分析方法,對居民出行的時空分布等進行量化分析。王宇環(huán)等[7]利用出租車全球定位系統(tǒng) (global positioning system,GPS)軌跡生成上下車熱點,從不同時段、周末與節(jié)假日等多角度比較居民出行的時空特征。張圓等[8]從個體特征、出行特征和出行者對共享汽車服務(wù)水平的主觀感知三個方面分析了影響使用共享汽車出行的主要因素。崔洪軍等[9]基于公交IC卡數(shù)據(jù),識別乘客出行目的,實現(xiàn)完整乘客公交出行鏈的提取。
當(dāng)前基于出租車數(shù)據(jù)、網(wǎng)約車數(shù)據(jù)的城市居民出行特征分析的研究較多,而對企事業(yè)人群出行特征分析的研究相對較少。在有效獲取企事業(yè)人群出行意愿數(shù)據(jù)的基礎(chǔ)上,改進DBSCAN算法有效識別出居民出行停留點,進而結(jié)合關(guān)聯(lián)規(guī)則提出出行鏈的提取方法,挖掘企事業(yè)人群出行時空分布規(guī)律,并進一步探究不同功能區(qū)域企事業(yè)人群的出行特征,以期為預(yù)測交通客流及信息服務(wù)提供基礎(chǔ)支持。
基于居民出行調(diào)查問卷數(shù)據(jù),提出針對企事業(yè)人群的居民出行特征分析方法,分析流程如圖1所示。首先,清洗調(diào)研數(shù)據(jù),進行數(shù)據(jù)信度與效度分析,檢驗數(shù)據(jù)的可靠性和效度水平;其次,改進DBSCAN算法,識別居民出行停留點,進而基于關(guān)聯(lián)規(guī)則,提出了居民出行鏈數(shù)據(jù)的提取方法;最后,從居民屬性、時間屬性、空間屬性和功能區(qū)劃分4個角度,分析居民出行特征,挖掘出行規(guī)律。
圖1 居民出行特征分析流程Fig.1 Residents’ travel characteristics analysis process
1.1.1 數(shù)據(jù)清洗
所采取的出行數(shù)據(jù)會存在多種異常類型的數(shù)據(jù),如數(shù)據(jù)是否存在重復(fù)、是否存在缺失、數(shù)據(jù)是否具有完整性和一致性、數(shù)據(jù)中是否存在異常值等。因此,需要對數(shù)據(jù)進行清洗。在重復(fù)觀測處理過程中,采用duplicated方法進行驗證,再將重復(fù)觀測數(shù)據(jù)刪除;在缺失值處理過程中,常采用刪除法、替換法和插補法;在異常值處理過程中,常采用n個標(biāo)準(zhǔn)差法和箱線圖判別法。
1.1.2 信度與效度檢驗
為保證數(shù)據(jù)的有效性和一致性,需要對調(diào)研數(shù)據(jù)進行信度檢驗。通常采用Cronbach’s Alpha系數(shù)(α系數(shù))作為衡量調(diào)查數(shù)據(jù)一致性的重要指標(biāo)。一般情況下,當(dāng)α系數(shù)大于0.7時,可以認(rèn)為調(diào)查數(shù)據(jù)的可信度較好。效度檢驗常采用主成分分析法,以Kaiser-Meyer-Olkin值(KMO值)和Bartlett球體檢驗作為判斷效度水平的標(biāo)準(zhǔn)。當(dāng)KMO值大于0.6時,Bartlett球體檢驗的結(jié)果小于0.05,表明數(shù)據(jù)效度水平高。
1.2.1 改進的DBSCAN算法
DBSCAN算法是基于密度的空間聚類算法,該算法能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。傳統(tǒng)DBSCAN算法[10-11]的核心思想是對給定的數(shù)據(jù)集、聚類半徑r、最小點數(shù)minPts,任選一個點,以半徑r為鄰域掃描數(shù)據(jù)集,統(tǒng)計領(lǐng)域范圍內(nèi)所有的點數(shù),如果大于最小點數(shù)minPts則將該點標(biāo)記為核心點,領(lǐng)域內(nèi)的其他點標(biāo)記為邊界點,否則標(biāo)記為噪聲點,依次遍歷整個數(shù)據(jù)集直至遍歷完所有的點。
1.2.2 基于改進DBSCAN算法的出行停留點識別
在改進DBSCAN算法的基礎(chǔ)上,提出停留點識別實現(xiàn)流程,如圖2所示。
圖2 改進的DBSCAN算法的停留點識別流程圖Fig.2 Stop point identification flow chart of improved DBSCAN algorithm
1.2.3 基于關(guān)聯(lián)規(guī)則的出行鏈提取
關(guān)聯(lián)規(guī)則是反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性,用于從大量數(shù)據(jù)中挖掘出有價值的數(shù)據(jù)項之間的相關(guān)關(guān)系[12]。因此結(jié)合主觀調(diào)查問卷數(shù)據(jù),引入關(guān)聯(lián)規(guī)則方法挖掘居民出行的關(guān)聯(lián)特性,進行穩(wěn)定性辨別。利用支持度、置信度和提升度3個參數(shù)描述挖掘關(guān)聯(lián)規(guī)則的有效性和確定性。首先,基于改進的DBSCAN算法識別出的個體出行停留點,利用關(guān)聯(lián)規(guī)則對停留點進行初步分類,確定最小支持度閾值δs;其次,選出滿足δs的集合為頻繁項集;最后,從頻繁項集中提取滿足最小置信度和提升度的規(guī)則,確定為強關(guān)聯(lián)規(guī)則。
在利用關(guān)聯(lián)規(guī)則對停留點進行初步分類的過程中,根據(jù)出行目的地不同,將出行者出行停留點分為三類,分別為居住停留點、工作停留點、休閑娛樂停留點,對應(yīng)的出行鏈也劃分為三類,分別為基于居住地的出行鏈、基于工作地的出行鏈、基于休閑娛樂地出行鏈,用式(1)特征向量表示。
(1)
式(1)中:Chain1為工作地出行鏈;(lati,longi)為居民出行目的地位置信息;Tsi為出行到達時間;Activity為一次出行活動;(lati+1,longi+1)為一次出行結(jié)束的位置信息;Tsi+1為一次出行結(jié)束的到達時間,Tei+1為一次活動的駐留時長。以此類推,Chain2為居住地出行鏈,Chain3為休閑區(qū)出行鏈。
居民每天的出行鏈為不閉合單向鏈,包含一天內(nèi)居民的所有時間、位置信息,活動類型包含通勤、就餐、居住情況等。利用居民出行鏈可以識別出居民出行的時空信息,一天中的第i(i>1)個停留點代表居民出行目的地,可識別出居民目的地的位置信息(lati,longi),出行到達時間Tsi。之后根據(jù)第i+1個停留點的活動屬性可以判別居民到達下一目的地的時間Tsi+1和駐留時長Tei+1,或者結(jié)束出行的位置(lati+1,longi+1)和時間。
在獲得居民出行鏈數(shù)據(jù)的基礎(chǔ)上,根據(jù)出行鏈數(shù)據(jù)的時空屬性,進行居民出行時空特征分析。首先,居民出行時間特征分布主要從出行量和行程時間兩方面進行分析,探尋不同時段出行行程時間分布規(guī)律,研究居民時間特征分布。其次,借助ArcGIS軟件中的核密度分析工具進行居民出行空間特征分析。在核密度分析過程中,首先將出行起訖點以點的形式呈現(xiàn)出來,根據(jù)核函數(shù)定義,設(shè)定population字段值為None,輸出值是基于實際輸入點數(shù)計算的,進而所得到的核密度柵格圖即為企事業(yè)人群出行起終點分布熱點圖。
除了居民時空特征分析,居民個人屬性特征分析也能夠直觀的反應(yīng)研究企事業(yè)群體的個體基本屬性特征。其次,通過功能區(qū)的劃分,對比不同功能區(qū)的起終點出行量分布,可以得到不同功能區(qū)出行者的出行特征。
選取北京市亦莊經(jīng)濟技術(shù)開發(fā)區(qū)作為研究區(qū)域,進行居民出行特征分析。研究區(qū)域覆蓋核心區(qū)、路東區(qū)、河西區(qū)以及路南區(qū),總面積105 km2,是北京城市總體規(guī)劃的重點新城之一。針對亦莊區(qū)企事業(yè)人群開展居民出行意愿調(diào)研,共發(fā)放問卷18 300份,回收有效問卷16 537份,問卷有效率為90.4%。調(diào)研內(nèi)容包含居民社會經(jīng)濟屬性、出行屬性和出行意愿三個方面。
在數(shù)據(jù)采集過程中難免會出現(xiàn)不良現(xiàn)象導(dǎo)致數(shù)據(jù)采集出現(xiàn)錯誤。首先對重復(fù)觀測數(shù)據(jù)和缺失值進行處理,重復(fù)觀測處理采用duplicated方法進行驗證,再刪除,缺失值處理采用均值替換法;其次,為了提高數(shù)據(jù)分析精確度,采用如下規(guī)則進行數(shù)據(jù)處理:居民出行會有一定的時間限制,研究選擇出行總時間在4 h內(nèi),且對出行次數(shù)大于1次的居民出行進行研究;同時選擇年齡在16歲以上的調(diào)研樣本進行分析。
通過對調(diào)查問卷數(shù)據(jù)進行信度與效度分析,得到α系數(shù)為0.765,大于0.7,認(rèn)為該調(diào)查數(shù)據(jù)可信度較好。效度分析結(jié)果如表1所示。
表1 KMO和巴特利特檢驗Table 1 KMO and Bartlett tests
根據(jù)表1 中KMO和巴特利特檢驗結(jié)果得,KMO值為0.698,大于0.6,并且通過了Bartlett球形檢驗,該數(shù)據(jù)效度水平高。
2.2.1 居民屬性分析
1)居民社會經(jīng)濟屬性分析
居民社會經(jīng)濟屬性分析如表2所示。由表2可知,亦莊區(qū)居民出行年齡在20~30歲的占比最大,為45.42%;工人群體出行占比最高,占比為37.45%。同時,本科學(xué)歷的人群出行占比最大,占比達35.02%。此外,年收入在5萬~10萬的居民占比為37.95%,10萬~15萬的居民占比為20.36%。亦莊區(qū)企事業(yè)單位的出行群體主要是中低等收入的中青年通勤群體。
2)居民出行屬性分析
居民出行目的和出行方式統(tǒng)計分析如圖3所示。
表2 居民社會經(jīng)濟屬性分析Table 2 Analysis of residents’ social and economic attributes
圖3 居民出行屬性分析Fig.3 Residents travel attribute analysis
上班為目的的居民占比為38.92%,出行目的為回家的占比為32.44%,得出通勤出行占比最大;28.82%的乘客選擇地鐵出行,16.14%的乘客選擇公交出行,18.22%的乘客選擇共享單車出行。因此,公共交通出行方式在所有出行方式中占有較大比例。
2.2.2 居民出行時間特征分析
企事業(yè)人群工作日與休息日出行量隨時間分布[11,13]如圖4所示。
亦莊經(jīng)濟開發(fā)區(qū)居民出行呈現(xiàn)明顯的潮汐現(xiàn)象,且企事業(yè)人群的出行早晚高峰與北京市總體人群的早晚高峰一致。與休息日相比,工作日出行更加集中。其次,工作日居民有固定的通勤行為,而休息日居民出行時間較為靈活。
統(tǒng)計居民不同出行行程時間,如圖5所示。
企事業(yè)人群大部分行程時間都在20~40 min,分布最密集的時段是30 min。出行時長超過70 min的占比相對很小,且亦莊區(qū)企事業(yè)人群總體出行時間較短,遠(yuǎn)程出行較少。
居民出行不同時段行程時間分布如圖6所示。以小時為單位,分析不同時段居民出行行程時間分布,其中,橙色線條代表每個時段的行程時間中位數(shù),紅色圓點代表平均行程時間,綠色箱體的長度代表行程時間分布集中程度。
圖4 居民出行時段特征曲線Fig.4 Characteristics curve of residents’ travel time
圖5 全天行程時間分布Fig.5 All day trip time distribution
圖6 分時段行程時間分布Fig.6 Time-divided travel time distribution
根據(jù)行程時間分布圖,在5:00和17:00高峰時期,平均行程時間最長,且行程時間分布較為集中;在18:00和22:00,平均行程時間較小,且行程時間分布最為分散;與高峰時期相比,平峰時期平均行程時間較小,且行程時間分布更為集中。
2.2.3 居民出行空間特征分析
在對出行數(shù)據(jù)進行核密度分析時,由于包含較少部分的長距離出行,導(dǎo)致核密度分析結(jié)果誤差較大。為了提高精確度,只研究亦莊經(jīng)濟開發(fā)區(qū)內(nèi)的短距離出行。在此基礎(chǔ)上,分析工作日早晚高峰時段以及休息日居民出行起終點分布,探尋居民在不同時段出行空間分布特征。
居民在工作日早高峰(7:00—9:00)和晚高峰(17:00—19:00)出行起終點分布,如圖7所示。將研究區(qū)域劃分為商務(wù)區(qū)、居住區(qū)、休閑區(qū)和混合區(qū),分析工作日早晚高峰起終點分布情況,在核密度分析過程中,將出行量劃分為8個等級,為更好地對比高峰時期起終點分布,把第1個等級顏色設(shè)置為空,其他等級代表不同程度的出行量,顏色越深,代表出行量越大。
圖7 工作日起終點分布Fig.7 Distribution of working days starting and ending points
根據(jù)早晚高峰起終點分布核密度圖,早高峰起點分布和晚高峰終點分布基本一致,主要集中居住區(qū);早高峰終點分布與晚高峰起點分布一致,主要集中在商務(wù)區(qū)。對比早晚高峰起終點分布,早高峰終點分布最為密集,晚高峰終點分布最為分散,這表明亦莊區(qū)就業(yè)辦公區(qū)較為集中,而居住區(qū)較為分散。
居民在休息日出行起終點分布,如圖8所示。
圖8 休息日起終點分布Fig.8 Distribution of rest days starting and ending points
休息日出行終點比出行起點分布更加集中,且起終點集中分布在商務(wù)區(qū),較少部分分布在居住區(qū)、休閑區(qū)或混合區(qū)。與工作日起終點分布相比,休息日起終點分布更為隨機,與休息日時間分布特征一致。
2.2.4 不同功能區(qū)居民出行特征分析
結(jié)合亦莊區(qū)用地性質(zhì)和居民出行目的,根據(jù)出行目的的差異性劃分功能區(qū)[14],以上班、公務(wù)為主要出行目的的出行到達區(qū)域劃分為商務(wù)區(qū),以回家為主要出行目的到達區(qū)域劃分為居住區(qū),以餐飲、購物、文體娛樂等為主要出行目的的到達區(qū)域劃分為休閑區(qū),而將既有上班、回家或文體娛樂等為出行目的的區(qū)域劃分為混合區(qū)。根據(jù)以上假定將功能區(qū)劃分為商務(wù)區(qū)、居住區(qū)、休閑區(qū)和混合區(qū),通過分別對每個功能區(qū)進行逐時出行起終點出行量分析,進一步對比不同功能區(qū)的出行特征,研究功能區(qū)的出行特征分布規(guī)律。
不同功能區(qū)起終點出行量隨時間分布如圖9所示。
圖9 不同功能區(qū)起終點出行量分布Fig.9 Travel volume distribution in different functional areas
商務(wù)區(qū)和居住區(qū)出行量分布呈現(xiàn)明顯的高峰時段,7:00—9:00為早高峰,18:00—19:00為晚高峰;早高峰出行量大于晚高峰出行量,且早高峰出行量更為集中,晚高峰則因加班、購物或者娛樂等其他出行活動引起出行量較為分散。
休閑區(qū)終止出行量集中在18:00—20:00,起始出行量集中在20:00—22:00;與商務(wù)區(qū)何居住區(qū)相比,休閑區(qū)出行比較隨機,且夜間出行量較大?;旌蠀^(qū)起始和終止出行量在一天內(nèi)呈現(xiàn)雙高峰,表明混合區(qū)多為居住區(qū)和商務(wù)區(qū)的混合。
不同功能區(qū)全天起始出行量對比[12]分析如圖10所示。
圖10 不同功能區(qū)對比分析Fig.10 Comparative analysis of different functional areas
通過對比分析圖,商務(wù)區(qū)和居住區(qū)出行量主要集中在早晚高峰時期;休閑區(qū)出行量沒有明顯的高峰時期,出行時間隨機,且出行量較少;混合區(qū)呈現(xiàn)雙高峰出行特征,且高峰時間段與商務(wù)區(qū)和居住區(qū)高峰時間段相對應(yīng)。
基于居民出行調(diào)查問卷數(shù)據(jù),對居民出行行為特征分布進行了研究,得到以下結(jié)論。
(1)在經(jīng)典DBSCAN算法的基礎(chǔ)上,提出了擴展時間維度的時間閾值β以及自適應(yīng)選擇時間閾值β參數(shù)的改進方法,進行居民出行停留點識別,結(jié)合關(guān)聯(lián)規(guī)則挖掘停留點的關(guān)聯(lián)特性,提取居民出行鏈信息。
(2)亦莊區(qū)居民出行多為中低收入的中青年通勤族,且71.36%的居民為通勤職工出行,63.18%的居民選擇公共交通出行。
(3)從出行時間特征分布看,工作日和休息日具有明顯的潮汐現(xiàn)象,且工作日高峰時期出行量更為集中且出行量大;行程時間分布最密集的時間段是20~40 min,居民出行多為短距離出行;從空間特征分布來看,工作日起終點分布更為集中,且出行多集中在商務(wù)區(qū)和居住區(qū),而休息日出行起終點分布更為分散,且與工作日相比出行量較小。
(4)對比不同功能區(qū)起終點出行量分布,商務(wù)區(qū)、居住區(qū)起終點主要集中在早晚高峰時期且出行量較大,而休閑區(qū)出行起終點出行量隨時間分布更加隨機,且出行量較小。