鈕心毅,謝 琛
(同濟(jì)大學(xué)建筑與城市規(guī)劃學(xué)院,高密度人居環(huán)境生態(tài)與節(jié)能教育部重點(diǎn)實(shí)驗(yàn)室,上海 200092)
近年來(lái),手機(jī)信令數(shù)據(jù)在城市交通、城市規(guī)劃等領(lǐng)域引起了廣泛關(guān)注,也已經(jīng)在各大城市的交通調(diào)查、城市交通規(guī)劃、城市總體規(guī)劃中得到了較多實(shí)際應(yīng)用[1-6]?;谑謾C(jī)信令數(shù)據(jù)可以識(shí)別居民的居住地、工作地,從而獲取通勤OD、揭示職住空間關(guān)系。這是手機(jī)信令數(shù)據(jù)輔助交通調(diào)查、城市交通規(guī)劃、城市總體規(guī)劃的基礎(chǔ)性工作[7-11]。
手機(jī)信令數(shù)據(jù)是手機(jī)用戶在移動(dòng)通信網(wǎng)絡(luò)中留下的時(shí)空軌跡數(shù)據(jù),只是記錄了居民日常行為的時(shí)空軌跡。使用手機(jī)信令數(shù)據(jù)識(shí)別居住地、工作地的基本原理是對(duì)手機(jī)用戶長(zhǎng)時(shí)間時(shí)空軌跡規(guī)律進(jìn)行測(cè)算,以多日夜間的時(shí)空軌跡推算居住地、以多日日間的時(shí)空軌跡推算工作地。職住地算法是采用某種規(guī)則對(duì)居住、工作行為的時(shí)間、空間特征進(jìn)行歸納。如果采用不同的規(guī)則、同一規(guī)則中采用不同的參數(shù)取值,可能導(dǎo)致識(shí)別結(jié)果的差異。這種差異是否會(huì)對(duì)職住地結(jié)果可靠性產(chǎn)生影響是一個(gè)值得研究的議題。已有文獻(xiàn)更關(guān)注手機(jī)信令數(shù)據(jù)職住地識(shí)別結(jié)果的應(yīng)用,極少有對(duì)職住地算法本身的討論,也缺少不同算法對(duì)識(shí)別結(jié)果可靠性影響的討論。
本文首先討論手機(jī)信令數(shù)據(jù)的特征,總結(jié)識(shí)別職住地的若干關(guān)鍵因素。之后,依據(jù)關(guān)鍵因素組合成若干種算法,以多種組合方法分別對(duì)同一城市的同一批手機(jī)信令數(shù)據(jù)進(jìn)行職住地識(shí)別,分析不同規(guī)則對(duì)職住地識(shí)別結(jié)果的影響程度。
基于手機(jī)信令數(shù)據(jù)測(cè)算職住地是對(duì)工作、居住行為一般規(guī)律的時(shí)空特征進(jìn)行測(cè)算,涉及三個(gè)時(shí)空因素。
因?yàn)樾帕钍怯捎脩舻奈恢靡苿?dòng)、通話、上網(wǎng)等行為激發(fā),所以對(duì)單個(gè)用戶而言,信令在時(shí)間上雖然比較連續(xù),但是相鄰記錄的時(shí)間間隔卻不是固定的。即使在持續(xù)開(kāi)機(jī)情況下,相鄰記錄之間間隔可能長(zhǎng)于1 h,也可能短到在1 min 內(nèi)產(chǎn)生數(shù)十條記錄。時(shí)間連續(xù)性是職住地識(shí)別的首要時(shí)空因素。
應(yīng)對(duì)時(shí)間連續(xù)性的問(wèn)題,已有文獻(xiàn)中提出過(guò)若干方法和設(shè)想[12-16]。綜合相關(guān)研究與自身實(shí)踐,本文將其歸納為4種時(shí)間規(guī)則。
1)累積時(shí)間法。
累積時(shí)間法的思路是通過(guò)累積用戶每日在各個(gè)位置的停留時(shí)間,以日間最長(zhǎng)停留時(shí)間位置為工作地、以夜間最長(zhǎng)停留時(shí)間位置為居住地。累積時(shí)間法是通過(guò)計(jì)算累積時(shí)間來(lái)消除信令記錄時(shí)間間隔不規(guī)律的影響。
2)特征時(shí)間法。
特征時(shí)間法的思路是以特定的時(shí)間間隔(如1~2 h)測(cè)算用戶在特定時(shí)間點(diǎn)所停留基站的位置,然后選擇出重復(fù)次數(shù)最高的基站或者多個(gè)停留基站的中心位置。日間特征時(shí)間點(diǎn)選擇出的位置作為工作地,夜間特征時(shí)間點(diǎn)選擇出的位置作為居住地。
3)信息熵法。
信息熵法是將熵的概念引入職住地計(jì)算[16]。通過(guò)計(jì)算用戶在每個(gè)基站位置停留的信息熵大小,消除信令記錄時(shí)間間隔不規(guī)律的影響。
當(dāng)用戶在夜間共停留n個(gè)位置U1,U2,U3, …,Un,其對(duì)應(yīng)的概率為每個(gè)位置停留時(shí)間占總時(shí)間的比例,再通過(guò)信息熵公式計(jì)算得到用戶的信息熵,即
式中:pi為每個(gè)停留位置的停留時(shí)間占總時(shí)間的比例/%;Ti,Tj為每個(gè)停留位置的停留時(shí)間/s;H(U)為該用戶的信息熵值。
信息熵反映了對(duì)象活動(dòng)強(qiáng)度。信息熵越小,說(shuō)明個(gè)體時(shí)空活動(dòng)越穩(wěn)定;信息熵越大,說(shuō)明個(gè)體時(shí)空活動(dòng)越頻繁。分別將用戶的日間、夜間信息熵小于一定閾值的停留位置作為工作地和居住地。
4)時(shí)間閾值法。
測(cè)算用戶夜間合計(jì)停留時(shí)間超過(guò)夜間總時(shí)間一定比例閾值的基站,若連續(xù)觀測(cè)周期中該基站每日被重復(fù)識(shí)別出的次數(shù)大于某個(gè)閾值天數(shù),則將其識(shí)別為居住地[16]。使用同樣方法對(duì)日間用戶停留位置進(jìn)行比較,識(shí)別出用戶的工作地[7]。
信令記錄以移動(dòng)通信基站位置定位。信令記錄中表示的基站位置與用戶實(shí)際所在位置之間可能存在數(shù)十米到數(shù)百米的差異。每一條信令記錄中信令發(fā)生時(shí)的基站可能是距用戶最近的基站,也可能僅是相鄰基站之一。由于移動(dòng)通信網(wǎng)絡(luò)的特點(diǎn),用戶實(shí)際位置發(fā)生移動(dòng)時(shí),所連接的基站可能不變;也可能出現(xiàn)用戶實(shí)際位置并未移動(dòng)時(shí),所連接基站發(fā)生變化。由此導(dǎo)致空間位置分辨率問(wèn)題,即職住地識(shí)別的第二個(gè)時(shí)空因素。
空間位置分辨率會(huì)對(duì)1.1 節(jié)中4 種時(shí)間規(guī)則測(cè)算造成影響,以累積時(shí)間法為例,會(huì)使得真正居住地(工作地)基站的停留時(shí)間變短,導(dǎo)致最后未能達(dá)到居住地(工作地)識(shí)別時(shí)長(zhǎng)要求。應(yīng)對(duì)空間位置分辨率問(wèn)題,一般采用某種空間聚合方法,將一定距離范圍內(nèi)基站均視為同一個(gè)基站。只要用戶信令記錄都在A基站周邊特定距離內(nèi)的基站上,均視為沒(méi)有離開(kāi)A基站。這個(gè)距離數(shù)值就是空間聚合距離值??臻g聚合距離值過(guò)大、過(guò)小均會(huì)對(duì)居住地(工作地)識(shí)別帶來(lái)影響。仍以累積時(shí)間法為例,聚合距離值過(guò)大,會(huì)使得用戶發(fā)生了實(shí)際出行但仍被視為停留在A 基站,夸大了在A基站的停留時(shí)間;聚合距離值過(guò)小會(huì)使得其失去應(yīng)有的作用,仍會(huì)影響到A基站的停留時(shí)間。
由于用戶個(gè)人行為規(guī)律會(huì)有偶然性變化,需要有一段連續(xù)日期對(duì)用戶行為進(jìn)行測(cè)算,才能確定居住地、工作地。如果連續(xù)測(cè)算日期過(guò)短,也許會(huì)導(dǎo)致識(shí)別的居住地、工作地錯(cuò)誤。因此,數(shù)據(jù)時(shí)間序列長(zhǎng)度是職住地識(shí)別需要應(yīng)對(duì)的第三個(gè)時(shí)空因素。
數(shù)據(jù)時(shí)間序列長(zhǎng)度影響對(duì)用戶行為的重復(fù)性判斷。較短周期可能將居民偶然幾天行為判斷為長(zhǎng)期規(guī)律性行為。同時(shí),由于數(shù)據(jù)質(zhì)量原因也使得數(shù)據(jù)時(shí)間序列長(zhǎng)度更為重要。因?yàn)槎喾N原因會(huì)導(dǎo)致一段日期中可能有若干日數(shù)據(jù)質(zhì)量較差無(wú)法使用,更長(zhǎng)的數(shù)據(jù)時(shí)間序列會(huì)確保數(shù)據(jù)有效日期數(shù)量。實(shí)際工作中,會(huì)出現(xiàn)難以獲取連續(xù)若干周數(shù)據(jù)的情況(例如僅有1~2 周),較短的數(shù)據(jù)時(shí)間序列會(huì)對(duì)識(shí)別結(jié)果造成多大影響還需要進(jìn)行比較。
本文使用江西省南昌市的中國(guó)聯(lián)通匿名手機(jī)信令數(shù)據(jù)開(kāi)展研究,數(shù)據(jù)時(shí)間為2015年4月7日—5月17日,連續(xù)41天。其中,4月7日、5月2日信令記錄總數(shù)、用戶總數(shù)過(guò)低,數(shù)據(jù)質(zhì)量較差,予以排除。其余日期的每日信令記錄總數(shù)、每日出現(xiàn)用戶ID 總數(shù)均比較一致,平均每天約有70 萬(wàn)用戶產(chǎn)生約4185 萬(wàn)條記錄,每個(gè)用戶平均每天產(chǎn)生約60條信令記錄。連續(xù)5周的數(shù)據(jù)時(shí)間序列中也排除五一休假的日期,只保留5 周中工作日,為此保留其余27個(gè)工作日。
2015年該市基站分布如圖1所示,基站之間平均距離1 068 m。每日均選取在市域內(nèi)累計(jì)停留時(shí)間大于2 h 的用戶,排除過(guò)境用戶;進(jìn)一步將其中信令記錄出現(xiàn)日期占總天數(shù)60%及以上的用戶視為活躍用戶,得到活躍用戶543 389 人,占該市常住人口的9.94%。
為比較時(shí)間連續(xù)性、空間位置分辨率、數(shù)據(jù)時(shí)間序列長(zhǎng)度各自影響程度,分別對(duì)三類因素進(jìn)行兩兩比較,控制第三類因素不變。同時(shí)盡可能保證使用相同參數(shù)來(lái)控制變量,排除參數(shù)取值對(duì)結(jié)果的影響。三類因素組合得到33組算法(見(jiàn)圖2)。
實(shí)驗(yàn)中使用的4種時(shí)間規(guī)則均將20:00—次日5:00作為居住地識(shí)別時(shí)段,9:00—16:00作為工作地識(shí)別時(shí)段。
圖1 基站分布Fig.1 Distribution of base station
圖2 三類因素的實(shí)驗(yàn)組合Fig.2 Experiment with the combination of three types of factors
累積時(shí)間法中,分別將20:00—次日5:00和9:00—16:00 兩個(gè)時(shí)段累積總停留時(shí)間最長(zhǎng)的位置作為該用戶居住地、工作地,且保證至少有60%的天數(shù)在該位置停留超過(guò)2 h。
特征時(shí)間法中,分別將20:00—次日5:00和9:00—16:00 每隔一個(gè)整點(diǎn)小時(shí)的時(shí)間點(diǎn)為居住地、工作地識(shí)別的時(shí)間點(diǎn)。以至少有60%時(shí)間點(diǎn)在同一個(gè)位置識(shí)別出當(dāng)日居住地、工作地。匯總每日識(shí)別的居住地和工作地,將識(shí)別天數(shù)大于總天數(shù)60%的位置作為該用戶的居住地和工作地。
信息熵法中,在20:00—次日5:00和9:00—16:00,分別以用戶在整個(gè)時(shí)段內(nèi)平均停留3個(gè)位置作為該用戶活動(dòng)穩(wěn)定的上限判斷標(biāo)準(zhǔn),即信息熵大致為1.5。識(shí)別信息熵小于1.5 的用戶,將由累積時(shí)間法得到的最長(zhǎng)停留位置作為其居住地和工作地。
時(shí)間閾值法中,將20:00—次日5:00 停留時(shí)間占總時(shí)間的比例大于60%的停留位置作為當(dāng)日的居住地,再統(tǒng)計(jì)研究天數(shù)內(nèi)不同位置被識(shí)別的總天數(shù),將識(shí)別總天數(shù)大于總天數(shù)60%的位置作為該用戶識(shí)別居住地。用同樣方法,在9:00—16:00進(jìn)行工作地識(shí)別。
選擇3種空間聚合距離,分別為250 m,500 m 和750 m;三種數(shù)據(jù)時(shí)間序列,包括第 1 周(4月 13—17日 5 個(gè)工作日)、第 5 周(5月11—15日5個(gè)工作日)、連續(xù)5周(4月8日—5月15日27個(gè)工作日)。
表1 時(shí)間規(guī)則與聚合距離組合的識(shí)別率Tab.1 Identification rate with the combination of time rule and aggregated distance
在保證數(shù)據(jù)時(shí)間序列均為連續(xù)5 周的條件下,以前述4種時(shí)間規(guī)則以及250 m,500 m和750 m 3 種聚合距離組合成12 組算法,比較不同時(shí)間規(guī)則、聚合距離對(duì)職住地識(shí)別結(jié)果的影響。
在空間聚合距離均為500 m 的條件下,對(duì)前述4 種時(shí)間規(guī)則以及第1 周、第5 周、連續(xù)5 周3 種數(shù)據(jù)時(shí)間序列組合成12 組算法,比較不同時(shí)間方法、不同數(shù)據(jù)時(shí)間序列長(zhǎng)度對(duì)識(shí)別結(jié)果的影響。
在時(shí)間規(guī)則均采用累積時(shí)間法的條件下,對(duì)250 m,500 m 和750 m 3 種空間聚合距離以及第1周、第5周、連續(xù)5周3種數(shù)據(jù)時(shí)間序列組合為9 組算法,比較不同聚合距離、不同數(shù)據(jù)時(shí)間序列對(duì)職住地識(shí)別結(jié)果的影響。
可靠性比較的最佳方法是將職住地識(shí)別結(jié)果與人口普查、經(jīng)濟(jì)普查、交通調(diào)查的結(jié)果進(jìn)行對(duì)照。當(dāng)前最常用的檢驗(yàn)方法是居住地分布與人口普查、工作地分布與經(jīng)濟(jì)普查的就業(yè)崗位分布進(jìn)行相關(guān)性檢驗(yàn)。實(shí)際情況下,往往是由于沒(méi)有交通調(diào)查數(shù)據(jù),才需要進(jìn)行手機(jī)信令輔助測(cè)算,所以很難對(duì)信令數(shù)據(jù)測(cè)算的通勤距離等結(jié)果的可靠性進(jìn)行檢驗(yàn)。
本文采用各組結(jié)果相互之間進(jìn)行一致性比較的方法,比較不同時(shí)間規(guī)則、空間聚合距離、數(shù)據(jù)時(shí)間序列對(duì)識(shí)別結(jié)果的影響程度。通過(guò)識(shí)別率、平均直線通勤距離①、共同識(shí)別用戶一致性3 個(gè)指標(biāo)來(lái)確定影響的敏感程度。
識(shí)別率指居住地、工作地識(shí)別出的人數(shù)與活躍用戶數(shù)之間的比值。各種方法都需要保證一定的識(shí)別率。雖然識(shí)別率高低并不能代表結(jié)果的可靠性,但如果某個(gè)因素變化導(dǎo)致識(shí)別率顯著變化,說(shuō)明該類因素取值對(duì)結(jié)果有顯著影響。
平均直線通勤距離指同一組合算法中同時(shí)識(shí)別出了職住地且職住地位置不在同一個(gè)基站的用戶,其直線通勤距離的平均值。如果因素改變引起平均直線通勤距離變化較大,說(shuō)明該因素對(duì)識(shí)別結(jié)果的可靠性有顯著影響。
共同識(shí)別用戶一致性用以比較多種組合的共同識(shí)別用戶職住地空間位置的一致性,通過(guò)同一用戶在不同組合算法中識(shí)別出位置的平均距離差和共同識(shí)別用戶位置一致率表示。當(dāng)兩種組合比較時(shí),共同識(shí)別用戶位置一致率=位置一致用戶數(shù)量/職住地空間位置識(shí)別人數(shù)相對(duì)較少組合的總?cè)藬?shù)×100%。
3.1.1 識(shí)別率
保持連續(xù)5 周數(shù)據(jù)時(shí)間序列不變,活躍用戶為543 389人。4種時(shí)間規(guī)則算法和3種聚合距離的12個(gè)組合結(jié)果識(shí)別率見(jiàn)表1。在同一聚合距離下,累積時(shí)間法識(shí)別率明顯高于其他方法;在同一時(shí)間規(guī)則下,隨著聚合距離增加,識(shí)別率均明顯上升,在250~500 m上升幅度最大。
3.1.2 平均直線通勤距離
計(jì)算上述12 個(gè)組合結(jié)果的平均直線通勤距離(見(jiàn)表2)。隨著聚合距離增大,平均直線通勤距離大幅度下降,說(shuō)明直線通勤距離對(duì)聚合距離取值有較大敏感性。尤其當(dāng)使用特征時(shí)間法和時(shí)間閾值法時(shí),平均直線通勤距離對(duì)聚合距離取值敏感性更為顯著。在同一聚合距離下,不同時(shí)間規(guī)則得到的平均直線通勤距離不同,累積時(shí)間法得到的值最大。
3.1.3 共同識(shí)別用戶一致性
將12 個(gè)組合結(jié)果相比較(見(jiàn)圖3a 和圖3b),特征時(shí)間法與其他3個(gè)時(shí)間規(guī)則位置的平均距離差最大,其次是時(shí)間閾值法。累積時(shí)間法和信息熵法無(wú)差距,這是因?yàn)樾畔㈧胤ū旧硎腔诶鄯e時(shí)間進(jìn)行熵值計(jì)算。在共同識(shí)別用戶位置一致率上,時(shí)間閾值法與其他3個(gè)規(guī)則的重合率最低。
以同樣的方式比較聚合距離影響(見(jiàn)圖3c 和圖3d),各個(gè)方法之間位置的平均距離差均在20 m以內(nèi),差異不明顯。3種聚合距離下,共同識(shí)別用戶位置一致率均在96%以上。
表2 時(shí)間規(guī)則與聚合距離組合的平均直線通勤距離Tab.2 Average linear commuting distance with the combination of time rule and aggregated distance m
圖3 時(shí)間規(guī)則與聚合距離組合下位置的平均距離差及位置一致率Fig.3 Average distance difference and position consistency rate with the combination of time rule and aggregated distance
從共同識(shí)別用戶一致性來(lái)看,時(shí)間規(guī)則算法帶來(lái)的差異相對(duì)較為明顯;聚合距離取值帶來(lái)的差異不明顯。
表3 時(shí)間規(guī)則與聚合距離組合結(jié)果與“六普”常住人口的相關(guān)系數(shù)Tab.3 Correlation coefficient between the result from the combination of time rules and aggregated distance and the 6th national population census
表4 數(shù)據(jù)時(shí)間序列與時(shí)間規(guī)則組合的識(shí)別率Tab.4 Identification rate with the combination of data time series and time rules
表5 時(shí)間規(guī)則與數(shù)據(jù)時(shí)間序列組合的平均直線通勤距離Tab.5 Average linear commuting distance with the combination of time rules and data time series m
3.1.4 與人口普查數(shù)據(jù)的相關(guān)性檢驗(yàn)
使用當(dāng)前最常用的結(jié)果檢驗(yàn)方法,將測(cè)算得到的居住地分布與人口普查數(shù)據(jù)進(jìn)行相關(guān)性檢驗(yàn)。以街道(鎮(zhèn))為空間單元,12組算法與“六普”常住人口數(shù)量的相關(guān)系數(shù)見(jiàn)表3。雖然結(jié)果之間存在較明顯的差異,但是所有組合得出的相關(guān)系數(shù)均在0.8 左右,與人口普查數(shù)據(jù)的相關(guān)性檢驗(yàn)均呈現(xiàn)強(qiáng)相關(guān)。
3.2.1 識(shí)別率
統(tǒng)一取值空間聚合距離為500 m。第一周內(nèi)活躍人數(shù)593 587 人,第5 周內(nèi)活躍人數(shù)590 348人,連續(xù)5周活躍人數(shù)543 389人。4 種時(shí)間規(guī)則與3 種數(shù)據(jù)時(shí)間序列的12 個(gè)組合的職住地識(shí)別結(jié)果見(jiàn)表4。第1周與第5周的4 種時(shí)間規(guī)則識(shí)別率相近,連續(xù)5 周的4種時(shí)間規(guī)則識(shí)別率有顯著差異。連續(xù)1 周與連續(xù)5 周相比,特征時(shí)間法、時(shí)間閾值法識(shí)別率顯著下降,說(shuō)明二者對(duì)數(shù)據(jù)時(shí)間序列變化更加敏感。
3.2.2 平均直線通勤距離
12 個(gè)組合的平均直線通勤距離見(jiàn)表5。4種時(shí)間規(guī)則下,第1周與第5周的平均直線通勤距離均較為接近,但與連續(xù)5 周結(jié)果有一定差異。其中,特征時(shí)間法和時(shí)間閾值法得出的平均直線通勤距離值隨著數(shù)據(jù)時(shí)間序列的不同變化更加顯著。
3.2.3 共同識(shí)別用戶一致性
如圖4a和圖4b所示,3種數(shù)據(jù)時(shí)間序列下,各種方法的共同識(shí)別用戶平均距離差為150~550 m,差異也較為明顯。其中,第1周與第5 周的結(jié)果差異最大。數(shù)據(jù)時(shí)間序列變化使得識(shí)別結(jié)果之間差異較大,3 種數(shù)據(jù)時(shí)間序列下,位置一致率僅為78%~87%。
以同樣的方式比較時(shí)間規(guī)則影響,如圖4c 和圖4d 所示,總體上各個(gè)方法之間的平均距離差均在60 m以內(nèi),差異并不明顯。4種時(shí)間規(guī)則下共同識(shí)別用戶位置一致率均在84%以上,說(shuō)明結(jié)果差異相對(duì)不明顯。其中,特征時(shí)間法與其他方法的共同識(shí)別用戶位置一致率相差最大。
從共同識(shí)別用戶一致性來(lái)看,3 種數(shù)據(jù)時(shí)間序列帶來(lái)的差異較為明顯;4 種時(shí)間規(guī)則下各個(gè)方法所得結(jié)果的一致性好于數(shù)據(jù)時(shí)間序列。
3.2.4 與人口普查數(shù)據(jù)的相關(guān)性檢驗(yàn)
以街道(鎮(zhèn))為空間單元,將12組算法識(shí)別的居住人數(shù)分別與“六普”常住人口數(shù)量進(jìn)行相關(guān)性分析,得到相關(guān)系數(shù)(見(jiàn)表6)。12組算法的結(jié)果之間雖存在較明顯差異,但相關(guān)系數(shù)均在0.8 左右,說(shuō)明居住地識(shí)別結(jié)果與人口普查數(shù)據(jù)的相關(guān)性檢驗(yàn)均呈現(xiàn)強(qiáng)相關(guān)。
3.3.1 識(shí)別率
統(tǒng)一采用累積時(shí)間法,3 種聚合距離與3 種數(shù)據(jù)時(shí)間序列的9 種組合的識(shí)別率結(jié)果見(jiàn)表7。在同一聚合距離下,連續(xù)5 周的工作地、居住地識(shí)別率與一周的識(shí)別率略有變化。在同一數(shù)據(jù)時(shí)間序列下,隨著聚合距離增大,職住地的識(shí)別率明顯增大??梢?jiàn),聚合距離對(duì)識(shí)別率的影響大于數(shù)據(jù)時(shí)間序列帶來(lái)的影響。
3.3.2 平均直線通勤距離
9 個(gè)組合結(jié)果的平均直線通勤距離見(jiàn)表8。隨著聚合距離增大,平均直線通勤距離明顯下降。3 種數(shù)據(jù)時(shí)間序列對(duì)平均直線通勤距離值的影響并不明顯。
3.3.3 共同識(shí)別用戶一致性
對(duì)9 個(gè)組合的結(jié)果進(jìn)行比較(見(jiàn)圖5a 和圖5b),各種方法共同識(shí)別用戶位置的平均距離差較大,為97~491 m,第1 周與第5 周的結(jié)果差異最大。3 種數(shù)據(jù)時(shí)間序列下,共同識(shí)別用戶位置一致率為82%~94%。如圖5c 和圖5d 所示,三種聚合距離下,各個(gè)組合方法之間共同識(shí)別用戶位置的平均距離差都接近0,共同識(shí)別用戶位置一致率達(dá)到99.9%以上,說(shuō)明不同聚合距離對(duì)結(jié)果的影響較小,共同識(shí)別用戶一致性較好。因此,數(shù)據(jù)時(shí)間序列的日期(第1周、第5周)與時(shí)間序列的長(zhǎng)度共同影響著識(shí)別結(jié)果。
3.3.4 與人口普查數(shù)據(jù)的相關(guān)性檢驗(yàn)
以街道(鎮(zhèn))為空間單元,將9 組算法識(shí)別的居住人數(shù)分別與“六普”常住人口數(shù)量進(jìn)行相關(guān)性分析,得到相關(guān)系數(shù)(見(jiàn)表9)。9組算法的結(jié)果之間雖存在較明顯差異,但相關(guān)系數(shù)均在0.8 左右,說(shuō)明居住地識(shí)別結(jié)果也均與人口普查數(shù)據(jù)呈現(xiàn)強(qiáng)相關(guān)。
本文使用了中國(guó)聯(lián)通的匿名信令數(shù)據(jù),活躍用戶數(shù)量占該城市常住人口數(shù)量的9.94%。由于使用同一批信令數(shù)據(jù)對(duì)多種不同規(guī)則組合識(shí)別結(jié)果進(jìn)行比較,在實(shí)驗(yàn)設(shè)計(jì)上,數(shù)據(jù)自身的用戶數(shù)量和占該城市的比例均不會(huì)影響比較結(jié)果。但在實(shí)踐中如果采用不同運(yùn)營(yíng)商的數(shù)據(jù)源,由于各家運(yùn)營(yíng)商用戶普及率不同、基站密度也不同,可能會(huì)影響職住地的測(cè)算結(jié)果。這種因素的影響程度需要進(jìn)一步研究。
表6 時(shí)間規(guī)則與數(shù)據(jù)時(shí)間序列組合結(jié)果與“六普”常住人口的相關(guān)系數(shù)Tab.6 Correlation coefficient between the result from the combination of time rules and data time series and the 6th national population census
表7 聚合距離與數(shù)據(jù)時(shí)間序列組合識(shí)別率Tab.7 Identification rate with the combination of aggregated distance and data time series
表8 數(shù)據(jù)時(shí)間序列與聚合距離組合的平均直線通勤距離Tab.8 Linear commuting distance with the combination of data time series and aggregated distance m
4種時(shí)間規(guī)則都涉及重復(fù)率,本文統(tǒng)一采用了60%的重復(fù)率值。顯然較高的重復(fù)率值將導(dǎo)致識(shí)別率下降,但高重復(fù)率約束下職住地識(shí)別結(jié)果的準(zhǔn)確率可能也會(huì)提高。由于重復(fù)率對(duì)職住地測(cè)算結(jié)果的影響趨勢(shì)已經(jīng)有了共識(shí),本文未對(duì)重復(fù)率取值進(jìn)行敏感性比較。因居住、工作行為存在一定不規(guī)律性,一般情況下50%~60%的重復(fù)率取值是適宜的。在實(shí)際工作中,確定了時(shí)間規(guī)則、空間聚合距離、數(shù)據(jù)時(shí)間序列后,仍需要對(duì)重復(fù)率取值進(jìn)行敏感性檢測(cè),確定該城市適宜的重復(fù)率值。
空間聚合距離增大會(huì)導(dǎo)致平均直線通勤距離明顯變小。不同聚合距離取值下,共同識(shí)別用戶一致性均較高,聚合距離擴(kuò)大未改變共同識(shí)別用戶的職住地,導(dǎo)致通勤距離減小的原因來(lái)源于沒(méi)有被共同識(shí)別的用戶,即較大聚合距離下多識(shí)別的那部分用戶的平均直線通勤距離。在實(shí)驗(yàn)中,以時(shí)間規(guī)則和聚合距離組合,對(duì)500 m 和250 m 取值的結(jié)果進(jìn)行比較,500 m 取值新增識(shí)別者的平均直線通勤距離僅為2 266 m,遠(yuǎn)小于兩者共同識(shí)別人群的平均值3 849 m。在較大聚合距離下,許多日間活動(dòng)位置不太固定、在相近基站活動(dòng)的居民被識(shí)別出工作地,而這部分人被識(shí)別出的居住地、工作地的距離明顯偏小。隨著聚合距離增大,工作地識(shí)別率上升幅度明顯高于居住地識(shí)別率上升幅度(見(jiàn)表1),這也能在一定程度說(shuō)明上述情況。
這一結(jié)果說(shuō)明,追求過(guò)高的識(shí)別率并無(wú)意義,反而可能對(duì)職住地測(cè)算的結(jié)果準(zhǔn)確性產(chǎn)生負(fù)面影響。這些被擴(kuò)大出來(lái)的用戶真實(shí)行為目的需要今后進(jìn)一步研究證實(shí)。
當(dāng)前已有的職住地測(cè)算方法是基于對(duì)居民一般居住、工作行為規(guī)律認(rèn)識(shí),建立在固定居住地和工作地并且有規(guī)律的夜間居住時(shí)段、日間工作時(shí)段前提下。顯然,部分居民可能沒(méi)有固定的工作地(如交通運(yùn)輸業(yè)的職業(yè)駕駛?cè)说?,也有可能上夜班,居住、工作時(shí)間恰好相反。這些居民行為可能是不同因素對(duì)識(shí)別結(jié)果造成影響的原因之一。
本文發(fā)現(xiàn),多種時(shí)間規(guī)則、空間聚合距離、數(shù)據(jù)時(shí)間序列對(duì)職住地識(shí)別結(jié)果有顯著影響。由于無(wú)法獲取南昌市居民出行調(diào)查數(shù)據(jù),尚不能精確地判斷哪一種組合方法與居民實(shí)際通勤情況最為接近。實(shí)際交通規(guī)劃工作中常常將手機(jī)信令數(shù)據(jù)測(cè)算職住地作為一種輔助調(diào)查手段使用,往往在缺少居民出行調(diào)查情況下進(jìn)行或是與居民出行調(diào)查同步進(jìn)行。缺少居民出行調(diào)查數(shù)據(jù)是實(shí)際工作中的常見(jiàn)情形。為此,要采用多種方法組合,進(jìn)行多組結(jié)果相互比較、選擇一致性較好的組合方式。這種工作方式更加符合交通規(guī)劃實(shí)踐的場(chǎng)景。倘若有接近時(shí)段的居民出行調(diào)查數(shù)據(jù),應(yīng)將平均直線通勤距離等與實(shí)際調(diào)查值對(duì)照,驗(yàn)證規(guī)則和參數(shù)選取的可靠性。
本研究也說(shuō)明了當(dāng)使用手機(jī)信令數(shù)據(jù)計(jì)算職住地時(shí),算法本身還存在若干值得關(guān)注的未知因素。手機(jī)信令數(shù)據(jù)表征的居民出行特征還不能用過(guò)于簡(jiǎn)單的規(guī)則全部挖掘出來(lái)。
3個(gè)時(shí)空因素對(duì)職住地識(shí)別結(jié)果都有不可忽視的影響。對(duì)于平均直線通勤距離,聚合距離取值對(duì)結(jié)果影響最大,數(shù)據(jù)時(shí)間序列對(duì)結(jié)果影響最小。對(duì)于共同識(shí)別用戶一致性,數(shù)據(jù)時(shí)間序列對(duì)結(jié)果的影響最大,聚合距離對(duì)結(jié)果影響最小。對(duì)于識(shí)別率,聚合距離對(duì)結(jié)果的影響最大,時(shí)間規(guī)則和數(shù)據(jù)時(shí)間序列對(duì)結(jié)果影響較小。
1)時(shí)間規(guī)則的影響。
特征時(shí)間法得到的平均直線通勤距離明顯小于其他3 種時(shí)間規(guī)則;時(shí)間閾值法識(shí)別率稍低,信息熵法實(shí)質(zhì)上是在累積時(shí)間法上疊加了更嚴(yán)格的約束條件,結(jié)果導(dǎo)致平均直線通勤距離變小。在共同識(shí)別用戶一致性上,時(shí)間閾值法與其他3個(gè)規(guī)則的重合率最低。
2)空間聚合距離的影響。
圖5 數(shù)據(jù)時(shí)間序列與聚合距離組合下位置的平均距離差及位置一致率Fig.5 Average distance difference and position consistency rate with the combination of data time series and aggregated distance
平均直線通勤距離對(duì)聚合距離取值非常敏感。較大空間聚合距離取值雖然使識(shí)別率上升,但是使平均直線通勤距離明顯變小。聚合距離擴(kuò)大未改變共同識(shí)別用戶的職住地,而是納入了更多行為位置不固定的用戶,這些用戶的行為可能不是居住、工作目的。
3)數(shù)據(jù)時(shí)間序列的影響。
數(shù)據(jù)時(shí)間序列1 周與5 周、不同的一周相互之間共同識(shí)別用戶一致性差異明顯。不同數(shù)據(jù)時(shí)間序列之間共同識(shí)別用戶位置一致率不高;不同的一周,共同識(shí)別用戶的職住地位置平均距離差超過(guò)500 m。1 周是較短的數(shù)據(jù)時(shí)間序列長(zhǎng)度,對(duì)職住地測(cè)算結(jié)果可靠性產(chǎn)生明顯影響,且不同周的結(jié)果也有顯著差異。
由于規(guī)則選取會(huì)對(duì)結(jié)果產(chǎn)生顯著影響,手機(jī)信令數(shù)據(jù)職住地識(shí)別結(jié)果必須經(jīng)過(guò)可靠性檢驗(yàn)。當(dāng)前常用方法是與人口普查、經(jīng)濟(jì)普查進(jìn)行空間分布比對(duì)。針對(duì)本文33 種組合的居住地測(cè)算結(jié)果,采用街道(鎮(zhèn))空間單元與“六普”常住人口數(shù)量分布進(jìn)行相關(guān)性檢驗(yàn),結(jié)果都顯示了強(qiáng)相關(guān)。這表明僅用普查數(shù)據(jù)驗(yàn)證空間分布是不夠的,仍無(wú)法準(zhǔn)確判斷結(jié)果可靠性。
實(shí)際工作中往往是在沒(méi)有居民出行調(diào)查的前提下才使用手機(jī)信令數(shù)據(jù)測(cè)算職住地,本文建議增加平均直線通勤距離、共同識(shí)別用戶一致性兩種檢驗(yàn)方式。應(yīng)采用多種因素、多種取值組合進(jìn)行測(cè)算,對(duì)照比較多組識(shí)別結(jié)果,選取一致性較好的組合方式。多個(gè)組合、多個(gè)取值對(duì)照比較是一種數(shù)據(jù)訓(xùn)練的方法,一旦規(guī)則和參數(shù)確定,后續(xù)同一來(lái)源數(shù)據(jù)可以用同一套規(guī)則和參數(shù)取值。
表9 數(shù)據(jù)時(shí)間序列與聚合距離組合結(jié)果與“六普”常住人口的相關(guān)系數(shù)Tab.9 Correlation coefficient between the result from the combination of data time series and aggregated distance and the 6th national population census
對(duì)手機(jī)信令數(shù)據(jù)識(shí)別職住地的規(guī)則選取和參數(shù)選擇提出三點(diǎn)建議:1)在時(shí)間連續(xù)性規(guī)則中,應(yīng)慎重使用特征時(shí)間法。累積時(shí)間法、時(shí)間閾值法是相對(duì)較好的時(shí)間規(guī)則,一般情況下建議優(yōu)先考慮。2)應(yīng)慎重選取空間聚合距離值。在沒(méi)有居民出行調(diào)查獲取居民直線通勤距離值對(duì)照驗(yàn)證的情況下,建議優(yōu)先使用較小的空間聚合距離值。3)在職住地測(cè)算中應(yīng)使用較長(zhǎng)的數(shù)據(jù)時(shí)間序列,不能使用過(guò)短的數(shù)據(jù)時(shí)間序列。如果能在一年不同季節(jié)選擇較長(zhǎng)數(shù)據(jù)時(shí)間序列進(jìn)行較連續(xù)測(cè)算,會(huì)使得結(jié)果更為可靠。
注釋:
Notes:
①手機(jī)信令數(shù)據(jù)測(cè)算得到的通勤距離是代表居住地的基站與代表工作地的基站之間的直線距離。這一距離值比真實(shí)通勤距離短,本文稱其為直線通勤距離。