基于手機(jī)數(shù)據(jù)的出行鏈推演算法

2019-06-25 08:48:14吳子嘯

城市交通 2019年3期

吳子嘯

(中國城市規(guī)劃設(shè)計研究院，北京 100037)

1 研究概述

1.1 手機(jī)數(shù)據(jù)類型及特征

與其他類型大數(shù)據(jù)類似，手機(jī)數(shù)據(jù)也是一種被動產(chǎn)生的痕跡數(shù)據(jù)，即用戶使用手機(jī)進(jìn)行通訊活動(通話、短信等)和運(yùn)營商提供通訊服務(wù)的痕跡數(shù)據(jù)。由于手機(jī)痕跡數(shù)據(jù)包含位置和時間信息，從而提供了人們出行和活動的線索。與傳統(tǒng)交通調(diào)查數(shù)據(jù)相比，手機(jī)數(shù)據(jù)具有大樣本、可持續(xù)、成本低等優(yōu)點(diǎn)，為未來交通研究和交通建模提供了全新的數(shù)據(jù)資源。

相關(guān)研究中通常將手機(jī)數(shù)據(jù)分為兩類：一類是通話詳單數(shù)據(jù)(Call Detail Record Data, CDR)，另一類是信令數(shù)據(jù)(Sightings Data)。CDR 數(shù)據(jù)是由用戶使用手機(jī)進(jìn)行通訊活動產(chǎn)生的痕跡數(shù)據(jù)，通常包含通訊活動的用戶ID、起始時間、時長信息以及服務(wù)基站信息；信令數(shù)據(jù)是運(yùn)營商提供通訊服務(wù)的痕跡數(shù)據(jù)，除了由用戶進(jìn)行通訊活動觸發(fā)外，還可以由服務(wù)區(qū)切換等網(wǎng)絡(luò)活動觸發(fā)。與CDR 數(shù)據(jù)不同，信令數(shù)據(jù)中的位置信息通常為幾個基站間通過三角算法計算的結(jié)果。因此，信令數(shù)據(jù)的時間密度和位置信息精度均高于CDR數(shù)據(jù)[1]。

手機(jī)數(shù)據(jù)的時間密度因用戶而異，并且非常不規(guī)則。通常在某一小段時間內(nèi)，手機(jī)數(shù)據(jù)密集出現(xiàn)，在較長且不規(guī)律的時間后，手機(jī)數(shù)據(jù)再次密集發(fā)生。為了表示手機(jī)數(shù)據(jù)的時間密度，通常將一天劃分為以0.5 h 為單位的時段，在一個時段內(nèi)有一個或多個手機(jī)數(shù)據(jù)即表示該時段出現(xiàn)手機(jī)數(shù)據(jù)，而以出現(xiàn)手機(jī)數(shù)據(jù)的時段數(shù)表示時間密度并據(jù)此計算手機(jī)數(shù)據(jù)出現(xiàn)的時間間隔。CDR數(shù)據(jù)的時間間隔可以達(dá)到數(shù)小時之久[2]，而信令數(shù)據(jù)的時間間隔通常也超過1 h[3]。本文采用某城市2015年的手機(jī)數(shù)據(jù)，以手機(jī)數(shù)據(jù)出現(xiàn)時段最多的15 h(大多數(shù)出行和活動集中的時段7:00—22:00)為研究周期，統(tǒng)計得到手機(jī)數(shù)據(jù)平均出現(xiàn)時段數(shù)量分布(見圖1)。手機(jī)數(shù)據(jù)出現(xiàn)的時段數(shù)量平均為9.1 個，平均時間間隔為84 min，數(shù)據(jù)特征與已有文獻(xiàn)中的描述基本吻合。預(yù)計未來隨著智能手機(jī)用戶比例的上升，手機(jī)數(shù)據(jù)的時間密度將會顯著提高。

圖1 手機(jī)數(shù)據(jù)的時間密度分布Fig.1 Time-density distribution of cell phone data

圖2 手機(jī)數(shù)據(jù)誤差示例Fig.2 Example of cell phone data error

根據(jù)大多數(shù)城市的居民出行調(diào)查結(jié)果，城市居民單次出行平均出行時耗大多集中在20～30 min。結(jié)合手機(jī)數(shù)據(jù)的平均時間間隔可以判斷，由手機(jī)數(shù)據(jù)推演出行時耗的可靠性不高，并且一些出行活動也不能被手機(jī)數(shù)據(jù)所反映。

1.2 手機(jī)數(shù)據(jù)處理的關(guān)鍵問題

1）乒乓效應(yīng)和數(shù)據(jù)漂移。

在通信網(wǎng)絡(luò)覆蓋的區(qū)域，通常一個具體地點(diǎn)會被周圍幾個基站的信號重疊覆蓋。該區(qū)域內(nèi)的手機(jī)所聯(lián)系的基站會隨各基站信號強(qiáng)度的變化而不斷改變，從而產(chǎn)生在兩個或多個基站間來回切換的現(xiàn)象，該現(xiàn)象被稱為“乒乓效應(yīng)”。另外，為保證手機(jī)用戶通訊的效率與質(zhì)量，服務(wù)基站往往有負(fù)荷優(yōu)化的調(diào)節(jié)機(jī)制。當(dāng)手機(jī)鄰近的基站負(fù)荷較大時，手機(jī)信號會被自動切換至較遠(yuǎn)且負(fù)荷較小的基站，從而產(chǎn)生信號的漂移。因此，手機(jī)數(shù)據(jù)對地點(diǎn)的代表具有很大的不確定性。文獻(xiàn)[4]對于信令數(shù)據(jù)的研究認(rèn)為其在城市區(qū)域的位置誤差在300 m 以內(nèi)。文獻(xiàn)[5]認(rèn)為CDR 數(shù)據(jù)的位置誤差可以從幾百米到幾千米，主要取決于基站的密度。如圖2 所示，數(shù)據(jù)在兩個主要活動地點(diǎn)有大量的乒乓效應(yīng)并伴隨數(shù)據(jù)漂移現(xiàn)象。文獻(xiàn)[6]指出乒乓效應(yīng)和數(shù)據(jù)漂移的數(shù)據(jù)約占數(shù)據(jù)總量的30%。

乒乓效應(yīng)和數(shù)據(jù)漂移并不代表用戶的真實移動，對這類數(shù)據(jù)進(jìn)行處理是利用手機(jī)數(shù)據(jù)進(jìn)行出行鏈推演的重要一環(huán)。在這方面研究中，已有三種方法被提出和應(yīng)用。文獻(xiàn)[7]提出基于速度的方法：即當(dāng)基站(或位置點(diǎn))A夾雜在基站(或位置點(diǎn))B中并且由A至B的轉(zhuǎn)換速度超過一個設(shè)定的極限值，則定義為乒乓效應(yīng)。在手機(jī)數(shù)據(jù)的時間密度較低并存在空間不確定性的情況下，選擇一個速度極限值是該方法的一個挑戰(zhàn)。文獻(xiàn)[6]和文獻(xiàn)[8]則提出基于模式的方法，即根據(jù)乒乓效應(yīng)的特征定義幾個基站(或位置點(diǎn))間切換的模式，當(dāng)檢測到該模式時即視為乒乓效應(yīng)進(jìn)行處理。由于實際中乒乓效應(yīng)的形式非常多樣，有時發(fā)生在兩個基站間、有時發(fā)生在多個基站間，并間雜有數(shù)據(jù)漂移現(xiàn)象，因此，將所有乒乓效應(yīng)的模式進(jìn)行列舉十分困難；另一方面，實際發(fā)生在兩點(diǎn)之間的真實高頻移動可能會被誤以為乒乓效應(yīng)。將以上兩種方法結(jié)合而成的混合方法也是比較常見的應(yīng)用[9]，但也無法完全避免各自方法內(nèi)在的缺陷。

2）活動地點(diǎn)識別。

利用手機(jī)數(shù)據(jù)進(jìn)行出行鏈推演的另一個關(guān)鍵點(diǎn)是對于活動地點(diǎn)的識別。一般認(rèn)為，停留超過一定時間(通常為10 min)的位置點(diǎn)可以視為一個活動地點(diǎn)。由于手機(jī)數(shù)據(jù)的空間不確定性，需要將空間臨近的位置點(diǎn)聚合在一點(diǎn)才能形成停留時間的累積。聚類算法通常用來實現(xiàn)這一目標(biāo)。在眾多聚類算法中，無須預(yù)設(shè)參數(shù)的基于距離的聚類算法[10-11]最受青睞。文獻(xiàn)[5]提出另一種不需預(yù)設(shè)參數(shù)的聚類方法，即基于模型的聚類方法。但該方法對于時間密度稀疏的手機(jī)數(shù)據(jù)的運(yùn)行效果并不理想[1]。顯而易見，基于距離的聚類算法的結(jié)果容易受到數(shù)據(jù)漂移的影響。例如，在幾個時間相繼、空間臨近的位置點(diǎn)中夾雜一個較遠(yuǎn)距離的數(shù)據(jù)漂移，聚類的結(jié)果將由一個類(位置點(diǎn)集合)變成三個類，漂移數(shù)據(jù)成為其中單獨(dú)的一類。這顯然會影響位置點(diǎn)停留時間的累積，進(jìn)而影響活動地點(diǎn)的識別。

文獻(xiàn)[12-15]提出一種改進(jìn)的基于距離的聚類算法，即隨著類中位置點(diǎn)的增加，重新計算類的型心。這種改進(jìn)方法可以在一定限度上提高算法對乒乓效應(yīng)和漂移數(shù)據(jù)的容忍度，但算法有效性仍然會受到數(shù)據(jù)空間不確定性的影響。

手機(jī)數(shù)據(jù)的預(yù)處理與活動地點(diǎn)的識別相互依賴、相互影響。大量乒乓效應(yīng)和數(shù)據(jù)漂移會影響活動地點(diǎn)識別算法的效率和準(zhǔn)確性。因此，在大多數(shù)處理CDR 數(shù)據(jù)的流程中，先進(jìn)行手機(jī)數(shù)據(jù)的預(yù)處理[16]，再執(zhí)行聚類算法進(jìn)行活動地點(diǎn)識別。而對于信令數(shù)據(jù)，文獻(xiàn)[1]認(rèn)為應(yīng)先執(zhí)行聚類算法消除空間不確定性，才能有效識別和處理乒乓效應(yīng)。迄今為止，眾多研究在城市層面上基于手機(jī)數(shù)據(jù)進(jìn)行活動和出行鏈的推算[1,16]，但算法在個體數(shù)據(jù)層面的有效性從未詳細(xì)探討。手機(jī)數(shù)據(jù)乒乓效應(yīng)和漂移的內(nèi)在規(guī)律目前仍不明確，對這些數(shù)據(jù)預(yù)處理方法的有效性也難以評價。與以往研究不同，本文提出一種新的方法——時空貪婪同化法，該方法更多地利用了人們出行和活動的一般規(guī)律以及手機(jī)數(shù)據(jù)在某一時段密集出現(xiàn)的特征，最大限度地消除手機(jī)數(shù)據(jù)的空間不確定性。另外，改進(jìn)的空間聚類算法在進(jìn)行類型心更新時，考慮了位置點(diǎn)的停留時長，能夠更加有效地錨固居住地、工作地等人們長時間停留的活動點(diǎn)，從而更加準(zhǔn)確地推算出行鏈。

2 算法描述

本文提出基于手機(jī)數(shù)據(jù)推演出行鏈的算法流程，如圖3所示。

2.1 數(shù)據(jù)初始化

數(shù)據(jù)初始化的步驟主要包括：1)對手機(jī)數(shù)據(jù)進(jìn)行柵格化處理，以柵格型心經(jīng)緯度取代落在柵格內(nèi)各位置點(diǎn)的經(jīng)緯度。手機(jī)數(shù)據(jù)位置點(diǎn)從本源上均是基于基站定位的，而手機(jī)基站經(jīng)緯度通常有保密性要求，柵格化處理一方面可以實現(xiàn)保密的目的，另一方面，不同數(shù)據(jù)源(如基于基站定位的數(shù)據(jù)和基于三角定位的數(shù)據(jù))可進(jìn)行融合處理。2)建立各位置點(diǎn)的開始時間和結(jié)束時間項。有些手機(jī)信令數(shù)據(jù)既給出信令開始時間也給出了信令結(jié)束時間。在只給出信令開始時間時，可以在開始時間上加一個極小的時間段(如20 s)生成信令結(jié)束時間，這樣手機(jī)時空數(shù)據(jù)的一條記錄可表示為li表示第i條數(shù)據(jù)記錄的位置點(diǎn)，tis和tif分別表示第i條數(shù)據(jù)記錄的開始時間和結(jié)束時間，數(shù)據(jù)記錄集合為N。3)按開始時間對所有數(shù)據(jù)記錄進(jìn)行排序，合并同一位置點(diǎn)的相鄰數(shù)據(jù)記錄。也就是說，將同一位置點(diǎn)的所有相鄰數(shù)據(jù)記錄合并為一條新記錄，新記錄的開始時間設(shè)為被合并數(shù)據(jù)記錄中開始時間的最小值，結(jié)束時間設(shè)為這些數(shù)據(jù)記錄中結(jié)束時間的最大值。

2.2 時空貪婪同化

圖3 算法流程Fig.3 Algorithm process

時空貪婪同化的基本思想是依次從當(dāng)前數(shù)據(jù)記錄集中找出最頻繁出現(xiàn)的位置點(diǎn)(即數(shù)據(jù)記錄最多的位置點(diǎn))，識別短時間內(nèi)夾雜在該位置點(diǎn)的兩條數(shù)據(jù)記錄間的其他位置點(diǎn)，形成位置點(diǎn)集合進(jìn)行同化。由于借鑒了貪婪算法的思想，該步驟被稱為時空貪婪同化流程。具體算法如下：

1）將初始化的數(shù)據(jù)記錄集N設(shè)為當(dāng)前數(shù)據(jù)記錄集，時間段集合T設(shè)為空集；

2）從當(dāng)前數(shù)據(jù)記錄集中找出數(shù)據(jù)記錄最多的位置點(diǎn)m，提取位置點(diǎn)m的所有數(shù)據(jù)記錄生成數(shù)據(jù)記錄子集Nm={mj,tjs,tjf}，并生成位置點(diǎn)集合Cm={m}；

3）從Nm中第一條記錄開始，若當(dāng)前數(shù)據(jù)記錄的結(jié)束時間距下一條記錄的開始時間的間隔小于等于τ，即(t(j+1)s-tjf)≤τ，則更新時間段集合T=?j(tjf,t(j+1)s)，執(zhí)行完畢生成時間段集合T；

4）對于當(dāng)前數(shù)據(jù)記錄集N中的每一條數(shù)據(jù)記錄(li,tis,tif)，若(tis,tif)?T并且li不在位置點(diǎn)集合Cm中，則將li加入Cm中，執(zhí)行完畢生成位置點(diǎn)集合Cm，并計算Cm的型心經(jīng)緯度，即為其所包含的各位置點(diǎn)經(jīng)緯度的加權(quán)平均值，權(quán)重為各位置點(diǎn)在數(shù)據(jù)記錄集N中出現(xiàn)的頻率或累積停留時間；

5）去除當(dāng)前數(shù)據(jù)記錄集N中位置點(diǎn)屬于Cm的所有記錄，返回步驟2)；循環(huán)結(jié)束生成位置點(diǎn)集合C={Cm}；

6）將原數(shù)據(jù)記錄集N中位置點(diǎn)屬于Cm的所有記錄替代為Cm的型心，然后將同一位置點(diǎn)的所有相鄰數(shù)據(jù)記錄合并為一條新記錄，新記錄的開始時間設(shè)為這些數(shù)據(jù)記錄中開始時間的最小值，結(jié)束時間設(shè)為這些數(shù)據(jù)記錄中結(jié)束時間的最大值。執(zhí)行完畢生成數(shù)據(jù)記錄集N′。

在上述算法中，依次從空間位置點(diǎn)最多的數(shù)據(jù)記錄開始處理，這些位置點(diǎn)通常為手機(jī)用戶居住和就業(yè)所在地以及經(jīng)常訪問地點(diǎn)，這樣不僅保證算法有很高的計算效率，也有助于錨固這些經(jīng)常訪問的活動點(diǎn)。步驟3)中時間間隔τ可取15 min。根據(jù)各城市的居民出行調(diào)查結(jié)果，一次出行的時耗通常在5 min以上，而在出行目的地活動所花時間一般在5 min 以上。從一個地點(diǎn)出行再返回原地的過程涉及一個活動和兩次出行，因此最小時間間隔應(yīng)為15 min以上。另外，由于手機(jī)信令數(shù)據(jù)通常會在某些時段密集發(fā)生，尤其是發(fā)生乒乓效應(yīng)和數(shù)據(jù)漂移時，那么通過上述步驟對夾雜數(shù)據(jù)進(jìn)行搜索同化后，手機(jī)數(shù)據(jù)的空間不確定性將在很大限度上被消除。

2.3 空間聚類

空間聚類是對當(dāng)前數(shù)據(jù)記錄集的空間位置點(diǎn)按聚類算法進(jìn)行分類，改進(jìn)的聚類算法如下：

1）將上一階段結(jié)果N′設(shè)為當(dāng)前數(shù)據(jù)記錄集，計算各位置點(diǎn)l的總停留時間Tl=∑i∈Il(tif-tis)，Il為數(shù)據(jù)記錄集中位置點(diǎn)為l的序列號集合，按總停留時間由大到小對各位置點(diǎn)排序，形成位置點(diǎn)集合L={l1,l2,…,lk}；

2）在L中按順序取li進(jìn)入類Ch，li為Ch型心，依次計算L中其他位置點(diǎn)lj至Ch型心的距離Dis(lj,Ch)，若 Dis(lj,Ch)＜δ，則將lj加入Ch，更新Ch型心的經(jīng)緯度為Ch中各位置點(diǎn)經(jīng)緯度的加權(quán)平均值，權(quán)重為各位置點(diǎn)的總停留時間；否則繼續(xù)進(jìn)行，直到L中任意一點(diǎn)至Ch型心的距離不小于δ，生成類Ch；

3）從L中刪除Ch中所含位置點(diǎn)，若L不為空，返回步驟2)。否則輸出類{C1,C2,…,Cf}；

4）在N′數(shù)據(jù)記錄中，將各位置點(diǎn)替換為其所屬的類型心；然后將同一位置點(diǎn)的所有相鄰數(shù)據(jù)記錄合并為一條新記錄，新記錄的開始時間設(shè)為這些數(shù)據(jù)記錄中開始時間的最小值，結(jié)束時間設(shè)為這些數(shù)據(jù)記錄中結(jié)束時間的最大值，最后得到結(jié)果數(shù)據(jù)記錄集N′。

上面的空間聚類方法實質(zhì)上是一種漸進(jìn)聚類算法[13]的改進(jìn)算法。漸進(jìn)聚類算法會因位置點(diǎn)的不同排列次序而產(chǎn)生不同的聚類結(jié)果，文獻(xiàn)[1]選擇K-means聚類方法來克服這一缺點(diǎn)。但K-means聚類方法的預(yù)設(shè)參數(shù)需要經(jīng)過試算才能確定，會極大地影響計算效率。本文提出的方法先對位置點(diǎn)按停留時間進(jìn)行排序，聚類始終從長時間活動的位置點(diǎn)發(fā)起，保證了聚類結(jié)果的唯一性和合理性。另外，類型心更新的機(jī)制中引入了位置點(diǎn)停留時間的權(quán)重，更加錨固了長時間停留點(diǎn)的位置。大多數(shù)的出行距離為500 m 以上，步驟2)中δ可取200～500 m。

表1 手機(jī)數(shù)據(jù)原始記錄Tab.1 Original raw cell phone data

續(xù)表

2.4 活動點(diǎn)識別

活動點(diǎn)識別指辨認(rèn)用戶活動地點(diǎn)，一般將單次停留時間超過一定值(如5 min)的位置點(diǎn)作為活動點(diǎn)。在時空貪婪同化和空間聚類步驟之后，存在活動的位置點(diǎn)能夠最大限度地累積到停留時間，便于活動點(diǎn)的識別。

3 算例

表1 為隨機(jī)抽取的匿名用戶一天的手機(jī)數(shù)據(jù)，共121 條，表中序號按數(shù)據(jù)開始時間排序，位置點(diǎn)共計16 個(見表2)，位置點(diǎn)編號按各位置點(diǎn)經(jīng)度由小到大排序?？梢钥闯?，出現(xiàn)次數(shù)最多的位置點(diǎn)編號為2，表1中藍(lán)色框表示相鄰兩條位置點(diǎn)為2 的數(shù)據(jù)記錄滿足開始時間小于15 min的條件，紅色框表示相鄰兩條位置點(diǎn)為15 的數(shù)據(jù)記錄滿足開始時間小于15 min的條件。

根據(jù)時空貪婪同化流程建立位置點(diǎn)集合C1={1 ,2,3,4,6}。同理，對應(yīng)于位置點(diǎn)15(見表 1 中紅色框)，可以得到C2={12,14,15,16}。表1 中合并標(biāo)識表示這些數(shù)據(jù)記錄的位置點(diǎn)屬于同一個位置點(diǎn)集合，將被集合型心所取代。時空貪婪同化流程的結(jié)果如表3 所示。為直觀對比，表3 中序號與表1 保持一致，合并的數(shù)據(jù)記錄保留了起始數(shù)據(jù)記錄序號。

為說明算法的有效性和計算效率，同時采用K-means 聚類方法對以上數(shù)據(jù)進(jìn)行處理，結(jié)果如圖4 所示。K-means 聚類方法(δ取500 m)的結(jié)果生成3個類，按文獻(xiàn)[1]提出的處理框架，類C2與C3將在接下來的步驟中被檢測為乒乓效應(yīng)而進(jìn)行合并，從而得到與時空貪婪同化流程完全類似的結(jié)果。但K-means 聚類方法需要計算兩點(diǎn)之間的空間距離，本質(zhì)上是一種O(|N|2)算法( |N|為初始數(shù)據(jù)記錄條數(shù))，而時空貪婪同化流程為O(|N|)算法，計算量遠(yuǎn)遠(yuǎn)小于前者。

基于K-means 聚類方法[1]得到的類C1={1 ,2,3,4,5,6,7,8} 會因δ取值而變化，從用戶多日的數(shù)據(jù)分析來看，時空貪婪同化流程得到的C1={1 ,2,3,4,6} 能更客觀地反映用戶居住地的位置。位置點(diǎn)1，3，4，6夾雜在相鄰兩條位置點(diǎn)為2的記錄中的最小時間間隔分別為2 min 52 s，8 min 46 s，1 min 23 s 和1 min 45 s。也就是說，只要時間間隔τ取10 min 以上時，C1即可包含位置點(diǎn)1，2，3，4，6。另一方面，位置點(diǎn)5，7 和8 夾雜在相鄰兩條位置點(diǎn)為2 的記錄中的最小時間間隔分別為27 min 9 s，27 min 9 s和1 min 20 s，當(dāng)τ取17～27 min時，位置點(diǎn)8將進(jìn)入C1；當(dāng)τ取28 min以上時，位置點(diǎn)5和7將進(jìn)入C1。由于C1型心計算會以各位置點(diǎn)停留時間為權(quán)重，位置點(diǎn)8，5和7進(jìn)入C1對于型心位置的影響很小。由此可以看出，只要τ在一定范圍內(nèi)，時空貪婪同化流程的結(jié)果相當(dāng)穩(wěn)定。

從表3 可以看出，經(jīng)過時空貪婪同化流程，121條原始數(shù)據(jù)記錄被精簡至10條，計算量遠(yuǎn)遠(yuǎn)小于各種空間聚類算法，且原始數(shù)據(jù)記錄中各種形式的乒乓效應(yīng)完全被消除，位置點(diǎn)C1和C2的停留時間得到最大限度的累積。不難推測，C1為居住地，而C2為工作地，位置點(diǎn)11 為上班途中留下的痕跡，而位置點(diǎn)13，10 和9 為下班途中留下的痕跡。位置點(diǎn)7 和5 可能表征一次基于家的活動，但由于出行距離較短，在接下來的空間聚類流程中可能會被抹去(取決于聚類所采用的參數(shù))。

雖然從這個具體例子來看，在時空貪婪同化流程之后進(jìn)行空間聚類并非十分必要，但由于數(shù)據(jù)記錄已大幅精簡，改進(jìn)后的空間聚類的計算量非常小。況且手機(jī)數(shù)據(jù)產(chǎn)生漂移和乒乓效應(yīng)的情形多種多樣，保留空間聚類流程可以彌補(bǔ)時空貪婪同化流程可能力不能及的地方。從表3可以看出，位置點(diǎn)13在空間聚類流程中進(jìn)入C2，這雖然無助于提升對于停留點(diǎn)位置的判斷，但是能夠提升對于離開工作地時間判斷的精度。

表2 各位置點(diǎn)經(jīng)緯度及出現(xiàn)次數(shù)Tab.2 The latitude and longitude of different location point and its occurrences

表3 時空貪婪同化流程處理結(jié)果Tab.3 Results of space-time greedy assimilation process

圖4 算法結(jié)果比較Fig.4 Results of different algorithms

4 結(jié)語

與各種基于空間緊密性的聚類算法不同，本文提出一種基于時間緊密性的新算法——時空貪婪同化流程，用于從手機(jī)數(shù)據(jù)推演出行鏈。在隨機(jī)抽取的個體手機(jī)數(shù)據(jù)測試中，新算法表現(xiàn)出很高的效率，對于居住地、工作地等停留較長時間的活動點(diǎn)的錨固作用尤其明顯。由于篇幅限制算例是針對一天的手機(jī)數(shù)據(jù)，顯然算法無須調(diào)整即可應(yīng)用于多天手機(jī)數(shù)據(jù)。未來的研究將集中在整個城市層面居民出行鏈的推演以及推演結(jié)果與交通調(diào)查數(shù)據(jù)的比對方面。