王衛(wèi)鋒,胡靖昊,賀琰,宋現(xiàn)鋒,芮小平,劉軍利,朱克忞
(1 中國(guó)科學(xué)院大學(xué)資源與環(huán)境學(xué)院, 北京 100049; 2 河海大學(xué)地球科學(xué)與工程學(xué)院, 南京 210098;3 中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院, 廣東 深圳 518055)
隨著互聯(lián)網(wǎng)的快速發(fā)展,“網(wǎng)約車”運(yùn)營(yíng)模式加劇了出租車行業(yè)的競(jìng)爭(zhēng)[1-3],同時(shí)帶來(lái)一些新的變化。出租車司機(jī)從傳統(tǒng)“掃街”巡游載客,逐漸轉(zhuǎn)變?yōu)榧骖櫴謾C(jī)APP的線上搶單載客;為了獲取更多載客機(jī)會(huì),司機(jī)常攜帶多部手機(jī)并接入不同出行平臺(tái)(如:滴滴、滴答、首汽等)。出租司機(jī)在新形勢(shì)下的移動(dòng)行為,如:尋客策略[4]、路徑選擇[5]、異常行為[6],引起越來(lái)越多專家學(xué)者的關(guān)注。時(shí)空軌跡是研究對(duì)象移動(dòng)行為的重要數(shù)據(jù)源,單一時(shí)空軌跡受限于采樣頻率和定位精度,其語(yǔ)義信息的表達(dá)具有一定局限性[7]。然而,在城市交通運(yùn)輸過程中,衛(wèi)星導(dǎo)航定位系統(tǒng)和地面移動(dòng)通訊網(wǎng)絡(luò),均可對(duì)道路移動(dòng)目標(biāo)進(jìn)行跟蹤定位,形成不同質(zhì)量的多源時(shí)空軌跡數(shù)據(jù)。將出租車司機(jī)的多源時(shí)空軌跡進(jìn)行關(guān)聯(lián)融合分析,將有助于增強(qiáng)軌跡語(yǔ)義、獲取精準(zhǔn)出行空間與運(yùn)營(yíng)特征,對(duì)出租車司機(jī)個(gè)體和群體移動(dòng)行為的研究具有重要實(shí)用價(jià)值。
常用的出租車司機(jī)的多源時(shí)空軌跡數(shù)據(jù)包括出租車GNSS(global navigation satellite system)軌跡數(shù)據(jù)和手機(jī)Cell-ID軌跡數(shù)據(jù)等。出租車GNSS軌跡蘊(yùn)含出租車司機(jī)的移動(dòng)軌跡,具有定位精度高、采樣均勻等優(yōu)點(diǎn)[8],但出租車的營(yíng)運(yùn)存在輪班制模式,一輛出租車的GNSS軌跡記錄可能是多位司機(jī)營(yíng)運(yùn)軌跡的并集。手機(jī)Cell-ID軌跡的時(shí)空覆蓋率很高,但是個(gè)人社會(huì)屬性(如:職業(yè))不明且定位精度比較低,導(dǎo)致軌跡語(yǔ)義表達(dá)精度受限[9]。多源時(shí)空軌跡可以彌補(bǔ)單一數(shù)據(jù)源的不足。然而,多源時(shí)空軌跡關(guān)聯(lián)分析的一個(gè)關(guān)鍵問題是識(shí)別對(duì)象軌跡及其之間的對(duì)應(yīng)關(guān)系,常用的做法是通過軌跡的相似性計(jì)算和軌跡匹配,建立軌跡之間的關(guān)聯(lián),并將不同來(lái)源的軌跡數(shù)據(jù)歸屬到同一移動(dòng)對(duì)象[10]。當(dāng)前常見的軌跡相似度度量方法包括:弗雷歇距離[11]、歐式距離[12]、動(dòng)態(tài)時(shí)間歸整[13]、最長(zhǎng)公共子序列[14]以及編輯距離[15]等,這些方法強(qiáng)調(diào)軌跡線的空間位置或形狀的相似性,忽略了時(shí)間維度的相似性;鎖時(shí)方法考慮上述空間距離的局限性,從時(shí)間維度上計(jì)算2個(gè)時(shí)間戳相同的點(diǎn)之間的空間距離,但軌跡噪聲點(diǎn)易引起鎖時(shí)新插值點(diǎn)的測(cè)度值異常[16]。
為克服上述數(shù)據(jù)及方法的不足,提出一種基于出租司機(jī)多源軌跡數(shù)據(jù)的同軌分析建模方法,集成多源軌跡數(shù)據(jù),深度挖掘出租司機(jī)的軌跡語(yǔ)義。通過對(duì)出租車GNSS軌跡和手機(jī)Cell-ID軌跡的時(shí)空匹配和同質(zhì)檢測(cè)建模,構(gòu)建“出租車-司機(jī)-手機(jī)”關(guān)聯(lián)關(guān)系,依據(jù)這種關(guān)系對(duì)出租車司機(jī)個(gè)體營(yíng)運(yùn)軌跡的出車與收車點(diǎn)進(jìn)行時(shí)空探測(cè)。以北京市2016年8月4日匿名化加密的出租車GNSS數(shù)據(jù)和手機(jī)Cell-ID數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,開展同軌分析研究并驗(yàn)證方法的可行性與有效性。
出租車司機(jī)的多源軌跡同軌分析旨在從出租車GNSS軌跡與手機(jī)信令Cell-ID軌跡中,挖掘出那些攜帶手機(jī)的出租司機(jī)在營(yíng)運(yùn)過程中產(chǎn)生的時(shí)空高度同步的軌跡線對(duì),同時(shí)據(jù)此提取出手機(jī)與車輛同一行駛路徑上的軌跡匹配段。出租車司機(jī)與乘客或出租司機(jī)與其他車輛的短程同行路段,未在本文考慮范圍。
軌跡匹配 給定一個(gè)出租車GNSS軌跡和一個(gè)手機(jī)Cell-ID軌跡,出租車與司機(jī)、司機(jī)與手機(jī)之間的關(guān)聯(lián)關(guān)系是未知的。通過GNSS軌跡與Cell-ID的軌跡匹配和Cell-ID軌跡之間的軌跡匹配,探查2類軌跡的匹配線對(duì)并構(gòu)建“出租車-司機(jī)-手機(jī)”關(guān)聯(lián)關(guān)系。
突變點(diǎn)檢測(cè) 給定一條出租車GNSS軌跡和一條與之高度時(shí)空匹配的手機(jī)Cell-ID軌跡,無(wú)論是輪班制還是單班制,2條軌跡僅在司機(jī)營(yíng)運(yùn)時(shí)段呈現(xiàn)匹配性,非營(yíng)運(yùn)時(shí)段則呈現(xiàn)失配性?;谕|(zhì)檢驗(yàn)的突變點(diǎn)檢測(cè),擬探出租司機(jī)營(yíng)運(yùn)時(shí)段與非營(yíng)運(yùn)時(shí)段的交接點(diǎn),并作為出租車司機(jī)的出車點(diǎn)(或收車點(diǎn))的位置信息。
假設(shè)一條時(shí)空軌跡T是由一組時(shí)間序列上的坐標(biāo)點(diǎn)組成{p1,p2,…,pn},其中,點(diǎn)pi由空間坐標(biāo)位置(xi,yi)與采集時(shí)間ti組成,n為軌跡T中坐標(biāo)點(diǎn)的數(shù)目。給定一條出租車GNSS軌跡Tg和一條手機(jī)Cell-ID軌跡Tc,本文提出一種基于累積加權(quán)軌跡相似度度量指標(biāo),包括軌跡點(diǎn)的相似度和時(shí)空加權(quán)累積的線對(duì)相似度,具體步驟如下。
軌跡點(diǎn)對(duì)的相似度 歐氏距離是衡量2個(gè)坐標(biāo)點(diǎn)之間相似性的最直接方法,但是由于手機(jī)Cell-ID軌跡采用基站位置近似代替手機(jī)用戶的真實(shí)位置,加之蜂窩基站密度及其覆蓋范圍在不同區(qū)域的差異性,本文采用分段函數(shù)法計(jì)算2條軌跡上同一時(shí)刻軌跡點(diǎn)之間的相似度。
m(pi,pj)=
(1)
時(shí)空軌跡的相似度 如果2條軌跡在比較長(zhǎng)的時(shí)間內(nèi)高度時(shí)空同步,即認(rèn)為這2條軌跡就具有相對(duì)較高的相似性。因此,將2條軌跡上同一時(shí)刻軌跡點(diǎn)對(duì)的相似度,沿著時(shí)間維度或空間維度分別加權(quán)累積[18],獲得2條軌跡的時(shí)間加權(quán)相似度(time weighted similarity, TWS)和空間加權(quán)相似度(space weighted similarity, SWS)。
(2)
SWS(Tg,Tc)=
(3)
基于2條軌跡在時(shí)間與空間2個(gè)維度上的相似性,提出一種基于累積加權(quán)軌跡相似度度量指標(biāo),用以表征車輛GNSS軌跡與手機(jī)Cell-ID軌跡之間的接近程度。
TSWS(Tg,Tc)=λ×TWS(Tg,Tc)+
(1-λ)×SWS(Tg,Tc).
(4)
其中:TSWS為2條軌跡之間的時(shí)空相似度,閾值范圍0~1;λ值為時(shí)間相似度與空間相似度的調(diào)整權(quán)重,閾值范圍0~1,缺省值為0.5。時(shí)空相似度TSWS是分析出租車GNSS軌跡與手機(jī)Cell-ID軌跡相似性以及手機(jī)Cell-ID軌跡之間相似性的重要測(cè)度指標(biāo),用于后續(xù)的“出租車-司機(jī)-手機(jī)”關(guān)聯(lián)關(guān)系分析工作。
為了重構(gòu)“出租車-司機(jī)-手機(jī)”的關(guān)聯(lián)關(guān)系,將多源軌跡進(jìn)行軌跡匹配與軌跡聚類,基于1.1節(jié)定義的出租車司機(jī)的多源軌跡之間的時(shí)空相似度,實(shí)現(xiàn)“出租車-司機(jī)-手機(jī)”的關(guān)聯(lián)關(guān)系的重構(gòu),具體步驟如下。
“出租車-手機(jī)”關(guān)聯(lián)分析 給定一條出租車GNSS軌跡,為將該出租車司機(jī)的手機(jī)Cell-ID軌跡從海量手機(jī)信令數(shù)據(jù)庫(kù)集中快速檢索出來(lái),采用初篩與精選相結(jié)合的兩步法?;谕饨泳匦?maximum boundary rectangle, MBR)的快速初篩方法,首先計(jì)算手機(jī)信令數(shù)據(jù)集的所有手機(jī)Cell-ID軌跡的外接矩形MBR并建立軌跡空間覆蓋范圍的R索引樹;然后以出租車軌跡的外接矩形為搜索范圍,快速排除其范圍外的手機(jī)Cell-ID軌跡,獲得同該出租車GNSS軌跡空間范圍相重疊的手機(jī)Cell-ID軌跡候選集?;谲壽E時(shí)空相似度的精選方法,首先計(jì)算候選集中每條手機(jī)Cell-ID軌跡和給定出租車GNSS軌跡的時(shí)空相似度值;然后采用受試者工作特征曲線[19](receiver operating characteristic curve,簡(jiǎn)稱ROC曲線)確定時(shí)空相似度的經(jīng)驗(yàn)閾值,將高于閾值的手機(jī)Cell-ID軌跡認(rèn)定為該出租車的司機(jī)所攜帶手機(jī)記錄生成。
“手機(jī)-司機(jī)”關(guān)聯(lián)分析 給定一條出租車GNSS軌跡,“出租車-手機(jī)”關(guān)聯(lián)分析探查出多條屬于營(yíng)運(yùn)該車輛的手機(jī)Cell-ID軌跡且可能不屬于同一司機(jī)。由于同一司機(jī)攜帶的多部手機(jī)的Cell-ID軌跡有著較高的時(shí)空相似性,不同司機(jī)Cell-ID軌跡之間具有很低的時(shí)空相似性。因此,將與同一車輛關(guān)聯(lián)的手機(jī)Cell-ID軌跡進(jìn)行層次聚類,可構(gòu)建“司機(jī)-手機(jī)”關(guān)聯(lián)關(guān)系。層次聚類是遞歸地對(duì)數(shù)據(jù)進(jìn)行合并或分裂,將數(shù)據(jù)集劃分為嵌套的類層次結(jié)構(gòu)或類譜系樹,該方法最大優(yōu)點(diǎn)是其不同粒度的多層次聚類結(jié)構(gòu)[20]。手機(jī)Cell-ID軌跡層次聚類如圖1所示,首先,計(jì)算候選集中手機(jī)Cell-ID軌跡之間的時(shí)空相似度TSWS,將聚類的距離測(cè)度值定義為γ=1-TSWS生成軌跡之間的相似度距離矩陣;然后采用2條軌跡之間的最小距離作為簇間距離,生成聚類樹;最后確定聚類閾值并切割聚類樹,建立起司機(jī)與手機(jī)的對(duì)應(yīng)關(guān)系。
圖1 Cell-ID軌跡層次聚類Fig.1 Hierarchical clustering diagram of cell-ID trajectory
盡管建立了GNSS與Cell-ID軌跡的匹配軌跡線對(duì)以及人車之間的關(guān)聯(lián)關(guān)系,但是仍然無(wú)法準(zhǔn)確推斷出租司機(jī)個(gè)體的具體營(yíng)運(yùn)軌跡段,即確定出租司機(jī)出車與收車的時(shí)空位置。由于上述2種軌跡采樣頻率和定位精度不一致,由點(diǎn)的相似度并不能推斷連續(xù)軌跡段的匹配情況。然而,由于營(yíng)運(yùn)時(shí)段內(nèi)出租車與司機(jī)處于一體化狀態(tài),其GNSS與Cell-ID軌跡對(duì)點(diǎn)的時(shí)空相似度所構(gòu)成的時(shí)間序列呈現(xiàn)出比較好的同質(zhì)性且相似度很高;在非營(yíng)運(yùn)時(shí)段,由于人(手機(jī))與車輛軌跡彼此分離,其2種軌跡的軌跡對(duì)點(diǎn)的時(shí)空相似度的時(shí)間序列呈現(xiàn)出同質(zhì)性差且相似度偏低的特征,因此在營(yíng)運(yùn)時(shí)段和非營(yíng)運(yùn)時(shí)段之間切換的時(shí)刻,其時(shí)間序列的狀態(tài)必然會(huì)出現(xiàn)沖突。因此,探測(cè)出租司機(jī)出車與收車的時(shí)空位置可以抽象為GNSS與Cell-ID軌跡線的軌跡點(diǎn)對(duì)的時(shí)空相似度時(shí)間序列的同質(zhì)性檢驗(yàn)識(shí)別突變點(diǎn)問題。
突變檢測(cè)常用于序列分割、邊緣檢測(cè)和異常檢測(cè)等[21-22]。佩蒂特檢驗(yàn)[23](Pettitt’s test)是一種非參數(shù)突變檢驗(yàn)算法且不需要預(yù)先假設(shè)數(shù)據(jù)的分布,具有良好的性能。給定一個(gè)時(shí)間序列Xt,t=1,2,…,T在t=τ處將該時(shí)間序列分為2個(gè)子序列X1和X2,如果2個(gè)子序列的分布F1(X1)和F2(X2)不同,那么Xt在t=τ處為該時(shí)間序列的一個(gè)突變點(diǎn)。為識(shí)別時(shí)間序列的突變點(diǎn),佩蒂特檢驗(yàn)首先構(gòu)建一個(gè)類似于Mann-Whitney U Test[24]的統(tǒng)計(jì)量Ut,T:
(5)
Di,j=sgn(xi-xj),
(6)
(7)
若tk時(shí)刻滿足|Ut,T|絕對(duì)值最大,則tk為突變點(diǎn)。計(jì)算統(tǒng)計(jì)量
(8)
若P≤0.05,則認(rèn)為tk時(shí)刻點(diǎn)為此時(shí)間序列X的突變點(diǎn)。此外,對(duì)于個(gè)人獨(dú)立營(yíng)運(yùn)的出租車司機(jī)在夜間休息時(shí)段車輛停靠于生活小區(qū)內(nèi),使得非營(yíng)運(yùn)時(shí)段出租車GNSS軌跡與手機(jī)Cell-ID軌跡亦完全重合,此時(shí)2條軌跡的時(shí)空相似度無(wú)突變點(diǎn)。因此,采用Pettitt突變檢測(cè)出租車的運(yùn)動(dòng)指標(biāo)(如速度),則可區(qū)分營(yíng)運(yùn)與非營(yíng)運(yùn)時(shí)段,發(fā)現(xiàn)出租司機(jī)營(yíng)運(yùn)軌跡的出車(收車)時(shí)間點(diǎn)。
以北京市為實(shí)驗(yàn)區(qū),收集2016年8月4日的2.9萬(wàn)多條出租車GNSS軌跡數(shù)據(jù),采集時(shí)間間隔約60 s,約5千萬(wàn)個(gè)軌跡點(diǎn)記錄,同時(shí)還收集北京移動(dòng)4G LET網(wǎng)絡(luò)信令數(shù)據(jù),35.8億多條信令記錄,含1 100萬(wàn)條手機(jī)Cell-ID軌跡數(shù)據(jù),采集時(shí)間約10~300 s不等,間隔中位數(shù)值37 s。無(wú)論是出租車GNSS軌跡數(shù)據(jù)還是手機(jī)Cell-ID軌跡數(shù)據(jù),都經(jīng)過匿名化加密處理,以保護(hù)個(gè)人隱私。此外,從候選集中通過人工交互方式,解譯了905輛出租車GNSS軌跡以及對(duì)應(yīng)的3 850條Cell-ID軌跡,其中681條GNSS軌跡匹配出其司機(jī)Cell-ID軌跡1 109條,其中輪班制204輛,用于模型訓(xùn)練以及結(jié)果檢驗(yàn)。
通過出租車司機(jī)的多源軌跡之間的關(guān)聯(lián)分析,從2套軌跡大數(shù)據(jù)集中,匹配出10 652輛出租車的GNSS軌跡和18 153個(gè)手機(jī)的Cell-ID軌跡,明確了“出租車-手機(jī)”的對(duì)應(yīng)關(guān)系。同時(shí)又通過對(duì)同一輛出租車的手機(jī)Cell-ID軌跡開展層次聚類分析,發(fā)現(xiàn)單班司機(jī)5 218人、雙班司機(jī)11 029人,其中14 883名司機(jī)攜帶手機(jī)1部、822名司機(jī)攜帶2部、542名司機(jī)攜帶3部,初步揭示了 “出租車-司機(jī)-手機(jī)”之間的關(guān)聯(lián)關(guān)系。北京出租車管理實(shí)行嚴(yán)格的注冊(cè)制,每輛車只能為單人營(yíng)運(yùn)或雙人輪班營(yíng)運(yùn)方式。軌跡時(shí)空匹配結(jié)果表明,出租車GNSS軌跡和司機(jī)手機(jī)Cell-ID軌跡表現(xiàn)出非常高的時(shí)空一致性,尤其是司機(jī)擁有多部手機(jī)的情況下,出租司機(jī)的營(yíng)運(yùn)軌跡更加清晰,雙班司機(jī)各自運(yùn)營(yíng)范圍的空間分布亦截然不同(圖2(a)~2(c)所示)。
軌跡線對(duì)的突變位置檢測(cè)分析所獲得的時(shí)空位置信息,提供了豐富的出租車司機(jī)移動(dòng)行信息,例如:司機(jī)的營(yíng)運(yùn)時(shí)長(zhǎng)、空間服務(wù)范圍、白班夜班、以及司機(jī)之間的交接班時(shí)間與位置等。以圖2的結(jié)果為例:圖2(a)多源軌跡的突變點(diǎn)檢測(cè)結(jié)果在圖2(d)顯示,司機(jī)1的收車時(shí)間點(diǎn)B(06:28:16),司機(jī)2的出車和收車時(shí)間點(diǎn)分別為C(06:19:43)與D(17:35:52);同理,圖2(b)多源軌跡對(duì)應(yīng)的突變檢測(cè)在圖2(e)顯示,B(06:31:17)和E(18:22:05)分別為司機(jī)1收車的收車與出車的時(shí)間點(diǎn),C(06:44:17)和D(18:10:54)為司機(jī)2出車與收車時(shí)間點(diǎn)??蛇M(jìn)一步推斷上述2個(gè)案例為白班與夜班方式的雙人輪班營(yíng)運(yùn)模式。圖2(c)顯示了出租車GNSS軌跡與司機(jī)手機(jī)Cell-ID軌跡的空間分布在24 h實(shí)驗(yàn)時(shí)段內(nèi)完全重合,出車與收車的空間位置非常容易判別,但是出車與收車(圖2(f)所示)則依賴于Pettitt檢驗(yàn)GNSS軌跡的運(yùn)動(dòng)指標(biāo)(速度)獲得出車時(shí)間點(diǎn)A(06:46:53)與收車時(shí)間點(diǎn)B(22:12:35)。結(jié)果表明這是一名單人獨(dú)立營(yíng)運(yùn)的出租司機(jī)且運(yùn)營(yíng)時(shí)間長(zhǎng)達(dá)15.4 h。根據(jù)多源軌跡的突變點(diǎn)檢測(cè)結(jié)果(圖2(d)~2(f)),將出租車GNSS軌跡按照不同司機(jī)的營(yíng)運(yùn)時(shí)段進(jìn)行分段處理并地圖顯示(圖2(g)~2(h)),結(jié)果顯示:圖2(g)中點(diǎn)B和C、圖2(g)中點(diǎn)B和C,以及點(diǎn)D和E分別為輪班司機(jī)的交接班點(diǎn)。通過對(duì)比分析發(fā)現(xiàn),輪班司機(jī)的交接班發(fā)生時(shí)間和位置存在一定的誤差,但仍在可接受范圍之內(nèi)(見3.2討論部分)。
圖2 同軌分析結(jié)果Fig.2 Results of synchronized trajectory analysis
針對(duì)出租司機(jī)營(yíng)運(yùn)軌跡起終點(diǎn)的空間位置、出車(收車)時(shí)間和交接時(shí)間進(jìn)行分析(圖3),結(jié)果表明:1)盡管出租司機(jī)營(yíng)運(yùn)軌跡的起終點(diǎn)在空間上比較分散,但雙人輪班司機(jī)的交接班點(diǎn)卻出現(xiàn)空間聚集現(xiàn)象。交接班點(diǎn)沿著京密路的東直門外香河園、北皋橋和沿著京藏高速路的德勝門、馬甸橋等地區(qū)存在明顯異常的高密度分布,且主要集中分布于各出京高速路口(圖3(a));2)出租司機(jī)營(yíng)運(yùn)出車(收車)時(shí)間呈現(xiàn)6~8點(diǎn)和17~19點(diǎn)2個(gè)高峰(圖3(b)),交接班高峰發(fā)生在4~6點(diǎn)和14~16點(diǎn)。從北京交通網(wǎng)絡(luò)與出租司機(jī)攀談?wù){(diào)查發(fā)現(xiàn),北京出租車司機(jī)大部分來(lái)自于遠(yuǎn)郊的區(qū)縣,尤其是北京東北部的密云、懷柔與平谷和西北部的延慶、昌平等地。位于東直門、德勝門的公交樞紐及兩條干道的沿線車站和停車場(chǎng)成為出租司機(jī)主要交接車地點(diǎn),這些地點(diǎn)不僅為郊區(qū)司機(jī)往返城區(qū)提供便利交通設(shè)施,也側(cè)面反映了出租司機(jī)的長(zhǎng)路程通勤現(xiàn)狀。另外出租的營(yíng)運(yùn)起止時(shí)間2個(gè)高峰,與出行高峰高度一致,從另一層面反映出租司機(jī)在城市交通運(yùn)輸中的要重性。于此同時(shí)交接班高峰發(fā)生在出行高峰之前,充分避免高峰交接,與實(shí)際調(diào)研情況相符。
圖3 出租司機(jī)出(收)車點(diǎn)的時(shí)空分布(含交接班點(diǎn))Fig.3 The temporal and spatial distribution of taxi drivers’ shifting operation
圖4 軌跡相似度閾值分析Fig.4 Threshold analysis of trajectory similarity
為驗(yàn)證出租車多源軌跡的出租車與手機(jī)關(guān)聯(lián)關(guān)系的準(zhǔn)確性,將人工解譯的716輛出租車相關(guān)樣本數(shù)據(jù)集,隨機(jī)選擇50%的數(shù)據(jù)集用于ROC曲線分析出租車GNSS軌跡與及其司機(jī)手機(jī)Cell-ID軌跡的時(shí)空相似度的分割閾值δ1=0.26,如(圖4(a)),其余樣本用于結(jié)果驗(yàn)證,結(jié)果表明:“出租車-手機(jī)”關(guān)聯(lián)關(guān)系的準(zhǔn)確率為89.1%、召回率93.5%、F1分?jǐn)?shù)0.91。同樣為驗(yàn)證手機(jī)-司機(jī)關(guān)聯(lián)關(guān)系的準(zhǔn)確性,將人工解譯的輪班制數(shù)據(jù)集中50%出租車相關(guān)的手機(jī)Cell-ID軌跡作為訓(xùn)練樣本,對(duì)于同一司機(jī)的多部手機(jī)記錄的Cell-ID軌跡,兩兩組合計(jì)算時(shí)空相似度(簡(jiǎn)稱“組內(nèi)相似度”),同時(shí)亦對(duì)不同司機(jī)之間的Cell-ID軌跡計(jì)算時(shí)空相似度(簡(jiǎn)稱“組間相似度”)。統(tǒng)計(jì)組內(nèi)與組間相似度的頻率直方圖并做參數(shù)估計(jì),發(fā)現(xiàn)前者接近伽馬分布,后者近似正態(tài)分布(圖4(b))。采用極大似然法估計(jì)算區(qū)分二者的閾值δ2=0.31,并將其設(shè)為層次聚類樹的切割閾值。另取輪班制解譯樣本剩余部分對(duì)聚類結(jié)果進(jìn)行驗(yàn)證,結(jié)果表明“手機(jī)-司機(jī)”關(guān)聯(lián)關(guān)系的準(zhǔn)確率為95.4%、召回率為92.5%,以及F1分?jǐn)?shù)為0.94。
出租車GNSS軌跡的精度受到GNSS衛(wèi)星、傳播路徑、接收機(jī)等3方面的影響[25],手機(jī)Cell-ID軌跡的誤差受移動(dòng)網(wǎng)絡(luò)基站、安裝環(huán)境以及信令采集頻率等影響。其中,城市道路兩側(cè)的樹木、建筑物引起的GNSS定位的多路徑效應(yīng)和手機(jī)信號(hào)的多重遮擋損耗是軌跡數(shù)據(jù)誤差產(chǎn)生的主要影響因素。通常GNSS在城市的定位誤差1~10 m[26]。手機(jī)Cell-ID位置采用向其提供通訊信號(hào)服務(wù)基站的天線位置近似表示(不是手機(jī)的真實(shí)地理位置),LTE-4G數(shù)據(jù)的定位誤差約為100~500 m[26]。這兩類時(shí)空數(shù)據(jù)的同軌分析過程中GNSS定位誤差可以忽略不記,重點(diǎn)考慮Cell-ID誤差對(duì)建模的影響。本文將人工解譯的樣本隨機(jī)分為3組,開展交叉驗(yàn)證實(shí)驗(yàn),即對(duì)每組樣本均計(jì)算出租車GNSS軌跡與手機(jī)Cell-ID軌跡的相似度、識(shí)別出租車與出租司機(jī)的對(duì)應(yīng)關(guān)系,以及統(tǒng)計(jì)F1得分。根據(jù)北京94 433個(gè)LTE-4G基站天線位置構(gòu)建的TIN三角網(wǎng),統(tǒng)計(jì)三角網(wǎng)中基站天線之間的中位數(shù)距離約為560 m。給Cell-ID軌跡點(diǎn)增加不同范圍的隨機(jī)偏差,模擬降低軌跡數(shù)據(jù)精度情況下算法的魯棒性驗(yàn)證,模擬結(jié)果如圖5所示,本方法在增加750 m誤差的情況下,仍能夠取得較好的F1得分(平均約0.75),模型呈現(xiàn)出較好的魯棒性。隨著噪聲繼續(xù)加大,F1得分急劇下降明顯,模型不確定性增大。
圖5 不同定位誤差水平隨機(jī)噪聲下的模型精度Fig.5 Accuracy of model at different levels of random noise
針對(duì)一輛輪班制的出租車GNSS軌跡,每個(gè)司機(jī)手機(jī)Cell-ID軌跡和該出租車GNSS軌跡的時(shí)空匹配處理,都能夠獲得該司機(jī)出車收車的時(shí)間與位置。理想情況下,前班司機(jī)的收車時(shí)間與位置應(yīng)該同后班司機(jī)的出車時(shí)間與位置相一致。但是,由于手機(jī)信令數(shù)據(jù)采樣間隔較長(zhǎng)且不均勻分布(平均間隔約5 min),以基站天線位置代替手機(jī)用戶軌跡點(diǎn)(基站間隔300~500 m),使得本方法探測(cè)出來(lái)的前后班司機(jī)交接班的時(shí)空位置并不完全一致,帶來(lái)軌跡分割不確定性問題(圖6)。為此統(tǒng)計(jì)了樣本集中輪班制出租車的前班司機(jī)收車點(diǎn)與后班司機(jī)出車點(diǎn)之間的時(shí)間差與空間距離,如圖6所示,結(jié)果表明:時(shí)間差值分布類似于伽馬分布,時(shí)間差中位數(shù)為32 min。但是少數(shù)長(zhǎng)達(dá)數(shù)小時(shí),其原因是存在相當(dāng)一部分輪班制司機(jī)不是白班與夜班的營(yíng)運(yùn)模式,他們采用大班制,即每人營(yíng)運(yùn)一天,如此車輛會(huì)在晚上會(huì)存在著幾個(gè)小時(shí)的停滯時(shí)間。前后班司機(jī)的交接車位置的空間距離差異很小(平均91 m),最大亦不超過600 m,空間契合度很高。
圖6 輪班司機(jī)交接的時(shí)間差異與空間差異頻率直方圖Fig.6 Frequency histogram of temporal and spatial differences of shift driver handover
針對(duì)出租車GNSS軌跡數(shù)據(jù)與手機(jī)Cell-ID軌跡的深度挖掘問題,提出一種基于軌跡時(shí)空相似度的同軌分析方法。一方面基于出租車司機(jī)多源軌跡之間的時(shí)空相似度,通過時(shí)空軌跡匹配與聚類,重構(gòu)“出租車-司機(jī)-手機(jī)”之間的關(guān)聯(lián)關(guān)系;另一方面通過軌跡匹配線對(duì)之間的突變點(diǎn)檢測(cè),探測(cè)出租司機(jī)的出車收車點(diǎn)的時(shí)空位置。以北京市出租車GNSS軌跡和城市居民手機(jī)Cell-ID軌跡為實(shí)驗(yàn)數(shù)據(jù),建立“出租車-司機(jī)-手機(jī)”關(guān)聯(lián)關(guān)系并提取司機(jī)出(收)車點(diǎn)發(fā)生的時(shí)空位置以及輪班司機(jī)之間的交接班信息,為面向司機(jī)個(gè)體運(yùn)營(yíng)行為特征應(yīng)用分析奠定了基礎(chǔ)。此外,本工作仍然存在著不足之處,由于數(shù)據(jù)可得性的限制,僅24 h手機(jī)信令數(shù)據(jù)難以從出租車營(yíng)運(yùn)周期性角度開展深入分析;再就是手機(jī)信令數(shù)據(jù)以基站位置近似表達(dá)手機(jī)用戶的實(shí)際空間位置,將來(lái)擬嘗試基于路網(wǎng)數(shù)據(jù)重構(gòu)手機(jī)Cell-ID軌跡,提高軌跡時(shí)空相似度的準(zhǔn)確度。