韓吉德,王祖順,王 霞
(青海省第二測繪院,青海 西寧 810001)
?
基于出租車軌跡數(shù)據(jù)的人口活動分析
韓吉德,王祖順,王霞
(青海省第二測繪院,青海 西寧 810001)
摘要:根據(jù)軌跡數(shù)據(jù)識別出人們感興趣的區(qū)域,并且挖掘出人們的日常出行特性,作為數(shù)據(jù)挖掘的一個熱點逐漸受到人們的重視。目前,絕大多數(shù)大城市的出租車上都安裝有GPS,其記錄的軌跡數(shù)據(jù)在時間和空間上都包含豐富的信息,分析出租車的軌跡數(shù)據(jù)能在一定程度上反映城市人口的出行情況,挖掘有價值的信息。文中挖掘出租車軌跡數(shù)據(jù)中的乘客上下車的位置點數(shù)據(jù),經(jīng)過數(shù)據(jù)預處理、地圖匹配以及整合后,對位置點進行有權重的熱點區(qū)域分析,疊加到地圖上進行人口活動分析。
關鍵詞:出租車軌跡;數(shù)據(jù)挖掘;熱點區(qū)域;人口活動
隨著衛(wèi)星技術、傳感器技術、無線技術、RFID技術的出現(xiàn)和快速發(fā)展,實時追蹤移動對象的運動軌跡已經(jīng)變成現(xiàn)實,并且現(xiàn)在每天都產(chǎn)生著海量的移動對象的軌跡數(shù)據(jù),這些看似雜亂無章的時空數(shù)據(jù)實際蘊含著豐富的信息,人們逐漸認識到,如何高效準確地挖掘出其中的價值變得尤為重要。數(shù)據(jù)挖掘是一個從不完整的、不明確的、大量的并且包含噪聲,具有很大隨機性的應用數(shù)據(jù)中,提取出隱含其中、事先未被人們獲知、卻潛在有用的知識或模式的過程。從海量的出租車軌跡數(shù)據(jù)中挖掘出人口活動的信息屬于移動軌跡數(shù)據(jù)挖掘的范疇。數(shù)據(jù)挖掘的整個過程分為數(shù)據(jù)預處理、數(shù)據(jù)挖掘、結果解釋和評價。
1地圖匹配
出租車軌跡數(shù)據(jù)具有范圍廣、成本低、數(shù)據(jù)提取方便等優(yōu)點,但是由于受到GPS定位精度的影響,位置點數(shù)據(jù)很難精確定位,往往會偏離交通路網(wǎng),因此,為了更準確的分析,需要進行地圖匹配,將位置偏差的點重新定位到交通路網(wǎng)上。
地圖匹配必須滿足兩個前提條件:
1)GPS點所表示的車輛行駛在已知的道路網(wǎng)上;
2)匹配的道路網(wǎng)絡數(shù)據(jù)精度比GPS點精度要高得多。
地圖匹配算法多種多樣,總體分為點到點的匹配、點到線的匹配、線到線的匹配,考慮到點到點的匹配算法的精度問題以及線到線的匹配算法的復雜性,本文選擇點到線的匹配算法,該算法不僅考慮兩點的距離,還將道路線信息加入考慮因素,設置一個匹配度的概念,如圖1所示,假設待匹配點P到道路CG的垂直距離為d,設距離所占權重為φ,P點的行駛方向與道路的夾角(0~90°)大小為Q,角度所占權重為μ,再對兩者加權相加,則P點到道路CG的匹配度為S。
圖1 地圖匹配
地圖匹配算法的詳細流程:讀取出租車軌跡點—以該點為圓心確定搜索范圍(100m)—匹配范圍內(nèi)的道路—計算待匹配點與道路的匹配度—選取匹配度最高的道路—更新待匹配點坐標。由于匹配的道路網(wǎng)數(shù)據(jù)坐標系為WGS-84,而GPS點經(jīng)緯度也為WGS-84,故不需進行坐標轉換。
2數(shù)據(jù)整合與熱點區(qū)域分析
軌跡點數(shù)據(jù)因為其數(shù)據(jù)量巨大,在地圖上的分布比較分散,從原始數(shù)據(jù)上很難挖掘出有價值的信息。因此需要對數(shù)據(jù)進行聚類,從而使數(shù)據(jù)能夠分門別類。本文采用數(shù)據(jù)整合處理,取代復雜的聚類算法。數(shù)據(jù)整合就是將坐標位置在誤差允許范圍內(nèi)的點聚為一個點,容差的值非常關鍵:容差過大會導致要素折疊或導致面或線被刪除,還可能導致不應該移動的折點被移動。要使誤差降至最小,選擇的 x,y 容差值應盡量小。數(shù)據(jù)整合X,Y,需要將同一個坐標位置的重合點計數(shù),以計數(shù)來表示權重。
有了每個點的權重信息以后就可以進行熱點區(qū)域分析。本文采用核密度分析方法,該方法用于計算每個輸出柵格像元周圍的點要素的密度。概念上,每個點上方均覆蓋著一個平滑曲面。在點所在位置處表面值最高,隨著與點的距離的增大表面值逐漸減小,在與點的距離等于搜索半徑的位置處表面值為零。搜索半徑參數(shù)值越大,生成的密度柵格越平滑且概化程度越高。值越小,生成的柵格所顯示的信息越詳細。計算密度時,僅考慮落入鄰域范圍內(nèi)的點或線段。如果沒有點或線段落入特定像元的鄰域范圍內(nèi),則為該像元分配NoData。如果面積單位比例因子的單位相對于要素(點間距離或線段長度,取決于要素類型)很小,則輸出值可能會很小。
本文的研究路線主要為:
Step1:數(shù)據(jù)預處理。該階段主要對數(shù)據(jù)進行篩選、集成、選擇等操作;
Step2:數(shù)據(jù)挖掘。對經(jīng)過數(shù)據(jù)預處理的軌跡點數(shù)據(jù)進行整合、密度分析;
Step3:結果解釋和評價。將分析結果與電子地圖疊加,結合POI位置,分析人口活動規(guī)律。
3實驗
本文使用的是北京市2012-11-01全天24h的2000輛出租車軌跡數(shù)據(jù),數(shù)據(jù)說明如表1所示。
表1 數(shù)據(jù)項說明表
數(shù)據(jù)預處理主要分為以下幾點:
1)北京市經(jīng)緯度范圍為39°28′~41°05′N、115°25′~117°35′E,凡是超過此范圍的數(shù)據(jù)都將被剔除;
2)數(shù)據(jù)項出現(xiàn)空的情況:當速度為空,因為不影響本文的研究,故可以忽略,其余項如經(jīng)度、緯度、時間等如果為空,就將該條記錄刪除;
3)提取上下乘客點:根據(jù)“觸發(fā)事件”字段,提取出下客點(0=變空車)、上客點(1=變載客)數(shù)據(jù);
4)將全天24h的數(shù)據(jù)分成5個時段,分別為0:00—8:00、8:00—12:00、12:00—16:00、16:00—20:00、20:00—24:00,以便于從時空兩個角度分析人口出行活動情況。
數(shù)據(jù)整合操作使用ArcMapDataManagementTools工具箱中的integrate工具。通過不斷調整容差值,確定容差為50m時,整合效果比較合適。經(jīng)過整合以后,同一個位置會表示多個點,采用SpatialStatisticsTools工具箱中的CollectEvents工具可以完成點數(shù)的統(tǒng)計,該工具可將重合點合并:它會創(chuàng)建一個新的輸出要素類,其中包含在輸出要素類中找到的所有唯一位置。然后,它會添加一個名為ICOUNT的字段,以保存每個唯一位置所有事件點的總和。
經(jīng)過CollectEvents,生成的Icloud字段作為核密度分析中Population的值,即權重。通過調整搜索半徑及輸出象元大小,得到詳細程度適當?shù)慕Y果。
整個過程通過ArcMap建模得到,模型如圖2所示。
圖2 熱點分析建模
為了結合北京市的地圖信息,將ArcGISonline上共享的北京市地圖(含POI)加載到本地,并調整透明度,與柵格圖疊加,因為含有POI信息,因此更有利于說明人口活動的規(guī)律。圖3~圖5為3個時段乘客上車點的數(shù)據(jù)分析得到的熱點區(qū)域分布圖(說明:因為不是最新數(shù)據(jù),所以以下分析僅作學術研究說明,并不一定與實際相符)。
圖3 0:00-8:00
圖4 8:00-12:00
圖5 20:00-24:00
總體來說,從凌晨到8:00人口活動非常稀少,整個圖中只出現(xiàn)兩個相對比較密集的點,從地圖上得知分別是工人體育場、朝陽醫(yī)院附近以及北京大學、清華大學附近;而到8:00-12:00,這時候的上班人群比較多,乘車點分布較為分散,五環(huán)以內(nèi)都比較密集,但相對的左側的海淀區(qū)、豐臺區(qū)相對于右側的朝陽區(qū)較為密集,因此分析,上午從海淀區(qū)、豐臺區(qū)出發(fā)上班的相對較多。晚上20:00—24:00,朝陽區(qū)與東城區(qū)區(qū)域乘車人口最為密集,而海淀區(qū)、豐臺區(qū)則相對較稀疏,與白天形成對比,相對比較合理。因此分析整體的大趨勢是白天從海淀區(qū)、豐臺區(qū)往朝陽區(qū)、東城區(qū),而到夜晚則相反。
再對比乘客下車的位置點分布:
下車點(見圖6)位置說明這個時間點乘客想要到達的目的地,從圖上顯示分布較為密集主要是火車站、飛機場等,從左往右,自下而上依次為豐臺西站、北京西站、中國海關,機場路上的酒店賓館聚集
圖6 0:00-8:00(下車點)
點以及飛機場。因為在這個時間段去的目的地肯定是車站或機場較多。因此0:00-8:00人口的主要活動趨勢是從市區(qū)到各個火車站以及機場。
4結束語
由于數(shù)據(jù)的局限性,本文只采用了一天的數(shù)據(jù)進行分析,沒有對比工作日與休息日之間的不同,并且本文只對人們的出行活動做了簡略的、簡單的分析,但是基于位置與時間的軌跡數(shù)據(jù)對于時空GIS的研究有重要的意義,通過對人們出行規(guī)律的準確掌握,可以提供基于位置的各種各樣的服務,為商鋪、公園等選址提供決策依據(jù),優(yōu)化交通調度系統(tǒng),有效地緩解交通堵塞等。
參考文獻:
[1]鄭宇,謝幸.基于用戶軌跡挖掘的智能位置服務[J].中國計算機學會通訊, 2010, 6(6): 23-30.
[2]馬云飛.基于出租車軌跡點的居民出行熱點區(qū)域與時空特征研究[D].南京:南京師范大學, 2014.
[3]張明月.基于出租車軌跡的載客點與熱點區(qū)域推薦[D].長沙:湖南科技大學, 2013.
[4]袁冠.移動對象軌跡數(shù)據(jù)挖掘方法研究[D].北京:中國礦業(yè)大學, 2012.
[5]陽憲惠.工業(yè)數(shù)據(jù)通訊與控制網(wǎng)絡[M].北京:清華大學出版社,2001.
[6]YUANNJ,ZHENGYu,ZHANGLiuhang,etal.T-Finder:ARecommenderSystemforFindingPassengersandVacantTaxis[C].IEEE,KnowledgeandDataEngineering, 2012.
[7]HUANGL,LIQ,YUEY.ActivityidentificationfromGPStrajectoriesusingspatialtemporalPOIs’attractiveness[C].ZhouXF.Proceedingsofthe2ndACMSIGSPATIALInternationalWorkshoponLocationBasedSocialNetworks.SanJose,California:ACMPress, 2010.
[8]YUEY,HUB.Identifyingshoppingcenterattractivenessusingtaxitrajectorydata[C].JiangB,HuangW.Proceedingsofthe2011internationalworkshoponTrajectorydataminingandanalysis.Beijing:ACMPress, 2011.
[責任編輯:張德福]
DOI:10.19349/j.cnki.issn1006-7949.2016.10.014
收稿日期:2015-10-11
作者簡介:韓吉德(1977-),男,工程師.
中圖分類號:P208
文獻標識碼:A
文章編號:1006-7949(2016)10-0069-03
Population activity analysis based on taxi trajectory data
HAN Jide,WANG Zushun,WANG Xia
(QinghaiProvinceNo.2SurveyingandMappingInstitute,Xi’ning810001,China)
Abstract:It is difficult in data mining to discover the region of interest and dig out the people's daily travel features according to the trajectory data,which gradually draws the attention of the people. At present, the taxi in most of the cities has been set with GPS,which records trajectory data with rich information in time and space. To a certain extent, it can reflect the travel of the urban population and dig out useful information by analyzing the trajectory data of the cab. This paper mainly presents the positions of getting on or off the taxi and then data preprocessing, map matching, and integration. After all it can be done to analyze the region of interest with the weight and the trajectory data of the cab with map.
Key words:taxi trajectory; data mining; region of interest; population activity