摘要:通過分析公交數據更新的基本要素和挖掘類型,利用大數據挖掘原理,結合公交GPS歷史數據的特點,提出了適用于公交GPS歷史數據挖掘和更新的專用方法和算法,并引入機器學習模型提升挖掘算法能力,在此基礎上設計了挖掘作業(yè)流程,通過結果對比,可得出在數據優(yōu)化周期內,可作業(yè)率由15%提升至50%,線上數據更新頻率由周級更新變?yōu)樘旒壐?。以上數據挖掘方法和算法有效提高了更新效率,改進了更新準確率,在公交數據更新作業(yè)中發(fā)揮了重要作用,方便了公交用戶出行,助力綠色出行。
關鍵詞:公交GPS歷史數據大數據挖掘挖掘算法模型評價數據更新
ResearchandApplicationofPublicTransitGPSHistoricalTrajectoryDataMiningMethod
CHENGTingting
BeijingAutoandHomeInformationTechnologyCo.,Ltd.,Beijing,101319China
Abstract:Byanalyzingthebasicelementsandminingtypesofbusdataupdating,byusingtheprincipleofbigdataminingandcombiningthecharacteristicsofbusGPShistoricaldata,inthispaper,aspecialmethodandalgorithmforhistoricaldataminingandupdatingofpublictransitGPSisproposed,andamachinelearningmodelisintroducedtoimprovetheminingalgorithmability.Onthisbasis,aminingworkflowwasdesigned,andthroughthecomparisonofresults,itcanbeconcludedthatinthe dataoptimizationcycle,theworkratecanbeincreasedfrom15%to50%,onlinedataupdatefrequencyfromweeklyupdatetodayupdate.Theabovedataminingmethodsandalgorithmseffectivelyimprovetheupdateefficiency,improvetheupdateaccuracy,playanimportantroleinbusdataupdateoperations,convenientforbususerstotravel,promotinggreentravel.
KeyWords:BusGPShistoricaldata;Bigdatamining;Miningalgorithm;Modelevaluation;Dataupdate
隨著社會和經濟的快速發(fā)展,智能公交已成為智慧城市的重要組成部分[1],綠色出行、低碳環(huán)保的理念已深入人心,乘坐公交車也成為公眾綠色出行的重要手段。在實際乘車場景中,公交站點位置變化、公交車行駛軌跡變更、公交站點新增刪除等,是公交數據更新的主要內容,如何快速、準確獲取這些更新數據,是公交GPS歷史數據挖掘要解決的重要問題。
數據挖掘是指從大量數據中發(fā)現特定信息和模式的過程,也有很多人將這一過程看作知識發(fā)現[2],如何從海量的空間數據中獲取有價值的信息已成為大數據的主要應用方向[3],隨著大數據技術的發(fā)展,大數據技術與交通結合成為目前研究熱點之一[4]。軌跡數據作為泛在地理信息環(huán)境中社會遙感數據的主要表現形式之一,為從個體的視角研究群體的空間移動規(guī)律,提供了新的數據支撐和研究思路,可以利用分類、聚類、時序分析等方法對大規(guī)模軌跡數據進行分析,從而揭示數據中的隱藏信息、挖掘數據中的時空模式。利用當前的大數據挖掘原理,結合公交GPS歷史數據的特點,采用專用的數據挖掘方法和算法,把數據挖掘結果作為公交數據更新的重要依據和輸入,將在公交數據更新作業(yè)中發(fā)揮重要作用,從而提升更新時效性和準確性。
1公交挖掘數據規(guī)格分析
1.1公交數據基本要素
車輛信息包括所屬公司、線路號、車號、車載機號、運營狀態(tài)等信息。
站點信息包括站點ID、站點名稱、站點經度、站點緯度等信息。
線路包括線路基本信息、線路方向信息、線路設置等信息。其中基礎信息所屬公司、線路、線路名、線路類型、運營模式;方向信息包括線路、方向、總站數、首站、末站、首班、末班、發(fā)車間隔等信息。
場站區(qū)信息包括場區(qū)名稱、場站面數據等信息。
1.2公交數據挖掘類型分析
站點位移是指數據庫中站點坐標與實際乘車位置站點、站樁、站臺存在偏差的情況[5]。實際應用中,如果??空镜墓痪€路過多,出現擁堵的情況,這時在主站附近建立輔助站點,距離偏差大于30m時,可認為站點實地發(fā)生了位移。站點位移產生的偏差有采集制作數據偏差、公交車站位置的現勢性變更等原因?;谡军c位移的數據挖掘,可以同時解決各種原因產生的App端底圖站點坐標與公眾實際乘車位置不一致的數據更新問題。
實際公交路網應用中,已經設計的公交站點可能會被拉疏,對站點進行拉疏分為縱向和橫向兩種方式,縱向拉疏是指對線路進行具體的輔站設置,從而緩解線路壓力,橫向拉疏是指通過車道設置將不同類型的交通車輛進行分解,使相互之間的交通不會受到影響,從而避免在??空疚恢贸霈F交通阻塞的情況。站點冗余是指實地場景中公交站已經取消,但是電子地圖上的公交站仍然存在。乘車人會受到電子地圖誤導,到已經廢棄的站點等車、耽誤出行。
公交車行駛軌跡相對穩(wěn)定,當遇重大活動或者道路施工等情況時,公交車可能會變更原有的行駛軌跡,新的行駛軌跡可能會涉及站點的新增和刪除。公交單純的軌跡變化及涉及站點新增刪除的變更導致的實際行駛軌跡與電子地圖軌跡不一致的數據問題定義為線路改道。
2利用數據挖掘公交數據的幾種方法
本文主要是利用公交GPS歷史軌跡數據通過聚類算法來確定公交站點位置和線路。
2.1基于K均值聚類算法的站點位置挖掘
本文研究的站點位置信息獲取方式是,當站臺上的等車用戶利用地圖App進行線路搜索時,只要開啟下車提醒功能,就可以利用用戶GPS點在站臺附近的聚集,基于K均值聚類算法進行位置信息挖掘分析,計算站點實際位置[6]。K均值聚類算法是一種迭代求解的聚類分析算法,本次站點位置挖掘基于站臺附近100m范圍內的GPS點聚類簇新與電子地圖站點位置進行數據差分,得到有位置偏差的站點數據。本文應用該算法進行站點位置挖掘的步驟是:(1)預將數據分為K組,則隨機選取K個對象作為初始的聚類中心;(2)計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心;(3)聚類中心以及分配給它們的對象就代表一個聚類,根據聚類中現有的對象,每分配一個對象聚類的聚類中心會被重新計算;(4)重復以上步驟直到滿足某個終止條件。終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發(fā)生變化,誤差平方和局部最小。圖1為正常站點和位移站點的計算結果。
2.2基于DBSCAN聚類算法的站點冗余挖掘
與上文站點位置信息獲取方式一樣,當等車用戶開啟下車提醒功能時,TBP回傳的用戶GPS點在站臺附近聚集,在進行站點冗余挖掘時,主要利用了DBSCAN聚類算法,如果實際站點不存在,站點附近沒有GPS點聚集趨勢。DBScan需要二個參數:掃描半徑(eps)和最小包含點數(minPts)。本文應用該算法進行站點冗余挖掘的步驟是:
(1)任選一個未被訪問的點開始,找出與其距離在eps之內(包括eps)的所有附近點。
(2)如果附近點的數量≥minPts,則當前點與其附近點形成一個簇,并且出發(fā)點被標記為已訪問(visited)。然后遞歸,以相同的方法處理該簇內所有未被標記為已訪問(visited)的點,從而對簇進行擴展。
(3)如果附近點的數量<minPts,則該點暫時被標記作為噪聲點。
(4)如果簇充分地被擴展,即簇內的所有點被標記為已訪問,然后用同樣的算法去處理未被訪問的點。
(5)篩選報出站點聚類半徑過大、密度均不達標得到冗余站點數據。
下圖為正常站點和冗余站點的計算結果。
2.3基于分段的公交軌跡改道挖掘
公交軌跡改道往往不是整條軌跡變動,而是其中一段發(fā)生變化,為了準確識別改道的位置,提出了基于分段的公交軌跡改道挖掘方法,主要思路是將公交車軌跡截取成30m小段,每個小段與電子地圖軌跡進行差分,通過軌跡比對,得到實際發(fā)生改道的軌跡區(qū)間。
2.3.1軌跡的劃分
通常一條軌跡可以表示為一個序列,如{(p1,t1),(p2,t2),…(pn,tn)}{(p1,t1),(p2,t2),…(pn,tn)},其中pi表示位置(如經度、緯度)。
2.3.2軌跡與圖像的轉換
有時軌跡數據也可以用一個二維圖像來表示,如一條軌跡可以對應著一張二維地圖。若將地圖劃成M*M的網格,M是預定義的常量,表示地圖的分辨率,用Cx,y表示第x行和第y列的網格,則每個軌跡點都可以根據它的經緯度映射到一個網格Cx,y中,通過這種方式,我們就將一條軌跡轉化為一個M×M的圖像。這種數據表達多是為了符合CNN模型的輸入格式,讓卷積網絡嘗試學習軌跡數據中的特征,這種表達方式更能保留位置間的相關關系。
2.4機器學習模型引入
為完成數據挖掘任務,建立不同的學習模型進行特征融合,刪除冗余,最后合并,再進行軌跡預測任務。而在多源異構的大數據環(huán)境下,傳統方法很多時候并不適用,通過不同的特征提取方式獲得來自不同數據源的信息,再投入一個深度堆棧自動編碼器得到最終的特征表達,最后通過多層感知器來進行出行時間的預測。軌跡數據是典型的時序數據,它的最大特征是數據之間在時間維度上是相互關聯的,根據趨勢分離方法,可以把這種時間相關性消除,學習到更多甚至被隱藏的特征,最后的預測效果也不錯。
3挖掘成果
3.13個算法的指標評價結果
3個算法的指標評價結果如表1所示。
3.2三個算法的應用結果
三個版本的大數據挖掘算法,在一個存量及一個月增量內滾動報出3萬多條電子地圖數據問題,綜合可作業(yè)率由使用算法前的15%提升至50%,較使用挖掘算法前提升2倍多;數據問題在一個月內消化修復數據并上線,更新頻率由使用算法前的周級一更新變成天級一更新,更新頻率大幅提升,靜態(tài)數據質量得到了顯著的提升。
4結語
本文a3e209af70ccfc130049cfd3a0649fe3通過大數據挖掘手段更新公交數據,取得了良好的效果,數據可作業(yè)率和數據更新頻率都得到了很大提升,并且也提高了靜態(tài)數據質量。后續(xù)經過算法優(yōu)化,數據可作業(yè)率和數據修復周期還有提升的可能。同時可以看到,引入機器學習模型優(yōu)化挖掘算法效果,更具持續(xù)性。為完成數據挖掘任務,將不同的數據建立不同的學習模型,再進行特征融合,刪除冗余,最后合并,再進行軌跡預測任務。而在多源異構的大數據環(huán)境下,傳統的方法很多時候并不適用,通過不同的特征提取方式獲得來自不同數據源的信息,再投入一個學習器最終實現挖掘算法的持續(xù)性優(yōu)化。但是,大數據挖掘涉及的聚類、數據去噪算法很多,實際上還有很多本文沒有提到的軌跡挖掘任務和深度學習方法,包括頻率模式挖掘、關系挖掘任務等。機器學習算法迭代到一定程度后,深度學習算法在軌跡挖掘中的應用將會是一個很好的實踐方向。
參考文獻