• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)時代的交通模型

      2019-02-18 19:37:28CuauhtemocAndaAlexanderErathPieterJacobusFourie
      城市交通 2019年3期
      關鍵詞:智能卡交通個體

      Cuauhtemoc Anda,Alexander Erath,Pieter Jacobus Fourie 著,宗 晶 譯

      (1.蘇黎世聯(lián)邦理工大學未來城市實驗室,新加坡ETH中心,新加坡 138602,新加坡;2.中國城市規(guī)劃設計研究院,北京 100037)

      0 引言

      在人們通過移動電話、公共交通智能卡或者全球定位系統(tǒng)支持的設備獲取出行數(shù)據(jù)之前,構建交通需求模型生成大規(guī)模甚至全民樣本困難且昂貴。這些模型的目的不僅是為了復制相關精度的實際交通流,還包括應用假設場景來評估不同基礎設施開發(fā)決策的影響。

      盡管有新的大數(shù)據(jù)來源,但在規(guī)劃實踐中使用的交通需求模型,幾乎完全是基于交通調查和人口普查等傳統(tǒng)數(shù)據(jù)。在過去幾十年里,隨著計算能力的成倍增長,所應用的統(tǒng)計模型變得更加復雜,最重要的變化是從基于出行的模型到基于活動的模型的進化:基本模型構架保持不變,用覆蓋一個小樣本人群的出行調查推算實際人口的出行情況。

      通過新的大數(shù)據(jù)源,如手機通話記錄、智能卡數(shù)據(jù)和社交媒體記錄的地理編碼,觀察和理解前所未有的交通行為的細節(jié)。但是簡單的觀察對于規(guī)劃目標沒有特別的幫助。考慮到是在假設情景中進行預測,我們需要將大數(shù)據(jù)中包含的信息置于假設背景中理解,以使大數(shù)據(jù)信息能適合于交通需求建??蚣?,并預測交通需求模型。

      本文回顧了近年來利用大數(shù)據(jù)分析交通行為領域的最新進展①,并介紹了可以預測假設情況的交通需求模型。為此,首先介紹最新的交通需求模型的基礎,包括最新的基于個體的方法。

      本文聚焦于利用相關大數(shù)據(jù)的研究,重點研究與交通需求模型直接相關的方法和工具包,因此不包括那些從大數(shù)據(jù)源獲得實時分析的方法。本文的目的是從方法論角度全面梳理大數(shù)據(jù)如何提高對出行的理解以及如何應用于交通需求模型?;诖?,確定了各種方法的優(yōu)點和缺點及其在交通預測模型中的適用性。本文得出的結論不僅包括對應用大數(shù)據(jù)建模的描述,還提出了彌補研究不足的技術要求。

      1 交通需求模型和出行數(shù)據(jù)

      1.1 交通需求模型

      交通需求模型通過預測不同交通和土地利用方案的影響情況[1]為決策制定提供支持。有兩種交通需求預測方法:1)集計模型,將交通需求定義為小區(qū)間的集計交通流;2)基于個體的模型(agent-based model),在整個模型中保留個體層面的出行需求。

      1.1.1 經(jīng)典的四階段法

      20世紀60年代引入四階段法需求模型[2]。最初被描述為基于出行的模型,其目的是預測不同交通方式、交通線路在任意兩個OD小區(qū)之間的出行次數(shù)。第一步出行生成是每個小區(qū)產生和吸引的出行估計次數(shù)。第二步出行分布是連接起點和訖點之間的出行量,以及它們被吸引到哪里。第三步方式劃分決定了每次出行的交通方式,如汽車或公共交通。第四步是預測每次出行會選擇的路線,并模擬擁堵引起的交通延誤。由于這種延誤不僅影響交通方式和路徑的選擇,還影響區(qū)域選擇行為,通常包括步驟二、三和四的反饋與循環(huán)。四階段法的建模數(shù)據(jù)要求包括家庭出行調查信息、人口普查信息和交通網(wǎng)絡信息。

      1.1.2 基于活動的模型

      20 世紀90年代初以來,基于活動的模型被認為是優(yōu)于四階段法的選擇,避免了四階段法的固有局限性。為了解基于活動的模型的重要性,文獻[3]強調四階段法在本質上是集計的,即測量單位不是個體,而是來自任何特定小區(qū)的出行。此外,四階段法在如何使用不同子模型的行為參數(shù)上缺乏穩(wěn)定性和一致性。而且,當涉及交通需求管理政策,如出行定價政策的評估時,四階段法的獨立性假設經(jīng)常被視為致命缺點。

      基于活動的模型的基本原理是理解出行需求源于參與活動的必要性。基于活動的模型的目標是預測每個個體在受到時間和資源制約的前提下,一定時間周期內的活動次數(shù)、順序和類型。然而,基于活動的模型允許在空間上對交通需求進行分解描述,通過路徑選擇和交通仿真,這種交通需求通常會再次集計成所謂的OD 矩陣,以描述在任意兩個起訖點之間的出行次數(shù)。這種限制起初是由于模型缺乏模擬交通的相關空間范圍,即全天時段整個城市或區(qū)域,但是如今仍舊適用于基于交通仿真的計算要求。

      除了與四階段法相同的數(shù)據(jù)要求外,基于活動的模型還需要一種額外的輸入數(shù)據(jù),即在單個家庭和個人層面的“虛擬人口”以及代表地區(qū)利益的實際人口數(shù)據(jù)。這種虛擬人口包括一系列社會人口屬性,可被用于交通需求建模過程中。此外,對于虛擬人口中的每一個個體,都有一個完全描述性的日?;顒佑媱潱üぷ骰蚪逃热粘;顒拥牡攸c。

      用于交通戰(zhàn)略規(guī)劃的基于個體的模型通常從基于活動的建模方法中獲得交通需求,基于受到交通網(wǎng)絡及其屬性約束的系統(tǒng)[4],采用微觀和完全動態(tài)的交通仿真模擬個體的個性化需求。

      最初,TRANSIMS[5]發(fā)展成為第一個大規(guī)模用于基于個體的交通模型的建模工具,專注于取代集計的交通分配方法,之后基于個體模型的實現(xiàn)和最新的發(fā)展,如MARSim[6],SimMobility[7], SimAGENT[8]按 照 出 行 方式、時間、目的地和活動調度進行不同程度的整合,形成了一致性的建模框架。這一綜合框架使得在整個建模過程中可以非集計的形式模擬交通需求。除了增強行為一致性外,還允許對現(xiàn)代交通需求的管理工具進行建模和分析,如基于時間或需求定價,以及共享汽車和自動駕駛等新的交通形式。

      多元個體建模(multi-agent-based modelling)建立在大規(guī)模獨立個體的基礎上,他們執(zhí)行自己的決策,并與其他個體、環(huán)境相互作用。對于個體,一個初始的日?;顒佑媱澬枰没顒拥奈恢?、時間、開始和結束時間以及兩個活動間行程,包括交通方式和交通線路精確描述。

      在正在發(fā)展的幾個基于個體的交通模型中,MATSim以一個特殊的作用被認為是目前應用最為廣泛的模型。MATSim可以在一個協(xié)同進化的學習循環(huán)中集成廣泛的決策維度,但是受限于模塊化框架,它也只能用于交通仿真,并與其他基于活動的出行需求模型結合使用。

      1.2 用大數(shù)據(jù)描述出行

      隨著移動設備和定位傳感技術的普及,精確的地理位置數(shù)據(jù)代表著巨大且不斷增長的大數(shù)據(jù)集。以交通規(guī)劃為目的,基于非集計的活動模型,本文僅局限于從個體獲取出行數(shù)據(jù)的相關研究。對個體數(shù)據(jù)軌跡感興趣是因為它可以提供關于交通方式更準確、更有趣的視角。除此之外還包括由基礎設施檢測器記錄的出行信息,這些檢測器記錄了某些交叉口的交通量(如線圈檢測器、視頻車輛檢測系統(tǒng)和ERP系統(tǒng))。

      智能卡自動收費(Smart Card Automated Fare Collection, SC-AFC)系統(tǒng)和移動電話網(wǎng)絡在城市中的設置覆蓋面廣,是本文研究的重點。兩者可歸類于大規(guī)模隨機出行檢測器,能以前所未有的規(guī)模和詳細程度提供對城市動態(tài)和人們活動的觀察。此外,兩者還擁有一個優(yōu)勢,即無須額外的基礎設施收集出行信息,因為其本身就是為了收集公共交通費用并允許移動通信網(wǎng)絡使用。

      其他的數(shù)據(jù)集可作為補充數(shù)據(jù),如GPS數(shù)據(jù)、特征點(Points of Interest, POI)、土地利用、人口普查和交通調查數(shù)據(jù)。正如文獻[9]提到的,補充數(shù)據(jù)集有三個目的:1)驗證基于大規(guī)模出行檢測器數(shù)據(jù)的分析結果;2)明確縮放因子,將結果擴樣至總體樣本;3)增加城市空間信息以獲取更深層次的結果。

      2 智能卡數(shù)據(jù)

      SC-AFC系統(tǒng)應用于世界各地的許多公共交通系統(tǒng)中,并持續(xù)被公共交通運營商使用。公共交通系統(tǒng)引入智能卡的主要目的是利用其靈活性和安全性進行收費。任何(時空)轉換產生的信息很快就成為交通和城市規(guī)劃的豐富數(shù)據(jù)源。從公共交通客流分析到OD矩陣創(chuàng)建,智能卡數(shù)據(jù)(為城市動態(tài)和出行方式)提供了城市公共交通的洞察視角。下文將介紹從重建個體出行到OD 矩陣預測,如何利用智能卡數(shù)據(jù)及使用基于個體的建模方法進行交通規(guī)劃。

      2.1 個體出行的重建

      SC-AFC 系統(tǒng)的實施取決于城市及其票價政策。阿姆斯特丹、悉尼和新加坡等城市根據(jù)公共交通出行的總里程收取車費,而不管是使用公共汽車還是火車。這就要求乘客上車、下車或者換乘時刷卡。然而,倫敦、舊金山等城市則實行非階梯票價,即無論在哪里上下車,全線票價相同,因此乘客上下車只需要刷一次卡。在任何情況下,為進一步分析人們的出行活動,挖掘智能卡數(shù)據(jù)的主要挑戰(zhàn)在于重建個體出行。

      2.1.1 預測下車站

      由于SC-AFC 系統(tǒng)只要求驗證上車站,因此第一步是預測下車站。一般來說,可以基于兩個明確假設使用出行鏈(Trip-Chaining)算法推斷下車站[10]。第一個假設是在出行結束后,出行者將回到之前下車站;第二個假設是在一天結束時,出行者將返回當天第一次出行的上車站。

      針對文獻[10]提出的初始概念,一些研究對其進行了改進。文獻[11]將這一概念擴展至軌道交通和公共汽車的換乘線路中。文獻[12]嘗試整合第二天甚至一周的出行方式,以補充魁北克市(Quebec)加蒂諾(Gatineau)公共交通系統(tǒng)的信息缺失。文獻[13]提出了一種利用時間約束而非距離約束的多方式公共交通的預測方法。在這些研究中,個體出行重建的成功率從66%提升至80%。

      此外,文獻[14]提出了基于概率無向圖模型(undirected graphical probabilistic model)通過智能卡數(shù)據(jù)重建個體出行的方法。該文獻提出了一種集成學習方法,將費用、地理空間和時間空間(geospatial and temporal spaces)結合起來,從而推斷出一系列關鍵領域特定的約束因子。通過使用在這些約束條件下的半監(jiān)督隨機算法,可推斷出確切的上下車站,即使存在未知信息的交通記錄。只有10%的出行有明確上下車站數(shù)據(jù),超過78%的出行存在上下車站信息缺失的情況。這項工作的實用性不僅僅是重建僅有出行起點的出行過程,而且是一個通過智能卡刷卡記錄恢復個體出行歷史的系統(tǒng)方式。這個預處理階段可以有效地支撐后期交通需求模型的構建和分析。

      3.1.2 階段、行程和OD

      確定下車站后,個體出行重建的第二步是推斷這個下車站是否是最終目的地(即行程結束),或只是一個多階段行程的一個階段(即換乘)。常見的識別方法是利用時間法則。例如,文獻[13]使用30 min 的時間法則。如果一個人在某一個特定地點停留超過30 min,即可認為該地點是目的地。在倫敦的案例中,時間閾值取決于交通方式,即地鐵換乘公共汽車為20 min,公共汽車換乘地鐵為35 min,公共汽車間換乘為45 min[15]。

      只有智能卡數(shù)據(jù)才能獲取時空維度上的個體活動,這就限制了識別個體活動的渠道,因為一天的行程不全都是使用公共交通。文獻[16]描述了公共交通出行一致性概念的局限性,一致性意味著同一個人通過公共交通到達活動地點,那么就必須通過公共交通結束此次行程。然而智能卡數(shù)據(jù)不能記錄公共交通以外的其他交通方式,通過分析最后一段行程的下車點和接下來一段行程的上車點能明確識別是否為統(tǒng)一的交通方式。這就可以確定在兩段行程之間是否還采用其他交通方式,如出租汽車、小汽車或者步行。

      以新加坡的一個典型工作日為例,文獻[16]發(fā)現(xiàn)在智能卡數(shù)據(jù)中記錄的不只有一次行程的人群,90%的出行開始于上一次下車點1 km范圍內。這說明:1)大多數(shù)公共交通出行者在多次公共交通出行之間并不會使用其他交通方式,因此他們的出行鏈較連貫;2)有可能一個區(qū)域只存在特定種類的活動。

      一旦個體出行被重新構建到已知的起訖點上,應用程序就可能把這次行程加入公共交通OD 矩陣。針對那些無法重建的行程,建立擴展因子是典型的解決方案。文獻[13]顯示了如何在沒有目的地的前提下為智能卡數(shù)據(jù)構建擴展因子,以及推測沒有起點或者刷卡記錄的數(shù)據(jù)分布規(guī)律。對于前者,假定行程的分布與其他相同起點的行程一樣,而對于后一種情況,假定行程的分布只與他們的時間分配有關。

      2.1.3 初級活動鑒定

      通過進一步研究公共交通穩(wěn)定出行可以增強對可能的活動地點的解釋。文獻[17]提出了一種基于規(guī)則的直接分類方法,包括卡片類型信息和行程的時間屬性。工作目的對應成人卡,指活動時間超過2 h 且活動前的出行不是當天的最后一項行程。上學目的對應學生或者未成年人的卡片,指活動時間超過5 h 且該活動也不是當天最后一項活動。最后,回家目的指活動結束后的出行是當天的最后一項行程,其他的行程將被分配到其他活動目的。

      文獻[18]是最新的基于規(guī)則的研究。該研究包括一項空間規(guī)則,通過預先識別用戶家庭所在車站判斷基于家的出行頻率和出行距離。基于此,研究擴展了文獻[10]的假設:1)一天中,最后一段行程的終點站通常與第一段行程的起點站一致;2)第一段行程的起點站通常與前一日最后一段行程的終點站相同;3)對于大多數(shù)乘客來說,第一段行程的開始和最后一段行程的結束都在家附近。通過這些假設,研究構建了一個運行平均算法,稱之為基于中心點的檢測算法(center-point based detection algorithm)。該算法的主要優(yōu)點是操作簡單且方法穩(wěn)定,從某種意義上說,它可以識別一天出行一次的用戶的家庭所在車站(例如不穩(wěn)定出行)。

      盡管被認為是一個簡單的操作,但是當試圖擴展約束條件時,基于規(guī)則的活動計算效率變得低下,更不用說在詳細規(guī)則中需要手動操作時的效率。此外,結果的準確性可能會受影響,特別是在識別其他如工作和次要活動等更為靈活的活動模式的情況下。通過引入概率(選擇)模型,可以改進這種嚴格分類的缺點。

      文獻[16]提出了一個以活動持續(xù)時間、活動開始時間和土地利用作為效用變量的多因子Logit 模型,以匹配離散選擇空間,包括工作活動、家庭活動和其他活動等目標。分段線性函數(shù)是構建模型的實用工具。對于活動持續(xù)時間和啟動時間,利用當?shù)亟煌ㄕ{查信息對效用函數(shù)進行校準,而對于土地利用,校準信息依靠來自城市規(guī)劃部門的總體規(guī)劃。

      文獻[19]提出了另一種概率模型方法,建立一個連續(xù)空間模型來確定家庭和工作地點。研究引入了一個得分函數(shù),通過對一組受過訓練的使用者進行邏輯回歸和標定得出。與文獻[16]類似,家庭和工作地點標簽主要是由與事件相關的時間因素確定。然而,兩種概率模型方法之間的主要區(qū)別不在于他們是否選擇離散或連續(xù)空間,而是標定過程中遷移學習方案(transfer learning scheme)[16]使用多源數(shù)據(jù)(居民出行調查),傳統(tǒng)學習方案使用單一來源被標記的數(shù)據(jù)子集[19]。

      最后,文獻[20]呈現(xiàn)了概率模型在無監(jiān)督模式下接受訓練(即沒有標記的例子)的情況,以識別智能卡記錄的活動模式。文獻通過提出一個連續(xù)的隱藏馬爾科夫模型(Hidden Markov Model, HMM),發(fā)現(xiàn) 8 個集群被按照家庭活動和家以外活動描述為不同的模式,其內部結構的釋放概率是一個混合高斯模型。這個模型的優(yōu)點在于不僅能找到新的觀測對象在集群中的成員關系,還能生成活動鏈來構建虛擬人口。雖然該模型展示了在出行數(shù)據(jù)中發(fā)現(xiàn)活動模式的方法,但是如果只想獲得基本活動,那么就不清楚其基于規(guī)則方法的區(qū)別(如文獻[8]的實際優(yōu)勢)。

      對活動預測結果進行完全驗證幾乎無法做到,因為在智能卡記錄總量中,這需要個體擁有完整的行程信息。由于這個原因,用部分驗證來確定模型的準確性。例如,一種常見的方法是將識別的熱點區(qū)域數(shù)據(jù)得到的結果,直觀對比家庭出行調查和人口普查[14]。

      2.2 基于個體的交通模型與仿真

      智能卡數(shù)據(jù)的非集計特點體現(xiàn)為基于多元個體的交通模型的適當輸入。假設每個獨特的智能卡信息代表一個個體,交通需求可以直接從智能卡數(shù)據(jù)中獲取。

      文獻[21]在阿姆斯特丹和鹿特丹第一次嘗試實施基于個體的公共交通微觀仿真。僅僅基于智能卡數(shù)據(jù),工作的主要挑戰(zhàn)是個體活動計劃的生成。研究聚焦于同一個通勤者連續(xù)幾天基于家的出行模式。工作和家庭所在車站被認為是工作日期間使用最多的兩個車站,周末期間家庭所在車站客流量最大。智能卡身份信息并不與這一模式完全吻合,但通過在出行中間站引入虛擬活動來重建某個特殊日的活動鏈,以描述當天的交通需求。最后,對于高度不規(guī)則的交通模式,每一次出行都會單獨生成。

      生成虛擬人口的過程受到各種制約,主要是建模過程中的各種假設。未來研究的機遇在于通過更準確、更有效的實際交通需求來確定出行目的和社會人口特征。為此,可將對智能卡數(shù)據(jù)的長期觀察看作是應用現(xiàn)代數(shù)據(jù)挖掘技術來推斷額外信息的機會。沿著這個思路,文獻[22]探索了如何將特征行為(eigenbehaviours)的概念[23]應用于推導時空模式。

      使用智能卡數(shù)據(jù)進行仿真的另一個挑戰(zhàn)是將公共交通工具與其他交通方式(如小汽車)之間潛在的相互作用進行建模。最近,文獻[24]的一項研究為新加坡公共交通開發(fā)了一種簡化的基于個體的交通仿真。不同于文獻[21],在連續(xù)兩個車站間,通過一個隨機公共汽車速度模型(stochastic bus speed model)取代MATSim 隊列模型來解釋與私人小汽車的相互影響。該模型根據(jù)一個多項式回歸模型擬合,假設車站到車站的運行速度遵循正態(tài)分布[25]。正如文獻[26]指出的,在交通網(wǎng)絡中決定小汽車速度的各項參數(shù)不僅與(從智能卡數(shù)據(jù)中獲取的)需求有關,還與網(wǎng)絡描述中的地理信息有關。為說明仿真框架中存在的停留時間的易變性,他們考慮了文獻[27]研究的模型。

      以簡化的交通仿真方案為例,說明機器學習如何替代MATSim模型。智能卡記錄的統(tǒng)計數(shù)據(jù)是用來訓練模型的,而不是從多元個體仿真中獲得公共汽車出行時間。結果不僅大大提高了仿真時間,而且使仿真系統(tǒng)網(wǎng)絡的重新設計成為可能。盡管如此,仍有一些限制因素需要解決,例如軌道交通軌跡的重建,對步行、等待和換乘活動更好的表達,這些活動并不能直接從智能卡數(shù)據(jù)中獲取。

      3 手機數(shù)據(jù)

      無論GSM,CDMA 還是LTE,移動網(wǎng)絡需要手機和蜂窩網(wǎng)絡之間進行定期和頻繁的交互信息(例如脈沖信號)。為了給用戶提供服務,移動網(wǎng)絡需要頻繁的對手機進行定位,即使手機處于待機狀態(tài)。通過附近的基站計算用戶的位置,這一結果的精度相當于在市區(qū)幾百米范圍內的基站覆蓋的大小。通過網(wǎng)絡觸發(fā)和事件觸發(fā)更新手機定位信息。

      網(wǎng)絡觸發(fā)定位更新發(fā)生在:

      1)手機連接到蜂窩網(wǎng)絡;

      2)在兩個不同區(qū)域之間進行呼叫和移動(例如切換);

      3)待機并移動到屬于新位置區(qū)域(Location Area,LA)的網(wǎng)格;

      4)當相關計時器已經(jīng)結束,則網(wǎng)絡進行調查(例如定期位置更新,通常每2 h更新一次)。

      時間觸發(fā)定位更新發(fā)生在下列情況:

      1)撥打或接聽電話時;

      2)使用短信服務(發(fā)送和接收);

      3)用戶連接到互聯(lián)網(wǎng)(如瀏覽網(wǎng)頁或發(fā)送電子郵件)。

      由此,從移動網(wǎng)絡中獲取的位置更新數(shù)據(jù)構成了日?;顒雍徒煌P偷臐撛谛畔碓?。與家庭調查相比,手機數(shù)據(jù)提供了大樣本量和長時間的觀察周期,而成本可以忽略不計。然而,人們必須克服處理移動電話軌跡以應對出行重建的挑戰(zhàn),因為這類數(shù)據(jù)流中包含的信息的空間分辨率和時間分辨率都很低。具體而言,位置估計值的精度取決于給定區(qū)域內的基站的分布,而位置更新的頻率則取決于用戶的使用情況。因此,普遍的挑戰(zhàn)是如何從稀疏和雜亂的監(jiān)測數(shù)據(jù)中提取人們出行的豐富語義(例如出行目的)[28]。

      3.1 手機數(shù)據(jù)挖掘通道

      文獻中出現(xiàn)的第一個方法是根據(jù)話單數(shù)據(jù)(Call Detail Records, CDRs)生成基于出行流的OD矩陣[29-31]。由于OD矩陣是通過捕捉來自不同交通分析小區(qū)的突發(fā)流產生的,而不是個體出行重建過程,這些方法不符合個人活動的需求。此外,文獻[32]討論如果手機數(shù)據(jù)的空間分辨率低,前面的方法會存在偏差。另外,它們并非用于處理移動電話原始記錄的偏差,如所謂的超音速跳躍(supersonic jumps)或信號跳躍(signal jumps)(即離群值)。這些事件都是短時間內突發(fā)的事件。雖然這種跳躍通常是系統(tǒng)固有的數(shù)據(jù)偏差,但一些跳躍可能是由外部機制觸發(fā)的,目的是保護用戶的隱私[33]。

      由于上述原因,需要一條數(shù)據(jù)挖掘管道,從移動電話位置更新中提取確切的個人行程。首先,需要一個預處理階段去處理偏差測量和基站間信號跳躍。其次,個人行程提取階段,可以分割停留位置(即活動片段),由此估計行程的開始和結束時間。第三,活動或出行目的地推測階段,用于估算家庭、工作、學校等主要活動地點以及餐飲、購物等次要活動地點。

      3.2 預處理技術

      對于第一個目標,文獻[33]對三種不同類型的濾波器進行評估,以檢測移動電話軌跡數(shù)據(jù)的異常值:遞歸原生濾波器(Recursive Naive Filter)、遞歸超前濾波器(Recursive Look-Ahead Filter)和卡爾曼濾波器(Kalman Filter)。一方面,前兩種主要表現(xiàn)為低通濾波器[28,34]。它們通過引入出行速度的上限約束來消除較大的定位誤差。因此,可以通過每一對連續(xù)的點(遞歸原生濾波器)或者每一個三合點(遞歸超前濾波器)計算速度,并與特定閾值相比較。另一方面,卡爾曼濾波器是重建軌跡的概率方法。結果表明,在排除異常點的情況下,遞歸超前濾波器的效果更好,并保持了軌跡的準確性。雖然卡爾曼濾波器也消除了異常點,但軌跡失去了準確性。然而,文獻[35]通過使用高斯混合模型來擴展現(xiàn)實挖掘數(shù)據(jù)庫[36]的空間分辨率,考慮到話單數(shù)據(jù)的低分辨率,需要更復雜的概率濾波器來替代原生濾波器。

      文獻[36]提出了另一種專為處理手機數(shù)據(jù)偏差開發(fā)的預處理技術。首先利用基于密度空間維度的聚類方法解決基站間跳躍的問題,以確定可能的停留點,包括來自基站間跳躍數(shù)據(jù)的虛構停留點。然后,通過幾乎相同的時間戳識別出波動圖。最后,通過選取個人花費更多時間的集群,過濾掉震蕩點(例如虛構的集群)。這種方法可作為移動通信數(shù)據(jù)的時間解決方案。

      3.3 停留點提取

      基于時間規(guī)則(temporal-based rules)的研究層面:文獻[37]研究德國西南部一個地區(qū)的位置區(qū)域更新情況。該算法提出的原則是,如果用戶在位置區(qū)域停留的時間比直接穿過該區(qū)域所需的時間更長,那么用戶在該位置區(qū)域可能會開始或結束一段行程。為此,研究提出了60 min原則,如果第一次登入信息和最后一次登出信息的時間間隔大于60 min,則認為該位置區(qū)域是一個停留點。當然,由于提取的行程信息在一個大的位置區(qū)域層面,而不是在基站區(qū)域層面,故該方法受到一些限制。

      基于距離聚類(distance-based clustering)的研究層面:文獻[34]提出一種基于從電話、短信和互聯(lián)網(wǎng)使用中生成的話單數(shù)據(jù)來識別基站塔層面的出行的方法。在預處理階段,應用一個低通濾波器,以10 min一次的采樣率來解釋信號的跳躍;應用一個低級別的距離聚類技術,識別一個共同位置附近的小波動,并理順移動電話追蹤軌跡。為了提取停留點,對1 km 范圍內的融合點進行基于距離的聚類分析。集群的質心被定義為一個虛擬位置,在最后一步中,通過將標識的虛擬位置連接起來重建個人路徑。然而,由于一個虛擬位置可在一個臨時事件中創(chuàng)建,因此該方法缺乏對事件的可靠過濾。

      基于頻率聚類(frequency-based clustering)的研究層面:文獻[19]提出從時間分布稀疏、空間低分辨率分布的話單數(shù)據(jù)中識別停留位置的方法,認為被訪問最多的基站是一個人生活中的重要場所。文獻沒有使用時間或空間聚類算法來獲取這些位置,而是使用手機基站訪問數(shù)據(jù)。該方法包括應用集群引導算法(cluster leader algorithm),根據(jù)聯(lián)系手機基站的總天數(shù)對其進行排序。這種方法適用于低分辨率的跟蹤和長時間的觀測。然而,只有主要活動和一些次要活動地點可以被識別。

      時空聚類(spatio-temporal clustering)層面:文獻[32,38-40]利用時間和距離聚類技術過濾經(jīng)過基站的數(shù)據(jù)。首先,通過測量兩個相鄰點之間的距離,并與距離閾值進行比較(例如漫游300 m),從而在空間上進行分組。其次,如果第一次和最后一次觀察之間的時間間隔大于時間閾值(例如10 min),則認為可能存在停留。然后,潛在的停留點被設置為集群中的質心。由于位置上的偏差,在不同的觀測日和不同的地理坐標下可能會有多個潛在的相同位置??紤]到這一點,最后不考慮記錄的時間順序利用聚類算法確定停留區(qū)域。

      同樣,文獻[41]使用了基于密度的聚類算法(即漫游距離),其ε參數(shù)取值為100 m,時間閾值為5 min,以此過濾出通過點。與基于頻率的聚類算法相比,只要基于密度聚類算法的時間分辨率不稀疏(例如數(shù)據(jù)集包含網(wǎng)絡更新數(shù)據(jù)),時空聚類算法就能檢測到任何活動的位置。

      行程驗證(trip validation)層面:因為有更多手機用戶在出行行為中沒有系統(tǒng)差異,所以有必要對算法進行驗證。例如,檢測到的地點數(shù)量與手機使用之間不存在相關性。文獻[32]根據(jù)手機使用頻率將用戶分為五組,檢查各組每天的日常出行情況,包括出行次數(shù)、不同目的地的數(shù)量。通過比較上述數(shù)據(jù)的頻率分布,得出這些數(shù)據(jù)有相似模式的結論。

      活動開始時間和持續(xù)時間(activity start times and durations)層面:確定停留位置后,文獻[28]接下來將預測到達時間,方法是計算到達活動記錄的最早值(即到達時間的上限)與下限值的平均值,對上一個位置的最后記錄時間以及上一個位置與當前位置之間的出行時間求和可預測時間下限。行程時間被確定為連續(xù)的中心點之間的距離除以假設的旅行速度。在預期的出發(fā)時間內執(zhí)行相同的過程,活動持續(xù)時間通過減去估算時間計算得到。

      文獻[40]用另一種方法推斷出活動的到達、離開時間。文獻建議使用從全國家庭出行調查中得出的出行持續(xù)時間概率函數(shù)。為工作日和周末構建6 h 出行分布和對應的出行目的:基于家的工作出行(home-based work, HBW)、基于家的其他出行(homebased other, HBO)和非基于家的出行(nonhome-based,NHB)。然后,在觀察的時間窗口中隨機生成離開時間,得到對應的時間(工作日、周末)和出行目的(HBW、HBO 和NHB)分布。

      3.4 活動推測

      在傳統(tǒng)的調查數(shù)據(jù)中,活動目的由被調查者提供,而在手機數(shù)據(jù)中,活動類型是設定好的。此外,沒有任何數(shù)據(jù)來源(交通調查或者手機數(shù)據(jù))能準確地確定出行目的地的確切位置,但是這些精確的位置在一片區(qū)域內。一般來說,我們可以在文獻中找到分布預測的兩種不同的方法,即時間頻率模型和概率模型。

      3.4.1 基于時間-頻率規(guī)則的活動推測

      推斷背景信息例如位置函數(shù)或訪問目的,其直接方法之一是通過時間-頻率規(guī)則來推斷。文獻[32,39-40]改進了文獻[30-31]在使用訪問頻率和時間數(shù)據(jù)識別工作、家庭和其他地點的總體思路。一個用戶的家庭位置被定義為在工作日和周末20:00 至次日7:00之間最常觀察到的停留點。然而,工作地點被定義為在工作日7:00—20:00 停留最多的地點。由于有些人不工作,如果一些位置每周訪問不超過1 次,或者地點離家不超過500 m(為了避免通過信號偏差識別出錯誤的工作位置),工作地點就會留下空白。另一種變化[40]是工作地點被確定為用戶從家庭移動的最大距離的停留點,以此來識別夜班工作。

      3.4.2 基于概率模型的活動推理

      用于推斷活動(出行)目的的時間-頻率規(guī)則是一種直接的方法,但是對某些群體可能不適用。此外,它們僅限于在主要活動位置的某些模式。通過概率模型推理是更可靠的方法。概率方法用于處理觀察中的不確定性,并捕獲模型解釋變量之間的相互依賴關系。這使其他相關數(shù)據(jù)集在模型中集成,例如語義豐富的地理信息數(shù)據(jù),以提高結果的準確性,并允許對更廣泛的活動類別進行分類。

      推導概率模型的一個有力工具是概率圖模型(Probabilistic Graphical Models, PGM)。PGM 是概率分布的圖形表示,其中一個節(jié)點代表一個隨機變量,而連接階段的邊緣顯示它們之間的因果關系。通常以圖中編碼獨立和條件獨立假設描述因子形式的隨機變量之間的聯(lián)合概率。兩個典型的概率圖模型是貝葉斯網(wǎng)絡(Bayesian Networks,即有向的非循環(huán)圖)和馬爾科夫隨機場(Markov Random Field,即無向圖)。前者將聯(lián)合概率分解為條件概率分布,后者根據(jù)吉布斯分布(Gibbs distribution)和圖中點集(the cliques in the graph)分解。在定義模型表達之后,下一步是找到模型參數(shù)??梢酝ㄟ^以下算法得到:最大似然估計(Maximum Likelihood Estimation, MLE)、最大后驗概率(Maximum a Posteriori, MAP)或者貝葉斯推斷(Bayesian Learning)。例如,期望最大化(Expectation-Maximization,EM)算法是一種迭代方法,當模型依賴于潛在變量(即未被觀察變量)時,可以找到MLE 或MAP。最后,在推理步驟中,我們試圖查詢完整的聯(lián)合概率,例如根據(jù)觀察所得的活動概率對新觀測信息進行分類。推理算法可以分為精確推理算法(如置信傳播、MAP 推理)和近似推理算法(如變分法)。

      1)生成模型(generative models)。文獻[42]通過建立貝葉斯網(wǎng)絡將出行分為五種不同活動類別:家庭、工作、休閑、購物和其他。模型中的解釋變量包括:開始時間、持續(xù)時間、每個停留位置以及當前和上一次活動之間的轉換概率。通過家庭出行調查對模型進行標定,并進行逐步分類。首先區(qū)分家庭、工作和其他出行;其次進一步將其他活動分為休閑、購物或其他。該方法分類成功率達到79.4%。

      文獻[41]采用輸入-輸出隱藏馬爾科夫模型(Input-Output Hidden Markov Model,IOHMM),解釋了話單數(shù)據(jù)的活動模式。IOHMM 不僅允許潛在變量(即不同的輸出變量)中包含多個觀察值,而且還允許潛在變量的識別不僅基于之前的活動還要基于一些環(huán)境信息變化(即不同的輸入變量)。為達到這一目標,首先用3.4.1 節(jié)中定義的一組相似的時間頻率規(guī)則確定主要活動地點(家和工作),然后用IO-HMM 推斷次要活動。模型輸入的信息代表向一個新活動轉移的起始點信息;因此,這些數(shù)據(jù)被定義為一天中的某一時間、一周中的某一天以及工作時間的累積變量。與此相反,模型的輸出信息包括向新活動轉移時未能獲取的信息:與家的距離、與工作地點的距離、活動持續(xù)時間和該地點以往是否被訪問過。與文獻[42]相反,模型在無監(jiān)督的情況下采用EM算法(例如不用標簽的案例)進行調試。確定8個不同的活動集群:家庭、遠距離出行、中等距離出行、娛樂、買咖啡或等車(coffee/transport)、個人事務、就餐或購物以及工作。

      這兩種方法[41-42]可以進一步被歸類為生成模型,因為它們用隨機變量建立聯(lián)合概率模型。生成模型的一個重要好處是,它們不僅可以用來對新的觀察進行分類,還可以生成樣本和創(chuàng)建虛擬人口,從而進一步作為基于活動的模型的需求輸入信息。

      2)判別模型(discriminative models)。判別模型是無方向圖,而不是模擬聯(lián)合概率,直接將p()

      Y/X的條件概率建模。當我們只關注觀察到的特征的目標變量(例如活動),則有適用的模型。由于判別模型并不對特征之間的關系進行模擬,這些模型允許包含更多重疊特征來完善分類任務。文獻[28]提出馬爾科夫邏輯網(wǎng)絡(Relational Markov Network),揭示手機數(shù)據(jù)中的活動時空結構。MRN 是馬爾科夫隨機場的擴展,它是為關系數(shù)據(jù)庫中的集體分類而設計的。值得注意的是,文獻[28]根據(jù)土地利用類型、活動持續(xù)時間、開始時間的分布概率進行模擬,求得這些活動之前是否被訪問,活動是否有一個特定位置,以及在檢測位置只顯現(xiàn)出一個活動情況下的離散變量。該模型采用無監(jiān)督的方法進行測試,采用EM 和拒絕抽樣(Rejection Sampling)方法進行推理,計算土地利用和活動類型的后驗分布。

      文獻[28]的結論是,由此產生的集群反映了與傳統(tǒng)調查數(shù)據(jù)吻合的出行鏈和活動調度模式。此外,對比研究城市(波士頓和維也納)顯示集群具有相似性。盡管如此,還是有一些改進建議。首先,研究傳統(tǒng)調查中發(fā)現(xiàn)的活動集群與傳統(tǒng)活動類型之間的關系。其次,引入POI 數(shù)據(jù)庫進一步驗證結果。第三,將模型(例如基于個體的模型)預測的交通量與實際交通量進行對比作為驗證步驟。

      3.5 方式推演

      從無處不在的計算設備推演交通方式是不同研究面臨的共同挑戰(zhàn)。然而,多數(shù)建議的方法都是基于手機的傳感器,如GPS、加速度計和陀螺儀,因為這些傳感器可以進行細微取樣。不過,更廣泛的分類只能基于話單數(shù)據(jù)(細節(jié)調用記錄)。這些方法通過預測移動電話的速度并將其與交通方式相關聯(lián)來推斷出行方式。例如,文獻[43]使用出行起訖點信息和旅行時間,將出行方式分成三組:小汽車、公共交通和步行。首先,研究過濾了數(shù)據(jù)集,只保留超過3 km 的出行和更新位置頻率超過1 次·h-1的用戶。然后,按照起訖點進行分組,再通過k 均值算法聚類來劃分出行方式。最后,用谷歌地圖的出行時間信息對結果進行驗證。

      雖然學術界對話單數(shù)據(jù)的關注主要集中于活動(出行)目的估計過程,但是,隨著智能手機普及率的增長和更多細節(jié)信息可供使用(即上網(wǎng)使用痕跡),將出現(xiàn)能通過話單數(shù)據(jù)找到特定出行方式或可以融合智能卡刷卡數(shù)據(jù)等其他數(shù)據(jù)集的更可靠的算法。這種算法將有助于理解影響方式選擇的行為參數(shù)。

      3.6 虛擬人口和基于個體的仿真

      使用手機數(shù)據(jù)滿足基于活動的模型的數(shù)據(jù)需求是交通規(guī)劃中的一大希望。然而,目前存在的挑戰(zhàn)之一是發(fā)現(xiàn)充分利用移動數(shù)據(jù)的真正益處,以更好的數(shù)據(jù)挖掘方法獲取手機數(shù)據(jù)和利用機器學習算法開發(fā)大數(shù)據(jù)驅動的基于個體的仿真。文獻[44-45]展示了一項初步研究,該研究僅基于手機數(shù)據(jù)仿真MATSim模型得到虛擬人口。然而,這一虛擬方法存在缺陷,即研究中使用的話單數(shù)據(jù)不足以代表真實的話單數(shù)據(jù)。

      最新的智慧港灣(SmartBay)項目,嘗試基于個體的模型開展交通規(guī)劃[46]。利用去除隱私的話單數(shù)據(jù)構建舊金山灣區(qū)MATSim模型。包括直接從話單數(shù)據(jù)派生出需求模型,以及在個體模型人群中賦予特定的社交結構從而模擬不同的出行目的地與方式選擇。類似于文獻[19]提出的方法,以基于活動頻率的插補法來確定主要位置?;谌丝谡{查數(shù)據(jù)可估算調節(jié)過程中的修正系數(shù),其中涉及綜合區(qū)點插值方法[47]和一種優(yōu)化的迭代比例擬合結果。與原有灣區(qū)都市區(qū)交通需求模型比較發(fā)現(xiàn),城市的發(fā)展變化十分明顯,尤其是硅谷IT部門的快速成長導致城市就業(yè)分配的巨大變化。

      智慧港灣項目目前正在推進,未來計劃包括文獻[41]提到的為推演次要活動設計的生成模型,結合機器學習工具對同一次活動的目的地選擇建立擴展模型,并在方式選擇中引入社會影響。

      4 討論

      4.1 大數(shù)據(jù)驅動下基于個體的交通規(guī)劃建模

      傳統(tǒng)的交通預測數(shù)據(jù)來源于家庭出行調查,該調查具有不可否認的價值。它們不僅包括個人和家庭成員出行模式的詳細數(shù)據(jù),還包括出行方式和出行目的等相關信息。然而,它們不能完全反映基于個體的交通建模的優(yōu)勢。這里存在兩個主要的限制:1)家庭出行調查僅代表了一小部分人群(通常約1%);2)家庭出行調查通常每5~10年更新一次②。

      便攜式移動傳感器克服了這些弊端,并成為繼續(xù)開發(fā)基于個體的交通規(guī)劃模型的有效途徑。其弊端是這種廣泛收集的隨機信息是未經(jīng)處理的原始數(shù)據(jù),需要進行額外的分析工作才能確定出行和出行目的,以便在基于個體的仿真中進行整合。因此,關鍵的挑戰(zhàn)是開發(fā)魯棒性算法和設計一種數(shù)據(jù)挖掘方法,從稀疏的出行跟蹤數(shù)據(jù)中提取個人每日行程安排。

      4.2 從GGPPSS到話單數(shù)據(jù)模型的可轉移性

      當使用稀疏的話單數(shù)據(jù)來提取活動時,其中一個方向是采用最初為GPS數(shù)據(jù)開發(fā)的方法。例如,文獻[28]將基于話單數(shù)據(jù)的活動推理用在文獻[48]提出的馬爾科夫邏輯網(wǎng)絡中,最初用于GPS 追蹤;而文獻[14]和文獻[41]應用隨機場條件模型(Conditional Random Fields)[49]處理智能卡數(shù)據(jù),應用隱藏馬爾科夫模型[50]處理話單數(shù)據(jù)。其中一個原因是,在不考慮活動識別的前提下,GPS軌跡已經(jīng)成為眾多研究中的主要研究對象[51-53]。因此,一個重要的研究問題是,這些模型多大程度上適用于低分辨率的出行軌跡,例如手機話單和智能卡提供的數(shù)據(jù)。此外,除了出行軌跡在粒度級別上的差異外,基于GPS的研究通常有一個帶有活動標簽的受控樣本;因此,通常情況下模型以監(jiān)督的形式接受訓練。對于話單數(shù)據(jù),這樣的訓練樣本不易獲得。

      因此,這些模型應該依賴于無監(jiān)督學習和半監(jiān)督學習方法。最后,另一個需要注意的重要問題是,基于GPS的活動推理模型通常在小樣本范圍內被訓練和驗證(例如文獻[49]中的4 個人)。這無疑加重了對模型表現(xiàn)的質疑,當擴展到城市尺度時,我們不禁會想將這些模型擴展到大規(guī)模低分辨率出行軌跡的可能性。

      4.3 概率機器學習和交通建模

      為GPS開發(fā)的活動推理模型由概率機器學習衍生而來,是人工智能(AI)的一個分支。人工智能和機器學習是大數(shù)據(jù)時代交通建模的高相關性學科。為了解它們的重要性以及適應交通運輸工程的方式,我們來看一個簡單的例子。想象一下自己如何理解什么是“貓”,我們會回想起一些圖片以及在幼兒園里被教會“貓”的概念。盡管一開始可能無法區(qū)分貓和老虎,但在觀察了幾個貓的實際例子以后,我們對于什么是“貓”變得更加清晰。一般來說,得到的數(shù)據(jù)越多,我們的觀念就越堅定,不確定性也越少。

      在人工智能中,概率被用作計算人們對這些觀念的確定程度。在城市大數(shù)據(jù)背景下,我們對一種現(xiàn)象及其周圍環(huán)境擁有大量的觀察結果。例如,線圈檢測器數(shù)據(jù)、出租汽車GPS數(shù)據(jù)、公共交通智能卡數(shù)據(jù)和手機數(shù)據(jù)。所有這些信息都可以代表交通運輸網(wǎng)絡的現(xiàn)狀?;谶@些觀察,通過概率機器學習來計算和提高我們對交通網(wǎng)絡的認識。

      另一個重要的問題是人們如何使用實用的機器學習和概率模型。通常,人們試圖將感興趣的問題映射到一個標準的算法上,例如線性回歸。模型本身限制了我們考慮非相關的解釋變量(例如條件獨立)。然而,感興趣的問題可能會更好建模,包括更豐富的解釋變量和其他類型的假設。因此,我們更希望有一個框架可以構建最能代表問題的模型。概率圖模型即是通過基于模型的機器學習研發(fā)的一款面向開發(fā)人員的模型框架,目前已提供摘要版[54]。

      4.4 解鎖不同數(shù)據(jù)集的知識

      在大規(guī)模人類移動傳感器(如手機話單數(shù)據(jù)、智能卡刷卡數(shù)據(jù))中,低時空分辨率可以得到較長的觀察周期或額外的數(shù)據(jù)集補償。此外,在大數(shù)據(jù)時代,人們的愿望是從多個不同但存在潛在聯(lián)系的數(shù)據(jù)集中獲取知識[55]。例如,從稀疏的話單數(shù)據(jù)中推斷出行目的,其中一個直觀的方法是通過包括POIs數(shù)據(jù)集的模型來豐富空間特征,它可以提供有關某一區(qū)域發(fā)生的活動類型的信息。該模型支持來自概率圖模型框架的跨區(qū)域數(shù)據(jù)融合[55]。

      另一個重要的方面是在城市出行環(huán)境中應用機器學習的獨特挑戰(zhàn)。在計算機視覺、自然語言處理等機器學習的領域中,訓練集和測試集通常來自相同的集合。例如,一個識別手寫數(shù)字的模型采用具備相同特征空間的圖片進行訓練和測試。然而,在城市出行數(shù)據(jù)的例子中,用不同來源、不同類型的觀察來解釋相同的現(xiàn)象,我們所需要的能力就是利用所有這些信息生成模型。因此,特別有趣的方法包括轉移學習法(從相關領域中提取有趣的知識以幫助學習目標領域)、多視圖學習法(通過多個不同的特征集學習)、半監(jiān)督學習法(使用標記和偽標記的數(shù)據(jù)來訓練模型)。

      4.5 數(shù)據(jù)隱私和市民參與

      由于智能卡和手機數(shù)據(jù)在記錄個人出行模式方面的普遍化和細節(jié)化,數(shù)據(jù)的隱私性越來越受到關注。例如,盡管話單數(shù)據(jù)去除了隱私數(shù)據(jù),文獻[56]指出即使只有4 個時空點,通過手機天線獲取的空間分辨率足以識別95%的個體。

      人們在位置混淆不能夠重新識別用戶身份時,采取了一些措施以便能提取有用的出行模式。這些保護隱私的算法目前由新興的差分隱私(Differential Privacy, DP)主導。DP是一種數(shù)學保障,通過在序列中引入受控的偏差[57]隱藏數(shù)據(jù)庫中的參與用戶。預算參數(shù)(ε)表示隱私程度和精度之間的權衡。文獻[58]擴展了DP位置數(shù)據(jù)保護的概念。雖然已經(jīng)證明DP關于某些基于位置和集聚位置信息的服務是有效的[57-58],但當應用于個人出行軌跡時,DP 看起來是對隱私和精度之間的一種折中,且未能達到最先進的技術水準[59-60]。

      對于特定的大尺度、多個體交通規(guī)劃仿真實例,在構建仿真過程的不同階段都可能出現(xiàn)保護隱私的機制。然而,最終不應期望通過追蹤任意個體來仿真還原真實個體的情況。出于這一原因,首要的原則是不能使用真實的總體數(shù)據(jù)和日程信息,因此需要在集計層面設計行為模式類似真實情況的虛擬人口。來自概率圖的生成模型(如貝葉斯網(wǎng)絡、隱藏馬爾科夫模型)是必不可少的基本工作,因為可以從聯(lián)合概率分布中提取出樣本,從而使創(chuàng)建虛擬人口成為可能。

      最后,公眾參與對進一步發(fā)展智慧規(guī)劃解決方案至關重要。一方面,隨著技術越來越普及,人們需要加強對自身數(shù)據(jù)價值的認識。另一方面,研究組織應繼續(xù)改進安全和隱私保護機制,以維護數(shù)據(jù)挖掘生態(tài)系統(tǒng)。這種生態(tài)系統(tǒng)應該通過數(shù)據(jù)共享協(xié)議和參與感鼓勵公眾積極參與進來。作為回報,應開發(fā)更好的數(shù)據(jù)驅動應用程序以體現(xiàn)使用匿名數(shù)據(jù)的社會效益。我們希望用一種令人信服的方式解決這些問題,這對于數(shù)據(jù)驅動、基于個體的交通規(guī)劃模型的開發(fā)和實際應用至關重要。

      5 結論和研究成果

      5.1 總結

      引言部分對交通需求建模的最新進展進行了介紹。我們認識到基于出行的模型和基于個體的模型與記錄人們移動的大數(shù)據(jù)源密切相關,因為這兩者都直接源于個體出行模式的概念,而不是集計交通流的概念。為了充分利用基于個體的模型能力,不僅使用傳統(tǒng)的數(shù)據(jù)輸入(例如交通調查、人口普查),還包括公共交通智能卡和手機數(shù)據(jù)隨機收集的出行軌跡,這些數(shù)據(jù)記錄了前所未有的規(guī)模和精細水平的交通行為。然而,為了識別出行活動和出行目的,必須進行額外的分析工作,以便將其整合到基于活動的交通需求框架中。

      第一章對大數(shù)據(jù)源中提取出行行為所需要的方法論進行文獻綜述。從出行識別到活動推演,及文獻在交通需求模型中的應用,對公共交通智能卡和手機數(shù)據(jù)逐步進行了述評。

      最后,本文討論了文獻回顧的結果,并針對概率機器學習和交通模型明確了未來的挑戰(zhàn)。

      5.2 未來研究方向

      本文將大數(shù)據(jù)與機器學習(例如概率圖模型)相結合將成為繼續(xù)發(fā)展交通模型的最大潛力,具體來說,是為了改進基于個體的交通規(guī)劃模型。為此,未來的研究方向包括:

      1)改進更具代表性的虛擬人口生成模型的設計。為此,需要確定給定的特定數(shù)據(jù)集,這些數(shù)據(jù)是最優(yōu)的特征工程(featureengineering)策略和隨機變量之間的最佳關聯(lián)。此外,創(chuàng)建虛擬人口的過程(社會經(jīng)濟方面)和分配活動計劃的過程可以與更健康的生成模型設計聯(lián)系起來。

      2)從學習的角度看,由于不同的數(shù)據(jù)源能夠解釋城市出行現(xiàn)象的某些部分,最有前景和挑戰(zhàn)性的方法將從遷移學習、多視圖學習和半監(jiān)督學習的模式中產生。

      3)對于活動推理的具體工作,本文回顧了生成模型[41]和判別模型[28]。然后將兩種模型結合起來,通過一組更豐富的特征集(判別模型)在活動推理中獲得更好的結果,并從聯(lián)合分布(生成模型)中取樣。

      4)通過尋找基站的信號特定模式和智能卡刷卡等額外數(shù)據(jù)源,重新審視交通方式推理。

      5)基于個體仿真行為參數(shù)的超參數(shù)優(yōu)化。例如,通過貝葉斯函數(shù)優(yōu)化。

      6)在基于個體的仿真選擇模型中考慮社會效應。

      7)進一步探索預處理階段的概率濾波器。

      8)針對面向大型數(shù)據(jù)驅動的基于個體仿真的交通規(guī)劃,探討隱私指標的具體定義。

      總之,我們認識到復雜的建模知識已經(jīng)在交通規(guī)劃領域發(fā)展起來,因此強烈建議在交通規(guī)劃中應用數(shù)據(jù)驅動的方法時,需建立相應領域專業(yè)知識的基礎。這些新的挑戰(zhàn)需要交通模型專家和數(shù)據(jù)處理專家之間進行跨學科的合作。

      注釋:

      Notes:

      ①主要工作從2010年至2016年第二季度。

      ②一些權威機構已經(jīng)開始使用智能手機進行連續(xù)調查,以降低相應負擔并提高數(shù)據(jù)質量,特別是在捕捉短時間活動方面。

      致謝:

      Acknowledgement:

      感謝Seungjae Lee 在首爾大學組織舉辦的2016年首爾大城市論壇,本文初稿發(fā)表于該會議。

      公開聲明:

      Disclosure Statement:

      本文作者不存在潛在的利益沖突。

      基金:

      Funding:

      本研究成果隸屬于由蘇黎世ETH和新加坡國家研究基金會(FI370074016)聯(lián)合成立的新加坡ETH中心未來城市實驗室,得到“研究人才和科技企業(yè)”項目(Campus for Research Excellence and Technological Enterprise)的資助。

      猜你喜歡
      智能卡交通個體
      繁忙的交通
      童話世界(2020年32期)2020-12-25 02:59:14
      東方磁卡李曉東:進擊的智能卡研發(fā)巨子
      時代人物(2019年27期)2019-10-23 06:11:58
      關注個體防護裝備
      勞動保護(2019年7期)2019-08-27 00:41:02
      小小交通勸導員
      基于STC89 單片機的非接觸智能卡讀寫機設計
      電子制作(2017年17期)2017-12-18 06:40:36
      臨沂機頂盒智能卡升級方案介紹
      個體反思機制的缺失與救贖
      學習月刊(2015年22期)2015-07-09 03:40:48
      How Cats See the World
      中學科技(2015年1期)2015-04-28 05:06:12
      智能卡領域首個國家工程建設標準發(fā)布
      繁忙的交通
      大灰狼(2010年5期)2010-08-24 03:21:53
      白河县| 玉树县| 汉中市| 涟源市| 新兴县| 麦盖提县| 十堰市| 潼关县| 望奎县| 西丰县| 栾城县| 松原市| 桐梓县| 朔州市| 建始县| 绵竹市| 墨江| 闽侯县| 密山市| 西华县| 张家界市| 偃师市| 禹城市| 平乐县| 浮山县| 金坛市| 天台县| 徐州市| 大丰市| 大田县| 昆山市| 阿城市| 舒兰市| 六盘水市| 永登县| 车险| 比如县| 仁寿县| 萝北县| 西盟| 宝清县|