崔洪軍, 趙 銳, 朱敏清, 李 霞
(河北工業(yè)大學(xué)土木與交通學(xué)院,天津 300401)
智能卡的廣泛應(yīng)用在各大城市中產(chǎn)生了海量的乘客出行信息數(shù)據(jù),充分利用這些數(shù)據(jù)中的出行屬性可有效地分析乘客的出行特征、規(guī)律等[1-2]。Atfred等[3]、Ma等[4]利用時空關(guān)聯(lián)理論分別分析了智能卡乘客在指定車站的乘降數(shù)量及關(guān)聯(lián)行程,針對北京智能卡出行者的出行時空特性規(guī)律進(jìn)行了研究。Kusakabe等[5]對地鐵出行乘客的智能卡數(shù)據(jù)加以研究進(jìn)而得到出行者的出行規(guī)律信息。Ordóez等[6]對出行活動進(jìn)行聚類,并利用分層選擇模型對為期7 d的連續(xù)出行活動進(jìn)行了分析。Sang等[7]、Gordon等[8]、Nassir等[9]。基于公交智能卡數(shù)據(jù)對出行目的、出行鏈等進(jìn)行了分析。王月玥[10]、翁劍成等[11]對通勤者的出行特征屬性及出行鏈進(jìn)行了提取。咼娟[12]基于時空關(guān)聯(lián)理論,結(jié)合個體出行特征對乘客的出行規(guī)律進(jìn)行了一定分析。劉永鑫[13]、Weng等[14]、Liu等[15]基于智能卡數(shù)據(jù),對乘客的出行模式進(jìn)行了深入研究。
從以上成果可看出,學(xué)者多注重于從單一數(shù)據(jù)源來分析乘客的出行規(guī)律,但如將多源數(shù)據(jù)融合,研究結(jié)果將會更準(zhǔn)確及多元化。同時,以上諸多研究側(cè)重于對地鐵乘客出行規(guī)律的推斷;在出行選擇繁多的今天,傳統(tǒng)的公交出行依舊擁有很大的研究價值。在多數(shù)城市,公交出行的計費(fèi)方式等與地鐵存在差異,因此在智能卡數(shù)據(jù)庫中會缺失部分出行屬性信息。鑒于以往研究中的不足之處,基于樸素貝葉斯分類器,融合了出行調(diào)查數(shù)據(jù)及智能卡數(shù)據(jù)對公交乘客的出行目的進(jìn)行推斷,并基于各出行目的對出行規(guī)律進(jìn)行研究。
研究數(shù)據(jù)來源為石家莊市公交智能卡及公交全球定位系統(tǒng)(global positioning system, GPS)數(shù)據(jù),其中智能卡基礎(chǔ)數(shù)據(jù)為數(shù)據(jù)卡ID編號、刷卡時間、車輛號、車輛線路號等,GPS數(shù)據(jù)包括車輛終端號(車輛號)、GPS時間、經(jīng)緯度數(shù)據(jù)、GPS接收時間等。由于篇幅限制,只選取研究所需數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)如表1所示。
表1 智能卡數(shù)據(jù)描述
圖1 數(shù)據(jù)融合算法流程Fig.1 The flow of data fusion algorithm
通過匹配智能卡刷卡時間與車載GPS進(jìn)站時間可確定乘客的上車站點(diǎn)信息。由于石家莊公交系統(tǒng)采用一票制刷卡乘車原則,乘客的下車站點(diǎn)數(shù)據(jù)信息無法通過系統(tǒng)自動獲得,因此選取文獻(xiàn)[16]中的方法匹配下車站點(diǎn)數(shù)據(jù),并且通過車輛時刻表確定乘客的下車時間節(jié)點(diǎn)。
采用問卷調(diào)查的方式獲取公交乘客的出行信息,調(diào)查背景為限定的一個乘降站。調(diào)查內(nèi)容包括乘客出行的上下車站點(diǎn)、上下車時間及出行目的。出行調(diào)查數(shù)據(jù)如表2所示。
表2 出行調(diào)查數(shù)據(jù)
提出一種同時結(jié)合出行調(diào)查與智能卡數(shù)據(jù)的數(shù)據(jù)融合方法,依照此方法可將公交智能卡數(shù)據(jù)中缺少的乘客相關(guān)屬性信息進(jìn)行提取。圖1所示為該方法的流程,此法核心為推斷智能卡乘客的出行行為屬性。乘客的出行行為屬性c(如出行目的、起始地)為僅在問卷調(diào)查中得到的屬性;屬性F(如上車站點(diǎn)和上車時間)為兩個數(shù)據(jù)集中均包含的出行屬性,屬性g為僅從智能卡數(shù)據(jù)集中獲得的屬性(如出行頻率)?;谠摲椒ǎ褂嬎阒悄芸〝?shù)據(jù)集中具備屬性c的出行次數(shù)成為可能;同時,也得到了無法在單個數(shù)據(jù)集中得到的屬性c和g的關(guān)系。
假設(shè)從智能卡數(shù)據(jù)集中觀測到的乘客出行次數(shù)同問卷調(diào)查數(shù)據(jù)集中得到的乘客出行次數(shù)具有相同的條件概率分布函數(shù)P(c|F),此分布表示該乘客在屬性F條件下產(chǎn)生出行屬性c的概率。將概率函數(shù)P(c|F)應(yīng)用到樸素貝葉斯分類器中,可將智能卡數(shù)據(jù)集中的出行屬性c提取出來,基于此可得到各出行屬性下的概率分布關(guān)系。同時,N(c)為具有出行屬性c的出行次數(shù),屬性c和g的關(guān)系可用當(dāng)c已知時g的條件概率分布P(g|c)來表示。
假設(shè)向量集F={f1,f2,…,fk}為一系列行為屬性,F(xiàn)中的每個元素均代表著兩個數(shù)據(jù)集中存在的一個共有屬性(如上車時間、上車站點(diǎn))。c為可通過問卷調(diào)查獲得的智能卡數(shù)據(jù)集中缺失的屬性變量。將c及集合F中的每個元素視為離散變量,基于貝葉斯定理,概率P(c|F)可表示為
(1)
式(1)中:p(c)、p(F)、p(fk|c)均為從問卷調(diào)查中獲得的概率分布;p(c)、p(F)分別為出行中具備屬性c和F的概率,條件概率p(fk|c)為在屬性c下,具備屬性fk的出行所發(fā)生的概率。
當(dāng)智能卡數(shù)據(jù)集中每次行程的屬性F被觀測確定后,由樸素貝葉斯分類器可得到該行程的出行屬性c,表達(dá)式如式(2)所示,其中,C為所有出行屬性c的集合。同時,可由式(3)得到此出行屬性下的行程次數(shù),其中S為所有F取值集合。
(2)
(3)
當(dāng)問卷調(diào)查數(shù)據(jù)集中的屬性變量g在智能卡數(shù)據(jù)集中被計算出后,屬性g與屬性c的聯(lián)合概率分布可由貝葉斯推理得出,即
(4)
式(4)中:ps(F,g)為從智能卡數(shù)據(jù)集中得到的具有出行屬性F和g的行程占比。通過出行調(diào)查數(shù)據(jù)及智能卡數(shù)據(jù)可得到在屬性c下屬性g的分布條件概率:
(5)
式(5)中:ps(F)為由智能卡數(shù)據(jù)集中得到的具有屬性F的出行占有率。
為推測智能卡乘客的出行目的,將出行目的定義為2.2節(jié)中所述的屬性c,如式(6)所示。其在出行問卷調(diào)查中的意義如下:其中通勤出行包含成人上班、學(xué)生上學(xué)出行;因私出行包括出行人以休閑、購物、探親、訪友、商務(wù)會見等為目的的出行;歸家出行包括除通勤返程以外的歸程出行。同時定義特征屬性g為依據(jù)智能卡出行數(shù)據(jù)求得的乘客的出行頻率。
c∈{通勤出行,因私出行,歸家出行}
(6)
假設(shè)乘客的上車時間、出行持續(xù)時間、目的地、出行逗留時間等各出行特征參數(shù)均因出行目的而異?;诖思僭O(shè),兩個數(shù)據(jù)集中共有的出行屬性F定義為F={faboard,fduration},其中faboard為乘客上車刷卡時間節(jié)點(diǎn),fduration為乘客出行時下車后又在同一車站刷卡上車的時間間隔時長,在研究中稱此為活動持續(xù)時間。至此,由上述方法可得到智能卡數(shù)據(jù)庫中缺失的乘客出行目的屬性。
選取石家莊CBD中心區(qū)北國商城公交站為研究對象,周邊辦公寫字樓、賓館、酒店、醫(yī)院、購物中心齊全,有較大的客流量;同時存在多種目的的出行需求。公交智能卡數(shù)據(jù)為2018年1月1日至2018年3月25日期間的交易數(shù)據(jù)。經(jīng)篩選處理后北國商城站的可用出行數(shù)據(jù)共計199 145條,其中包含卡號10 263個,所用數(shù)據(jù)中保證了出行者至少出行一次。出行調(diào)查采取問卷調(diào)查方式,針對本文研究站點(diǎn),可用問卷共計1 000份,將其隨機(jī)分為兩部分,其一用于推算概率分布P(c|F),共計700份,余下300份用于檢驗(yàn)其準(zhǔn)確性。
700份問卷樣本數(shù)據(jù)結(jié)果通過式(1)的概率模型計算。概率分布結(jié)果P(c|F)由出行屬性F={faboard,fduration}決定,因此,模型的準(zhǔn)確程度取決于所選屬性集合F能否合理地體現(xiàn)乘客的出行目的。同時,樸素貝葉斯分類器假定各元素服從有條件的獨(dú)立分布,因此,P(faboard|c)與P(fduration|c)兩個分布情況被分別加以計算。
表3及表4分別展示了700組問卷數(shù)據(jù)在上述兩種分布情況下的計算結(jié)果。由此可看出,通勤出行多集中在早間高峰時期,同時逗留時間也遠(yuǎn)長于因私出行的逗留時間,歸家出行集中在下午5時以后,符合日常規(guī)律。
為驗(yàn)證本文聚類方法的準(zhǔn)確性,筆者利用前文所述的300組包含出行屬性F和c的出行調(diào)查數(shù)據(jù)來檢驗(yàn),通過比較推測出行目的與實(shí)際出行目的來判斷由式(2)推斷出的結(jié)果的準(zhǔn)確性。圖2所示為
表3 北國商城站出行調(diào)查概率p(faboard|c)的分布值
表4 北國商城站出行調(diào)查概率p(fduration|c)的分布值
圖2 北國商城站以出行目的聚類的出行次數(shù)統(tǒng)計Fig.2 Number of trips at Beiguoshangcheng station counted by trip purposes
由式(2)、式(3)得到的結(jié)果分布情況。其中,85.6%的出行被準(zhǔn)確估計,通勤出行、因私出行、歸家出行的準(zhǔn)確性分別為91.5%、72.1%和82.6%。
為了分析乘客在不同時段的出行行為變化情況,基于上述數(shù)據(jù)融合方法對智能卡數(shù)據(jù)進(jìn)行分析。由式(3)統(tǒng)計后可得到圖3所示的2018年1月1日至2018年3月25日北國商城站為期12周的乘客日出行頻次變化情況。
圖3 北國商城站出行量日變圖Fig.3 Daily variation of travel volume at Beiguo-shangcheng station
由圖3可看出:該車站工作日期間日出行量稍有波動,其中通勤出行占比最大,歸家出行稍高于因私出行;但在周末及假日期間,通勤出行占比明顯減少,歸家出行成為主要出行目的,且稍高于因私出行;工作日與周末銜接處可見顯著波動。同時,值得注意的是2月15日至2月21日春節(jié)假期期間本站的出行變化情況:此時段較前后時段相比,日出行數(shù)量顯著減少,主要以歸家出行為主,伴有少量因私出行及通勤出行。該站春節(jié)假期前后工作日時段通勤出行、因私出行、歸家出行的日出行量均值分別為1 598、407、509次;周末時段日出行量均值分別為706、777、959次;而在春節(jié)假期期間,以上出行目的下的日出行量均值則分別為60、146、451次。
圖4所示為由式(5)得到的研究時段內(nèi)通勤、因私、歸家各出行目的下的出行頻率。圖中橫軸為研究時段,縱軸為該站點(diǎn)每周內(nèi)每名乘客的出行次數(shù),不同色塊代表不同時段中每名乘客在該站點(diǎn)的出行次數(shù)占比情況。由圖可知,乘客通勤出行平均每周4.7次,因私出行每周2.9次,歸家出行每周3.4次。由圖4(a)可知,在第7、8觀察周(春節(jié)假期)中,每名乘客的通勤周出行次數(shù)多為3次;參考圖4(b)、圖4(c)可知,該時期每名乘客的因私出行次數(shù)明顯上升,且多集中于5次,而歸家出行次數(shù)在前半段春節(jié)假期中較平時上升明顯,在后半段中則與平時相差不大。
圖4 北國商城站不同出行目的下乘客出行次數(shù)周變頻率Fig.4 Weekly frequency chart of passenger trips for different purposes in BeiGuo Shang Cheng STA
提出了一種數(shù)據(jù)融合方法。此法基于樸素貝葉斯分類器,通過融合智能卡及出行調(diào)查數(shù)據(jù),結(jié)合公交智能卡乘客出行屬性F(上下車時間及活動持續(xù)時間)對出行目的加以分類。基于不同的出行目的,將乘客的出行頻率加以描述,以此刻畫乘客的出行行為,驗(yàn)證表明該法對出行目的估計的準(zhǔn)確率為85.6%,其中通勤出行、因私出行、歸家出行的準(zhǔn)確性分別為91.5%、72.1%和82.6%。
基于不同的出行目的對所研究時段的刷卡數(shù)據(jù)進(jìn)行分類。結(jié)果表明,該方法能夠有效地篩選出不同出行目的下智能卡乘客的出行頻率,同時可階段性地刻畫乘客的出行偏好?;诒狙芯窟x取車站,得到了2018年春節(jié)假期前后各出行目的下的出行變化規(guī)律、日出行量均值及乘客出行次數(shù)周變規(guī)律。結(jié)果可為交通規(guī)劃部門提供較好的信息支撐。