張志熙,陳玲娟
(武漢科技大學(xué)汽車與交通工程學(xué)院,湖北武漢430081)
隨著智能公交系統(tǒng)的快速發(fā)展,IC卡出行成為主流模式,采集乘客刷卡數(shù)據(jù)以及車輛到離站時間數(shù)據(jù)變得可行.挖掘公交IC卡數(shù)據(jù)與GPS數(shù)據(jù),可有效提取公交乘客出行特征.利用公交乘客上車刷卡數(shù)據(jù)信息與公交車運行時間信息進行數(shù)據(jù)融合分析,可較為精確判斷刷卡乘客的上車位置.但目前常規(guī)公交采用一票制,刷卡記錄中缺失下車站點、換乘記錄等信息.因此高效判斷刷卡乘客下車站點,成為利用多源數(shù)據(jù)進行公交OD推導(dǎo)與換乘識別的關(guān)鍵.Barry等[1]以紐約市為例,對其公交系統(tǒng)存儲的乘客信息進行研究,并基于出行鏈構(gòu)造OD推斷算法實現(xiàn)了下車站點的推導(dǎo);Munizaga等[2]在高度匹配出上車站點的基礎(chǔ)上,利用改進下車站點估計法,并結(jié)合均一時間系數(shù)法進行下車站點判斷分析;Wang等[3]基于IC卡數(shù)據(jù)與GPS車輛定位數(shù)據(jù),利用不間斷出行法,提取乘客出行規(guī)律;Zhang等[4]基于智能卡、車輛定位、IC卡交易等數(shù)據(jù),得出判斷乘客下車站點的約束條件,并采用隨機場模型和協(xié)同濾波算法提取信息缺失下的公交乘客出行鏈,從而實現(xiàn)下車站點判斷;Yan等[5]在已有的OD矩陣基礎(chǔ)上,利用K均值聚類將刷卡乘客分成規(guī)則和不規(guī)則兩組,采用基于出行鏈的兩步算法逐次識別乘客的下車站點;Jung等[6]利用一票制公交卡數(shù)據(jù)和土地利用特征開發(fā)了一種深度學(xué)習(xí)模型來估算公交乘客的下車目的地,并利用首爾AFC系統(tǒng)數(shù)據(jù)對模型進行檢驗;Kusakabe等[7]基于大坂市智能卡數(shù)據(jù)與交通調(diào)查信息,構(gòu)建先驗概率模型,研究公交乘客起訖點及下車時間.周雪梅等[8]利用公交線路周邊的土地利用類型對出行者的下車概率建立模型分析;胡繼華等[9]對影響乘客下車站點的因素進行分析,提出基于乘客個體特征的站點吸引權(quán)概率模型;翁劍成等[10]整合匹配公交IC卡和GPS等數(shù)據(jù),提取出公共交通出行路線信息,建立基于個體出行數(shù)據(jù)的公共交通通勤出行鏈提取模型,挖掘乘客上下車信息;陳君等[11]根據(jù)公交乘客出行的時空規(guī)律性,提出基于通勤出行模式和關(guān)聯(lián)出行模式判斷下車站點的思路,并將當(dāng)日出行信息和別日出行信息進行匹配來判斷下車站點.
已有研究大多針對閉合出行鏈,或者只從站點本身吸引權(quán)、個人出行鏈或土地利用性質(zhì)等單個影響因素出發(fā)推算公交乘客下車站點;出行距離(公交運行方向下游站點數(shù)),個人歷史出行數(shù)據(jù),各站點刷卡頻次,乘客出行鏈類型等隱含因素的挖掘并未考慮.因此,本文分析乘客出行鏈類型,以刷卡大數(shù)據(jù)為基礎(chǔ),針對不同出行鏈提出基于公交站點下車概率的乘客下車站點推算模型,并構(gòu)建模型檢驗方法.
公交出行鏈可歸納為以下幾種情況:
1)乘客多天連續(xù)出行,出行線路形成閉環(huán),即換乘或者無換乘到達目的地后經(jīng)過一段時間又從此地返回原來的起始位置.例如上班通勤、上學(xué)等規(guī)律出行,如圖1所示,對應(yīng)公交刷卡模式如1.2中1)和2)所述.
圖1 有換乘和無換乘閉合出行鏈Fig.1 Closed trip chains of transfer and non-transfer
2)乘客多天出行只有半程處于連續(xù)狀態(tài),即某些天去往目的地時采用公交出行,返程采用其他方式;或某些天去往目的地采用其他方式,返程采用之前同線的公交,出行鏈半閉合,對應(yīng)公交刷卡模式如1.2中3)所述.
3)乘客多天隨機出行,呈現(xiàn)出完全非連續(xù)閉合狀態(tài),即在某地出發(fā)只搭乘一次公交再轉(zhuǎn)移到另外的交通方式,亦或不返回等多種隨機出行,具體過程如圖2所示,對應(yīng)公交刷卡模式如1.2中4)所述.
無論閉合或非閉合出行行為,乘客在站間刷卡及上下車行為間表現(xiàn)出關(guān)聯(lián)關(guān)系.已知上車站點,可以挖掘部分乘客出行規(guī)律和站點客流特征.對于完整閉合出行鏈,逐個連接乘客多次出行的上車站點可推算乘客下車站點;對于非閉合出行鏈,分析該乘客近段時間相似出行鏈來推算其下車站點.
針對各種不同出行鏈,連續(xù)兩次刷卡間的連接方式分兩種.本文作如下定義:在一條出行鏈中,相連兩個公交刷卡點的連接稱為一個公交接續(xù)節(jié)點,包括接續(xù)節(jié)點連續(xù)的上下車站和接續(xù)節(jié)點斷裂的上下車站兩種,具體分析如下:
1)假設(shè)乘客第i次刷卡記錄在線路1的A站點上車,第i+1次刷卡記錄在同線路站點B處,且B位于A下游,則站點B為第i次刷卡上車的下車站點,即接續(xù)節(jié)點連續(xù),如圖3所示.
圖2 隨機出行Fig.2 Random travel
圖3 無換乘接續(xù)節(jié)點連續(xù)Fig.3 Nodes continued without transfer
2)如果第i+1次刷卡記錄的上車站點B與第i次的A不為同一條公交線,但B與A同線的下游站點B1滿足距離閾值條件,仍然認(rèn)為接續(xù)節(jié)點連續(xù),即B也為第i次刷卡上車的下車站點,如圖4所示.
步驟1)和2)為接續(xù)節(jié)點連續(xù)情況,針對接續(xù)節(jié)點不連續(xù)情況分析如下:
3)若第i+1次刷卡記錄的上車站點B與第i次的A不為同一公交線,且不滿足站點距離閾值條件,即接續(xù)節(jié)點斷裂,則第i次刷卡上車的下車站點根據(jù)與A同線且位于下游的高頻刷卡點來確定,如圖5所示.
圖4 有換乘接續(xù)節(jié)點連續(xù)Fig.4 Nodes continued with transfer
圖5 接續(xù)節(jié)點斷裂但有高頻站點Fig.5 Existing high frequency stations with broken nodes
4)對于兩次刷卡接續(xù)節(jié)點斷裂且高頻刷卡點集為空的情況,即無重復(fù)性的一般隨機出行,則根據(jù)乘坐線路各站點的下車吸引權(quán)確定下車站點概率,如圖6所示.
圖6 接續(xù)節(jié)點斷裂且無高頻站點Fig.6 Stations with broken nodes and without high frequency
對于出行接續(xù)節(jié)點連續(xù)情形,結(jié)合相應(yīng)數(shù)據(jù)容易推斷下車站點;對于接續(xù)節(jié)點斷裂的情形,本文構(gòu)建相應(yīng)的乘客下車站點估算模型.
在接續(xù)節(jié)點斷裂但高頻刷卡點非空時(如圖5),根據(jù)公交出行乘客一段時間的刷卡記錄統(tǒng)計上車站點及頻次Ni,若Ni≥N(N為高頻站點設(shè)定閾值),則i為高頻點,提取高頻站點集I,用高頻站點刷卡次數(shù)與總刷卡次數(shù)之比估算下車概率:
式中:Fi為高頻點i的下車概率,Ni(i∈I)為高頻點i的刷卡次數(shù).
在接續(xù)節(jié)點斷裂且高頻刷卡點集為空時(如圖6),假設(shè)某線路共有r個站點,F(xiàn)ij表示乘客在公交站點i上車在站點j下車的概率,則乘客在各站點下車概率矩陣F=[F]ij n×n.
以公交運營方向下游站點數(shù)、公交站點吸引權(quán)作為乘客下車概率的主要影響因素:
1)下游站點數(shù)的影響
參照現(xiàn)存研究文獻[12],設(shè)定乘客下車概率隨公交運營方向下游站點數(shù)滿足泊松分布規(guī)律,僅考慮下游站點數(shù)量,對在站點i上車的乘客,可得到其在不同站點的下車概率:
式中:lij為不同站點下車概率,λ為平均公交出行乘坐站點數(shù)量,如果站點i下游剩余站點數(shù)小于λ,則λ=n-i.
乘客乘坐公交站點數(shù)至少為1,至多為n-1,且各站乘車的一定會在后面站點全下車,由于初始泊松概率分布的和不一定等于1,故需對其做歸一化處理:
2)公交站點吸引權(quán)的影響
在站點上車的人越多,表明其吸引行人的概率越大.由于公交出行重復(fù)往返性好,相同站點的發(fā)生吸引客流在總體上保持基本穩(wěn)定,故根據(jù)IC卡刷卡數(shù)據(jù)中各站點上車人數(shù)可估算客流吸引權(quán):
式中,Kj為站點j當(dāng)次車輛上車人數(shù),r為站點總數(shù).
在綜合考慮公交運營方向下游站點數(shù)、公交站點吸引權(quán)影響下,假設(shè)兩主要因素對乘客下車概率影響權(quán)重因子為ρ(不同城市、不同公交線路的ρ值需經(jīng)過敏感性分析決定),可得站點下車概率模型如式(5)所示:
權(quán)重影響因子可根據(jù)實例中不同線路取不同值.
基于IC卡大數(shù)據(jù)及出行鏈類型,推算下車站點,算法步驟如下:
1)讀取乘客(同一刷卡ID)本次上車站點i的乘車線路R和下次刷卡站點i的上車線路R′;
2)若R=R′,且站點i′位于站點i下游,則可確定站點i′為上車站點i的下車站點;
3)若R≠R′,計算線路R下游站點i+k(1≤k≤n-i)與i′的最小歐式距離在i+k′站點取得,距離為d,若d≤T(給定閾值),則站點i+k′為下車站點;
4)若2),3)均不滿足,則乘客出行接續(xù)節(jié)點斷裂,根據(jù)刷卡ID統(tǒng)計出行記錄,統(tǒng)計乘客各上車站點的上車頻次Ni,判斷上車站點下游是否有高頻刷卡站點;
5)若高頻站點集I非空,對每個具備高頻點的卡號,計算Fi,將max(Fi)對應(yīng)站點i作為該卡號的下車站點,同時集計所有具備高頻點的乘客的高頻站點下車總?cè)藬?shù);
6)若高頻刷卡站點集I為空,則根據(jù)車輛運行下游站點吸引權(quán)及概率分配得到下車站點,即利用式(5)中計算的Fij來分配下車站點,站點j處下車的人數(shù)統(tǒng)計可用式(6)求得,其中Ki為站點的上車人數(shù),計算如下:
本文以青島市11路公交連續(xù)一周全天乘客的IC卡數(shù)據(jù)為初始樣本,進行下車站點識別.該路公交車共有17 535條刷卡記錄,其公交IC卡存儲信息的重要字段如表1所示.
表1 IC卡存儲重要字段Tab.1 Important fields storing in a smart card
該線路共17站,統(tǒng)計該路乘客出行站數(shù),得平均出行途經(jīng)站點數(shù)為8.23,選定乘客平均公交出行途經(jīng)站點數(shù)λ=9,算例中高頻站點集的頻次取值參照參考文獻[9].由于公交運行下游可能存在多個高頻站點,為避免漏掉,定為不低于2次[9],即Ni≥2.
對權(quán)重因子ρ,由于其是未知的,因此需要進行敏感性分析,本文試取0.1、0.3、0.4、0.5、0.6、0.7、0.9(每隔0.1取一個ρ值)等值進行敏感性分析,假設(shè)11路某位隨機出行者在青島大學(xué)上車,車輛往櫸林公園方向運行,結(jié)合各站點歷史上車人數(shù)數(shù)據(jù),其在不同站點的下車概率如圖7所示.
從圖7可看出,ρ=0.1時最大可能下車站點為南京路,ρ=0.3、0.4時,最大可能下車站點為臺東(婚紗街),而另外四個權(quán)重因子的最大可能下車站點均為鎮(zhèn)江路,結(jié)果差別不大.同時,不同權(quán)值下各站點下車曲線走勢基本一致,權(quán)重因子為0.3、0.4、0.5、0.6、0.7時曲線聯(lián)系更緊密,但是從前四站下車概率情況來看,權(quán)重因子為0.5時計算概率相對更為合理,因此本次實例分析選取ρ=0.5.在推算其他線路下車站點時需要實地跟車調(diào)查重新標(biāo)定參數(shù).此外,由于城市主要城區(qū)內(nèi)公交站點間距一般為500~700 m,因此本次實例分析選取500 m作為鄰近公交站點距離閾值.
圖7 不同權(quán)重因子下車概率Fig.7 Alighting Probability influenced by different weight factors
以11路為篩選字段處理原始數(shù)據(jù),提取全天刷卡記錄數(shù)據(jù),再以司機卡號提取該輛車全天刷卡記錄,并按乘客上車刷卡時間先后順序排列.由于缺少公交GPS定位數(shù)據(jù),利用高德地圖并根據(jù)當(dāng)?shù)爻鞘泄贿\行及發(fā)車狀況,站間運行時間一般大于2 min(相鄰兩公交站間距一般為500~700 m,公交運行速度為15 km/h),到站停留時間一般小于2 min,按照刷卡時間間隔和對應(yīng)公交車輛出發(fā)時間劃分乘客上車次序,并對照線路圖比對站點名,構(gòu)建上車站點,提取乘客近期公交出行記錄,識別出行鏈斷裂的情形.
利用本算法判斷下車站點記錄共約17 400條,部分判斷結(jié)果如表2所示,統(tǒng)計各站點上下車人數(shù),抽取部分結(jié)果顯示如表3所示.
表2 乘客下車站點推算結(jié)果Tab.2 Results of the passengers’alighting stop
表3 各站點刷卡乘客上下車人數(shù)Tab.3 Number of passengers getting on and off at each stop
根據(jù)居民出行特征,居民日常出行會形成回路,即各個公交站點出行產(chǎn)生量和到站下車量在理論上應(yīng)相等,并在誤差范圍內(nèi)滿足線性關(guān)系,相關(guān)系數(shù)R應(yīng)該接近1,如式(7):
式中:Ci為在站點i上車人數(shù)為站點i下車人數(shù)的推算值,r為某一條公交線路的站點總數(shù),C和D*分別為Ci和的平均值.
利用表3站點統(tǒng)計結(jié)果進行出行與吸引校驗,得到回歸分析結(jié)果如表4及圖8所示.
回歸結(jié)果顯示公交站點全天刷卡乘客上下車人數(shù)相關(guān)系數(shù)為0.92,誤差較小,說明本文推斷各公交站點間刷卡乘客上下車人數(shù)基本平衡,符合公交刷卡乘客出行基本特征.校驗回歸方程系數(shù)為1.021 1,說明本文算法結(jié)果在集計分析層面較穩(wěn)定,滿足站點識別的精度要求,從而反映了本文算法模型推算下車站點的有效性和可靠性.
表4 回歸統(tǒng)計參數(shù)Tab.4 Regression analysis parameters
圖8 回歸分析結(jié)果圖Fig.8 Regression analysis result
本文首先對乘客通勤、隨機出行等公交出行行為鏈、各類刷卡模式以及出行距離和公交站點吸引權(quán)等下車站點選擇的影響因素進行了深入分析,分別構(gòu)建各因素獨立影響下的乘客下車概率計算公式;然后,融合各影響因素和出行特征提出了基于公交站點下車概率的乘客下車站點推算模型,并利用某線路實際數(shù)據(jù)對推算模型進行了驗證;最后,利用青島市11路公交數(shù)據(jù)進行了實例分析.結(jié)果表明,本文提出的算法模型能對不同出行鏈的公交乘客下車站點實現(xiàn)有效推算,對獲取公交出行OD,提高公交運行效率,科學(xué)布局線路具有一定的理論與現(xiàn)實意義.
本文模型的數(shù)據(jù)來源為IC卡刷卡數(shù)據(jù),相關(guān)參數(shù)標(biāo)定也主要依靠刷卡數(shù)據(jù),不包括投幣和手機支付的乘客出行數(shù)據(jù),與實際的下車人數(shù)推算存在一定誤差.此外,受限于數(shù)據(jù)取樣時間與成本,本文僅以一條公交線路為實驗對象,未充分融合多條公交線路以及地鐵刷卡等數(shù)據(jù).下一步研究將考慮更豐富的、更貼近實際的出行模式,利用多源數(shù)據(jù),提高下車站點推算模型的精度和適用性.