張 見(jiàn) 張 寧 邵家玉
(1. 東南大學(xué)自動(dòng)化學(xué)院,210096,南京;2. 東南大學(xué)智能運(yùn)輸系統(tǒng)研究中心軌道交通研究所,210018,南京//第一作者,碩士研究生)
城市軌道交通系統(tǒng)中的實(shí)時(shí)客流數(shù)據(jù)信息對(duì)提高地鐵系統(tǒng)服務(wù)能力至關(guān)重要。然而,由于城市軌道交通自動(dòng)售檢票(Automatic Fare Collection,AFC)系統(tǒng)中的設(shè)備供應(yīng)商的多樣性以及實(shí)時(shí)數(shù)據(jù)傳輸過(guò)程的復(fù)雜性等原因,使得從AFC系統(tǒng)中獲取的實(shí)時(shí)客流數(shù)據(jù)并不能完全反映運(yùn)營(yíng)實(shí)際情況,部分車(chē)站在某些時(shí)段的實(shí)時(shí)進(jìn)站客流量與實(shí)際進(jìn)站客流量差異較大[1]。為了保證所獲取的實(shí)時(shí)客流數(shù)據(jù)的質(zhì)量,可通過(guò)對(duì)各車(chē)站、各時(shí)段客流量設(shè)定合理的閾值,從而對(duì)實(shí)時(shí)獲取的客流數(shù)據(jù)進(jìn)行異常檢測(cè)和糾錯(cuò)處理。在此過(guò)程中,閾值上限和閾值下限的合理設(shè)定最為關(guān)鍵。
根據(jù)同車(chē)站、同時(shí)段客流分布符合正態(tài)分布的特點(diǎn),利用均值-三倍標(biāo)準(zhǔn)差法確定客流閾值上、下限是一種簡(jiǎn)便易行的方法,但由于樣本數(shù)據(jù)本身存在異常值以及部分車(chē)站的季節(jié)性客流波動(dòng)較大等原因,導(dǎo)致得出的閾值范圍過(guò)大,不能有效地對(duì)實(shí)時(shí)獲取的進(jìn)站客流數(shù)據(jù)進(jìn)行異常檢測(cè)。文獻(xiàn)[1]通過(guò)人工設(shè)定各樣本序列均值所對(duì)應(yīng)的最大閾值,得到樣本序列的最大標(biāo)準(zhǔn)差,利用樣本標(biāo)準(zhǔn)差與樣本均值的比值判斷閾值設(shè)定是否過(guò)大;文獻(xiàn)[2]通過(guò)模型確定待檢測(cè)點(diǎn)的預(yù)測(cè)值和方差值,以確定數(shù)據(jù)異常檢測(cè)的閾值范圍,取得了較好的異常檢測(cè)效果。文獻(xiàn)[3]的研究表明,混沌支持向量機(jī)回歸模型對(duì)非線(xiàn)性時(shí)間序列回歸預(yù)測(cè)效果較好。在客流預(yù)測(cè)模型建立過(guò)程中,考慮進(jìn)站客流時(shí)間序列的混沌特性,以加強(qiáng)模型對(duì)非線(xiàn)性時(shí)間序列變化規(guī)律的表征能力?;诖?,本文采用混沌支持向量機(jī)回歸模型預(yù)測(cè)各時(shí)段的進(jìn)站客流量,結(jié)合假設(shè)檢驗(yàn)方法,利用同類(lèi)日期、同時(shí)段下訓(xùn)練集的擬合殘差構(gòu)造服從特定分布的隨機(jī)變量,依次計(jì)算各時(shí)段對(duì)應(yīng)的進(jìn)站客流預(yù)測(cè)殘差在相應(yīng)置信度下的置信區(qū)間,進(jìn)而得到實(shí)際進(jìn)站客流量的檢測(cè)閾值上、下限,以期獲得更有效的異常檢測(cè)范圍。
混沌是指在確定性系統(tǒng)中出現(xiàn)的一種貌似無(wú)規(guī)則的、類(lèi)似隨機(jī)的現(xiàn)象[4]。文獻(xiàn)[5]中的嵌入定理表明,通過(guò)對(duì)混沌時(shí)間序列進(jìn)行相空間重構(gòu),可以還原混沌系統(tǒng)的非線(xiàn)性動(dòng)力特性,從而把握混沌時(shí)間序列的性質(zhì)與規(guī)律。通過(guò)計(jì)算時(shí)間序列的Lyapunov指數(shù)[6],可以驗(yàn)證序列的混沌特性,而混沌時(shí)間序列在短期內(nèi)是可以預(yù)測(cè)的[7]。
首先對(duì)時(shí)間序列相空間重構(gòu),計(jì)算時(shí)間序列的時(shí)間延遲和最佳嵌入維數(shù),進(jìn)而得出Lyapunov指數(shù),為正則意味著該時(shí)間序列混沌。
由于C_C方法[8]具有易操作、計(jì)算量小、抗噪能力強(qiáng)等優(yōu)點(diǎn),故本文采用C_C方法計(jì)算序列的時(shí)間延遲和最佳嵌入維數(shù)。對(duì)于Lyapunov指數(shù)的計(jì)算,本文選用改進(jìn)的小數(shù)據(jù)量法[4,9]進(jìn)行計(jì)算,其計(jì)算步驟如下:
步驟1 采用C_C方法計(jì)算出時(shí)間序列(長(zhǎng)度為N)的時(shí)間延遲τ和嵌入維數(shù)m,相空間重構(gòu)為:
X={Xp}
(1)
其中:Xp={x(p+(m-1)τ),…,x(p+τ),x(p)},p∈{1,2,…,M},M=N-(m-1)τ。
(2)
步驟3 對(duì)相空間中的每個(gè)點(diǎn)Xp,計(jì)算出該鄰點(diǎn)對(duì)的第p個(gè)離散時(shí)間步后的距離為:
(3)
步驟4 對(duì)每個(gè)q,求出所有p的lndp(q)平均值y(q),即:
(4)
其中:q是非零dp(q)數(shù)目,用最小二乘法做出回歸直線(xiàn),該直線(xiàn)的斜率即為最大Lyapunov指數(shù)1。
應(yīng)用C_C方法求得混沌時(shí)間序列x={xp|p=1,2,…,N}的時(shí)間延遲τ和嵌入維數(shù)m,并對(duì)原時(shí)間序列數(shù)據(jù)進(jìn)行相空間重構(gòu);利用重構(gòu)后的矢量數(shù)據(jù)進(jìn)行單步預(yù)測(cè),樣本空間映射函數(shù)f:Rm→R,使得x(n+1)=f(X(n)),即用于模型訓(xùn)練與測(cè)試的樣本集可表示為:
D={(X(n),x(n+1))|n=
(m-1)τ+1,(m-1)τ+2,…,N-1}
(5)
為了提高模型的預(yù)測(cè)能力和計(jì)算速度,需在模型訓(xùn)練之前對(duì)樣本集數(shù)據(jù)的輸入部分的各列數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)正態(tài)分布轉(zhuǎn)換,并將轉(zhuǎn)換后的樣本集代入支持向量機(jī)回歸模型[10]中進(jìn)行模型訓(xùn)練,同時(shí)采用大范圍網(wǎng)格搜索尋優(yōu)確定支持向量機(jī)回歸模型中的懲罰系數(shù)C、不敏感系數(shù)ε以及指數(shù)徑向基核函數(shù)參數(shù)λ,以?xún)?yōu)化模型的預(yù)測(cè)效果。將待預(yù)測(cè)時(shí)段的輸入矢量數(shù)據(jù)進(jìn)行與訓(xùn)練樣本集同分布的正態(tài)分布轉(zhuǎn)換后,代入到訓(xùn)練好的模型中,即可得到待預(yù)測(cè)時(shí)段的進(jìn)站客流量預(yù)測(cè)值。
(6)
式中:
μ——該時(shí)段預(yù)測(cè)殘差總體平均值;
σ——該時(shí)段殘差總體標(biāo)準(zhǔn)差。
(7)
(8)
[y^(i)+e-(i)-Zα/2·s(i),
y^(i)+e-(i)+Zα/2·s(i)]
(9)
y^(i)+e-(i)-n+1n·tα/2(n-1)·s(i),
y^(i)+e-(i)+n+1n·tα/2(n-1)·s(i)
(10)
由于實(shí)時(shí)進(jìn)站客流量數(shù)值為整數(shù),故需要對(duì)置信區(qū)間的下界向上取整,上界向下取整,取整后的置信區(qū)間左端點(diǎn)即為閾值下限,右端點(diǎn)即為閾值上限。
由上文可得,基于混沌支持向量機(jī)回歸模型的實(shí)時(shí)進(jìn)站客流量異常檢測(cè)與處理的方法步驟大致如下:
步驟1 根據(jù)C_C方法確定混沌時(shí)間序列的時(shí)間延遲τ和嵌入維數(shù)m,對(duì)混沌時(shí)間序列進(jìn)行相空間重構(gòu),并對(duì)相空間中的每一維的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)正態(tài)分布轉(zhuǎn)換,生成訓(xùn)練和測(cè)試樣本集。
步驟2 將轉(zhuǎn)換后的樣本集代入到支持向量機(jī)回歸模型中進(jìn)行訓(xùn)練,并利用大范圍網(wǎng)格搜索對(duì)模型中的懲罰系數(shù)C、不敏感系數(shù)ε以及指數(shù)徑向基核函數(shù)參數(shù)λ進(jìn)行尋優(yōu),得到優(yōu)化后的預(yù)測(cè)模型。
本文方法的流程描述如圖1所示。
圖1 進(jìn)站客流量異常檢測(cè)與處理流程圖
本文數(shù)據(jù)源于南京地鐵軌道交通2號(hào)線(xiàn)大行宮站2013年7月30日至2014年1月20日5:30—23:30之間的進(jìn)站客流數(shù)據(jù),進(jìn)站客流數(shù)據(jù)的時(shí)間粒度取15 min(即第1天的5:30—5:45記為時(shí)段1,5:45—6:00記為時(shí)段2,…,23:15—23:30記為時(shí)段72,第2天的5:30—5:45記為時(shí)段73,以此類(lèi)推),該時(shí)間段內(nèi)的進(jìn)站客流數(shù)據(jù)的數(shù)學(xué)表示為x={x(i)|i=1,2,…,12 600}。選取長(zhǎng)度N=3 000的子時(shí)間序列x={x(i)|i=1,2,…,3 000},應(yīng)用C_C方法計(jì)算時(shí)間序列的時(shí)間延遲τ和最優(yōu)嵌入維數(shù)m,算得τ=3,m=15,利用小數(shù)據(jù)量法的改進(jìn)方法求得該序列的最大Lyapunov指數(shù)λ1=0.06>0,故該地鐵車(chē)站進(jìn)站客流量時(shí)間序列具有混沌特性。
對(duì)原混沌時(shí)間序列進(jìn)行相空間重構(gòu),并以2013年7月30日至2013年9月24日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2013年9月25日至2013年12月28日數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),2013年12月29日至2014年1月20日的數(shù)據(jù)作為測(cè)試數(shù)據(jù),對(duì)訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換后,運(yùn)用大范圍網(wǎng)格搜索法優(yōu)化支持向量機(jī)回歸模型中的參數(shù),即懲罰系數(shù)C、不敏感系數(shù)ε以及核函數(shù)參數(shù)λ,尋優(yōu)得到優(yōu)化后的模型參數(shù)C=360,ε=3,λ=0.03。
圖2為2013年8月5—18日大行宮站進(jìn)站客流數(shù)據(jù)分布圖。由圖可知,工作日的客流變化規(guī)律大致相同,非工作日的客流變化規(guī)律亦大致相同,但工作日與非工作日的客流分布情況差異較大。由計(jì)算可知,訓(xùn)練樣本集中工作日與非工作日各時(shí)段殘差序列的統(tǒng)計(jì)參量值差別較大,故各時(shí)段的模型訓(xùn)練殘差數(shù)據(jù)要區(qū)分工作日與非工作日,利用支持向量機(jī)回歸模型得到模型訓(xùn)練樣本中各時(shí)段進(jìn)站量殘差數(shù)據(jù),進(jìn)而獲取工作日與非工作日各時(shí)段模型預(yù)測(cè)殘差的統(tǒng)計(jì)參量值,即樣本均值、樣本方差和樣本數(shù)。為了測(cè)試本模型對(duì)兩類(lèi)日期進(jìn)站量異常檢測(cè)的效果,對(duì)2013年12月29日至2014年1月20日間的進(jìn)站客流量數(shù)據(jù)進(jìn)行了有效性檢驗(yàn),并給出2013年12月31日(工作日)閾值設(shè)定和異常檢測(cè)的具體計(jì)算過(guò)程(非工作日計(jì)算過(guò)程與此類(lèi)似)。
圖2 2013年8月5—18日大行宮站進(jìn)站客流量分布圖
圖3 2013年12月31日進(jìn)站客流量異常檢測(cè)閾值對(duì)比圖
應(yīng)用本文閾值計(jì)算的方法(記為方法1)與文獻(xiàn)[1]中的方法(記為方法2)得到2013年11月31日各時(shí)段的進(jìn)站客流量異常檢測(cè)閾值上、下限如圖3所示。方法2的閾值范圍主要是根據(jù)歷史同期進(jìn)站客流數(shù)據(jù)的樣本均值和樣本標(biāo)準(zhǔn)差計(jì)算確定的,并通過(guò)樣本標(biāo)準(zhǔn)差和樣本均值的比值對(duì)閾值范圍是否過(guò)大進(jìn)行判斷,進(jìn)而有效控制各時(shí)段閾值范圍的大??;而方法1的閾值范圍主要是由待檢測(cè)時(shí)段的模型預(yù)測(cè)值、歷史同類(lèi)日期同時(shí)段進(jìn)站客流數(shù)據(jù)模型預(yù)測(cè)殘差序列的樣本均值和樣本標(biāo)準(zhǔn)差共同確定。因此,從方法機(jī)理角度分析可得,方法1相比方法2具有更好的客流規(guī)律適應(yīng)能力和數(shù)據(jù)異常檢測(cè)效果。通過(guò)實(shí)例計(jì)算可知,利用方法1對(duì)2013年12月29日至2014年1月20日間的進(jìn)站客流量數(shù)據(jù)進(jìn)行異常檢測(cè),計(jì)算得到各時(shí)段閾值范圍大小的均值為223.4,數(shù)據(jù)異常檢測(cè)的誤報(bào)率為3.2%;而利用方法2計(jì)算得到的各時(shí)段閾值范圍的大小均值為256.3,數(shù)據(jù)異常檢測(cè)的誤報(bào)率為5.8%。因此,方法1相較于方法2算得的各時(shí)段閾值范圍收縮了12.8%,數(shù)據(jù)異常檢測(cè)的誤報(bào)率下降了44.8%,即本文方法有效收縮了實(shí)時(shí)進(jìn)站客流量數(shù)據(jù)的有效性檢測(cè)范圍,降低了數(shù)據(jù)有效性檢測(cè)的誤報(bào)率,進(jìn)一步加強(qiáng)了對(duì)數(shù)據(jù)有效性檢測(cè)的能力。
本文采用支持向量機(jī)回歸模型進(jìn)行實(shí)時(shí)進(jìn)站客流量預(yù)測(cè),根據(jù)訓(xùn)練集工作日和非工作日各時(shí)段擬合殘差序列統(tǒng)計(jì)分布特性,確定實(shí)時(shí)進(jìn)站客流量異常檢測(cè)閾值。由實(shí)例可見(jiàn),該方法有效收縮了進(jìn)站客流量的異常檢測(cè)范圍,降低了數(shù)據(jù)異常檢測(cè)的誤報(bào)率,強(qiáng)化了對(duì)異??土鲾?shù)據(jù)的檢測(cè)能力,保證了實(shí)時(shí)獲取客流數(shù)據(jù)的準(zhǔn)確性和及時(shí)性,為乘客信息服務(wù)系統(tǒng)、實(shí)時(shí)客流預(yù)測(cè)以及大客流預(yù)警等應(yīng)用提供了可靠的數(shù)據(jù)支持,從而增強(qiáng)了軌道交通的服務(wù)能力。