王 晨,石俊剛,2,席蘇路,包佳瑤
(1.華東交通大學(xué)交通運輸工程學(xué)院,南昌 330013;2.同濟大學(xué)交通運輸工程學(xué)院,上海 201804;3.南昌軌道交通集團有限公司運營分公司,南昌 330038)
城市軌道交通是公共交通的重要組成部分,為保障車站客運組織工作的順利開展和安全運營,有必要對車站客流特征進行科學(xué)分析。城市軌道交通自動售檢票系統(tǒng)(auto fare collection,AFC)記錄著軌道交通乘客每日出行的進出車站時刻等大量數(shù)據(jù)。車站的客運組織基于海量乘客刷卡數(shù)據(jù),對車站客流進行統(tǒng)計分析及特征研究。地鐵車站作為客流聚集的重要節(jié)點,不同車站其客流特征不同。明晰車站客流特征,并對其進行科學(xué)歸類,能夠為車站制定常態(tài)化客運組織方案及應(yīng)對突發(fā)大客流情況下的應(yīng)急組織預(yù)案提供重要參考。
目前,國內(nèi)外關(guān)于AFC 數(shù)據(jù)的研究主要包括客流特征分析和車站分類兩方面。客流特征分析方面,姚振康等[1]從時間、空間和結(jié)構(gòu)3 重維度對車站客流分類特征進行分析,通過譜聚類方法壓縮搜索空間讓劃分類型更精準。Zhang 等[2]將客流量構(gòu)建為時間序列曲線,以站點客流量的波動為特征進行分類。Ratrout等[3]通過構(gòu)建路口各方向流量時段的特征向量,將交通時段進行聚類劃分。陳維亞等[4]在分析客流特征的基礎(chǔ)上,提出了基于K-means 聚類算法的短時客流組合預(yù)測模型。陳東洋等[5]基于地鐵線路不同客流變化構(gòu)建各時段的特征向量,通過K-means 算法進行聚類,劃分地鐵合理的運營時間。車站分類方面,楊靜等[6]結(jié)合車站的職住效用及車站周邊用地特征,考慮精細化用地性質(zhì)和客流特征的車站功能分類方法,并通過無監(jiān)督學(xué)習(xí)K-Means++算法求解。Li 等[7]依據(jù)客流量波動中高低峰數(shù)量及偏度等相關(guān)特征數(shù)據(jù),將車站聚集分成6 大類。蔣陽升等[8]將AFC 的進站客流處理為時間序列數(shù)據(jù),并基于該數(shù)據(jù)通過K-Means++算法進行聚類,分析不同類別站點的客流變化與用地特征的關(guān)系,精細化描述具體站點的類型。傅搏峰等[9]考慮地鐵站點周邊建筑的土地利用特征情況,采用定性與定量相結(jié)合的方式提出面對郊區(qū)軌道交通站點的分類方案。黎慶等[10]考慮用地、客流等因素,結(jié)合分類指標及聚類算法,建立基于多重因素的聚類換乘車站分類方法以應(yīng)對車站分類不精準問題。
綜上,目前的車站聚類分析大都基于進出站客流總量進行特征提取,缺乏對于進出站客流的時變特性的考慮,無法把握車站的高峰分布規(guī)律。本文則從客流總量和客流時變趨勢雙維度,對車站客流進行特征提取,并考慮到周末客流特征對各車站的屬性影響,將其作為特征指標共同組成聚類因子。將數(shù)據(jù)結(jié)構(gòu)化后提取這兩個維度的聚類指標,提出利用雙層聚類方法對車站進行歸類分析。其中上層聚類主要對車站總客流量特征進行提取并分類,下層聚類則進一步對車站客流的時變特征進行提取并做分類,聚類后的車站在客流規(guī)模和時序分布上具有相同特性,能夠為實際車站客運組織的分類管理提供參考。
聚類的核心思想是對數(shù)據(jù)集的特征進行提取再劃分,因此對數(shù)據(jù)集的質(zhì)量和準確性要求較高。為滿足聚類需求,對AFC 數(shù)據(jù)做規(guī)范化處理:首先選取在軌道交通運營時段內(nèi)的數(shù)據(jù),刪除無關(guān)、冗余數(shù)據(jù)后按照線路站點進行統(tǒng)計歸類。為保證聚類效果,對各車站進出站客流數(shù)據(jù)使用min-max 歸一化處理,減少因為客流量差異巨大而造成斷層,同時也可將波動客流的影響降到最小,即
車站的客流特征可以從多個維度提取,本文從客流總量和客流時變趨勢2 個層面進行特征提取。選取進出站客流總量能區(qū)分不同車站的客運規(guī)模,而工作日和周末所承擔的客流量存在明顯差異。因此,選取車站分別在工作日、周末的進站客流總量和出站客流總量作為第一類客流特征提取的指標。表1 選取了南昌軌道交通部分車站在歸一化后的客流特征指標,包括工作日總進站客流(WY_IN)和總出站客流(WY_OUT)、周末總進站客流(WD_IN)和總出站客流(WD_OUT)4 個指標,共同刻畫車站客流的總體規(guī)模特征。
表1 部分車站客流規(guī)模特征指標Table 1 Passenger flow size characteristics indicators for selected stations
其次,再對各車站每日進出站客流以小時為間隔,進行客流時序分布特征的提取,即各車站均提取出如表1 中的各小時進出站客流特征指標。
根據(jù)對南昌市軌道交通客流的時空特征進行分析可知,在無重大節(jié)假日及大型活動影響時,客流量呈以周為單位的規(guī)律性分布特性,其中工作日客流規(guī)律相似,周末客流規(guī)律相似,而工作日和周末之間客流差異明顯。不同車站之間的客流特性差異明顯,但部分車站之間也存在一定的相似性規(guī)律,主要表現(xiàn)在客流規(guī)模和高峰分布特征上??紤]這兩方面特性,對車站進行合理歸類,有利于把握車站的進出站客流規(guī)模和分布特性,可以預(yù)先制定好相應(yīng)的客運組織方案,從而保障車站運營安全。
K-means聚類算法是處理時間序列問題中常用的方法,常規(guī)車站聚類考慮選取工作日全天客流量或各小時客流量百分比進行特征提取。單一使用以上任意指標進行聚類不能準確定位車站的規(guī)模和效用。為準確刻畫客流總量和時變趨勢兩個特征,本文提出雙層K-means 方法,上層根據(jù)總客流量的聚類因子向量F=[WY_IN,WY_OUT,WD_IN,WD_OUT]對車站進行聚類,得到具有相同客運規(guī)模特征的大類車站;再對各大類車站分別基于時序性數(shù)據(jù)的平均小時客流量(含工作日和周末)指標進行聚類得到下層聚類結(jié)果,同一下層類別車站客運規(guī)模和客流時變特性具有相似的特征。
此外,對時間序列聚類的效果評估選取了肘部法,成本函數(shù)選取不同聚類數(shù)量的簇內(nèi)誤差平方和。隨著聚類數(shù)量的增加,誤差平方和不斷減小,數(shù)據(jù)集與簇內(nèi)中心點的距離越近,每個類別包含的數(shù)量也會越少,導(dǎo)致分類效果變差。肘部法在聚類數(shù)量增多的過程中,尋找到一個平衡點,即找到簇內(nèi)誤差平方和下降速率平緩的位置作為肘部,并選取為聚類數(shù)量。
模型中采用的是歐式距離,地鐵車站聚類模型構(gòu)建過程如下。
步驟1:將車站進出站總客流特征指標矩陣F放置于歐式空間Rn中,作為客流規(guī)模特征進行站點判別,由此得到上層聚類車站。表達式為
式中,fsi為第s個車站(s=1,2,…,94)的第i個特征對應(yīng)的值;在特征指標矩陣F中挑選一個車站作為聚類中心ck,初始化k=1,并置于聚類中心集C,其中,k是當前聚類中心數(shù)量。
通過式(2)得到的特征指標矩陣進行K-means 聚類,并進行初始化聚類中心。損失函數(shù)在不斷迭代的過程中收斂在局部最小值,并通過損失函數(shù)的下降量找到合適的聚類數(shù)量。損失函數(shù)Loss 及其下降量ΔLos 分別為
式中,F(xiàn)si為車站樣本集;nk為每個類別中的車站數(shù)目。
步驟2:步驟1 完成后會得到k個上層大類,將每個上層類別車站轉(zhuǎn)化為車站劃定時段的平均進出站客流,轉(zhuǎn)化式為
式中,Inst、Outst分別為第s個車站的第t個時段的平均進站及出站客流量(含工作日及周末)。
每個時段的值就是時序性數(shù)據(jù)的一個特征,將所有特征按照式(2)組成一個新的特征集進行二次聚類。
判斷剩余車站在聚類中心中的距離D(f)為
式中,K為期望類別數(shù)量,當存在不止一個聚類中心時,選擇所有聚類中心中距離的最小值。根據(jù)車站與聚類中心的距離,計算其他車站被選為下一個聚類中心的概率ps,即
式中,C是聚類中心集的補集。
在當前聚類中心集中選擇ps最大的車站,將其作為新聚類中心置于聚類中心集ck∈C,進行不斷迭代至最終收斂。
為避免節(jié)假日、極端天氣的影響,本文選取南昌市軌道交通2022 年6 月6—26 日連續(xù)3 周的進出站客流量對4 條運營線路共94 個車站進行雙層K-means聚類。首先在上層設(shè)定進出站客流總量(分工作日和周末)為基礎(chǔ)特征,初步聚類得到具有相似客流規(guī)模的車站。聚類前需先根據(jù)肘部法得到聚類數(shù)量,客流量聚類誤差如圖1 所示。由圖1 可知,當聚類數(shù)量大于3時,損失值的下降量逐步減少并趨于平穩(wěn)。根據(jù)肘部法的判別規(guī)則,選取3 為曲線的拐點較合適,故設(shè)定上層聚類數(shù)目為3。在上層聚類后得到了3 大類總客流量相似的車站大類,其中在3 大類中分布最少的一類僅有2 個車站,即衛(wèi)東站和八一館站,基于客流總量特征生成的上層類站點如表2 所示,以權(quán)重最大的兩個主成分為橫、縱坐標進行上層聚類可視化,結(jié)果如圖2 所示。
圖1 客流總量聚類誤差Figure 1 Elbow chart of total passenger flow
圖2 上層聚類可視化Figure 2 Visualization of upper-layer clustering
表2 上層聚類結(jié)果Table 2 Upper-layer clustering results
根據(jù)上層聚類結(jié)果可知,通過總量特征將客流量極端大小的特殊站點初步篩選出來。第1 類車站位于南昌市CBD,是區(qū)域位置和用地性質(zhì)綜合性極高的站點,客流規(guī)模遠大于其他車站。與之對比的是第3 類車站,該類車站坐落或臨近郊區(qū),周圍用地并未得到充分開發(fā),因此此類站點客流量極少。
第2 類車站是數(shù)量最大的類別,這類車站所處區(qū)域有顯著的用地性質(zhì),以辦公或居住為主,因用地性質(zhì)不同,吸引乘客的類別也不同,體現(xiàn)在客流時變特征上也會存在差異。因此對第2 類客流總量相似的車站,總量特征只能在初步篩選中起作用??土髁康膶嶋H意義需考慮兩個方面,一是各車站時變的客流量波形特征,二是工作日與周末不同客流特征的綜合提取。
由于第1 類車站和第3 類車站數(shù)目過少無需再進行下層聚類,僅對客流總量特征無法直接區(qū)分類別的第2 類車站進行下層聚類,按照時變特征進行聚類得到聚類誤差如圖3 所示。第2 類車站的損失值在聚類數(shù)目為6處下降量趨于平穩(wěn),因此基于時變特征的下層聚類得到的大類為6 種,下層聚類結(jié)果如表3 所示。
圖3 第2 類時序特征聚類誤差Figure 3 Elbow diagram of Class 2 temporal characteristics
表3 下層聚類結(jié)果Table 3 Lower-layer clustering results
從客流規(guī)模上看,上層聚類得到的第1 類車站客流指標為0.7~1,高峰時段平均進出站量達到了640 人次/15min;上層聚類得到的第3 類客流指標為0~0.02,高峰時段平均進出站量僅為6 人次/15min。如圖4 所示,正數(shù)為進站客流,負數(shù)為出站客流。從客流特征看,第1 類車站客流全天規(guī)模都較大,沒有明顯的高峰特性,表現(xiàn)為客流從7 時開始聚集,一直持續(xù)到晚上22:30 后才逐漸消散。根據(jù)對南昌市用地的實際調(diào)查可知,該類車站位于南昌市中心,用地功能兼具商業(yè)、教育、住宅、文娛,是重要的交通樞紐,為“中心區(qū)域型車站”。第3 類車站客流規(guī)模很小,沒有顯著的時變性規(guī)律,根據(jù)實際用地調(diào)查,該類車站主要位于郊區(qū),投入使用的住宅辦公等設(shè)施較少,為“近郊待開發(fā)車站”。
圖4 上層類別1 和3 進出站客流分析Figure 4 Upper-layer category 1 and 3 inbound and outbound flow analysis
第2 類車站客流規(guī)模相對適中,包含的車站數(shù)較多。根據(jù)工作日、周末的車站進出站客流的時變特征,對第2 類車站進行下層聚類,得到6 個子類車站,如表4 所示。
表4 下層大類站客流特性Table 4 Passenger flow characteristics at lower-layer broad-category stations
A、B、C 類車站的主要客流屬性都是通勤客流,具有明顯的潮汐現(xiàn)象,工作日存在明顯的高峰出行特征,而周末客流則無明顯高峰特性。但這3 類車站的客流峰值特征存在一定差異,如圖5 所示,A 類車站進出站客流均表現(xiàn)為雙峰特性,即均存在早、晚高峰;B 類車站進出站均呈現(xiàn)單峰特性,其中進站僅存在晚高峰,出站僅存在早高峰;C 類車站進出站同樣均呈現(xiàn)單峰特性,但特征與B 類相反,即進站僅存在早高峰,出站僅存在晚高峰。圖6 展示了進出站量各時段占比分布情況,由圖6 可知,A 類進出站早晚高峰時段進出站百分比都較為均衡;B 類車站進站左低右高,出站右高左低;C 類車站剛好相反。根據(jù)實際用地調(diào)查,3 種類型車站的周邊用地無大型商圈和景點,用地性質(zhì)較為單一,以功能性效用為主。不同處在于職住結(jié)合型車站周邊住宅區(qū)和辦公區(qū)數(shù)量較為均衡;就業(yè)主導(dǎo)型車站以寫字樓、辦公用地為主,配有少許住宅區(qū);居住主導(dǎo)型車站周邊住宅區(qū)密集,有少許辦公用地。
圖5 下層類別A、B、C 類車站客流特征對比Figure 5 Comparison of ABC passenger flow characteristics for the lower-layer category
圖6 下層類別A、B、C 分時進出站客流與全天的比值Figure 6 Ratio of lower-layer category ABC time-sharing inbound and outbound passenger flows to the whole day
D、E 類車站的主要客流屬性為通勤休閑客流,工作日早晚高峰均呈現(xiàn)雙峰特性,但平峰客流相對于A、B、C 類車站更多,而周末客流量波動性較明顯(見圖7~8)。工作日期間,D 類車站進站客流早高峰占主導(dǎo)地位,而出站客流晚高峰占主導(dǎo)地位;E 類車站進站客流晚高峰占主導(dǎo)地位,而出站客流早高峰占主導(dǎo)地位。周末期間,D 類車站白天進站客流量大,而夜間出站量較大;E 類車站白天出站量大,而夜間進站量較大。根據(jù)實際用地調(diào)查,D 類車站周邊主要是學(xué)校和居民住宅區(qū),主要客流為工作日通勤客流,周末會產(chǎn)生一定的休閑娛樂出行;E 類車站周邊以商業(yè)為核心,配置了開發(fā)完善的辦公區(qū),同時也有較為密集的住宅區(qū),因此,工作日同樣會產(chǎn)生通勤類客流,而周末會吸引大量休閑娛樂客流。
圖7 下層類別D、E 類車站客流特征對比Figure 7 Comparison of DE passenger flow characteristics for the lower-layer category
圖8 下層類別D、E 分時進出站客流與全天的比值Figure 8 Lower-layer category DE inbound and outbound flow analysis
F 類車站主要客流屬性為休閑、就醫(yī)、外出客流,工作日和周末的客流都處于較高水平,周末客流大于工作日客流,其客流呈現(xiàn)多峰波狀,客流特征如圖9(a)所示。選取F 類的代表車站生成的進出站占比如圖9(b)所示,由圖9(b)可知,進出站客流百分比較為均勻。根據(jù)實際用地調(diào)查,醫(yī)旅文娛型車站周邊以公園、醫(yī)院、車站為主,少有住宅辦公用地。
圖9 下層類別F 客流特征及分時進出站客流與全天的比值Figure 9 Lower-layer category F passenger flow characteristics and the ratio of time-sharing inbound and outbound passenger flows to the whole day
綜上所述,所有車站的類型可以歸納為8 種,如表5 所示。
表5 車站類別編號及類別名稱Table 5 Station category numbers and category names
本文采用雙層K-means 算法。在上層分類中,分類指標是車站在工作日、周末的進出站總量,聚類結(jié)果分為3 大類。其中第1 類車站客流規(guī)模最大,且遠大于其他車站。此類車站僅包含2 個,分別為衛(wèi)東站和八一館站,均處于城市CBD 核心區(qū),綜合性較強,包括通勤、休閑、娛樂、旅游等性質(zhì)。由于全天客流都處于較高水平,是南昌市軌道交通最容易擁堵的車站,是實際客運組織需要重點關(guān)注的車站。第3 類車站客流量很小,僅包含5 個,均坐落于偏遠郊區(qū),周邊用地尚待進一步開發(fā)。此類車站由于客流規(guī)模很小,通常情況下不易發(fā)生擁堵,客運組織安全性較好,待后續(xù)商業(yè)、辦公或住宅項目開發(fā)后需投入適當關(guān)注。第2 類車站客流相對適中,包含的車站數(shù)量較多,分布較廣,需要進一步細分。從分類結(jié)果來看,上層分類很好地給出了不同客運規(guī)模的車站類型,與實際匹配度較好,有助于運營管理人員把握車站的總體客運規(guī)模,對于其制定不同等級的客運組織方案和應(yīng)急預(yù)案具有借鑒意義。
針對第2 類車站,進一步根據(jù)車站工作日、周末的進出站客流的時變特性進行下層聚類分析,聚類出6 個子類車站。根據(jù)分析發(fā)現(xiàn),這6 類車站在工作日、周末其時變特性存在明顯差異,而各子類的客流分布相似度較好??梢?,該分類對于客流在不同日期類型捕捉的時變特征較好,有助于運營管理人員根據(jù)類型把握客流高峰,制定合理的客運組織方案和應(yīng)急預(yù)案。
本文以南昌市軌道交通的AFC 數(shù)據(jù)為基礎(chǔ),通過雙層K-means 聚類算法對南昌軌道交通94 個車站進行分類,其中上層根據(jù)客運規(guī)模進行聚類,下層則根據(jù)不同日期的客流時變特性進行聚類。研究結(jié)論如下:
1) 上層聚類得到3 大類不同客運規(guī)模車站,其中第1 類為南昌地鐵大客流車站,均處于城市CBD 核心區(qū)域,全天客流規(guī)模較大,高峰極易形成擁堵,是日??瓦\組織需要重點關(guān)注的車站。第3 類車站為小客流車站,均位于偏遠郊區(qū),周邊用地開發(fā)水平低,不易引發(fā)客流擁堵。
2) 第2 類車站客流規(guī)模適中,包含車站多,根據(jù)工作日、周末的進出站客流時變特征進一步進行下層聚類,得到6 個子類車站。各子類車站在工作日、周末的進出站客流高峰分布特征差異明顯,對于實際制定分類的客運組織方案和應(yīng)急預(yù)案提供了較好的依據(jù)。
3) 通過雙層K-means 聚類算法,把握客運規(guī)模和客流時變特征,并結(jié)合實際用地調(diào)查將站點分為中心區(qū)域型車站、近郊待開發(fā)車站、職住結(jié)合型車站、就業(yè)主導(dǎo)型車站、居住主導(dǎo)型車站、教育居住型車站、商業(yè)辦公型車站、醫(yī)旅文娛型車站等8 大類,各類車站分類特征明顯,能夠為實際客運組織提供借鑒,為其他城市的車站聚類提供參考。