姚振康,高國(guó)飛,鄭 漢,黃兆察
(1. 蘇州軌道交通集團(tuán)有限公司,江蘇蘇州 215004;2. 北京城建設(shè)計(jì)發(fā)展集團(tuán)股份有限公司,北京 100037;3. 北京交通大學(xué),北京 100044)
經(jīng)過多年的發(fā)展,城市軌道交通已成為大型及特大城市的有機(jī)組成部分,起到溝通城市區(qū)域的骨干作用。由于城市功能分區(qū)的差異性,城市軌道交通系統(tǒng)所服務(wù)的車站間客流對(duì)象自然地存在差異。例如,聯(lián)通商業(yè)區(qū)與居住區(qū)間的客流呈現(xiàn)出潮汐性規(guī)律,旅游區(qū)與樞紐區(qū)之間的客流與周末節(jié)假日高度相關(guān)。為實(shí)現(xiàn)軌道交通系統(tǒng)中客流的精準(zhǔn)管理與預(yù)測(cè),了解不同車站間客流在時(shí)間上的分布類型及特性尤為關(guān)鍵,精準(zhǔn)的車站間客流類型劃分可以細(xì)化預(yù)測(cè)等技術(shù),支撐精細(xì)客流組織方案。然而,相對(duì)于單車站客流分類,車站間客流類型受到更多因素的影響,例如,李向楠[1]對(duì)客流站點(diǎn)高峰小時(shí)乘降量、車站規(guī)模等11個(gè)特征因素進(jìn)行聚類分析,最終將成都地鐵1 號(hào)線現(xiàn)運(yùn)營(yíng)16個(gè)站點(diǎn)劃分為5大類;Chen等[2]選取36個(gè)特征因子作為聚類分析的初始變量,進(jìn)行聚類分析;高勃等[3]利用k-means對(duì)站點(diǎn)重要度進(jìn)行聚類分析。以上研究都僅限于站點(diǎn)的聚類分析。同時(shí),已有較多的聚類方法應(yīng)用于軌道交通領(lǐng)域的研究,包括 k-means[1]、改進(jìn)k-means[4]、基于密度聚類[5]、模糊聚類[6]以及譜聚類[7]等。
考慮到譜聚類在高維特征聚類方面具有優(yōu)勢(shì),因此本文選取譜聚類方法對(duì)車站間客流(車站OD客流)進(jìn)行聚類分析,并以蘇州地鐵2020年數(shù)據(jù)為例,尋找出7種車站間客流時(shí)間分布類型,該結(jié)果可應(yīng)用于預(yù)測(cè)模型訓(xùn)練等領(lǐng)域。
軌道交通客流OD的分類取決于乘客出行的時(shí)間特征、空間特征和客流結(jié)構(gòu),可拓展為乘客平均旅行時(shí)間、不同時(shí)段出行量、發(fā)生吸引站的用地特征、車站特點(diǎn)、客票種類等具體指標(biāo)。
客流OD的時(shí)間特征包括乘客乘坐軌道交通的平均旅行時(shí)間(T),不同時(shí)段下的出行量()等。其中乘客的平均旅行時(shí)間通過一段時(shí)間內(nèi)AFC數(shù)據(jù)中各個(gè)OD乘客進(jìn)出站的時(shí)間來確定,由于不同OD的乘客等待時(shí)間、在車時(shí)間、換乘時(shí)間等都不相同,不同OD的平均旅行時(shí)間也會(huì)有所差異。同時(shí),不同OD在不同時(shí)段下的出行比例也不相同,根據(jù)乘客出行時(shí)段特點(diǎn),對(duì)一天內(nèi)早高峰(FMP)、晚高峰(FEP) 2個(gè)時(shí)段的客流;一周內(nèi),工作日(FWD)和休息日(FWE)的客流進(jìn)行統(tǒng)計(jì)和分析。
客流OD在空間上的特征為:客流發(fā)生、吸引車站的用地特征(LFo、LFd)、與市中心的距離(Do、Dd),以及OD直線距離(L)。
軌道交通站點(diǎn)與市中心距離則為軌道交通站點(diǎn)至城市中心點(diǎn)的直線距離,用于描述軌道交通車站與城市中心的相對(duì)位置;OD平均距離指該OD對(duì)中乘客乘坐軌道交通出行的平均距離;用地特征根據(jù)用地分類標(biāo)準(zhǔn)[8]并結(jié)合軌道交通車站特點(diǎn),對(duì)站點(diǎn)用地特征分類時(shí),計(jì)算車站中心點(diǎn)半徑500 m范圍內(nèi)各類用地類型面積,設(shè)置用地面積占比截?cái)嚅撝祊m,確定每個(gè)車站的用地特征主導(dǎo)因素,根據(jù)面積占比大小確定軌道交通站點(diǎn)的用地主導(dǎo)類型:①對(duì)于只有一種類型用地占比超過截?cái)嚅撝祊m,則將其作為該區(qū)域的主導(dǎo)用地類型,如辦公主導(dǎo)型(LF0)、居住主導(dǎo)型(LF1)、商業(yè)主導(dǎo)型(LF2)、樞紐主導(dǎo)型(LF3)、旅游主導(dǎo)型(LF4);②對(duì)于存在多種類型用地占比超過閾值pm時(shí),則判定為混合型,主要的混合型包括辦公居住混合型(LF5)、辦公商業(yè)混合型(LF6)和居住商業(yè)混合型(LF7);③對(duì)于涉及類型較多,且各類型用地占比均未超過閾值pm時(shí),歸為綜合型(LF8)。
客流結(jié)構(gòu)特征主要通過客票種類(T)進(jìn)行區(qū)分,在蘇州軌道交通系統(tǒng)中,客票種類主要可以歸納為以下5種:一卡通(T1)、單程票(T2)、公交卡(T3)、次票(T4)、App(T5)等。
軌道交通乘客出行的OD類型受到時(shí)間特征、空間特征和客流特征3大類的影響,其影響指標(biāo)多(共計(jì)16個(gè)),特征復(fù)雜,因此描述OD類型的特征向量的維度也較高。如此高維的復(fù)雜數(shù)據(jù)在使用傳統(tǒng)的聚類方法(如k-means)進(jìn)行直接聚類時(shí),往往達(dá)不到預(yù)期的效果。為了實(shí)現(xiàn)高維數(shù)據(jù)的聚類分析,本研究利用譜聚類算法,對(duì)OD特征數(shù)據(jù)進(jìn)行聚類分析。
譜聚類是在譜圖理論的基礎(chǔ)上,將聚類問題轉(zhuǎn)化為圖的劃分問題,從而提高聚類算法的效率,適用于高維數(shù)據(jù)的聚類分析。對(duì)于譜聚類算法而言,OD特征數(shù)據(jù)集中的每一條OD特征數(shù)據(jù)都是圖G(V,E)中的一個(gè)點(diǎn),其中,V是數(shù)據(jù)點(diǎn)的集合,E為所有邊的集合。為了建立鄰接矩陣W和相似矩陣S,本文采用基于高斯徑向核函數(shù) RBF的全連接法對(duì)任意兩點(diǎn)vi和vj(vi,vj∈V)間的權(quán)重wij進(jìn)行計(jì)算,此時(shí)權(quán)重wij和距離sij相等。根據(jù) Ncut的圖切割方法,利用標(biāo)準(zhǔn)化的Laplacian矩陣、矩陣的度和主成分分析(PCA)思想來優(yōu)化圖的切割效果,計(jì)算特征矩陣,最后對(duì)特征矩陣進(jìn)行k-means聚類。
譜聚類的計(jì)算流程包括:①以O(shè)D特征數(shù)據(jù)樣本集為輸入,構(gòu)建樣本相似矩陣;②以Ncut為圖劃分準(zhǔn)則,計(jì)算Laplacian矩陣及其特征向量,形成標(biāo)準(zhǔn)化后的特征矩陣;③利用k-means算法對(duì)降維后的特征矩陣進(jìn)行聚類分析,最終輸出OD類型劃分。譜聚類算法具體步驟如下所示。
一般而言,緊湊性和發(fā)散性是評(píng)價(jià)聚類結(jié)果質(zhì)量的兩個(gè)重要方面[9],為了評(píng)價(jià)譜聚類算法得到的聚類結(jié)果,本文引入輪廓系數(shù)[10](Silhouette coefficient)和戴維森堡丁指數(shù)[11](Davies-bouldin index),對(duì)聚類結(jié)果進(jìn)行評(píng)價(jià),這兩者均兼顧了聚類結(jié)果的緊湊性和發(fā)散性,具體計(jì)算方法如式(1)和式(2)所示。
其中,i為簇中任意一點(diǎn);N為總樣本數(shù);a(i)為i到同一簇內(nèi)其他點(diǎn)不相似程度的平均值;b(i)為i到其他簇的平均不相似程度的最小值。
本研究以2020年12月AFC數(shù)據(jù)作為研究對(duì)象進(jìn)行分析。截至2020年12月,蘇州軌道交通運(yùn)營(yíng)車站共計(jì)135個(gè),因此乘坐城市軌道交通出行的OD最多存在 135×134=18 090(對(duì)),而通過對(duì)異常值、缺失值的篩選,除去同站進(jìn)出、員工卡、超出運(yùn)營(yíng)時(shí)間的OD數(shù)據(jù),最終統(tǒng)計(jì)得到有效OD共計(jì)15 212對(duì)。日均客流74.71萬人次,平均旅行時(shí)間0.65 h,其中早高峰時(shí)段客流平均16.59萬人次,晚高峰時(shí)段平均17.58萬人次。與其他城市不同,蘇州軌道交通周末客流量依舊較大,工作日與周末日均客流比例為1.06∶1。從客票種類來說單程票占比最多,占所有客票種類的 43.5%,其次市民卡占比 22.9%。在劃分車站主導(dǎo)用地類型時(shí),確定用地截?cái)嚅撝禐?.4。
選取該月較有特點(diǎn)的兩組OD(A組:蘇州火車站—察院場(chǎng);B組:獨(dú)墅湖南—月亮灣),對(duì)其時(shí)間特征、空間特征及客流特征進(jìn)行展開分析(見表1、表2和表3)。如表1所示,在時(shí)間特征上,A組是全月客流最大的OD對(duì),晚高峰小時(shí)客流量遠(yuǎn)大于早高峰小時(shí)客流量,且周末日均客流約為工作日日均客流的兩倍,相比之下,B組客流總量略低于A組,但其早晚高峰客流潮汐性明顯,且工作日日均客流也遠(yuǎn)大于周末日均客流;在空間特征上,蘇州火車站是蘇州重要客運(yùn)樞紐,輻射范圍廣,承接蘇州周邊及其他城市的客流,而察院場(chǎng)位處蘇州重要的商業(yè)中心,周邊商業(yè)發(fā)達(dá),兩者距市中心較近,獨(dú)墅湖南和月亮灣周圍用地則分別是居住主導(dǎo)型用地和辦公主導(dǎo)型用地,兩地相距市中心較遠(yuǎn);在客流特征上,A組的單程票客流占到77%,其余票種較少,而B組雖然單程票的比重依然最大,但市民卡和一卡通的比例大幅增加,其比例為46%(如圖1所示)。
圖1 兩組客流OD客流結(jié)構(gòu)分布Figure 1 The illustration of passenger flow structures of the two groupd of origin-destination data
表1 兩組客流OD時(shí)間特征數(shù)據(jù)Table 1 Temporal dimensions in the two groups of origin-destination passenger flow data
表2 兩組客流OD空間特征數(shù)據(jù)Table 2 Spatial dimensions in the two groups of origin-destination passenger flow data
表3 兩組客流OD結(jié)構(gòu)特征數(shù)據(jù)Table 3 Structural dimensions in the two groups of origin-destination passenger flow data
通過OD時(shí)間特征、空間特征和客流結(jié)構(gòu)特征可以推測(cè)蘇州火車站—察院場(chǎng)以旅游客流為主,而相比之下,獨(dú)墅湖南—月亮灣客流則以通勤客流為主。為了更好地對(duì)所有OD的特點(diǎn)進(jìn)行定量分析,總結(jié)乘客出行規(guī)律和特征,運(yùn)用譜聚類算法對(duì)此高維特征數(shù)據(jù)進(jìn)行聚類分析,并對(duì)比其他聚類方法對(duì)比聚類效果。
根據(jù)2.1譜聚類算法實(shí)現(xiàn)流程,編寫python程序,對(duì)OD數(shù)據(jù)進(jìn)行聚類分析,其中權(quán)重計(jì)算采用高斯核函數(shù),圖切割方法采用Ncut方法。為了選取合理的核函數(shù)參數(shù)γ,研究計(jì)算了不同γ下的SC聚類評(píng)價(jià)指標(biāo)(見表4),并繪制折線圖(見圖2)。
圖2 不同高斯核參數(shù)下輪廓系數(shù)計(jì)算結(jié)果Figure 2 The illustration calculation results of contour coefficients with different Gaussian kernel parameters
表4 不同高斯核參數(shù)下輪廓系數(shù)計(jì)算統(tǒng)計(jì)Table 4 Statistical table of contour coefficient calculation with different Gaussian kernel parameters
從圖中結(jié)果可以看出,當(dāng)γ=3時(shí),在聚類簇?cái)?shù)nc∈[4,9]聚類效果較好,且超過其他參數(shù)值聚類效果,因此選取γ=3作為核函數(shù)參數(shù)。由于當(dāng)nc∈[4,9]時(shí),SC指標(biāo)計(jì)算結(jié)果較為接近,為了更好地確定合理聚類簇?cái)?shù),深入計(jì)算了DBI指標(biāo),計(jì)算結(jié)果如圖3所示。
根據(jù)圖3的聚類結(jié)果,當(dāng)nc=7時(shí)DBI指數(shù)出現(xiàn)極小值點(diǎn)(DBI越小聚類結(jié)果越好),因此綜合兩個(gè)聚類指標(biāo)的計(jì)算結(jié)果,確定nc=7為最終的聚類簇?cái)?shù)。在此條件下,分別計(jì)算k-means、Mini Batch k-means以及層次聚類(Hierarchical clustering)的聚類結(jié)果,并對(duì)其指標(biāo)進(jìn)行計(jì)算(見表5)。
圖3 γ=3時(shí)聚類結(jié)果指標(biāo)對(duì)比Figure 3 Comparison of clustering result indicators when γ=3
從表5中可以看出,譜聚類算法相較其他算法的指標(biāo)計(jì)算結(jié)果較優(yōu),聚類效果較好。
表5 譜聚類與其他算法聚類結(jié)果對(duì)比Table 5 Comparison of spectral clustering and other algorithms clustering results
聚類結(jié)果壓縮成二維后如圖4所示,部分簇的聚類效果較好,但簇間也存在散點(diǎn)相互交叉的現(xiàn)象;各個(gè)簇的散點(diǎn)數(shù)不同但無數(shù)量級(jí)的差異,其中聚類5的樣本數(shù)最多,聚類1的樣本數(shù)最少(見表6)。為了減少分析過程中離群點(diǎn)的影響,依據(jù)用地特征對(duì)前80%的樣本進(jìn)行分析,并從時(shí)間特征、空間特征和客流結(jié)構(gòu)進(jìn)一步分析聚類后各個(gè)簇的特征。
表6 聚類結(jié)果特征分析Table 6 Characterization of clustering result
圖4 聚類結(jié)果降維散點(diǎn)圖Figure 4 Reduced dimensional scatter plot of clustering results
聚類0:包括了獨(dú)墅湖南—月亮灣等1 221個(gè)OD對(duì)。在空間特征上,客流 OD對(duì)的主要用地類型為居住辦公混合—商業(yè)辦公混合、居住—辦公,其發(fā)生吸引地距離城區(qū)較遠(yuǎn),且相對(duì)距離較遠(yuǎn);在時(shí)間特征上,OD客流的平均旅行時(shí)間也最長(zhǎng),工作日客流遠(yuǎn)大于周末客流,早高峰時(shí)段客流大于晚高峰時(shí)段客流;在客流結(jié)構(gòu)上,除單程票外,市民卡和一卡通的客流也占據(jù)一定的比例。因此可將此類OD歸納為市郊進(jìn)城通勤客流。
聚類1:包括了蘇州新區(qū)火車站-察院場(chǎng)等2 239個(gè)OD對(duì)。在空間特征上,客流OD對(duì)的主要用地類型為樞紐—旅游、樞紐—商業(yè),且發(fā)生地距離城區(qū)較遠(yuǎn),但吸引地較城區(qū)較近,相對(duì)距離較遠(yuǎn);在時(shí)間特征上,OD客流的平均旅行時(shí)間較長(zhǎng),周末客流遠(yuǎn)大于工作日客流,晚高峰時(shí)段客流略高于早高峰時(shí)段;在客流結(jié)構(gòu)上,以單程票為主,其余票種數(shù)量較少。因此可將此類OD歸納為外市進(jìn)城旅游客流。
聚類2:包括了山塘街-寶帶路等1 711個(gè)OD對(duì)。在空間特征上,客流OD對(duì)的主要用地類型為樞紐—居住、旅游—居住,發(fā)生、吸引地距中心城區(qū)的平均距離適中,相對(duì)距離適中;在時(shí)間特征上,OD客流的平均旅行時(shí)間適中,周末客流遠(yuǎn)大于工作日客流,晚高峰時(shí)段客流高于早高峰時(shí)段;在客流結(jié)構(gòu)上,以單程票、市民卡為主,其余票種數(shù)量較少。因此可將此類OD歸納為本市返城旅游客流。
聚類3:包括了鐘南街—獨(dú)墅湖鄰里中心等1 246個(gè)OD對(duì)。在空間特征上,客流OD對(duì)的主要用地類型為居住,發(fā)生、吸引地距中心城區(qū)的平均距離均較遠(yuǎn),但相對(duì)距離較近;在時(shí)間特征上,OD客流的平均旅行時(shí)間適中,周末客流略大于工作日客流,早晚高峰時(shí)段客流相差不大;在客流結(jié)構(gòu)上,以單程票、市民卡、一卡通為主,其余票種數(shù)量較少。因此可將此類OD歸納為短途出行客流。
聚類4:包括了寶帶路—山塘街等2 316個(gè)OD對(duì)。在空間特征上,客流OD對(duì)的主要用地類型為居住—樞紐、居住—旅游,發(fā)生、吸引地距中心城區(qū)的平均距離較為適中,相對(duì)距離適中;在時(shí)間特征上,OD客流的平均旅行時(shí)間適中,周末客流略大于工作日客流,晚高峰時(shí)段客流略大于早高峰時(shí)段;在客流結(jié)構(gòu)上,以單程票、市民卡為主,并有部分次票,其余票種數(shù)量較少。因此可將此類OD歸納為本市出城旅游客流。
聚類5:包括了橫塘—人民橋南等4 338個(gè)OD對(duì)。在空間特征上,客流OD對(duì)的主要用地類型為辦公—居住、居住—辦公,發(fā)生、吸引地距中心城區(qū)的平均距離均較近,相對(duì)距離較近;在時(shí)間特征上,OD客流的平均旅行時(shí)間短,工作日客流遠(yuǎn)大于周末客流,早晚高峰時(shí)段客流較大且相差較少;在客流結(jié)構(gòu)上,以單程票、市民卡為主,其余票種數(shù)量較少。因此可將此類OD歸納為市區(qū)通勤客流。
聚類 6:包括了山塘街—高鐵蘇州北站等 2 140個(gè)OD對(duì)。在空間特征上,客流OD對(duì)的主要用地類型為旅游—樞紐、商業(yè)—樞紐,發(fā)生地距中心城區(qū)的距離較近,吸引地較遠(yuǎn),相對(duì)距離較遠(yuǎn);在時(shí)間特征上,OD客流的平均旅行時(shí)間較大,周末客流遠(yuǎn)大于工作日客流,晚高峰客流略高于早高峰時(shí)段客流;在客流結(jié)構(gòu)上,以單程票為主,其余票種數(shù)量較少。因此可將此類OD歸納為外市返城旅游客流。
綜上所述,將7類客流OD歸納為以下7種客流(見表 7)。
表7 客流OD歸納Table 7 Types of origin-destination passenger flows
本文以蘇州軌道交通 OD客流數(shù)據(jù)為基礎(chǔ),從OD客流的時(shí)間特征、空間特征、結(jié)構(gòu)特征 3個(gè)角度對(duì)車站間客流特征進(jìn)行分析,并通過譜聚類算法對(duì)高維客流 OD數(shù)據(jù)進(jìn)行聚類分析,從而實(shí)現(xiàn)精準(zhǔn)分型;利用輪廓系數(shù)與戴維森堡丁指數(shù)對(duì)比不同方法的分類結(jié)果,證明譜聚類方法相對(duì)于k-means等其他方法具有更好的分類效果。通過歸納其聚類特點(diǎn),最終得出市郊進(jìn)城通勤客流等 7種車站間客流時(shí)間分布類型。本文為不僅為客流的分類提供了一種更具操作性的定量分析方法,也為后續(xù)的客流預(yù)測(cè)等研究奠定基礎(chǔ)。