路民超,李建波,逄俊杰,李 英,董學(xué)士
青島大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,山東 青島266071
在城市計算宏觀框架下,智能交通是重要的組成部分。而智能交通系統(tǒng)中最重要的任務(wù)之一就是如何精確地預(yù)測未來出租車需求。精確地預(yù)測出租車需求能夠幫助出租車公司合理地分配出租車資源,減少司機(jī)和乘客的等待時間,從而實現(xiàn)出租車資源的供需平衡并緩解交通擁塞。
然而,出租車需求預(yù)測問題具有多重時空依賴性,因而解決這一問題充滿挑戰(zhàn)性。一方面,出租車需求會受多個歷史序列的影響。區(qū)域的出租車需求與鄰近幾個時刻的需求密切相關(guān)并伴有周期性變化規(guī)律。與此同時,區(qū)域的歷史流入量也會影響未來的出租車需求。一旦乘客乘坐出租車到達(dá)目標(biāo)區(qū)域,那么乘客在未來就有可能乘坐出租車從目標(biāo)區(qū)域離開。另一方面,目標(biāo)區(qū)域的出租車需求也存在多種空間依賴關(guān)系。從真實數(shù)據(jù)中可觀察到空間上相近的區(qū)域間具有較多的出租車流和相似的需求模式。目標(biāo)區(qū)域的出租車需求也會受到具有潛在空間依賴性區(qū)域的影響而發(fā)生改變。這些區(qū)域在空間上可能并不接近。舉例來說,工作日早高峰,居民區(qū)會產(chǎn)生大量去往工作區(qū)出租車請求,而在晚上下班時,居民區(qū)則會涌現(xiàn)大量來自工作區(qū)的出租車流。在這種情境下,如何有效捕捉問題的多重時空依賴性已成為精確預(yù)測未來出租車需求的關(guān)鍵所在。
交通預(yù)測包括交通流預(yù)測、出租車需求預(yù)測(本文工作)等交通數(shù)據(jù)預(yù)測問題。這些問題具有相似的時空依賴性,因而交通預(yù)測的研究能提供相當(dāng)有價值的參考信息。目前,研究者已提出一系列工作用于捕捉各種依賴關(guān)系。按照其實現(xiàn)方法大致可分成三類:時間序列方法,如差分整合移動平均自回歸(ARIMA)模型及其變體[1-2];機(jī)器學(xué)習(xí)方法,如線性回歸(LR)[3]、支持向量回歸(SVR)[4-5];深度學(xué)習(xí)方法,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[6-7],全連接神經(jīng)網(wǎng)絡(luò)(FNN)[8-9],長短時記憶網(wǎng)絡(luò)(LSTM)[10-11]。近幾年,學(xué)者[12-14]大多利用CNN和LSTM結(jié)合的方法預(yù)測交通,因為其能有效捕捉復(fù)雜的時空依賴性。然而,在現(xiàn)實世界中,城市區(qū)域的大小并不固定。雖然CNN能從規(guī)則的二維網(wǎng)格中提取深層的空間特征,但并不適合處理圖結(jié)構(gòu)數(shù)據(jù)。因而,一些工作[15-16]嘗試用圖卷積網(wǎng)絡(luò)(GCNN)解決這一問題。例如,Chu 等[16]把城市交通網(wǎng)絡(luò)建模成交通圖結(jié)構(gòu),進(jìn)而提出FlowFlexDP模型,將GCNN部署于空間軸,從而捕捉圖中頂點間的空間依賴性。然而,大多數(shù)研究忽視了潛在空間依賴關(guān)系和歷史流入量的影響,但這兩種因素可能更加重要。
針對上述問題,本文提出多因素融合的時空卷積網(wǎng)(MFSTGCN)用于出租車需求預(yù)測。MFSTGCN模型從出租車軌跡中提取目標(biāo)區(qū)域的歷史出租車流入量序列、歷史出租車需求序列以建模多重時間依賴性。與此同時,基于區(qū)域真實的地理分布以及目標(biāo)區(qū)域每天的出租車需求總量,MFSTGCN模型通過構(gòu)建區(qū)域間地理鄰接矩陣和潛在依賴性鄰接矩陣,來建模多重空間依賴關(guān)系。隨后,MFSTGCN 模型以時空卷積塊為基礎(chǔ),構(gòu)建臨近需求組件、日需求組件、潛在空間依賴性組件和歷史出租車流入量組件,從而有效捕捉問題的多重時空依賴性。
本文將城市定義為無向無權(quán)重圖G=(V,E,A),V表示區(qū)域的集合,城市中的區(qū)域是圖中的頂點。假定共有m個區(qū)域,則區(qū)域集可定義為V={v1,v2,…,vm},E代表區(qū)域間的連通性,區(qū)域間的鄰接矩陣用A={Aadj,Arel}表示。其中Aadj∈Rm×m為地理鄰接矩陣,Arel∈Rm×m為潛在依賴關(guān)系鄰接矩陣。每個區(qū)域的出租車需求劃分成τ個等長的時間間隔,則時間集可定義為I={i1,i2,…,iτ}。時間間隔設(shè)定為30 min。為了方便表示,在論文的剩余部分,vs和it分別用s和t表示。令表示出租車需求,即,在s區(qū)域t時刻請求出租車的乘客數(shù)量,則Xt={}為所有區(qū)域t時刻形成的出租車需求集。相似地,t時刻s區(qū)域的歷史流入量即乘客在過去時刻從其他區(qū)域出發(fā)在t時刻到達(dá)s區(qū)域的數(shù)量。在t時刻,所有區(qū)域的歷史流入量序列Pt為Pt={}。
基于歷史出租車需求序列和歷史區(qū)域流入量序列,本文的目標(biāo)是在圖G上學(xué)習(xí)一個映射函數(shù)h(?),通過h(?)將數(shù)據(jù)輸入映射為下個時刻所有區(qū)域出租車需求量的預(yù)測值。
本節(jié)將會給出如何建模問題多重時空依賴性的細(xì)節(jié)性描述,包括局部空間依賴性、潛在空間依賴性,以及歷史流入量序列,歷史需求序列與未來出租車需求之間的時間依賴性。
2.2.1 局部空間依賴性
Tobler 等[17]通過研究地理事物相關(guān)性現(xiàn)象,得出地理上相近的事物往往關(guān)系更密切(地理學(xué)第一定律)的結(jié)論。與此同時,在真實數(shù)據(jù)中也觀察到類似現(xiàn)象。如圖1所示,空間上相鄰的區(qū)域間存在較大的出租車往來流。大量的往來出租車流意味相鄰的區(qū)域間具有較為密切的關(guān)系。受這一結(jié)論和現(xiàn)象的啟發(fā),依照真實空間鄰接關(guān)系建立地理鄰接矩陣以建模周圍區(qū)域?qū)τ谀繕?biāo)區(qū)域出租車需求的影響。具體來說,對于任意區(qū)域i和j,若它們在空間上相鄰,設(shè)置為1,否則設(shè)置為0。通過這種方式,建立地理鄰接矩陣Aadj:
2.2.2 潛在空間依賴性
表1~表3 分別展現(xiàn)了不同數(shù)據(jù)集中不相鄰區(qū)域間出租車需求的互相關(guān)性(d、e、f 表示三個不同的區(qū)域)。從表中可知,不相鄰區(qū)域間的出租車需求具有不同的相關(guān)性。部分區(qū)域間的出租車需求存在強(qiáng)相關(guān)性。這表明,存在一些與目標(biāo)區(qū)域空間上不相鄰的區(qū)域,其出租車需求會影響目標(biāo)區(qū)域未來時刻出租車需求的變化,即不同區(qū)域間出租車需求存在潛在空間依賴性。
圖1 相鄰區(qū)域間往來出租車流
表1 曼哈頓區(qū)不相鄰區(qū)域間出租車需求的互相關(guān)性
表2 布魯克林區(qū)不相鄰區(qū)域間出租車需求的互相關(guān)性
表3 ??谑胁幌噜弲^(qū)域間出租車需求的互相關(guān)性
鑒于此,建立區(qū)域間潛在依賴鄰接矩陣Arel建模區(qū)域間潛在空間依賴性。其中,Arel的每個元素值arel是由區(qū)域間相關(guān)性值和給定的閾值共同決定。具體來說,首先計算每個區(qū)域每天的出租車需求量,然后利用皮爾遜相關(guān)系數(shù)計算任意兩個區(qū)域間的相關(guān)性值,并設(shè)定閾值δ。對于任意區(qū)域i,j,如果區(qū)域間相關(guān)性值大于δ,元素設(shè)置為1,否則被設(shè)置為0。形式化表達(dá)如下:
其中,Qi,Qj為區(qū)域i,j各自的每日出租車需求總量,corr(?)為皮爾遜相關(guān)系數(shù)的計算函數(shù)。
圖2 區(qū)域出租車需求序列自相關(guān)性
2.2.3 歷史需求序列與未來出租車需求的時間依賴性
出租車需求預(yù)測問題是典型的時空預(yù)測問題,臨近時刻的出租車需求會影響目標(biāo)區(qū)域未來的出租車需求。從圖2中可以看出,區(qū)域的出租車需求與其臨近時刻的出租車需求存在明顯的相關(guān)性,并且相關(guān)性值會隨著時間上的相鄰程度發(fā)生改變。而且,通過分析區(qū)域每周出租車需求變化趨勢,發(fā)現(xiàn)區(qū)域的出租車需求具有日周期性變化規(guī)律。正如圖3 所示,在工作日,每天的出租車需求具有非常相似的變化曲線。即區(qū)域的出租車需求在上午到達(dá)最高峰,在午夜到達(dá)低谷。為了建模問題的日周期性和臨近時刻的時間依賴性,MFSTGCN從出租車軌跡中抽取并建立日出租車需求序列和臨近出租車需求序列。在t時刻兩種序列集分別表示為{Xt-Oday×dayslot,…,Xt-dayslot} ,{Xt-Orecent+1,…,Xt} 。其中,Orecent和Oday分別為兩種序列的長度。
2.2.4 歷史流入量序列與未來出租車需求的時間依賴性
從時間角度上看,區(qū)域的出租車需求不僅受其歷史需求序列的影響,而且依賴于區(qū)域的出租車歷史流入量數(shù)據(jù)。出租車的流入流出量在一定程度反映了區(qū)域人流量的變化情況。而區(qū)域人流量的變化會促使區(qū)域未來的出租車需求量發(fā)生改變。特別是當(dāng)一個區(qū)域涌入大量的乘客后,隨著時間的推移,這些乘客在未來有很大的可能性乘坐出租車從該區(qū)域離開。正如圖4所示,區(qū)域出租車需求量的快速增加和需求峰值出現(xiàn)于區(qū)域出租車流入量的增加之后,這說明隨著流入該區(qū)域的出租車量增多,未來時刻的出租車需求會受到人流量增加的影響而增加。因此,本文依據(jù)出租車軌跡數(shù)據(jù)的下車位置以及下車時刻建立區(qū)域的歷史流入量序列{Pt-Oin+1,…,Pt},建模歷史流入量對于未來出租車需求的影響,其中Oin是歷史流入量序列的長度。
圖3 出租車需求的周期性變化規(guī)律
圖4 區(qū)域的出租車流入流出量
圖5 MFSTGCN模型
圖6 時空卷積塊結(jié)構(gòu)
本文提出MFSTGCN 模型用于出租車需求預(yù)測問題。如圖5 所示,MFSTGCN 模型包括四個組件分別用于捕捉臨近需求序列、日需求序列、歷史流入量序列與未來出租車需求的時間依賴關(guān)系以及區(qū)域間潛在依賴關(guān)系對于該問題的影響。模型的四個組件具有完全相同的結(jié)構(gòu),由時空卷積塊和輸出層構(gòu)成。
2.3.1 時空卷積塊
經(jīng)過上文的分析可知,出租車需求存在復(fù)雜的多重時空依賴性。而GCN 已廣泛用于提取交通圖結(jié)構(gòu)數(shù)據(jù)在空間域的空間特征。在時間域,長短時記憶網(wǎng)絡(luò)(LSTM)是多數(shù)的選擇,但LSTM存在復(fù)雜的門控機(jī)制,這會帶來耗時的迭代訓(xùn)練過程以及動態(tài)響應(yīng)慢等問題。為了避免這些問題,Yu等[18]將CNN應(yīng)用于時間域,并提出時空卷積塊結(jié)構(gòu),從而在有效捕捉復(fù)雜時空依賴性的基礎(chǔ)上實現(xiàn)模型的快速訓(xùn)練以及高效響應(yīng)動態(tài)變化等。
鑒于基于時空卷積塊(ST-Conv block)捕捉時空依賴性的優(yōu)勢,本文采用時空卷積塊作為構(gòu)建MFSTGCN模型的基礎(chǔ)。ST-Conv block 的結(jié)構(gòu)如圖6 所示,包括兩個時間門控卷積層和空間圖卷積層,分別用于學(xué)習(xí)時間和空間依賴性。其中,時間門控卷積層由1維CNN和門控線性單元(GLU)組成。模型的輸入X ∈Rm×O×Cin(m、O、Cin分別表示頂點數(shù)、時間步的長度、輸入通道數(shù))傳入長度為Kw的一維卷積去捕捉相鄰時間片對于當(dāng)前時間片值的影響。在本文中,一維卷積的運算采用不填充的方式,因此,數(shù)據(jù)序列的長度會縮減Kw-1。定義一維卷積的卷積核為Γ ∈R1×Kw×Cin×2Cout,通過卷積運算將輸入X 映射為單一輸出[Y1,Y2]∈Rm×(O-Kw+1)×(2Cout)(其中Y1,Y2具有完全相同的維度)。將劃分得到的Y1∈Rm×(O-Kw+1)×Cout和Y2∈Rm×(O-Kw+1)×Cout兩個張量放入GLU中進(jìn)一步提高模型學(xué)習(xí)非線性的能力。時間門控卷積層的計算公式如下:
之后,時間門控卷積層的輸出Z傳入到空間圖卷積層中建模問題的空間依賴性。其中,圖卷積的計算是采用譜圖卷積的方法。該方法是對圖的拉普拉斯矩陣L特征分解,以達(dá)到捕捉圖結(jié)構(gòu)數(shù)據(jù)空間依賴性的目的:
其中,U,Λ ∈Rm×m分別是歸一化圖拉普拉斯矩陣L 分解后的特征向量矩陣和特征值對角矩陣。gθ(Λ)=diag(θ),θ 是通過訓(xùn)練網(wǎng)絡(luò)得到的傅里葉系數(shù)向量。 A是關(guān)系鄰接矩陣(在模型的區(qū)域潛在相關(guān)性組件中,A=Arel,在其他組件中,A=Aadj),D 是對角度矩陣,Dii=,Im∈Rm×m是單位矩陣。然而,隨著圖中節(jié)點數(shù)目的增多,圖拉普拉斯矩陣特征分解過程的計算復(fù)雜度隨之增加。鑒于此,模型應(yīng)用K階切比雪夫多項式近似求解,從而避免圖拉普拉斯矩陣的分解過程,降低模型的計算復(fù)雜度:
其中,K是超參數(shù),決定圖卷積感受野的范圍。θk為k階的切比雪夫多項式系數(shù),Tk(L?)為kth階的切比雪夫多項式。λmax為圖拉普拉斯矩陣L 的最大特征值。經(jīng)過譜圖卷積的處理之后,空間圖卷積層的輸出放入到一層時間門控卷積層以實現(xiàn)空間圖卷積層與時間門控卷積層間空間狀態(tài)的快速傳播并獲得時空卷積塊的輸出X′∈Rm×(O-2(Kw-1))×C′out,完整的時空卷積塊處理過程如下:
2.3.2 預(yù)測
每個組件的底部部署具有相同結(jié)構(gòu)的輸出層來獲得組件最后的輸出。輸出層是由時間門控卷積層和全連接層構(gòu)成。其中,時間門控卷積層將時空卷積塊的輸出映射為單步預(yù)測值X″∈Rm×1×C。而全連接層將單步預(yù)測值X″ 轉(zhuǎn)化為每個組件最后的潛在時空表達(dá)y ∈Rm×1×1。之后,MFSTCGN 模型融合每個組件的潛在時空表達(dá),從而生成下一時刻所有區(qū)域的出租車需求預(yù)測值:
其中,yadj,yday,yrel,ypast分別是臨近序列組件,日序列組件,區(qū)域潛在相關(guān)性組件,歷史流入量序列組件的潛在時空表達(dá)。
實驗數(shù)據(jù)來自紐約城布魯克林區(qū),曼哈頓區(qū)FHV出租車以及??谑芯W(wǎng)約車數(shù)據(jù)集。其中,布魯克林區(qū)數(shù)據(jù)范圍從2018年1月1日到2018年3月31日,曼哈頓區(qū)數(shù)據(jù)范圍從2018年5月1日到2018年7月31日,??谑袛?shù)據(jù)范圍從2017 年5 月1 日到2017 年7 月31 日。本文對缺失數(shù)據(jù)進(jìn)行過濾,過濾后數(shù)據(jù)分別包含10 370 740、17 950 316、3 984 359 條軌跡記錄。為了評估模型的表現(xiàn),實驗采用交通預(yù)測領(lǐng)域最常用的三個評估指標(biāo):均方根誤差(RMSE),平均絕對誤差(MAE),平均絕對百分比誤差(MAPE)。具體地,三個指標(biāo)計算公式如下所示:
其中,ζ為測試集樣本數(shù),Xt+1、分別為t+1 時刻的真實值和預(yù)測值。
城市區(qū)域的劃分不是本文的研究重點,因而并未進(jìn)一步地研究區(qū)域的選擇問題。對于紐約市數(shù)據(jù)集,將紐約出租車和豪華轎車委員會提供的出租車區(qū)域圖中的真實區(qū)域作為實驗的目標(biāo)區(qū)域,如圖7 所示,布魯克林區(qū)和曼哈頓區(qū)分別包括61 個區(qū)域和63 個區(qū)域(排除6個與其他區(qū)域空間不相鄰的區(qū)域)。對于海口市數(shù)據(jù)集,追隨Xu 等[19]采用的區(qū)域劃分方法,利用geohash 庫編碼經(jīng)緯度信息并獲得最終要預(yù)測的區(qū)域。在本文中,設(shè)置geohash 的精度為6,從而將??谑袆澐殖?5 個區(qū)域。另外,上述數(shù)據(jù)集中的每個區(qū)域依據(jù)其索引值或編碼值順序排列并建立區(qū)域間的地理鄰接矩陣和潛在依賴鄰接矩陣。為了更好地訓(xùn)練MFSTGCN模型,在模型訓(xùn)練階段對歷史出租車需求和歷史流入量序列進(jìn)行z-score標(biāo)準(zhǔn)化操作。利用生成的模型進(jìn)行預(yù)測評估時,再將數(shù)據(jù)還原到原始規(guī)模。當(dāng)評估所有模型預(yù)測表現(xiàn)時,過濾掉小于10 的出租車需求[20],這也是學(xué)術(shù)界和工業(yè)界的普遍做法。此外,訓(xùn)練集的前80%用于訓(xùn)練整個模型,而剩余20%的數(shù)據(jù)用于超參數(shù)的選擇。當(dāng)確定超參數(shù)值之后,再以完整的訓(xùn)練數(shù)據(jù)集訓(xùn)練MFSTGCN模型并產(chǎn)生未來出租車需求的預(yù)測,隨后根據(jù)模型的預(yù)測結(jié)果評估表現(xiàn)。
圖7 紐約城曼哈頓區(qū)和布魯克林區(qū)的出租車區(qū)域圖
Tensorflow 框架用于構(gòu)建本文的模型MFSTGCN。在模型的所有組件中,設(shè)置完全相同的超參數(shù)值。其中,K=3,Kw=3,dayslot=48,Orecent=7,Oday=7,Oin=7,δ=0.5。MFSTGCN模型的優(yōu)化器為RMSProp,其初始學(xué)習(xí)率為0.001,每5 輪后衰減為原始學(xué)習(xí)率0.7倍。此外,在訓(xùn)練模型的過程中,每批數(shù)據(jù)的大小為28。
3.3.1 與交通預(yù)測常用的基準(zhǔn)模型進(jìn)行比較
為了證明MFSTGCN模型的有效性,本文選擇五種基準(zhǔn)模型作為對照。為了公平起見,機(jī)器學(xué)習(xí)模型OLSR、SVR 以及深度學(xué)習(xí)模型STGCN 采用完全相同的輸入數(shù)據(jù)訓(xùn)練模型。此外,STGCN 模型的參數(shù)設(shè)置與MFSTGCN模型保持一致。五種基準(zhǔn)模型的介紹如下:
(1)歷史平均值模型(HA)將出租車需求預(yù)測問題建模成季節(jié)性過程,依照前幾個周期的均值作為未來出租車需求的預(yù)測值。例如,預(yù)測一個區(qū)域在星期三下午三點到三點半的出租車需求,該模型就依照歷史數(shù)據(jù)中幾周的星期三下午三點到三點半的均值作為預(yù)測值。
(2)自回歸整合移動平均模型(ARIMA)是一種經(jīng)典的時間序列預(yù)測模型。該模型依據(jù)區(qū)域歷史出租車需求序列擬合模型,確定p、d、q三個參數(shù)值,從而預(yù)測未來的需求值。
(3)最小二乘線性回歸(OLSR)是一種經(jīng)典的機(jī)器學(xué)習(xí)算法,旨在捕捉出租車需求預(yù)測問題與歷史流入量序列、歷史出租車需求序列間的線性依賴關(guān)系。
(4)支持向量回歸模型(SVR)是一種廣泛應(yīng)用于交通預(yù)測的機(jī)器學(xué)習(xí)模型,該模型根據(jù)訓(xùn)練集中歷史出租車需求和歷史流入量數(shù)據(jù)訓(xùn)練模型,然后基于測試集評估模型的性能。另外,SVR模型中的核函數(shù)為線性核函數(shù)。
(5)STGCN分別使用GCN和CNN挖掘數(shù)據(jù)中的時空依賴性,其特殊的三明治結(jié)構(gòu)讓模型訓(xùn)練過程更加高效。
在基準(zhǔn)模型中,ARIMA模型是通過調(diào)用statsmodels庫提供的api實現(xiàn)。機(jī)器學(xué)習(xí)模型(OLSR,SVR)則是通過調(diào)用sklearn 庫所提供的api 完成。另外,上述這些模型參數(shù)是由網(wǎng)格搜索方法依據(jù)擬合或訓(xùn)練模型的最優(yōu)結(jié)果確定。
將本文提出的MFSTGCN 模型和五種基準(zhǔn)模型應(yīng)用于三個不同的數(shù)據(jù)集,預(yù)測出租車需求,其實驗結(jié)果如表4所示。從表中可知,時間序列模型(HA,ARIMA)的預(yù)測表現(xiàn)較差(表4并未展示曼哈頓數(shù)據(jù)下HA模型,??谑袛?shù)據(jù)集下HA、ARIMA 模型的預(yù)測結(jié)果,這是因為其實驗結(jié)果不好)。OLSR和SVR等機(jī)器學(xué)習(xí)模型從多種特征中學(xué)習(xí),能夠捕捉未來出租車需求與四種因素間的依賴關(guān)系,因此,與時間序列模型相比,OLSR 和SVR的預(yù)測表現(xiàn)有所提升。然而,此類機(jī)器學(xué)習(xí)模型缺乏挖掘高度非線性時空依賴性的能力,故其預(yù)測誤差普遍高于下列深度學(xué)習(xí)模型STGCN和MFSTGCN。STGCN模型通過時空卷積塊結(jié)構(gòu)有效捕捉出租車需求預(yù)測中復(fù)雜的時空依賴關(guān)系,因此,STGCN模型的預(yù)測結(jié)果優(yōu)于上述時間序列模型和機(jī)器學(xué)習(xí)模型。然而,STGCN模型忽略了區(qū)域間潛在空間依賴關(guān)系以及區(qū)域歷史流入量等因素的影響。MFSTGCN 模型設(shè)計多個組件分別捕捉這些因素,故MFSTGCN模型在實驗中預(yù)測誤差最小?;赗MSE、MAE、MAPE三個評估指標(biāo)下,在布魯克林區(qū)數(shù)據(jù)集MFSTGCN 模型的預(yù)測精度相較于STGCN模型有5.0%、4.6%、3.9%。類似地,在曼哈頓區(qū)數(shù)據(jù)集有9.0%、7.6%、7.5%的提升而在??谑袛?shù)據(jù)集有13.4%、13.9%、10.2%的提升。
表4 與基準(zhǔn)模型比較
3.3.2 與MFSTGCN模型的不同變體進(jìn)行比較
研究模型的不同變體有助于獲悉不同因素對模型預(yù)測能力的影響程度,因此,本文對MFSTGCN 模型的三種變體STGCN、MSTGCN、MSTGCN-D 進(jìn)行實驗。其中,STGCN 模型只包含臨近序列組件。MSTGCN 模型加入?yún)^(qū)域潛在相關(guān)性組件,將建立的潛在空間依賴性矩陣傳入GCN 中用于GCN 的計算過程。MSTGCN-D模型則是在MSTGCN 基礎(chǔ)上融入日需求序列組件。MFSTGCN是最終的模型,其進(jìn)一步整合歷史區(qū)域流入量序列組件。圖8~10分別展示了模型的不同變體的實驗結(jié)果。從圖中可知,融入不同的因素均能提高模型的預(yù)測精度,表明建模這些因素的有效性。值得注意的是,模型融入?yún)^(qū)域間潛在依賴關(guān)系組件能夠大幅度地降低預(yù)測誤差。這表明挖掘城市中的不同區(qū)域間潛在依賴關(guān)系對于預(yù)測未來出租車需求十分重要。此外,本文也研究了不同模型在每天的預(yù)測能力,其實驗結(jié)果如圖11 所示。由于空間有限,實驗中僅選擇RMSE 作為評價指標(biāo)。從圖中可觀察到如下幾個現(xiàn)象:(1)每一天,MFSTGCN模型的預(yù)測誤差均為最低,這說明MFSTGCN模型具備更強(qiáng)大的預(yù)測能力。(2)不同數(shù)據(jù)集下,每一天的預(yù)測難度有所不同,這意味著仍然存在一些未知的因素(如季節(jié)等)影響未來出租車需求,需要進(jìn)一步探索。
圖8 MFSTGCN模型及其變體在Manhattan-FHV-Taxi數(shù)據(jù)集的實驗結(jié)果
圖9 MFSTGCN模型及其變體在Brooklyn-FHV-Taxi數(shù)據(jù)集的實驗結(jié)果
圖10 MFSTGCN模型及其變體在Haikou-Didi-Taxi數(shù)據(jù)集的實驗結(jié)果
圖11 紐約市曼哈頓區(qū),布魯克林區(qū)和??谑忻恳惶斓膶嶒灲Y(jié)果
本文提出一種多因素時空圖卷積MFSTGCN 模型預(yù)測出租車需求。該模型通過建立地理鄰接矩陣,區(qū)域間潛在依賴鄰接矩陣、區(qū)域鄰近時刻出租車需求序列、區(qū)域日出租車需求序列和區(qū)域歷史流入量序列來建模問題的多重時空依賴性。為了評估MFSTGCN 模型的預(yù)測能力,在國內(nèi)外公開數(shù)據(jù)集上進(jìn)行對比實驗。結(jié)果表明,MFSTGCN模型能達(dá)到更為精確的預(yù)測結(jié)果。
在未來的工作中,將會繼續(xù)探索更多外在因素(例如節(jié)假日,天氣)對出租車需求的影響。同時,考慮如何設(shè)計相應(yīng)的結(jié)構(gòu)來捕捉區(qū)域間出租車流量以及城市路網(wǎng)車流量的隨時間動態(tài)變化的趨勢,進(jìn)一步提升MFSTGCN模型的預(yù)測能力。