基于生成對抗和圖卷積網(wǎng)絡(luò)的含缺失值交通流預(yù)測模型

2023-11-15 06:59:14陳建忠呂澤凱藺皓萌

公路交通科技 2023年9期

陳建忠，呂澤凱，藺皓萌

(西北工業(yè)大學(xué) 自動化學(xué)院，陜西西安 710129)

0 引言

在科學(xué)技術(shù)日新月異的今天，人工智能的快速崛起和廣泛應(yīng)用為緩解交通擁堵提供了有效的方法[1]。交通流預(yù)測需要大量的歷史交通數(shù)據(jù)，在實(shí)際數(shù)據(jù)收集過程中，由于交通基礎(chǔ)設(shè)施、氣象狀況和數(shù)據(jù)采集技術(shù)的限制與人為失誤等原因造成的數(shù)據(jù)缺失問題對交通流預(yù)測的準(zhǔn)確性產(chǎn)生嚴(yán)重的負(fù)面影響[2]。因此，本研究基于深度學(xué)習(xí)方法建立交通流缺失數(shù)據(jù)補(bǔ)全方法和交通流預(yù)測模型，提高交通流缺失數(shù)據(jù)補(bǔ)全的準(zhǔn)確性和交通流預(yù)測的精度。

常見的處理缺失數(shù)據(jù)的方法分為不做任何處理、刪除缺失數(shù)據(jù)和填補(bǔ)缺失數(shù)據(jù)。填補(bǔ)缺失數(shù)據(jù)是應(yīng)用最為廣泛且效果最好的處理方法。隨著人工智能的快速發(fā)展，神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等方法逐步應(yīng)用于交通流缺失數(shù)據(jù)的補(bǔ)全中，目前已經(jīng)取得了一定的研究成果。Tian等[3]提出了一種基于長短時(shí)記憶網(wǎng)絡(luò)的方法用于時(shí)間序列數(shù)據(jù)補(bǔ)全；Duan等[4]提出了一種基于去噪堆疊自動編碼器的交通數(shù)據(jù)補(bǔ)全模型，討論了時(shí)空因素對交通數(shù)據(jù)插補(bǔ)的影響，給出了分層訓(xùn)練的方法并建立模型，該方法可以有效獲取大規(guī)模路網(wǎng)數(shù)據(jù)中包含的時(shí)空相關(guān)性信息；Tan等[5]將張量插補(bǔ)方法應(yīng)用于高速公路多檢測器缺失數(shù)據(jù)的插補(bǔ)中。

隨著交通流數(shù)據(jù)采集技術(shù)的快速發(fā)展，依據(jù)交通流數(shù)據(jù)的特點(diǎn)，從數(shù)據(jù)驅(qū)動角度進(jìn)行交通流預(yù)測，從20世紀(jì)70年代末開始就一直是該領(lǐng)域的基本研究方向?；跀?shù)據(jù)驅(qū)動的交通流預(yù)測方法大致分為以下4類，分別是統(tǒng)計(jì)模型、機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型和組合模型。

統(tǒng)計(jì)模型考慮了交通流的周期性，提取歷史數(shù)據(jù)對未來交通流進(jìn)行預(yù)測。經(jīng)典的時(shí)間序列方法有歷史平均模型和自回歸積分滑動平均模型等。機(jī)器學(xué)習(xí)模型如支持向量機(jī)、貝葉斯網(wǎng)絡(luò)和隨機(jī)森林等在交通流預(yù)測中展現(xiàn)出了強(qiáng)大的能力。Dell’Acqua等[6]給出了最近鄰回歸方法，這是一種對于交通流預(yù)測有效且易于實(shí)現(xiàn)的數(shù)據(jù)驅(qū)動方法；祁偉等[7]引入季節(jié)性ARiMA模型并利用時(shí)序周期特征計(jì)算交通觀測值的缺失，對稀疏交通流進(jìn)行預(yù)測；吳晉武等[8]提出了一種改進(jìn)的非參數(shù)回歸交通流預(yù)測算法，融合主成分分析、模糊C均值聚類與支持向量機(jī)方法，對短時(shí)交通流進(jìn)行預(yù)測。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的細(xì)分領(lǐng)域。相對于機(jī)器學(xué)習(xí)模型，深度學(xué)習(xí)模型除了可以學(xué)習(xí)簡單特征以外，還能從簡單特征中提取更加復(fù)雜的特征，可以更有效地進(jìn)行特征提取進(jìn)而處理更為復(fù)雜的問題，提高模型準(zhǔn)確性。Lü等[9]應(yīng)用深層架構(gòu)模型，使用自動編碼器捕獲交通流特征進(jìn)行預(yù)測；為了預(yù)測交通流，Huang等[10]提出了一個(gè)由2部分組成的深層結(jié)構(gòu)，即底層的深層信念網(wǎng)絡(luò)(Deep Belief Network，DBN)和頂層的多任務(wù)學(xué)習(xí)回歸層，DBN能以無監(jiān)督的方式學(xué)習(xí)交通流的有效特征；Ma等[11]提出一種長短時(shí)記憶網(wǎng)絡(luò)，有效地獲取交通流非線性特征。為提高模型提取特征的能力，部分研究者提出了將多種模型組合用于交通流預(yù)測；Zhao等[12]和Yu等[13]提出了時(shí)空圖卷積網(wǎng)絡(luò)，設(shè)計(jì)了一種包含圖卷積網(wǎng)絡(luò)與門控循環(huán)單元的時(shí)空卷積模塊，對流量、速度進(jìn)行預(yù)測；唐智慧等[14]將神經(jīng)網(wǎng)絡(luò)模型與無跡卡爾曼組合構(gòu)成預(yù)測模型，對短時(shí)交通流進(jìn)行預(yù)測；楊春霞等[15]基于雙向長短時(shí)記憶網(wǎng)絡(luò)方法，構(gòu)建了學(xué)習(xí)交通流上下關(guān)聯(lián)性的模型；陳孟等[16]綜合時(shí)空圖卷積網(wǎng)絡(luò)以及卡爾曼濾波對未來的交通流流量進(jìn)行預(yù)測。

交通流預(yù)測的關(guān)鍵在于依據(jù)大量歷史交通數(shù)據(jù)，針對交通流非線性、非平穩(wěn)的特點(diǎn)，設(shè)計(jì)合適的模型，以達(dá)到盡可能低的預(yù)測誤差。目前基于深度學(xué)習(xí)的交通流缺失數(shù)據(jù)補(bǔ)全方法研究較少，運(yùn)用深度學(xué)習(xí)方法學(xué)習(xí)大規(guī)模路網(wǎng)交通流數(shù)據(jù)分布，可以更加有效地提取特征，與現(xiàn)有補(bǔ)全方法相比，提高了數(shù)據(jù)補(bǔ)全的準(zhǔn)確性。本研究針對含缺失值的城市道路網(wǎng)絡(luò)交通流，設(shè)計(jì)了基于生成對抗網(wǎng)絡(luò)的交通生成對抗插補(bǔ)網(wǎng)絡(luò)?，F(xiàn)有交通流預(yù)測方法多數(shù)依賴完整交通流數(shù)據(jù)集實(shí)現(xiàn)預(yù)測，當(dāng)數(shù)據(jù)集中有較多缺失值時(shí)使用這些方法的交通流預(yù)測精度會顯著降低。為提高含缺失值的路網(wǎng)交通流預(yù)測的準(zhǔn)確性，在文獻(xiàn)[12]的基礎(chǔ)上，設(shè)計(jì)了基于交通生成對抗插補(bǔ)網(wǎng)絡(luò)、經(jīng)驗(yàn)?zāi)B(tài)分解、圖卷積網(wǎng)絡(luò)和門控循環(huán)單元的交通流預(yù)測模型，顯著降低了數(shù)據(jù)缺失和數(shù)據(jù)噪聲對交通流預(yù)測的負(fù)面影響，捕獲路網(wǎng)交通流的時(shí)空相關(guān)性進(jìn)而提升城市道路網(wǎng)絡(luò)交通流預(yù)測的精度。

1 數(shù)據(jù)集選用與缺失設(shè)計(jì)

城市道路交通系統(tǒng)是由人、車、路整合而成的巨大復(fù)雜系統(tǒng)，交通流參數(shù)的變化受到諸多因素的影響，體現(xiàn)在城市道路網(wǎng)絡(luò)交通流的隨機(jī)性、周期性、時(shí)間相關(guān)性和空間相關(guān)性等。為研究城市道路網(wǎng)絡(luò)的交通流預(yù)測，本研究選用深圳市羅湖區(qū)出租車平均車速數(shù)據(jù)集[12]，該數(shù)據(jù)集包括2015年1月1日至31日深圳市羅湖區(qū)156條主要道路的實(shí)測車速數(shù)據(jù)。試驗(yàn)數(shù)據(jù)主要包括2部分：一是156×156鄰接矩陣，描述了道路之間的空間拓?fù)?，每行表示一條道路，矩陣中的值表示道路之間的連通性，道路間有連通為1，不連通為0；二是特征矩陣，描述了每一條道路上的速度隨時(shí)間的變化，每一行代表一個(gè)時(shí)間點(diǎn)不同路段的交通速度，每一列是同一道路不同時(shí)間段上的交通速度，速度選取的是每15 min該路段所有統(tǒng)計(jì)車輛的平均速度。

在本研究試驗(yàn)中模擬真實(shí)交通流數(shù)據(jù)缺失情形，設(shè)計(jì)2種缺失模式，分別為：(1)隨機(jī)缺失：每個(gè)傳感器完全隨機(jī)丟失觀測值；(2)非隨機(jī)缺失：每個(gè)傳感器在數(shù)天內(nèi)失去觀測值。這2種缺失情形在數(shù)據(jù)集上作數(shù)據(jù)處理，將被視為缺失值的數(shù)據(jù)點(diǎn)的值變?yōu)?，用于模擬實(shí)際缺失情形?？紤]實(shí)際情形中數(shù)據(jù)缺失的比率不盡相同，設(shè)計(jì)含有不同缺失率的缺失數(shù)據(jù)用于補(bǔ)全方法驗(yàn)證，缺失率設(shè)置為10%，20%，30%，40%，50%，60%這6種情形。

2 補(bǔ)全方法與預(yù)測模型

2.1 交通流數(shù)據(jù)補(bǔ)全方法設(shè)計(jì)

生成對抗網(wǎng)絡(luò)可以在不依賴完整數(shù)據(jù)集的情況下很好地進(jìn)行數(shù)據(jù)的填補(bǔ)，其在圖像增強(qiáng)領(lǐng)域大放異彩[17]。在研究補(bǔ)全問題時(shí)通常將圖像作為矩陣進(jìn)行操作，因交通流數(shù)據(jù)同樣可以矩陣化，對于交通流數(shù)據(jù)的補(bǔ)全問題，生成對抗網(wǎng)絡(luò)同樣適用[18]。本研究將生成對抗網(wǎng)絡(luò)引入交通流數(shù)據(jù)補(bǔ)全中，利用生成對抗網(wǎng)絡(luò)的思想結(jié)合矩陣化的交通流數(shù)據(jù)結(jié)構(gòu)，設(shè)計(jì)了用于交通流數(shù)據(jù)補(bǔ)全的交通生成對抗插補(bǔ)網(wǎng)絡(luò)(Traffic Generative Adversarial Imputation Network，TGAIN)。為方便推導(dǎo)，做如下規(guī)定：

X為原始交通流數(shù)據(jù)構(gòu)成的數(shù)據(jù)矩陣；M為X的掩模矩陣，維度與X相同；mi為M中第i個(gè)元素的值，當(dāng)X中第i個(gè)元素為觀測數(shù)據(jù)時(shí)，mi為1，當(dāng)X中第i個(gè)元素為缺失數(shù)據(jù)時(shí)，mi為0。TGAIN的目標(biāo)是填充數(shù)據(jù)矩陣X中的缺失值。引入矩陣乘積運(yùn)算法則Hadamard積[19]，其符號為○。如果矩陣C∈m×n，矩陣Β∈m×n，則2個(gè)矩陣的Hadamard積定義為：

(1)

(2)

式中1為維度與M相同、元素均為1的矩陣。補(bǔ)全結(jié)果為：

(3)

(4)

(5)

因?yàn)樯善鱃的實(shí)際輸出包含所有數(shù)據(jù)的矩陣，所以在G的訓(xùn)練過程中，不僅要使數(shù)據(jù)缺失點(diǎn)插補(bǔ)的值成功“騙過”判別器，還要保證觀測數(shù)據(jù)盡可能不變，為此定義下列2個(gè)損失函數(shù)：

(6)

(7)

(8)

式中α為超參數(shù)。圖1描述了交通生成對抗插補(bǔ)網(wǎng)絡(luò)的結(jié)構(gòu)和補(bǔ)全數(shù)據(jù)的產(chǎn)生過程。

圖1 交通生成對抗插補(bǔ)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Traffic generative adversarial imputation network structure

2.2 時(shí)空預(yù)測模型

2.2.1 經(jīng)驗(yàn)?zāi)B(tài)分解

交通流數(shù)據(jù)屬于非線性非平穩(wěn)時(shí)間序列，具有一定的非平穩(wěn)性、周期性和隨機(jī)性。由于車、路和人等多種外部因素的耦合影響，原始交通數(shù)據(jù)往往還包含一些噪聲，有時(shí)表現(xiàn)出較大的波動，進(jìn)而導(dǎo)致了預(yù)測性能的下降。為降低噪聲對預(yù)測模型性能的影響，將經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition，EMD)用于交通流數(shù)據(jù)處理，將復(fù)雜的交通流時(shí)間序列轉(zhuǎn)化為多個(gè)具有較強(qiáng)規(guī)律性的分量，再將各分量分別進(jìn)行重構(gòu)作為后續(xù)預(yù)測模型的輸入，最后合并各分量預(yù)測結(jié)果。

EMD方法是由Huang等[20]提出的一種針對非線性、非平穩(wěn)數(shù)據(jù)的分解方法。與小波分解和傅里葉分解等基于先驗(yàn)的分解方法不同，EMD是一種完全由數(shù)據(jù)驅(qū)動的分解方法，突破了傅里葉變換的局限性，克服了小波分解需要主觀選擇小波基的缺陷。作為一種自適應(yīng)的分析方法，EMD具有良好的時(shí)頻分辨率，能夠?qū)⒂性肼?、非平穩(wěn)的交通流時(shí)間序列分解為單一、平穩(wěn)的分量。在噪聲抑制方面，EMD可以將噪聲和有效信號分離為不同的本征模式函數(shù)(Intrinsic Mode Function，IMF)和殘差，IMF分量反映了原始交通流時(shí)間序列的不同時(shí)間尺度的震蕩特性，殘差反映了原始數(shù)據(jù)的長期趨勢。每個(gè)IMF的特征應(yīng)符合2個(gè)條件：

(1)完整的時(shí)間序列中，序列的所有極大值點(diǎn)的個(gè)數(shù)和極小值點(diǎn)的個(gè)數(shù)之和與序列過零點(diǎn)的數(shù)目必須相等或最多相差一個(gè)。

(2)在時(shí)間序列的任何時(shí)刻，局部最大值的上包絡(luò)線和局部最小值的下包絡(luò)線均值為零。分解后的IMF與原始交通數(shù)據(jù)序列相比具有更強(qiáng)的規(guī)律性，去除了一定噪聲影響。EMD可以處理分析非線性、非平穩(wěn)數(shù)據(jù)，這對于探索交通流預(yù)測模型的隱藏時(shí)間序列關(guān)系起了至關(guān)重要的作用，該方法有助于揭示復(fù)雜非線性時(shí)間序列的特征。

定義交通流時(shí)間序列x(t)≈(x1，x2，…，xT)，T為時(shí)間序列的長度，xt為當(dāng)前路段t時(shí)刻觀測到的交通流參數(shù)。IMF分量和殘差由以下步驟確定：

(1)判定交通流時(shí)間序列x(t)的所有局部極大值和極小值點(diǎn)；

(2)應(yīng)用三次樣條插值分別擬合所有局部極大、極小點(diǎn)形成x(t)的上包絡(luò)線u(t)和下包絡(luò)線v(t)；

(3)計(jì)算上下包絡(luò)線的均值m(t)；

(4)計(jì)算原始交通流時(shí)間序列x(t)與包絡(luò)線平均值m(t)的差h(t)：

(5)判斷h(t)是否滿足IMF的條件，若h(t)滿足條件，則h(t)為原交通流時(shí)間序列的本征模函數(shù)分量，定義C(t)=h(t)，令r(t)=x(t)-h(t)，x(t)=r(t)；若不滿足，則令x(t)=h(t)；

(6)重復(fù)步驟(1)-(5)直到r(t)變?yōu)閱握{(diào)函數(shù)或IMF分量數(shù)目達(dá)到最大數(shù)量條件，EMD分解終止。

通過步驟(1)～(6)，x(t)被分解為n個(gè)IMF分量和1個(gè)殘差項(xiàng)，EMD對交通流時(shí)間序列的分解結(jié)果可以表示為：

(9)

式中Ci(t)為第i個(gè)IMF分量。

本研究中設(shè)置IMF分量的最大數(shù)目為6，交通流時(shí)間序列經(jīng)過EMD多次篩選處理后，可以得到一系列從高頻到低頻排列的IMF分量和殘余項(xiàng)。其中高頻IMF分量的隨機(jī)性較強(qiáng)，通常會代表交通流中的噪聲干擾和交通流自身的一些隨機(jī)特性。低頻IMF規(guī)律性較強(qiáng)，代表交通流自身具有的時(shí)間規(guī)律特性。殘余項(xiàng)則是一個(gè)趨勢項(xiàng)，各IMF分量和該趨勢疊加可以得到原始的交通流時(shí)間序列。對各分量及殘余項(xiàng)分別進(jìn)行預(yù)測，將預(yù)測結(jié)果疊加得到交通流預(yù)測結(jié)果。

2.2.2 圖卷積網(wǎng)絡(luò)

在深度學(xué)習(xí)獲取數(shù)據(jù)空間特征方面，一直由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)統(tǒng)治，其在計(jì)算機(jī)視覺領(lǐng)域也取得了十分優(yōu)異的效果。但是，CNN處理的數(shù)據(jù)都是歐式結(jié)構(gòu)的數(shù)據(jù)，對于交通路網(wǎng)拓?fù)溥@種非歐式結(jié)構(gòu)的數(shù)據(jù)，拓?fù)鋱D中每個(gè)頂點(diǎn)的相鄰頂點(diǎn)數(shù)目都可能不同，因傳統(tǒng)的離散卷積在非歐式結(jié)構(gòu)數(shù)據(jù)上無法保持平移不變性，故而無法用同樣尺寸的卷積核來進(jìn)行卷積運(yùn)算。為了在非歐式結(jié)構(gòu)(拓?fù)鋱D)上有效提取空間特征來進(jìn)行深度學(xué)習(xí)，近年來，圖卷積網(wǎng)絡(luò)(Graph Convolutional Network，GCN)[21]成為了人工智能領(lǐng)域研究的熱點(diǎn)。本研究使用GCN對交通路網(wǎng)拓?fù)浣Y(jié)構(gòu)進(jìn)行學(xué)習(xí)捕獲交通流空間相關(guān)性。GCN的作用和CNN一樣，是一個(gè)特征提取器，只是GCN的對象是圖數(shù)據(jù)。假設(shè)在交通路網(wǎng)拓?fù)鋱D中，有n個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)都有T維的交通流時(shí)間序列，設(shè)這些節(jié)點(diǎn)的特征組成矩陣X∈n×T，各個(gè)節(jié)點(diǎn)之間的拓?fù)潢P(guān)系形成鄰接矩陣A∈n×n，將X和A作為圖卷積模型的輸入。GCN為多層神經(jīng)網(wǎng)絡(luò)，層與層之間的傳播方式為：

(10)

(11)

2.2.3 門控循環(huán)單元

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)是用于處理序列數(shù)據(jù)的一種神經(jīng)網(wǎng)絡(luò)。RNN在許多深度學(xué)習(xí)任務(wù)中表現(xiàn)出卓越的性能，如機(jī)器翻譯、語音識別和推薦系統(tǒng)等。交通流數(shù)據(jù)作為時(shí)間序列數(shù)據(jù)，RNN在交通流數(shù)據(jù)預(yù)測上同樣表現(xiàn)亮眼。RNN因?yàn)榭梢詫⑾惹暗男畔⒂糜诋?dāng)前的任務(wù)，所以非常適合處理交通流時(shí)間序列，捕獲交通流數(shù)據(jù)的時(shí)間相關(guān)性。但是，RNN訓(xùn)練時(shí)極易產(chǎn)生梯度消失或梯度爆炸的問題，因此產(chǎn)生了門控循環(huán)單元(Gated Recurrent Unit，GRU)[22]等循環(huán)神經(jīng)網(wǎng)絡(luò)的變種。本研究采用GRU捕獲交通流數(shù)據(jù)的時(shí)間相關(guān)性，其結(jié)構(gòu)如圖2所示。

圖2 門控循環(huán)單元結(jié)構(gòu)Fig.2 Gated recurrent unit structure

在兩層GCN基礎(chǔ)上疊加一層GRU以捕獲時(shí)間特性[12]。圖2中，ht-1為t-1時(shí)刻的隱藏狀態(tài)；Xt為t時(shí)刻的交通信息；rt為重置門，用于控制先前時(shí)刻狀態(tài)信息的度量；ut為上傳門，用于控制上傳到下一狀態(tài)的信息度量；ct為t時(shí)刻儲存的信息；ht為t時(shí)刻的輸出隱藏狀態(tài)。GRU通過獲取t-1時(shí)刻的隱藏狀態(tài)與當(dāng)時(shí)的交通狀態(tài)信息得到t時(shí)刻的交通信息。各變量定義如下：

ut=σ{Wuf[(A，Xt)，ht-1]+bu}，

(12)

rt=σ{Wrf[(A，Xt)，ht-1]+br}，

(13)

ct=tanh{Wcf[(A，Xt)，rt×ht-1]+bc}，

(14)

ht=ut×ht-1+(1-ut)×ct。

(15)

綜上所述，本研究建立的EMD-GCN-GRU模型可以處理復(fù)雜的帶有噪聲和時(shí)空特性的路網(wǎng)交通流數(shù)據(jù)，將交通流數(shù)據(jù)經(jīng)EMD處理后得到6個(gè)IMF分量和一個(gè)殘差分量，將同級分量重構(gòu)為后續(xù)模型輸入，再使用GCN學(xué)習(xí)路網(wǎng)的空間拓?fù)?，捕獲道路之間的空間相關(guān)性，使用GRU捕獲交通流的時(shí)間相關(guān)性，最后將各個(gè)分量的預(yù)測結(jié)果疊加，得到最終預(yù)測結(jié)果，實(shí)現(xiàn)交通流預(yù)測任務(wù)。模型的損失函數(shù)設(shè)計(jì)為：

(16)

圖3 EMD-GCN-GRU模型結(jié)構(gòu)Fig.3 EMD-GCN-GRU model structure

2.3 模型精度評價(jià)指標(biāo)

本研究主要從預(yù)測精度、準(zhǔn)確性等方面衡量模型的性能，從數(shù)值上對比不同預(yù)測模型的優(yōu)劣，選取了5個(gè)性能指標(biāo)進(jìn)行衡量，分別為：

(1)平均絕對誤差(Mean Absolute Error，MAE)。

(2)均方根誤差(Root-mean Square Error，RMSE)。

(3)準(zhǔn)確度(Accuracy)：衡量預(yù)測數(shù)據(jù)準(zhǔn)確性，即

(17)

(4)數(shù)據(jù)的擬合程度，即：

(18)

(5)解釋方差得分，即：

(19)

3 試驗(yàn)結(jié)果與分析

3.1 補(bǔ)全模型

選取深圳市羅湖區(qū)464 256條平均車速數(shù)據(jù)為研究對象，設(shè)置2種缺失模式和6種缺失比率，使用TGAIN與矩陣分解(Matrix Factorization，MF)模型[23-25]進(jìn)行補(bǔ)全驗(yàn)證。隨機(jī)缺失補(bǔ)全精度對比如表1所示，可以觀察到TGAIN的MAE和RMSE均明顯低于MF模型，其中在缺失率為30%時(shí)，TGAIN補(bǔ)全精度優(yōu)勢最為顯著，相對于MF模型，TGAIN的MAE降低了約40.64%，RMSE降低了約30.04%，補(bǔ)全準(zhǔn)確性更高。

表1 隨機(jī)缺失補(bǔ)全精度Tab.1 Random missing completion accuracy

非隨機(jī)缺失補(bǔ)全精度對比如表2所示，可以觀察到，在缺失率為10%，20%和30%時(shí)TGAIN的MAE和RMSE均明顯低于MF模型，補(bǔ)全準(zhǔn)確率更高。在缺失率為40%時(shí)TGAIN的MAE和RMSE均低于MF模型，但相差不大。在缺失率為50%和60%時(shí)TGAIN的MAE和RMSE均高于MF模型，補(bǔ)全性能變差。TGAIN模型受非隨機(jī)缺失率影響較大，在非隨機(jī)缺失數(shù)據(jù)增多至總數(shù)據(jù)量一半以上的情形下，無法準(zhǔn)確地學(xué)習(xí)真實(shí)數(shù)據(jù)的分布，導(dǎo)致補(bǔ)全誤差增加。

表2 非隨機(jī)缺失補(bǔ)全精度Tab.2 Nonrandom missing completion accuracy

3.2 時(shí)空預(yù)測模型

通常在訓(xùn)練次數(shù)足夠的情況下，隱藏單元數(shù)目Num對模型預(yù)測精度影響最大，故首先對EMD-GCN-GRU方法選用不同隱藏單元數(shù)目進(jìn)行預(yù)測精度對比，選出最優(yōu)隱藏單元數(shù)目。各含有不同隱藏單元數(shù)目的模型預(yù)測精度如表3所示，第1行表示隱藏單元的數(shù)量，第1列表示不同精度評價(jià)指標(biāo)?？梢钥闯鲈陔[藏單元數(shù)目為100時(shí)模型的擬合程度最高，所以選用隱藏單元數(shù)目為100進(jìn)行后續(xù)研究。隨著隱藏單元數(shù)目增加，模型預(yù)測精度先提高后降低，這是因?yàn)楫?dāng)隱藏單元數(shù)目過度增加時(shí)模型過擬合。

表3 不同隱藏單元數(shù)目模型預(yù)測精度比較Tab.3 Comparison of prediction accuracy of models with different number of hidden units

選用數(shù)據(jù)集前80%作為訓(xùn)練集，其余20%作為測試集。選用過去1 d的速度數(shù)據(jù)(96個(gè)時(shí)間步)預(yù)測下一時(shí)間段即15 min的平均速度，使用Adam優(yōu)化器優(yōu)化預(yù)測模型(見表4)。

表4 預(yù)測模型參數(shù)Tab.4 Prediction model parameters

為便于作圖表示，預(yù)測算法的驗(yàn)證均以第一條道路為例給出結(jié)果。經(jīng)EMD處理后，原始道路車速數(shù)據(jù)作為EMD的輸入信號被分解為6個(gè)IMF分量和一個(gè)殘差分量，其分別描述了不同時(shí)間尺度的車速變化特征，如圖4所示。

圖4 經(jīng)驗(yàn)?zāi)B(tài)分解結(jié)果Fig.4 Empirical mode decomposition result

IMF1分量預(yù)測結(jié)果如圖5所示，可以看出模型對IMF1分量的預(yù)測效果較好。交通流時(shí)間序列經(jīng)EMD處理后，得到了一系列規(guī)律性較強(qiáng)的分量，將同級分量重構(gòu)為模型輸入分別進(jìn)行后續(xù)預(yù)測模型的訓(xùn)練，由于時(shí)間演化趨勢不再互相耦合，各分量均具有更好的可預(yù)測性。

模型的預(yù)測結(jié)果如圖6所示，在預(yù)測全程，模型的預(yù)測值變化趨勢貼合真實(shí)交通速度分布，基本接近車速真值，說明模型的有效性。由圖7前96步的預(yù)測結(jié)果可知，模型在第20步左右未能準(zhǔn)確預(yù)測到速度變化極值，對其他時(shí)刻的速度變化趨勢、極值均能較為準(zhǔn)確地進(jìn)行預(yù)測，總體預(yù)測效果良好。在少量極值點(diǎn)預(yù)測性能較差，主要原因是在使用GCN時(shí)定義了傅里葉域中的平滑濾波器，通過不斷移動過濾器捕捉空間特征。這個(gè)過程導(dǎo)致總體預(yù)測結(jié)果的波動較小，使峰值更為平滑[12]。

圖7 前96步預(yù)測結(jié)果Fig.7 Prediction result of the first 96 steps

選取如下模型與本研究EMD-GCN-GRU模型進(jìn)行預(yù)測精度對比：

(1)歷史平均模型(HA)：使用歷史交通流數(shù)據(jù)的平均值作為預(yù)測值；

(2)支持向量回歸(SVR)：利用歷史數(shù)據(jù)對模型進(jìn)行訓(xùn)練，得到輸入和輸出之間的關(guān)系，然后通過訓(xùn)練后的模型預(yù)測未來的交通流。在該模型中使用的核函數(shù)是線性核；

(3)自回歸積分滑動平均模型(ARIMA)：將預(yù)測對象隨時(shí)間推移而形成的數(shù)據(jù)序列視為一個(gè)隨機(jī)序列，用一定的數(shù)學(xué)模型來近似描述這個(gè)序列并進(jìn)行預(yù)測；

(4)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)：用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)；

(5)長短時(shí)記憶網(wǎng)絡(luò)(LSTM)：一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)[22]；

(6)門控循環(huán)單元(GRU)；

(7)GCN-GRU組合預(yù)測模型：將圖卷積網(wǎng)絡(luò)與門控循環(huán)單元結(jié)合組成的預(yù)測模型[12]。

統(tǒng)計(jì)每個(gè)模型預(yù)測結(jié)果的MAE和RMSE(見表5)，可以看出與其他7種預(yù)測算法相比，EMD-GCN-GRU的MAE和RMSE均為最小，優(yōu)于其他模型，相較于MAE較低的SVR，LSTM和GRU，MAE分別下降7.34%，1.02%和1.47%，相較于RMSE較低的LSTM，GRU和GCN-GRU，RMSE分別下降10.43%，10.72%和8.94%，說明EMD-GCN-GRU模型具有更好的交通流預(yù)測準(zhǔn)確性。

表5 各模型預(yù)測精度Tab.5 Prediction accuracy of each model

為研究使用不同歷史時(shí)長數(shù)據(jù)進(jìn)行預(yù)測對預(yù)測模型性能的影響，設(shè)置預(yù)測所用歷史數(shù)據(jù)時(shí)長分別為1，2，3，24 h，統(tǒng)計(jì)各模型的預(yù)測精度指標(biāo)如表6所示?？梢钥闯鲱A(yù)測模型的MAE和RMSE在24 h時(shí)最低，說明預(yù)測模型在此數(shù)據(jù)集上使用歷史1 d的數(shù)據(jù)進(jìn)行交通流預(yù)測更加科學(xué)準(zhǔn)確。

表6 使用不同歷史時(shí)長數(shù)據(jù)的預(yù)測精度Tab.6 Prediction accuracy with different historical duration data

3.3 組合預(yù)測模型

組合預(yù)測模型是對含缺失交通流數(shù)據(jù)集中的缺失值使用TGAIN進(jìn)行填充后，再使用EMG-GCN-GRU模型進(jìn)行城市道路網(wǎng)絡(luò)交通流預(yù)測。在試驗(yàn)中，選擇20，40，60，80，100這5種隱藏單元數(shù)目構(gòu)建預(yù)測模型進(jìn)行精度對比，各評價(jià)指標(biāo)如表7所示?？梢钥闯鲈陔[藏單元數(shù)目為60時(shí)的預(yù)測模型精度最好，所以選用隱藏單元數(shù)目為60進(jìn)行后續(xù)研究。

表7 不同隱藏單元數(shù)目的組合模型預(yù)測精度Tab.7 Prediction accuracy of combination model with different number of hidden units

選用數(shù)據(jù)集前80%作為訓(xùn)練集，余20%作為測試集。選用過去1 d的速度數(shù)據(jù)(96個(gè)時(shí)間段)預(yù)測下一時(shí)間段的平均速度，使用Adam優(yōu)化器優(yōu)化預(yù)測模型。模型的主要參數(shù)：隱藏單元數(shù)目為60，批大小為128，其余參數(shù)同表4。表8給出在缺失率為20%時(shí)，針對2種缺失模式，分別使用缺失數(shù)據(jù)和經(jīng)TGAIN補(bǔ)全后的數(shù)據(jù)進(jìn)行預(yù)測的預(yù)測結(jié)果，可以看出在2種缺失模式下，使用補(bǔ)全數(shù)據(jù)進(jìn)行預(yù)測的模型精度顯著優(yōu)于使用原始缺失數(shù)據(jù)的預(yù)測精度，使用補(bǔ)全數(shù)據(jù)進(jìn)行預(yù)測能夠更好地捕獲車速的變化規(guī)律，說明了組合預(yù)測模型的優(yōu)越性，同時(shí)也再次證明了TGAIN補(bǔ)全方法的有效性。

表8 使用缺失數(shù)據(jù)和補(bǔ)全數(shù)據(jù)的預(yù)測精度Tab.8 Prediction accuracy with missing data and complete data

為研究使用不同歷史時(shí)長數(shù)據(jù)對組合預(yù)測模型性能的影響，設(shè)置預(yù)測所用歷史數(shù)據(jù)時(shí)長分別為1，2，3，和24 h，各模型的預(yù)測精度統(tǒng)計(jì)見表9，可以看出組合模型的MAE和RMSE在24 h時(shí)最低，說明組合模型在此數(shù)據(jù)集上使用歷史1 d的數(shù)據(jù)進(jìn)行交通流預(yù)測更加科學(xué)準(zhǔn)確。

表9 使用不同歷史時(shí)長數(shù)據(jù)的預(yù)測精度Tab.9 Prediction accuracy with different historical duration data

4 結(jié)論

本研究基于生成對抗網(wǎng)絡(luò)，提出用于城市道路網(wǎng)絡(luò)交通流數(shù)據(jù)補(bǔ)全的交通生成對抗插補(bǔ)網(wǎng)絡(luò)TGAIN。采用深圳市羅湖區(qū)出租車平均車速數(shù)據(jù)集對TGAIN與具有較高補(bǔ)全準(zhǔn)確性的矩陣分解模型進(jìn)行了對比。結(jié)果表明TGAIN模型在數(shù)據(jù)集隨機(jī)缺失模式下補(bǔ)全準(zhǔn)確性較高，補(bǔ)全性能受隨機(jī)缺失率影響較小，在數(shù)據(jù)集非隨機(jī)缺失模式下補(bǔ)全準(zhǔn)確性受缺失率影響較大，在非隨機(jī)缺失率低于50%時(shí)補(bǔ)全性能較好。

針對具有已知空間聯(lián)系的路網(wǎng)交通流數(shù)據(jù)，在可獲取路網(wǎng)空間鄰接拓?fù)涞幕A(chǔ)上，建立對交通流數(shù)據(jù)進(jìn)行分解重構(gòu)并捕獲時(shí)空相關(guān)性的EMD-GCN-GRU預(yù)測模型。結(jié)果表明，相比其他7種預(yù)測算法，EMD-GCN-GRU預(yù)測模型具有較高的預(yù)測準(zhǔn)確性。對含缺失值的城市道路網(wǎng)絡(luò)交通流預(yù)測問題設(shè)計(jì)組合預(yù)測模型，將TGAIN與EMD-GCN-GRU模型相結(jié)合進(jìn)行預(yù)測，仿真結(jié)果表明使用組合模型預(yù)測精度顯著提高。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看