面向分布式EMDN-GRU模型的乘客等待時間預(yù)測

2020-07-09 22:56:59白宇鄭永玲蔣順英楊楠

現(xiàn)代信息科技 2020年21期

關(guān)鍵詞：等待時間

白宇鄭永玲蔣順英楊楠

摘 ?要：面對移動軌跡大數(shù)據(jù)難以使用傳統(tǒng)數(shù)據(jù)處理平臺進行處理，乘客等待時間難以預(yù)測，以及GPS數(shù)據(jù)無法明確給出車輛行駛方向的問題。文章提出一種基于Spark的坐標(biāo)軸車輛方向判別法，并建立了EMDN-GRU模型對乘客等待時間進行預(yù)測，并且與LSTM、GRU、EMD-LSTM與EMD-GRU進行比較。案例研究表明：EMDN-GRU模型明顯優(yōu)于比較模型，其中MAPE最少提高了8.183%，最大提高了25.729%;在乘客等待時間預(yù)測方面具有良好的效果。

關(guān)鍵詞：等待時間;EMD算法;GRU;Spark;車輛方向

中圖分類號：O211.61;TP301.6 ? ? ?文獻標(biāo)識碼：A 文章編號：2096-4706（2020）21-0059-08

Passenger Waiting Time Prediction for Distributed EMDN-GRU Model

BAI Yu，ZHENG Yongling，JIANG Shunying，YANG Nan

（School of Data Science and Information Engineering，Guizhou Minzu University，Guiyang ?550025，China）

Abstract：Facing with the problems that it is difficult to use traditional data processing platforms to process big data of moving trajectories，it is difficult to predict the waiting time of passengers，and GPS data cannot clearly give the vehicle driving direction. The article proposes a method for judging the vehicle direction of the coordinate axis based on Spark，and establishes the EMDN-GRU model to predict passenger waiting time，and compares it with LSTM，GRU，EMD-LSTM and EMD-GRU. The case study shows that the EMDN-GRU model is significantly better than the comparison model. The MAPE is increased by at least 8.183% and the largest by 25.729%;it has a good effect on passenger waiting time prediction.

Keywords：waiting time;EMD algorithm;GRU;Spark;vehicle direction

0 ?引 ?言

隨著信息技術(shù)的發(fā)展，傳統(tǒng)數(shù)據(jù)分析平臺難以對如今的數(shù)據(jù)量進行分析[1，2]。大數(shù)據(jù)已成為科技界、產(chǎn)業(yè)界、政府部門高度關(guān)注的焦點，而移動軌跡大數(shù)據(jù)分析正成為城市計算、智慧城市領(lǐng)域的研究熱點[3，4]。當(dāng)前，嚴峻的交通狀況影響著乘客出行時間規(guī)劃，如何為乘客提供精準(zhǔn)信息以便于乘客出行，已成智慧城市的研究熱點之一。

乘客等待時間預(yù)測在交通領(lǐng)域方面起著重要作用。然而時間序列一般為非平穩(wěn)序列，在進行處理與分析中常常難以得到理想結(jié)果。因此，可引入經(jīng)驗?zāi)B(tài)分解（Empirical Mode Decomposition，EMD）算法進行非平穩(wěn)序列處理，將序列分解為多個本征模函數(shù)（IMF）與一個趨勢項（Res）[5]。

1 ?研究背景

乘客等待時間預(yù)測吸引著越來越多的國內(nèi)外學(xué)者研究。齊觀德等人2012年提出泊松分布對等待時間進行模擬[6];Qi等人于2013年，提出基于非齊次泊松分布的乘客等待時間預(yù)測[7];Xu等人提出一種出租車搜尋系統(tǒng)，并將符合系統(tǒng)條件的出租車到達時間作為等待時間[8];Hwang等人求出每個地點的平均等待時間并作為乘客等待時間進行預(yù)測[9];Qiu等人結(jié)合道路、氣候以及泊松過程（NPPCRW）對等待時間進行預(yù)測[10];王詔遠等人使用經(jīng)驗分布對等待時間進行模擬，并采用增量學(xué)習(xí)模型對模型進行更新[11]。

然而，對于出租車等待時間的預(yù)測研究，基本上都傾向于使用傳統(tǒng)統(tǒng)計方法，對神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)方法并未進行深入研究。除此以外，對于等待時間的預(yù)測，也有不少學(xué)者進行了關(guān)于公交車的預(yù)測。陸俊天等人通過特征相關(guān)性處理數(shù)據(jù)后，帶入門控循環(huán)神經(jīng)網(wǎng)絡(luò)（GRU）進行公交車時間按預(yù)測[12]。Chen等人提出通過使用高斯伯努利的限制玻爾茲曼機，對DBN模型進行構(gòu)造并對公交車到達時間進行預(yù)測[13]。Ma等人提出一種基于路況的SVM||KNN||ANN模型，進行等待時間預(yù)測[14]。He等人將公交車路線劃為多段式，并基于此提出一種歷史平均法以預(yù)測公交車到達時間[15]。然而，學(xué)者對于公交車等待時間的預(yù)測，主要采用分段式方法進行預(yù)測，即：將公交路線按站臺進行劃分，并分別預(yù)測時間，再進行相加。尤其是，對于類似出租車乘客等具有一定流動性的乘客而言，雖然有一定的可參考性，但若直接引用，效果并不友好。

時間序列的預(yù)測，必然會面對序列的非平穩(wěn)性問題。Empirical Mode EMD自提出以來，在非線性，非平穩(wěn)信號的處理中具有良好的效果[16]，因此常與一些預(yù)測模型結(jié)合使用。比如戴昭武等人使用EMD-LSTM[17]預(yù)測工程問題中的時間序列;Bian等人使用AR-DWT-EMD模型進行船舶運動短期預(yù)測[18];姚洪剛等人使用EMD-LSTM[19]與張可等人PCA-LSTM[20]進行金融方面的預(yù)測;Zhao等人使用EMD-LSTM進行網(wǎng)絡(luò)流量方面的預(yù)測[21];Jing等人使用EMD-PSO-SVM算法對安全狀況進行預(yù)測[22]。以上學(xué)者在使用EMD算法與預(yù)測模型結(jié)合進行實驗研究的過程中得到論證：經(jīng)由EMD算法處理后的序列比未經(jīng)過處理的原始序列展現(xiàn)出的性能更佳。因此，使用EMD算法進行非平穩(wěn)，非線性信號處理更有助于提高精度。

綜上所述，針對具有乘客的流動性（如：出租車乘客），以及經(jīng)緯度數(shù)據(jù)存在的偏差難以對具體的地點進行數(shù)據(jù)挑選的問題，本文選取一段道路進行乘客等待時間預(yù)測研究。

研究過程中，針對數(shù)據(jù)的缺失情況，本文首先采用零值對缺失值進行補充，以保證程序的正常運行;

其次，數(shù)據(jù)缺失一般分為以下兩種情況：（1）針對缺失數(shù)據(jù)處于兩個有效值中間的情況，取上下兩個有效值的均值作為缺失值的填充，替換零值;（2）針對缺失值處于開頭或結(jié)尾的情況，使用其臨近的有效值減去5作為其值得填充，替換缺失值。

最后，得到完整的時間序列。針對乘客等待時間預(yù)測：首先，采用EMD算法將時間序列分解為有限個IMF與一個Res;其次，對每一個IMF序列與Res序列進行歸一化，將數(shù)值映射到[0，1]之間;最后，將EMD算法與歸一化方法在循環(huán)中不斷地使用帶有Dropout機制的GRU模型進行結(jié)果預(yù)測，再將每個序列進行反歸一化得到原來的數(shù)值，并且求總和，將預(yù)測值與實際值進行對比。

作者采用由數(shù)據(jù)堂提供的2012年11月北京市12 000輛出租車所產(chǎn)生的GPS數(shù)據(jù)進行研究。對原始GPS數(shù)據(jù)進行預(yù)處理得出等待時間序列。由作者提出一種改進的EMDN-GRU模型（Empirical Mode Decomposition and Normalization for Gated Recurrent Unit）以及一種創(chuàng)新的坐標(biāo)車輛判別方法。研究過程中，作者實現(xiàn)了雙向車道的車輛方向判別，提高了等待時間預(yù)測的精度。

2 ?乘客等待時間預(yù)測模型

2.1 ?數(shù)據(jù)預(yù)處理

在數(shù)據(jù)預(yù)處理中，首先提取出租車GPS軌跡數(shù)據(jù)（如2012年11月5日），其次判斷車輛運行軌跡是否在目標(biāo)路段區(qū)域，之后將數(shù)據(jù)按相同ID與時間進行排序，并取出相同車牌下的狀態(tài)連續(xù)為（0，1，1）的車輛，再將最后一個狀態(tài)為1的車輛數(shù)據(jù)進行保存。最后，將數(shù)據(jù)按照行進方向進行劃分，實現(xiàn)雙車道數(shù)據(jù)分離，并將數(shù)據(jù)按30分鐘為間隔取其出租車到達時間均值作為等待時間。其處理過程如圖1所示。

針對數(shù)據(jù)處理過程中的數(shù)據(jù)缺失問題，進行以下處理：首先，將確實數(shù)據(jù)按數(shù)值為0進行填充，以確保預(yù)處理程序能夠順利運行;其次，針對缺失數(shù)據(jù)處于兩個有效值中間的情況，取上下兩個有效值的均值作為缺失值的填充，替換零值;最后，針對缺失值處于開頭或結(jié)尾的情況，使用其臨近的有效值減去5作為其值得填充，替換缺失值。

2.2 ?模型構(gòu)建

GRU作為LSTM的變體，既可以解決長期依賴關(guān)系的時間問題，也可以解決RNN存在的梯度爆炸和梯度消失的問題，且結(jié)構(gòu)比LSTM簡單，且所需參數(shù)比LSTM少，訓(xùn)練過程中更易收斂。GRU將忘記門和輸入門合成了一個單一的更新門。除此以外，還混合了細胞狀態(tài)和隱藏狀態(tài)。其神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)如圖2所示。

其中，xt為時間序列在t時刻的輸入，ht-1為t-1時刻的輸出值，與LSTM一樣，首先GRU計算更新門（zt）與重置門（rt）的門值，并經(jīng)過Sigmid函數(shù)σ激活。隨后rt作用于（xt，ht-1），同樣，更新門（zt）的值作用于（xt，ht-1），并且，值經(jīng)過tanh函數(shù)，得到新的 ?，而1-門值會作用在ht-1上。W為權(quán)重矩陣，σ和tanh為激活函數(shù)。則最后GRU的輸出可以表示為：

zt=σ（Wz·[ht，xt]）

rt=σ（Wr·[ht-1，xt]）

=tanh（W·[rt*ht-1，xt]）

ht=（1-zt）*ht-1+zt*

神經(jīng)網(wǎng)絡(luò)模型中，除了需要確認epoch參數(shù)與batch_size外，還需要確定神經(jīng)網(wǎng)絡(luò)層數(shù)以及每層的神經(jīng)元個數(shù)，batch_size為一次訓(xùn)練時神經(jīng)網(wǎng)絡(luò)的讀入數(shù)據(jù)大小。合適的batch_size不僅可以增加梯度下降方向的準(zhǔn)確度，且能減小訓(xùn)練震蕩，加快收斂。epoch參數(shù)為模型訓(xùn)練次數(shù)，換言之，epoch參數(shù)即在模型不斷地根據(jù)訓(xùn)練集反復(fù)調(diào)整權(quán)重的過程中，給模型一個終止條件;而神經(jīng)網(wǎng)絡(luò)的層數(shù)以及每層的神經(jīng)元個數(shù)作為模型的構(gòu)成部分，直接影響著模型的訓(xùn)練效果。以上參數(shù)皆需要在訓(xùn)練前確認數(shù)值并輸入，通常由實驗中進行不斷的調(diào)試所得，本文中，神經(jīng)網(wǎng)絡(luò)的batch_size設(shè)置為4，epoch參數(shù)設(shè)置為180;神經(jīng)網(wǎng)絡(luò)層數(shù)設(shè)置為2，神經(jīng)元個數(shù)設(shè)置為432。

EMD依據(jù)數(shù)據(jù)自身的時間尺度特征來進行信號分解，不需要事先預(yù)定或強制給定基函數(shù)。可將非平穩(wěn)時間序列分解為有限個IMF。在此過程中，對于本文所對應(yīng)的非平穩(wěn)時間序列，EMD分解后的數(shù)據(jù)序列為：有限個IMF與Res序列。此時對于神經(jīng)網(wǎng)絡(luò)層數(shù)以及神經(jīng)元固定的GRU而言，預(yù)測精度將大大降低。

基于上述原因，本文對由EMD所得的數(shù)值進行歸一化處理，將值映射為[0，1]之間，待使用GRU完成每一個序列的預(yù)測后，再分別將歸一化數(shù)值返回為原來的數(shù)值，并求和，此時的總和就是我們的最終預(yù)測值。EMDN-GRU模型構(gòu)建過程如圖3所示。

EMDN-GRU的構(gòu)建步驟為：（1）采用EMD算法將得到的時間序列數(shù)據(jù)分解為有限個IMF序列與Res序列;（2）采用歸一化方法將IMF序列與殘差序列映射到[0，1]之間，并將每一個歸一化后的數(shù)據(jù)帶入GRU模型進行預(yù)測;（3）將預(yù)測后的數(shù)值進行反歸一化，并將數(shù)值相加，得到最終預(yù)測序列。

2.3 ?模型實現(xiàn)

為了降低預(yù)測應(yīng)用的計算成本和內(nèi)存消耗，在基于Spark并行處理框架的Hadoop分布式計算平臺中實現(xiàn)EMDN-GRU模型，實現(xiàn)乘客等待時間的并行預(yù)測。Spark框架下實現(xiàn)EMDN-GRU優(yōu)化模型，主要包括以下步驟：（1）讀取HDFS文件，創(chuàng)建RDD數(shù)據(jù)集，并按照車輛ID與時間排序;（2）將出租車狀態(tài)排序為（0，1，1）后，提取最后一個狀態(tài)為“1”的數(shù)據(jù)，根據(jù)經(jīng)緯度數(shù)據(jù)提取出車輛在目標(biāo)路段的數(shù)據(jù);（3）屬于目標(biāo)路段的車輛僅保留GPS時間數(shù)據(jù)，并將數(shù)據(jù)按30分鐘進行劃分;（4）使用下一個時間點的數(shù)據(jù)減去上一個時間點的數(shù)據(jù)，并在劃分好的時間區(qū)域內(nèi)，將其求均值，得到在該路段每隔30分鐘等到一輛出租車的時間;（5）使用EMD算法將得到的時間序列數(shù)據(jù)分解為IMF序列與Res序列;（6）采用歸一化方法將IMF序列與Res序列映射到[0，1]之間;（7）配置參數(shù)導(dǎo)入GRU模型，帶入上述IMF與Res序列進行預(yù)測;（8）將每一個預(yù)測值反歸一化，并且求其總和，作為最終預(yù)測;（9）將最終預(yù)測值與真實值進行對比，得出模型評價值。

3 ?案例研究與結(jié)果分析

3.1 ?實驗數(shù)據(jù)

采用本文使用的真實軌跡數(shù)據(jù)集。此外，本章選取北京市王府井的一條繁華路段：朝陽門南小街進行開展研究。GPS軌跡點的密度分布如圖4所示。從圖中可看到，路段選取主要為雙向車道?；疑珵榈谝宦范危咨珵榈诙范?。本文實驗數(shù)據(jù)主要采用第一路段，運用第一路段的歷史數(shù)據(jù)預(yù)測未來等待時間。

實驗中，將道路劃為坐標(biāo)軸，如圖5所示。

假設(shè)90°為出租車在道路一上行駛的筆直方向，與假設(shè)相對，出租車在道路二上行駛的筆直方向，為270°。當(dāng)方向為0°時，認為出租車已轉(zhuǎn)方向，準(zhǔn)備駛?cè)胗疫叺男÷罚它c進行數(shù)據(jù)預(yù)處理時已表明為上客點，如圖4所示，因此仍可認為在此點有乘客搭車并且搭車成功，只是之后的前行方向并未在目標(biāo)道路上，并不影響乘客的等待行為。同理，出租車行駛方向為180°時認為有乘客在此點搭車成功。

總的來說，出租車的車頭在一二象限時可認為出租車行駛方向一致?，F(xiàn)實中，出租車會在干道上進行超車，靠左行駛以及靠右行駛等變換方向的行為，但車頭都不會進行掉頭操作，因此在0°～180°內(nèi)認為出租車在道路一行駛，以坐標(biāo)軸的象限來說，此時出租車的車頭在三四象限。同理，車頭在180°～360°內(nèi)認為出租車在道路二行駛。數(shù)據(jù)集按照行駛方位的定義劃分為兩個數(shù)據(jù)集，一個為道路一的數(shù)據(jù)集，另一個為道路二的數(shù)據(jù)集。

道路數(shù)據(jù)集劃分開后，再對時間數(shù)據(jù)進行劃分，首先，將一天的時間按30分鐘進行劃分;其次，對已劃分完畢的30分鐘內(nèi)的時間點進行兩兩相減，求其時間間隔，最后將時間段內(nèi)的數(shù)據(jù)進行求均值操作，作為等待時間數(shù)據(jù)進行處理。

3.2 ?評價指標(biāo)

為了驗證所提出的EMDN-GRU模型的準(zhǔn)確性，我們將使用平均絕對百分比誤差（MAPE），均方根誤差（RMSE），平均絕對誤差（MAE），與最大誤差（ME）對模型的準(zhǔn)確性進行評估，上述指標(biāo)的計算公式分別為：

其中，Xt是由EMDN-GRU當(dāng)前路段在時間段內(nèi)的實際值，為同一時段內(nèi)當(dāng)前路段由EMDN-GRU模型得到的預(yù)測值，n為預(yù)測時間段內(nèi)總的數(shù)據(jù)值。

在大多數(shù)預(yù)測研究中，主要使用MAPE進行模型精確度驗證，MAPE值越低，預(yù)測精度越高。

3.3 ?高峰時間段選取

本實驗將2012年11月的時間數(shù)據(jù)分為一整天與早晚高峰期進行預(yù)測，對模型精確度進行檢測。早晚高峰期時間段從折線圖中選取。其中，以時間（Time）為橫軸，將時間按小時劃分，則04為凌晨四點，16為下午四點，以此類推;以乘客上客數(shù)（Pick-up-Number）為縱軸，將乘客在某一地點，一整天的上客數(shù)進行直觀展示，以此推出乘客高峰期。本文將時間分為工作日與周日。工作日選擇11月28日（星期三）與11月20日（星期二）進行展示，如圖6所示。

11月28日較于11月20日明顯，早高峰時間為08：00～10：00;晚高峰時間為16：00～18：00;11月20日早高峰時間為07：00～10：30;晚高峰時間為16：00～19：00。選取兩張圖形的共有時間段進行早晚高峰期定義，最終早高峰時間段為08：00～10：00;晚高峰時間段為16：00～18：00。

周末數(shù)據(jù)則選取11月03日（星期六）與11月25日（星期日）進行展示，如圖7所示。

周末與工作日的乘客出行特征顯然存在很大的區(qū)別，周末的折線圖高峰期主要集中在06：00～18：00與06：00～19：00，乘客上客數(shù)在此期間下降并不明顯且時間間隔短。但是圖7（a）中，最后的20：00～22：00有一個小高峰期。圖7（b）11月25日則是19：00～22：00，在此時間段內(nèi)，乘客上客數(shù)十分明顯為一個高峰期，接近凌晨時的高峰期與現(xiàn)代人生活規(guī)律的改變有關(guān)。結(jié)合以上分析，確認最終周末高峰期為：06：00～18：00與20：00～22：00。

3.4 ?實驗驗證與結(jié)果分析

3.4.1 ?周末高峰期預(yù)測

我們首先對周末數(shù)據(jù)進行序列分解，分解后序列的總和如圖8所示，由于原始序列為非平穩(wěn)序列，所以最初尋求極值點時，兩點間的數(shù)值差額較大，基于此，IMF1序列總體走勢較為陡峭。接下來使用原始時間序列減去IMF1序列，再次進行EMD算法，直至沒有IMF序列產(chǎn)生為止。為了驗證EMD算法得到的序列與初始數(shù)據(jù)的擬合程度，將由EMD算法所得到的序列進行求和，并與原始時間序列進行擬合，圖8為EMD算法所有序列的總和與原始時間序列的擬合情況圖。顯然，序列的總和與原始數(shù)據(jù)擬合效果很好，說明并未缺失初始數(shù)據(jù)。

在接下來的步驟中，使用周末數(shù)據(jù)進行預(yù)測，并且使用11月3日至11月4日的數(shù)據(jù)預(yù)測11月24日至11月25日，使用跨度較大的數(shù)據(jù)以檢驗EMDN-GRU模型是否能準(zhǔn)確提取出序列的分布特征，檢驗?zāi)Ｐ途?。并將EMDN-GRU與LSTM、EMD-LSTM、GRU、EMD-GRU進行對比。其各項指標(biāo)對比結(jié)果如表1所示，模型擬合程度如圖9所示，其中，實線為測試集，虛線為預(yù)測值。

表1中，由LSTM與GRU模型的指標(biāo)可知，GRU各個指標(biāo)確實均低于LSTM，因此改進模型選為GRU。使用EMD算法進行數(shù)據(jù)分解后，顯然波動較大的數(shù)據(jù)擬合效果有很大提升，ME數(shù)值明顯下降，但造成了總體的預(yù)測精度下降。針對此情況，考慮是由于EMD算法得到的序列間數(shù)值相差較大，因此采用歸一化，將數(shù)據(jù)映射到[0，1]之間，再進行預(yù)測，最后得出EMDN-GRU模型預(yù)測結(jié)果。首先圖9（e）中，預(yù)測值與真實值擬合情況理想，結(jié)合表1，其各項評價指標(biāo)明顯低于前四項模型。其中，與LSTM，GRU，EMD-LSTM，EMD-GRU相比，MAPE最少提高了4.571%，提高最大數(shù)值為19.085%;MAE最少提高了25.136，提高最大數(shù)值為49.541;RMSE最少提高了59.844，提高最大值為74.607;ME最少提高了187.484，提高最大值為375.727。

3.4.2 ?工作日高峰期預(yù)測

由圖6與圖7可知，周末與工作日的分布規(guī)律存在很大的差別。為了更進一步驗證驗證本文提出的EMDN-GRU模型的預(yù)測精度，本節(jié)將使用工作日數(shù)據(jù)預(yù)測下一工作日。選擇11月20日、11月21日與11月22日預(yù)測11月27日、11月28日與11月29日，并且取早高峰時間段為：08：00～

10：00;晚高峰時間段為：16：00～18：00。

同樣的，首先使用EMD算法將11月27日至11月29日的數(shù)據(jù)進行分解，11月20日至11月22日的數(shù)據(jù)在模型訓(xùn)練時已完成所有EMD與歸一化過程。11月27日至11月29日的時間序列使用EMD算法可得到分解序列，圖10為由EMD算法得到的所有序列的總和。

由圖10可直觀看出，EMD算法與原始序列的數(shù)值擬合程度很好，并未造成數(shù)據(jù)缺失等現(xiàn)象。

圖11分別為LSTM、GRU、EMD-GRU、EMD-LSTM與EMDN-GRU模型的運行結(jié)果圖，實線為測試集，虛線為模型預(yù)測結(jié)果。表2為各項模型的評價指標(biāo)。

由圖可直觀地看到，首先對于LSTM與GRU模型，預(yù)測值與真實數(shù)據(jù)之間差距較大，雖然對于波動幅度較小的數(shù)據(jù)預(yù)測效果較理想，但是一旦波動較大，就會失去準(zhǔn)確性，雖然GRU各項指標(biāo)優(yōu)于LSTM，但總體而言預(yù)測效果并不理想。而EMD-LSTM與EMD-GRU模型雖然預(yù)測的高低峰趨向與測試集大體走勢呈相同趨勢，但預(yù)測值與測試集之間仍然存在一定的數(shù)值差異。因此表2中，雖然EMD-LSTM與EMD-GRU的MAPE數(shù)值比LSTM與GRU模型分別高出4.856與17.546。但是其余三個指標(biāo)卻明顯低于LSTM與GRU模型的指標(biāo)，尤其是ME指標(biāo)，最低提高了190.533秒。最后，對于EMDN-GRU模型，可從圖10（e）中看到，無論是波動較高的數(shù)據(jù)，還是波動較低的數(shù)據(jù)，模型都能夠進行準(zhǔn)確預(yù)測。更進一步，從表2中的各項數(shù)值可以看出，MAPE數(shù)值最少提高了8.183%，提高數(shù)值最大為25.729%;MAE數(shù)值最少提高了30.907，提高數(shù)值最大為47.094;RMSE數(shù)值最少提高了32.469，提高數(shù)值最大為78.792;ME數(shù)值最少提高了91.569，提高數(shù)值最大為344.691。

4 ?結(jié) ?論

本文基于Spark并行框架提出一種EMDN-GRU模型，預(yù)測乘客等待時間。首先，使用EMD算法對非平穩(wěn)時間序列進行序列分解，分解為有限個IMF序列與Res序列;其次，通過對每一個序列進行歸一化，使得每一個序列的值都在[0，1]范圍內(nèi);最后，實現(xiàn)EMDN-GRU的預(yù)測，并與GRU、LSTM、EMD-LSTM與EMD-GRU比較預(yù)測結(jié)果。實驗結(jié)果顯示，EMDN-GRU模型預(yù)測結(jié)果明顯優(yōu)于其余四項模型，其中，周末的預(yù)測，EMDN-GRU與GRU、LSTM、EMD-LSTM與EMD-GRU相較而言，MAPE分別降低8.260%、4.571%、19.085%與18.144%。工作日的數(shù)據(jù)，MAPE分別降低10.123%、8.183%、14.979%與25.729%。實驗結(jié)果表明，本文提出的基于Spark并行框架的分布式EMDN-GRU模型能夠更為準(zhǔn)確地提供乘客等待時間。

參考文獻：

[1] YANG C，CHEN J J. A Scalable Data Chunk Similarity Based Compression Approach for Efficient Big Sensing Data Processing on Cloud [J].IEEE Transactions on Knowledge and Data Engineering，2017，29（6）：1144-1157.

[2] BASANTA-VAL P，AUDSLEY N C，WELLINGS A J，et al. Architecting Time-Critical Big-Data Systems [J].IEEE Transactions on Big Data，2016，2（4）：310-324.

[3] 夏大文.基于MapReduce的移動軌跡大數(shù)據(jù)挖掘方法與應(yīng)用研究 [D].重慶：西南大學(xué)，2016.

[4] LU R Q，JIN X L，ZHANG S M，et al. A Study on Big Knowledge and Its Engineering Issues [J].IEEE Transactions on Knowledge and Data Engineering，2019，31（9）：1630-1644.

[5] NUNES J，YASMINA B，DEL?CHELLE E，et al. Image analysis by bidimensional empirical mode decomposition [J].Image and Vision Computing，2003，21（12）：1019-1026.

[6] 齊觀德，李石堅，潘遙，等.基于出租車軌跡數(shù)據(jù)挖掘的乘客候車時間預(yù)測 [C]//第八屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議（HHME2012）論文集PCC.廣州：中國計算機學(xué)會多媒體技術(shù)專業(yè)委員會，2012：18-23.

[7] QI G D，PAN G，LI S J，et al. How Long a Passenger Waits for a Vacant Taxi--Large-Scale Taxi Trace Mining for Smart Cities [C]//Proceedings of the 2013 IEEE International Conference on Green Computing and Communications and IEEE Internet of Things and IEEE Cyber，Physical and Social Computing.Washington：IEEE Computer Society，2013：1029-1036.

[8] XU X J，ZHOU J Y，LIU Y，et al. Taxi-RS：Taxi-Hunting Recommendation System Based on Taxi GPS Data [J].IEEE Transactions on Intelligent Transportation Systems，2015，16（4）：1716-1727.

[9] HWANG R H，HSUEH Y L，CHEN Y T. An effective taxi recommender system based on a spatio-temporal factor analysis model [J].Information Sciences，2015，314：28-40.

[10] QIU Z，LI H Y，HONG S D，et al. Finding Vacant Taxis Using Large Scale GPS Traces [C]//Web-Age Information Management.IEEE，2014：793-804.

[11] 王詔遠，李天瑞，程堯，等.基于經(jīng)驗分布的打車概率和等待時間預(yù)測 [J].計算機工程與應(yīng)用，2015，51（24）：254-259.

[12] 陸俊天，孫玲，施佺.基于門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)的公交到站時間預(yù)測 [J].南通大學(xué)學(xué)報（自然科學(xué)版），2020，19（2）：43-49.

[13] CHEN C，WANG H，YUAN F，et al. Bus travel time prediction based on deep belief network with back-propagation [J].Neural Computing and Applications，2020，32（14）：10435-10449.

[14] MA J M，CHAN J，RISTANOSKI G，et al. Bus travel time prediction with real-time traffic information [J].Transportation Research Part C：Emerging Technologies，2019，105：536-549.

[15] HE P L，JIANG G Y，LAM S K，et al. Travel-Time Prediction of Bus Journey With Multiple Bus Trips [J].IEEE Transactions on Intelligent Transportation Systems，2019，20（11）：4192-4205.

[16] HUANG N E，SHEN Z，LONG S R，et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis [J].Proceedings of the Royal Society A：Mathematical，Physical and Engineering Sciences，1998，454（1971）：903-995.

[17] 戴邵武，陳強強，劉志豪，等.基于EMD-LSTM的時間序列預(yù)測方法 [J].深圳大學(xué)學(xué)報（理工版），2020，37（3）：265-270.

[18] BIAN D J，QIN S Q，WU W .A hybrid AR-DWT-EMD model for the short-term prediction of nonlinear and non-stationary ship motion [C]//Chinese Control and Decision Conference（CCDC），IEEE，2016：4042-4047.

[19] 姚洪剛，沐年國.EMD-LSTM模型對金融時間序列的預(yù)測 [J/OL].計算機工程與應(yīng)用，2020：1-6（2020-12-02）.http：//kns.cnki.net/kcms/detail/11.2127.TP.20201202.1130.002.html.

[20] 張可，崔樂.基于PCA-LSTM模型的多元時間序列分類算法研究 [J].統(tǒng)計與決策，2020（15）：44-49.

[21] ZHAO W，YANG H F，LI J Q，et al. Network Traffic Prediction in Network Security Based on EMD and LSTM [C]//Proceedings of the 9th International Conference on Computer Engineering and Networks（CENet2019）.湖南：南京中愛教育科技有限公司，2020：830-836.

[22] JIANG T J，ZHOU C G，ZHANG H Q. Time Series Forecasting with an EMD-LSSVM-PSO Ensemble Adaptive Learning Paradigm [C]//Proceedings of the 2018 International Conference on Computational Intelligence and Intelligent Systems.New York：Association for Computing Machinery，2018：44-50.

作者簡介：白宇（1994—），女，漢族，貴州仁懷人，碩士研究生，研究方向：統(tǒng)計學(xué)、海量數(shù)據(jù)統(tǒng)計與分析;鄭永玲（1995—），女，漢族，貴州畢節(jié)人，碩士研究生，研究方向：統(tǒng)計學(xué)、海量數(shù)據(jù)統(tǒng)計與分析;蔣順英（1996—），女，漢族，貴州興義人，碩士研究生，研究方向：統(tǒng)計學(xué)、海量數(shù)據(jù)統(tǒng)計與分析;楊楠（1997—），女，漢族，貴州盤縣人，碩士研究生，研究方向：統(tǒng)計學(xué)、海量數(shù)據(jù)統(tǒng)計與分析。