謝鑫鑫, 朱從坤
(蘇州科技大學(xué) 土木工程學(xué)院,江蘇 蘇州215011)
在社會倡導(dǎo)綠色出行,國內(nèi)公共交通系統(tǒng)不斷完善的背景下,基本型乘用汽車銷量目前呈現(xiàn)慢增長趨勢。 同時,基本型乘用型汽車銷售量受宏觀經(jīng)濟環(huán)境、消費政策、消費者收入水平等因素的影響較大,具有非線性和波動大的特點,這就要求汽車生產(chǎn)企業(yè)能較精準(zhǔn)地預(yù)測未來汽車銷量,從而為企業(yè)的材料采購、生產(chǎn)和營銷策略等的決策提供指導(dǎo)依據(jù)[1]。 時間序列是指將某一個統(tǒng)計指標(biāo)或現(xiàn)象在不同時間上的各個數(shù)值,按時間先后順序排列而形成的序列[2]。 由于國內(nèi)基本型乘用汽車銷量月度數(shù)據(jù)呈現(xiàn)的明顯非線性、非平穩(wěn)性,其可以看作為以月份為刻度,當(dāng)月銷量為統(tǒng)計值的時間序列。 因此研究汽車銷量月度數(shù)據(jù)形成的時間序列,并且建立時間序列預(yù)測模型,可以預(yù)測未來基本型乘用型汽車銷售量。
預(yù)測時間序列的算法模型大體可分為線性回歸模型、神經(jīng)網(wǎng)絡(luò)模型、支持向量機模型和自回歸差分移動平均模型等等[3]。 線性回歸模型可以對波動較平穩(wěn)且有規(guī)律的時間序列進行很好的預(yù)測,但當(dāng)時間粒度較小,或者歷史數(shù)據(jù)具有較大波動性時,預(yù)測精度會大大降低,因此該模型適用于序列波動情況小,預(yù)測時間粒度較大的研究對象;神經(jīng)網(wǎng)絡(luò)算法預(yù)測精度高,但容易陷入局部最優(yōu)值,且穩(wěn)定性差,收斂速度水平較低,網(wǎng)絡(luò)泛化能力較弱,需要收集大量類型數(shù)據(jù)來標(biāo)定輸入層和各隱藏層的參數(shù),應(yīng)用復(fù)雜;支持向量機性能受核函數(shù)影響大,且參數(shù)選取具有一定隨意性,建模計算復(fù)雜,不利于在生產(chǎn)實際中的運用普及;自回歸差分移動平均模型(ARIMA)對于波動性較小的且有規(guī)律的時間序列具有較高的預(yù)測精度,且應(yīng)用方法簡單,無需大量參數(shù)標(biāo)定,適用于普遍類型的時間序列預(yù)測中[4-6]。 汽車銷量月度數(shù)據(jù)呈現(xiàn)明顯非線性、非平穩(wěn)性特點,所以若將該復(fù)雜時間序列分解為若干平穩(wěn)時間序列,而后運用ARIMA 方法預(yù)測平穩(wěn)時間序列,則可使得汽車銷量預(yù)測方法變得簡便易使用。
本研究引入經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition,EMD),將復(fù)雜時間序列分解為若干平穩(wěn)時間序列。 經(jīng)驗?zāi)B(tài)分解最早是N. E. Huang 等于1998 年提出的一種處理分析非線性、非平穩(wěn)復(fù)雜信號的方法,即將復(fù)雜信號分解為若干平穩(wěn)序列[7]。 自EMD 提出以來,已廣泛應(yīng)用于故障分析、地球物理學(xué)、結(jié)構(gòu)分析等領(lǐng)域[8-9]。 目前也有越來越多的學(xué)者將EMD 與其他預(yù)測算法結(jié)合,將原始的復(fù)雜序列平穩(wěn)化,以適應(yīng)不同預(yù)測對象,提高預(yù)測精度。 劉慧婷等將EMD 與多層反饋神經(jīng)網(wǎng)絡(luò)相結(jié)合,將股票價格波動時間序列平穩(wěn)化,從而應(yīng)用于股票預(yù)測中的模擬匹配[10];Xun Zhang 等將EEMD 分別與FNN 和SVM 相結(jié)合,預(yù)測石油價格復(fù)雜變化,預(yù)測效果良好[11];任國成等同樣運用EMD 方法將非線性的電力負(fù)荷時間序列平穩(wěn)化,并結(jié)合LSTM 算法預(yù)測短期電力負(fù)荷[12];李棟和李曉龍則以EMD 法組合其他預(yù)測模型,分別預(yù)測了地區(qū)降水量和航空客流量,預(yù)測精度較好[13-14]。 綜上所述,可將非線性、非平穩(wěn)性的時間序列通過經(jīng)驗?zāi)B(tài)分解后可得到若干較平穩(wěn)序列,而后結(jié)合其他預(yù)測算法對平穩(wěn)序列進行預(yù)測,探求預(yù)測效果。
因此本文將運用經(jīng)驗?zāi)B(tài)分解(EMD)法對汽車月度銷量時間序列進行平穩(wěn)化分解。 首先通過對銷量月度歷史時間序列進行經(jīng)驗?zāi)B(tài)分解,得到若干平穩(wěn)本征模函數(shù)IMFn和一個殘差趨勢項R;其次將各分量重組為高、低頻序列和趨勢項序列,分別運用ARIMA 預(yù)測;而后將各分量預(yù)測結(jié)果匯總為最終預(yù)測數(shù)據(jù),并與實際值對比。
經(jīng)驗?zāi)B(tài)分解(EMD)是對數(shù)據(jù)時間序列或信號序列的平穩(wěn)化處理,僅僅依據(jù)數(shù)據(jù)自身的時間尺度特征進行原始信號的分解,把復(fù)雜信號分解成若干個本征模態(tài)函數(shù)IMF 以及一個殘差趨勢項R。 各分解出的本征模函數(shù)較原始信號變得相對平穩(wěn),且包含了原信號不同的尺度特征;殘差趨勢項平緩,表達了原信號的總體變化趨勢。 EMD 分解基本方法如下:
步驟(1)設(shè)原始信號序列為x(t),找出序列中所有極大值點和極小值點,并用三次樣條插值法分別擬合成原序列的上包絡(luò)線μ+(t)和下包絡(luò)線μ-(t),并取兩者均值為m1(t),公式如下
步驟(2)將均值m1(t)從原始序列x(t)中減去,得到新的序列f1(t),公式如下
若f1(t)不滿足本征模函數(shù)的確認(rèn)要求,則將f1(t)作為新的原始序列x1(t),重復(fù)上述步驟(1)和(2),直至得到的某個fk(t)滿足預(yù)設(shè)的本征模函數(shù)要求。 滿足本征模函數(shù)要求的兩個條件為:該函數(shù)fk(t)的極值點數(shù)目和過零點數(shù)目至多相差1;由局部極大值點和局部極小值點構(gòu)成的兩條包絡(luò)線平均值趨近于零。
步驟(3)令得到的第一個滿足本征模函數(shù)要求的fk(t)記為IMF1,將IMF1從原始序列x(t)中扣除得到新的序列r1(t),作為新的信號序列,重復(fù)步驟(1)和(2),直至得到的某個rn(t)為單調(diào)函數(shù)或簡單的趨勢曲線,將其作為殘差趨勢序列R。 最終,原始序列可以表達為若干個IMF 分量和一個殘差趨勢序列rn(t),即
本文涉及的國內(nèi)基本型乘用汽車(轎車)的當(dāng)期銷售量月度數(shù)據(jù)來源于中經(jīng)網(wǎng)統(tǒng)計數(shù)據(jù)庫。2000 年1 月至2019 年12 月,共240 個月當(dāng)期銷量為研究樣本,如圖1 中原始序列所示。 其中以2000 年1 月至2019 年6 月共234 個月的月度銷量數(shù)據(jù)為訓(xùn)練樣本,以2019 年7 月至2019 年12 月共6 個月的月度銷量數(shù)據(jù)為測試樣本,用于評價本文預(yù)測方法的準(zhǔn)確性。
圖1 銷量原始序列與殘差序列曲線
利用經(jīng)驗?zāi)B(tài)分解方法對前234 個汽車銷量月度數(shù)據(jù)進行處理,從而得到原始序列中不同時間尺度上的變化特征。 基于MATLAB 平臺,分解原始序列后,得到6 個IMF 分量以及1 個殘差趨勢項R。 如圖1 和圖2 所示,各IMF 分量波動頻率依次逐漸減小,較原始序列明顯平穩(wěn),殘差趨勢項R 表達了原始序列的總體趨勢。
圖2 EMD 分解結(jié)果
表1 給出了各IMF 分量和殘差序列R 與原始序列的皮爾森相關(guān)系數(shù)、肯德爾和諧系數(shù)以及方差。 皮爾森相關(guān)系數(shù)π 是用來反應(yīng)兩個變量線性相關(guān)強弱程度的統(tǒng)計量,π 可由(Xi,Yi) 樣本點的標(biāo)準(zhǔn)分?jǐn)?shù)均值估計,其值介于-1 到1 之間,絕對值越大表明相關(guān)性越強,計算方法如式(4)所示[16]。 肯達爾和諧系數(shù)是計算多個等級變量相關(guān)程度的一種方法[17],肯德爾和諧系數(shù)的取值范圍在-1 到1 之間,當(dāng)W 為1 時,表示兩個隨機變量擁有一致的等級相關(guān)性;當(dāng)W 為-1 時,表示兩個隨機變量擁有完全相反的等級相關(guān)性;當(dāng)W 為0 時,表示兩個隨機變量是相互獨立的,肯德爾和諧系數(shù)W 計算方法如式(5)所示。
式中,NCP(number of concordant pairs)為和諧觀察值對,NDCP(number of disconcordant pairs)為非和諧觀察值對。 序列X、Y,其元素個數(shù)均為n,兩個序列取的第i(1≤i≤n)個值分別用Xi、Yi表示,若Xi>Xj且Yi>Yj(或Xi<Xj且Yi<Yj),則為和諧觀察值對,其余情況為非和諧觀察值對。
由表1 可知,殘差序列R 的皮爾森相關(guān)系數(shù)和肯德爾和諧系數(shù)分別為0.963 和0.796,可見殘差序列與原始序列相關(guān)性最大,表達了原始序列的主要趨勢特征;分量IMF1~IMF3的相關(guān)系數(shù)總體大于IMF4~IMF6,但都遠小于殘差序列的相關(guān)系數(shù),即各分量表達了原始序列的次要特征。
方差大小反應(yīng)了序列的波動情況, 即變量偏離期望值的程度, 殘差序列方差占比原始序列方差為95.69%,反應(yīng)了原始序列的總體波動情況;IMF1~IMF6分量的方差貢獻率較小,表現(xiàn)為原始序列曲線在殘差趨勢曲線附近震蕩,如圖1 所示。 由于在篩選本征模函數(shù)IMF 時,應(yīng)用了三次樣條插值法分別擬合原序列的上包絡(luò)線和下包絡(luò)線, 因此, 導(dǎo)致篩選出的殘差序列R 與IMF1~IMF6的方差占原始序列方差之比的和為101.64%,略大于100%,是經(jīng)驗?zāi)B(tài)分解結(jié)果產(chǎn)生的不可避免的誤差。
表1 各分量相關(guān)統(tǒng)計結(jié)果
原始序列通過經(jīng)驗?zāi)B(tài)分解后,得到6 個本征模函數(shù)和1 個殘差序列趨勢項。 首先,分解出本征模函數(shù)時,采用的三次樣條插值法和終止條件,會使得重構(gòu)成的原始序列與實際原始序列之間存在一定分解誤差;其次,若每個IMF 分量,運用相關(guān)預(yù)測模型預(yù)測,然后將各分量的預(yù)測結(jié)果累加為最終預(yù)測結(jié)果,則會放大誤差。 因此應(yīng)通過對各本征模函數(shù)合理分組,形成高頻序列、低頻序列和趨勢序列后,再分別運用相關(guān)模型預(yù)測,可降低累積誤差。
通過對表1 的相關(guān)系數(shù)和方差占比的分析,以IMF1~IMF3累加得高頻序列,IMF4~IMF6累加得低頻序列,殘差序列R 為趨勢序列。 表2 為高、低頻序列和趨勢項序列的各相關(guān)系數(shù)以及方差占比情況,可見高頻序列在皮爾森相關(guān)系數(shù)、肯德爾和諧系數(shù)比原有各分量明顯提高,表明重組后的高頻序列較分量IMF1~IMF3與原始序列有更高的相關(guān)性。 低頻序列的皮爾森相關(guān)系數(shù)、肯德爾和諧系數(shù)較原有各分量無明顯提高,表示重組后的低頻序列反映了與原始序列較弱的相關(guān)性。
表2 高、低頻序列及趨勢項序列相關(guān)統(tǒng)計結(jié)果
將原始序列EMD 分解后的本征模函數(shù)進行高、低頻序列和趨勢項序列分組后,基于SPSS 平臺,采用差分自回歸移動平均模型(ARIMA)預(yù)測。 對于高頻序列,其偏自相關(guān)系數(shù)1 階截尾,自相關(guān)系數(shù)4 階截尾,季節(jié)性一階差分序列自相關(guān)系1 階截尾,可以建立ARIMA(1,0,4)(0,1,1)模型;對于低頻序列,其三階差分序列偏自相關(guān)系數(shù)4 階截尾, 季節(jié)性一階差分序列偏自相關(guān)系數(shù)和自相關(guān)系數(shù)均1 階截尾, 可以建立ARIMA(4,3,0)(1,1,1)模型;對于殘差趨勢項R,其四階差分序列偏自相關(guān)系數(shù)1 階截尾,可以建立ARIMA(1,4,0)模型。
預(yù)測結(jié)果如圖3 所示和表3 所列,曲線EMD-ARIMA 為將高、低頻序列以及趨勢項序列預(yù)測結(jié)果累加得到最終預(yù)測結(jié)果; 曲線ARIMA 為原始數(shù)據(jù)直接運用ARIMA 預(yù)測的結(jié)果; 曲線EMD-D-ARIMA 為將各IMF 分量與趨勢項序列分別運用ARIMA 預(yù)測的最終累加預(yù)測結(jié)果。
圖3 預(yù)測結(jié)果曲線
表3 預(yù)測結(jié)果
本文利用平均絕對百分比誤差(MAPE)、平均絕對誤差(MAD)和均方根誤差(MSE)評價預(yù)測精度,其計算公式分別如下[18]
EMD-ARIMA、ARIMA 和EMD-D-ARIMA 三種方法的預(yù)測誤差見表4。EMD-ARIMA 組合算法,在預(yù)測結(jié)果誤差分析中,其平均絕對百分比誤差(MAPE)、平均絕對誤差(MAD)和均方誤差(MSE)均最小,即相比較于直接運用ARIMA 方法預(yù)測和EMD-D-ARIMA,在基本型乘用汽車的月度銷量預(yù)測中EMD-ARIMA 組合算法預(yù)測效果更有優(yōu)勢。
表4 預(yù)測誤差
由于ARIMA 在預(yù)測平穩(wěn)序列時的精度較好,而原始汽車月度數(shù)據(jù)呈現(xiàn)非平穩(wěn)的特點,因此運用經(jīng)驗?zāi)B(tài)分解原始數(shù)據(jù)并重組后,原始數(shù)據(jù)被分解為相對平穩(wěn)的高、低頻序列和殘差序列,再運用ARIMA 模型預(yù)測效果會更好。 因為EMD 分解本身就不可避免存在誤差,若直接將EMD 分解后的IMF 分量和趨勢項R 分別運用ARIMA 預(yù)測并累加,則會導(dǎo)致預(yù)測誤差堆積,即EMD-D-ARIMA 預(yù)測算法較EMD-ARIMA 預(yù)測算法存在更大的誤差堆積。
本文運用經(jīng)驗?zāi)B(tài)分解方法,將國內(nèi)基本型乘用汽車的月度銷售量時間序列進行分解,得到6 個本征模函數(shù)和1 個殘差序列趨勢項,而后將各分量重組為高、低頻序列和一個趨勢項,并通過差分自回歸移動平均模型ARIMA 進行2019 年7 月至2019 年12 月的月度銷量預(yù)測, 相比直接運用ARIMA 和EMD-D-ARIMA預(yù)測,EMD-ARIMA 預(yù)測效果更好。在今后的研究中,可以考慮針對不同時間序列研究對象的特點,如預(yù)測時間粒度和序列平穩(wěn)性等等,運用其他合適預(yù)測算法與經(jīng)驗?zāi)B(tài)分解EMD 進行組合預(yù)測,探究經(jīng)驗?zāi)B(tài)分解方法在時間序列預(yù)測中的合理性和適用性。