張 杰,甄柳琳,徐 碩,翟東升
北京工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,北京100124
農(nóng)業(yè)是國計(jì)民生的基礎(chǔ),農(nóng)產(chǎn)品經(jīng)濟(jì)更關(guān)乎我國的經(jīng)濟(jì)命脈。作為我國最早推出的期貨種類,農(nóng)產(chǎn)品期貨市場(chǎng)正呈蓬勃態(tài)勢(shì)發(fā)展,是金融市場(chǎng)不可或缺的組成部分。近年來,隨著全球經(jīng)貿(mào)發(fā)展、金融危機(jī)及地緣政治等因素影響,全球經(jīng)濟(jì)不確定性上升,農(nóng)產(chǎn)品期貨價(jià)格波動(dòng)不穩(wěn)定性加劇。如何結(jié)合相關(guān)變量、利用技術(shù)手段量化預(yù)測(cè)價(jià)格波動(dòng)規(guī)律,對(duì)我國宏觀政策制定、預(yù)警系統(tǒng)性金融風(fēng)險(xiǎn)、加速推動(dòng)更有效的期貨市場(chǎng)體系的建立具有指導(dǎo)價(jià)值。也為投機(jī)者規(guī)避價(jià)格風(fēng)險(xiǎn),進(jìn)行套期保值與套利策略制定提供依據(jù)。
在金融時(shí)間序列預(yù)測(cè)研究中,有學(xué)者采用統(tǒng)計(jì)學(xué)方法進(jìn)行預(yù)測(cè),如VAR[1]、ARIMA[2]等。該類方法具備靈活性和適應(yīng)性,但往往對(duì)非線性序列擬合效果不佳[3]。金融時(shí)間序列具備非線性、多噪聲的復(fù)雜特征,如何捕捉序列的動(dòng)態(tài)變化趨勢(shì)是一個(gè)巨大的挑戰(zhàn)。
近年來,隨著人工智能的發(fā)展,深度學(xué)習(xí)方法被廣泛應(yīng)用到金融時(shí)間序列預(yù)測(cè)問題上?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的方法能夠在時(shí)間尺度上實(shí)現(xiàn)特征提取任務(wù)[4],而如何挖掘變量間相關(guān)性特征問題得到了廣泛關(guān)注。近期開發(fā)的LSTNet[5]、TPA-LSTM[6]模型在CNN、RNN網(wǎng)絡(luò)的基礎(chǔ)上引入編碼器-解碼器結(jié)構(gòu)及注意力機(jī)制,有效捕獲多元時(shí)間序列的非線性模式。然而,該類模型在處理較長序列時(shí)表現(xiàn)不佳,且并未對(duì)變量間的依存關(guān)系進(jìn)行顯式建模,弱化了模型的可解釋性。
有學(xué)者將多元時(shí)間序列視為圖結(jié)構(gòu),將變量視為圖形中的節(jié)點(diǎn),利用圖卷積網(wǎng)絡(luò)捕獲節(jié)點(diǎn)間的相互依賴關(guān)系[7]。目前,基于圖卷積網(wǎng)絡(luò)的方法主要分為基于譜(spectral-based)和基于空間(spatial-based)的方法[8]。基于譜的網(wǎng)絡(luò)往往利用正則化拉普拉斯矩陣研究無向圖特征,而金融時(shí)間序列變量間往往存在因果關(guān)系信息,即節(jié)點(diǎn)間具備有向相關(guān)性特征。故基于空間的模型能夠更適應(yīng)于處理有向多源輸入,但如何利用圖神經(jīng)網(wǎng)絡(luò)對(duì)金融時(shí)間序列變量間的因果關(guān)系進(jìn)行定量表征仍是一個(gè)挑戰(zhàn)。
為應(yīng)對(duì)以上挑戰(zhàn),本文提出了一種端到端的預(yù)測(cè)框架。設(shè)計(jì)時(shí)間卷積網(wǎng)絡(luò)捕獲代表序列的節(jié)點(diǎn)特征,發(fā)現(xiàn)多頻率時(shí)間模式,應(yīng)對(duì)長序列處理挑戰(zhàn);利用傳遞熵構(gòu)建節(jié)點(diǎn)間的鄰接關(guān)系矩陣,解決序列間的因果關(guān)系特征問題;設(shè)計(jì)圖神經(jīng)網(wǎng)絡(luò)模型TE-GNN(graph neural network with transfer entropy),并應(yīng)用于農(nóng)產(chǎn)品期貨預(yù)測(cè)任務(wù)中。主要貢獻(xiàn)概括如下:
(1)構(gòu)建融合傳遞熵的圖神經(jīng)網(wǎng)絡(luò)模型,以變量間的因果關(guān)系作為先驗(yàn)信息構(gòu)建傳遞熵圖,指導(dǎo)預(yù)測(cè)任務(wù)。
(2)在端到端學(xué)習(xí)框架中,從圖的角度出發(fā),提取時(shí)間維度信息表示節(jié)點(diǎn)特征;同時(shí)利用傳遞熵矩陣表示節(jié)點(diǎn)間的鄰接關(guān)系,最后使用圖神經(jīng)網(wǎng)絡(luò)融合鄰域節(jié)點(diǎn)間的信息,對(duì)多元時(shí)間序列進(jìn)行建模。
(3)在真實(shí)的大豆期貨數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。結(jié)果表明,TE-GNN模型的預(yù)測(cè)效果在MAE、RMSE指標(biāo)上優(yōu)于現(xiàn)有通用的時(shí)間序列預(yù)測(cè)模型。
目前已有學(xué)者就農(nóng)產(chǎn)品期貨價(jià)格預(yù)測(cè)問題進(jìn)行了研究,預(yù)測(cè)方法集中于利用統(tǒng)計(jì)學(xué)方法與深度學(xué)習(xí)方法。
就統(tǒng)計(jì)學(xué)方法而言,自回歸模型、移動(dòng)平均模型及指數(shù)平滑模型等視序列具備線性變化特征,通過挖掘歷史數(shù)據(jù)隱含信息實(shí)現(xiàn)價(jià)格波動(dòng)趨勢(shì)的預(yù)測(cè)。Yang等[9]構(gòu)建具有時(shí)變稀疏性的HAR模型,利用波動(dòng)率及其他潛在預(yù)測(cè)因子實(shí)現(xiàn)對(duì)中國農(nóng)產(chǎn)品期貨波動(dòng)率的預(yù)測(cè);Wang[10]構(gòu)建ARIMA模型,利用自回歸系數(shù)(p)、差分時(shí)間(d)和移動(dòng)平均系數(shù)(q)對(duì)大豆期貨收盤價(jià)進(jìn)行預(yù)測(cè)。以統(tǒng)計(jì)學(xué)為學(xué)科基礎(chǔ)的預(yù)測(cè)模型具備良好可解釋性的優(yōu)點(diǎn),但往往需要復(fù)雜的特征工程,且對(duì)具備非線性復(fù)雜特征的農(nóng)產(chǎn)品期貨數(shù)據(jù)的預(yù)測(cè)能力往往表現(xiàn)不佳。
隨著人工智能的發(fā)展,深度學(xué)習(xí)模型在圖像識(shí)別、自然語言處理等領(lǐng)域表現(xiàn)良好。從非線性特征出發(fā),通過堆疊神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)復(fù)雜非線性特征的擬合,成為了當(dāng)前領(lǐng)域研究的熱點(diǎn)與前沿。Zong等[11]采用BP神經(jīng)網(wǎng)絡(luò)對(duì)農(nóng)產(chǎn)品期貨價(jià)格進(jìn)行預(yù)測(cè),驗(yàn)證了模型具備比統(tǒng)計(jì)模型更高的預(yù)測(cè)精度;Kurumatani[12]構(gòu)建基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的時(shí)間序列預(yù)測(cè)方法,驗(yàn)證了RNN網(wǎng)絡(luò)在農(nóng)產(chǎn)品期貨價(jià)格預(yù)測(cè)上的有效性。為解決傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)金融時(shí)間序列預(yù)測(cè)的長期依賴問題及梯度爆炸問題,Jia等[13]設(shè)計(jì)結(jié)合長短期記憶網(wǎng)絡(luò)(LSTM)及注意力機(jī)制的時(shí)間序列預(yù)測(cè)模型,對(duì)農(nóng)產(chǎn)品價(jià)格指數(shù)進(jìn)行預(yù)測(cè),有效提高了傳統(tǒng)模型的預(yù)測(cè)精度。
上述研究主要致力于對(duì)序列本身波動(dòng)特征的挖掘,農(nóng)產(chǎn)品期貨價(jià)格走勢(shì)仍反映了市場(chǎng)中交易雙方博弈過程中的信息。我國農(nóng)產(chǎn)品期貨進(jìn)出口依存度高、需求量大。考慮到由供求關(guān)系導(dǎo)致的價(jià)格波動(dòng)情況,通過表征國際農(nóng)產(chǎn)品期貨價(jià)格的相關(guān)性特征,對(duì)價(jià)格波動(dòng)走勢(shì)進(jìn)行預(yù)測(cè),將有效提高預(yù)測(cè)精度[14]。
圖是一種多元時(shí)間序列的特殊表達(dá)形式,將變量視為節(jié)點(diǎn),利用節(jié)點(diǎn)間的鄰接關(guān)系可清晰地表征變量間的相關(guān)性特征。在構(gòu)建圖的過程中,現(xiàn)有方法假定節(jié)點(diǎn)間皆存在依存關(guān)系[15]。事實(shí)上,變量間的因果干預(yù)作用將對(duì)序列未來值產(chǎn)生影響,通過先驗(yàn)因果信息表達(dá)變量之間的相互作用將為預(yù)測(cè)提供指導(dǎo)[16]。目前對(duì)序列因果關(guān)系表征集中于利用格蘭杰因果關(guān)系檢驗(yàn)與基于因果分析的傳遞熵方法。前者針對(duì)平穩(wěn)序列構(gòu)造自回歸等經(jīng)典計(jì)量經(jīng)濟(jì)模型,依次判斷變量間是否存在長期均衡的因果關(guān)系,缺點(diǎn)是無法較好地處理變量間的非線性關(guān)系。傳遞熵方法在處理非線性關(guān)系時(shí)表現(xiàn)良好,目前已在金融時(shí)間序列挖掘、信號(hào)處理等領(lǐng)域得到廣泛應(yīng)用[17]。
鑒于此,本文提出一種融合傳遞熵的圖神經(jīng)網(wǎng)絡(luò)農(nóng)產(chǎn)品期貨預(yù)測(cè)模型,利用時(shí)間卷積模塊提取序列時(shí)間維度信息,并映射為圖中的節(jié)點(diǎn)特征;同時(shí),將傳遞熵矩陣視為節(jié)點(diǎn)間的鄰接矩陣,表達(dá)國內(nèi)外市場(chǎng)農(nóng)產(chǎn)品期貨價(jià)格的因果依賴關(guān)系;利用圖卷積模塊識(shí)別圖結(jié)構(gòu)特征,捕獲信息從鄰域傳遞到節(jié)點(diǎn)本身的高級(jí)表示,最終得到TE-GNN模型的單步預(yù)測(cè)輸出。
針對(duì)各國市場(chǎng)農(nóng)產(chǎn)品期貨價(jià)格的預(yù)測(cè)任務(wù),給定多元時(shí)間序列X={X1,X2,…,XT}∈?T×N,令表示第t個(gè)時(shí)間步處N個(gè)變量的觀測(cè)值,Xn∈?T表示第n個(gè)變量在T個(gè)時(shí)間步內(nèi)的觀測(cè)值。構(gòu)建圖G=(V,E),其中V為節(jié)點(diǎn)集,E為邊集。從圖的角度看,視不同市場(chǎng)的期貨價(jià)格變量為圖中的節(jié)點(diǎn);計(jì)算變量間的傳遞熵作為圖鄰接矩陣,表述節(jié)點(diǎn)間的有向關(guān)系。根據(jù)T時(shí)段內(nèi)的歷史價(jià)格數(shù)據(jù)X和反映變量間依賴關(guān)系的圖G,預(yù)測(cè)未來第h天的期貨價(jià)格構(gòu)建映射關(guān)系f(·)表示如下:
模型整體結(jié)構(gòu)框架如圖1所示。輸入農(nóng)產(chǎn)品期貨歷史價(jià)格數(shù)據(jù),利用時(shí)間卷積模塊識(shí)別序列時(shí)間模式,并映射為圖結(jié)構(gòu)中的節(jié)點(diǎn)特征,其中每個(gè)變量視作一個(gè)節(jié)點(diǎn);計(jì)算輸入序列的傳遞熵矩陣,作為權(quán)重系數(shù)表示節(jié)點(diǎn)間的鄰接關(guān)系,由此將序列映射為圖結(jié)構(gòu)。利用圖卷積模塊實(shí)現(xiàn)鄰域節(jié)點(diǎn)間的信息交互。為避免梯度消失問題,使用殘差連接方法[18]連接m層輸出特征,經(jīng)標(biāo)準(zhǔn)卷積操作將隱含特征投影為所需尺寸,實(shí)現(xiàn)多元時(shí)間序列預(yù)測(cè)任務(wù)。
圖1 TE-GNN模型整體結(jié)構(gòu)框架Fig.1 Overall structure framework of TE-GNN model
在輸入時(shí)間窗口內(nèi),構(gòu)建圖G表示節(jié)點(diǎn)特征及變量間的鄰接關(guān)系。在分析表示節(jié)點(diǎn)特征的單變量序列時(shí),需考慮觀測(cè)值隨時(shí)間變化的趨勢(shì)。金融時(shí)間序列往往伴隨著一定的周期性時(shí)間模式,故設(shè)置時(shí)間卷積模塊,以多個(gè)特定的時(shí)間周期為單位提取序列特征,實(shí)現(xiàn)序列長短期信號(hào)模式的挖掘。時(shí)間卷積模塊通過識(shí)別單個(gè)變量的時(shí)間依賴性信息,表示為節(jié)點(diǎn)的隱含特征向量,結(jié)構(gòu)如圖2所示。
圖2 時(shí)間卷積模塊Fig.2 Temporal convolution module
時(shí)間卷積模塊利用擴(kuò)張卷積(dilated convolution)[7]處理輸入數(shù)據(jù),即在標(biāo)準(zhǔn)的卷積核中注入空洞,從而在保留模型參數(shù)量的同時(shí)增加感受野大小。通過一組具有不同尺寸的濾波器,實(shí)現(xiàn)對(duì)序列不同頻率時(shí)間模式特征的提取。使用p個(gè)不同的一維卷積濾波器Wi(i=1,2,…,p),生成不同尺寸的卷積核1×ki(i=1,2,…,p),對(duì)輸入序列Xn∈?T進(jìn)行時(shí)間尺度的卷積。串聯(lián)卷積提取的特征,實(shí)現(xiàn)序列不同時(shí)間模式特征的挖掘,過程表示如下:
其中,tanh(·)為雙曲正切激活函數(shù),并用作過濾器,σ(·)為sigmoid激活函數(shù),用于控制卷積核傳遞給下一模塊的信息量比率。*表示卷積運(yùn)算,⊙表示元素哈達(dá)瑪積,Concat(·)表示串聯(lián)運(yùn)算。金融時(shí)間序列具有的固定周期多為5、7、12、24、28、60,為表示包含這些周期的時(shí)間模式,采用四種濾波器尺寸,即p=4,Wi=2、3、6、7,生成1×2、1×3、1×6、1×7大小的卷積核來覆蓋上述固定周期。
傳遞熵(transfer entropy)常用于對(duì)變量間信息傳遞過程的研究。通過計(jì)算一個(gè)變量信息量傳遞后被觀測(cè)變量的不確定度,來表征兩個(gè)變量之間的因果關(guān)系。
在多元時(shí)間序列預(yù)測(cè)任務(wù)中,通過計(jì)算傳遞熵作為節(jié)點(diǎn)的鄰接矩陣,表示其余變量對(duì)目標(biāo)變量的影響程度,將有效降低模型訓(xùn)練難度,防止不相關(guān)變量被模型學(xué)習(xí)。當(dāng)變量Y由未知變?yōu)橐阎獣r(shí),變量X的信息量的增加即為Y到X的傳遞熵,表示如下:
則變量X和Y間的因果關(guān)系可表示如下:
當(dāng)TX,Y>0時(shí),表示變量X是Y的原因,TX,Y<0則表示X是Y的結(jié)果。
利用傳遞熵矩陣作為多元時(shí)間序列的先驗(yàn)信息,通過計(jì)算序列的傳遞熵矩陣T∈?N×N作為圖的鄰接矩陣,表示節(jié)點(diǎn)間的交互關(guān)系。傳遞熵矩陣T的第i行第j列元素Tij表征了變量Xi和變量Xj間的因果關(guān)系,當(dāng)i=j時(shí),取Tij=1;當(dāng)i≠j時(shí),Tij計(jì)算公式如下:
其中,Xi,Xj∈?T,分別表示序列X的第i個(gè)、第j個(gè)變量,Tij數(shù)值的大小將直接反映變量Xj對(duì)Xi的影響程度。
繼提取節(jié)點(diǎn)特征及節(jié)點(diǎn)間的鄰接關(guān)系后,輸入的多元時(shí)間序列由矩陣X∈?T×N轉(zhuǎn)為由N個(gè)節(jié)點(diǎn)構(gòu)成的圖特征矩陣H∈?N×c,其中c為時(shí)間卷積通道數(shù)。實(shí)現(xiàn)圖的構(gòu)建過程后,利用圖卷積模塊處理圖特征矩陣,將節(jié)點(diǎn)信息與鄰域信息結(jié)合,實(shí)現(xiàn)對(duì)節(jié)點(diǎn)信息流的表示,結(jié)構(gòu)如圖3所示。
圖3 圖卷積模塊Fig.3 Graph convolution module
通過傳遞熵矩陣T表示節(jié)點(diǎn)的鄰接關(guān)系,利用信息傳播與注意力機(jī)制[19]兩個(gè)組件處理節(jié)點(diǎn)信息流。信息傳播部分結(jié)合圖結(jié)構(gòu)特征,遞歸地傳播節(jié)點(diǎn)信息,表示如下:
其中,H(k)表示傳播層深度為k時(shí)的信息傳播狀態(tài),α為控制節(jié)點(diǎn)保持原始狀態(tài)比例的超參數(shù),h={h1,h2,…,hN}為時(shí)間卷積模塊輸出的每個(gè)節(jié)點(diǎn)的隱含層狀態(tài),T為X的傳遞熵矩陣。
注意力機(jī)制部分利用參數(shù)矩陣β(k)充當(dāng)信息傳播狀態(tài)的權(quán)重,篩選重要信息特征并傳播給下一層,由此可實(shí)現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)本身及鄰域信息的特征提取,表示如下:
為將隱含層信息輸出為期望的維度,在輸出模塊進(jìn)行殘差連接操作和設(shè)置標(biāo)準(zhǔn)卷積層。由于最終輸入到輸出模塊的信息為多個(gè)模塊的拼接,故使用卷積核大小為1×Li的標(biāo)準(zhǔn)卷積并進(jìn)行殘差連接,將輸入信息標(biāo)準(zhǔn)化,使其具備相同的序列長度,其中Li為第i層輸出的序列長度。此外,利用卷積核大小為1×l的標(biāo)準(zhǔn)卷積層,在指定的維度下輸出最終的預(yù)測(cè)值X?T+h∈?N。
作為較早推出的農(nóng)產(chǎn)品期貨品種,大豆期貨價(jià)格走勢(shì)呈非線性、非平穩(wěn)特征,如何對(duì)大豆期貨價(jià)格走勢(shì)進(jìn)行預(yù)測(cè)則成為了一項(xiàng)備受關(guān)注的課題[20]。目前,美國、日本、巴西等大豆主產(chǎn)國在中國大豆進(jìn)口貿(mào)易中占據(jù)主導(dǎo)地位,合理利用國內(nèi)外大豆期貨市場(chǎng)間的聯(lián)動(dòng)性特征將有效提高預(yù)測(cè)性能。選用2012年3月21日至2019年12月30日期間內(nèi),中國大連商品交易所(DCE)上市的黃大豆一號(hào)期貨合約、美國芝加哥商品交易所(CBOT)、日本東京商品交易所(TOCOM)及巴西圣保羅證券期貨交易所(BM&F)上市的大豆期貨合約的日收盤價(jià)格數(shù)據(jù)作為數(shù)據(jù)集,數(shù)據(jù)來源于英為財(cái)情(Investing)。以時(shí)間為尺度匹配、對(duì)齊各國期貨交易所的大豆期貨交易數(shù)據(jù),考慮到由節(jié)假日、停盤等因素導(dǎo)致的數(shù)據(jù)缺失問題,將缺失數(shù)據(jù)對(duì)應(yīng)時(shí)間步的各國期貨交易所數(shù)據(jù)皆予以剔除處理,由此可獲得1 673組樣本觀測(cè)值,樣本總數(shù)為6 692條,實(shí)驗(yàn)數(shù)據(jù)的描述性統(tǒng)計(jì)如表1所示。
觀察表1可知,不同市場(chǎng)大豆期貨原始價(jià)格數(shù)據(jù)均值、偏度及峰度等統(tǒng)計(jì)量相差較大,考慮到不同變量數(shù)據(jù)間不同量綱的影響,對(duì)數(shù)據(jù)集進(jìn)行MinMaxScaler歸一化處理,定義如下:
表1 大豆期貨價(jià)格數(shù)據(jù)的描述性統(tǒng)計(jì)Table 1 Descriptive statistics of soybean futures price data
其中,xnorm為x在[0,1]之間的縮放表示,x、xmax及xmin分別表示各國大豆期貨收盤價(jià)數(shù)據(jù)的原始觀測(cè)值及其最大值、最小值。按時(shí)間順序劃分訓(xùn)練集(80%)、驗(yàn)證集(10%)和測(cè)試集(10%),使用滑動(dòng)窗口技術(shù)以窗口長度為T時(shí)間步長的多元時(shí)間序列作為TE-GNN模型的輸入,以任一時(shí)間t+1為始的輸入{Xt+1,Xt+2,…,Xt+T}∈?T×N都可得到預(yù)測(cè)值X?t+T+h∈?N。
為驗(yàn)證TE-GNN模型的預(yù)測(cè)性能,將模型與以下7種基線模型進(jìn)行比較:
(1)VAR[1]:向量自回歸模型,可分析序列自身滯后項(xiàng)的影響及相關(guān)變量的滯后項(xiàng)對(duì)未來值的影響。
(2)RNN-LSTM[13]:長短期記憶網(wǎng)絡(luò),主要利用門控單元來解決循環(huán)神經(jīng)網(wǎng)絡(luò)梯度爆炸問題。
(3)LSTNet[5]:一種專門針對(duì)多元時(shí)間序列設(shè)計(jì)的深層神經(jīng)網(wǎng)絡(luò),結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)及自回歸組件。
(4)Seq2Seq-LSTM[21]:一種循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,基于編碼器-解碼器結(jié)構(gòu)下的LSTM網(wǎng)絡(luò)。
(5)TPA-LSTM[6]:一種基于注意力機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò),主要利用注意力機(jī)制選擇相關(guān)變量進(jìn)行加權(quán),從而實(shí)現(xiàn)多元時(shí)間序列預(yù)測(cè)任務(wù)。
(6)GMAN[22]:一種基于多級(jí)注意力機(jī)制神經(jīng)網(wǎng)絡(luò),在編碼器-解碼器結(jié)構(gòu)下為序列的變量相關(guān)性特征和時(shí)間模式特征加權(quán)。
(7)MTGNN[7]:一種基于圖神經(jīng)網(wǎng)絡(luò)的多元時(shí)間序列預(yù)測(cè)模型,可自適應(yīng)地提取圖結(jié)構(gòu)關(guān)系。
(1)指標(biāo)設(shè)置
為衡量模型預(yù)測(cè)性能,采用兩種傳統(tǒng)的評(píng)價(jià)指標(biāo)來評(píng)價(jià)多元時(shí)間序列預(yù)測(cè)模型性能,平均絕對(duì)誤差(mean absolute error,MAE)及相對(duì)平方根誤差(root mean square error,RMSE),定義為:
其中,N為變量個(gè)數(shù),D為窗口個(gè)數(shù),表示第j個(gè)窗口下第i個(gè)變量的觀測(cè)值,表示對(duì)應(yīng)的模型預(yù)測(cè)值。通過上述兩個(gè)指標(biāo)衡量觀測(cè)值與預(yù)測(cè)值間的差異,誤差越小,表示該模型具有的預(yù)測(cè)性能越好。
(2)參數(shù)設(shè)置
利用Python 3.7及PyTorch 1.2深度學(xué)習(xí)框架構(gòu)建模型,使用網(wǎng)格搜索法確定最優(yōu)超參數(shù),通過L1正則化計(jì)算損失。設(shè)置dropout率={0.1,0.2,0.3},Batch size={16,32,64},時(shí)間窗口大小Window={12,24,36},學(xué)習(xí)率=1E-4,殘差連接通道數(shù)為16,輸出通道為64。
此外,對(duì)具有代表性且對(duì)預(yù)測(cè)效果產(chǎn)生重要影響的模型參數(shù)進(jìn)行調(diào)優(yōu),包括網(wǎng)絡(luò)層數(shù)m、時(shí)間卷積層中卷積核通道數(shù)c及圖卷積層信息傳播深度k。在控制模型其他參數(shù)不變情況下,設(shè)計(jì)參數(shù)取值水平為m={1,3,5,7},c={16,32,64,128},k={1,3,5,7},參數(shù)對(duì)預(yù)測(cè)結(jié)果的影響如圖4所示。由圖4可選擇網(wǎng)絡(luò)層數(shù)為m=5、卷積核通道數(shù)c=64、信息傳播深度k=3。
圖4 模型參數(shù)對(duì)預(yù)測(cè)結(jié)果的影響Fig.4 Influence of model parameters on prediction results
模型訓(xùn)練集及驗(yàn)證集損失值隨迭代次數(shù)增加的變化趨勢(shì)如圖5所示,訓(xùn)練集在經(jīng)過50次迭代后,損失值將基本不再下降,故選擇TE-GNN模型迭代次數(shù)為50次。此外,對(duì)于所有基線的神經(jīng)網(wǎng)絡(luò)模型,遞歸層與卷積層的隱藏層維數(shù)={16,32,64,128}。不同優(yōu)化器在相同參數(shù)環(huán)境下對(duì)模型性能的影響情況如表2所示,Adam優(yōu)化器通過動(dòng)量累積梯度,具備收斂速度快、波動(dòng)幅度小的優(yōu)點(diǎn),故采用Adam優(yōu)化器對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。
表2 優(yōu)化器對(duì)預(yù)測(cè)結(jié)果的影響Table 2 Influence of optimizers on prediction results
圖5 隨迭代次數(shù)增加TE-GNN模型損失值變化情況Fig.5 Loss of TE-GNN model changes with number of iterations
本文構(gòu)建TE-GNN預(yù)測(cè)模型,利用傳遞熵矩陣表示不同市場(chǎng)下的大豆期貨變量間的因果鄰接關(guān)系;時(shí)間卷積模塊通過設(shè)置不同尺寸的卷積核,識(shí)別序列周期性時(shí)間模式,并用作節(jié)點(diǎn)特征表示;在圖卷積模塊通過設(shè)置信息傳播與注意力機(jī)制實(shí)現(xiàn)節(jié)點(diǎn)及其鄰域特征信息的提取與選擇。表3總結(jié)了基線模型與TE-GNN模型在預(yù)測(cè)時(shí)間步長h={1,3,5,7}情況下的預(yù)測(cè)結(jié)果。每個(gè)預(yù)測(cè)時(shí)間步長下不同指標(biāo)的最佳預(yù)測(cè)結(jié)果如表3粗體所示。
表3 TE-GNN模型與基線模型的預(yù)測(cè)結(jié)果Table 3 Prediction results of TE-GNN model and baselines 10-2
實(shí)驗(yàn)結(jié)果表明,基于傳遞熵和圖神經(jīng)網(wǎng)絡(luò)的TE-GNN模型在不同預(yù)測(cè)時(shí)間步長下的MAE、RMSE指標(biāo)預(yù)測(cè)結(jié)果皆優(yōu)于基線模型。其中在h=1時(shí),TE-GNN模型在MAE誤差指標(biāo)上比基線模型降低2.53%至80.70%,在RMSE誤差指標(biāo)上降低1.60%至76.48%;h=3時(shí),在MAE誤差指標(biāo)上比基線模型降低1.45%至66.75%,在RMSE誤差指標(biāo)上降低0.93%至60.52%;h=5時(shí),在MAE誤差指標(biāo)上比基線模型降低6.05%至54.09%,在RMSE誤差指標(biāo)上降低4.11%至52.05%;h=7時(shí),在MAE誤差指標(biāo)上比基線模型降低4.46%至54.95%,在RMSE誤差指標(biāo)上降低1.89%至49.51%。
如圖6所示,TE-GNN模型在短期及中長期預(yù)測(cè)性能皆由于基線模型,能夠?qū)崿F(xiàn)變量時(shí)間模式特征的表征及變量間依賴關(guān)系特征的提取任務(wù)。相比之下,VAR模型考慮變量間的跨期動(dòng)態(tài)相關(guān)性,但由于其無法處理非線性復(fù)雜變量間的因果關(guān)系而具備最大的預(yù)測(cè)誤差。RNN-LSTM網(wǎng)絡(luò)、LSTNet及在編碼器解碼器結(jié)構(gòu)下的Seq2Seq-LSTM網(wǎng)絡(luò)僅關(guān)注了序列的時(shí)間相關(guān)性特征而具備了較差的預(yù)測(cè)效果。相對(duì)而言,TPA-LSTM模型及GMAN模型引入了注意力機(jī)制,為序列的時(shí)間相關(guān)性及變量間的非線性相關(guān)性動(dòng)態(tài)加權(quán),具備了更好的預(yù)測(cè)性能。此外,MTGNN模型通過圖學(xué)習(xí)層自適應(yīng)嵌入圖的鄰接關(guān)系,作為基于圖神經(jīng)網(wǎng)絡(luò)的多元時(shí)間序列預(yù)測(cè)模型,能夠更好地識(shí)別變量間的依賴關(guān)系及時(shí)間模式特征,但卻忽略了金融時(shí)間序列變量間的因果關(guān)系,故具備高于TE-GNN模型的誤差水平。
圖6 TE-GNN模型與基線模型的預(yù)測(cè)結(jié)果Fig.6 Prediction results of TE-GNN model and baselines
為能夠明確TE-GNN模型的預(yù)測(cè)性能,可視化測(cè)試集部分的預(yù)測(cè)結(jié)果。以中國大連商品交易所上市的黃大豆一號(hào)期貨收盤價(jià)變量在預(yù)測(cè)時(shí)間步長h=3的情況下為例,對(duì)預(yù)測(cè)結(jié)果進(jìn)行反歸一化,預(yù)測(cè)值與實(shí)際觀測(cè)值走勢(shì)如圖7所示。TE-GNN模型能夠?qū)Υ蠖蛊谪泝r(jià)格數(shù)據(jù)進(jìn)行良好的擬合,且能夠檢測(cè)出波動(dòng)幅度較大處的價(jià)格走勢(shì)。TE-GNN模型在預(yù)測(cè)過程中出現(xiàn)誤差較大的 時(shí) 刻 為 在2019年9月27日 至2019年10月23日及2019年10月31日至11月18日兩段時(shí)間內(nèi)出現(xiàn) 的谷值點(diǎn)處,前一段時(shí)刻內(nèi)由于受技術(shù)性賣盤打壓,且在美國農(nóng)業(yè)部發(fā)布季度作物供需報(bào)告前,投資者軋平頭寸,導(dǎo)致我國大豆期貨收跌;后一段時(shí)刻由于中美貿(mào)易協(xié)議簽訂受APEC會(huì)議取消及中美貿(mào)易不確定性影響,導(dǎo)致我國大豆期貨價(jià)格走勢(shì)出現(xiàn)波谷。故引入事件分析法將更準(zhǔn)確地?cái)M合波峰、波谷處的價(jià)格數(shù)據(jù),為模型的進(jìn)一步優(yōu)化提供參考。
圖7 DCE黃大豆一號(hào)期貨收盤價(jià)的預(yù)測(cè)結(jié)果Fig.7 Forecasting results of closing price of soybean No.1 futures in DCE
此外,為明確模型各模塊對(duì)最終預(yù)測(cè)效果的影響方向及程度,并驗(yàn)證上述改進(jìn)來自于添加的每個(gè)組件的效用而非特定的參數(shù)集,對(duì)TE-GNN模型進(jìn)行了消融研究。使用相同的超參數(shù)集,分別設(shè)置如下:
(1)w/o TE:將傳遞熵矩陣替換為全1矩陣,即假設(shè)變量與所有的其他變量相關(guān)。
(2)w/o m_k:取消多尺度濾波器設(shè)置,將時(shí)間卷積層中濾波器大小固定為1×7。
(3)w/o GCN:去除整個(gè)圖卷積層部分,并將圖卷積層替換為線性連接組件。
(4)w/o ATT:去除圖卷積層中的注意力機(jī)制組件,將信息傳播的輸出直接傳播給下一模塊。
消融研究的實(shí)驗(yàn)結(jié)果如圖8所示。觀察實(shí)驗(yàn)結(jié)果可知,完整的TE-GNN具備最佳預(yù)測(cè)效果。設(shè)置表征變量間因果關(guān)系的傳遞熵矩陣將顯著改善模型預(yù)測(cè)效果,驗(yàn)證了傳遞熵矩陣能夠作為鄰接矩陣表征變量間的有向相關(guān)性,在TE-GNN模型中起著重要作用;多尺度濾波器的設(shè)置能夠有效減小模型誤差,驗(yàn)證了不同尺寸濾波器在捕獲時(shí)間頻率模式信息的有效性;圖卷積模塊的設(shè)置顯著改善了預(yù)測(cè)結(jié)果,因?yàn)樵摻M件的設(shè)置能夠識(shí)別節(jié)點(diǎn)間的交互信息,實(shí)現(xiàn)有效的信息傳播與特征篩選;圖卷積層中的注意力機(jī)制組件的引入也將提高模型預(yù)測(cè)性能,這驗(yàn)證了注意力機(jī)制作為特征篩選器作用的合理性。
圖8 消融研究結(jié)果Fig.8 Ablation study results
本文針對(duì)具備聯(lián)動(dòng)性的農(nóng)產(chǎn)品期貨序列,提出了一種基于傳遞熵和圖神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)預(yù)測(cè)模型。視多元時(shí)間序列為圖結(jié)構(gòu),利用時(shí)間卷積模塊捕獲節(jié)點(diǎn)特征,識(shí)別序列時(shí)間模式周期性頻率特征;采用傳遞熵矩陣表征節(jié)點(diǎn)間的因果鄰接關(guān)系;利用圖卷積層實(shí)現(xiàn)對(duì)圖結(jié)構(gòu)特征信息的提取、傳播及篩選,從而獲取精準(zhǔn)的預(yù)測(cè)效果。在真實(shí)的大豆期貨數(shù)據(jù)集上進(jìn)行實(shí)證研究,TE-GNN模型具備比LSTNet、TPA-LSTM、MTGNN等七種基線模型更好的預(yù)測(cè)效果,表明從變量間的因果關(guān)系角度出發(fā),提取序列時(shí)間模式特征及變量間的交互信息,可為農(nóng)產(chǎn)品期貨價(jià)格預(yù)測(cè)任務(wù)提供更準(zhǔn)確的指導(dǎo),且通過消融研究驗(yàn)證了模型中重要組件設(shè)置的合理性。
考慮到模型對(duì)特定突發(fā)金融事件導(dǎo)致的價(jià)格波谷上的預(yù)測(cè)誤差,在以后的工作中,可引入特定的事件類別數(shù)據(jù)作為變量,使模型能夠更準(zhǔn)確地?cái)M合波峰、波谷處的價(jià)格趨勢(shì)特征。