賀 琪,李汶龍,宋 巍,杜艷玲,黃冬梅,耿立佳
結(jié)合殘差時(shí)空注意力機(jī)制的海面溫度預(yù)測(cè)算法
賀 琪1,李汶龍1,宋 巍1,杜艷玲1,黃冬梅1,耿立佳2
(1. 上海海洋大學(xué)信息學(xué)院,上海 201306;2.國(guó)家海洋局東海標(biāo)準(zhǔn)計(jì)量中心,上海 201306)
海面溫度(SST)與全球氣候變化、海洋災(zāi)害、海洋生態(tài)系統(tǒng)密切相關(guān),因此準(zhǔn)確地預(yù)測(cè)SST是一個(gè)重要課題?,F(xiàn)有區(qū)域型SST預(yù)測(cè)方法將SST時(shí)間序列處理為二維矩陣序列并作為模型輸入,每個(gè)矩陣對(duì)應(yīng)著特定時(shí)刻的區(qū)域SST,通過提取時(shí)空特征來(lái)實(shí)現(xiàn)其預(yù)測(cè),但未充分考慮不同時(shí)空特征在時(shí)間維度和空間維度上對(duì)SST影響的不均衡性,限制了預(yù)測(cè)精度地提高。為了解決該問題,提出了一種結(jié)合時(shí)間注意力機(jī)制和空間注意力機(jī)制的區(qū)域SST預(yù)測(cè)方法(CRA-ConvLSTM),使得模型動(dòng)態(tài)關(guān)注不同時(shí)刻的時(shí)間特征和區(qū)域內(nèi)不同點(diǎn)的空間特征,賦予不同的影響權(quán)重,進(jìn)而提高SST預(yù)測(cè)精度。具體來(lái)說(shuō),首先將輸入的區(qū)域SST時(shí)間序列通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)編碼為多層特征向量,提取局部特征;然后構(gòu)建了殘差時(shí)間注意力模塊,自適應(yīng)地學(xué)習(xí)不同時(shí)刻的注意力權(quán)重,提取時(shí)間維度上的關(guān)鍵特征,并設(shè)計(jì)了殘差空間注意力模塊,提取區(qū)域內(nèi)不同點(diǎn)在空間維度上的關(guān)鍵特征,此外,將注意力機(jī)制結(jié)合殘差結(jié)構(gòu)避免了網(wǎng)絡(luò)中信息量過少導(dǎo)致的性能下降問題;最后通過卷積長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(ConvLSTM)將特征向量映射為SST預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果顯示,該模型的均方根誤差(RMSE)和預(yù)測(cè)精度(PACC)分別達(dá)到了0.19和99.43%,均優(yōu)于其他方法,有效提高了SST的預(yù)測(cè)精度。
時(shí)間序列;海面溫度預(yù)測(cè);時(shí)空特征;注意力機(jī)制;殘差結(jié)構(gòu)
海面溫度(sea surface temperature,SST)是全球大氣系統(tǒng)的重要參數(shù)之一。近年來(lái),隨著海洋環(huán)境保護(hù)[1]、漁業(yè)[2]、海洋氣候[3]等海洋相關(guān)領(lǐng)域受到越來(lái)越多的關(guān)注,準(zhǔn)確預(yù)測(cè)SST已成為一個(gè)重要的研究課題。到目前為止,研究人員已提出了許多預(yù)測(cè)SST的方法,主要分為:①基于海洋物理學(xué)的數(shù)值預(yù)報(bào)方法[4]-6],即利用一系列復(fù)雜的物理方程來(lái)描述海溫的變化規(guī)律;②數(shù)據(jù)驅(qū)動(dòng)模型,即從海量的SST數(shù)據(jù)中自動(dòng)學(xué)習(xí)其變化趨勢(shì)和規(guī)律,如,LINS等[7]通過提取浮標(biāo)數(shù)據(jù)中每個(gè)變量的曲率信息,建立支持向量機(jī)(support vector machine,SVM)模型研究了SST的季節(jié)性和季節(jié)內(nèi)的規(guī)律;HOCHREITER和SCHMISHUBER[8]于1997年首次將長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)成功用于時(shí)間序列的建模;ZHANG等[9]將LSTM網(wǎng)絡(luò)用于SST預(yù)測(cè),并獲得了較好的預(yù)測(cè)效果。但這些方法僅考慮了SST在時(shí)間維度上的關(guān)聯(lián)關(guān)系,未關(guān)注SST隱藏的空間特性,因此限制了預(yù)測(cè)精度的提高??紤]到SST復(fù)雜的時(shí)空特性,目前已有研究者通過提取SST的時(shí)空特征進(jìn)行建模。如,YANG等[10]提出了一種CFCC-LSTM算法,通過全連接的LSTM層提取時(shí)間特征,然后利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取空間特征,提高了SST的預(yù)測(cè)精度。HOU和MEMBE[11]提出的DC2L算法利用具備稠密連接的卷積長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(convolution LSTM,ConvLSTM)提取時(shí)空特征,并取得了較好的預(yù)測(cè)效果,ConvLSTM不僅具有CNN的特征提取能力,還保留了LSTM的時(shí)序建模能力。但在SST預(yù)測(cè)任務(wù)中,在時(shí)間維度上可能僅有某些時(shí)刻的特征對(duì)未來(lái)SST預(yù)測(cè)影響較大;同樣,在空間維度上,也僅有某些點(diǎn)的特征對(duì)未來(lái)SST預(yù)測(cè)影響較大,即不同時(shí)空特征在時(shí)間維度和空間維度上對(duì)SST的影響具有不均衡性,而這些方法未能體現(xiàn)出這種影響,導(dǎo)致忽略了關(guān)鍵信息,限制了預(yù)測(cè)精度的提高。
注意力機(jī)制是一種能夠較好地選擇網(wǎng)絡(luò)中關(guān)鍵信息的方法。近年來(lái),結(jié)合注意力機(jī)制的編碼器-解碼器網(wǎng)絡(luò)在自然語(yǔ)言處理[12]、語(yǔ)音識(shí)別[13]及計(jì)算機(jī)視覺任務(wù)[14]中均得到了廣泛地使用。如,CHEN等[15]在圖像字幕提取任務(wù)中使用CNN和LSTM構(gòu)建了編碼器-解碼器網(wǎng)絡(luò),并融入了通道和空間注意力機(jī)制動(dòng)態(tài)地選擇與其相關(guān)的源單詞或子序列,取得了極大地成功。因此這也為SST預(yù)測(cè)任務(wù)提供了新的思路,如,ZHA等[16]提出了一種結(jié)合時(shí)間注意力機(jī)制的方法用于區(qū)域型SST預(yù)測(cè),通過獲取SST的時(shí)間相關(guān)性有效提高了預(yù)測(cè)精度。但該方法僅使用CNN提取局部的空間特征,并未體現(xiàn)出更為重要的空間特征對(duì)未來(lái)預(yù)測(cè)SST的影響,因此忽略了關(guān)鍵的空間信息。針對(duì)區(qū)域SST時(shí)間序列的時(shí)空特性,本文構(gòu)建了一種基于CNN和ConvLSTM的編碼器-解碼器結(jié)構(gòu),引入了時(shí)間注意力模塊和空間注意力模塊自適應(yīng)地提取SST在時(shí)間和空間上的相關(guān)性。然而,單純地疊加時(shí)間注意力模塊和空間注意力模塊容易導(dǎo)致明顯的性能下降,這是因?yàn)橹貜?fù)地將從0到1的注意力權(quán)重與特征加權(quán)降低了深層特征值[17]。WANG等[18]在圖像分類任務(wù)中提出了一種殘差注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠堆疊多個(gè)注意力模塊,并且每個(gè)模塊會(huì)隨著層次的加深而自適應(yīng)改變。因此本文將時(shí)空注意力模塊與殘差結(jié)構(gòu)相結(jié)合,在編解碼網(wǎng)絡(luò)結(jié)構(gòu)中疊加了殘差時(shí)間注意力模塊和殘差空間注意力模塊,充分提取網(wǎng)絡(luò)中的時(shí)間特征和空間特征。
現(xiàn)有的SST預(yù)測(cè)方法未充分考慮時(shí)空特征對(duì)SST在時(shí)間維度和空間維度上不均衡的影響,導(dǎo)致忽略了關(guān)鍵的信息。為了解決該問題,進(jìn)一步提高SST的預(yù)測(cè)精度,本文提出了一種結(jié)合時(shí)間注意力機(jī)制和空間注意力機(jī)制的SST預(yù)測(cè)方法(CRA-ConvLSTM),該模型是基于CNN和ConvLSTM的編碼器-解碼器網(wǎng)絡(luò),其有2個(gè)殘差注意力模塊,引入注意力模塊可以定量地為矩陣序列特征的每個(gè)時(shí)間步和矩陣內(nèi)每個(gè)元素賦予注意力權(quán)重,改善了SST預(yù)測(cè)方法注意力分散的缺陷。
CRA-ConvLSTM模型框架如圖1所示,包括數(shù)據(jù)預(yù)處理、編碼器、殘差時(shí)間注意力模塊、殘差空間注意力模塊、解碼器。和分別代表矩陣的寬度和高度。該方法的實(shí)現(xiàn)步驟如下:
步驟1. 首先經(jīng)過數(shù)據(jù)預(yù)處理步驟,獲取SST矩陣序列,然后通過卷積層將SST矩陣序列編碼為多層特征向量,提取局部特征。
步驟2. 將獲得的特征向量作為殘差時(shí)間注意力模塊的輸入,利用時(shí)間注意力機(jī)制獲得注意力權(quán)重向量,與每個(gè)特征向量對(duì)應(yīng)相乘得到加權(quán)特征,然后將加權(quán)特征與輸入的多層特征矩陣按照元素相加得到殘差特征。
步驟3. 將獲取的殘差特征作為殘差空間注意力模塊的輸入,進(jìn)一步提取SST的空間特征,利用空間注意力機(jī)制訓(xùn)練一個(gè)注意力權(quán)重矩陣,與多層殘差特征向量依次相乘得到加權(quán)特征,然后將加權(quán)特征與輸入的殘差特征按照元素相加得到最終的殘差加權(quán)特征。
步驟4. 將殘差時(shí)空注意力模塊輸出的多層加權(quán)特征作為解碼器ConvLSTM的輸入,建立時(shí)序依賴關(guān)系并將其映射為最終的SST預(yù)測(cè)結(jié)果,即未來(lái)1天或5天的SST。
圖1 CRA-ConvLSTM模型流程圖
編碼器-解碼器網(wǎng)絡(luò)在計(jì)算機(jī)視覺等領(lǐng)域已被廣泛使用,其核心思想是將輸入圖像編碼為多層特征圖,并使用解碼器生成結(jié)果單詞。本文構(gòu)建了一種新的編碼器-解碼器網(wǎng)絡(luò)用于SST預(yù)測(cè),利用卷積層將序列編碼為多層特征,ConvLSTM層解碼特征獲取SST預(yù)測(cè)結(jié)果。
具體來(lái)說(shuō),卷積層將大小為×的矩陣編碼為對(duì)應(yīng)的特征向量,其中卷積核大小設(shè)置3×3,步長(zhǎng)設(shè)置1×1。這里卷積編碼的過程實(shí)質(zhì)上是提取矩陣序列局部特征的過程,卷積核按照1×1的步長(zhǎng)進(jìn)行滑動(dòng),每個(gè)3×3感受野對(duì)應(yīng)激活計(jì)算為一個(gè)特征值,因此整個(gè)過程卷積核將經(jīng)過?×?次移動(dòng),其值大小等于(-2)×(-2),獲取大小為?×?的特征向量。利用卷積層作為編碼器提取局部特征,不僅保存了SST原始的空間分布,還有利于后續(xù)殘差時(shí)空注意力模塊更好地提取網(wǎng)絡(luò)中重要的時(shí)空特征。
LSTM是一種適用于時(shí)間序列數(shù)據(jù)建模的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠有效地捕捉序列的長(zhǎng)期依賴,但在提取矩陣序列中的空間信息方面具有較大的局限性。而ConvLSTM是一種結(jié)合了CNN強(qiáng)大的局部特征提取能力及LSTM的時(shí)序建模能力的模型,較好地解決了LSTM對(duì)于時(shí)空序列建模的缺陷,因此本文將ConvLSTM作為解碼器,加權(quán)特征作為輸入,SST預(yù)測(cè)結(jié)果作為輸出。其計(jì)算式為
其中,為時(shí)間注意力函數(shù);為空間注意力函數(shù);?R為時(shí)間注意力權(quán)重向量;為空間注意力權(quán)重矩陣。
研究者利用通道注意力機(jī)制提取圖像的局部特征,通過卷積層獲取多層特征圖,每個(gè)通道由對(duì)應(yīng)的卷積過濾器響應(yīng)激活。受其啟發(fā),將卷積層編碼的多層特征向量作為每個(gè)時(shí)間步的輸入,構(gòu)建殘差時(shí)間注意力模塊用于提取SST的時(shí)間相關(guān)性。即時(shí)間注意力機(jī)制為每層特征賦予對(duì)應(yīng)的注意力權(quán)值,使得網(wǎng)絡(luò)更關(guān)注與當(dāng)前目標(biāo)SST更相關(guān)的特征向量,進(jìn)而更好地獲取時(shí)間序列的長(zhǎng)期依賴性。SST預(yù)測(cè)模型本質(zhì)是利用了歷史天的SST對(duì)未來(lái)1天或5天的SST進(jìn)行預(yù)測(cè),因此對(duì)每個(gè)多層特征應(yīng)用時(shí)間注意力機(jī)制可以看作學(xué)習(xí)SST之間的時(shí)間相關(guān)性。
其中,時(shí)間注意力權(quán)重的范圍為[0,1],因此越接近0,(,)將越接近原始特征,將該結(jié)構(gòu)稱為殘差時(shí)間注意力模塊。
考慮到相鄰區(qū)域SST可能具有更密切的聯(lián)系,使用SST矩陣序列進(jìn)行預(yù)測(cè)時(shí)可能會(huì)因不相關(guān)區(qū)域的存在而導(dǎo)致次優(yōu)的結(jié)果,因此模型在殘差時(shí)間注意力模塊之后,疊加了殘差空間注意力模塊進(jìn)一步提取SST的空間相關(guān)性,使得模型能夠更關(guān)注與目標(biāo)SST最相關(guān)的區(qū)域,而不是對(duì)整個(gè)區(qū)域。
首先將殘差時(shí)間注意力模塊獲得的殘差特征向量拉伸重塑為新的特征向量=(1,2,···,-1,),?R,=?×?,然后利用全連接層和softmax函數(shù)來(lái)獲得空間注意力權(quán)重
其中,為輸出的加權(quán)特征,可將該結(jié)構(gòu)稱為殘差空間注意力模塊。
綜上,多層特征向量經(jīng)過時(shí)間注意力函數(shù)和空間注意力函數(shù)獲取了時(shí)間注意力權(quán)重和空間注意力權(quán)重,通過和與特征向量的線性組合,最終獲取殘差加權(quán)特征。模型中殘差注意力模塊的計(jì)算過程為
其中,(·)為對(duì)特征矩陣進(jìn)行時(shí)間和空間注意力加權(quán)的函數(shù)。
實(shí)驗(yàn)采用了自然資源部第二海洋研究所提供的遙感反演數(shù)據(jù)集,空間分辨率為10 km,采集區(qū)域主要分布于30N和130E附近,時(shí)間周期為2004/01-2016/12,時(shí)間分辨率為天。為了確保模型預(yù)測(cè)的精確度和有效性,首先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,若所使用的SST數(shù)據(jù)缺少度量值時(shí),其可被缺省值(MISSING_VAL=-999)所代替,而相對(duì)于沒有度量的記錄,可能為NAN,因此需將每個(gè)2×2矩陣的有效值的平均值來(lái)替換矩陣范圍的缺失值,邊緣數(shù)值僅取其臨近有效值的均值來(lái)替換缺失值。為了方便模型的訓(xùn)練,將80×40的SST數(shù)據(jù)截取為30×30,將其作為模型的輸入。為了進(jìn)行模型的訓(xùn)練及效果的驗(yàn)證,實(shí)驗(yàn)采用75%的SST數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余25%數(shù)據(jù)用于測(cè)試。在搭建模型時(shí),基于Keras Theano深度學(xué)習(xí)框架,使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001,epochs設(shè)置為200。在訓(xùn)練模型時(shí),利用EarlyStopping的早停機(jī)制,避免了模型迭代次數(shù)過多而出現(xiàn)過擬合的問題;此外,使用了ReduceLROnPlateau回調(diào)函數(shù),避免模型過早地停止訓(xùn)練,而是通過動(dòng)態(tài)減小學(xué)習(xí)率,保證網(wǎng)絡(luò)充分收斂,進(jìn)而獲得最優(yōu)的模型及參數(shù)。
本文使用預(yù)測(cè)精度(prediction accuracy,PACC)和均方根誤差(root mean square error,RMSE)來(lái)描述不同預(yù)測(cè)方法的性能,即
其中,y,i為矩陣中第個(gè)位置的SST真實(shí)值;y,i為預(yù)測(cè)值;為矩陣寬度和高度的乘積值。模型在預(yù)測(cè)時(shí),首先需要確定結(jié)構(gòu)和參數(shù),然后通過比較模型的RMSE和PACC結(jié)果,說(shuō)明不同方法的性能及預(yù)測(cè)效果。RMSE值越小且PACC值越大時(shí),模型的性能越好。
不同的時(shí)間窗口大小會(huì)影響SST的預(yù)測(cè)效果,因此實(shí)驗(yàn)設(shè)定不同的值分別預(yù)測(cè)了未來(lái)1天和5天的SST,通過比較模型測(cè)試集獲得的RMSE和PACC指標(biāo),確定最佳的值,以保證后續(xù)實(shí)驗(yàn)的準(zhǔn)確性。這里分別設(shè)置?{3,7,15}和?{10,15,25}來(lái)預(yù)測(cè)1天和5天的SST。
表1顯示了不同值下CRA-ConvLSTM模型測(cè)試的結(jié)果。實(shí)驗(yàn)結(jié)果表明,=7時(shí)PACC為99.43%,RMSE為0.19,其在預(yù)測(cè)1天的效果均優(yōu)于=3和=15時(shí)的效果。而在預(yù)測(cè)5天時(shí),=15時(shí)取得了最佳的效果,PACC為98.93%,RMSE為0.39。上述結(jié)果證明了時(shí)間窗口的大小對(duì)模型的預(yù)測(cè)結(jié)果會(huì)產(chǎn)生不同的影響,因此在后續(xù)實(shí)驗(yàn)中均分別采用=7和=15預(yù)測(cè)1天和5天的SST,以保證模型預(yù)測(cè)結(jié)果的真實(shí)性。
表1 不同T值下CRA-ConvLSTM預(yù)測(cè)1天和5天SST的性能對(duì)比
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
編碼器-解碼器結(jié)構(gòu)作為一種模型框架,在計(jì)算機(jī)視覺等領(lǐng)域已被廣泛使用,并衍生出了很多不同的網(wǎng)絡(luò)結(jié)構(gòu)。本文構(gòu)建了一種新的編解碼器結(jié)構(gòu)(CNN-ConvLSTM),因此為了驗(yàn)證該結(jié)構(gòu)對(duì)SST模型預(yù)測(cè)性能的影響,實(shí)驗(yàn)還分析了CNN層對(duì)模型預(yù)測(cè)結(jié)果的影響。設(shè)置相同的數(shù)據(jù)集和模型參數(shù),分別對(duì)比了RA-ConvLSTM和CRA-ConvLSTM預(yù)測(cè)不同天數(shù)時(shí)的PACC及RMSE指標(biāo),2種方法均使用ConvLSTM獲取最終的SST結(jié)果,其中RA-ConvLSTM未使用卷積層,CRA-ConvLSTM使用卷積層首先對(duì)序列進(jìn)行了初步的特征提取。
表2中,CRA-ConvLSTM 1~5天的預(yù)測(cè)精度分別獲得了99.43%,99.32%,99.19%,99.09%和98.93%,而RA-ConvLSTM獲取的PACC值均低于CRA-ConvLSTM,而隨著預(yù)測(cè)天數(shù)的增加,預(yù)測(cè)精度逐漸下降,這是由于隨著序列長(zhǎng)度的增加預(yù)測(cè)性能會(huì)逐漸下降。對(duì)于RMSE指標(biāo),CRA-ConvLSTM 1~5天的預(yù)測(cè)誤差指標(biāo)均低于RA-ConvLSTM,分別為0.19,0.23,0.32,0.34和0.39。經(jīng)過實(shí)驗(yàn)比較PACC及RMSE結(jié)果表明,當(dāng)預(yù)測(cè)1天SST時(shí),CRA-ConvLSTM模型獲得了最佳的預(yù)測(cè)結(jié)果,且隨著預(yù)測(cè)天數(shù)的增加,CRA-ConvLSTM也表現(xiàn)出了同樣的優(yōu)勢(shì),進(jìn)一步說(shuō)明了基于CNN和ConvLSTM編解碼器結(jié)構(gòu)有利于SST預(yù)測(cè)性能的提高,進(jìn)而確定了本文的編解碼器結(jié)構(gòu)。
注意力機(jī)制能夠通過權(quán)重加權(quán)的方式提取網(wǎng)絡(luò)中的關(guān)鍵特征,而不同的注意力結(jié)構(gòu)可能會(huì)對(duì)預(yù)測(cè)效果產(chǎn)生不同的影響,模型中引入了一種殘差時(shí)空注意力模塊,因此為了驗(yàn)證注意力模塊的結(jié)構(gòu)對(duì)預(yù)測(cè)性能的影響,實(shí)驗(yàn)基于CNN- ConvLSTM,設(shè)置相同的模型參數(shù),對(duì)比了單注意力模塊和疊加時(shí)間和空間注意力模塊時(shí)預(yù)測(cè)性能的差異,此外還關(guān)注了注意力模塊中融合殘差結(jié)構(gòu)時(shí)的不同。其中RT-Attention只包括殘差時(shí)間注意力模塊,RS-Attention只包括殘差空間注意力模塊,TS-Attention未使用殘差結(jié)構(gòu),僅包括時(shí)間注意力機(jī)制和空間注意力機(jī)制,RTS-Attention是本文提出的注意力結(jié)構(gòu),疊加了殘差時(shí)間注意力模塊和殘差空間注意力模塊。
表3顯示了4種方法分別預(yù)測(cè)未來(lái)1~5天的SST的評(píng)價(jià)指標(biāo)結(jié)果。對(duì)于PACC指標(biāo),使用RTS- Attention的預(yù)測(cè)精度分別是99.43%,99.32%,99.19%,99.09%和98.93%,均高于使用TS-Attention的預(yù)測(cè)精度,因此相比于單純的疊加注意力機(jī)制而未考慮殘差結(jié)構(gòu)時(shí),疊加殘差注意力模塊更有優(yōu)勢(shì);對(duì)于RMSE指標(biāo),結(jié)果同樣如此,此外RT-Attention和RS-Attention的RMSE指標(biāo)分別是0.23,0.25,0.30,0.36,0.43和0.24,0.25,0.31,0.37,0.42,其結(jié)果差異較小,這表明單注意力模塊中使用時(shí)間注意力或空間注意力對(duì)模型預(yù)測(cè)性能的提高均有限??傊?,同時(shí)疊加殘差時(shí)間和殘差空間注意力模塊使得模型的性能提高更為顯著,進(jìn)而確定了殘差時(shí)空注意力模塊的結(jié)構(gòu)。
表2 RA-ConvLSTM和CRA-ConvLSTM性能對(duì)比
表3 模型使用不同注意力模塊的性能對(duì)比
在2.3~2.5節(jié)中,已確定了模型的編解碼器、殘差時(shí)空注意力模塊和合適的值,確保了消融實(shí)驗(yàn)中預(yù)測(cè)結(jié)果的有效性,將提出的CRA-ConvLSTM模型與SVR,LSTM,ConvLSTM,CNN-ConvLSTM和CA-ConvLSTM 5種先進(jìn)的SST預(yù)測(cè)方法進(jìn)行了比較。對(duì)于上述方法,均采用相同數(shù)據(jù)集預(yù)測(cè)未來(lái)1天和5天的SST。其中SVR是時(shí)間序列預(yù)測(cè)任務(wù)中常見的機(jī)器學(xué)習(xí)算法,這里分別采用了線性基函數(shù)核、多項(xiàng)式基函數(shù)核和徑向基函數(shù)核,并選擇最優(yōu)結(jié)果,最終確定了徑向基核函數(shù);LSTM是海面溫度預(yù)測(cè)方法中主流的深度學(xué)習(xí)算法,并使用其進(jìn)行了SST預(yù)測(cè)實(shí)驗(yàn)。但這2種方法均只能進(jìn)行單點(diǎn)預(yù)測(cè),因此對(duì)于區(qū)域型SST,實(shí)驗(yàn)可根據(jù)各個(gè)實(shí)時(shí)記錄點(diǎn)分別構(gòu)建模型進(jìn)行SST預(yù)測(cè);ConvLSTM是一種改進(jìn)的LSTM,能夠綜合時(shí)間和空間特征,本文基于ConvLSTM構(gòu)建了模型,因此為了消融實(shí)驗(yàn)的對(duì)比,使用ConvLSTM進(jìn)行實(shí)驗(yàn);CNN-ConvLSTM是基于ConvLSTM進(jìn)一步結(jié)合CNN構(gòu)建的編解碼器網(wǎng)絡(luò);此外,實(shí)驗(yàn)還對(duì)比了文獻(xiàn)[16]提出的CA-ConvLSTM算法,以進(jìn)一步驗(yàn)證本文算法的有效性。
表4對(duì)比了6種方法預(yù)測(cè)未來(lái)1天和5天的SST時(shí)獲得的RMSE和PACC指標(biāo)結(jié)果。SVR和LSTM在預(yù)測(cè)1天時(shí),PACC指標(biāo)分別為98.96%和98.86%,RMSE指標(biāo)分別是0.37和0.47;而ConvLSTM與SVR和LSTM相比在預(yù)測(cè)1天和5天時(shí)獲得了更好的預(yù)測(cè)結(jié)果,PACC及RMSE指標(biāo)分別為99.04%,0.36和98.68%,0.47,進(jìn)一步說(shuō)明了ConvLSTM在時(shí)空序列預(yù)測(cè)問題中的優(yōu)越性;而基于CNN和ConvLSTM的編解碼器結(jié)構(gòu)相比于ConvLSTM獲得了更好的結(jié)果,因此驗(yàn)證了模型使用的編解碼器結(jié)構(gòu)的有效性。CA-ConvLSTM算法在進(jìn)行預(yù)測(cè)1天和5天的SST時(shí)PACC,RMSE分別獲得了99.33%,0.23和98.78%,0.43。但相比于上述方法,本文算法CRA-ConvLSTM取得了最優(yōu)的預(yù)測(cè)效果,其PACC和RMSE預(yù)測(cè)1天和5天時(shí)分別獲得了99.43%,0.19和98.93%,0.37,驗(yàn)證了算法的有效性。通過使用殘差時(shí)間注意力模塊和殘差空間注意力模塊,定量地為每個(gè)時(shí)刻的特征向量和區(qū)域內(nèi)每個(gè)點(diǎn)賦予注意力權(quán)重,使得模型動(dòng)態(tài)關(guān)注不同時(shí)刻的時(shí)間特征和區(qū)域內(nèi)不同點(diǎn)的空間特征,賦予不同的影響權(quán)重,因此能夠較好地反映時(shí)空特征在時(shí)間維度和空間維度上對(duì)未來(lái)預(yù)測(cè)的SST不均衡的影響,從而獲得最優(yōu)的預(yù)測(cè)效果。
表4 不同預(yù)測(cè)方法的性能對(duì)比
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
為了更直觀地觀察SST的預(yù)測(cè)效果,分別在圖2(a)和(b)中展示了在測(cè)試數(shù)據(jù)集上模型在最后一個(gè)時(shí)刻輸出的5天SST預(yù)測(cè)結(jié)果圖和對(duì)應(yīng)的海面溫度熱力圖。而熱力圖的顏色分布隨著溫度的降低而加深,且熱力圖的刻度取值范圍取決于當(dāng)前時(shí)刻SST值的分布范圍,可以觀察到實(shí)驗(yàn)中SST的真實(shí)值和預(yù)測(cè)值均分布在24.5℃到28℃之間,對(duì)比結(jié)果顯示,使用CRA-ConvLSTM進(jìn)行預(yù)測(cè)時(shí),其結(jié)果能夠較為準(zhǔn)確地反映區(qū)域內(nèi)SST的真實(shí)值變化。
(b)
本文使用區(qū)域型SST時(shí)間序列數(shù)據(jù),提出了一種結(jié)合殘差時(shí)空注意力機(jī)制的SST預(yù)測(cè)算法(CRA-ConvLSTM),顯著提高了預(yù)測(cè)精度。為了實(shí)現(xiàn)這一目標(biāo),本文完成了:①將時(shí)間注意力機(jī)制和空間注意力機(jī)制相結(jié)合,使得模型動(dòng)態(tài)關(guān)注不同時(shí)刻的時(shí)間特征和區(qū)域內(nèi)不同點(diǎn)的空間特征,提取了關(guān)鍵的時(shí)空特征;②將注意力機(jī)制結(jié)合殘差結(jié)構(gòu),保留了豐富的特征信息,避免了梯度消失的問題?;谶@2種殘差注意力模塊,CRA- ConvLSTM能夠充分考慮時(shí)空特征對(duì)SST在時(shí)間維度和空間維度上不均衡的影響。實(shí)驗(yàn)結(jié)果表明,CRA-ConvLSTM模型在SST預(yù)測(cè)方面取得了最佳的性能,驗(yàn)證了本文方法的有效性。
SST的變化不僅具有時(shí)間相關(guān)性和空間相關(guān)性,實(shí)際場(chǎng)景中也受其他海洋要素復(fù)雜的物理機(jī)制影響,如氣溫、氣壓、風(fēng)速等,因而未來(lái)可以考慮在模型中嵌入多種海洋要素的統(tǒng)計(jì)特征模塊,以進(jìn)一步考慮海洋環(huán)境要素帶來(lái)的影響。
[1] KOLSTAD E W, ?RTHUN M. Seasonal prediction from Arctic Sea surface temperatures: opportunities and pitfalls [J]. Journal of Climate, 2018, 31(20): 8197-8210.
[2] AHMAD M Z. Regional port state cooperation for the conservation of shared fisheries resources in the contested waters of the south China sea[C]//SOIS Conference on Global Studies 2021. Sintok: UUM Press, 2022: 196-215.
[3] WIEDERMANN M, DONGES J F, HANDORF D, et al. Hierarchical structures in Northern Hemispheric extratropical winter ocean-atmosphere interactions[J]. International Journal of Climatology, 2017, 37(10): 3821-3836.
[4] TAKAKURA T, KAWAMURA R, KAWANO T, et al. An estimation of water origins in the vicinity of a tropical cyclone's center and associated dynamic processes[J]. Climate Dynamics, 2018, 50(1-2): 555-569.
[5] ALIMOHAMMADI M, MALAKOOTI H, RAHBANI M. Sea surface temperature effects on the modelled track and intensity of tropical cyclone gonu[J]. Journal of Operational Oceanography, 2021 (3): 1-17.
[6] NOORI R, ABBASI M R, ADAMOWSKI J F, et al. A simple mathematical model to predict sea surface temperature over the northwest Indian Ocean[J]. Estuarine, Coastal and Shelf Science, 2017, 197: 236-243.
[7] LINS I D, MOURA M, SILVA M, et al. Sea surface temperature prediction via support vector machines combined with particle swarm optimization[C]//The 10th International Probabilistic Safety Assessment & Management Conference. London: Taylor & Francis Group, 2013: 3287-3293.
[8] HOCHREITER S, SCHMISHUBER J, et al. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[9] ZHANG Q, WANG H, DONG J Y, et al. Prediction of sea surface temperature using long short-term memory[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1745-1749.
[10] YANG Y T, DONG J Y, SUN X, et al. A CFCC-LSTM model for sea surface temperature prediction[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 15(2):207-211.
[11] HOU S, MEMBEW L. D2CL: a dense dilated convolutional LSTM model for sea surface temperature prediction[EB/OL]. [2021-05-12]. https://ieeexplore.ieee.org/document/9618770.
[12] ZHAO Y, KOMACHI M, KAJIWARA T, et al. Region-attentive multimodal neural machine translation[J]. Neurocomputing, 2022, 476: 1-13.
[13] ZHU T, CHENG C L. Joint CTC-attention end-to-end speech recognition with a triangle recurrent neural network encoder[J]. Journal of Shanghai Jiaotong University: Science, 2020, 25(1): 70-75.
[14] QIN Y, SONG D J, CHEN H F, et al. A dual-stage attention-based recurrent neural network for time series prediction[C]//The 26th International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2017: 2627-2633.
[15] CHEN L, ZHANG H W, XIAO J, et al. SCA-CNN: spatial and channel-wise attention in convolutional networks for image captioning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6298-6306.
[16] ZHA C, HE Q, SONG W, et al. Regional sea surface temperature prediction algorithm combined with attention mechanism[J]. Marine Science Bulletin, 2020, 39(2): 9.
[17] CHO K, VAN MERRIENBOER B, BAHDANAU D, et al. On the properties of neural machine translation: encoder–decoder approaches[C]//Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation. Stroudsburg: Association for Computational Linguistics, 2014: 103-111.
[18] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6450-6458.
Sea surface temperature prediction algorithm combined with residual spatial-temporal attention mechanism
HE Qi1, LI Wen-long1, SONG Wei1, DU Yan-ling1, HUANG Dong-mei1, GENG Li-jia2
(1. Department of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2. East China Sea Standard Metrology Center, State Oceanic Administration, Shanghai 201306, China)
Sea surface temperature (SST) is closely related to global climate change, ocean disasters, and ocean ecosystems, so the accurate prediction of SST is an important topic. The existing regional SST prediction methods treat the time series of SST data as a series of matrixes, each corresponding to the regional SST at a particular time. The spatial and temporal features are extracted from the matrix series for later SST prediction. However, the existing SST prediction methods fail to fully consider the imbalanced influence of temporal and spatial features on the SST, leading to the neglection of some key information and limiting the improvement of prediction accuracy. To address this problem, we proposed a regional SST prediction method (CRA-ConvLSTM) combining temporal attention mechanism and spatial attention mechanism. This enabled the model to dynamically assign different influence weights to the temporal features at different times and spatial features at different locations, thereby improving the accuracy of SST prediction. Specifically, the input regional SST time series was first encoded into multi-layer feature vectors by a convolutional neural network (CNN), and local features were extracted. Then, the residual time attention module was constructed to learn the attention weight at different moments adaptively, and the key features of the time dimension were extracted. The residual spatial attention module was designed to extract the key features of different points in the region in terms of the spatial dimension. In addition, the attention mechanism combined with the residual structure can avoid performance degradation caused by information reduction in the network. Experimental results show that the proposed model could achieve 0.19 and 99.43% respectively in terms of the root mean square error (RMSE) and prediction accuracy (PACC), which is superior to other methods and effectively improves the prediction accuracy of SST.
time series; sea surface temperature prediction; spatial-temporal feature; attention mechanism; residual structure
25 November,2021;
National Natural Science Foundation of China (61972240); Youth Project of National Natural Science Foundation of China (41906179); Capacity Building Project of Some Local Universities of Shanghai Science and Technology Commission (20050501900)
HE Qi (1979-), associate professor, Ph.D. Her main research interests cover ocean big data analysis, big data storage, workflow and business process management, and service computing, etc. E-mail:qihe@shou.edu.cn
TP 391
10.11996/JG.j.2095-302X.2022040677
A
2095-302X(2022)04-0677-08
2021-11-25;
2022-03-15
15 March,2022
國(guó)家自然科學(xué)基金項(xiàng)目(61972240);國(guó)家自然科學(xué)基金青年項(xiàng)目(41906179);上海市科委部分地方高校能力建設(shè)項(xiàng)目(20050501900)
賀 琪(1979-),女,副教授,博士。主要研究方向?yàn)楹Q蟠髷?shù)據(jù)分析、大數(shù)據(jù)存儲(chǔ)、工作流與業(yè)務(wù)流程管理、服務(wù)計(jì)算等。E-mail:qihe@shou.edu.cn
耿立佳(1989-),女,工程師,碩士。主要研究方向?yàn)楹Q蟠髷?shù)據(jù)分析、海洋經(jīng)濟(jì)監(jiān)測(cè)評(píng)估等。E-mail:genglj@ecs.mnr.gov.cn
GENG Li-jia (1989-), engineer, master. His main research interests cover ocean big data analysis, ocean economy monitoring and evaluation, etc. E-mail:genglj@ecs.mnr.gov.cn