廖文梯,陳 洲*,趙瑜馨,王勁松,唐榮欣
(1.南昌大學(xué)空間科學(xué)與技術(shù)研究院,南昌 330031;2.北京衛(wèi)星環(huán)境工程研究所,北京 100094;3.中國氣象局空間天氣重點開放實驗室國家空間天氣監(jiān)測預(yù)警中心,北京 100081)
電離層是地球上層大氣的電離區(qū)域。許多低軌道航天器運行在電離層中,而基于短波和星地?zé)o線電鏈路的眾多高科技系統(tǒng)會直接受到電離層的影響。由于電離層天氣預(yù)報水平直接關(guān)系到各種技術(shù)系統(tǒng)的運行安全,所以電離層預(yù)報研究一直是空間天氣預(yù)報的熱門方向,特別是對電離層中長期(氣候?qū)W)行為的預(yù)報,無論是經(jīng)驗預(yù)報[1-3],還是理論模式預(yù)報[4-6]都已經(jīng)達到了非常高的水準。電離層的短期(天氣學(xué))預(yù)報也有一定成果[7],但與中長期電離層預(yù)報水平相比還有相當大的差距。這是由于電離層天氣變化與太陽電離輻射、太陽風(fēng)和地磁活動、中性大氣背景以及電動力學(xué)過程有關(guān),同時又與電場、電導(dǎo)率、電子密度等各種參數(shù)密切相關(guān)[8-9],從而使得電離層天氣表現(xiàn)出參數(shù)多、變化復(fù)雜的特性。另一方面,隨著觀測資料的不斷豐富,電離層天氣尺度下所觀測到的電離層形態(tài)也越來越復(fù)雜。例如相同地磁和太陽活動條件下,有時盡管強度和持續(xù)時間近似,但在電離層中引起的形態(tài)變化常常會表現(xiàn)出巨大的差異和復(fù)雜的非線性特征。這就對電離層天氣的建模提出了很高的要求。幸而,關(guān)于電離層有著十分豐富的全球觀測資料,例如,TEC map數(shù)據(jù)整合了近20年的觀測量,按1 h 分辨率計算,有超過10萬張TEC map數(shù)據(jù)可供使用。這些充足的數(shù)據(jù)為蓬勃發(fā)展的人工智能技術(shù)——深度學(xué)習(xí)——在電離層天氣的應(yīng)用創(chuàng)造了條件。
不同于早期空間物理領(lǐng)域主要基于淺層神經(jīng)網(wǎng)絡(luò)模型[10-13]來進行相關(guān)研究的人工智能算法,深度學(xué)習(xí)算法不僅能更加有效地掌握大量觀測數(shù)據(jù)的形態(tài)特征,而且在功能上也更為豐富。在特征識別的應(yīng)用方面:Fang Y等[14]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的相關(guān)算法進行了太陽黑子群的識別與分類;Hada-Muranushi 等[15]進行了太陽耀斑的識別分類。在時間尺度的算法方面:基于長短期記憶(long short-term memory,LSTM)的模型有較強的時間重現(xiàn)能力,可以較好地預(yù)測地磁擾動指數(shù)Dst[16]和地磁活動指數(shù)Kp[17];而Chen Z等[18]對暴時電離層天氣的預(yù)測研究也取得了不錯的效果。在空間尺度的算法方面:Chen Z等[19]提出了一個改進版的深度學(xué)習(xí)模型,可以有效學(xué)習(xí)全球電離層TEC map空間信息,并生成高精度的TEC map。然而,以上這些模型仍主要是基于單一算法進行的建模,模型本身的性能很難得到進一步提升,因此已經(jīng)無法滿足電離層天氣的建模需求。
本文主要是在原始的LSTM算法基礎(chǔ)上,加入額外的深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)算法以及相關(guān)的電離層驅(qū)動源數(shù)據(jù)來提高電離層短期預(yù)測的精度,并探索相關(guān)融合模型在電離層天氣預(yù)報方面的潛力。
本文使用的數(shù)據(jù)包括電離層總電子含量(TEC)、太陽黑子數(shù)R、太陽活動指數(shù)F10.7、地磁活動水平指數(shù)Ap和磁暴環(huán)電流指數(shù)Dst。數(shù)據(jù)時間范圍為2011—2019年。電離層TEC 數(shù)據(jù)為IGS(International GNSSService)中心提供的1 h 時間尺度的TEC網(wǎng)格(71×73)數(shù)據(jù);太陽黑子數(shù)R來自比利時SILSO Center,時間分辨率為1 d;太陽活動指數(shù)F10.7來自加拿大空間天氣數(shù)據(jù)中心,時間分辨率為1 d;地磁活動水平指數(shù)Ap來自德國地質(zhì)科學(xué)研究中心,時間分辨率為3 h;磁暴環(huán)電流指數(shù)Dst 來自日本京都大學(xué)地磁和空間磁數(shù)據(jù)分析中心,時間分辨率為1 h。電離層TEC map的全球每日平均值和年平均值(如圖1所示)具有顯著且復(fù)雜的周期性變化,因此在數(shù)據(jù)所覆蓋的9年內(nèi)TEC波動水平很大。
圖1 電離層TECmap的全球每日平均值(直線)和年平均值(點畫線)Fig.1 Global daily average(straight line)and annual average(dotted line)of ionospheric TECmap
基于以上原因,使用常規(guī)的抽樣方法來區(qū)分測試集和訓(xùn)練集顯然不合適,因此為了使訓(xùn)練集、測試集處于同一分布,不能直接從中間某處拆分。本文采用的方法則是以90 d 為周期,每個周期的前30 d 作為訓(xùn)練集,中間30 d 作為驗證集,后30 d 作為測試集,以保證所有數(shù)據(jù)集處在同一分布中。
本文所構(gòu)建的混合模型LSTM-DNN 主要是由深度神經(jīng)網(wǎng)絡(luò)(DNN)和長短期記憶(LSTM)網(wǎng)絡(luò)組合構(gòu)建而成的。
DNN 算法的內(nèi)部結(jié)構(gòu)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法基本類似,主要可以分為輸入層、隱藏層和輸出層。層與層之間以全連接的方式傳遞信息,它們滿足一個線性關(guān)系加上一個激活函數(shù),數(shù)學(xué)表達式為
LSTM是一種變種的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。實際上RNN 是最典型的遞歸神經(jīng)網(wǎng)絡(luò),在深度學(xué)習(xí)中被廣泛用來處理序列數(shù)據(jù)。但RNN 缺乏記憶功能,本時刻的隱藏層信息只來源于當前輸入和上一時刻的隱藏層信息,因此它只能處理一定的短期依賴,而無法處理長期依賴,這就產(chǎn)生了梯度消失和梯度爆炸問題。LSTM是在RNN的基礎(chǔ)上引入了細胞狀態(tài),根據(jù)細胞狀態(tài)可決定哪些狀態(tài)應(yīng)該保留下來,哪些狀態(tài)應(yīng)該被遺忘。LSTM解決了一般的RNN存在的長期依賴問題。LSTM在微觀上看使用了遺忘門、輸入門、輸出門三種門來保持和控制信息,選擇性的記憶反饋的誤差函數(shù)隨梯度下降地修正參數(shù),從而實現(xiàn)時間上的記憶功能,并防止梯度消失。LSTM單個時間步的計算公式如下:
LSTM電離層TEC預(yù)報模型采用“自預(yù)測”方法,即歷史數(shù)據(jù)中不含其他物理參數(shù)。該模型結(jié)構(gòu)如圖2所示。模型采用4個LSTM層,激活函數(shù)為線性函數(shù),優(yōu)化器為RMSprop算法,目標函數(shù)為MSE。模型的輸入為連續(xù)的48 h 全球電離層TEC歷史觀測數(shù)據(jù)。因為所使用的LSTM網(wǎng)絡(luò)不支持輸入四維數(shù)據(jù),所以在輸入層后面加了一個Reshape層,將所有的二維TEC數(shù)據(jù)進行拉平處理。模型的輸出是未來1 h 全球電離層TEC 預(yù)測數(shù)據(jù)。為了保證該輸出是二維的TEC數(shù)據(jù),故在輸出層的前面使用一個Reshape層將LSTM層的輸出處理成三維([batch size,64,64])。
圖2 基于LSTM 算法的TEC 預(yù)報模型結(jié)構(gòu)Fig.2 Structure of TEC prediction model based on LSTM algorithm
使用“自預(yù)測”方法的預(yù)報準確度受磁暴影響較大。為提升磁暴時期電離層預(yù)報效果,利用太陽風(fēng)、地磁等參數(shù)作為預(yù)報因子。太陽活動強烈控制著電離層的行為。當太陽處于活躍期時,將產(chǎn)生巨大的電離層效應(yīng)。太陽耀斑就是太陽活動的一種形式。在耀斑區(qū),日冕溫度增高,太陽發(fā)出的輻射軟X 射線和紫外線以光速傳到地球,被地球上空60~90 km 的大氣吸收,使得電離層D層的電子密度大大增加。此外,太陽耀斑爆發(fā)經(jīng)常向行星際空間噴射等離子體云,這些等離子體云的徑向速度為500~1000 km/s,其經(jīng)過1.5~3 d 到達地球附近,與地球磁場作用引起地磁暴;伴隨著磁暴,在全球范圍內(nèi)電離層各層都顯示出一些劇烈變化。為了使模型能夠充分學(xué)習(xí)到會導(dǎo)致未來時刻的電離層產(chǎn)生變化的物理量,本文使用連續(xù)3天的歷史觀測數(shù)據(jù)作為預(yù)報因子。LSTM-DNN電離層TEC預(yù)報模型在LSTM預(yù)報模型的基礎(chǔ)上以全連接的方式添加了預(yù)報因子,以達到效果更好的電離層TEC預(yù)報結(jié)果。這里同樣采用了4個LSTM層,激活函數(shù)為線性函數(shù)。之后通過2個Dense層,第一層采用Relu 激活函數(shù),最后一層采用sigmoid 激活函數(shù)。模型的主要輸入是連續(xù)的48 h 全球電離層TEC 歷史觀測數(shù)據(jù),輔助輸入為4個預(yù)報因子。這個模型的損失函數(shù)也是由兩個部分組成:主損失函數(shù)評估的是基于TEC數(shù)據(jù)和預(yù)報因子做出的預(yù)測,輔助的損失函數(shù)評估的僅僅是基于電離層TEC 數(shù)據(jù)本身做出的預(yù)測。即使來自主損失函數(shù)的梯度發(fā)生彌散,來自輔助損失函數(shù)的信息也能夠訓(xùn)練LSTM層。本文中的主、輔助損失的權(quán)重分配為:主損失1.0;輔助的損失0.2?;贚STM-DNN 算法的TEC預(yù)報模型結(jié)構(gòu)如圖3所示。
圖3 基于LSTM-DNN 算法的TEC預(yù)報模型結(jié)構(gòu)Fig.3 Structure of TEC prediction model based on LSTMDNN algorithm
本文采用滾動預(yù)測的方式來測試模型的精度,即:采用前48 h 的TEC作為歷史輸入數(shù)據(jù),來預(yù)測未來1 h 的全球TEC值,然后將已經(jīng)預(yù)測的值不斷迭代到輸入數(shù)據(jù)中,以進一步預(yù)測未來的值,從而實現(xiàn)預(yù)測未來任意時刻TEC(如圖4所示)。
圖4 滾動預(yù)測結(jié)構(gòu)示意圖Fig.4 Schematic diagram of rolling forecast structure
當模型訓(xùn)練完善后,將2個模型的預(yù)測結(jié)果分別與IGS提供的TEC 觀測數(shù)據(jù)進行比較,并采用平均絕對精度(MAD)、均方根誤差(RMSE)和平均相對精度(RA)3個性能指標來評估模型的性能。其中:MAD和RMSE值越小,表明預(yù)測值與觀測值擬合程度越好;而RA 則是值越大模型預(yù)測性能越好。3個性能指標的定義分別為:
圖5 3種性能指標隨預(yù)測時間長度增加而變化的趨勢Fig.5 The trend of the three performance indicators against the forecast time
基于滾動預(yù)測方式,測試了LSTM和LSTMDNN兩種模型的3個性能指標隨預(yù)測時間長度增加而變化的趨勢(如圖5所示),可以看到:LSTM和LSTM-DNN 算法隨著滾動預(yù)測時間步長的增加,其預(yù)測性能都會下降;但是,LSTM-DNN預(yù)測誤差隨時間累積的速度明顯要小于單純的LSTM算法。進一步測試兩個模型在24 h、48 h 和144 h 內(nèi)的平均預(yù)測性能,結(jié)果如表1所示。可以看到:當預(yù)測時間在24 h 以內(nèi),單一的LSTM算法精度要比LSTM-DNN有微弱的優(yōu)勢;但隨著預(yù)測時間進一步增加,當預(yù)測時間從24 h 到144 h,LSTM 的MAD從2.72增加5.53,RMSE 從3.81增加到7.43,而RA 則從82.79%下降到64.97%。對比可以看出LSTM-DNN 預(yù)測指標的下降要顯著小于LSTM。
表1 3種性能指標分別在24 h、48 h和144 h的平均預(yù)測性能參數(shù)Table 1 The average predicted performance parameters of the three performance indicators in 24,48 and 144 hours respectively
LSTM算法通常是以自回歸算法的形式來進行預(yù)測,即:在預(yù)測過程中不需要加入額外的驅(qū)動量,只需要拿自己的歷史信息來預(yù)測自己的將來。然而電離層是一個開放的系統(tǒng),其變化不僅僅來源于自身的背景變化,還有太陽活動、地磁活動以及底部中性大氣耦合等多種因素共同作用引起的變化,因此所構(gòu)建預(yù)測模型的數(shù)據(jù)如果只來自電離層本身,那么該模型的性能是有限的。為此,本文嘗試在LSTM 預(yù)測模型的基礎(chǔ)上,耦合進DNN 算法來加入額外的電離層驅(qū)動量,其中R和F10.7指數(shù)代表了太陽活動對電離層的驅(qū)動因素,Ap和Dst指數(shù)則體現(xiàn)了地磁活動對電離層的驅(qū)動因素。通過對比兩種算法預(yù)測效果可以看出,LSTM-DNN算法能夠顯著減少預(yù)測性能隨時間衰減的問題。這表明,在LSTM 基礎(chǔ)上引入額外的DNN 算法和對應(yīng)的太陽和地磁活動指數(shù)作為輸入,是提高電離層預(yù)測精度的一種有效方法。