何欣燃 鐘秋珍 崔延美 劉四清 石育榕 閆曉輝 王子思禹
1(中國科學(xué)院國家空間科學(xué)中心 北京 100190)
2(中國科學(xué)院大學(xué) 北京 100049)
3(中國科學(xué)院空間環(huán)境態(tài)勢(shì)感知技術(shù)重點(diǎn)實(shí)驗(yàn)室 北京 100190)
太陽耀斑是一種劇烈的太陽爆發(fā)現(xiàn)象,是太陽質(zhì)子事件和日冕物質(zhì)拋射發(fā)生的先兆現(xiàn)象之一。與之伴隨發(fā)生的高能粒子流及其輻射對(duì)空間環(huán)境產(chǎn)生劇烈的沖擊,對(duì)空間飛行器或航天員造成潛在危害。當(dāng)耀斑輻射來到地球附近時(shí), 光致電離使得電離層D 層的電子密度增加,引起無線電通信中斷。太陽耀斑預(yù)報(bào)研究具有重要的實(shí)用價(jià)值和科學(xué)意義。一方面太陽耀斑預(yù)報(bào)為提前應(yīng)對(duì)電離層突然擾動(dòng)、太陽質(zhì)子事件和地磁暴提供了重要的警報(bào)作用;另一方面,太陽耀斑預(yù)報(bào)對(duì)于理解太陽活動(dòng)事件的原理具有重要的指導(dǎo)意義。
由于耀斑爆發(fā)對(duì)空間天氣的重要影響,研究提出了多種耀斑預(yù)報(bào)方法??紤]到太陽活動(dòng)區(qū)與耀斑爆發(fā)之間的緊密聯(lián)系,耀斑預(yù)報(bào)方法大多采用活動(dòng)區(qū)拓?fù)涮卣鲄?shù)和光球磁場(chǎng)特征參數(shù),根據(jù)當(dāng)前觀測(cè)情況預(yù)測(cè)未來耀斑的發(fā)生。耀斑預(yù)報(bào)方法主要包括:基于專家系統(tǒng)的方法[1—4];利用觀測(cè)數(shù)據(jù)建模的方法,包括統(tǒng)計(jì)分析中的泊松統(tǒng)計(jì)[5]、多元線性回歸模型等[6—8],以及機(jī)器學(xué)習(xí)中的支持向量機(jī)[9—10]、神經(jīng)網(wǎng)絡(luò)[11—15]、徑向基函數(shù)網(wǎng)絡(luò)[16]、線性判別分析[17]、隨機(jī)森林[18]、相關(guān)向量機(jī)[19]等。
目前普遍認(rèn)為浮現(xiàn)磁通量區(qū)在耀斑產(chǎn)生中起重要作用[20],活動(dòng)區(qū)的演化過程對(duì)于耀斑活動(dòng)具有重要影響[21],活動(dòng)區(qū)當(dāng)前觀測(cè)以及之前的觀測(cè)共同影響了耀斑的發(fā)生。Huang 等[22]利用光球磁場(chǎng)作為預(yù)報(bào)因子,分別建立耀斑預(yù)報(bào)的神經(jīng)網(wǎng)絡(luò)模型和決策樹模型,隨著預(yù)報(bào)因子時(shí)序信息的引入,兩種預(yù)報(bào)模型的預(yù)報(bào)精度得到不斷提高。
近年來, 機(jī)器學(xué)習(xí)中的深度學(xué)習(xí)方法取得了快速發(fā)展[23—24], 并成功應(yīng)用于語音識(shí)別、自然語言處理、目標(biāo)識(shí)別和分類等領(lǐng)域[25—26]。深度學(xué)習(xí)方法可以從原始觀測(cè)數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征參量并建立模型,Li等[27]和Huang 等[15]利用卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)圖像特征提取能力建立太陽耀斑預(yù)報(bào)模型。同時(shí),深度學(xué)習(xí)方法中的循環(huán)神經(jīng)網(wǎng)絡(luò)還可以學(xué)習(xí)到數(shù)據(jù)的時(shí)序特征,Liu 等[28]利用SHARP 數(shù)據(jù)和耀斑歷史特征,基于長短期記憶網(wǎng)絡(luò)(LSTM)方法,分別構(gòu)建了未來24 h≥M5.0 級(jí)、≥M 級(jí)和≥C 級(jí)耀斑預(yù)報(bào)模型。
通常在空間天氣預(yù)報(bào)業(yè)務(wù)中,未來48 h 的耀斑預(yù)報(bào)是重要的內(nèi)容之一。本文選取SHARP 活動(dòng)區(qū)磁場(chǎng)參量,利用深度學(xué)習(xí)中的長短期記憶網(wǎng)絡(luò),建立未來48 h≥M 級(jí)太陽耀斑預(yù)報(bào)模型。在建模過程中利用XGBoost[29]計(jì)算各磁場(chǎng)參量的特征重要性,篩選出6 個(gè)參量作為模型輸入,最后通過與其他機(jī)器學(xué)習(xí)方法的預(yù)報(bào)評(píng)估來分析模型對(duì)太陽耀斑的預(yù)報(bào)能力。
太陽耀斑的觸發(fā)和能量釋放與磁場(chǎng)密不可分,當(dāng)儲(chǔ)存的磁能在日冕中突然釋放時(shí)就發(fā)生了耀斑。由于日冕磁場(chǎng)還未能準(zhǔn)確測(cè)量,因此在太陽耀斑預(yù)報(bào)建模過程中,通常采用活動(dòng)區(qū)光球磁場(chǎng)作為預(yù)報(bào)輸入。本文太陽活動(dòng)區(qū)數(shù)據(jù)采用SDO/HMI 的SHARP(Spaceweather HMI Active Region Patch)數(shù)據(jù)** http://jsoc.stanford.edu/doc/data/hmi/sharp.htm。該數(shù)據(jù)提供了活動(dòng)區(qū)的相關(guān)特征參量。使用的數(shù)據(jù)集為2010 年5 月到2017 年5 月所有活動(dòng)區(qū)樣本,樣本間隔為96 min,考慮了SHARP 數(shù)據(jù)中提供的10 個(gè)活動(dòng)區(qū)物理參量,包括總無符號(hào)電流螺度、總光球磁自由能密度、總無符號(hào)垂直電流、凈電流螺度絕對(duì)值、正負(fù)極凈電流絕對(duì)值、總無符號(hào)磁通量、活動(dòng)區(qū)強(qiáng)磁場(chǎng)面積、平均光球磁自由能、中性線磁通量以及剪切角大于45°的像素比例。太陽耀斑數(shù)據(jù)來源于美國國家地球物理數(shù)據(jù)中心(National Geophysical Data Center, NGDC)整理的數(shù)據(jù)列表**ftp://ftp.ngdc.noaa.gov/STP/space-weather/solar-data/solar-features/solar-flares/x-rays/goes/xrs/。太陽耀斑根據(jù)其軟X 射線峰值流量分為B,C,M,X 四級(jí)。
在構(gòu)建數(shù)據(jù)集時(shí),利用滑動(dòng)窗方法[30—33]將光球磁場(chǎng)觀測(cè)的序列信息引入耀斑預(yù)報(bào)系統(tǒng),即引入活動(dòng)區(qū)演化信息?;瑒?dòng)窗方法的原理如圖1 所示,其中t為當(dāng)前時(shí)刻的觀測(cè)量,隨著時(shí)間的推移,t—WΔt到t之間的觀測(cè)隨時(shí)間滑動(dòng),稱為滑動(dòng)窗,這里W為滑動(dòng)窗尺寸。在實(shí)際應(yīng)用中,序列需要在初始位置增補(bǔ)W個(gè)點(diǎn)(一般情況下,序列的初始值被重復(fù)W次),使得滑動(dòng)窗可以從原始序列的初始位置處運(yùn)行。
圖1 滑動(dòng)窗口原理Fig. 1 Sliding window principle
滑動(dòng)窗方法的關(guān)鍵問題是如何確定窗口大小。根據(jù)Huang 等[22]互信息函數(shù)的計(jì)算結(jié)果,建議滑動(dòng)窗的總時(shí)間長度不超過三天,因此這里選取W=15,時(shí)間間隔Δt=96 min,滑動(dòng)窗口總長度為24 h(15×96 min),預(yù)報(bào)時(shí)段F=48 h。將16 條(W+1)數(shù)據(jù)作為一個(gè)樣本,用于預(yù)測(cè)未來48 h 內(nèi)該活動(dòng)區(qū)的耀斑發(fā)生情況。
在建立耀斑樣本時(shí),規(guī)定若是滑動(dòng)窗口最后時(shí)刻(t)的未來48 h 內(nèi)發(fā)生了≥M 級(jí)的耀斑事件(t+F時(shí)間范圍內(nèi)),即標(biāo)注為正樣本,若未發(fā)生則標(biāo)注為負(fù)樣本。為了使訓(xùn)練集和測(cè)試集都包含每個(gè)活動(dòng)區(qū)的數(shù)據(jù),在劃分?jǐn)?shù)據(jù)集時(shí),按照9∶1 的比例對(duì)每個(gè)活動(dòng)區(qū)的數(shù)據(jù)進(jìn)行隨機(jī)抽取,并分別放入訓(xùn)練集和測(cè)試集,保證訓(xùn)練集和測(cè)試集包含所有活動(dòng)區(qū)的數(shù)據(jù)。經(jīng)過 這 樣 的 處 理 后,2010 年5 月 至2017 年5 月的SHARP 數(shù)據(jù)集中,訓(xùn)練集正樣本2098 個(gè),負(fù)樣本41809 個(gè),測(cè)試集正樣151 個(gè),負(fù)樣本13953 個(gè),總計(jì)58011 個(gè)樣本。
考慮到本文樣本所使用的滑動(dòng)窗口時(shí)長較長,選擇使用深度學(xué)習(xí)中的長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)作為模型主體。長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的改進(jìn),引入了門控機(jī)制,讓模型在學(xué)習(xí)的過程中自行學(xué)習(xí)需要“記憶”和“遺忘”的內(nèi)容,對(duì)于長時(shí)間序列的處理具有很大優(yōu)勢(shì)。
LSTM 主要結(jié)構(gòu)為遺忘門、輸入門和輸出門。遺忘門(Forget Gate)的任務(wù)是接受上一個(gè)單元模塊傳過來的輸出,并決定要保留和遺忘該記憶單元的部分。輸入門(Input Gate)的作用是確定當(dāng)前細(xì)胞需要記憶多少上個(gè)細(xì)胞的狀態(tài),針對(duì)遺忘門中丟棄的屬性信息,在本單元模塊找到相應(yīng)的新屬性信息,添加進(jìn)去,以補(bǔ)充丟棄的屬性信息。輸出門(Output Gate)用于確定細(xì)胞狀態(tài)部分需要的輸出,然后對(duì)細(xì)胞狀態(tài)進(jìn)行處理,由遺忘門和記憶門給輸入賦予權(quán)重,得到最終需要輸出的信息。在圖2 顯示的重復(fù)模塊結(jié)構(gòu)中,加藍(lán)底的圓圈表示4 個(gè)神經(jīng)網(wǎng)絡(luò)層,其以一種復(fù)雜而高效的特殊方式進(jìn)行交互。圖2 中各符號(hào)意義的說明見表1。
表1 圖2 中各符號(hào)含義的說明Table 1 Implication of some symbols in Figure 2
圖2 LSTM 中隱含層重復(fù)模塊結(jié)構(gòu)Fig. 2 Architecture of repeat module in the hidden layer of LSTM
LSTM 的關(guān)鍵是細(xì)胞狀態(tài)(例如Ct和Ct-1),其類似于一條傳送帶,直接在整個(gè)鏈上運(yùn)行,只有少量的線性交互,這樣信息在上面流動(dòng)就很容易保持不變。圖2 給出了LSTM 記憶單元的工作流程。輸入由三部分組成,第一是當(dāng)前時(shí)刻的輸入xt,第二是上一時(shí)刻的隱藏層輸出ht-1,第三是細(xì)胞中存儲(chǔ)的上一狀態(tài)Ct-1。具體步驟如下。
第一步 確定哪些信息需要經(jīng)過遺忘門被丟棄掉,輸入經(jīng)過一次非線性變換得到遺忘門函數(shù),即
第二步 確定哪些新的信息將被存儲(chǔ),經(jīng)過兩次非線性變換,可以分別得到輸入門函數(shù)和單元候選狀態(tài)為
第三步 對(duì)當(dāng)前時(shí)刻的單元狀態(tài)進(jìn)行更新,此時(shí)需要通過遺忘門和輸入門對(duì)當(dāng)前和歷史信息進(jìn)行控制,有
第四步 當(dāng)單元狀態(tài)被更新后,需要確定哪些信息即將被輸出,這里不僅要通過對(duì)輸入進(jìn)行非線性變換得到輸出門函數(shù),同時(shí)還要對(duì)已更新的單元狀態(tài)信息進(jìn)行輸出控制,得到當(dāng)前時(shí)刻神經(jīng)元的輸出,即
上述過程中用到的兩個(gè)激活函數(shù)分別是sigmoid 函數(shù)和tanh 函數(shù), 即
上述Wf,Wi, Wc, Wo和bf, bi, bc, bo分別表示網(wǎng)絡(luò)結(jié)構(gòu)中每一步的權(quán)重和偏置。
在建立太陽耀斑預(yù)報(bào)模型過程中,還采用了Dropout[34]技巧訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。在每個(gè)訓(xùn)練批次中,通過忽略一部分神經(jīng)元(讓這部分隱層節(jié)點(diǎn)的權(quán)重為0),可以明顯減少過擬合現(xiàn)象。
在使用LSTM 模型進(jìn)行訓(xùn)練之前,首先利用極端梯度提升器(eXtreme Gradient Boosting, XGBoost)[29]對(duì)SHARP 數(shù)據(jù)中各物理參量進(jìn)行特征重要性分析,根據(jù)重要程度選擇特定的物理參量,用于構(gòu)建最終的訓(xùn)練集和測(cè)試集。
XGBoost 是機(jī)器學(xué)習(xí)集成學(xué)習(xí)中的Boosting[35]方法之一,Boosting 方法中將弱學(xué)習(xí)器通過串聯(lián)的方式進(jìn)行疊加,每個(gè)弱學(xué)習(xí)器都擬合前一個(gè)弱學(xué)習(xí)器的殘差,合成一個(gè)強(qiáng)學(xué)習(xí)器。XGBoost 的默認(rèn)弱學(xué)習(xí)器為CART 樹[36],樹模型有著良好的特征選擇能力。選取特征主要有三種模式,分別是權(quán)重(weight)、信息增益(gain)、覆蓋率(cover)。由于每個(gè)決策樹都不會(huì)生長完全,因此每個(gè)特征所使用的次數(shù)均不相同,其中Weight 模式計(jì)算每個(gè)特征在分裂節(jié)點(diǎn)時(shí)被使用的平均次數(shù),使用次數(shù)越多,特征越重要。信息熵用于描述一個(gè)系統(tǒng)信息的不確定性程度,而信息增益代表在一定條件下(使用某個(gè)特征分類),系統(tǒng)信息熵(不確定性)減少的程度。Gain 模式為計(jì)算在每個(gè)特征作為分裂節(jié)點(diǎn)的特征時(shí),其平均信息增益,CART 樹在進(jìn)行分裂時(shí),選擇信息增益最大的特征進(jìn)行優(yōu)先分裂,因此Gain 模式下的得分反映了特征對(duì)分類的優(yōu)先級(jí)。由于不是每個(gè)樣本都需要所有特征進(jìn)行分類,在Cover 模式為所有CART樹中,以每個(gè)特征作為分裂節(jié)點(diǎn)的特征時(shí),所有CART 樹中所覆蓋的樣本平均數(shù)量,因此Cover 模式的得分體現(xiàn)了特征的普適性。
利用XGBoost 分別計(jì)算了選取的SHARP 數(shù)據(jù)集中10 個(gè)物理參量的特征權(quán)重、增益率、覆蓋率(見圖3~5)。從圖3 可以看出,活動(dòng)區(qū)強(qiáng)磁場(chǎng)面積、剪切角大于45°的像素比例以及總無符號(hào)電流螺度在所有基分類器中使用次數(shù)更多,通常使用越多的特征也會(huì)對(duì)分類起到更多的作用。從圖4 可以看出,中性線磁通量具有最多的平均信息增益,這說明在使用特征中性線磁通量進(jìn)行分裂節(jié)點(diǎn)時(shí),對(duì)整個(gè)系統(tǒng)具有最大的信息增益。從圖5 可以看出,中性線磁通量、正負(fù)極凈電流絕對(duì)值、總無符號(hào)電流螺度具有較高的覆蓋率,這說明多數(shù)樣本都使用了上述特征。同時(shí)為了不移除掉過多特征導(dǎo)致模型效果下降,增加了在三種特征重要性計(jì)算中得分都不低的凈電流螺度絕對(duì)值。綜合考慮,選取總無符號(hào)電流螺度、正負(fù)極凈電流絕對(duì)值、凈電流螺度絕對(duì)值、活動(dòng)區(qū)強(qiáng)磁場(chǎng)面積、中性線磁通量、剪切角大于45°的像素比例這6 個(gè)物理參量作為模型輸入?yún)?shù),分別記為L1,L2,L3,L4,L5,L6。 經(jīng)過特征參數(shù)選擇后,t預(yù)報(bào)時(shí)刻的樣 本 數(shù) 據(jù) 集 為[[L1(t—15*96),L1(t—14*96),···,L1(t)],[L2(t—15*96),L2(t—14*96),···,L2(t)], [L3(t—15*96),L3(t—14*96),···,L3(t)], [L4(t—15*96),L4(t—14*96), ··· ,L4(t)], [L5(t—15*96),L5(t—14*96),···,L5(t)], [L6(t—15*96),L6(t—14*96),···,L6(t)]],共計(jì)96 個(gè)數(shù)據(jù)。
圖3 10 個(gè)物理參量在所有弱學(xué)習(xí)器中的權(quán)重Fig. 3 Weights of ten parameters in all weak learners
圖4 10 個(gè)物理參量在所有弱學(xué)習(xí)器中的增益率Fig. 4 Gain rate of ten parameters in all weak learners
圖5 10 個(gè)物理參量在所有弱學(xué)習(xí)中的覆蓋率Fig. 5 Cover rate of ten parameters in all weak learners
采用2015 年Fran?ois Chollet 為ONEIROS 項(xiàng)目開發(fā)的深度學(xué)習(xí)框架keras 構(gòu)建耀斑預(yù)報(bào)模型,模型結(jié)構(gòu)如圖6 所示,分別為輸入層、LSTM 層1、Dropout 層1、LSTM 層2、Dropout 層2 以及全連接層(分類層)。其中輸入層的輸入維度為樣本個(gè)數(shù)×?xí)r間步長×特征維度,由于時(shí)間步長=滑動(dòng)窗口長度+1,因此輸入維度為44022×16×6。LSTM 層1 的神經(jīng)元個(gè)數(shù)為128 個(gè),因此其輸出維度為44022×16×128。Dropout 層1 的神經(jīng)元保留概率為0.5,且不改變輸出維度。LSTM 層2 的神經(jīng)元個(gè)數(shù)為128 個(gè),在LSTM 層2 需要返回到分類層,因此數(shù)據(jù)維度輸出為44022×128。分類層的損失函數(shù)為二分類交叉熵?fù)p失,神經(jīng)元個(gè)數(shù)為1,最終輸出結(jié)果為0~1 之間的數(shù)值。
圖6 LSTM 耀斑預(yù)報(bào)模型結(jié)構(gòu)Fig. 6 LSTM flare prediction model structure
所使用的樣本數(shù)據(jù)集存在較大數(shù)據(jù)不均衡問題,即正樣本的個(gè)數(shù)遠(yuǎn)少于負(fù)樣本,若是按照傳統(tǒng)機(jī)器學(xué)習(xí)任務(wù)的做法,應(yīng)該是補(bǔ)充正樣本的數(shù)量,但是考慮到耀斑事件的發(fā)生頻率很低,正負(fù)樣本的不均衡反映了耀斑事件發(fā)生頻率的客觀事實(shí),因此選擇保留這樣的數(shù)量差異。為了解決數(shù)據(jù)不均衡對(duì)模型效果的影響,對(duì)分類所使用的交叉熵?fù)p失函數(shù)進(jìn)行修改,在正樣本上增加了分類權(quán)重,增加的分類權(quán)重等于正負(fù)樣本比例(1∶25),在模型訓(xùn)練時(shí)會(huì)讓模型更側(cè)重正樣本進(jìn)行訓(xùn)練,解決樣本不均衡問題。
為了選取合適的閾值確定是否發(fā)生耀斑事件,這里通過不斷調(diào)整閾值大小,計(jì)算出不同閾值下的報(bào)準(zhǔn)率(TPR,定義符號(hào)RTP)和虛報(bào)率(FPR,定義符號(hào)RFP),即
符號(hào)定義如下。
STP(True Positive, TP):原本屬于正樣本,被分類成正樣本,記為真實(shí)的正樣本。
SFN(False Negative, FN):原本屬于正樣本,分類成負(fù)樣本,為耀斑事件被遺漏的樣本,記為虛假的負(fù)樣本。
SFP(False Positive, FP):原本屬于負(fù)樣本,分類成正樣本,無耀斑發(fā)生的活動(dòng)區(qū)被虛報(bào)的樣本記為虛假的正樣本。
STN(True Negative, TN):原本屬于負(fù)樣本,被分類成負(fù)樣本,無耀斑發(fā)生的活動(dòng)區(qū)被正確預(yù)報(bào)的樣本記為真實(shí)的負(fù)樣本(TN)。
繪制模型輸出結(jié)果的ROC(Receive Operating Characteristic)曲線[37],如圖7 所示。由于ROC 曲線越接近點(diǎn)(0,1),模型整體效果越好,因此篩選出到點(diǎn)(0,1)距離較小的部分點(diǎn)用于實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明當(dāng)閾值為0.7334 時(shí)耀斑預(yù)測(cè)效果最好,選擇0.7334作為分類的輸出閾值,輸出值大于分類閾值判定為正樣本,反之為負(fù)樣本。
圖7 LSTM 耀斑預(yù)報(bào)模型ROC 曲線,圖中紅點(diǎn)為該模型的最佳閾值所對(duì)應(yīng)的TPR 和FPRFig. 7 ROC curve of the LSTM flare prediction model. The red dots in the figure are the TPR and FPR corresponding to the optimal threshold of the model
使用二分類混淆矩陣評(píng)估模型的訓(xùn)練結(jié)果,選用報(bào)準(zhǔn)率(RTP)、虛報(bào)率(RFP)、準(zhǔn)確率(Accuracy,Rac-curacy)和真實(shí)技巧統(tǒng)計(jì)值(True Skill Statistics, TSS,ITSS, 臨界成功指數(shù))作為模型的評(píng)判標(biāo)準(zhǔn)。通過式(9)和式(10)可以看出,報(bào)準(zhǔn)率越高,虛報(bào)率越低,說明模型的預(yù)報(bào)能力越強(qiáng)。通過如下公式可計(jì)算耀斑預(yù)報(bào)模型對(duì)于事件的預(yù)報(bào)準(zhǔn)確率(Raccuracy)和真實(shí)技巧統(tǒng)計(jì)值(ITSS):
為了評(píng)估模型的預(yù)報(bào)結(jié)果,采用同樣的數(shù)據(jù)集,利用機(jī)器學(xué)習(xí)中的支持向量機(jī)(SVM)、決策樹C4.5、集成學(xué)習(xí)方法XGBoost、集成學(xué)習(xí)方法隨機(jī)森林(RandomForest)、邏輯回歸(Logistic Regression)等方法進(jìn)行對(duì)比。支持向量機(jī)、隨機(jī)森林、邏輯回歸等是良好的分類器,但是缺乏對(duì)于太陽活動(dòng)區(qū)時(shí)序信息的捕捉。
表2 和表3 給出了LSTM、 SVM、 XGBoost、RandomForest、 C4.5、邏輯回歸等模型對(duì)未來48 h 太陽耀斑的預(yù)報(bào)評(píng)估結(jié)果??梢钥闯鏊岢龅腖STM 模型報(bào)準(zhǔn)率為0.7483,高于其他模型;虛報(bào)率與SVM 相當(dāng),略低于邏輯回歸模型;準(zhǔn)確率包含了對(duì)正負(fù)樣本預(yù)報(bào)結(jié)果的評(píng)估,由于負(fù)樣本比例較大,因此負(fù)樣本的預(yù)報(bào)效果決定了預(yù)報(bào)的準(zhǔn)確性,這些模型的預(yù)報(bào)準(zhǔn)確性基本相當(dāng);TSS 評(píng)價(jià)指標(biāo)綜合考慮了報(bào)準(zhǔn)率與虛報(bào)率的影響,LSTM 模型的TSS 評(píng)分為0.7402,高于其他幾個(gè)模型。模型總體預(yù)報(bào)性能優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。
表2 不同模型預(yù)報(bào)結(jié)果評(píng)估(1)Table 2 Evaluation of forecast results of different models (1)
表3 不同模型預(yù)報(bào)結(jié)果評(píng)估(2)Table 3 Evaluation of forecast results of different models (2)
Li 等[27]利用SOHO 衛(wèi)星MDI 載荷拍攝的磁圖數(shù)據(jù)作為數(shù)據(jù)集,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)建立了太陽耀斑預(yù)報(bào)模型,Huang 等[28]利用SOHO/MDI 和SDO/HMI 拍攝的磁圖,同樣使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)構(gòu)建了多預(yù)報(bào)時(shí)段太陽耀斑預(yù)報(bào)模型,選取其對(duì)于未來48 h 的M 級(jí)及以上耀斑模型進(jìn)行對(duì)比(見表4 和表5),相比使用磁圖數(shù)據(jù)的CNN 模型,LSTM 預(yù)報(bào)模型的報(bào)準(zhǔn)率略低于CNN 預(yù)報(bào)模型,而準(zhǔn)確率、虛報(bào)率和臨界成功指數(shù)等優(yōu)于CNN 模型,并且從表5 可知,LSTM 預(yù)報(bào)模型的數(shù)據(jù)樣本少于CNN 預(yù)報(bào)模型,如果增加LSTM 預(yù)報(bào)模型的數(shù)據(jù)樣本數(shù)量,還可以有所提升。
表4 CNN 與LSTM 模型預(yù)報(bào)結(jié)果評(píng)估(1)Table 4 Evaluation of forecast results of CNN and LSTM models (1)
表5 LSTM 與CNN 模型預(yù)報(bào)結(jié)果評(píng)估(2)Table 5 Evaluation of forecast results of LSTM and CNN models (2)
建立未來48 h≥M 級(jí)太陽耀斑預(yù)報(bào)模型時(shí),采用了SHARP 數(shù)據(jù)的時(shí)序物理參量作為輸入?yún)?shù)。圖8 和圖9 分別給出了正樣本和負(fù)樣本中6 個(gè)物理參量和未來48 h 太陽X 射線的流量變化??梢钥吹秸龢颖靖鲄?shù)在滑動(dòng)窗口內(nèi)變化較大,之后的48 h 內(nèi) 發(fā) 生 了M8.4 級(jí) 耀 斑(2012 年3 月10 日17:44:00 UT);而負(fù)樣本各參數(shù)在滑動(dòng)窗口內(nèi)較平穩(wěn),未來48 h 無≥M 級(jí)耀斑發(fā)生。
圖8 正樣本(2012 年3 月8 日09:36 UT 至9 日09:36 UT)各特征參數(shù)的變化(a)和GOES 衛(wèi)星測(cè)量(2012 年3 月9 日00:00 至12 日00:00 UT)在該樣本未來48 h 的X 射線通量變化(b)。橙色垂直虛線為模型預(yù)測(cè)范圍,綠色虛線為耀斑事件(2012 年3 月10 日17:44 UT)Fig. 8 Positive sample (from 09:36 UT on 8 March 2012 to 09:36 UT on 9 March 2012) characteristic parameter change (a) and the GOES satellite measurement (from 00:00 UT on 9 March 2012 to 00:00 UT on 12 March, 2012) of the X-ray flux change of the sample in the next 48 h (b). Orange dashed line is the model prediction range, and the green dashed line is the flare event (17:44 UT on 10 March 2012)
圖9 負(fù)樣本(2011 年11 月16 日12:48 UT 至17 日12:48 UT)各特征參數(shù)變化(a)與GOES 衛(wèi)星測(cè)量(2011 年11 月17 日00:00 UT 至20 日00:00 UT)該樣本未來48 h 的X 射線通量變化(b),橙色虛線為模型預(yù)測(cè)范圍,顯示該樣本未來48 h 內(nèi)無≥M 級(jí)耀斑發(fā)生Fig. 9 Negative sample (from 12:48 UT on 16 November 2011 to 12:48 UT on 17 November 2011) characteristic parameter change (a) and the GOES satellite measurement (from 00:00 UT on 17 November 2011 to 00:00 on 20 November 2011) of the X-ray flux change of the sample in the next 48 h (b). Orange dashed line is the model prediction range, and shows that there is no ≥M class flares occurrance in the next 48 h for this sample
本文提出的模型在準(zhǔn)確率上并不具備優(yōu)勢(shì),由于在訓(xùn)練過程中為了解決數(shù)據(jù)的不平衡問題,在模型訓(xùn)練過程中修改了損失函數(shù)的權(quán)重,使模型對(duì)正樣本的識(shí)別更加側(cè)重,導(dǎo)致對(duì)負(fù)樣本的識(shí)別率降低,會(huì)在一定程度上影響模型虛報(bào)率和對(duì)負(fù)樣本的識(shí)別。
提出了基于長短期記憶神經(jīng)網(wǎng)絡(luò)的太陽耀斑預(yù)報(bào)模型,通過XGBoost 方法對(duì)SHARP 數(shù)據(jù)中各物理參量進(jìn)行特征重要性分析,最終選取特征總無符號(hào)電流螺度、正負(fù)極凈電流絕對(duì)值、凈電流螺度絕對(duì)值、活動(dòng)區(qū)強(qiáng)磁場(chǎng)面積、中性線磁通量、剪切角大于45°的像素比例這6 個(gè)物理參量作為模型輸入?yún)?shù)。利用活動(dòng)區(qū)這6 個(gè)參數(shù)連續(xù)24 h 的數(shù)據(jù)作為輸入,建立未來48 h 的太陽耀斑預(yù)報(bào)模型。
與傳統(tǒng)機(jī)器學(xué)習(xí)模型及經(jīng)驗(yàn)?zāi)P拖啾龋疚奶岢龅哪P蛯?duì)太陽活動(dòng)區(qū)的時(shí)間變化特征進(jìn)行建模,運(yùn)用了太陽活動(dòng)區(qū)磁場(chǎng)的時(shí)間演化信息,得到優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型的預(yù)報(bào)效果?;贚STM 模型的報(bào)準(zhǔn)率和臨界成功指數(shù)分別為0.7483 和0.7402,均高于傳統(tǒng)機(jī)器學(xué)習(xí)模型,模型在準(zhǔn)確率和虛報(bào)率上與傳統(tǒng)模型相近,總體性能優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。預(yù)報(bào)結(jié)果與對(duì)耀斑產(chǎn)生物理機(jī)制的認(rèn)識(shí)一致,即活動(dòng)區(qū)的演化過程對(duì)于耀斑產(chǎn)生具有重要影響。
構(gòu)建數(shù)據(jù)樣本的規(guī)則是通過判斷未來48 h 內(nèi)是否發(fā)生>M 級(jí)別太陽耀斑事件,因此模型能分辨兩種情況,分別為未來48 h 內(nèi)發(fā)生≥M 級(jí)以上的耀斑事件和未來48 h 內(nèi)發(fā)生<M 級(jí)耀斑或不發(fā)生耀斑事件。在構(gòu)建模型時(shí)只用到活動(dòng)區(qū)的參數(shù)特征,未用到圖像特征,而圖像的演化信息同樣可以使用長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行分析,建立耀斑預(yù)報(bào)模型。利用太陽觀測(cè)圖像信息進(jìn)行分析和建模研究,并對(duì)不同耀斑級(jí)別的預(yù)報(bào)進(jìn)行更細(xì)致的劃分將是未來研究的重要方向。
致謝 耀斑數(shù)據(jù)由SDO 衛(wèi)星提供。SDO 衛(wèi)星為NASA 啟動(dòng)的“與星共棲”計(jì)劃(LWS)的第一個(gè)任務(wù),該計(jì)劃旨在了解太陽變化的原因及其對(duì)地球的影響。太陽活動(dòng)區(qū)耀斑爆發(fā)數(shù)據(jù)集由中國科學(xué)院國家空間科學(xué)中心空間環(huán)境人工智能預(yù)警創(chuàng)新工坊整理提供。