王 婧 李衣長 葉凌鋒
(1.福建省氣象信息中心,福建 福州 350001;2.福建省三明市氣象局,福建 三明 365000;3.福建省氣象科學(xué)研究所,福建 福州 350001)
隨著氣象事業(yè)的快速發(fā)展,國家建設(shè)了大量的氣象觀測站,使得氣象數(shù)據(jù)的數(shù)據(jù)量和維度逐年提升[1]。伴隨著數(shù)據(jù)量與維度的不斷增加,氣象數(shù)據(jù)的質(zhì)量控制(簡稱質(zhì)控)問題逐漸凸顯[2]。氣象數(shù)據(jù)的質(zhì)量控制影響著天氣預(yù)報的準確性與可靠性[3-4],且氣象數(shù)據(jù)異常值對科研領(lǐng)域也有較大影響[5]。因此,對氣象數(shù)據(jù)進行質(zhì)量控制極為重要。
傳統(tǒng)的質(zhì)控系統(tǒng)使用氣候極值、數(shù)值變化率等統(tǒng)計學(xué)指標,應(yīng)用廣泛。賈寧等[6]利用傳統(tǒng)質(zhì)控方法完成了氣象數(shù)據(jù)的可疑性、變化率等簡單檢查;任芝花等[7]建立了基于臺站級、省級、國家級的三級質(zhì)量控制流程。傳統(tǒng)質(zhì)控方法在針對具體站點的問題上缺乏靈敏度,在要素之間關(guān)聯(lián)性的使用上不夠深入,造成質(zhì)控工作量大、效率低、不夠靈活等問題[8-9]。大量專家學(xué)者對此提出了不少改進方案,田云紅等[10]依據(jù)臺站歷史數(shù)據(jù)對氣象觀測數(shù)值的界限值和時間一致性進行更精確的判斷;韓格格等[11]使用改進Apriori算法關(guān)聯(lián)氣象數(shù)據(jù)進行質(zhì)量控制。近年來,數(shù)據(jù)挖掘算法應(yīng)用廣泛,其中輕量級梯度提升算法(LightGBM)具有準確性高、訓(xùn)練速度快和支持分布式等特點,可以快速處理海量數(shù)據(jù),挖掘數(shù)據(jù)之間的關(guān)系,建立數(shù)據(jù)模型[12-14]。王予涵等[15]使用LightGBM算法預(yù)測用戶購買行為;胡瀾等[16]使用該算法對風(fēng)力發(fā)電機進行故障診斷;余東昌等[17]運用該算法構(gòu)建能見度預(yù)測模型。LightGBM算法在各領(lǐng)域的應(yīng)用證明了其明顯的優(yōu)勢,然而目前LightGBM算法較少應(yīng)用于氣象數(shù)據(jù)質(zhì)量控制。故本文選取了2019—2021年福州市國家觀測站點采集的氣象數(shù)據(jù),以氣溫數(shù)據(jù)為例,通過LightGBM算法進行數(shù)據(jù)質(zhì)量控制,并將結(jié)果與傳統(tǒng)的變化率判斷法進行對比,驗證LightGBM算法在氣象數(shù)據(jù)質(zhì)量控制方面的可行性與可靠性。
本文選取福州市2019—2021年的國家觀測站點的氣象數(shù)據(jù),繪制每個月平均溫度的變化趨勢圖(圖1)。從圖1可知,福州氣溫1—3月溫度較低,7—8月的月平均溫度在30℃左右,溫度數(shù)據(jù)呈周期性變化。
圖1 福州市氣溫變化趨勢圖
福州市國家觀測站有關(guān)氣象地面觀測數(shù)據(jù)的維度較多,包括溫度(氣溫)、地溫、地面溫度、草面溫度、相對濕度、海平面氣壓、氣壓、能見度、風(fēng)向、風(fēng)速、輻射照度、降水等維度。從圖2可知,氣象數(shù)值呈周期性變化且數(shù)據(jù)維度之間存在一定的關(guān)聯(lián)性,例如白天氣溫高、夜間低;能見度與氣溫呈正相關(guān)性,而相對濕度、海平面氣壓與溫度則呈負相關(guān)性。
計算氣溫與各類數(shù)據(jù)之間的斯皮爾曼相關(guān)系數(shù),可以獲取氣溫與各類數(shù)據(jù)之間的相關(guān)性情況(表1),從表1可知,氣溫與地溫、草面溫度是強相關(guān)關(guān)系,與時間、相對濕度和海平面氣壓是強相關(guān)和中等程度相關(guān)。不同維度數(shù)據(jù)之間存在相關(guān)性,表明利用多種不同維度的數(shù)據(jù)完成對某一維度數(shù)據(jù)的簡單預(yù)測是可行的。
圖2 氣象要素數(shù)值變化趨勢圖
表1 氣象要素相關(guān)性分析(0.4中等程度相關(guān)以上)
輕量級梯度提升算法LightGBM是改進的梯度提升算法[18-19],具有存占用低、準確性高、訓(xùn)練速度快等優(yōu)勢,在預(yù)測、搜索等任務(wù)上應(yīng)用廣泛且表現(xiàn)優(yōu)異,可以快速處理海量數(shù)據(jù),挖掘數(shù)據(jù)之間的關(guān)系[20-21]。
從基于LightGBM的氣象數(shù)據(jù)質(zhì)量控制算法流程看(見圖3),首先使用氣象原始數(shù)據(jù)D和初始化權(quán)重訓(xùn)練并獲得弱學(xué)習(xí)器,根據(jù)弱學(xué)習(xí)器的誤差調(diào)整權(quán)重,重復(fù)訓(xùn)練獲得n個弱學(xué)習(xí)器,將n個弱學(xué)習(xí)器的結(jié)果加權(quán)組合,再綜合查全率和查準率選取閾值,最后獲得氣象數(shù)據(jù)質(zhì)量控制的檢測模型。
將LightGBM算法引入氣象數(shù)據(jù)質(zhì)控中,能夠充分發(fā)揮算法與多維氣象數(shù)據(jù)的優(yōu)勢,有效利用多維度數(shù)據(jù)之間存在的相關(guān)性,完成對某種氣象要素的預(yù)測,達到質(zhì)量控制的目的。
圖3 基于LightGBM的質(zhì)控算法流程圖
氣象數(shù)據(jù)質(zhì)量控制的本質(zhì)是時間序列的異常檢測,常見的時間序列異常有4種類型:(a)附加性異常;(b)革新性異常;(c)暫時性異常;(d)移位性異常,如圖4所示。模擬4種異常數(shù)值,并將異常值疊加在氣象數(shù)值中,結(jié)果如圖5所示。其中,左列是四種類型的異常值,右列實線是原始數(shù)據(jù),虛線是疊加模擬異常值后的模擬數(shù)據(jù)。加入異常值的氣象數(shù)據(jù)將作為算法的測試集,用于檢測算法效果和性能。
(a)附加性異常 (b)革新性異常 (c)暫時性異常(d)移位性異常
圖5 四種氣象異常數(shù)值模擬
①查準率(P)是指預(yù)測為正樣本的結(jié)果中真正樣本所占的比例。
(1)
式(1)中,TP是真正樣本個數(shù),F(xiàn)P是假正樣本個數(shù)。
②查全率(R)是指在實際的正樣本中,被算法預(yù)測為正樣本所占的比例。
(2)
式(2)中,TP是真正樣本個數(shù),F(xiàn)N是假反樣本個數(shù)。
③F1數(shù)值:查準率和查全率評價的角度不同,而F1數(shù)值可以同時考慮查準率和查全率。
(3)
式3中,P是查準率,R是查全率,β是權(quán)重參數(shù),參數(shù)可根據(jù)需求設(shè)置,例如本文的氣象數(shù)據(jù)質(zhì)量控制,我們更注重查全率,可以將β值設(shè)置為大于1的值,這樣F1得分將更傾向于查全率。
以福州市2019年1月—2021年9月的國家觀測站點各個氣象要素作為LightGBM算法的訓(xùn)練集,以2021年10—12月數(shù)據(jù)為測試集。算法通過不斷訓(xùn)練迭代獲得模型。
表2是面對4種類型的異常值,變化率判斷法與基于LightGBM算法的質(zhì)控方法的查準率P、查全率R和F1的數(shù)值,其中a代表變化率判斷法,b代表LightGBM判斷法。從圖6可以看出,面對4種類型的異常值,基于LightGBM算法的質(zhì)控方法優(yōu)于變化率質(zhì)控方法,特別是面對第一種附加性異常值時表現(xiàn)突出。
表2 算法結(jié)果分析
圖6 算法結(jié)果柱狀圖
可以使用P-R曲線來直觀地評估算法的性能,從圖7中可以看出,當查準率P相同時,LightGBM算法的查全率R大于變化率判斷的質(zhì)控方法;當查全率R相同時,LightGBM算法的查準率P明顯大于變化率判斷法,說明基于LightGBM算法的質(zhì)控方法泛化能力更好,性能優(yōu)于變化率判斷法。
(a)變化率判斷法(b)LightGBM質(zhì)控法
使用綜合考慮查全率和查準率的F1數(shù)值選取閾值,當閾值取2.7時,LightGBM質(zhì)控方法的F1值最高。由圖8可知,LightGBM算法預(yù)測結(jié)果與真實值基本吻合,當數(shù)值落在閾值帶以外時,算法判斷為異常值,可見該算法能輕易地將異常值區(qū)分出來,LightGBM算法質(zhì)控方法精準度高、針對性強、靈活性高。
圖8 基于LightGBM算法的質(zhì)控展示圖
本文使用2019—2021年福州市國家觀測站點采集的氣象數(shù)據(jù),以氣溫數(shù)據(jù)為例進行LightGBM算法的質(zhì)量控制研究。首先,簡單分析了氣象地面觀測數(shù)據(jù)各維度與氣溫之間的相關(guān)性,發(fā)現(xiàn)利用不同維度之間的相關(guān)性完成數(shù)據(jù)質(zhì)控是可行的。其次,引入LightGBM算法并利用各維度數(shù)據(jù)的相關(guān)性完成了氣溫的數(shù)據(jù)質(zhì)量控制,最后,通過查全率、查準率與F1數(shù)值,對比LightGBM質(zhì)控法與傳統(tǒng)變化率判法的質(zhì)控結(jié)果,得出以下結(jié)論。
①針對4種典型的時間序列異常情況,基于LightGBM算法的質(zhì)控方法能檢測出氣象數(shù)據(jù)中的異常值,特別是面對附加性異常值時表現(xiàn)突出,變化率判斷法查全率96.7%,新方法達98.9%,其質(zhì)控的準確性高、效果好。
②根據(jù)P-R曲線直觀地評估算法的性能,當查全率R相同時,LightGBM算法的查準率P明顯大于變化率判斷的質(zhì)控方法,可見基于LightGBM算法的質(zhì)控方法泛化能力更好,性能優(yōu)于變化率判斷的質(zhì)控方法。
③綜合考慮查全率和查準率LightGBM算法閾值選取比變化率判斷法的質(zhì)控方法更精確,針對性強,靈活性高。