• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LightGBM的氣象數(shù)據(jù)質(zhì)量控制方法研究*

      2022-09-01 00:52:58李衣長葉凌鋒
      海峽科學(xué) 2022年7期
      關(guān)鍵詞:查全率查準率變化率

      王 婧 李衣長 葉凌鋒

      (1.福建省氣象信息中心,福建 福州 350001;2.福建省三明市氣象局,福建 三明 365000;3.福建省氣象科學(xué)研究所,福建 福州 350001)

      1 概述

      隨著氣象事業(yè)的快速發(fā)展,國家建設(shè)了大量的氣象觀測站,使得氣象數(shù)據(jù)的數(shù)據(jù)量和維度逐年提升[1]。伴隨著數(shù)據(jù)量與維度的不斷增加,氣象數(shù)據(jù)的質(zhì)量控制(簡稱質(zhì)控)問題逐漸凸顯[2]。氣象數(shù)據(jù)的質(zhì)量控制影響著天氣預(yù)報的準確性與可靠性[3-4],且氣象數(shù)據(jù)異常值對科研領(lǐng)域也有較大影響[5]。因此,對氣象數(shù)據(jù)進行質(zhì)量控制極為重要。

      傳統(tǒng)的質(zhì)控系統(tǒng)使用氣候極值、數(shù)值變化率等統(tǒng)計學(xué)指標,應(yīng)用廣泛。賈寧等[6]利用傳統(tǒng)質(zhì)控方法完成了氣象數(shù)據(jù)的可疑性、變化率等簡單檢查;任芝花等[7]建立了基于臺站級、省級、國家級的三級質(zhì)量控制流程。傳統(tǒng)質(zhì)控方法在針對具體站點的問題上缺乏靈敏度,在要素之間關(guān)聯(lián)性的使用上不夠深入,造成質(zhì)控工作量大、效率低、不夠靈活等問題[8-9]。大量專家學(xué)者對此提出了不少改進方案,田云紅等[10]依據(jù)臺站歷史數(shù)據(jù)對氣象觀測數(shù)值的界限值和時間一致性進行更精確的判斷;韓格格等[11]使用改進Apriori算法關(guān)聯(lián)氣象數(shù)據(jù)進行質(zhì)量控制。近年來,數(shù)據(jù)挖掘算法應(yīng)用廣泛,其中輕量級梯度提升算法(LightGBM)具有準確性高、訓(xùn)練速度快和支持分布式等特點,可以快速處理海量數(shù)據(jù),挖掘數(shù)據(jù)之間的關(guān)系,建立數(shù)據(jù)模型[12-14]。王予涵等[15]使用LightGBM算法預(yù)測用戶購買行為;胡瀾等[16]使用該算法對風(fēng)力發(fā)電機進行故障診斷;余東昌等[17]運用該算法構(gòu)建能見度預(yù)測模型。LightGBM算法在各領(lǐng)域的應(yīng)用證明了其明顯的優(yōu)勢,然而目前LightGBM算法較少應(yīng)用于氣象數(shù)據(jù)質(zhì)量控制。故本文選取了2019—2021年福州市國家觀測站點采集的氣象數(shù)據(jù),以氣溫數(shù)據(jù)為例,通過LightGBM算法進行數(shù)據(jù)質(zhì)量控制,并將結(jié)果與傳統(tǒng)的變化率判斷法進行對比,驗證LightGBM算法在氣象數(shù)據(jù)質(zhì)量控制方面的可行性與可靠性。

      2 氣溫與其他氣象要素的相關(guān)性

      本文選取福州市2019—2021年的國家觀測站點的氣象數(shù)據(jù),繪制每個月平均溫度的變化趨勢圖(圖1)。從圖1可知,福州氣溫1—3月溫度較低,7—8月的月平均溫度在30℃左右,溫度數(shù)據(jù)呈周期性變化。

      圖1 福州市氣溫變化趨勢圖

      福州市國家觀測站有關(guān)氣象地面觀測數(shù)據(jù)的維度較多,包括溫度(氣溫)、地溫、地面溫度、草面溫度、相對濕度、海平面氣壓、氣壓、能見度、風(fēng)向、風(fēng)速、輻射照度、降水等維度。從圖2可知,氣象數(shù)值呈周期性變化且數(shù)據(jù)維度之間存在一定的關(guān)聯(lián)性,例如白天氣溫高、夜間低;能見度與氣溫呈正相關(guān)性,而相對濕度、海平面氣壓與溫度則呈負相關(guān)性。

      計算氣溫與各類數(shù)據(jù)之間的斯皮爾曼相關(guān)系數(shù),可以獲取氣溫與各類數(shù)據(jù)之間的相關(guān)性情況(表1),從表1可知,氣溫與地溫、草面溫度是強相關(guān)關(guān)系,與時間、相對濕度和海平面氣壓是強相關(guān)和中等程度相關(guān)。不同維度數(shù)據(jù)之間存在相關(guān)性,表明利用多種不同維度的數(shù)據(jù)完成對某一維度數(shù)據(jù)的簡單預(yù)測是可行的。

      圖2 氣象要素數(shù)值變化趨勢圖

      表1 氣象要素相關(guān)性分析(0.4中等程度相關(guān)以上)

      3 基于LightGBM的氣象數(shù)據(jù)質(zhì)量控制方法

      3.1 算法介紹

      輕量級梯度提升算法LightGBM是改進的梯度提升算法[18-19],具有存占用低、準確性高、訓(xùn)練速度快等優(yōu)勢,在預(yù)測、搜索等任務(wù)上應(yīng)用廣泛且表現(xiàn)優(yōu)異,可以快速處理海量數(shù)據(jù),挖掘數(shù)據(jù)之間的關(guān)系[20-21]。

      從基于LightGBM的氣象數(shù)據(jù)質(zhì)量控制算法流程看(見圖3),首先使用氣象原始數(shù)據(jù)D和初始化權(quán)重訓(xùn)練并獲得弱學(xué)習(xí)器,根據(jù)弱學(xué)習(xí)器的誤差調(diào)整權(quán)重,重復(fù)訓(xùn)練獲得n個弱學(xué)習(xí)器,將n個弱學(xué)習(xí)器的結(jié)果加權(quán)組合,再綜合查全率和查準率選取閾值,最后獲得氣象數(shù)據(jù)質(zhì)量控制的檢測模型。

      將LightGBM算法引入氣象數(shù)據(jù)質(zhì)控中,能夠充分發(fā)揮算法與多維氣象數(shù)據(jù)的優(yōu)勢,有效利用多維度數(shù)據(jù)之間存在的相關(guān)性,完成對某種氣象要素的預(yù)測,達到質(zhì)量控制的目的。

      圖3 基于LightGBM的質(zhì)控算法流程圖

      3.2 異常數(shù)據(jù)

      氣象數(shù)據(jù)質(zhì)量控制的本質(zhì)是時間序列的異常檢測,常見的時間序列異常有4種類型:(a)附加性異常;(b)革新性異常;(c)暫時性異常;(d)移位性異常,如圖4所示。模擬4種異常數(shù)值,并將異常值疊加在氣象數(shù)值中,結(jié)果如圖5所示。其中,左列是四種類型的異常值,右列實線是原始數(shù)據(jù),虛線是疊加模擬異常值后的模擬數(shù)據(jù)。加入異常值的氣象數(shù)據(jù)將作為算法的測試集,用于檢測算法效果和性能。

      (a)附加性異常 (b)革新性異常 (c)暫時性異常(d)移位性異常

      圖5 四種氣象異常數(shù)值模擬

      3.3 算法結(jié)果評價標準

      ①查準率(P)是指預(yù)測為正樣本的結(jié)果中真正樣本所占的比例。

      (1)

      式(1)中,TP是真正樣本個數(shù),F(xiàn)P是假正樣本個數(shù)。

      ②查全率(R)是指在實際的正樣本中,被算法預(yù)測為正樣本所占的比例。

      (2)

      式(2)中,TP是真正樣本個數(shù),F(xiàn)N是假反樣本個數(shù)。

      ③F1數(shù)值:查準率和查全率評價的角度不同,而F1數(shù)值可以同時考慮查準率和查全率。

      (3)

      式3中,P是查準率,R是查全率,β是權(quán)重參數(shù),參數(shù)可根據(jù)需求設(shè)置,例如本文的氣象數(shù)據(jù)質(zhì)量控制,我們更注重查全率,可以將β值設(shè)置為大于1的值,這樣F1得分將更傾向于查全率。

      4 結(jié)果與分析

      以福州市2019年1月—2021年9月的國家觀測站點各個氣象要素作為LightGBM算法的訓(xùn)練集,以2021年10—12月數(shù)據(jù)為測試集。算法通過不斷訓(xùn)練迭代獲得模型。

      表2是面對4種類型的異常值,變化率判斷法與基于LightGBM算法的質(zhì)控方法的查準率P、查全率R和F1的數(shù)值,其中a代表變化率判斷法,b代表LightGBM判斷法。從圖6可以看出,面對4種類型的異常值,基于LightGBM算法的質(zhì)控方法優(yōu)于變化率質(zhì)控方法,特別是面對第一種附加性異常值時表現(xiàn)突出。

      表2 算法結(jié)果分析

      圖6 算法結(jié)果柱狀圖

      可以使用P-R曲線來直觀地評估算法的性能,從圖7中可以看出,當查準率P相同時,LightGBM算法的查全率R大于變化率判斷的質(zhì)控方法;當查全率R相同時,LightGBM算法的查準率P明顯大于變化率判斷法,說明基于LightGBM算法的質(zhì)控方法泛化能力更好,性能優(yōu)于變化率判斷法。

      (a)變化率判斷法(b)LightGBM質(zhì)控法

      使用綜合考慮查全率和查準率的F1數(shù)值選取閾值,當閾值取2.7時,LightGBM質(zhì)控方法的F1值最高。由圖8可知,LightGBM算法預(yù)測結(jié)果與真實值基本吻合,當數(shù)值落在閾值帶以外時,算法判斷為異常值,可見該算法能輕易地將異常值區(qū)分出來,LightGBM算法質(zhì)控方法精準度高、針對性強、靈活性高。

      圖8 基于LightGBM算法的質(zhì)控展示圖

      5 結(jié)論

      本文使用2019—2021年福州市國家觀測站點采集的氣象數(shù)據(jù),以氣溫數(shù)據(jù)為例進行LightGBM算法的質(zhì)量控制研究。首先,簡單分析了氣象地面觀測數(shù)據(jù)各維度與氣溫之間的相關(guān)性,發(fā)現(xiàn)利用不同維度之間的相關(guān)性完成數(shù)據(jù)質(zhì)控是可行的。其次,引入LightGBM算法并利用各維度數(shù)據(jù)的相關(guān)性完成了氣溫的數(shù)據(jù)質(zhì)量控制,最后,通過查全率、查準率與F1數(shù)值,對比LightGBM質(zhì)控法與傳統(tǒng)變化率判法的質(zhì)控結(jié)果,得出以下結(jié)論。

      ①針對4種典型的時間序列異常情況,基于LightGBM算法的質(zhì)控方法能檢測出氣象數(shù)據(jù)中的異常值,特別是面對附加性異常值時表現(xiàn)突出,變化率判斷法查全率96.7%,新方法達98.9%,其質(zhì)控的準確性高、效果好。

      ②根據(jù)P-R曲線直觀地評估算法的性能,當查全率R相同時,LightGBM算法的查準率P明顯大于變化率判斷的質(zhì)控方法,可見基于LightGBM算法的質(zhì)控方法泛化能力更好,性能優(yōu)于變化率判斷的質(zhì)控方法。

      ③綜合考慮查全率和查準率LightGBM算法閾值選取比變化率判斷法的質(zhì)控方法更精確,針對性強,靈活性高。

      猜你喜歡
      查全率查準率變化率
      基于電流變化率的交流濾波器失諧元件在線辨識方法
      湖南電力(2021年4期)2021-11-05 06:44:42
      例談中考題中的變化率問題
      海量圖書館檔案信息的快速檢索方法
      基于詞嵌入語義的精準檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于深度特征分析的雙線性圖像相似度匹配算法
      利用基波相量變化率的快速選相方法
      川滇地區(qū)地殼應(yīng)變能密度變化率與強震復(fù)發(fā)間隔的數(shù)值模擬
      中文分詞技術(shù)對中文搜索引擎的查準率及查全率的影響
      基于Web的概念屬性抽取的研究
      平泉县| 封丘县| 五河县| 定边县| 金阳县| 马边| 临安市| 苍山县| 确山县| 抚宁县| 隆德县| 屏东县| 新安县| 德庆县| 任丘市| 黔西| 黄陵县| 通许县| 宁乡县| 桃园县| 鲁山县| 普兰店市| 武义县| 阳山县| 启东市| 沁阳市| 阿鲁科尔沁旗| 鸡泽县| 米泉市| 邯郸市| 临颍县| 营山县| 永修县| 遂川县| 肇东市| 平原县| 岗巴县| 大田县| 法库县| 嘉黎县| 洪泽县|