人工智能自動生成海上大風預報報文研究

2021-09-13 02:27:43簡俊王衡孫正吳冠霖蘇欣陳三君

軟件工程 2021年9期

簡俊王衡孫正吳冠霖蘇欣陳三君

摘? 要：通過人工智能領域中的自然語言工具將不直觀的專業(yè)海上風速預報數(shù)據(jù)轉(zhuǎn)化為友好易懂的分析文本，提高氣象預報服務的時效性和合理性。首先提取中國海洋石油公司南海東部四個海上區(qū)塊的原始預報數(shù)據(jù)，利用神經(jīng)網(wǎng)絡對數(shù)據(jù)進行回歸擬合，得到一條顯示未來風速上升下降的單調(diào)區(qū)間、極值點和增減幅度的光滑曲線，再利用自然語言處理基于規(guī)則和基于統(tǒng)計相結(jié)合的方法自動生成預報文本。該方法可將現(xiàn)行需要人工45—60 分鐘才能完成的預報報文減少到2—4 分鐘內(nèi)完成，大大提高了海洋氣象預報的工作效率。

關鍵詞：海上大風預報;自動生成;自然語言處理;神經(jīng)網(wǎng)絡擬合

中圖分類號：TP39? ? ?文獻標識碼：A

文章編號：2096-1472（2021）-09-09-04

Abstract： This paper proposes to apply Artificial Intelligence-Natural Language tool to transform professional and non-intuitive meteorological data into understandable and user-friendly texts， thus improving the speed and rationality of meteorological services. The raw meteorological forecast data of the CNOOC's four offshore blocks in Eastern South China Sea is retrieved firstly， and the neural network is applied to perform regression fitting on the data， so to generate a smooth curve showing the monotonic interval， extreme points， and increase/decrease range of future wind speed. Then， Natural Language tool is applied to process the forecast texts which are automatically generated based on a combination of rules and statistics. Using the proposed method， the current 45-60 minutes manual forecasting work could be completed within 2-4 minutes， which greatly improves the efficiency of sea weather forecasting.

Keywords： sea wind forecast; automatic generation; natural language processing; neural network fitting

1? ?引言（Introduction）

海洋氣象預報是針對海上或近岸作業(yè)單位所處的海洋環(huán)境的氣象情報，用以保證海洋作業(yè)的安全及在可能的條件下提高海上作業(yè)的效率。提高航運安全保障技術(shù)中的一個重要內(nèi)容是精細化的海上風力預報與災害性大風浪預警，精細化既包括面向?qū)ο?，也包括準確性和時效性[1]。近年來，海洋經(jīng)濟的高速發(fā)展對海洋氣象工作的全面融入提出了新的更高的要求，因此基于傳統(tǒng)的天氣學和統(tǒng)計學的預報方法較難適應海洋氣象預報發(fā)展的現(xiàn)狀，當前的海洋氣象預報準確率和眾多的預報要素及預報的內(nèi)容需求越來越依賴于數(shù)值模式技術(shù)的發(fā)展。同樣是基于氣象數(shù)據(jù)，傳統(tǒng)人工分析預報要耗費大量的預報人力和物力，準確性和精確性亦有待提高。而在大數(shù)據(jù)時代，使用全球大氣環(huán)流模式產(chǎn)品和人工智能中的自然語言生成算法進行氣象水文自動預測和臺風預報已成為當今海洋氣象預報發(fā)展的需求[2]。

2? ?數(shù)據(jù)處理（Data processing）

2.1? ?氣象水文預報數(shù)據(jù)及人工分析報文

從歐洲中期天氣預報中心（European Centre for Medium—Range Weather Forecast， ECMWF）的數(shù)值預報產(chǎn)品提取中國南海東部四個海上油氣作業(yè)區(qū)塊陸豐、流花、西江、恩平（下文分別用LF、LH、XJ、EP代替）未來10 天的原始預報數(shù)據(jù)，包括起報時間、目標時間、預報提前量、風速、風向、平均浪高和單次最大浪高等。

在專業(yè)教師的指導下，航海氣象小組成員每天基于上面的預報數(shù)據(jù)和近期西風帶槽脊變化等大尺度大氣環(huán)流形勢進行分析，寫出自己的氣象預報報文，并利用Excel軟件做出風浪變化趨勢圖，再把結(jié)果發(fā)給南海東部四個區(qū)塊的海上平臺作業(yè)人員及陸上協(xié)調(diào)管理人員。此工作自2019 年初開始共持續(xù)600余天，每天堅持工作45—60 分鐘生成一份預報報文，有效地協(xié)助我國相關企業(yè)安排海上作業(yè)時間窗口，規(guī)避惡劣天氣造成的經(jīng)濟損失，但在產(chǎn)生較大經(jīng)濟效益的同時，也耗費了大量人工。

2.2? ?郵件收發(fā)

由于船舶及海洋平臺上的通訊條件有限，通過Inmarsat海事衛(wèi)星通信系統(tǒng)[3]雖然可以接入互聯(lián)網(wǎng)，但費用高、帶寬小，管理級人員大多數(shù)時候以收發(fā)電子郵件獲取信息為主，不能像在陸地上那樣比較方便地使用其他網(wǎng)絡終端[4]。因此從方便用戶及節(jié)省費用角度出發(fā)，設計采用云端服務及電子郵件交互的方法訪問、接收、處理、發(fā)送各類數(shù)據(jù)信息，即大多數(shù)工作在校園內(nèi)的服務器上自動進行，包括把原始預報數(shù)據(jù)下載到本地，通過編程語言處理后，再將最終報文結(jié)果發(fā)給海上用戶等，全程無人工干預。

在服務器端自動收取郵件最常用的程序工具是POP3[5]協(xié)議和Python語言中的Zmail模塊，經(jīng)過試驗對兩種方法的優(yōu)劣對比如表1所示。

Python標準庫提供了smtp模塊，用于實現(xiàn)SMTP協(xié)議，發(fā)送郵件，但SMTP協(xié)議存在與POP3協(xié)議同樣的問題。而Zmail模塊具有郵件發(fā)送功能，且代碼簡單不易出錯，故郵件收發(fā)皆使用Zmail模塊實現(xiàn)。

2.3? ?熵值法綜合處理多源氣象信息

以2020 年9 月7 日的工作為例，首先對通過Zmail模塊獲取的南海東部LF、LH、XJ、EP四個區(qū)塊2019 年1 月4 日—2020 年9 月6 日的600多封郵件進行分析，轉(zhuǎn)化為DataFrame格式，并對當天的原始起報數(shù)據(jù)進行清洗，刪除異常值和空缺值，得到表2中的數(shù)值。表2中數(shù)據(jù)從左到右分別代表（北京時間）年、月、日、時、風速（m/s）、風向（度）、平均浪高（m）、單次最大浪高（m），從上到下第二行開始為每隔6 小時步長的預報結(jié)果。

在信息論中，熵是對不確定性的一種度量。信息量越大，不確定性就越小，熵也就越小;信息量越小，不確定性越大，熵也越大。根據(jù)熵的特性，可以通過計算熵值來判斷一個事件的隨機性及無序程度，也可以用熵值來判斷某個指標的離散程度，指標的離散程度越大，該指標對綜合評價的影響越大[6]。假設數(shù)據(jù)中有個樣本個指標，其中表示第個樣本第個指標（）。熵權(quán)法賦權(quán)步驟如下：

步驟1：通過公式（1）計算出數(shù)據(jù)標準化值。通常應用最大最小標準化方法對數(shù)據(jù)進行標準化的操作，將各指標由絕對值變?yōu)橄鄬χ登蚁烤V對結(jié)果的影響。

步驟2：通過公式（2）和公式（3）計算出各指標的信息熵。

步驟3：通過公式（4）確定各指標權(quán)重，根據(jù)信息熵的計算公式計算出各個指標的信息熵為，通過信息熵計算各指標的權(quán)重。

因此，當判斷出海上不同點位的風速平均值、方差、中位數(shù)時，熵值法可以依據(jù)這幾個特征把氣象數(shù)據(jù)綜合起來，計算得到四個區(qū)塊（LF、LH、XJ、EP）對應的權(quán)重，如表3所示。

2.4? ?神經(jīng)網(wǎng)絡擬合

嘗試使用隨機森林[7]、神經(jīng)網(wǎng)絡[8]及支持向量機回歸擬合所得風速數(shù)據(jù)。由于支持向量機回歸數(shù)據(jù)過多會泛擬合，隨機森林特征較少，都不適用于該數(shù)據(jù)，而神經(jīng)網(wǎng)絡可以用作小樣本和大樣本，且結(jié)果與特征數(shù)目無關，最終選擇sklearn中神經(jīng)網(wǎng)絡的MLPRegressor[9]（多層感知器）進行回歸擬合，激勵函數(shù)使用“Relu”（整流后的線性單位函數(shù)），返回。然后選取最新一封郵件，利用熵值法算出四個海上作業(yè)區(qū)塊9 月7 日到9 月17 日的平均數(shù)據(jù)，便于之后的MLPRegressor進行處理，得到如圖1所示的南海東部未來10 天風速預報圖（虛線曲線表示熵值法，實線曲線表示神經(jīng)網(wǎng)絡擬合）。

3? 基于規(guī)則的自然語言文本生成（Rule-based natural language text generation）

3.1? ?基本原理

自然語言有意義的基本單元是詞，按照一定的句法規(guī)則將詞組織在一起就成為句子，再由句子組成段落，由段落構(gòu)成篇章。自然語言處理的基礎研究主要包括詞法分析、句法分析、語義分析、語用語境與篇章分析等。

自然語言生成（Natural Language Generation， NLG）是自然語言處理領域一個重要的組成部分，實現(xiàn)高質(zhì)量的自然語言生成也是人工智能邁向認知智能的重要標志。作為人工智能和計算語言學的子領域，自然語言生成從抽象的概念層次開始來生成文本[10]。按照輸入信息的類型劃分，自然語言生成可以分為三類：文本到文本生成、數(shù)據(jù)到文本生成和圖像到文本生成[11]。

3.2? ?中文分詞技術(shù)

隨著NLG技術(shù)的日益成熟，開源實現(xiàn)的分析工具越來越多，如Ansj、盤古分詞等。分詞工具選擇了基于規(guī)則和基于統(tǒng)計的Jieba分詞用于分詞和關鍵詞提取[12]。Jieba分詞提供了精確模式、全模式和搜索引擎模式三種分詞模式，例如Sample=‘根據(jù)最新氣象數(shù)據(jù)顯示，南海東部各平臺風力等級波動不大！運行結(jié)果如下：

全模式：根據(jù)/最新/新氣象/氣象/數(shù)據(jù)/顯示/，/南海/

海東/東部/各/平臺/臺風/風力/等級/波動/不大/！

精確模式：根據(jù)/最新/氣象/數(shù)據(jù)/顯示/，/南海/東部/

各/平臺/風力/等級/波動/不/大/！

搜索引擎模式：根據(jù)/最新/氣象/數(shù)據(jù)/顯示/，/南海/東部/各/平臺/風力/等級/波動/不/大/！

3.3? ?關鍵詞提取

關鍵詞是代表文章重要內(nèi)容的一組詞，將已經(jīng)向南海海上作業(yè)平臺發(fā)送的600多份由氣象小組成員編輯的氣象分析報文作為語料庫，提取出10 個關鍵詞。關鍵詞提取算法步驟為：加載數(shù)據(jù)集→加載停用詞表→數(shù)據(jù)集分詞→過濾干擾詞→訓練算法[13]。關鍵詞提取算法常用的有TF-IDF、TextRank、LSI和LDA四種，分別對四種算法進行訓練，結(jié)果如下：

TF-IDF模型結(jié)果：

氣象/風力/平臺/冷空氣/逐漸/迅速/西南/臺風/趨勢/風速/

TextRank模型結(jié)果：

風力/氣象/平臺/臺風/風速/增大/逐漸/中心/西南/增強/

LSI模型結(jié)果：

陣風/臺風/風力/平臺/海區(qū)/天氣/風速/迅速/南海/陣雨/

LDA模型結(jié)果：

隨后/最大風速/季風/海浪/條件/逐漸/氣壓/百帕/速度/陣風/

3.4? ?整體規(guī)則

根據(jù)人工氣象預報文本格式，結(jié)合語料庫提取的關鍵詞制定預報文本模板。以熵值法曲線表示未來10 天風速總體增降趨勢，以神經(jīng)網(wǎng)絡擬合曲線表示單調(diào)區(qū)間、極值點。標注7 級及以上大風為特殊點，需要特別關注，6 級及6 級以下風力僅一般性關注。氣象預報文本生成流程如圖2所示。

3.5? ?文本生成

根據(jù)以上規(guī)則生成的南海東部LF、LH、XJ、EP各區(qū)塊在2020 年9 月7 日生成的未來10 天內(nèi)（最遠覆蓋到17 日）的預報文本如下：

“根據(jù)最新氣象數(shù)據(jù)顯示，未來10 天南海東部各區(qū)塊風速有減弱的趨勢，最大風力5 級，在8 日達到最大風速8.56 m/s。各區(qū)塊風力等級都在6 級以下且波動較小，無7 級大風，有利于海上平臺作業(yè)。

請關注最新氣象預報！”

最后，利用Zmail模塊將自動生成的氣象預報文本通過電子郵件自動發(fā)送到南海東部的LF、LH、XJ、EP各平臺應急管理負責人。經(jīng)檢驗，全部工作可以在2—4 分鐘內(nèi)自動完成。

4? ?結(jié)論（Conclusion）

人工智能-自然語言生成工具已經(jīng)廣泛地應用到各行各業(yè)，產(chǎn)生了很大效益，氣象報文的生成也不例外。從手工處理氣象數(shù)據(jù)到預報文本的自動生成，具有很大的研究意義，同時實用性很強。目前該方法還有一些明顯不足，如對四個區(qū)塊只給出統(tǒng)一的報文文本及變化曲線，語言略生硬，偶爾出現(xiàn)遺漏或過度警報的問題，仍需要人工檢查和糾正等。未來應當更新完善氣象語料庫，制定愈加人性化的文本生成規(guī)則，為提高海上氣象預報技巧和效率做出貢獻。

參考文獻（References）

[1] 丁建軍，羅兵，趙光平，等.精細化預報訂正平臺設計[J].氣象，2008（11）：89-95.

[2] 簡俊，WEBSTER P J，朱大海.一種定量化的海面定點風速自動預報系統(tǒng)[J].航海技術(shù)，2012（05）：9-11.

[3] 駱樂，包少彬，高恒偉，等.寬帶海事衛(wèi)星通信系統(tǒng)的技術(shù)分析[J].集成電路應用，2021，38（02）：128-129.

[4] 徐丹.基于衛(wèi)星網(wǎng)絡的海事郵件通信系統(tǒng)架構(gòu)設計[J].數(shù)字通信世界，2019（07）：4-7.

[5] BELING H. Python使用POP3獲取郵件信息[EB/OL].（2020-01-01）[2021-06-19]. https：//blog.csdn.net/Beking17113/article/details/103797133.

[6] 王卓，高叢.基于信息論的熵值法的算法改進——以陜西省環(huán)境規(guī)制強度評價為例[J].西安石油大學學報（社會科學版），2016，25（01）：22-26.

[7] PATIL D， RAJ R， SHINGADE P， et al. Feature selection and classification employing hybrid ant colony optimization/random forest methodology[J]. Combinatorial Chemistry & High Throughput Screening， 2009， 12（5）：507-513.

[8] 呂硯山，趙正琦.BP神經(jīng)網(wǎng)絡的優(yōu)化及應用研究[J].北京化工大學學報（自然科學版），2001（01）：67-69.

[9] GIULIANO A. Using phidelta diagrams to discover relevant patterns in multilayer perceptrons[J]. Scientific Reports， 2020， 10（1）：21334-21334.

[10] REITER E. Building natural-language generation systems[J]. Computational Lingus， 1996， 27（2）：298-300.

[11] 李雪晴，王石，王朱君，等.自然語言生成綜述[J].計算機應用，2021，41（05）：1227-1235.

[12] 余洋.基于關鍵詞的自動短文生成[D].武漢：華中師范大學，2020.

[13] 涂銘，劉祥，劉樹春，等.Python自然語言處理實戰(zhàn)：核心技術(shù)與算法[M].北京：機械工業(yè)出版社，2018：53-55.

作者簡介：

簡? ? ?。?976-），男，博士，副教授.研究領域：海洋氣象災害預報，安全與保障.

王? ? 衡（1993-），男，碩士生.研究領域：海上風浪趨勢預報.

孫? ? 正（1998-），男，碩士生.研究領域：風浪信息自動讀取.

吳冠霖（1999-），男，本科生.研究領域：自然語言生成.

蘇? ? 欣（2000-），女，本科生.研究領域：交通信息安全.

陳三君（1983-），男，本科，高級工程師.研究領域：海洋石油海上生產(chǎn)與應急管理.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

人工智能自動生成海上大風預報報文研究