• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學(xué)習(xí)的FPL 報(bào)文航路糾錯(cuò)研究

      2021-07-09 17:19:30郭舒言
      現(xiàn)代計(jì)算機(jī) 2021年14期
      關(guān)鍵詞:解碼器航路編碼器

      郭舒言

      (四川大學(xué)視覺合成圖形圖像技術(shù)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室,成都 610065)

      0 引言

      航空固定電信網(wǎng)(Aeronautical Fixed Telecommuni?cation Network,AFTN)格式電報(bào)供空中交通管制部門使用,共包括16 類,領(lǐng)航計(jì)劃報(bào)(Filed Light Plan Mes?sage,F(xiàn)PL)是其中使用頻率最高的報(bào)文,由空中交通服務(wù)單位根據(jù)航空器運(yùn)營(yíng)人或代理人提交的飛行計(jì)劃數(shù)據(jù),拍發(fā)給沿航路所有相關(guān)空中交通服務(wù)單位。FPL報(bào)對(duì)于保證飛行安全和提高工作效率有著十分重要的意義,也由此對(duì)其正確性提出較高要求。但由于報(bào)文是由人工進(jìn)行編寫和拍發(fā),實(shí)際工作中難免出現(xiàn)錯(cuò)漏,收?qǐng)?bào)單位在解析航路時(shí),若發(fā)現(xiàn)航路中存在系統(tǒng)無法識(shí)別的航路點(diǎn)或發(fā)現(xiàn)某航路點(diǎn)偏離航路,需將報(bào)文發(fā)送至人工席等待處理[1]。本文設(shè)計(jì)的FPL 報(bào)文自動(dòng)糾錯(cuò)方法旨在報(bào)文發(fā)送端識(shí)別錯(cuò)誤航路并給出修正提示,從而節(jié)省人力、物力資源,在實(shí)際工作場(chǎng)景中具有一定的應(yīng)用價(jià)值[1]。

      目前對(duì)于報(bào)文的處理多集中于報(bào)文解析[3]和格式層面[4]的糾錯(cuò),本文則針對(duì)報(bào)文航路內(nèi)容層面進(jìn)行糾錯(cuò),將報(bào)文看作一種具有特殊規(guī)則的語言,把報(bào)文糾錯(cuò)任務(wù)視為文本糾錯(cuò)任務(wù),引入基于深度學(xué)習(xí)的自然語言處理技術(shù)。Transformer 模型是Google 于2017 年提出的一種新型網(wǎng)絡(luò)結(jié)構(gòu)[5],其在保持經(jīng)典的“編碼器-解碼器”結(jié)構(gòu)的同時(shí),拋棄傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),僅使用注意力機(jī)制,并行結(jié)構(gòu)提升了訓(xùn)練效率,且獲得了較高的準(zhǔn)確度。本文通過實(shí)驗(yàn)驗(yàn)證了Transformer 模型在報(bào)文糾錯(cuò)上的有效性,同時(shí)根據(jù)報(bào)文特點(diǎn)提出一種基于N-Gram 思想的結(jié)果修正機(jī)制,通過片段共現(xiàn)詞打分的方法對(duì)修改進(jìn)行取舍,進(jìn)一步提高了報(bào)文糾錯(cuò)的正確率。

      1 背景

      文本糾錯(cuò)任務(wù)是指通過分析輸入句子成分之間的依賴性和邏輯性,對(duì)其中出現(xiàn)的多詞、少詞、錯(cuò)詞或搭配不當(dāng)?shù)儒e(cuò)誤進(jìn)行識(shí)別并自動(dòng)修正,從而獲得更流利的句子[6],該任務(wù)多以自然語言為研究主體。傳統(tǒng)的文本糾錯(cuò)任務(wù)研究方法主要包括:①基于規(guī)則的方法,利用語言學(xué)知識(shí)針對(duì)特定錯(cuò)誤進(jìn)行糾正[7];②基于統(tǒng)計(jì)的方法,如數(shù)據(jù)驅(qū)動(dòng)的傳統(tǒng)機(jī)器學(xué)習(xí)[8]和分析利用上下文信息的N-Gram 模型[9-10]。

      將文本糾錯(cuò)任務(wù)看作翻譯任務(wù),即把糾錯(cuò)過程看作將錯(cuò)誤文本改成正確文本的翻譯過程,為糾錯(cuò)任務(wù)的研究提供了新思路。Brockett 等人[11]首先采用該方法,并提出了一個(gè)基于短語統(tǒng)計(jì)的機(jī)器翻譯糾錯(cuò)模型。Ehsan 等人[12]針對(duì)上下文敏感錯(cuò)誤檢測(cè),提出了一種基于規(guī)則和統(tǒng)計(jì)機(jī)器翻譯相結(jié)合的方法。隨著深度學(xué)習(xí)的發(fā)展,基于端到端的深度神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法興起[13-14],也被應(yīng)用到文本糾錯(cuò)任務(wù)中。Chollam?patt 等人[15]結(jié)合N-Gram 信息,提出一種基于多層卷積的端到端神經(jīng)網(wǎng)絡(luò)的改進(jìn)語法自動(dòng)校正方法。郝亞男等人[16]提出一種基于BiGRU 和注意力機(jī)制的中文文本校對(duì)方法,能較好地捕捉詞間語義邏輯關(guān)系。黃浩洋[17]提出一種結(jié)合預(yù)訓(xùn)練方法獲得語義信息嵌入的堆疊深度神經(jīng)網(wǎng)絡(luò)模型。周旺[18]提出一種反饋過濾算法,結(jié)合Seq2Seq 模型構(gòu)建了英語語法糾錯(cuò)模型。

      2 FPL報(bào)文說明

      根據(jù)《民航飛行動(dòng)態(tài)固定格式電報(bào)管理規(guī)定》,一條完整的FPL 報(bào)文應(yīng)包括9 個(gè)編組,如下所示,“(”代表報(bào)文開始,“)”代表報(bào)文結(jié)束,各編組間用“-”隔開,編組內(nèi)有多個(gè)數(shù)據(jù)項(xiàng)的用空格或“/”隔開。

      FPL 報(bào)文構(gòu)成說明

      本文中,只提取每條FPL 報(bào)文中編組13 的起飛機(jī)場(chǎng)代碼、編組15 的航點(diǎn)(線)代碼以及編組16 的目的機(jī)場(chǎng)代碼,組成一條完整的訓(xùn)練所需數(shù)據(jù)。

      3 算法實(shí)現(xiàn)

      3.1 基于Transformer模型的航路糾錯(cuò)

      Transformer 模型由編碼器和解碼器組成,整體結(jié)構(gòu)如圖1 所示。輸入序列經(jīng)編碼器被映射成相同長(zhǎng)度高維向量,再由解碼器解碼生成輸出序列。其中,編碼器端的輸入為待糾錯(cuò)文本,解碼器端的輸入需區(qū)分訓(xùn)練階段與測(cè)試階段,訓(xùn)練階段解碼器端輸入與待糾錯(cuò)文本相對(duì)應(yīng)的正確文本,測(cè)試階段則輸入解碼器前一時(shí)刻的輸出。解碼器輸出經(jīng)過Linear 層和Softmax 層得到輸出詞概率,概率最大的詞確定為該時(shí)刻輸出,每一時(shí)刻輸出的詞拼接為最終輸出序列。

      圖1 Transformer模型結(jié)構(gòu)

      因?yàn)槟P筒话h(huán)和卷積,為了利用序列的位置信息,在詞嵌入的基礎(chǔ)上加入位置向量(Positional Encoding),計(jì)算方法如式(1)~(2)所示:

      其中,pos指該詞在序列中的位置,i指第i維,dmodel為模型隱層維度。

      編碼器共N 層,每層包含兩個(gè)子層,分別為多頭注意力(Multi-Head Attention)層和全連接的前饋網(wǎng)絡(luò)(Feed Forward)層。每個(gè)子層后有一個(gè)殘差連接及歸一化結(jié)構(gòu),殘差連接避免梯度消失,歸一化。多頭注意力使用點(diǎn)積注意力,計(jì)算如式(3)~(5)所示。

      其中,Q、K、V為三個(gè)向量矩陣,Q為查詢矩陣(query matrix),K為鍵矩陣(key matrix),V為值矩陣(value matrix);dk為隱層維度分別為對(duì)應(yīng)的權(quán)重矩陣。Multi-Head 的注意力由多個(gè)head拼接而成,可以并行計(jì)算,提高模型訓(xùn)練效率。前饋網(wǎng)絡(luò)層計(jì)算如式(6)所示,包含兩個(gè)線性變換和一個(gè)Re?LU 激活:

      其中,W1、b1和W2、b2分別為兩次線性變換對(duì)應(yīng)的權(quán)重和偏置。

      解碼器也為N層,每層包含三個(gè)子層。第一個(gè)子層掩碼多頭注意力(Masked Multi-Head Attention)層,掩碼的作用是避免解碼器在訓(xùn)練時(shí)讀到后續(xù)位置的信息,使預(yù)測(cè)只依賴當(dāng)前時(shí)刻已知輸出。解碼器的多頭注意力層接受來自編碼器的Q、K和來自上一子層的V。

      3.2 基于N-Gram的結(jié)果修正機(jī)制

      與自然語言文本的流利性判斷相類似,僅從航路文本本身出發(fā),一條航路的正確性判斷主要依據(jù)其中每個(gè)點(diǎn)與前后點(diǎn)的連續(xù)組合的可行性。根據(jù)航路文本特性,本文設(shè)計(jì)了一種基于N-Gram 思想的結(jié)果修正算法,以詞為最小單位,對(duì)航路進(jìn)行大小為n的滑動(dòng)窗口操作,獲得長(zhǎng)度為n的共現(xiàn)詞信息。本文利用正確航路組成的語料庫,使n取2、3,建立二元和三元的共現(xiàn)詞表。如航路片段“TOL A470 DOTMI DCT”,進(jìn)行n為2 的滑動(dòng)窗口操作得到“TOL A470,A470 DOTMI,DOTMI DCT”,進(jìn)行n為3 的滑動(dòng)窗口操作得到“TOL A470 DOTMI,DOTMI DCT”。在航路糾錯(cuò)中,只考慮多元詞的正確性,不考慮其出現(xiàn)的概率。針對(duì)待分析片段使用同樣大小的滑動(dòng)窗口,將得到的所有二元詞和三元詞在共現(xiàn)詞表中進(jìn)行查找,找到的記1 分,否則計(jì)0 分。所有共現(xiàn)詞的得分相加,用該片段總共現(xiàn)詞數(shù)進(jìn)行歸一化,得到該片段的得分S,如式(7)所示:

      其中CB、CT分別為子片段經(jīng)滑動(dòng)窗口獲得的二元詞、三元詞個(gè)數(shù),Bi、Ti分別為相應(yīng)二元詞、三元詞的查表后的得分。Bi,Ti∈{0,1};S∈[0,1]。當(dāng)S=1 時(shí),認(rèn)為該片段是正確的。

      每當(dāng)Transformer 模型對(duì)輸入進(jìn)行一處修改,都會(huì)得到一對(duì)輸入、輸出中對(duì)應(yīng)的相異子片段。以原始輸入為基準(zhǔn),與Transformer 模型輸出進(jìn)行比較,對(duì)于兩條航路中不一致的子片段分別進(jìn)行打分,以決定修改的保留或還原。若片段得分相同,考慮到實(shí)際工作中會(huì)遇到新增但未被收錄的航路,則還原原始輸入的子片段;若Transformer 模型輸出航路子片段得分高于原始航路子片段,則進(jìn)行片段替換,保留模型修改。修正后的航路即為最終輸出結(jié)果。

      3.3 評(píng)估標(biāo)準(zhǔn)

      本文使用查準(zhǔn)率P、查全率R和F0.5值作為評(píng)價(jià)指標(biāo),定義如式(8)~(10)所示。查準(zhǔn)率衡量模型對(duì)航路的修改是否正確,查全率衡量模型的修改是否有遺漏。使用F0.5作為評(píng)價(jià)指標(biāo)與F0.1的區(qū)別在于將查準(zhǔn)率的權(quán)重定為查全率的兩倍,其原因在于,對(duì)于糾錯(cuò)模型,更看重模型編輯的準(zhǔn)確性而非編輯的數(shù)量。

      其中Nc指修改正確的錯(cuò)誤樣本數(shù),NT指發(fā)生修改的樣本數(shù),NE指語料中含有的錯(cuò)誤樣本數(shù)。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      本文收集了2019 年8 月的全國FPL 報(bào)文數(shù)據(jù)453910 條,從中提取并整理得到正確且無重復(fù)的航路10348 條,以此建立訓(xùn)練詞表并制作數(shù)據(jù)集,數(shù)據(jù)集統(tǒng)計(jì)如表1 所示,以訓(xùn)練集中的正確樣本統(tǒng)計(jì)制作二元詞和三元詞的共現(xiàn)詞表作為修正算法依據(jù)。錯(cuò)誤樣本為人工在正確樣本的基礎(chǔ)上進(jìn)行多輪造錯(cuò)得到,每條航路隨機(jī)添加1~3 處錯(cuò)誤,錯(cuò)誤類型包括多詞、少詞、錯(cuò)詞,詞類型為詞表中出現(xiàn)過的任意已知詞和未登錄詞。同時(shí),保證測(cè)試集中正確樣本的N-Gram 打分均小于1 分。

      表1 數(shù)據(jù)集統(tǒng)計(jì)

      4.2 實(shí)驗(yàn)結(jié)果與分析

      本文設(shè)置Transformer 模型編碼器與解碼器層數(shù)為6,隱層維度為128,head 數(shù)為8;使用Adam 優(yōu)化算法[19],learning_rate 設(shè)為0.0003;dropout 設(shè)為0.1。利用上述訓(xùn)練集訓(xùn)練Transformer 模型,并用測(cè)試集測(cè)試。同時(shí),與基于LSTM 的Seq2Seq 模型、添加了Attention 機(jī)制的基于BiLSTM 的Seq2Seq 模型進(jìn)行比較,并對(duì)結(jié)果使用基于N-Gram 的修正算法進(jìn)行修正。最終實(shí)驗(yàn)結(jié)果如表2 所示。

      表2 航路糾錯(cuò)實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)模型可以有效糾正FPL報(bào)文航路中的錯(cuò)誤,同時(shí),經(jīng)由N-Gram 修正算法修正后的結(jié)果在P值、R值、F0.5值三個(gè)指標(biāo)中均有所提升。Transformer 與N-Gram 修正算法的組合在三個(gè)指標(biāo)上取得最佳結(jié)果。

      表3 中給出糾錯(cuò)實(shí)例。該錯(cuò)誤樣本共有2 處錯(cuò)誤,用斜體加粗標(biāo)示錯(cuò)誤位置,“(…)”表示信息缺失?!癐KATA A470”之間多了“LG Z17”,“A1 UBL W1”中“UBL”缺失。經(jīng)過Transformer 模型糾錯(cuò),上述2 處錯(cuò)誤已得到糾正,但出現(xiàn)了一處新錯(cuò)誤,“W597 IKATA”之間多了“BINUS W597”??梢钥闯?,Transformer 模型共對(duì)錯(cuò)誤樣本做出了3 處修改,分別對(duì)輸入、輸出中這3 對(duì)不一致的子片段進(jìn)行N-Gram 修正,最終保留了2處修改,還原1 處修改,得到最終糾錯(cuò)結(jié)果。

      表3 糾錯(cuò)實(shí)例

      5 結(jié)語

      本文將基于深度學(xué)習(xí)的自然語言處理技術(shù)引入FPL 報(bào)文航路糾錯(cuò)工作,實(shí)驗(yàn)驗(yàn)證了Transformer 模型能對(duì)航路中出現(xiàn)的多處錯(cuò)誤進(jìn)行有效修改。同時(shí),本文基于N-Gram 思想并結(jié)合航路文本特征,提出了一種共現(xiàn)詞得分的結(jié)果修正算法,分段對(duì)Transformer 模型做出的修改進(jìn)行取舍,提高了糾錯(cuò)模型的正確率。本文的工作還有很大的提升空間,后續(xù)模型的優(yōu)化、在更大數(shù)據(jù)集上的驗(yàn)證以及針對(duì)實(shí)際應(yīng)用場(chǎng)景中的改良都有待進(jìn)一步研究。

      猜你喜歡
      解碼器航路編碼器
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      基于實(shí)時(shí)航路的PFD和ND的仿真研究
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      基于FPGA的同步機(jī)軸角編碼器
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      應(yīng)召反潛時(shí)無人機(jī)監(jiān)聽航路的規(guī)劃
      托勒密世界地圖與新航路的開辟
      治多县| 宣威市| 永修县| 京山县| 西乌珠穆沁旗| 上蔡县| 嘉定区| 柘城县| 保德县| 石城县| 惠东县| 大同市| 新巴尔虎左旗| 扬中市| 睢宁县| 滨海县| 泰宁县| 盱眙县| 额尔古纳市| 河津市| 定州市| 嘉义县| 碌曲县| 临泽县| 祥云县| 宾阳县| 五华县| 海南省| 永川市| 分宜县| 长顺县| 衡东县| 郴州市| 汉阴县| 茂名市| 孟州市| 栖霞市| 长白| 全州县| 郯城县| 山阴县|