• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多標(biāo)準(zhǔn)和改進(jìn)Siamese網(wǎng)絡(luò)的相似航班號(hào)判斷方法研究*

      2023-02-24 05:17:06陳一新
      關(guān)鍵詞:航班號(hào)識(shí)別率編碼

      孫 禾,陳一新

      (1.中國(guó)民航大學(xué)空中交通管理學(xué)院,天津 300300;2.中國(guó)民用航空廈門空中交通管理站,福建 廈門 361006)

      0 引言

      航空運(yùn)輸?shù)陌踩咝н\(yùn)行離不開空中交通管理部門的有效保障,而航班號(hào)是確定飛行器身份的首要標(biāo)識(shí)。在正常情況下,管制員運(yùn)用標(biāo)準(zhǔn)的管制規(guī)則,并結(jié)合自身的管制經(jīng)驗(yàn),通過(guò)觀察雷達(dá)屏幕上飛機(jī)的運(yùn)動(dòng)態(tài)勢(shì),呼叫相應(yīng)的航班號(hào),以對(duì)特定航班發(fā)送管制指令。在此過(guò)程中,若管制員和/或航空器駕駛員混淆(看錯(cuò)、聽(tīng)錯(cuò)、讀錯(cuò)等)1 個(gè)或者多個(gè)航班號(hào),繼而錯(cuò)誤改變航空器飛行狀態(tài),都將造成重大的安全事故。近年來(lái),已經(jīng)發(fā)生多起因航班號(hào)混淆導(dǎo)致的航班危險(xiǎn)接近事件,甚至觸發(fā)飛機(jī)的TA告警(空中防撞系統(tǒng)告警),因此研究航班號(hào)的相似性并有效量化相似度對(duì)于保障空管運(yùn)行安全具有重大意義。

      我國(guó)民航航班號(hào)一般由航空公司英文代碼和3~4位數(shù)字組成,如CCA8227、CSN3789 等。雖然受到疫情影響,但我國(guó)民航日均航班量已超過(guò)1.12 萬(wàn)班[1],受限于航班號(hào)分配規(guī)則及航班量突破性的增長(zhǎng),依據(jù)航班號(hào)編制的規(guī)則航班號(hào)可用總量為9 896 個(gè),顯然航班號(hào)重復(fù)的情況已不可避免,航班號(hào)相似的情況愈加嚴(yán)重。近年來(lái),國(guó)內(nèi)外學(xué)者提出以下2 種分析方法,一是采用信息距離的方法構(gòu)造航班號(hào)對(duì)應(yīng)位置距離矩陣[2-3],通過(guò)對(duì)應(yīng)位置灰度的深淺可以直觀呈現(xiàn)不同航班號(hào)之間的相似程度,繼而可以在音素級(jí)水平為管制員和飛行員提供區(qū)分易混淆航班號(hào)的建議;二是采用編輯距離的方法計(jì)算2 個(gè)航班號(hào)的相似情況[4],將短文本字符串進(jìn)行差異性比對(duì),通過(guò)它們之間的編輯距離分析其相似程度。但目前提出的傳統(tǒng)方法基本局限在客觀計(jì)算字符之間的變化,往往忽略對(duì)語(yǔ)義信息的分析[5],而在實(shí)際運(yùn)行中有些相似情況是人為主觀判斷的,包括形似、聲似等多種情況,導(dǎo)致主客觀識(shí)別相似程度上的差異。

      綜上所述,航班號(hào)相似性主要存在于形似,因此針對(duì)航班號(hào)這一短文本類型數(shù)據(jù)[6]容易混淆的問(wèn)題,總結(jié)民航空管系統(tǒng)相似航班號(hào)相關(guān)管理規(guī)定,提出基于多標(biāo)準(zhǔn)的判斷準(zhǔn)則,應(yīng)用主成分分析法統(tǒng)一量化相似度,并進(jìn)一步構(gòu)建1 種改進(jìn)后的Siamese網(wǎng)絡(luò),使用機(jī)器學(xué)習(xí)方法自動(dòng)判斷航班號(hào)相似性,以期提高相似航班號(hào)的識(shí)別率,減少因航班號(hào)混淆造成的運(yùn)行安全事件。

      1 基于規(guī)則匹配的相似航班號(hào)判斷方法

      目前在管制系統(tǒng)中,應(yīng)用最為廣泛也是最為簡(jiǎn)便的是基于規(guī)則匹配的方法。民航局空管局發(fā)布的《民航空管系統(tǒng)相似航空器呼號(hào)管制運(yùn)行操作指引》[7]中有關(guān)建議和規(guī)定對(duì)判斷相似航班號(hào)提供一系列匹配規(guī)則,如航班號(hào)中字符字形相似,如“I”與“1”、“O”與“0”、“S”與“5”等;航班號(hào)與其他管制用語(yǔ)相似,如與跑道號(hào)相似,AAR036;與機(jī)型相似,CCA330;與高度層相似,CAO270等。

      針對(duì)2 個(gè)相關(guān)航空器航班號(hào)相似性,提出多項(xiàng)匹配規(guī)則,當(dāng)2 個(gè)航班號(hào)符合匹配規(guī)則時(shí),即可判定為相似航班號(hào),舉例如下:

      1)相關(guān)的2 個(gè)航空器,航班號(hào)字符完全相同。

      2)相關(guān)的2 個(gè)航空器,其一航班號(hào)可以由另一航班號(hào)全部字符重新排列順序后獲得。

      3)相關(guān)的2 個(gè)航空器,航班號(hào)位數(shù)相同,且4 位航班號(hào)中3 個(gè)同樣位置的字符或者3 位航班號(hào)中2 個(gè)同樣位置的字符相同。

      4)相關(guān)的2 個(gè)航空器,某一航班號(hào)中連續(xù)3 位字符構(gòu)成的字符串包含于另一航空器呼號(hào)末尾4 位連續(xù)字符構(gòu)成的字符串中。

      采用基于規(guī)則匹配的方法可以簡(jiǎn)單便捷地快速識(shí)別出相似航班號(hào),但當(dāng)2 個(gè)航空器滿足匹配規(guī)則時(shí),部分會(huì)呈現(xiàn)高度相似性,而部分相似程度一般,相似程度難以量化,因此還需要進(jìn)一步識(shí)別,以便有針對(duì)性地進(jìn)行相似航班號(hào)預(yù)警。

      2 基于多標(biāo)準(zhǔn)的相似航班號(hào)判斷方法

      鑒于航班號(hào)為5~7 位的字符串,因此可以采用基于字符的方法,計(jì)算文本之間的距離以判斷2 個(gè)航班號(hào)的相似性。本文綜合多個(gè)判斷標(biāo)準(zhǔn),量化得到統(tǒng)一的相似度。

      2.1 航班號(hào)編碼預(yù)處理

      在計(jì)算航班號(hào)字符距離之前,首先采用One-Hot編碼對(duì)航班號(hào)進(jìn)行預(yù)處理,針對(duì)航空公司英文代碼,編碼步驟如下:

      1)確定要編碼的對(duì)象為航空公司的英文呼號(hào),一共26 種類別(26 個(gè)大寫字母)。

      2)將英文呼號(hào)簡(jiǎn)化為有2 或3 個(gè)字母的樣本,每個(gè)位置有26 種類別,字母所在的位置為1,其他位置為0,最后將其合并成為1 個(gè)完整的向量。根據(jù)26 個(gè)字母的編排約定特征排列的順序:A-1,B-2,…,Z-26,得到稀疏編碼表。

      3)對(duì)稀疏編碼表中全為0 的列進(jìn)行刪除,得到最終的緊密編碼表。

      本文以相似航班號(hào)“CXA8571”與“CQH8571”為例,根據(jù)One-Hot編碼的規(guī)則,得到緊密編碼表如表1所示。

      表1 “CXA8571”與“CQH8571”的緊密編碼表Table 1 Close code table of“CXA8571” and“CQH8571”

      2.2 航班號(hào)之間的歐式距離

      歐式距離是多維空間中任意2 個(gè)坐標(biāo)的直線距離,無(wú)量綱。n 維向量空間的2 點(diǎn)M(x1,x2,…,xn)和N(y1,y2,…,yn)的歐式距離D1如式(1)所示:

      對(duì)“CXA8571”和“CQH8571”進(jìn)行歐氏距離計(jì)算,提取表1數(shù)據(jù)得到向量M,N分別為M=(1,0,1,1,0,8,5,7,1),N=(1,1,0,0,1,8,5,7,1)。

      將M,N帶入式(1)得到:

      2.3 航班號(hào)之間的曼哈頓距離

      曼哈頓距離可以解釋為2 個(gè)坐標(biāo)在固定的多維坐標(biāo)系上的直線距離在所有坐標(biāo)軸上產(chǎn)生的投影的距離的總和,這個(gè)距離是2 點(diǎn)之間在沒(méi)有任何捷徑下的最大距離。

      n 維向量空間的2 點(diǎn)M(x1,x2,…,xn)和N(y1,y2,…,yn)的曼哈頓距離D2如式(2)所示:

      為更好地表示相似航班號(hào)的相似程度,同樣取曼哈頓距離的倒數(shù)作為相似航班號(hào)的特征之一。

      針對(duì)相似航班號(hào)“CXA8571”和“CQH8571”進(jìn)行曼哈頓距離計(jì)算,得到:

      2.4 航班號(hào)之間的余弦距離

      余弦距離通過(guò)計(jì)算任意2 個(gè)空間向量的夾角大小得到向量的相似程度。2 個(gè)向量之間夾角越大,距離越大。當(dāng)2 個(gè)向量夾角為180°時(shí),它們之間的差值達(dá)到最大;當(dāng)2 個(gè)向量的夾角減小到0°時(shí),此時(shí)2 個(gè)向量完全重合,距離最小,相似度最高。余弦距離D3如式(3)所示:

      取S3=D3=cos(θ) 作為相似航班號(hào)的特征之一。

      針對(duì)相似航班號(hào)“CXA8571”和“CQH8571”進(jìn)行余弦距離計(jì)算,得到:

      2.5 航班號(hào)之間的漢明距離

      漢明距離D4表示2 個(gè)同樣長(zhǎng)度的字符串中不同字符數(shù)量。由于漢明距離比較的是文本不同的位數(shù),因此在計(jì)算相似航班號(hào)相似度時(shí),將漢明距離相似度記為S4=1-D4。

      針對(duì)相似航班號(hào)“CXA8571”和“CQH8571”進(jìn)行漢明距離的計(jì)算,經(jīng)過(guò)One-Hot編碼預(yù)處理后,得到:

      2.6 航班號(hào)之間的文本編輯距離

      文本編輯距離是將1 個(gè)字符串轉(zhuǎn)化為其他字符串的最小編輯操作。規(guī)定字符串的編輯操作有以下3 種:1)將1 個(gè)元素替換成另一個(gè)元素;2)插入1 個(gè)元素;3)刪除1 個(gè)元素。每1 個(gè)操作,將其步長(zhǎng)記為1。最終得到文本編輯距離D5如式(4)所示:

      式中:x代表計(jì)算出來(lái)步數(shù);y代表最長(zhǎng)的字符串長(zhǎng)度。

      針對(duì)相似航班號(hào)“CXA8571”和“CQH8571”進(jìn)行文本編輯距離計(jì)算。首先創(chuàng)立1 個(gè)矩陣,矩陣的維度要在2 個(gè)字符串長(zhǎng)度的基礎(chǔ)上各加1;隨后根據(jù)上述計(jì)算規(guī)則,每1 個(gè)元素的增加、替換、刪除,都會(huì)導(dǎo)致步長(zhǎng)加1;最終得到相似結(jié)果為S5=D5=2/3。

      2.7 特征的主成分分析

      由于判斷標(biāo)準(zhǔn)不同,得到的相似度過(guò)于分散,難以得出最優(yōu)解。因此,針對(duì)不同相似度計(jì)算方法得到的航班號(hào)相似度特征,采用主成分分析方法,將眾多具有一定相關(guān)性的指標(biāo)重新組合成1 組新的相互無(wú)關(guān)的綜合指標(biāo),從而結(jié)合多個(gè)標(biāo)準(zhǔn)形成1 個(gè)統(tǒng)一的相似程度量化值,取各個(gè)標(biāo)準(zhǔn)之所長(zhǎng),便于對(duì)航班號(hào)的相似程度進(jìn)行更好地識(shí)別。主成分分析步驟如下:

      1)各相似度標(biāo)準(zhǔn)特征構(gòu)成的原始數(shù)據(jù)矩陣X如式(5)所示:

      式中:xnp為特征矩陣中的數(shù)據(jù)。

      2)建立變量的相關(guān)系數(shù)矩陣R,如式(6)~(7)所示:

      式中:rij代表著系數(shù)之間的相關(guān)性,當(dāng)rij為0 時(shí),表明元素之間不滿足線性相關(guān)。

      3)矩陣R的特征根λ1≥λ2≥…≥λp>0 及特征根所指示的單位特征向量如式(8)所示:

      式中:ai為單位特征向量,i=1,…,p;api為新舊指標(biāo)的單位關(guān)聯(lián)系數(shù)。

      4)主成分如式(9)所示:

      式中:Fi表示新的指標(biāo)。

      5)綜合性特征的主成分貢獻(xiàn)率和累計(jì)主成分貢獻(xiàn)率分別如式(10)和式(11)所示:

      貢獻(xiàn)率:

      累計(jì)貢獻(xiàn)率:

      式中:h1,h2,…,hm為新特征的貢獻(xiàn)值。

      當(dāng)綜合性特征的累積貢獻(xiàn)率達(dá)85%~95%時(shí),特征值h1,h2,…,hm所對(duì)應(yīng)的第1,第2,…,第m(m≤p)個(gè)主成分可近似表示所有的主成分結(jié)果。

      對(duì)給定的500 個(gè)相似航班號(hào)對(duì)進(jìn)行處理,通過(guò)主成分分析得到新特征計(jì)算結(jié)果z1~z3如式(12)所示。經(jīng)過(guò)計(jì)算,新的特征值在主成分分析總得分中的權(quán)重為:λ1=0.65,λ2=0.28,λ3=0.053。

      式中:x1~x5為各距離特征。

      取任意10 對(duì)相似航班號(hào),得到主成分得分如表2所示。

      表2 主成分分析得分Table 2 Score of principal component analysis

      通過(guò)分析實(shí)驗(yàn)中500 個(gè)航班對(duì),95%以上的非相似航班號(hào)數(shù)據(jù)排序集中在[0.08,0.15]這個(gè)范圍內(nèi),航班號(hào)序號(hào)分布在[1,62]之間,范圍覆蓋整體數(shù)據(jù)的12%,可以將其視為1 個(gè)合格的參考標(biāo)準(zhǔn)。因此當(dāng)主成分相似度≥0.15 時(shí),認(rèn)為航班號(hào)相似。取一線管制單位得到的50 對(duì)非相似航班號(hào)特征值帶入到提取到的450 對(duì)相似航班號(hào)特征數(shù)據(jù)集中,共計(jì)500 對(duì)航班號(hào)數(shù)據(jù)進(jìn)行驗(yàn)證,得到識(shí)別率如表3所示??梢钥吹浇?jīng)過(guò)主成分分析后,識(shí)別率較單獨(dú)1 個(gè)判定標(biāo)準(zhǔn)有所改進(jìn)。

      表3 相似特征標(biāo)準(zhǔn)與識(shí)別率Table 3 Similarity feature standards and recognition rate

      3 基于改進(jìn)Siamese網(wǎng)絡(luò)的相似航班號(hào)判斷方法

      采用多標(biāo)準(zhǔn)量化的相似航班號(hào)判別方法,雖然該方法便于理解且適用范圍較廣,但判定的閾值需要人為設(shè)定。當(dāng)閾值較大時(shí),識(shí)別率有所提高,但相應(yīng)的非相似航班號(hào)被誤識(shí)的概率也會(huì)變大。因此矛盾始終存在,需要不斷調(diào)整,需要采用1 種智能學(xué)習(xí)方法,自動(dòng)判斷航班號(hào)相似性。

      3.1 Siamese網(wǎng)絡(luò)的建立

      目前很多學(xué)者對(duì)多種深度網(wǎng)絡(luò)結(jié)構(gòu)[8]進(jìn)行研究,其可用于文本及圖像的檢測(cè)與識(shí)別[9],而Siamese網(wǎng)絡(luò)是1 種用于相似文本檢測(cè)的非線性測(cè)量學(xué)習(xí)結(jié)構(gòu)[10-11],通過(guò)文本對(duì)的比對(duì)進(jìn)行學(xué)習(xí)分類。同時(shí)構(gòu)建結(jié)構(gòu)相同權(quán)值共享的2 個(gè)網(wǎng)絡(luò),將2 個(gè)文本分別輸入2 個(gè)網(wǎng)絡(luò),通過(guò)隱含層減少計(jì)算的維度,將其轉(zhuǎn)換為向量,通過(guò)距離度量的方式計(jì)算2 個(gè)輸出向量的距離,以此來(lái)判定2 個(gè)文本的相似程度[12]。本文所設(shè)計(jì)的模型結(jié)構(gòu)共有2 個(gè)分支,如圖1所示。

      圖1 自適應(yīng)Siamese網(wǎng)絡(luò)結(jié)構(gòu)模型Fig.1 Adaptive Siamese network structure model

      首先,建立1 個(gè)5 層的Siamese網(wǎng)絡(luò),輸入層為航班號(hào)按位編碼,一般前3 位為字母,后3 位或4 位為數(shù)字;隱含層為3 層,采用雙向長(zhǎng)短期記憶(bidirectional long short-term memory,BiLSTM)的增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu),每層50 個(gè)節(jié)點(diǎn),采用前饋算法;在輸出層得到2 個(gè)航班號(hào)轉(zhuǎn)化為向量的特征值,繼而通過(guò)歐式距離計(jì)算差異值。

      其次,同樣針對(duì)航班號(hào)對(duì)應(yīng)位的編碼,計(jì)算編輯距離。根據(jù)航班號(hào)短文本英文字母+數(shù)字的特點(diǎn),本文采用Jaro-Winkler距離進(jìn)行計(jì)算。Jaro-Winkler距離dw=dj+KP(1-dj),其中dj表示最后得分,K為前綴部分匹配的長(zhǎng)度,P為標(biāo)準(zhǔn)值0.1。

      最后,將2 分支結(jié)果相乘,作為整個(gè)模型的損失函數(shù)進(jìn)行迭代學(xué)習(xí)。相比于傳統(tǒng)的Siamese網(wǎng)絡(luò),對(duì)于損失函數(shù)的修正可以在很大程度上自適應(yīng)航班號(hào)之間本身就已經(jīng)固有的相似情況,因此更加符合客觀要求。

      3.2 基于BiLSTM 的增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)

      網(wǎng)絡(luò)的數(shù)據(jù)訓(xùn)練集為三元組(x1,x2,y),其中x1和x2為文本序列,y∈{0,1}表示2 個(gè)序列的相似程度。當(dāng)2 個(gè)序列相似時(shí),y=1;當(dāng)2 個(gè)序列不相似時(shí),y=0。這樣能最小化相似文本之間的距離并最大化不同文本之間的距離。

      由于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)容易發(fā)生梯度消失,本文采取BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)。假設(shè)輸入序列為(x1,x2…,xT),在每1 個(gè)時(shí)間步t∈{1,2,…,T},通過(guò)方程ht=σ(Wxt+Q ht-1) 更新隱含狀態(tài)向量ht,其中W為輸入層至隱含層權(quán)重,而Q為上一時(shí)間步的ht-1至隱含層的權(quán)重,σ(x) =(1 +e-x)-1。通過(guò)序列更新隱含層的狀態(tài),引入記憶狀態(tài)mt和3 個(gè)門(輸出門、輸入門、忘記門),通過(guò)每一步時(shí)間的更新控制信息流,其中輸出門ot決定下一節(jié)點(diǎn)mt的數(shù)量;輸入門it決定在此步時(shí)間內(nèi)輸入xt的數(shù)量;忘記門ft決定上一步時(shí)間的記憶是否要忘記。網(wǎng)絡(luò)各層參數(shù)更新公式如式(13)~(18)所示[13-14]:

      式中:Wi,Qi為輸入門的權(quán)重參數(shù);Wf,Qf為忘記門的權(quán)重參數(shù);Wo,Qo為輸出門的權(quán)重參數(shù);Wm,Qm為記憶狀態(tài)的權(quán)重參數(shù);表示中間記憶狀態(tài);mt-1表示上一時(shí)間步的記憶狀態(tài)。

      3.3 對(duì)比損失函數(shù)自適應(yīng)修正方法

      通過(guò)計(jì)算對(duì)比損失函數(shù)實(shí)現(xiàn)模型的反饋學(xué)習(xí),首先計(jì)算2 個(gè)網(wǎng)絡(luò)輸出向量的距離EW(x1,x2)= fW(x1)-fW(x2)2,傳統(tǒng)Siamese網(wǎng)絡(luò)的對(duì)比損失函數(shù)為L(zhǎng)W(x1,x2) =yL+(x1,x2) +(1-y)L-(x1,x2),其中L+(x1,x2)=EW2表示y=1 時(shí)的損失,L-(x1,x2) =max((1-EW),0)2表示y=0 時(shí)的損失,并且當(dāng)EW大于margin 時(shí)L-=0。

      但在將數(shù)據(jù)輸入網(wǎng)絡(luò)之前,已基本可以通過(guò)計(jì)算編輯距離大體獲得航班號(hào)的相似情況,因此本文首先計(jì)算2 個(gè)航班號(hào)之間的Jaro-Winkler距離,使用計(jì)算結(jié)果修正對(duì)比損失函數(shù),使網(wǎng)絡(luò)能夠自適應(yīng)航班號(hào)的客觀相似情況。

      假設(shè)輸入文本序列為x1和x2,計(jì)算Jaro-Winkler距離中最后得分,其中n 為匹配的字符數(shù),r為換位的數(shù)目。

      接著計(jì)算Jaro-Winkler距離,即當(dāng)2 個(gè)文本起始部分就相同,給予更高的分?jǐn)?shù)。對(duì)于航班號(hào),起始部分代表著航空公司代碼,相同公司的航班更容易混淆。

      最后對(duì)網(wǎng)絡(luò)輸出向量的距離EW進(jìn)行修正,所得修正后的距離,如式(19)所示:

      若2 個(gè)文本之間的編輯距離較大,更接近1,說(shuō)明2個(gè)文本已經(jīng)較為相似,對(duì)于總的對(duì)比損失函數(shù)改變不大;若編輯距離較小,更接近0,說(shuō)明2 個(gè)文本不相似,對(duì)于總的對(duì)比損失函數(shù)改變較大,從而需要進(jìn)一步增加類間距離,加快算法的收斂。而對(duì)于本身編輯距離偏小而標(biāo)定為相似情況的航班號(hào),通過(guò)自適應(yīng)Siamese網(wǎng)絡(luò)學(xué)習(xí)的數(shù)據(jù)可以避免編輯距離單一衡量標(biāo)準(zhǔn)的情況。修正前后的對(duì)比損失函數(shù)變化如圖2所示。

      圖2 修正前后的對(duì)比損失函數(shù)變化Fig.2 Changes of contrastive loss function before and after cor rection

      3.4 相似航班號(hào)識(shí)別結(jié)果分析

      為測(cè)試網(wǎng)絡(luò)學(xué)習(xí)的效果與性能,分別采用不同數(shù)量的相似航班號(hào)數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),最終測(cè)試結(jié)果如表4所示。分析不同樣本數(shù)量下,3 種相似性分析方法的識(shí)別率,如圖3所示。需要說(shuō)明的是,由于訓(xùn)練樣本的不同,識(shí)別率可能會(huì)略有改變,但整體趨勢(shì)基本相同。

      表4 相似航班號(hào)識(shí)別結(jié)果對(duì)比Table 4 Comparison of r ecognition results of similar call signs

      圖3 不同方法的識(shí)別率變化Fig.3 Change in recognition rates of different methods

      結(jié)合表4和圖3可知,相比于基于多標(biāo)準(zhǔn)的判斷方法,當(dāng)訓(xùn)練數(shù)據(jù)過(guò)少時(shí),自適應(yīng)Siamese網(wǎng)絡(luò)學(xué)習(xí)不夠充分,識(shí)別率較低,而當(dāng)數(shù)據(jù)有一定積累(本次實(shí)驗(yàn)需要約500 條訓(xùn)練數(shù)據(jù))就可以突破多標(biāo)準(zhǔn)判斷方法識(shí)別率上限,并且有大幅度的提高,比多標(biāo)準(zhǔn)判斷準(zhǔn)則提高約3%,說(shuō)明算法有效;相比于原始Siamese網(wǎng)絡(luò),改進(jìn)的自適應(yīng)Siamese網(wǎng)絡(luò)在相同訓(xùn)練數(shù)據(jù)量的情況下,識(shí)別率均大于原模型,平均提高約2.7%,說(shuō)明增加編輯距離的修正可以更加準(zhǔn)確識(shí)別航班號(hào)的相似性,并且改進(jìn)后Siamese網(wǎng)絡(luò)對(duì)小樣本條件下識(shí)別率提高尤為明顯,效率提高顯著。

      4 結(jié)論

      1)相似航班號(hào)混淆是一直困擾空中交通管制員的問(wèn)題之一,針對(duì)以往判定條件單一、未考慮語(yǔ)義的情況,本文從相似航班號(hào)規(guī)則匹配、多標(biāo)準(zhǔn)相似航班號(hào)判斷、人工智能算法自動(dòng)判斷,層層深入分析相似航班號(hào)判斷方法。

      2)基于規(guī)則匹配的判斷方法簡(jiǎn)便快捷,適用于快速處理的場(chǎng)景,但相似度難以量化,無(wú)法提供更加精細(xì)的預(yù)警;基于多標(biāo)準(zhǔn)的判斷方法,結(jié)合各種常用的文本之間相似性判斷標(biāo)準(zhǔn),通過(guò)主成分分析法得到統(tǒng)一的量化值,適用范圍廣且受到樣本的影響較小,缺點(diǎn)是判斷閾值需要人為設(shè)定,識(shí)別率與誤識(shí)率的矛盾始終存在。

      3)基于改進(jìn)的Siamese網(wǎng)絡(luò)采用機(jī)器學(xué)習(xí)方式自動(dòng)判別相似航班號(hào),且準(zhǔn)確率提升明顯,缺點(diǎn)是受到訓(xùn)練樣本的直接影響較大,對(duì)于新出現(xiàn)的相似航班號(hào)不夠友好。

      猜你喜歡
      航班號(hào)識(shí)別率編碼
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      《全元詩(shī)》未編碼疑難字考辨十五則
      民航空管自動(dòng)化系統(tǒng)相似航班號(hào)算法研究與實(shí)現(xiàn)
      民航管理(2020年4期)2020-05-10 09:55:06
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      航站樓
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      Genome and healthcare
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      湄潭县| 中超| 柘城县| 正蓝旗| 连平县| 甘孜县| 呼图壁县| 德安县| 区。| 迭部县| 民乐县| 洱源县| 天水市| 乾安县| 洪湖市| 高密市| 莒南县| 应城市| 遂平县| 永春县| 新泰市| 普兰店市| 马公市| 绵竹市| 霍州市| 长顺县| 关岭| 桐乡市| 资源县| 平遥县| 沛县| 股票| 潞城市| 比如县| 镇雄县| 安庆市| 上林县| 吴川市| 高安市| 独山县| 马关县|