• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于CTPN 與Tesseract的機載雷達視頻字符識別

      2022-03-31 12:02:58邢寶峻彭曉明王衛(wèi)星
      艦船電子對抗 2022年1期
      關鍵詞:機載雷達字符識別字符

      邢寶峻彭曉明王衛(wèi)星

      (空軍預警學院,湖北 武漢 430019)

      0 引言

      近年來,隨著人工智能和深度學習技術的不斷發(fā)展,計算機視覺技術已深入到人們生活的方方面面。在軍事領域,隨著技術的發(fā)展,雷達的應用也越來越廣泛,而國內(nèi)對于機載雷達視頻的分析依然停留在人工分析階段,不僅效率低,而且容易出現(xiàn)差錯,部隊迫切需要一種能夠?qū)C載雷達視頻進行自動化分析和評估的手段,滿足飛行訓練復盤總結(jié)和飛行訓練成績評定的需要,促進部隊實戰(zhàn)化訓練水平的提升。

      連接文本提議網(wǎng)絡(CTPN)是于2016 年在歐洲計算機視覺國際會議提出的一種基于深度學習的文字檢測算法。CTPN 結(jié)合了卷積神經(jīng)網(wǎng)絡(CNN)與長短時記憶(LSTM)神經(jīng)網(wǎng)絡,可以有效地檢測出復雜場景下水平分布的字符。Tesseract是惠普實驗室在1985~1995年間開發(fā)的一個開源的光學字符識別(OCR)引擎,并于2006 年由谷歌進行維護,目前仍是業(yè)內(nèi)識別精度較高的三大識別引擎之一。結(jié)合CTPN 與Tesseract對機載雷達視頻中的關鍵字符進行識別,可以有效識別出機載雷達視頻中的關鍵字符,為下一步機載雷達操縱評估提供依據(jù)。

      1 基于CTPN 與Tesseract的機載雷達視頻識別方法流程

      采用CTPN 與Tesseract相結(jié)合的方法對機載雷達視頻進行識別,首先要對視頻進行預處理,將視頻轉(zhuǎn)化為圖像,同時提高圖像的質(zhì)量,方便進行識別;然后將預處理得到的圖像輸入到CTPN 網(wǎng)絡中,實現(xiàn)字符區(qū)域的檢測;最后調(diào)用Tesseract對字符進行識別,得到文本進行輸出。視頻識別方法流程如圖1所示。

      圖1 基于CTPN 與Tesseract的機載雷達視頻識別方法流程

      2 機載雷達視頻的預處理

      由于本文對視頻的識別主要基于已有的視頻進行,所以采用后端視頻識別方法,先將視頻轉(zhuǎn)化為圖像,而后對圖像進行識別。因此,需要對機載雷達視頻進行分析,首先要完成對機載雷達視頻的預處理。由于機載雷達視頻通常占用空間較大,視頻中存在一定的冗余信息,所以先要對視頻進行壓縮。其次,由于機載雷達視頻畫面呈現(xiàn)二值化特點,所以無需進行灰度處理,可直接將視頻按幀截取成圖像,達到將視頻轉(zhuǎn)化為圖像的目的。由于圖像數(shù)量較多,單個識別時間較長,為提高識別效率,采用圖像拼接技術將截取的圖像進行拼接,再對拼接后的圖像進行識別。最后,由于機載雷達視頻本身分辨率較低,且進行了圖像的拼接,為提升識別準確率,利用形態(tài)學中圖像的開運算,即先腐蝕后膨脹的操作(腐蝕操作可將圖像中影響識別的孤立的微小“白點”去掉,膨脹操作可以將關鍵的字符進行“擴大”,易于識別,所以通過開運算可以起到在纖細處分離物體和平滑較大物體邊界的作用),達到使需要識別的目標表面更加平滑的效果,便于進行分析與識別。機載雷達視頻預處理步驟如圖2所示。

      圖2 機載雷達視頻預處理步驟

      3 基于CTPN 的字符檢測

      CTPN 創(chuàng)新性地提出了垂直錨,利用垂直錨的回歸機制,將文本檢測任務轉(zhuǎn)化為一連串小尺度文本框的檢測。同時,CTPN 還引入了雙向長短時記憶(BLSTM)神經(jīng)網(wǎng)絡技術。BLSTM 可用于處理和預測序列數(shù)據(jù),與CNN 結(jié)合后,能根據(jù)前后錨的序列來提取字符間的排列關系特征,找到文本與文本之間的聯(lián)系,最終用文本線構(gòu)造法將各個錨連接起來,得到文本行,以提升文本檢測效果。此外,針對文本檢測中文本邊緣容易因評分過低而被丟棄的問題,CTPN 提出了利用邊界細化來提升文本框邊界預測精準度的方法,極大地提升了文本檢測的精度。

      CTPN 的具體過程如下:

      (1) 利用VGG16 網(wǎng)絡進行特征提取。VGG16網(wǎng)絡中有5個卷積層,經(jīng)過前4個卷積層的池化,特征圖的大小與原圖的比例變?yōu)?∶16,即在特征圖上每移動1個像素位置,在原圖上相對應移動16個像素位置。經(jīng)過第5個卷積層后,可得到最終用于分類和定位的特征圖,大小為××,這里的是寬度,是高度,是通道數(shù)。

      (2) 對特征圖上每個位置以3×3的窗口進行滑窗,每一行都可以得到個3×3×的特征矩陣,每進行一次滑窗,即水平方向每移動1個像素,則對應在原圖水平方向上移動16個像素。而由于CTPN 固定了水平方向上的位置,對豎直方向上的高度進行了預測,所以每個滑窗在原圖上對應個錨,這些錨在水平方向上都是一樣的大小和位置,但在豎直方向上的高度各不相同。

      (3) 將得到的特征矩陣按行輸入到雙向LSTM中,即每個雙向LSTM 中輸入個3×3×的特征矩陣,可以得到大小為×256的輸出。

      (4) 將LSTM 輸出的×256輸入到全連接層(FCL)中。

      (5) 全連接層特征輸入到3個分類或者回歸層中:2個縱向坐標,2個分數(shù)和個的水平偏移量。由于一個錨用中心位置的高(坐標)和矩形框的高度2個值表示,所以1個錨用2個縱向坐標輸出。而分類層將數(shù)據(jù)分為有字和無字2類,所以有2個分數(shù)。個的水平偏移量可以稱之為文本框邊緣細化,這部分主要用來精修文本行的2個端點,表示每個候選框的水平平移量。

      (6) 使用基于圖的文本行構(gòu)造算法,將得到的文本段合并成文本行。

      CTPN 架構(gòu)圖如圖3所示。

      圖3 CTPN 架構(gòu)圖

      4 Tesseract字符識別

      2005年,惠普將Tesseract貢獻給開源社區(qū),美國內(nèi)華達州信息技術研究所獲得該源碼,同時,谷歌開始對Tesseract 進行功能擴展及優(yōu)化。目前,Tesseract作為開源項目發(fā)布在谷歌計劃(Google Project)上,提供自定義字符庫訓練方法,可以通過持續(xù)的訓練增加字符庫,不斷增強圖像轉(zhuǎn)換為文本的能力,最終,Tesseract成為了目前公認最優(yōu)秀、最精確的開源OCR 系統(tǒng)。

      如圖4所示,Tesseract對字符進行識別通常由5個部分構(gòu)成:頁面布局分析、查找目標塊區(qū)域、定位文本行和單詞并進行分割、2次字符分析識別、模糊區(qū)域改進。

      圖4 Tesseract識別架構(gòu)[5]

      (1) 頁面布局分析。通過對文本進行頁面布局分析,將圖像中的文本和非文本區(qū)分開,同時提取出文本區(qū)域,得到圖像中文本區(qū)域的排列布局和分布方式,并檢測出文本區(qū)域中的字符輪廓。

      (2) 查找目標塊區(qū)域。Tesseract可以通過對文本區(qū)域中的排列布局進行分析,得到一個或多個相互關聯(lián)的“塊”狀連通區(qū)域,這些“塊”狀區(qū)域即目標塊區(qū)域。

      (3) 定位文本行和單詞并進行分割。在定位完成目標塊區(qū)域后,Tesseract通過對區(qū)域中相鄰字符之間的垂直重疊關系進行檢測,可以得到處于水平狀態(tài)的文本行。對字符間的水平關系進行檢測并根據(jù)字符間隔對文本行進行分割,可得到單詞。

      (4)

      2次分析識別。Tesseract采用自適應分類器依次對每個單詞進行分析,并將分類后的字符分別與相對應的字典中的樣本進行對比,找出相似度最高的樣本字符進行確認。同時,自適應分類器本身具有“學習能力”,可以將先前分析得到的滿足條件的單詞作為訓練樣本,增加后面字符識別的準確率。

      (5) 模糊區(qū)域改進。對于相互粘連的字符形成的模糊區(qū)域,Tesseract會根據(jù)字體形狀的幾何體頂點作為備選分割點進行分割,并根據(jù)識別置信度來判別字符。如果都失敗,就認為字符破損不全,則對字符進行修補,而后利用A算法搜索最優(yōu)的字符組合,得到識別結(jié)果。

      5 實驗驗證

      為驗證該方法的有效性,本文利用已有的機載雷達視頻進行檢測。首先將視頻分為樣本集和測試集2類,其中,樣本集中的視頻要包含所有需要進行識別的關鍵字符。其次,結(jié)合Tesseract提供的自定義字符庫的訓練方法,結(jié)合樣本集,挑選出需要進行識別的關鍵字符,并進行訓練,形成機載雷達視頻關鍵字符庫。然后,根據(jù)本文介紹的方法對測試集中的視頻進行識別,主要檢測識別方法的可靠性。如圖5所示,根據(jù)本文所提方法創(chuàng)建了機載雷達視頻識別軟件,右側(cè)為機載雷達視頻,左側(cè)根據(jù)雷達視頻中的內(nèi)容對視頻中的字符進行區(qū)分,對測試集中的視頻進行識別后,由人工對視頻中每一幀識別結(jié)果的正確與否進行檢驗,對視頻中需要識別的共50 435個字符進行統(tǒng)計。結(jié)果表明,本文研究的方法對機載雷達視頻關鍵信息識別的準確率達到86.25%。絕大部分關鍵字符識別正確,少數(shù)字符在識別過程中出現(xiàn)錯誤,主要原因是在視頻中非字符部分與字符部分產(chǎn)生了交叉重疊,在CTPN 進行字符的檢測和分割后,Tesseract無法在字符庫中找到與之相匹配的字符,影響了該字符的識別。隨著所識別的視頻數(shù)量的增加和訓練數(shù)據(jù)的完善,識別的準確率也會逐步提升。

      圖5 視頻識別軟件圖

      6 總結(jié)與展望

      本文針對機載雷達視頻,提出了基于CTPN 和Tesseract相結(jié)合的視頻識別方法,通過視頻壓縮、圖像截取、圖像拼接、腐蝕與膨脹等預處理,借用CTPN 對字符進行檢測,再調(diào)用Tesseract進行識別,最終輸出關鍵字符的文本。通過實驗,驗證了該方法的有效性。但該方法也有一定的缺陷,隨著視頻的運行,部分字符可能存在與非字符部分交叉的情況,在下一步研究的過程中會加入視頻的語義分析,根據(jù)視頻前后幀之間的關聯(lián)關系進行判斷。同時,在得到輸出文本后,將來還可以加入對關鍵字符的檢索,有利于快速得到評估飛行員雷達操縱水平的數(shù)據(jù)。

      猜你喜歡
      機載雷達字符識別字符
      尋找更強的字符映射管理器
      字符代表幾
      一種USB接口字符液晶控制器設計
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      一種改進深度學習網(wǎng)絡結(jié)構(gòu)的英文字符識別
      機載雷達空時自適應處理技術研究綜述
      雷達學報(2017年6期)2017-03-26 07:52:56
      儀表字符識別中的圖像處理算法研究
      實時機載雷達告警仿真系統(tǒng)設計與實現(xiàn)
      基于CUDA和深度置信網(wǎng)絡的手寫字符識別
      機載雷達信號系統(tǒng)仿真研究
      麻阳| 彩票| 溧阳市| 阿克苏市| 长乐市| 壶关县| 沙洋县| 亚东县| 宁远县| 融水| 托克托县| 九江市| 道孚县| 吉木乃县| 余姚市| 团风县| 山西省| 乌兰浩特市| 丰顺县| 大方县| 景洪市| 疏勒县| 漳浦县| 正阳县| 垦利县| 丹棱县| 德兴市| 鄂州市| 塔河县| 屯留县| 云南省| 盐津县| 随州市| 鹤岗市| 龙岩市| 孝义市| 宜川县| 石首市| 运城市| 冷水江市| 宜兰市|