AI目標(biāo)檢測網(wǎng)絡(luò)應(yīng)用研究

2021-07-13 03:38:00胥輝旗

兵器裝備工程學(xué)報 2021年6期

王瑤，胥輝旗，姜義，張鑫

(海軍航空大學(xué)，山東煙臺 264001)

隨著干擾技術(shù)的發(fā)展和對戰(zhàn)場環(huán)境、敵我對抗態(tài)勢認(rèn)知的深入，使得導(dǎo)彈進(jìn)攻面臨由箔條、角反射體、艦載干擾機及舷外有源、無源干擾設(shè)備等構(gòu)成的復(fù)雜電磁環(huán)境[1]，現(xiàn)代艦艇普遍裝備電子戰(zhàn)反導(dǎo)裝備并且其發(fā)展越來越具有針對性，不僅數(shù)量大、種類多，而且功率不斷增大，戰(zhàn)場電磁環(huán)境日趨密集復(fù)雜[2]。反艦導(dǎo)彈作為當(dāng)前及未來海戰(zhàn)主要作戰(zhàn)武器，干擾已對反艦導(dǎo)彈作戰(zhàn)效能發(fā)揮造成了嚴(yán)重威脅，其遂行精確打擊任務(wù)的能力需求與實際作戰(zhàn)能力差距較大，急需尋求途徑提升反艦導(dǎo)彈在復(fù)雜環(huán)境下對目標(biāo)的精細(xì)化選擇能力，全面提升反艦導(dǎo)彈在復(fù)雜電磁環(huán)境下作戰(zhàn)效能發(fā)揮，提高導(dǎo)彈突防能力。

精確打擊不僅能達(dá)到威懾和遏制敵人的目的，實現(xiàn)不戰(zhàn)而屈人之兵的境界，也能通過對目標(biāo)的精準(zhǔn)選擇直接摧毀敵重要軍事、政治以及經(jīng)濟(jì)目標(biāo)，癱瘓敵作戰(zhàn)體系，進(jìn)而影響乃至決定戰(zhàn)爭的進(jìn)程和結(jié)局。隨著人工智能的深入發(fā)展，作為計算機視覺領(lǐng)域的一個重要分支——基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)得到迅猛發(fā)展并日漸成熟。2015年由微軟研究院何凱明等4名華人提出的ResNet神經(jīng)網(wǎng)絡(luò)對目標(biāo)的識別率為96.3%，達(dá)到了與人眼相媲美的水平。基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)已廣泛應(yīng)用于人臉識別、車輛檢測、無人駕駛、醫(yī)療手術(shù)等多個領(lǐng)域，其對目標(biāo)檢測識別精度高、判讀速度快，已覆蓋經(jīng)濟(jì)社會的方方面面。

實現(xiàn)反艦導(dǎo)彈對目標(biāo)的精細(xì)化選擇，保證不打錯、打得準(zhǔn)，要求在諸如港口、島岸等復(fù)雜背景下精細(xì)區(qū)分判定我方、敵方、友方目標(biāo)，能夠區(qū)分軍船、民船等相似目標(biāo)以及編隊目標(biāo)等。將基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)應(yīng)用于反艦導(dǎo)彈目標(biāo)檢測與識別環(huán)節(jié)，符合光學(xué)或雷達(dá)/光學(xué)多功能導(dǎo)引頭作用機理，能夠大幅提升復(fù)雜環(huán)境下對艦船目標(biāo)的檢測與識別精度，能夠為反艦導(dǎo)彈實現(xiàn)精確化打擊提供技術(shù)支撐和可行的技術(shù)途徑，滿足現(xiàn)代高技術(shù)戰(zhàn)爭的需要，具有重要的軍事意義及戰(zhàn)略意義。

1 反艦導(dǎo)彈進(jìn)攻面臨復(fù)雜自然環(huán)境

當(dāng)前，海上作戰(zhàn)形式空前激烈，戰(zhàn)爭形態(tài)復(fù)雜多變，反艦導(dǎo)彈作為海戰(zhàn)中實施精確打擊的主要武器，對其適應(yīng)復(fù)雜環(huán)境的性能提出更高要求。海上自然環(huán)境對反艦導(dǎo)彈實現(xiàn)對目標(biāo)的精準(zhǔn)檢測與識別方面存在較多影響因素。

一是海洋環(huán)境要素眾多。主要包括海洋水文要素：海水溫度、鹽度、潮汐、海浪等；以及復(fù)雜天氣環(huán)境：雨雪、云霧、水汽、光照、雷暴等氣象要素都對反艦導(dǎo)彈目標(biāo)檢測與識別提出較高的要求。

二是地物地貌復(fù)雜。近岸的山峰、樹林、港口碼頭以及錯綜分布的島嶼、島礁等自然背景和建筑物、鐵架、碼頭等海上設(shè)施設(shè)備等人為背景，進(jìn)一步加大了目標(biāo)檢測與識別難度。艦船航行至近岸島礁附近時，海岸線、樹林、層巒疊嶂的山體、建筑物等形成了復(fù)雜的背景從而直接影響目標(biāo)的檢測與識別[3]。

由于豐富的海洋資源及運輸、物流的發(fā)展，海上船舶分布眾多，海域中分布各類客船、貨船、漁船、商船等民用或中立目標(biāo)以及各類軍艦，多種類型船舶密集分布，軍船、民船交織排列，使傳統(tǒng)常規(guī)的目標(biāo)檢測識別手段面臨較大挑戰(zhàn)。

維基百科中把艦船類別分為：護(hù)衛(wèi)艦、航空母艦/艦隊航空母艦、潛艇/潛艦、驅(qū)逐艦、兩棲戰(zhàn)艦、戰(zhàn)艦、巡防艦、巡洋艦、導(dǎo)彈快艇、魚雷快艇、巡邏艦、掃雷艦、登陸艦、補給艦、近岸戰(zhàn)斗艦。百度百科根據(jù)不同的艦艇航行狀態(tài)把戰(zhàn)斗艦艇分為水下戰(zhàn)斗艦艇、水面戰(zhàn)斗艦艇，水面戰(zhàn)斗艦艇按基本任務(wù)分為航空母艦、巡洋艦、戰(zhàn)列艦、驅(qū)逐艦、導(dǎo)彈艇、布雷艇等，水下戰(zhàn)斗艦艇即潛艇分為常規(guī)動力和核動力潛艇。

海上作戰(zhàn)環(huán)境復(fù)雜多變，水文、氣象要素、地物地貌等多方面因素都對反艦導(dǎo)彈作戰(zhàn)提出了嚴(yán)峻考驗。

2 目標(biāo)檢測網(wǎng)絡(luò)的發(fā)展

目標(biāo)檢測技術(shù)是機器視覺領(lǐng)域關(guān)注的焦點問題，在圖像內(nèi)容理解和場景分析中發(fā)揮著重要作用。目標(biāo)檢測包含2個核心子任務(wù)：目標(biāo)定位和目標(biāo)分類[4]。

傳統(tǒng)目標(biāo)檢測算法包括3個步驟：一是選擇候選區(qū)域，采用窮舉法滑動窗口遍歷圖像所有像素，通過設(shè)置不同窗口的不同長寬比將所有可能的區(qū)域窮舉出來，得到一切可能的尺寸和位置，這樣的做法計算量龐大，產(chǎn)生過多冗余候選區(qū)域，帶來了巨大的資源浪費；二是人工特征提取，即人工設(shè)計重構(gòu)原圖像，但由于圖像中待檢測目標(biāo)類別不定，并且受到環(huán)境影響，增大了設(shè)計通用、魯棒性的難度，影響結(jié)果的準(zhǔn)確性。目前較為經(jīng)典的特征有：Haar特征、LBP特征、HOG特征、SIFT特征等；三是分類器分類：常見的機器學(xué)習(xí)分類器有Adaboost、SVM等。經(jīng)過大量理論和研究證明，采用“Haar特征+Adaboost算法”進(jìn)行人臉檢測，或者利用“Hog特征+SVM算法”組合進(jìn)行車輛、行人檢測效果較好。

深度學(xué)習(xí)誕生之后，以其優(yōu)越特性，使目標(biāo)檢測技術(shù)由傳統(tǒng)的機器學(xué)習(xí)迅速向基于深度學(xué)習(xí)的方式轉(zhuǎn)變。基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)廣泛應(yīng)用于目標(biāo)定位、交通道路標(biāo)識識別、智能安防系統(tǒng)、軍事目標(biāo)偵察監(jiān)控、醫(yī)療手術(shù)器械、導(dǎo)航海事維權(quán)、衛(wèi)星圖像分析等領(lǐng)域[5]。

2014年之后基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)逐步成為學(xué)術(shù)界和工業(yè)界的主流，目前比較流行的5種目標(biāo)檢測算法是R-CNN、Fast R-CNN、Faster R-CNN、SSD、YOLO[6-8]; 按各方法目標(biāo)定位及分類方式的不同，將目標(biāo)檢測分為一階段(one-stage)目標(biāo)檢測算法：SSD、YOLO；二階段(two-stage)目標(biāo)檢測算法：R-CNN、Fast R-CNN、Faster R-CNN。早期的目標(biāo)檢測方法大多是二階段目標(biāo)檢測算法，屬于先定位后分類的目標(biāo)檢測模式。對于一般的目標(biāo)定位問題，在某些特定場景下，如目標(biāo)的特殊運動狀態(tài)或目標(biāo)背景信息較為簡單的情況，能夠直接確定目標(biāo)位置，甚至可以根據(jù)關(guān)鍵特征實現(xiàn)對目標(biāo)實時跟蹤。一階目標(biāo)檢測算法相較于二階目標(biāo)檢測算法在速度上更勝一籌，能夠通過單次訓(xùn)練共享目標(biāo)的位置及類別特征再回歸的方式得到最終的檢測結(jié)果，不需要進(jìn)行交替訓(xùn)練，而二階目標(biāo)檢測算法，特別發(fā)展到Faster R-CNN，其檢測精度顯示出更高優(yōu)勢。

2.1 經(jīng)典二階目標(biāo)檢測網(wǎng)絡(luò)

Girshick等[9]于2016年提出了二階目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN，使用區(qū)域生成網(wǎng)絡(luò)(region proposal networks，RPN)代替了Selective Search算法，解決了R-CNN、Fast R-CNN網(wǎng)絡(luò)運行速度較慢的問題，真正實現(xiàn)了網(wǎng)絡(luò)的端到端訓(xùn)練。相比二階目標(biāo)檢測算法如YOLO、SSD等精度更高。并且Faster R-CNN實現(xiàn)了區(qū)域生成網(wǎng)絡(luò)與特征提取網(wǎng)絡(luò)卷積層共享，節(jié)約了區(qū)域生成功能的時間，大大提高了網(wǎng)絡(luò)效率。整個模型可以分為區(qū)域生成網(wǎng)絡(luò)(RPN)和Fast R-CNN檢測網(wǎng)絡(luò)2個模塊。Faster R-CNN網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。

圖1 Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

Faster R-CNN檢測分為4步：① 給定輸入圖像，通過CNN提取特征圖； ② 通過區(qū)域生成網(wǎng)絡(luò)RPN對候選區(qū)域進(jìn)行特征信息提?。?③ 通過RoI Pooling層將不同尺度的特征圖轉(zhuǎn)換為固定長度的特征向量； ④ 將特征向量送入全連接層進(jìn)行分類和回歸。

2.2 區(qū)域生成網(wǎng)絡(luò)

區(qū)域生成網(wǎng)絡(luò)(region proposal network，RPN)即提取候選框，首次在Faster R-CNN網(wǎng)絡(luò)中得到應(yīng)用，相比于R-CNN、Fast R-CNN的Selective Search提取候選框的方法，RPN提取候選框效率更高并且真正意義上實現(xiàn)了將物體檢測融入到一個神經(jīng)網(wǎng)絡(luò)中。圖2是RPN結(jié)構(gòu)示意圖，通過特征提取網(wǎng)絡(luò)生成的共享特征圖，并通過滑動窗口處理得到256維特征圖尺寸是H×W，H×W的特征圖可以看作是H×W個向量，每個向量是256維經(jīng)過2次全連接操作(分類、回歸)相當(dāng)于對整個特征圖做2次1×1的卷積操作得到一個2×H×W和4×H×W大小的特征圖，相當(dāng)于得到H×W個結(jié)果，其中每個結(jié)果中有2個分?jǐn)?shù)和4個坐標(biāo)，2是指物體前景和背景分?jǐn)?shù)，4是指4個坐標(biāo)相對于原圖坐標(biāo)的偏移。K的值為9，即錨(Anchor)的數(shù)量，H×W個點每個都生成9個不同大小的框(尺度為1282、2562、5212，長寬比為1∶1、1∶2、2∶1)，結(jié)合預(yù)先定義的錨及分?jǐn)?shù)和坐標(biāo)，經(jīng)過后處理得到候選框。同時還是用了非極大值抑制法NMS使得到的候選框更加精確。

圖2 RPN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

RPN的損失函數(shù)包括分類損失與回歸損失兩部分，表示為：

(1)

Lcls包含目標(biāo)與非目標(biāo)兩類：

(2)

(3)

式(3)中：Lreg為回歸損失；R表示魯棒損失函數(shù)[10]。

采用以下4個坐標(biāo)的參數(shù)化進(jìn)行邊框回歸：

(4)

式(4)中：x、y、w、h為預(yù)測框的中心坐標(biāo)及寬、高；x、xa、x*分別代表預(yù)測框、錨點、真實區(qū)域邊框的坐標(biāo)x(y、w、h相同)。

2.3 感興趣區(qū)域池化層

感興趣區(qū)域池化層(roI pooling layer，RPL)是感興趣區(qū)域池化操作，從圖1中可以看到RoI層有2個輸入:一是特征提取網(wǎng)絡(luò)得到的特征圖；二是區(qū)域建議網(wǎng)絡(luò)生成的候選框proposal.其操作流程如下： ① 根據(jù)輸入圖像將感興趣區(qū)域RoI映射到特征圖的對應(yīng)位置； ② 將映射后的區(qū)域劃分為大小相同的塊(塊的數(shù)量與輸出的維度相同)； ③ 對每個塊進(jìn)行最大池化(max pooling)操作。

不同大小的感興趣區(qū)域RoI經(jīng)過上述操作后固化為相同大小的特征池化圖，再通過2個連續(xù)的全連接層將這個特征池化圖轉(zhuǎn)化為4 096維的感興趣區(qū)域特征向量，一方面通過全連接層，利用Softmax函數(shù)計算分類得分，得到預(yù)測類別的概率；另一方面也通過一個全連接層，利用邊框回歸Bbox regression輸出位置偏移，得到更精準(zhǔn)的目標(biāo)檢測框。

2.4 非極大值抑制算法(NMS)

分類器分類后會在目標(biāo)周圍產(chǎn)生多個候選區(qū)域框，這些框間會有重合，通過非極大值抑制方法將這些候選框中的最大值挑選出來，而對非極大值元素進(jìn)行抑制，算法步驟如下：

步驟1將所有候選框得分由高到低排序，選出最高分框；

步驟2設(shè)定一個閾值，將其余框與最高分框的交并比(IOU)與閾值進(jìn)行比較，當(dāng)IOU值大于閾值時刪除這個框；

步驟3從剩下的除最高分框的所有框中再選擇一個得分最高的重復(fù)前2個步驟，最終得到一個最優(yōu)框。

(5)

式中：A、B分別表示2個預(yù)測框。

NMS的損失函數(shù)定義為：

Lnms=Lcls(p，u)=-logpu

(6)

式中：真實分類u為對應(yīng)的損失，p為N個類別預(yù)測概率。

3 實驗及結(jié)果分析

3.1 數(shù)據(jù)集制作

目前針對可見光艦船目標(biāo)圖像暫沒有開源數(shù)據(jù)集，本文為實現(xiàn)艦船目標(biāo)檢測任務(wù)，人工構(gòu)建了包含一定類別船只的數(shù)據(jù)集。目前尚無一個統(tǒng)一標(biāo)準(zhǔn)對艦船類別進(jìn)行劃分，不同國家和地區(qū)對類別的劃分差別較大，本文根據(jù)實驗需求選取不同分類中比較常見且樣本較為豐富的類別，將數(shù)據(jù)集種類分類，包括：各類軍艦、航空母艦、氣墊船、客船、貨船、帆船、漁船等7類。但在實際采樣過程中，有些類別樣本難以搜集，容易造成各類別數(shù)量不均，影響實驗結(jié)果，因此對樣本進(jìn)行合并整理選取有代表性的3類：航空母艦、軍艦、帆船，3個樣本圖像數(shù)量多并且特征明顯，能夠較好地驗證目標(biāo)檢測網(wǎng)絡(luò)對艦船目標(biāo)的檢測識別效果。通過網(wǎng)絡(luò)搜索、現(xiàn)場采集等方式采集.jpg/.jpeg格式圖片，將圖片大小統(tǒng)一為500×500并命名為000001格式，利用精靈標(biāo)注助手進(jìn)行圖像標(biāo)注，標(biāo)注基本原則是對數(shù)據(jù)集中每個樣本的前景目標(biāo)使用最接近艦船目標(biāo)的矩形框進(jìn)行標(biāo)定，對艦船目標(biāo)整體輪廓不全特別是針對有遮擋物的圖像目標(biāo)也進(jìn)行矩形框標(biāo)定，保證網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)確性及可靠性。

本文制作的是VOC2007格式數(shù)據(jù)集，在原始的VOC2007數(shù)據(jù)集中將數(shù)據(jù)集中所有樣本劃分為測試集(test)、訓(xùn)練集(train)、驗證集(val)、訓(xùn)練和驗證集(trainval)等4項，trainval占整個數(shù)據(jù)集的50%，test同樣占50%，訓(xùn)練集、驗證集大約為trainval的50%，樣本數(shù)據(jù)圖像如圖3所示。

圖3 部分?jǐn)?shù)據(jù)集圖像

3.2 實驗環(huán)境和評價指標(biāo)

本試驗在Ubuntu 16.04操作系統(tǒng)下進(jìn)行，使用深度學(xué)習(xí)框架Tensorflow，硬件環(huán)境為：Intel Xeon(R) CPU，Nvidia Gforce GT705；使用python語言實現(xiàn)編程操作。

1) Precision

Precision是準(zhǔn)確率/查準(zhǔn)率，表示所有被檢測為正類的樣本中真正屬于目標(biāo)類別的比例。

2) Recall

Recall是召回率/查全率也稱檢測率，即目標(biāo)被檢測為正類的數(shù)量占所有被檢測為目標(biāo)類的總數(shù)的比例。

3)AP(average precision)

AP即Precision-recall曲線(PR曲線)與X軸之間的圖形面積，PR曲線反映了分類器對正例的識別準(zhǔn)確度和對正例的覆蓋力之間的權(quán)衡，曲線橫軸為Recall召回率反映了分類器對正例的覆蓋力，縱軸是準(zhǔn)確率反映分類器預(yù)測正例的準(zhǔn)確度。

(7)

4) mAP(mean average precision)

mAP即所有查詢結(jié)果排序的AP的平均值。

式中Q為查詢的總次數(shù)。

即預(yù)測正確的部分占預(yù)測結(jié)果的比例。

即預(yù)測正確的部分占真實結(jié)果的比例。

其中TP(True Positive):真的正樣本，即正樣本被正確分為正樣本；TN(True Negatives):真的負(fù)樣本，即負(fù)樣本被正確分為負(fù)樣本；FP(False Positive):假的正樣本，即負(fù)樣本被錯誤分為正樣本；FN(False Negative):假的負(fù)樣本，即正樣本被錯誤分為負(fù)樣本。

5) 識別速度FPS

FPS是每秒識別圖像的數(shù)量，單位幀/s。數(shù)值越大則單位時間內(nèi)識別的圖像數(shù)越多，算法運行速度越快，反之表示算法運行速度越慢。

3.3 結(jié)果分析

實驗前利用VOC2007數(shù)據(jù)集和vgg16網(wǎng)絡(luò)對Faster R-CNN網(wǎng)絡(luò)進(jìn)行訓(xùn)練測試，得到成熟網(wǎng)絡(luò)后再通過自建艦船目標(biāo)數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練，將訓(xùn)練得到的權(quán)值模型對測試集中樣本進(jìn)行測試，設(shè)置檢測框概率閾值為0.5。網(wǎng)絡(luò)對VOC2007數(shù)據(jù)集的測試結(jié)果如表1所示。為檢驗網(wǎng)絡(luò)性能及對艦船目標(biāo)數(shù)量、分類對檢測精準(zhǔn)度的影響，分別將數(shù)據(jù)集分為軍船、民船2類和航母、軍船、帆船3類，迭代次數(shù)分別為200、2 000、20 000次，比較不同分類標(biāo)準(zhǔn)網(wǎng)絡(luò)對艦船目標(biāo)檢測性選取部分網(wǎng)絡(luò)的識別效果如圖4所示。

表1 VOC2007測試結(jié)果

針對自建艦船圖像數(shù)據(jù)集，將艦船目標(biāo)分為航空母艦(ac)、軍船(warship)、帆船(sailboat)等3類。

由圖4實驗結(jié)果可以看出，F(xiàn)aster R-CNN網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對艦船目標(biāo)準(zhǔn)確高效的識別，并且：① 迭代20 000次效果較好準(zhǔn)確度高，而迭代200次時，對網(wǎng)絡(luò)訓(xùn)練次數(shù)較少，對艦船圖像測試效果則較差；② 將圖像分為軍船、民船2類的測試效果優(yōu)于分為軍船、航空母艦、帆船3類的效果；③ 網(wǎng)絡(luò)對小目標(biāo)、遮蔽目標(biāo)的檢查效果不理想。相比于Fast R-CNN網(wǎng)絡(luò)，F(xiàn)aster R-CNN網(wǎng)絡(luò)使用區(qū)域建議網(wǎng)絡(luò)RPN代替Selective Search方法能夠有效地從原圖像中提取候選區(qū)域，真正實現(xiàn)端到端訓(xùn)練，能夠達(dá)到實時檢測的目的。但Faster R-CNN 算法對感興趣區(qū)域RoI只做取整計算，會導(dǎo)致感興趣區(qū)域?qū)?yīng)到原圖時產(chǎn)生位置不匹配的問題，并且在分類時Faster R-CNN算法采用NMS算法[11]，該算法將所有交并比IOU大于設(shè)定閾值的框全部刪除導(dǎo)致了置信度的降低。

圖4 測試效果和不同迭代次數(shù)的MAP值

海上環(huán)境瞬息萬變，反艦導(dǎo)彈在對目標(biāo)進(jìn)行識別、跟蹤、打擊過程中會從目標(biāo)區(qū)域多角度進(jìn)行目標(biāo)判讀，海洋復(fù)雜自然背景下各艦船目標(biāo)多樣且分布密集多樣，為實現(xiàn)更精細(xì)化的目標(biāo)檢測，可以通過圖像語義分割技術(shù)(image semantic segmentation)，遍歷圖像所有像素，對像素進(jìn)行語義信息標(biāo)記，將感興趣目標(biāo)從圖像中分割出來，語義分割僅輸出對圖像預(yù)測的某類結(jié)果，不對圖像實例進(jìn)行區(qū)分；實例分割(instance segmentation)對像素級圖像進(jìn)行密集區(qū)分同時還在預(yù)測類別前提下對不同實例進(jìn)行區(qū)分，通過實例分割可以對類的個體進(jìn)行區(qū)分從而實現(xiàn)對遮擋艦船目標(biāo)的檢測。

圖5展示了圖像檢測技術(shù)的分支，圖5中有2只不同類型的艦船，經(jīng)語義分割后只顯示艦船類，用粉色區(qū)域表示，而經(jīng)過實例分割后顯示的結(jié)果則包含了2個不同的個體(通過不同深淺顏色表示)。

圖5 圖像檢測的分支

2017年何凱明等提出的Mask R-CNN網(wǎng)絡(luò)[12]可以實現(xiàn)像素級別圖像的實例分割，在不加任何設(shè)計技巧及訓(xùn)練的前提下，相比FCIS(fully convolutional instance-aware semantic segmentation)[13]——COCO 2016分割挑戰(zhàn)的冠軍，Mask R-CNN的檢測性能優(yōu)勢顯著，將目標(biāo)檢測與分割并行處理，摒棄傳統(tǒng)的先分割再分類的傳統(tǒng)圖像分割方法，在實例分割領(lǐng)域取得了明顯成效。

4 Mask R-CNN網(wǎng)絡(luò)

Mask R-CNN網(wǎng)絡(luò)在Faster R-CNN網(wǎng)絡(luò)基礎(chǔ)上增加了全卷積網(wǎng)絡(luò) (fully convolutional network，F(xiàn)CN)和RoI Align將掩膜(mask)預(yù)測和分類預(yù)測區(qū)分為網(wǎng)絡(luò)中的2個分支，分類預(yù)測分支對感興趣區(qū)域進(jìn)行預(yù)測生成類別標(biāo)簽和矩形框位置坐標(biāo)，與Faster R-CNN網(wǎng)絡(luò)相同；掩膜分支對每個類別獨立預(yù)測，生成的二值掩膜依賴分類預(yù)測的結(jié)果以此分割出物體，避免了類別間的競爭。

Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示，通過區(qū)域生成網(wǎng)絡(luò)提取候選區(qū)域，結(jié)合不同尺寸的anchor和非極大值抑制方法得到分?jǐn)?shù)最高的anchor并輸出對目標(biāo)前景或背景類別的預(yù)測以及位置信息得到感興趣區(qū)域。得到的感興趣區(qū)域通過RoIAlign層對尺寸進(jìn)行統(tǒng)一規(guī)定，一方面通過Faster R-CNN網(wǎng)絡(luò)預(yù)測類別和位置信息，另一方面通過FCN網(wǎng)絡(luò)進(jìn)行像素級別分割，預(yù)測并輸出m×m二值掩膜(Binary Mask)，m×m為局部小特征圖的尺寸。將m×m特征圖再次通過RoIAlign網(wǎng)絡(luò)映射到原始輸入圖像上，以減少計算量并取得較好的分割效果。

圖6 Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

4.1 FCN網(wǎng)絡(luò)

傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)前5層是卷積層，第6、7層輸出長度為4 096的一維特征向量，第8層得到長度為1 000的向量。FCN網(wǎng)絡(luò)稱為全卷積網(wǎng)絡(luò)，其將傳統(tǒng)卷積網(wǎng)絡(luò)中的全連接層替換為卷積層(4 096，1，1)，(4 096，1，1)，(1 000，1，1)，由于采用RoIAlign層能夠精確地得到感興趣區(qū)域與特征圖的對應(yīng)關(guān)系，感興趣區(qū)域在特征圖上的位置更為精確，這樣可以直接對特征圖卷積，F(xiàn)CN網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。

圖7 FCN網(wǎng)絡(luò)結(jié)構(gòu)示意圖

FCN網(wǎng)絡(luò)在卷積層后周期性插入池化層，經(jīng)過5次卷積層與池化層組合后，圖像分辨率依次降為1/2、1/4、1/8、1/16、1/32。FCN網(wǎng)絡(luò)對最后一層通過添加反卷積層(deconvolution layer)實現(xiàn)對輸出結(jié)果的32倍上采樣(up sample)操作，得到與原圖同尺寸的輸出，并且特征圖的分辨率得到了提升。FCN網(wǎng)絡(luò)不限制輸入圖像的尺寸，并且不使用CNN網(wǎng)絡(luò)方式將像素塊輸入網(wǎng)絡(luò)，避免了重復(fù)存儲，網(wǎng)絡(luò)效率更高。

4.2 RoIAlign 感興趣區(qū)域插值池化

Faster R-CNN網(wǎng)絡(luò)采用RoIPool層[14]對特征圖上不同大小的感興趣區(qū)域統(tǒng)一尺寸，并轉(zhuǎn)化成不同細(xì)粒度的特征圖，再通過最大池化層提取特征。RoIPool采用最近鄰插值法，對縮放后感興趣區(qū)域的位置信息進(jìn)行四舍五入，賦給目標(biāo)點最近像素點的像素值，如圖8所示，原圖像中15×15的區(qū)域?qū)?yīng)到特征圖上尺寸為2.93×2.93(15×25/128)，RoIPool采用最近鄰插值進(jìn)行四舍五入處理得到3×3的特征區(qū)域，這會導(dǎo)致區(qū)域和真值間產(chǎn)生偏差。

圖8 最鄰近插值法原理示意圖

Mask R-CNN網(wǎng)絡(luò)加入RoIAlign層改進(jìn)池化操作，使用雙線性插值法(bilinear interpolation)，將感興趣區(qū)域歸一化到一定尺寸在池化成統(tǒng)一尺寸，避免了像素錯位。

表2展示了各目標(biāo)檢測網(wǎng)絡(luò)在VOC2007及COCO數(shù)據(jù)集中的性能表現(xiàn)，Mask R-CNN網(wǎng)絡(luò)在不加任何優(yōu)化手段情況下超過各種數(shù)據(jù)增強加持下的COCO2016分割挑戰(zhàn)冠軍FCIS，網(wǎng)絡(luò)檢測精度較高。Mask R-CNN網(wǎng)絡(luò)根據(jù)圖片大小及硬件性能處理時間需0.3～0.5 s，雖然比Faster R-CNN、YOLO系列等網(wǎng)絡(luò)相比速度不高，但基本能滿足實時性需求，且其對目標(biāo)精準(zhǔn)的識別分類，能夠很好的適應(yīng)復(fù)雜背景，對實現(xiàn)復(fù)雜戰(zhàn)場環(huán)境中艦船目標(biāo)的精準(zhǔn)選擇具有重要意義。

表2 網(wǎng)絡(luò)性能對比圖

將Mask R-CNN網(wǎng)絡(luò)用于海上艦船目標(biāo)的檢測與識別，實現(xiàn)對重疊、遮擋目標(biāo)的較好檢測，有效規(guī)避復(fù)雜海上電磁環(huán)境及自然環(huán)境影響，精細(xì)區(qū)分各類船只、岸島等相鄰、相近及編隊目標(biāo)，為進(jìn)一步實現(xiàn)反艦導(dǎo)彈對目標(biāo)的精確打擊提供了可行的理論途徑。

5 結(jié)論

通過實驗數(shù)據(jù)及理論分析，基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)，能夠?qū)崿F(xiàn)對自建數(shù)據(jù)集中艦船目標(biāo)的精準(zhǔn)檢測與識別，尤其是在復(fù)雜自然環(huán)境及區(qū)域分布目標(biāo)較多情況下具有較好的適應(yīng)性?；谌斯ぶ悄艿呐灤繕?biāo)檢測技術(shù)實現(xiàn)對目標(biāo)的精細(xì)化選擇與識別，對目標(biāo)識別精度高、判讀速度快，且受自然及電磁環(huán)境影響較小。在反艦導(dǎo)彈末端制導(dǎo)階段，面對海上多變自然環(huán)境，要實現(xiàn)對目標(biāo)的精確打擊可以采用光學(xué)制導(dǎo)與人工智能技術(shù)相結(jié)合的方式。利用可見光圖像與人工智能目標(biāo)檢測技術(shù)相結(jié)合的末端制導(dǎo)實現(xiàn)對目標(biāo)的靈活精準(zhǔn)確定。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看