結(jié)合紅外顯著性目標(biāo)導(dǎo)引的改進(jìn)YOLO網(wǎng)絡(luò)的智能裝備目標(biāo)識別研究

2020-07-28 06:32:14侯毅葦李林漢

紅外技術(shù) 2020年7期

侯毅葦，李林漢，王彥

（1.河北金融學(xué)院, 大數(shù)據(jù)科學(xué)學(xué)院，河北保定 071051； 2.河北金融學(xué)院, 金融創(chuàng)新與風(fēng)險管理研究中心，河北保定 0710051； 3.中國電子科技集團(tuán)公司第五十四所信息傳輸與分發(fā)技術(shù)重點實驗室，河北石家莊050081）

關(guān)鍵字：目標(biāo)識別；紅外顯著性；目標(biāo)導(dǎo)引；深度學(xué)習(xí)；YOLO-V3；智能裝備

0 引言

隨著新軍事變革的不斷推進(jìn)和發(fā)展，戰(zhàn)場形態(tài)將走向智能化與信息化，主要作戰(zhàn)方式也朝著整個武器裝備體系間的對戰(zhàn)發(fā)展，未來裝備對于目標(biāo)自主捕獲功能的需求越來越迫切[1]。然而，現(xiàn)有裝甲裝備火控系統(tǒng)大多數(shù)采用人為指定目標(biāo)，啟動跟蹤器實施對特定目標(biāo)的跟蹤，無法對可能出現(xiàn)的威脅目標(biāo)進(jìn)行檢測與識別。因此，如何提高火控系統(tǒng)的目標(biāo)自主/半自主識別性能將是未來智能裝甲裝備的發(fā)展方向[2]。

目標(biāo)自主檢測與識別是指利用機(jī)器學(xué)習(xí)及人工智能方法在圖像中自動獲取目標(biāo)類別和位置。現(xiàn)有的方法大都是對典型目標(biāo)，如飛機(jī)、來襲導(dǎo)彈、艦船、橋梁等進(jìn)行識別。在實戰(zhàn)環(huán)境下，實時預(yù)警檢測系統(tǒng)需要具備復(fù)雜背景中廣域目標(biāo)探測與識別[3]。由于缺乏目標(biāo)的先驗信息，現(xiàn)有算法存在虛警率高、實時性偏低等問題，限制了實戰(zhàn)環(huán)境下的廣泛應(yīng)用。迄今為止，國內(nèi)外廣域目標(biāo)檢測與識別項目仍然處于試驗階段，還沒有軍品上可靠的型號產(chǎn)品，迫切要求研究大范圍遠(yuǎn)距離成像條件下的穩(wěn)健目標(biāo)檢測識別算法。

眾所周知，復(fù)雜背景下自主識別能力和實時性成為制約人工智能技術(shù)實用性的關(guān)鍵?，F(xiàn)有的大多數(shù)算法是利用低層次特征進(jìn)行支持向量機(jī)（Support Vector Machine，SVM）分類。文雄志等人提出了一種基于河流先驗信息的橋梁識別方法，該方法利用橋梁大概率位于河流之上的先驗信息，通過提取河流上的疑似區(qū)域特征，然后通過分類器的判斷，實現(xiàn)橋梁的檢測[4]。Yao 等人利用機(jī)場跑道特有特征，設(shè)計了一種多尺度模式分類方法，能夠從大范圍搜索區(qū)域中識別目標(biāo)[5]。雖然這些方法已經(jīng)能夠較高精度地識別典型目標(biāo)，但該類方法對圖像的質(zhì)量與目標(biāo)特性要求較高。一旦目標(biāo)的形狀改變，識別率大大降低。因此，現(xiàn)有的裝備還并不具備完全依靠系統(tǒng)自身識別能力進(jìn)行打擊。航天九院的出口型“彩虹”無人機(jī)仍然是利用數(shù)據(jù)鏈由人在回路進(jìn)行目標(biāo)打擊，其識別系統(tǒng)主要用于輔助識別。目前，以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)方法已經(jīng)在可見光圖像識別領(lǐng)域取得了不錯的成績，從RCNN[6]、SPP-Net[7]、Fast-RCNN[8]、Faster- RCNN[9]、YOLO[10]、SSD[11]、YOLO-v2[12]到Y(jié)OLO-v3[13]正在逐步刷新目標(biāo)檢測與識別的精度和速度。與傳統(tǒng)人工設(shè)計特征不同，深度網(wǎng)絡(luò)通過非線性網(wǎng)絡(luò)結(jié)構(gòu)逐層學(xué)習(xí)潛在特征，獲得目標(biāo)最本質(zhì)的特征信息。

由于地面裝備的特殊性，直接將現(xiàn)有模型應(yīng)用到目標(biāo)檢測與識別中，效果不太理想。首先，車載裝備需要實時的對目標(biāo)進(jìn)行識別，而神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度太高，很難滿足實時性的要求；其次，車輛行駛過程的煙塵嚴(yán)重影響成像質(zhì)量，導(dǎo)致目標(biāo)識別率不高。因此，針對深度神經(jīng)網(wǎng)絡(luò)模型很少直接應(yīng)用于裝甲光電系統(tǒng)，且實時性較差的問題，本文提出一種結(jié)合紅外顯著性目標(biāo)導(dǎo)引的改進(jìn)YOLO 網(wǎng)絡(luò)的智能裝備目標(biāo)識別系統(tǒng)，該方法利用紅外與電視的互補(bǔ)特征，通過均值漂移聚類快速地獲取疑似目標(biāo)，并通過改進(jìn)的YOLO 模型進(jìn)行可見光目標(biāo)識別。實驗仿真結(jié)果表明，本文提出的方法對地面目標(biāo)識別精度較高，能夠用于戰(zhàn)場環(huán)境下態(tài)勢感知、區(qū)域監(jiān)控及目標(biāo)打擊應(yīng)用。

1 YOLO 網(wǎng)絡(luò)

YOLO-v3 網(wǎng)絡(luò)是目前目標(biāo)識別領(lǐng)域較好的一種深度學(xué)習(xí)模型，該網(wǎng)絡(luò)是從YOLO 和YOLO-v2 網(wǎng)絡(luò)演變而來[13]。與基于候選區(qū)域的深度學(xué)習(xí)網(wǎng)絡(luò)相比，YOLO 網(wǎng)絡(luò)將檢測問題轉(zhuǎn)化為回歸問題，該網(wǎng)絡(luò)不需要窮舉候選區(qū)域，直接通過回歸生成目標(biāo)的置信度和邊界框坐標(biāo)。與Faster-RCNN 網(wǎng)絡(luò)相比，大大提高了檢測速度。

YOLO 檢測模型如圖1 所示。網(wǎng)絡(luò)將訓(xùn)練集中的每個圖像分成S×S（S＝13）網(wǎng)格。如果真實目標(biāo)的中心落入網(wǎng)格中，則該網(wǎng)格負(fù)責(zé)檢測目標(biāo)的類別。在每個網(wǎng)格中預(yù)測出來多個邊界框，并且要為每個預(yù)測出來的邊界框評分，以便表示該邊界框完全包含目標(biāo)的置信度（Confidence），其定義如下：

式中：Pr(object)表示邊界框中包含目標(biāo)的概率（若存在目標(biāo)Pr(object)＝1，反之等于0）；則表示預(yù)測結(jié)果和基準(zhǔn)邊框之間的重疊度（Intersection over Union, IoU）。置信度反映了網(wǎng)格是否包含目標(biāo)以及預(yù)測邊界框的準(zhǔn)確性。當(dāng)多個邊界框檢測到同一目標(biāo)時， YOLO 使用非最大抑制（ Non-Maximum Suppression，NMS）方法選擇最佳邊界框。

圖1 YOLO 模型識別流程Fig.1 Recognition process in YOLO model

雖然YOLO 獲得了更快的檢測速度，但它的檢測準(zhǔn)確率不如Faster R-CNN。為了解決這個問題，YOLO-v2 改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu)，并使用卷積層替換YOLO輸出層中的完全連接層。同時，YOLO-v2 還引入了批量歸一化、維度聚類、細(xì)粒度特征、多尺度訓(xùn)練等策略，與YOLO 相比大大提高檢測精度的其他方法。YOLO-v3 是YOLO-v2 的改進(jìn)版，通過使用多尺度預(yù)測來檢測最終目標(biāo)，其網(wǎng)絡(luò)結(jié)構(gòu)比YOLO-v2 更復(fù)雜。YOLO-v3 可以預(yù)測不同尺度的邊界框，相比YOLO-v2 能更有效地檢測小目標(biāo)。

2 紅外顯著性快速目標(biāo)導(dǎo)引

現(xiàn)有的地面裝備光電系統(tǒng)將電視攝像機(jī)和紅外熱像儀集成于光電平臺上，通過平臺的轉(zhuǎn)動對指定區(qū)域進(jìn)行圖像采集，然后送出圖像處理單元進(jìn)行分析，實現(xiàn)目標(biāo)檢測與跟蹤，為作戰(zhàn)人員提供精確指示，進(jìn)而實現(xiàn)對目標(biāo)打擊[14]。紅外熱像儀可實現(xiàn)廣域遠(yuǎn)距離目標(biāo)搜索，但是獲取的遠(yuǎn)距離目標(biāo)圖像信噪比偏低，不利于目標(biāo)識別；電視攝像機(jī)可以獲取豐富的紋理細(xì)節(jié)的目標(biāo)圖像，有利于虛假目標(biāo)的剔除以及真目標(biāo)識別。因此，結(jié)合紅外和可見光探測器互補(bǔ)思想，利用目標(biāo)熱特性實現(xiàn)目標(biāo)定位，再由可見光圖像進(jìn)行識別，降低YOLO 深度識別網(wǎng)絡(luò)對疑似區(qū)域識別時間，其系統(tǒng)框圖如圖2 所示。

大多數(shù)深度識別網(wǎng)絡(luò)在訓(xùn)練前需要設(shè)定初始的目標(biāo)尺度，近似的尺度將獲得更加準(zhǔn)確的位置，使得模型更加容易收斂。目前存在兩類先驗框計算方法：第一種是直接對尺寸大小進(jìn)行預(yù)測；第二種是錨點框（anchor box）候選模板[12]。這兩種方法都是在訓(xùn)練過程進(jìn)行尺度微調(diào)，但前者受誤差影響較大容易往更大尺度的邊界框變化，后者則不能保證先驗框就是最優(yōu)尺度，容易陷入局部最小。

為了提取目標(biāo)，需要從紅外圖像中提取目標(biāo)像素點，并對像素點進(jìn)行特征描述，實現(xiàn)特征聚類。為了簡化運(yùn)算，本文采用均值分割對疑似目標(biāo)進(jìn)行粗分割，然后采取均值漂移聚類進(jìn)行目標(biāo)定位，最后利用目標(biāo)的結(jié)構(gòu)特性篩選出待識別的目標(biāo)。

2.1 基于均值漂移聚類的目標(biāo)定位

為了實現(xiàn)目標(biāo)檢測并定位，需要對疑似目標(biāo)區(qū)域進(jìn)行聚類分析。在未知目標(biāo)先驗信息的情況下，本文采用均值漂移算法進(jìn)行聚類。均值漂移算法（Mean Shift）是一種非參數(shù)概率密度估計方法[15]，通過逐步密度梯度偏移實現(xiàn)最優(yōu)聚類，其偏移量定義為概率密度f(x)的局部極大值，也就是概率密度的梯度?f(x)為0 的點。假定d維空間Rd中存在n個樣本點x1,i＝1, …,n，在x點的均值漂向量定義如下：

式中：G(x)表示高斯核函數(shù)；w(xi)是采樣點xi的權(quán)值，w(xi)≥0；h是帶寬，一般設(shè)置為30，主要依賴于目標(biāo)的最小可識別尺寸。由于均值漂移向量Mh(x)指向概率密度梯度方向，其本質(zhì)是在指定帶寬范圍內(nèi)尋找最大概率密度函數(shù)梯度的收斂點。等式(2)經(jīng)過變換可重寫為如下等式：

因此，給定一個初始點x，核函數(shù)G(x)，允許誤差ε＝5，若先假定均值漂移算法可以采用交替迭代沿著概率密度梯度的方向不斷移動，最終獲得最優(yōu)聚類中心。因此，通過對所有像素點進(jìn)行協(xié)同的聚類分析，得到不同的類集合。

2.2 基于空間結(jié)構(gòu)特性的目標(biāo)篩選

由于粗分割與定位獲得了大量疑似目標(biāo)區(qū)域，為了降低識別網(wǎng)絡(luò)處理的復(fù)雜度，本文采用目標(biāo)空間結(jié)構(gòu)特性剔除虛假目標(biāo)。紅外目標(biāo)空間結(jié)構(gòu)特性往往與形狀特征、大小特征、位置布局特征等有密切關(guān)系，是實現(xiàn)主觀視覺判讀和機(jī)器解譯分析的主要參考依據(jù)。本文采用長寬比與矩形度作為目標(biāo)的空間幾何特征進(jìn)行目標(biāo)篩選。

圖2 紅外目標(biāo)位置引導(dǎo)下的深度學(xué)習(xí)目標(biāo)識別算法框架Fig.2 Framework of deep learning based object recognition guided by the location of infrared object

對典型目標(biāo)的統(tǒng)計分析表明大多數(shù)目標(biāo)在長寬比與矩形度上符合某個范圍約束，例如：車輛的長寬比一般在2～3，軍用艦船一般大于5，因此結(jié)合長寬比能很快排除一些背景干擾，抑制虛警。目標(biāo)的矩形度用來描述目標(biāo)形狀的復(fù)雜程度，其值越小，表明目標(biāo)越接近矩形。大多數(shù)地面典型目標(biāo)的形狀都是接近于一個矩形。

通過上述目標(biāo)幾何結(jié)構(gòu)特征的分析，可以快速剔除虛假目標(biāo)，為下一步目標(biāo)識別提供可靠的目標(biāo)位置，縮小搜索范圍，降低處理時間。

3 改進(jìn)的YOLO-v3 識別網(wǎng)絡(luò)

3.1 密集連接神經(jīng)網(wǎng)絡(luò)

由于YOLO 網(wǎng)絡(luò)中存在大量卷積和下采樣操作，在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的同時降低了特征圖的數(shù)量，造成特征信息的損失。因此，為了增強(qiáng)目標(biāo)特征的表征能力，本文提出采用密集連接神經(jīng)網(wǎng)絡(luò)（Dense Net）[16]來更有效地捕獲特征信息，該策略是利用前饋模式將每個層信息連接到其他層。也就是說，第l層接收前面l－1 層的所有特征圖作為輸入：

式中：x0,x1, …,xl－1是前l(fā)－1 層的特征映射的級聯(lián)，Hl則是用于處理級聯(lián)特征的函數(shù)。密集網(wǎng)絡(luò)可以減輕梯度消失問題，增強(qiáng)特征傳播，促進(jìn)特征復(fù)用，并大大減少參數(shù)數(shù)量。雖然密集連接塊的結(jié)構(gòu)使得特征圖得到了重用，但帶來利用率高的同時也導(dǎo)致了越到深層的網(wǎng)絡(luò)，特征圖的數(shù)量也就越多，計算的內(nèi)存需求也逐步提升，因此本文采用文獻(xiàn)[16]提出的優(yōu)化策略進(jìn)行。

3.2 識別模型

本文提出的改進(jìn)YOLO-v3 識別網(wǎng)絡(luò)仍然是以Darknet-53 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu)，并使用DenseNet 代替具有較低分辨率的原始轉(zhuǎn)移層，以增強(qiáng)特征傳播，復(fù)用和融合，其模型結(jié)構(gòu)如圖3 所示。YOLO-v3 并沒有采用Softmax 函數(shù)作為最終的預(yù)測分類器，而是采用獨(dú)立的邏輯回歸函數(shù)（sigmoid 函數(shù)）來預(yù)測每個邊界框的多標(biāo)簽分類。也就是說，紅外導(dǎo)引的每個邊界框可以屬于多個類別，如掩體和坦克，此操作對于復(fù)雜戰(zhàn)場環(huán)境下多目標(biāo)并存場景是非常有用的。為了滿足多目標(biāo)識別的需要并驗證算法的有效性，本文對網(wǎng)絡(luò)的末端進(jìn)行了修改，將目標(biāo)類別的數(shù)目改為五類（履帶裝甲、輪式裝甲、人、掩體，靶標(biāo)）。所有的輸入圖像首先調(diào)整為512×512像素，代替原有的256×256像素圖像。然后，改進(jìn)網(wǎng)絡(luò)中的32×32 和16×16 原始轉(zhuǎn)移層與下采樣層被DenseNet 結(jié)構(gòu)取代。在本文中，傳遞函數(shù)Hl使用函數(shù)BN-ReLU-Conv(1×1)- BN-ReLU-Conv(3×3)，它是卷積算子（Conv），批量歸一化（Batch Normalization，BN），線性整流函數(shù)（Rectified Linear Unit, ReLU）的組合。Hl通過對x0,x1, …,xl－1層的數(shù)據(jù)非線性變換，緩減梯度消失，其中xi由64 個特征提取層組成，每層的分辨率為32×32。特征逐漸前向傳遞，最終得到大小為16×16×1024 的多層次深度特征。

在訓(xùn)練階段，當(dāng)圖像特征被轉(zhuǎn)移到較高分辨率層時，后一特征層將在密集網(wǎng)絡(luò)中接收其前面的所有特征層的特征，從而減少特征損失。另外，通過這種方式，可以在低分辨率的卷積層之間實現(xiàn)特征復(fù)用，提高特征的表征能力。

4 實驗結(jié)果與討論

為了驗證提出的結(jié)合紅外顯著性目標(biāo)引導(dǎo)的改進(jìn)YOLO 網(wǎng)絡(luò)的目標(biāo)識別模型，本章將從改進(jìn)的YOLO 模型性能與識別精度兩方面進(jìn)行分析。本文實驗環(huán)境為：Intel 酷睿i9-9900k @ 3.6 GHz (×8)，16 GB×4 (DDR4 3200 MHz)，NVIDIA TESLA P100 16G×2，Ubuntu 16.04，64 位操作系統(tǒng)。

圖3 改進(jìn)的YOLO v3 識別網(wǎng)絡(luò)Fig.3 Improved YOLO v3 recognition networks

4.1 實驗數(shù)據(jù)及其評價指標(biāo)

為了定性定量地評價本節(jié)所提出的識別模型的有效性，采用自建數(shù)據(jù)集和PASCAL VOC 公共數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)訓(xùn)練和測試。自建數(shù)據(jù)集是利用中海外九洲（陜西）防務(wù)科技有限公司研制的GD/PD-2801A 光電探測設(shè)備，其紅外圖像分辨率是640×512，電視圖像分辨率是1280×720。為確保不同探測器獲取圖像場景一致，紅外與電視視場大小調(diào)到相同大小，且光軸重合。試驗從外場采集了46280張紅外及其電視圖像，該數(shù)據(jù)集主要以地面環(huán)境下車輛及人員目標(biāo)的可見光及紅外圖像為主，目標(biāo)類別數(shù)為10。選取32150 幅圖像作為訓(xùn)練樣本，14130 幅圖像作為測試樣本。標(biāo)注數(shù)據(jù)主要采用耶魯大學(xué)的Autolable 工具[17]，實驗所需訓(xùn)練圖像均按照PASCAL VOC 2012 數(shù)據(jù)集格式進(jìn)行了人工標(biāo)注。PASCAL VOC 公共數(shù)據(jù)集是圖像識別和分類領(lǐng)域優(yōu)秀的數(shù)據(jù)集，被用來訓(xùn)練本文提出的YOLO 模型，并驗證模型的收斂性能。

實驗選擇了YOLO-V3[13]，Cascaded RCNN[18]，R-FCN-3000[19]和RNOD[20]作為對比算法，所有的對比算法都采用作者給出的源代碼或可執(zhí)行文件，并且都用相同的訓(xùn)練集進(jìn)行訓(xùn)練。本次實驗將從算法的均值平均精度（Mean Average Precision，mAP）、幀率（Frames Per Second，F(xiàn)PS）、IoU 三個方面進(jìn)行分析。

4.2 改進(jìn)的深度模型的性能分析。

Faster RCNN、FCN 和 SSD 使用 Inception Resnet-v2 作為特征提取網(wǎng)絡(luò)，而本文提出的改進(jìn)YOLO-V3 識別網(wǎng)絡(luò)是以Darknet-53 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu)，其網(wǎng)絡(luò)初始化參數(shù)如表1 所示。為了提高模型的檢測精度，輸入圖像被調(diào)整為 512×512 像素以適應(yīng)Darknet 框架。動量、初始學(xué)習(xí)率、權(quán)重衰減正則化等參數(shù)與YOLO-V3 模型中的原始參數(shù)一致；學(xué)習(xí)速率初始化設(shè)置為0.001，然后在訓(xùn)練到第40000 步后降至0.0001，在50000 步后降至0.00001。訓(xùn)練過程中的準(zhǔn)確度和損失變化如圖4(a)和圖4(b)所示。訓(xùn)練集與測試集實驗結(jié)果表明，本文改進(jìn)的基于改進(jìn)YOLO 識別算法具有較高的收斂速度與識別精度。

4.3 定性定量識別性能分析

為解決復(fù)雜地面環(huán)境下低對比度目標(biāo)檢測問題，本文提出了一種基于紅外顯著性目標(biāo)引導(dǎo)的改進(jìn)YOLO 網(wǎng)絡(luò)的智能裝備目標(biāo)識別方法，該方法利用了紅外與可見光圖像的互補(bǔ)特性，通過疑似目標(biāo)檢測、多層卷積層特征提取、多尺度置信度模型完成檢測與識別任務(wù)。表2 是不同的深度模型對所有測試圖像的定量指標(biāo)結(jié)果，其中mAP 是評價檢測算法對所有類別物體的檢測性能，即所有類的平均正確率（AveragePrecision, AP）的均值?？梢钥闯?，Cascaded RCNN通過級聯(lián)幾個檢測網(wǎng)絡(luò)達(dá)到不斷優(yōu)化預(yù)測結(jié)果，其檢測網(wǎng)絡(luò)是是基于不同IOU 閾值進(jìn)行訓(xùn)練，其精度是所有模型中較高的，但實時性太差；RNOD 是兩個全連接層和NMS 模塊引入目標(biāo)語義模塊中，通過關(guān)聯(lián)分析提升識別的精度，但該模型容易引起誤判，尤其是針對戶外采集的低質(zhì)量的圖像，其識別精度較低；R-FCN-3000 是提出了解耦分類支路實現(xiàn)多目標(biāo)分類，在保證速度（30FPs）的情況下將R-FCN 的分類類別數(shù)延伸至3000 類。由于本文類別設(shè)置不多，其識別精度與YOLO-V3 相當(dāng)；本文的算法首先對紅外圖像進(jìn)行顯著性快速目標(biāo)導(dǎo)引，利用目標(biāo)幾何特點，聚類計算目標(biāo)框尺度；然后使用改進(jìn)的YOLO 網(wǎng)絡(luò)實現(xiàn)目標(biāo)檢測與識別。實驗結(jié)果表明本文提出的模型的識別準(zhǔn)確率比YOLO V3 略有提升，但實時性得到了很大的提升。在相同分辨率的情況下，幀頻接近74。

表1 初始網(wǎng)絡(luò)參數(shù)Table 1 Initialization network parameters

圖4 訓(xùn)練過程Fig.4 Training process

表2 不同方法的識別準(zhǔn)確率Table 2 Different methods of recognition accuracy

圖5是YOLO與本文算法的檢測識別性能的視覺效果，實驗選用了一張具有代表性的圖像進(jìn)行分析。圖5(a)為YOLO 目標(biāo)檢測結(jié)果，沒有加人紅外位置引導(dǎo)；圖5(b)為本文算法的裝甲目標(biāo)檢測結(jié)果，該方法利用紅外顯著性快速目標(biāo)導(dǎo)引提供的目標(biāo)質(zhì)心位置與目標(biāo)尺度，右圖是在同分辨率可見光圖像以及在目標(biāo)位置導(dǎo)引下的深度網(wǎng)絡(luò)檢測結(jié)果。可以看到本文提出的方法具有較好的性能。為了分析本文所提的算法對戶外場景的識別效果，圖6 是不同識別算法的定性分析結(jié)果。本文提出的算法能夠識別場景中的大部分目標(biāo)，尤其是針對土堆旁邊的士兵也也能準(zhǔn)確定位，但也存在將工事識別成城墻的情況；Cascaded RCNN的識別精度較高，主要依賴于該方法對IOU 的自適應(yīng)分析，目標(biāo)定位精度高，但也存在識別不全的情況，尤其是將多個坦克識別成一個。RNOD 算法對孤立目標(biāo)識別精度較高，但對遮擋目標(biāo)差異較大；R-FCN-3000 能識別圖像的大多數(shù)目標(biāo)，由于關(guān)聯(lián)性的分析，容易把目標(biāo)識別成多個目標(biāo)，例如將裝甲上的附著物識別成人。

圖5 YOLO-V3 與本文算法的檢測識別定性對比Fig.5 Qualitative comparison of detection and recognition performance between YOLO-V3 and the proposed algorithm

圖6 不同算法的識別結(jié)果對比Fig.6 Comparison of recognition results for different algorithms

5 結(jié)語

為了提升作戰(zhàn)環(huán)境下目標(biāo)檢測識別的性能，本文提出了一種基于紅外顯著性目標(biāo)引導(dǎo)的改進(jìn)YOLO網(wǎng)絡(luò)的智能裝備目標(biāo)識別算法，該算法利用紅外圖像提供目標(biāo)可能的位置引導(dǎo)可見光圖像中的深度自主學(xué)習(xí)目標(biāo)檢測，從而加速檢測的速度。本文提出的改進(jìn)YOLO-v3 識別網(wǎng)絡(luò)是以Darknet-53 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu)，并使用DenseNet 代替具有較低分辨率的原始轉(zhuǎn)移層，以增強(qiáng)特征傳播，復(fù)用和融合。大量定性定量的實驗結(jié)果表明，本文提出的模型可以有效地提高現(xiàn)有目標(biāo)檢測與行為識別網(wǎng)絡(luò)的性能。

本文提出的算法僅僅是利用紅外導(dǎo)引下進(jìn)行自然圖像識別，雖然測試數(shù)據(jù)集的識別性能較好。然而，本文算法適用范圍較小，不具備全天候全天時的態(tài)勢感知、區(qū)域監(jiān)控及目標(biāo)打擊應(yīng)用。下一步，項目組將融合紅外與可見光的互補(bǔ)特征，提升算法的全方位泛化能力。