程勇策,鄭 堯,趙 濤
(1.中國電子科技集團(tuán)第三研究所,北京 100015;2.陸航研究所,北京 101121)
目前,目標(biāo)檢測能力在光電偵查、光電監(jiān)視及導(dǎo)航制導(dǎo)等領(lǐng)域的應(yīng)用受到越來越多的重視[1-3]。單純依靠圖像信息進(jìn)行檢測方法存在實(shí)時(shí)性較差、弱小目標(biāo)檢測困難以及易受環(huán)境影響等問題。因此,為獲得更為精確的目標(biāo)檢測和識(shí)別率,光電偵查系統(tǒng)往往采用多光(如可見光和紅外等)架構(gòu),或借助激光或毫米波雷達(dá)的信息對(duì)目標(biāo)識(shí)別進(jìn)行輔助判別。多源信息融合可以對(duì)同一目標(biāo)進(jìn)行全面詳盡的描述,異源信息可以提高互補(bǔ)性,增加對(duì)圖像理解的可靠性,但這也極大地增加了系統(tǒng)的復(fù)雜度。
目前,基于多源信息融合的目標(biāo)檢測方法受到研究人員越來越多的關(guān)注,其更多地應(yīng)用在自動(dòng)駕駛和光電監(jiān)測等領(lǐng)域。卡耐基梅隆大學(xué)的Urmson等人[4]在自動(dòng)駕駛的研究中,提出使用激光雷達(dá)和彩色圖像信息融合的目標(biāo)檢測方法,實(shí)現(xiàn)車輛周圍環(huán)境的快速感知。
SAIC公司推出了一款光電與雷達(dá)融合監(jiān)控系統(tǒng)[5]。該系統(tǒng)用于地空、海洋、陸地或者岸基警戒等安全領(lǐng)域,可將光電與雷達(dá)的數(shù)據(jù)進(jìn)行軟件集成,使用導(dǎo)航雷達(dá)探測目標(biāo)后,自動(dòng)引導(dǎo)光電調(diào)整到位進(jìn)行目標(biāo)進(jìn)一步識(shí)別。Karpathy等人[6]開展了基于紅外和可見光圖像數(shù)據(jù)源融合的行人和車輛目標(biāo)檢測方法的研究,提出了基于孿生深度卷積神經(jīng)網(wǎng)絡(luò),在不同融合機(jī)制下,很好地實(shí)現(xiàn)了目標(biāo)檢測和分類。Zhang等人[7]根據(jù)監(jiān)視臺(tái)站長期積累的可見光圖像和紅外圖像,建立了相關(guān)多光譜的數(shù)據(jù)集,利用Matlab的深度學(xué)習(xí)組件對(duì)雙光譜的艦船圖像進(jìn)行了訓(xùn)練,并且在可見光圖像無法獲取目標(biāo)時(shí),利用紅外光譜圖像對(duì)目標(biāo)進(jìn)行識(shí)別。上海大學(xué)的奚玉鼎等人提出一種紅外、可見光以及雷達(dá)融合探測的低、慢、小目標(biāo)識(shí)別系統(tǒng),系統(tǒng)可針對(duì)?;桶痘膽?yīng)用進(jìn)行調(diào)整,信息處理系統(tǒng)可以將雷達(dá)、紅外及可見光圖像進(jìn)行融合,實(shí)現(xiàn)目標(biāo)的融合判決。國防科技大學(xué)的項(xiàng)目[8]提出以激光雷達(dá)和可見光立體視覺為基礎(chǔ),基于深度學(xué)習(xí)的方法,實(shí)現(xiàn)障礙物識(shí)別以及行人和車輛感知。雖然采用多光譜相機(jī)或者加裝雷達(dá)和激光等設(shè)備后,光電監(jiān)視系統(tǒng)對(duì)目標(biāo)特性的檢測能力大大增強(qiáng),尤其在距離信息與速度信息提取方面更具有優(yōu)勢,但是這將大大增加系統(tǒng)的成本,同時(shí),存在系統(tǒng)待處理數(shù)據(jù)量過大的情況,這也對(duì)信息處理硬件的處理能力提出了很高的要求。
本文提出一種基于Dezert-Smarandache(D-S)信息融合理論的目標(biāo)識(shí)別方法。該方法采用了準(zhǔn)確率較高且可以在移動(dòng)硬件端部署的輕量級(jí)網(wǎng)絡(luò)——MobileNet+SSD的卷積神經(jīng)網(wǎng)絡(luò)作為圖像信息的依據(jù)。在該網(wǎng)絡(luò)中,通過密集鏈接實(shí)現(xiàn)特征層的快速增廣,有效降低了模型的參數(shù)數(shù)據(jù)量,實(shí)現(xiàn)了模型的輕量化。該方法借助光電伺服系統(tǒng)提供的目標(biāo)空間特征,獲取目標(biāo)的空地位置、角速度及速度等信息,最終采用Dezert-Smarandache理論對(duì)識(shí)別結(jié)果進(jìn)行融合判決,實(shí)現(xiàn)對(duì)目標(biāo)類型(人、車、船及飛機(jī))的檢測和分類。
目前,移動(dòng)設(shè)備端的計(jì)算能力很難滿足當(dāng)前表現(xiàn)較好的目標(biāo)檢測網(wǎng)絡(luò)對(duì)計(jì)算能力的需求,因此需要對(duì)網(wǎng)絡(luò)進(jìn)行結(jié)構(gòu)剪枝和參數(shù)蒸餾等操作。MobileNet+SSD系列卷積神經(jīng)網(wǎng)絡(luò)是一種新結(jié)構(gòu)的輕量型目標(biāo)檢測網(wǎng)絡(luò)[9],可以在保持較高檢測準(zhǔn)確率的情況下,有效減少網(wǎng)絡(luò)中的參數(shù)量與計(jì)算量。因此本文選取MobileNetV2網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)并進(jìn)行適當(dāng)改進(jìn)。相較于MobileNetV1網(wǎng)絡(luò),MobileNetV2網(wǎng)絡(luò)引入了線性瓶頸(Linear Bottlenecks)和 反 向 殘 差 塊(Inverted Residual block)。在網(wǎng)絡(luò)輸出維度較小層后,線性瓶頸只采用線性激活函數(shù)而非ReLu非線性激活函數(shù),這種改進(jìn)降低了使用ReLu非線性激活函數(shù)造成的信息損失。反向殘差塊的設(shè)計(jì)采用了先升維、后降維的結(jié)構(gòu),與傳統(tǒng)的殘差塊先降維、后升維的結(jié)構(gòu)相反。反向殘差的結(jié)構(gòu)可以解決訓(xùn)練時(shí)隨著網(wǎng)絡(luò)深度增加而出現(xiàn)的梯度消失問題,使得反向傳播過程中深度網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)也能得到梯度,使得淺層網(wǎng)絡(luò)的參數(shù)也可被訓(xùn)練,從而增加了特征表達(dá)能力。MobilenetV2的瓶頸結(jié)構(gòu)如圖1所示。
圖1 MobilenetV2瓶頸圖
瓶頸層中圖像參數(shù)的輸入與輸出情況如表1所示。其中,k和k′分別是瓶頸層輸入和輸出圖像的通道數(shù);h和w分別是輸入圖像的高度和寬度,t是擴(kuò)張系數(shù);s是步長。
表1 MobilenetV2瓶頸層的輸入輸出
瓶頸的設(shè)計(jì)還采用了反向殘差塊的整體結(jié)構(gòu)模式,特征圖在計(jì)算中采用先升維、后降維的策略。本文采用的瓶頸結(jié)構(gòu)如圖2所示。與原網(wǎng)絡(luò)不同的是,借鑒在s=1時(shí)的殘差連接結(jié)構(gòu),在輸出特征圖大小一致的瓶頸之間采用圖像拼接代替殘差連接。實(shí)驗(yàn)證明,這樣的結(jié)構(gòu)可以借助特征復(fù)用來提升信息和梯度在網(wǎng)絡(luò)中的傳輸效率。盡管特征圖拼接會(huì)造成瓶頸輸出通道數(shù)的快速增加,從而導(dǎo)致網(wǎng)絡(luò)參數(shù)和計(jì)算量的增加,但通過適當(dāng)降低瓶頸的擴(kuò)張系數(shù)t,可以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)規(guī)模的控制。
圖2 本文的瓶頸結(jié)構(gòu)
在網(wǎng)絡(luò)設(shè)計(jì)方面,本文將Dense-Net的密集連接應(yīng)用于MobileNetV2+SSD的網(wǎng)絡(luò)中。本文的特征提取網(wǎng)絡(luò)MobileNetV2沒有采用多個(gè)輸出通道堆疊的方式,而是對(duì)瓶頸的輸出通道數(shù)進(jìn)行放大,最終實(shí)現(xiàn)通道的增長。結(jié)構(gòu)中首先堆疊數(shù)個(gè)步長為1的瓶頸,并采用密集連接對(duì)輸出通道進(jìn)行拼接,以提高網(wǎng)絡(luò)通道數(shù)量。同時(shí),為了保證網(wǎng)絡(luò)的復(fù)雜度與特征提取能力,使用了t=1、s=1的瓶頸和t=1、s=1的瓶頸的組合來完成輸出通道數(shù)縮小。改進(jìn)的MobileNetV2+SSD網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。
在MobileNet特征提取網(wǎng)絡(luò)中,瓶頸結(jié)構(gòu)的拼接在一定程度上可以代替或者部分代替擴(kuò)張系數(shù)對(duì)于通道數(shù)的擴(kuò)張作用。本網(wǎng)絡(luò)在卷積層較深的位置采用了較小的擴(kuò)張系數(shù),如第13、14、17及16個(gè)bottleneck部分。
圖3 改進(jìn)的MobileNet+SSD網(wǎng)絡(luò)結(jié)構(gòu)
瓶頸參數(shù)的計(jì)算方法為:
式中:p為網(wǎng)絡(luò)參數(shù)數(shù)量;t為擴(kuò)張系數(shù);Cin為圖像通道數(shù);Cout為輸出通道數(shù)。
MobileNet網(wǎng)絡(luò)結(jié)構(gòu)中,關(guān)鍵特征提取層對(duì)應(yīng)的輸入輸出參數(shù)和計(jì)算量如表2所示。改進(jìn)網(wǎng)絡(luò)的參數(shù)量為245 864個(gè),較之前的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量減少約17%,計(jì)算量減少了約13%。網(wǎng)絡(luò)結(jié)構(gòu)經(jīng)過改進(jìn)后,計(jì)算量與參數(shù)量都有明顯的降低。參數(shù)與計(jì)算量減少的原因?yàn)椋涸谠W(wǎng)絡(luò)中s=2的瓶頸會(huì)對(duì)輸出的通道數(shù)進(jìn)行放大,這些輸入經(jīng)過多層傳遞后必然會(huì)產(chǎn)生更多的計(jì)算量。而拼接結(jié)構(gòu)s=2的瓶頸的輸出通道數(shù)較少,即這些瓶頸內(nèi)的參數(shù)與計(jì)算量也較少。通過拼接的方式不會(huì)進(jìn)行多余的計(jì)算。
MobileNetV2+SSD網(wǎng)絡(luò)結(jié)構(gòu)共有29層網(wǎng)絡(luò)結(jié)構(gòu)。其中,MobileNetV2特征提取網(wǎng)絡(luò)有17層,其余12層由17層網(wǎng)絡(luò)衍生而成,其作用是為SSD提供不同尺度的特征圖。本文沿用了SSD的基礎(chǔ)結(jié)構(gòu),未對(duì)其進(jìn)行改進(jìn)。
表2 MobileNet網(wǎng)絡(luò)部分計(jì)算參數(shù)以及計(jì)算量
基于伺服信息的目標(biāo)組分類是通過光學(xué)倉伺服控制系統(tǒng)的陀螺和GPS提供的轉(zhuǎn)臺(tái)的方位角度、俯仰角度、相應(yīng)的角速度以及位置信息來判斷目標(biāo)的大致類型。由伺服提供的信息和圖像信息,雖然不需要伺服信息和圖像在時(shí)間上進(jìn)行融合,但是需要傳感器和伺服系統(tǒng)在時(shí)間上的同步輸出數(shù)據(jù)。根據(jù)伺服系統(tǒng)陀螺儀工作手冊(cè),其采樣頻率為1 000 Hz,圖像傳感器的采樣頻率為25 Hz。以采樣速率慢的傳感器為基準(zhǔn)向下兼容,在第40 ms、80 ms、120 ms等時(shí)間節(jié)點(diǎn),在伺服和相機(jī)報(bào)文刷新時(shí),進(jìn)行信息采集和融合工作。其時(shí)間同步如圖4所示。
圖4 伺服和相機(jī)時(shí)間同步示意圖
基于伺服信息的目標(biāo)識(shí)別流程如圖5所示。首先,根據(jù)伺服的GPS信息判斷系統(tǒng)的安裝位置和安裝高度;其次,通過俯仰信息判斷得到觀測物體的大致俯仰陀螺的方位信息(光軸的指向),判斷其為地面物體還是空中物體;最后,通過方位陀螺的角速度信息近似判斷物體的速度。最終形成地面低速、地面高速、空中低速以及空中高速4大類物體特征。
多源信息目標(biāo)智能判決技術(shù)主要通過對(duì)圖像識(shí)別結(jié)果和伺服轉(zhuǎn)臺(tái)信息進(jìn)行融合判決的形式對(duì)目標(biāo)進(jìn)行判別,篩選那些判別概率最大的結(jié)果。由于低、慢、小目標(biāo)輻射噪聲的多源信息是在光電探測器和伺服信息在不同機(jī)制下獲取的,多源信息之間配準(zhǔn)困難,因此,本文采用D-S證據(jù)理論的目標(biāo)融合驗(yàn)證方法,如圖6所示。
根據(jù)D-S判決理論[10],將判決的光電伺服跟蹤目標(biāo)種類的所有可能結(jié)果通過識(shí)別框架Θ進(jìn)行表示,且Θ中的元素是互不相融的,Θ中所有子集為2Θ。定義Θ上的函數(shù)m:2Θ→[0,1]滿足:
式中:m(A)為A的基本概率賦值,表示對(duì)識(shí)別結(jié)果A的信任度。空集的信任度為0,識(shí)別結(jié)果信任度之和為1。
在識(shí)別結(jié)果中存在子集A滿足m(A)>0,則稱A為識(shí)別結(jié)果的一個(gè)焦元。定義識(shí)別框架Θ上的置信函數(shù)為B,函數(shù)可以表示為:
識(shí)別結(jié)果的合成規(guī)則為:將多個(gè)組識(shí)別結(jié)果轉(zhuǎn)化為一個(gè)融合的識(shí)別結(jié)論,從而實(shí)現(xiàn)多識(shí)別結(jié)果的融合。即可以通過求解同一焦元的子集基本概率賦值的正交和,求得該焦元的合成概率指派:
圖5 基于伺服信息的目標(biāo)識(shí)別流程
圖6 D-S目標(biāo)信息判決理論智能判決技術(shù)
融合判決對(duì)基于伺服信息的判斷設(shè)定為:當(dāng)判定地面低速目標(biāo)時(shí),該焦元的基本概率賦值設(shè)定為0.7,地面高速目標(biāo)的概率賦值設(shè)定為0.3,其他焦元設(shè)定為0,其他情況同理。
本文的實(shí)驗(yàn)環(huán)境為Linux Ubuntu 18.04系統(tǒng),核心處理器為Intel i7 9700,內(nèi)存為16 GB,圖形計(jì)算單元為 GTX 1080 Ti,采用 PyTorch1.2,Cuda10.0,Cudnn7.5,用的數(shù)據(jù)集為COCO 2012數(shù)據(jù)集中人、車、船、飛機(jī)部分?jǐn)?shù)據(jù)以及自主采集數(shù)據(jù),網(wǎng)絡(luò)訓(xùn)練選擇人、車、船及飛機(jī)的圖像各2 000張,測試圖像各200張。
測試的loss曲線如圖7所示。從圖7可以看出,loss曲線在訓(xùn)練最初下降速度較快,而后loss值變化趨于平緩。改進(jìn)后,loss平穩(wěn)后的值與原始網(wǎng)絡(luò)相近,說明在對(duì)原始網(wǎng)絡(luò)的規(guī)模進(jìn)行縮減時(shí)并沒有使網(wǎng)絡(luò)的訓(xùn)練變得困難。
圖7 loss曲線
網(wǎng)絡(luò)在測試集上的準(zhǔn)確率變化如圖8所示。從圖8以看出,在測試集上,改進(jìn)網(wǎng)絡(luò)和原始MobileNetV2網(wǎng)絡(luò)在典型圖像場景檢測任務(wù)方面都有著較高的準(zhǔn)確率。其總體趨勢為:交并比(IoU)越高,召回越低,并且在整個(gè)訓(xùn)練測試中,改進(jìn)網(wǎng)絡(luò)的表現(xiàn)優(yōu)于原始的MobileNetv2網(wǎng)絡(luò)。例如,在召回率為0.8時(shí),改進(jìn)網(wǎng)絡(luò)的IoU提高了約5%。
圖8 網(wǎng)絡(luò)在測試集的準(zhǔn)確率變化曲線
根據(jù)D-S證據(jù)理論對(duì)外場試驗(yàn)采集的圖像進(jìn)行檢測并和伺服參數(shù)進(jìn)行融合判決。僅取圖像檢測時(shí)4個(gè)結(jié)果的可能性作為4個(gè)焦元,并將圖像檢測和根據(jù)伺服參數(shù)估計(jì)的結(jié)果作為證據(jù)信息融合圖像檢測結(jié)果,如圖9所示。其中,對(duì)圖像9(a)的判決結(jié)果如表3所示。針對(duì)圖9(b)基于D-S信息融合的伺服空間和圖像信息融合結(jié)果如表3所示??梢钥吹剑瑑H僅依靠圖像信息,汽車的檢測的置信度僅為38%,而飛機(jī)的置信度為44%,出現(xiàn)了明顯的判讀誤差。但是根據(jù)轉(zhuǎn)臺(tái)提供的空間信息對(duì)汽車判別,根據(jù)式(4)進(jìn)行融合判決時(shí),可以看到檢測目標(biāo)的識(shí)別種類為汽車,檢測置信度上升到81%,極大地提高了檢測的準(zhǔn)確率。
圖9 圖像融合檢測結(jié)果
表3 基于D-S信息融合的伺服空間和圖像信息融合結(jié)果
本文提出了一種基于圖像識(shí)別信息與伺服系統(tǒng)提供的空間信息相融合的目標(biāo)檢測和識(shí)別算法。該技術(shù)的圖像識(shí)別算法采用了改進(jìn)的MobileNetV2+SSD圖像檢測算法,圖像檢測較原MobileNet+SSD網(wǎng)絡(luò)計(jì)算量降低12%左右,檢測精度最高能達(dá)到81%。信息融合采用D-S信息融合方法,對(duì)弱小目標(biāo)的判別準(zhǔn)確率可以達(dá)到70%,較之前提高21.5%,尤其針對(duì)圖像網(wǎng)絡(luò)難以識(shí)別的小目標(biāo),檢測準(zhǔn)確率提高明顯。