盛子旗,霍冠英
(河海大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 常州 213022)
水雷目標(biāo)檢測(cè)對(duì)于排除航道上的危險(xiǎn)、保障戰(zhàn)艦和貨船的安全通行具有特別重要的意義。由于聲波作用距離遠(yuǎn),側(cè)掃聲吶、前視聲吶等各種聲吶設(shè)備是當(dāng)前水雷目標(biāo)探測(cè)主要采用的裝備。側(cè)掃聲吶基于聲學(xué)散射原理來探測(cè)海底地貌和凸起物體[1],接收到的回波經(jīng)過處理后以瀑布圖像的形式顯示,可以獲得海底地貌和障礙物等重要信息。
水雷目標(biāo)的探測(cè)和識(shí)別,當(dāng)前仍然依賴人工對(duì)聲吶獲取的圖像進(jìn)行判讀,效率較低,難以適應(yīng)潛航器大面積智能、快速掃雷的需求。如何實(shí)現(xiàn)水雷目標(biāo)的精確檢測(cè),是亟待解決的難題[2]。水雷目標(biāo)的自動(dòng)檢測(cè)通常分為兩步:第一步首先檢測(cè)出所有可能的疑似水雷目標(biāo),側(cè)掃聲吶圖像分割方法[3-4]能夠區(qū)分目標(biāo)高亮區(qū)、陰影區(qū)和背景混響區(qū),可用于標(biāo)記所有可疑水雷目標(biāo);第二步,對(duì)每個(gè)目標(biāo)進(jìn)行特征提取和判別,判斷其是否屬于水雷目標(biāo)。
在深度學(xué)習(xí)興起之前,傳統(tǒng)的檢測(cè)方法大多使用先驗(yàn)知識(shí)或數(shù)據(jù)驅(qū)動(dòng)的方法來識(shí)別類水雷目標(biāo),通過從目標(biāo)中提取的特征信息與訓(xùn)練數(shù)據(jù)進(jìn)行比較,當(dāng)兩者的相似度非常高時(shí),這些方法可以有較高的精度[5]。Bryner等[6]提出一種形狀先驗(yàn)知識(shí)指導(dǎo)的主動(dòng)輪廓跟蹤方法提取聲吶圖像中的目標(biāo)輪廓進(jìn)而實(shí)現(xiàn)目標(biāo)分割。Raquel等[7]提出一種基于分類的聲吶圖像水底目標(biāo)檢測(cè)系統(tǒng)中最優(yōu)特征級(jí)的設(shè)計(jì)方法,通過對(duì)感興趣區(qū)域的分割完成目標(biāo)高亮及陰影區(qū)域的分割。Cho等[8]嘗試通過多角度水雷目標(biāo)模擬和模板匹配來提高識(shí)別精度。Sawas提出了無先驗(yàn)知識(shí)的局部特征描述子,如采用Haar-like特征[9]識(shí)別水雷。
以上檢測(cè)方法中使用人工提取特征的方式并配合支持向量機(jī)、boosting等不同的分類器[10]進(jìn)行檢測(cè)分類,這樣的方法對(duì)于特定的任務(wù)有較好的性能,但是人工提取特征需要專業(yè)的知識(shí),成本較高且泛化能力有限。當(dāng)訓(xùn)練數(shù)據(jù)不平衡時(shí),必須仔細(xì)地選擇特征并反復(fù)調(diào)整分類器,識(shí)別率很難達(dá)到實(shí)用要求。相較于傳統(tǒng)的識(shí)別方法,深度學(xué)習(xí)在特征提取方面有著突出優(yōu)勢(shì),其通過多層抽象學(xué)習(xí)到目標(biāo)的數(shù)據(jù)表征,從而省去了人工提取特征的麻煩。自深度學(xué)習(xí)方法提出以來,卷積神經(jīng)網(wǎng)絡(luò)在大樣本數(shù)據(jù)集的光學(xué)圖像的目標(biāo)識(shí)別已經(jīng)取得了較大成功[11],然而對(duì)水下小樣本數(shù)據(jù)的水雷等水下目標(biāo)識(shí)別還存在較大問題。由于水下實(shí)驗(yàn)困難、實(shí)驗(yàn)代價(jià)較大,獲取的水雷目標(biāo)樣本嚴(yán)重不足。因此,直接采用小樣本數(shù)據(jù)集對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到的模型存在突出的過擬合問題,泛化能力往往非常差,難以實(shí)際應(yīng)用。
針對(duì)上述水雷目標(biāo)檢測(cè)與識(shí)別中的問題,提出使用樣本仿真的方法來增廣數(shù)據(jù),同時(shí)結(jié)合遷移學(xué)習(xí)的方法來解決水下圖像樣本數(shù)據(jù)不足的問題,并基于深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè),最終通過有效的目標(biāo)檢測(cè)模型實(shí)現(xiàn)側(cè)掃聲吶圖像水雷目標(biāo)的檢測(cè)與識(shí)別,為水雷目標(biāo)檢測(cè)提供有益借鑒。
由于實(shí)驗(yàn)困難和經(jīng)濟(jì)成本等因素,水雷目標(biāo)聲吶圖像獲取困難,難以得到充分的真實(shí)樣本數(shù)據(jù)。因此,我們首先考慮通過仿真計(jì)算的方法建立聲吶模型,對(duì)水雷目標(biāo)進(jìn)行仿真,以增廣樣本數(shù)據(jù)集。水下目標(biāo)受距離和高度的影響,在圖像上占像素點(diǎn)的面積不同,通過對(duì)不同高度和距離下的目標(biāo)進(jìn)行仿真,可以增廣出一組高度和距離均不同的目標(biāo)圖像。同時(shí),由于水下聲吶成像時(shí)受到海底混響的影響,我們要在模型中加入背景混響模型,從而增廣出含有不同背景混響的水雷目標(biāo)聲吶圖像,以此提升仿真數(shù)據(jù)對(duì)不同混響背景下目標(biāo)檢測(cè)的魯棒性。
聲吶圖像是目標(biāo)回波的強(qiáng)度圖像,一般亮色代表回波強(qiáng),暗色代表回波弱,被遮擋區(qū)域不產(chǎn)生回波,因此仿真的樣本最終也以灰度圖像形式輸出。
水雷目標(biāo)的幾何形態(tài)較為簡單、規(guī)則,因此對(duì)水雷目標(biāo)的仿真可以設(shè)計(jì)出準(zhǔn)確的仿真模型,通過目標(biāo)陰影生成仿真計(jì)算得到水雷目標(biāo)圖像的亮區(qū)與暗區(qū),并經(jīng)過背景模擬與灰度調(diào)整得到最終的水雷目標(biāo)仿真圖。
設(shè)聲吶點(diǎn)為P,距離海底高度為H,θ1與 θ2分別為聲吶點(diǎn)到目標(biāo)的切線夾角,則ACB部分為回波區(qū)(亮區(qū)),AFE部分為目標(biāo)暗區(qū),其余部分則構(gòu)成海底背景區(qū)域。目標(biāo)陰影生成仿真原理如圖1所示。通過均勻采樣若干個(gè)橫截面進(jìn)行計(jì)算并 繪制,最后可得到整個(gè)水雷目標(biāo)的亮暗區(qū)圖像。
圖 1 目標(biāo)陰影生成仿真原理Fig. 1 Simulation schematic diagram of shadow generation of target
亮區(qū)兩側(cè)的坐標(biāo)表達(dá)式如下:
暗區(qū)兩側(cè)的坐標(biāo)表達(dá)式如下:
式(1)中,p,q為聲吶點(diǎn)坐標(biāo);a,b為模擬目標(biāo)橫截面中心;r為模擬目標(biāo)半徑;式(2)中當(dāng)y=0時(shí)即可得到目標(biāo)暗區(qū)部分范圍。
海底的不平整性和底質(zhì)的非均勻性會(huì)產(chǎn)生海底混響,它是一個(gè)無規(guī)則的隨機(jī)過程,導(dǎo)致聲吶圖像背景噪聲較強(qiáng)。研究表明,聲吶圖像的海底混響背景的灰度級(jí)服從Weibull分布,通過對(duì)Weibull模型中參數(shù)取值不同可以得到多種不同的背景分布,如式(3)所示:
式中:x是隨機(jī)變量,λ>0 是比例參數(shù),k>0 是形狀參數(shù)。
通過對(duì)Weibull分布模型的自由度參數(shù)進(jìn)行不同取值,得到不同強(qiáng)度的背景混響。部分水雷目標(biāo)圖像的仿真結(jié)果如圖2所示。
圖 2 水雷目標(biāo)樣本仿真結(jié)果Fig. 2 Mine sample simulation results
Faster R-CNN是“Fast R-CNN+RPN”的系統(tǒng)[12],基本結(jié)構(gòu)如圖3所示,是一種交替優(yōu)化網(wǎng)絡(luò),可以使兩個(gè)卷積網(wǎng)絡(luò)實(shí)現(xiàn)共享,通過兩個(gè)訓(xùn)練網(wǎng)絡(luò)相互協(xié)調(diào)來對(duì)目標(biāo)進(jìn)行檢測(cè)。Faster R-CNN拋棄了傳統(tǒng)的滑動(dòng)窗口和SS方法(selective search),直接使用RPN生成候選框。RPN網(wǎng)絡(luò)能夠從輸入的特征圖產(chǎn)生前景候選框和前景框的位置偏移,并且也能加快生成候選框的速度。Fast R-CNN主要負(fù)責(zé)邊框回歸及分類,與RPN的特征共享有效提高了檢測(cè)精度和檢測(cè)效率。
YOLOv3是YOLO系列第三版,是基于回歸的深度卷積神經(jīng)網(wǎng)絡(luò)[13],其模型結(jié)構(gòu)如圖4所示。YOLOv3速度快,并且能發(fā)揮多核處理器和GPU并行運(yùn)算的功能。除此以外,YOLOv3會(huì)對(duì)圖像的全局區(qū)域進(jìn)行訓(xùn)練,能夠更好地區(qū)分目標(biāo)和背景,因此在中小尺寸的目標(biāo)檢測(cè)上準(zhǔn)確率較高。YOLOv3的主干網(wǎng)絡(luò)由全連接卷積層構(gòu)成,采用多標(biāo)簽的方式替代了之前的softmax單標(biāo)簽方式。YOLOv3同時(shí)具有多尺度檢測(cè)的優(yōu)勢(shì),在3種不同的特征尺度上進(jìn)行檢測(cè)可以適應(yīng)更多的檢測(cè)識(shí)別任務(wù)。
圖 3 Faster R-CNN模型結(jié)構(gòu)Fig. 3 Structure of the Faster R-CNN model
SSD是一種單階段的物體檢測(cè)算法[14],其模型結(jié)構(gòu)如圖5所示。SSD的核心設(shè)計(jì)理念是采用多尺度特征圖做預(yù)測(cè),并通過卷積或池化降低特征圖大小,使用較大的特征圖來檢測(cè)較小的目標(biāo),相反較小的特征圖用于檢測(cè)較大的目標(biāo)。SSD具有回歸功能,通過卷積在不同的特征圖上提取檢測(cè)結(jié)果。SSD還借鑒了Faster R-CNN中錨點(diǎn)的理念,通過尺度及長寬比各不相同的先驗(yàn)框來生成預(yù)測(cè)的邊界框,一定程度上減少了訓(xùn)練難度。
研究表明,F(xiàn)aster R-CNN、SSD和YOLOv3這3種方法在檢測(cè)速度和精度上都有較好的表現(xiàn),因此文中使用這3種方式進(jìn)行水雷目標(biāo)檢測(cè)并對(duì)比檢測(cè)結(jié)果。
圖 4 YOLOv3模型結(jié)構(gòu)Fig. 4 Structure of the YOLOv3 model
圖 5 SSD模型結(jié)構(gòu)Fig. 5 Structure of the SSD model
深度學(xué)習(xí)通常需要數(shù)千張樣本數(shù)據(jù),預(yù)訓(xùn)練配合參數(shù)調(diào)整是目前深度學(xué)習(xí)中主要的參數(shù)學(xué)習(xí)方式[15],通常會(huì)采用廣源域數(shù)據(jù)集ImageNet對(duì)模型進(jìn)行預(yù)訓(xùn)練以初始化模型參數(shù)。在樣本數(shù)據(jù)較少的情況下我們可以采用遷移學(xué)習(xí)的方式將知識(shí)從源域轉(zhuǎn)移到目標(biāo)域以此來克服數(shù)據(jù)不足的困難,文中所使用的結(jié)合樣本仿真的遷移學(xué)習(xí)過程如圖6所示。
圖 6 遷移學(xué)習(xí)過程Fig. 6 Process of transfer learning
根據(jù)源域和目標(biāo)域之間的關(guān)系,遷移學(xué)習(xí)方法可以分為四大類[16]:基于實(shí)例的遷移、基于特征的遷移、基于參數(shù)/模型的遷移和基于關(guān)系的遷移?;谀P偷纳疃冗w移學(xué)習(xí)是最普遍的一種,大量研究表明,從源域中的大型基準(zhǔn)數(shù)據(jù)集中學(xué)習(xí)的預(yù)訓(xùn)練模型比直接遷移學(xué)習(xí)更有效[17-18],原因是基于模型的深度遷移學(xué)習(xí)的一大優(yōu)勢(shì)是深層網(wǎng)絡(luò)的中低級(jí)特征對(duì)不同的任務(wù)是通用的[19]。
為了彌補(bǔ)樣本數(shù)量的不足及提高圖像檢測(cè)的精度,使用遷移學(xué)習(xí)的方式將仿真數(shù)據(jù)作為樣本數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以此實(shí)現(xiàn)對(duì)真實(shí)數(shù)據(jù)的檢測(cè)與識(shí)別。
具體的訓(xùn)練步驟如下:
1)使用ImageNet數(shù)據(jù)集對(duì)VGG16、Darknet53進(jìn)行預(yù)訓(xùn)練,以得到一個(gè)較合理的初始參數(shù)。經(jīng)過預(yù)訓(xùn)練的網(wǎng)絡(luò)對(duì)圖像的邊緣、紋理等底層信息敏感,具備對(duì)圖像特征的表達(dá)能力。因?yàn)榫W(wǎng)絡(luò)的底層卷積提取的中低級(jí)特征對(duì)不同的任務(wù)通用,所以可使用大數(shù)據(jù)集來預(yù)訓(xùn)練網(wǎng)絡(luò)。
2)將通過仿真獲取的樣本數(shù)據(jù)集對(duì)步驟1)中預(yù)訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行更深一步的訓(xùn)練,因?yàn)轭A(yù)訓(xùn)練模型對(duì)低層特征的能力較強(qiáng),可以固定底層卷積的參數(shù),將高層卷積部分繼續(xù)訓(xùn)練,經(jīng)過微調(diào)可以較快達(dá)到最優(yōu)值。
3)訓(xùn)練完成后對(duì)網(wǎng)絡(luò)的檢測(cè)效果進(jìn)行測(cè)試,使用真實(shí)的聲吶樣本進(jìn)行檢測(cè)與識(shí)別,比較不同方法在訓(xùn)練時(shí)間、平均精度以及查準(zhǔn)率和查全率上的區(qū)別。如果準(zhǔn)確率能夠達(dá)到識(shí)別任務(wù)的要求,則可以將訓(xùn)練好的網(wǎng)絡(luò)用于該應(yīng)用中。
首先采用樣本仿真方法得到1 000個(gè)目標(biāo)仿真圖像,仿真的水雷目標(biāo)為球狀、柱狀兩種形狀類型,背景假定為平坦的海底;然后加入真實(shí)的水雷目標(biāo)聲吶圖像200張;利用圖像標(biāo)注工具labelImg手動(dòng)標(biāo)注水雷目標(biāo)并以xml格式保存。從數(shù)據(jù)集中隨機(jī)選取200張,總共標(biāo)注473個(gè)樣本,作為交叉驗(yàn)證集;剩余的1 000張總共標(biāo)注2 342個(gè)樣本作為訓(xùn)練集。柱狀水雷目標(biāo)的類別設(shè)置為mine0,球狀水雷目標(biāo)的類別設(shè)置為mine1。
用真實(shí)的聲吶圖像對(duì)訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行檢測(cè),一方面驗(yàn)證遷移學(xué)習(xí)的可行性,另一方面對(duì)三種網(wǎng)絡(luò)的檢測(cè)結(jié)果進(jìn)行無偏估計(jì)。為驗(yàn)證所提出方法的有效性,同時(shí)使用樣本仿真訓(xùn)練數(shù)據(jù)和遷移學(xué)習(xí)。
將訓(xùn)練數(shù)據(jù)集送入卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,首先由輸入層輸入訓(xùn)練數(shù)據(jù),經(jīng)過多層卷積后得到深層次的特征圖;然后通過激活函數(shù)加入非線性因素;再通過池化層壓縮得到的特征圖,以突出主要的特征并減少檢測(cè)模型的計(jì)算量;最后通過全連接層連接所有特征,并輸出到分類器中進(jìn)行分類。圖7為YOLOv3算法流程的總體框圖。
訓(xùn)練檢測(cè)模型與檢測(cè)水雷目標(biāo)時(shí)的參數(shù)設(shè)置和訓(xùn)練時(shí)長見表1,不同方法檢測(cè)的mAP結(jié)果見表2。
網(wǎng)絡(luò)在檢測(cè)結(jié)果輸出前根據(jù)設(shè)定的閾值判斷是正樣本還是偽樣本,結(jié)果小于閾值的目標(biāo)丟棄,結(jié)果大于閾值的目標(biāo)則保留。表1中的閾值為多次訓(xùn)練與檢測(cè)后根據(jù)結(jié)果選取的最優(yōu)值。
使用基于Haar-like特征的Adaboost水下目標(biāo)檢測(cè)方法對(duì)側(cè)掃聲吶圖像水雷目標(biāo)數(shù)據(jù)集中檢測(cè)準(zhǔn)確率為79%,這說明傳統(tǒng)的特征提取方法對(duì)于噪聲較強(qiáng)的水下目標(biāo)檢測(cè)的魯棒性較差。使用Faster R-CNN和YOLOv3兩種目標(biāo)檢測(cè)方法的準(zhǔn)確率均比該傳統(tǒng)目標(biāo)檢測(cè)方法有顯著提升(準(zhǔn)確率提升了約12%)。YOLOv3由于深度和結(jié)構(gòu)不同,并且大量使用了殘差的跳層鏈接,很大程度上加快了訓(xùn)練與檢測(cè)的速度。Faster R-CNN網(wǎng)絡(luò)相對(duì)YOLOv3來說耗時(shí)稍長,但準(zhǔn)確率相近。SSD網(wǎng)絡(luò)的檢測(cè)效果并不理想,原因是其訓(xùn)練網(wǎng)絡(luò)的深度不夠,無法有效地提取到樣本中的關(guān)鍵信息。
圖 7 YOLOv3算法流程框圖Fig. 7 Block diagram of YOLOv3
表 1 網(wǎng)絡(luò)訓(xùn)練與檢測(cè)參數(shù)、時(shí)間Table 1 Network training and detection parameters, time
表 2 不同方法水雷圖像測(cè)試集檢測(cè)mAP結(jié)果Table 2 Detection of mAP results from underwater mine image test set by different methods
圖8和圖9分別為YOLOv3網(wǎng)絡(luò)和Faster RCNN網(wǎng)絡(luò)在不同測(cè)試數(shù)據(jù)下的最終檢測(cè)結(jié)果:圖8(a)和圖9(a)是僅使用真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練和檢測(cè)的效果,圖8(b)和圖9(b)則是結(jié)合了真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)進(jìn)行訓(xùn)練和檢測(cè)的效果。可以看到同時(shí)使用真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)進(jìn)行訓(xùn)練對(duì)檢測(cè)效果的提升比較明顯,即使是在噪聲干擾較大,背景與目標(biāo)邊緣較模糊的條件下,YOLOv3網(wǎng)絡(luò)和Faster RCNN仍然能夠比較準(zhǔn)確地檢測(cè)出水雷目標(biāo)。實(shí)驗(yàn)結(jié)果表明,樣本仿真結(jié)合遷移學(xué)習(xí)的方法能夠有效提升基于深度學(xué)習(xí)的水雷目標(biāo)檢測(cè)準(zhǔn)確率,相比傳統(tǒng)的檢測(cè)方法檢測(cè)效果提升明顯。而且,隨著水雷目標(biāo)的仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)的增多,深度卷積神經(jīng)網(wǎng)絡(luò)具有繼續(xù)提高檢測(cè)精度的優(yōu)勢(shì),對(duì)水雷目標(biāo)檢測(cè)具有重要的意義。
圖 8 YOLOv3檢測(cè)結(jié)果Fig. 8 Detection results of YOLOv3
圖 9 Faster R-CNN檢測(cè)結(jié)果Fig. 9 Detection results of Faster R-CNN
本文實(shí)現(xiàn)了水雷目標(biāo)聲吶圖像仿真,擴(kuò)增了數(shù)據(jù)集,為水下數(shù)據(jù)獲取難度高、成本大的問題提供了一個(gè)切實(shí)可行的解決方案;同時(shí),基于深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取優(yōu)勢(shì),結(jié)合樣本仿真和遷移學(xué)習(xí)提升了深度學(xué)習(xí)的準(zhǔn)確性,避免了深度學(xué)習(xí)對(duì)小樣本學(xué)習(xí)不足的問題。實(shí)驗(yàn)結(jié)果表明,在樣本仿真和遷移學(xué)習(xí)的基礎(chǔ)上,YOLOv3對(duì)水雷目標(biāo)的檢測(cè)精度更高,速度更快。這一實(shí)驗(yàn)結(jié)果為水雷目標(biāo)的檢測(cè)提供了重要的借鑒。本文仿真的水雷形狀規(guī)則,并假設(shè)海底平坦,在面對(duì)復(fù)雜地形環(huán)境和不規(guī)則目標(biāo)的任務(wù)時(shí)有一定的局限性。下一步的工作將繼續(xù)提高仿真模型的復(fù)雜度和適應(yīng)性,同時(shí)考慮其他數(shù)據(jù)生成方式,例如基于生成式對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)生成方式,以進(jìn)一步提升檢測(cè)精度。此外,由于遷移學(xué)習(xí)的本質(zhì)是利用不同任務(wù)之間的相關(guān)性,在預(yù)訓(xùn)練模型的基礎(chǔ)上凍結(jié)部分網(wǎng)絡(luò)并對(duì)參數(shù)做精細(xì)的調(diào)優(yōu),因此,如何結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行更細(xì)致的參數(shù)訓(xùn)練并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行更加深入的調(diào)整,也需要進(jìn)一步深入考慮。