王磊 陳越超 王青翠 王方勇
(第七一五研究所,杭州,310023)
海洋信道具有時(shí)空變化,平臺亦有自噪聲干擾,加上強(qiáng)烈的混響以及海洋中大量且復(fù)雜的雜波干擾,使得水下主動(dòng)目標(biāo)識別十分困難。傳統(tǒng)的識別處理方法多從特征提取入手,但不可避免地會(huì)丟失一部分關(guān)鍵信息,影響識別正確率。上世紀(jì)已經(jīng)有眾多專家學(xué)者開始將機(jī)器學(xué)習(xí)以及一些淺層神經(jīng)網(wǎng)絡(luò)應(yīng)用于水下目標(biāo)識別中來,如支持向量機(jī)(Support Vector Machine,SVM)、K-最近鄰算法(K-Nearest Neighbor,KNN)[1]和BP(BackPropagation)神經(jīng)網(wǎng)絡(luò)等,且在被動(dòng)檢測與識別處理方面應(yīng)用較多[2-3]。一般的處理多為先人工提取一部分特征,之后輸入機(jī)器學(xué)習(xí)分類器,可被總結(jié)為特征提取、特征選擇、設(shè)計(jì)分類器。2006 年Hinton 等人提出了深度學(xué)習(xí)的概念[4],可以解決很多淺層神經(jīng)網(wǎng)絡(luò)所不能解決的復(fù)雜問題,迅速成為了機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn),近年來發(fā)展十分迅速,在計(jì)算機(jī)視覺、醫(yī)療診斷、語音信號處理和文本處理等方面取得了諸多成功[5-6]。在水聲工程領(lǐng)域中,已有眾多學(xué)者將深度學(xué)習(xí)方法引入到水下目標(biāo)的探測與識別中來,并取得了一定的成果[7-8]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種深度前饋神經(jīng)網(wǎng)絡(luò),為深度學(xué)習(xí)領(lǐng)域的核心理論之一,目前在圖片分類、目標(biāo)檢測、目標(biāo)分割等相關(guān)領(lǐng)域應(yīng)用廣泛且較為成功,具有局部連接、權(quán)值共享等優(yōu)點(diǎn),擅長處理圖像信息。發(fā)展至今,研究人員已發(fā)明了多種優(yōu)秀的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如AlexNet[9](Alex Krizhevsky Network)、VGGNet(Visual Geometry Group Network)、ResNet(Residual Network)等。
主動(dòng)聲吶基陣信號經(jīng)過波束形成以及匹配濾波處理后,會(huì)產(chǎn)生方位-距離圖像,圖中混響、雜波的亮點(diǎn)區(qū)域較為分散,目標(biāo)的亮點(diǎn)區(qū)域則能量較為集中,操作員可利用經(jīng)驗(yàn)對其加以區(qū)分判別。本文針對主動(dòng)聲吶圖像中的回波亮點(diǎn)分類問題,研究了基于ResNet 網(wǎng)絡(luò)的主動(dòng)聲吶目標(biāo)回波圖像的亮點(diǎn)分類方法,并利用實(shí)際海試數(shù)據(jù)進(jìn)行了驗(yàn)證,將深度學(xué)習(xí)技術(shù)應(yīng)用于差異性提取,提高了識別系統(tǒng)的智能化水平。
亮點(diǎn)最初是光學(xué)的定義,湯渭霖教授將這一概念引入聲學(xué)領(lǐng)域,建立了主動(dòng)聲吶回波的亮點(diǎn)模型[10]。根據(jù)亮點(diǎn)結(jié)構(gòu)模型,目標(biāo)回波可以看成是多個(gè)亮點(diǎn)回波的迭加,按照線性迭加原理,總的傳遞函數(shù)為
已有國內(nèi)外的實(shí)驗(yàn)測試及理論證明[11-12],潛艇目標(biāo)的亮點(diǎn)主要由3~6個(gè)突出亮點(diǎn)和一些隨機(jī)的背景亮點(diǎn)組成。突出亮點(diǎn)主要包括:艇體表面鏡反射形成的亮點(diǎn),該亮點(diǎn)在正橫方向入射時(shí)強(qiáng)度較大;艇艏部位以及艇艉螺旋槳等位置存在的一些線狀邊緣產(chǎn)生的棱角散射回波亮點(diǎn),亮點(diǎn)強(qiáng)度與入射方位角有關(guān)。
由上述理論可知,目標(biāo)的亮點(diǎn)產(chǎn)生有相應(yīng)的機(jī)理,而混響、雜波的亮點(diǎn)產(chǎn)生則較為隨機(jī),經(jīng)過波束形成、匹配濾波處理后,二者在圖像上會(huì)存在一定的差異性,可為后續(xù)的判別提供相應(yīng)的依據(jù)。
ResNet 網(wǎng)絡(luò)于2015 年被提出[13],具有超深的網(wǎng)絡(luò)結(jié)構(gòu),一般可以突破千層,創(chuàng)造性地提出了殘差(residual)模塊。同時(shí)在訓(xùn)練過程中丟棄了傳統(tǒng)的dropout 方法,使用了批量標(biāo)準(zhǔn)化(Batch Normalization,BN)處理,使得每批數(shù)據(jù)的feature map滿足均值為0、方差為1 的分布規(guī)律,可以加速網(wǎng)絡(luò)的收斂過程并提高訓(xùn)練過程的穩(wěn)定性。殘差模塊可以將靠前若干層的某一層數(shù)據(jù)輸出直接跳過多層引入到后面的數(shù)據(jù)層輸入部分,即后面特征層的內(nèi)容會(huì)有一部分由其前面的某一層線性貢獻(xiàn)。深度卷積殘差網(wǎng)絡(luò)的設(shè)計(jì)是為了克服由于網(wǎng)絡(luò)深度加深而產(chǎn)生的學(xué)習(xí)效率變低與準(zhǔn)確率無法提升的問題。殘差模塊如圖1 所示。
圖1 殘差模塊
該模塊的提出可以解決深度神經(jīng)網(wǎng)絡(luò)中梯度消失問題,設(shè)網(wǎng)絡(luò)的損失函數(shù)為F(X,W),則網(wǎng)絡(luò)的反向傳播的梯度為
設(shè)n 為神經(jīng)網(wǎng)絡(luò)的層數(shù),根據(jù)鏈?zhǔn)椒▌t可以推斷出第i 層的梯度為
可以看出誤差在回傳的過程中,網(wǎng)絡(luò)的梯度在逐漸減小。而殘差結(jié)構(gòu)的引入,如圖1 所示,則輸出層從原來的 F (X ,W )變?yōu)?F (X ,W)+ X,則其梯度變?yōu)?/p>
從上式可以看出,隨著網(wǎng)絡(luò)層數(shù)加深,可以解決梯度消失的問題。
BN(Batch Normalization)在2015 年被提出,廣泛應(yīng)用于深度網(wǎng)絡(luò)的訓(xùn)練中。它可以通過一定的規(guī)范化手段,將神經(jīng)網(wǎng)絡(luò)中任意神經(jīng)元輸入值的分布轉(zhuǎn)化為均值為0、方差為1 的標(biāo)準(zhǔn)正態(tài)分布,避免輸入值過于偏離激活函數(shù)的敏感區(qū)域而造成的梯度消失現(xiàn)象。很明顯這樣可以保持對神經(jīng)網(wǎng)絡(luò)的參數(shù)有較高的調(diào)整效率,從而加速收斂。
設(shè)一批次的輸入值為 φ= {x1,… , xm},調(diào)整過程為
式中,μ、2σ 分別為網(wǎng)絡(luò)在正向傳遞過程中統(tǒng)計(jì)得到的該批次樣本的均值和方差,γ 和β 則在反向傳播的過程中訓(xùn)練得到。
在訓(xùn)練模型的過程中,引入了Adam(Adaptive moment estimation)優(yōu)化器[14],這是一種自適應(yīng)優(yōu)化算法,它結(jié)合了AdaGrad(Adapative Gradient)和RMSProp(Root Mean Square Prop)的優(yōu)點(diǎn),對梯度的一階矩估計(jì)和二階矩估計(jì)綜合考慮,為每一個(gè)參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)學(xué)習(xí)率。
本文利用實(shí)際海洋環(huán)境下的主動(dòng)聲吶試驗(yàn)數(shù)據(jù),對ResNet-34 網(wǎng)絡(luò)模型用于主動(dòng)目標(biāo)回波圖像亮點(diǎn)分類的可行性和效果進(jìn)行了分析。水聽器陣列接收信號經(jīng)波束形成、匹配濾波等時(shí)空處理后,可得到方位-距離的二維能量輸出偽彩圖。淺海環(huán)境下,圖像中不僅含有感興趣的目標(biāo)回波亮點(diǎn),還存在著大量的雜波與混響。本文主要以不同亮點(diǎn)的局部圖像作為輸入,構(gòu)建訓(xùn)練和測試樣本。實(shí)驗(yàn)選取包含目標(biāo)強(qiáng)能量點(diǎn)的圖片區(qū)域作為正樣本(圖2),負(fù)樣本為包含混響、雜波干擾的強(qiáng)能量點(diǎn)和少量的背景圖片(圖3)。樣本分辨率皆為128×128 的三通道圖片,樣本總數(shù)約為1000 張,正負(fù)樣本的比例為1:4,隨機(jī)抽取其中800 張作為訓(xùn)練集,200 張作為驗(yàn)證集,即比例保持在4:1。同時(shí)為了避免訓(xùn)練樣本出現(xiàn)有偏性,抽取時(shí)應(yīng)使兩類樣本保持既定的比例,即隨機(jī)抽出正負(fù)樣本各4/5 組成訓(xùn)練集。
圖2 正樣本
圖3 負(fù)樣本
為了避免過擬合,需要對輸入的數(shù)據(jù)圖像進(jìn)行預(yù)處理并數(shù)據(jù)增強(qiáng)。在進(jìn)行訓(xùn)練前,可以對原始圖片做隨機(jī)裁剪并依概率p=0.5 進(jìn)行隨機(jī)水平翻轉(zhuǎn)來豐富訓(xùn)練集,更好地提取出圖像深層次的特征,提高模型的泛化能力。之后對整體數(shù)據(jù)進(jìn)行歸一化處理,再傳入網(wǎng)絡(luò)的輸入層進(jìn)行訓(xùn)練,可以加速網(wǎng)絡(luò)的收斂過程并減少后續(xù)的運(yùn)算量。
訓(xùn)練中設(shè)置學(xué)習(xí)率為10-5,激活函數(shù)為Relu,采用Adam 優(yōu)化算法,使用交叉熵(Cross Entropy)計(jì)算損失函數(shù),訓(xùn)練的迭代次數(shù)設(shè)為5000 次。
在ResNet-34 網(wǎng)絡(luò)模型中,訓(xùn)練的正向傳入過程為先經(jīng)過一個(gè)卷積層(Conv)與最大池化下采樣層,依次傳入后4 個(gè)layer,每個(gè)layer 層是由多個(gè)卷積層疊加而成。后續(xù)再通過平均池化下采樣以及全連接層處理,最終通過softmax 函數(shù)分類。
表1 ResNet-34 模型參數(shù)
由于需要識別的類型為兩種,所以最終輸出層節(jié)點(diǎn)設(shè)置為2。對第一個(gè)卷積層至最后一個(gè)layer的卷積層特征進(jìn)行可視化,取出每一卷積層的前四個(gè)結(jié)果,可視化結(jié)果依次如圖4 所示。
圖4 特征圖
從圖4 中可以看,出淺層網(wǎng)絡(luò)提取出來的多是紋理和細(xì)節(jié)信息,隨著網(wǎng)絡(luò)層次的加深,圖像的分辨率逐漸降低,可以提取出圖像的最強(qiáng)特征,具有很強(qiáng)的辨別性,即提取的特征更具有代表性。實(shí)驗(yàn)設(shè)置的迭代次數(shù)為5000 次,由圖5 可以看出訓(xùn)練損失逐漸減小,訓(xùn)練2000 次后趨于平緩,逐漸達(dá)到收斂狀態(tài)。圖6 展示了訓(xùn)練5000 次后ResNet-34網(wǎng)絡(luò)的最終輸出層結(jié)果的散點(diǎn)可視化圖,其中的藍(lán)、黃兩種顏色分別表示正負(fù)樣本經(jīng)網(wǎng)絡(luò)處理后的輸出結(jié)果,橫縱坐標(biāo)表示二者的離散程度,為無量綱量。從圖中可以直觀地看出兩種類別具有明顯的可分性。
圖5 訓(xùn)練損失
圖6 卷積殘差網(wǎng)絡(luò)輸出結(jié)果可視化
最終實(shí)驗(yàn)結(jié)果如表2 所示,可以看出ResNet-34網(wǎng)絡(luò)對識別目標(biāo)與混響、雜波圖像具有良好的效果,平均準(zhǔn)確率基本可以達(dá)到90%以上。
表2 識別準(zhǔn)確率
本文針對主動(dòng)聲吶目標(biāo)識別問題,提出基于卷積殘差網(wǎng)絡(luò)的回波圖像亮點(diǎn)分類方法,并利用實(shí)測主動(dòng)聲吶數(shù)據(jù)驗(yàn)證了基于ResNet-34 網(wǎng)絡(luò)進(jìn)行回波圖像亮點(diǎn)分類的可行性,測試結(jié)果表明,ResNet 網(wǎng)絡(luò)可有效學(xué)習(xí)和深度挖掘主動(dòng)聲吶方位-距離圖像中回波、混響和雜波的微弱差異性信息,并實(shí)現(xiàn)較高的分類準(zhǔn)確率。
初步研究結(jié)果表明,深度學(xué)習(xí)方法在主動(dòng)聲吶目標(biāo)識別應(yīng)用中具有較好的應(yīng)用前景,后續(xù)還可通過數(shù)據(jù)積累、優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)等進(jìn)一步提高性能。