曹懷剛,任群言,郭圣明,馬力
(1.中國科學(xué)院 水聲環(huán)境特性重點實驗室,北京 100190;2.中國科學(xué)院大學(xué),北京 100049)
矢量水聽器由1個聲壓通道和3個具有偶極子指向性的加速度通道組成,單矢量水聽器即可實現(xiàn)聲源的方位估計,具有指向性跟聲源頻率無關(guān)、不存在左右舷模糊的優(yōu)點,同時還可以有效抑制各向同性噪聲的優(yōu)點。近年來基于單矢量水聽器方位估計的研究和應(yīng)用有了很大的進展。Nehorai等[1]提出了2種基于單矢量水聽器的方位估計方法(基于聲強的算法和基于振速協(xié)方差矩陣的算法)并對其方位估計的性能進行了分析。Levin等[2-3]提出了一種基于最大似然估計的單矢量水聽器方位估計方法,并研究了混響環(huán)境下的方位估計性能。梁國龍等[4]結(jié)合矢量水聽器自身陣列流型的特點,將陣列信號處理中的MUSIC算法應(yīng)用到單矢量水聽器上,用單個矢量水聽器實現(xiàn)了窄帶信號和寬帶信號的高分辨方位估計。張維等[5]采用量子粒子群求解聲壓和質(zhì)點振速組成的非線性相關(guān)方程組,實現(xiàn)多目標方位估計。笪良龍等[6]基于海上實驗數(shù)據(jù)分析了平均聲強器和復(fù)聲強器2種方法的方位估計性能。胡承彥等[7]提出了一種利用單矢量水聽器聲壓和加速度互譜的方位估計方法。由于單矢量水聽器的指向性指數(shù)最高為6 dB[8],傳統(tǒng)的基于單矢量水聽器的方位估計方法對信噪比都有較大的依賴。因此,一種能在相干噪聲干擾下實現(xiàn)較高精度的方位估計的方法是目前所急需的。機器學(xué)習(xí)是近年來的研究熱點,其在聲源定位方面表現(xiàn)出了優(yōu)于傳統(tǒng)方法的良好性能。NIU 等[9-10]研究了基于垂直陣的前饋神經(jīng)網(wǎng)絡(luò)、支持向量機和隨機森林3種機器學(xué)習(xí)方法在聲源測距上的性能,并用實驗數(shù)據(jù)進行了驗證。HUANG等[11]將卷積神經(jīng)網(wǎng)絡(luò)的輸出作為前饋神經(jīng)網(wǎng)絡(luò)的輸入,研究了深度神經(jīng)網(wǎng)絡(luò)在垂直陣聲源測距中的性能?;跈C器學(xué)習(xí)的垂直陣水面水下目標分辨、水平陣方位估計等也都取得了一定的進展[12-14]。基于機器學(xué)習(xí)的方法具有比傳統(tǒng)的定位方法更高的定位精度和更好的環(huán)境適應(yīng)能力。本文利用深度學(xué)習(xí)的方法,不依賴實驗數(shù)據(jù),僅利用KRAKEN仿真的矢量聲場數(shù)據(jù)來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型來估計目標方位,以期獲得比傳統(tǒng)方法更高的估計精度。
矢量水聽器能同時共點地測量聲場的聲壓和加速度的3個正交分量,考慮聲場中的1個微分單元,根據(jù)牛頓第二定律可得:
(1)
(2)
(3)
(4)
式中:ax、ay、az分別為加速度a的3個正交分量;α為極角;θ為方位角,是本文方位估計值。
在聲壓和加速度輸入到神經(jīng)網(wǎng)絡(luò)之前需要對其進行預(yù)處理,以便神經(jīng)網(wǎng)絡(luò)可以更有效的提取特征,首先對聲壓和加速度進行歸一化處理:
(5)
圖1 加速度a及其3個正交分量ax、ay、az 的投影圖Fig.1 Acceleration a and projection of three orthogonal components ax, ay and az
其次,將歸一化后的聲壓和加速度進行互譜運算后再進行快拍平均:
(6)
由于本文的深度學(xué)習(xí)方法屬于監(jiān)督學(xué)習(xí),所以在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的時候需要用到標簽(真實方位角),標簽數(shù)據(jù)的預(yù)處理如下:
(7)
式中:tn為第n個采樣點的標簽,d=[1,2,3,…,360];dnr為第n個采樣點的真實角度;σ表示方位角的模糊度范圍,在本文中σ為15。
本文中設(shè)估計值θe和真實值θr之差的絕對值小于10°(|θe-θr|<10°)的估計值為正確的估計結(jié)果,用估計準確率作為方法性能的度量標準之一,估計準確率為:
(8)
式中:NC表示估計正確的估計結(jié)果的個數(shù);N為總的估計結(jié)果數(shù)。
均方根誤差ERMSE為方法性能的度量標準,均方根誤差表示為:
(9)
本文采用的深度神經(jīng)網(wǎng)絡(luò)為卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)整體上由輸入層、隱藏層和輸出層組成,其中隱藏層包括卷積層、激活函數(shù)、池化層和全連接層。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心,卷積的工作原理可以理解為:在三維輸入數(shù)據(jù)上滑動n×n的窗口,在每個可能的位置停止并提取周圍特征的三維數(shù)據(jù)塊。每個三維數(shù)據(jù)塊與學(xué)到的同一個權(quán)重矩陣(卷積核)做向量積,轉(zhuǎn)化為一維的向量。對所有這些向量進行空間重組,使其轉(zhuǎn)化為三維輸出特征數(shù)據(jù)。輸出特征數(shù)據(jù)中的每個空間位置都對應(yīng)于輸入特征數(shù)據(jù)中相同的位置。該卷積層的輸出即為下一個卷積層的輸入。卷積的計算過程為:
(10)
式中:K表示卷積核;I表示滑動窗口提取的數(shù)據(jù);i、j表示數(shù)據(jù)的位置。一般來說,計算機在處理數(shù)據(jù)時,數(shù)據(jù)會被離散化,所以卷積運算由積分變?yōu)殡x散求和。設(shè)最后一個卷積層的輸出為x=[x1,x2,…,xk],卷積層的輸出即為全連接層的輸入,對于全連接層,其計算的過程為:
(11)
式中:s為神經(jīng)元的序數(shù);wsk、ws0為權(quán)重和偏置;as經(jīng)過激活函數(shù)的轉(zhuǎn)化后即可得到該全連接層的輸出bs:
bs=f(as)
(12)
該全連接層的輸出即為下一個全連接層的輸入,并重復(fù)式(11)、(12)的運算,其中激活函數(shù)f(·)采用線性整流函數(shù)(ReLU),其表達式為:
f(x)=max(0,x)
(13)
本文所采用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,卷積層中“3×3”表示卷積核的大小,第3個數(shù)字表示卷積核的個數(shù)(如第1卷積層“3×3×128”中“128”表示該卷積層共有128個卷積核)。由于輸入數(shù)據(jù)的維度較小(3×202),在設(shè)計的神經(jīng)網(wǎng)絡(luò)中并沒有添加池化層。為降低訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)過擬合造成的影響,在卷積層和全連接層之間,全連接層和輸出層之間加入隨機失活層。圖2所示為本文所用卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)全連接層一共有4個,每個全連接層包含2 048個神經(jīng)元。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和學(xué)習(xí)過程主要圍繞以下4個方面:1)由多個層組成網(wǎng)絡(luò)層;2)輸入數(shù)據(jù)和相應(yīng)的目標值;3)損失函數(shù),即用于學(xué)習(xí)的反饋信號;4)決定學(xué)習(xí)過程如何進行的優(yōu)化器。關(guān)系如圖3所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.2 The structure of the CNN
圖3 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練流程Fig.3 The processing diagram for CNN training
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和學(xué)習(xí)過程為通過損失函數(shù)和優(yōu)化器不斷更新權(quán)重使神經(jīng)網(wǎng)絡(luò)的預(yù)測值不斷接近真實目標值的過程。本文采用的訓(xùn)練數(shù)據(jù)為KRAKEN模型仿真的數(shù)據(jù),海洋環(huán)境為典型的淺海波導(dǎo),海底為分層介質(zhì)包括沉積層和基底。仿真的聲源、接收和環(huán)境參數(shù)如表1所示。共仿真輸入數(shù)據(jù)360×25×2×4×6=432 000組,將利用表1中參數(shù)仿真的數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)命名為CNN-3。
本文通過仿真數(shù)據(jù)研究CNN-3在不同信噪比下的方位估計性能。同時引入加權(quán)直方圖法[6,15]來跟CNN-3進行對比。
仿真的環(huán)境參數(shù)如下:在1°~360°等間隔的取100個采樣點,聲源深度為4 m,聲源距離2 km,信號頻段為800~900 Hz,采樣間隔為1 Hz,海深61 m,沉積層厚度為6 m,沉積層聲速為1 600 m/s,沉積層密度為1.6 g/cm3,沉積層衰減為0.3 dB/λ,基底聲速為1 750 m/s,基底密度為1.8 g/cm3,基底衰減為0.3 dB/λ。利用KRAKEN模型仿真聲壓和質(zhì)點加速度,并加入色噪聲,設(shè)置-5、0、5、10和15 dB 5個信噪比,分別利用加權(quán)直方圖法和CNN-3對仿真的帶噪聲數(shù)據(jù)進行方位估計,得到的2種方法在不同信噪比下的估計準確率和均方根誤差如表2所示。
表1 仿真環(huán)境的參數(shù)Table 1 The parameters of simulated environment
由表2的結(jié)果可知,2種方法的方位估計性能隨信噪比的增加而增加,當(dāng)SNR≥10 dB時,2種方法的估計準確率均達到100%,均方根誤差均小于2°。而當(dāng)SNR<10 dB時,CNN-3的方位估計性能要明顯的優(yōu)于加權(quán)直方圖的方法,特別是在SNR=-5 dB時,CNN-3的估計準確率為87%,均方根誤差為6.9°;而加權(quán)直方圖法的估計準確率只有66%,均方根誤差為28.7°。隨著信噪比的增加,兩者的性能差距在逐漸縮小。總體來說,卷積神經(jīng)網(wǎng)絡(luò)(CNN-3)具有良好的方位估計性能,特別是當(dāng)信噪比較低時,其估計結(jié)果依然十分可靠。
表2 加權(quán)直方圖法和CNN-3在不同信噪比下方位估計的準確率和均方根誤差
2018年在中國南海進行了單矢量水聽器的被動方位估計實驗。實驗過程中將船的輻射噪聲作為聲源,聲源船船長60 m,船寬26 m,圍繞矢量潛標逆時針作半徑約為1 km的圓周運動,船速保持在10 kN左右,其運動的航跡如圖4(a)所示,聲源船與矢量潛標的距離隨時間的變化如圖4(b)所示。實驗海區(qū)海深61 m,矢量水聽器以潛標的形式布放在水下44 m的深度。矢量水聽器的采樣率為12 kHz,有效工作頻段為20~3 000 Hz。實驗過程中,矢量水聽器的航向角變化如圖4(c)所示,航向角的變化代表矢量水聽器自身水平方向的轉(zhuǎn)動,從圖中來看其隨時間有較快且幅度較大的抖動,本文中的方位估計結(jié)果都根據(jù)航向角進行了補償。矢量水聽器的各通道時頻圖如圖5所示,分別是聲壓和加速度通道在100~1 000 Hz頻帶內(nèi)的時頻圖。
圖4 實驗過程中聲源和矢量水聽器的主要參數(shù)變化Fig.4 The main parameter changes of source ship and vector sensor during the experimen
實驗海區(qū)距離三亞港口較近,有大量的航船來往,由于遠處航船噪聲的能量主要集中在低頻段(800 Hz以下),但由于其強度較大,對估計近處的目標艦船的方位角有較大的干擾,因此在進行實驗數(shù)據(jù)處理時選擇800~900 Hz的頻段。
將矢量水聽器測得的聲壓和質(zhì)點加速度按式(5)、(6)進行預(yù)處理后輸入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)CNN-3,得到的方位估計結(jié)果如圖6(b)所示,圖6(a)為加權(quán)直方圖法得到的方位估計結(jié)果,其結(jié)果作為深度學(xué)習(xí)法的對照。
將圖6的估計結(jié)果分3段來分析:
1)在0~200 s的時間段內(nèi),圖6(a) 基于加權(quán)直方圖的估計結(jié)果的準確率為29%,均方根誤差為13.3°;圖6(b) 基于CNN-3的估計結(jié)果的準確率為85%,均方根誤差為7.6°。在這個時間段內(nèi)卷積神經(jīng)網(wǎng)絡(luò)的性能要明顯的優(yōu)于加權(quán)直方圖法,但2種方法均存在較大誤差,誤差出現(xiàn)的原因可能是由于在這個時間段內(nèi)有較強的干擾出現(xiàn)。
圖5 矢量水聽器接收航船噪聲信號的時頻Fig.5 The time frequency diagram of ship noise received by a vector sensor
圖6 實驗數(shù)據(jù)的方位估計結(jié)果Fig.6 The azimuth of experimental data estimated
2)在200~400 s的時間段內(nèi),圖6(a)基于加權(quán)直方圖法的估計結(jié)果的準確率為24%,均方根誤差為52.1°;圖6(b) 基于CNN-3的估計結(jié)果的準確率為24%,均方根誤差為22.9°。在這個時間段內(nèi),2種方法的估計準確率都非常低,但結(jié)合圖6和其均方根誤差來看,基于加權(quán)直方圖的估計結(jié)果已經(jīng)嚴重的偏離真實值,而基于CNN-3的估計結(jié)果雖然也有較大的誤差,但沒有嚴重偏離真實值,仍然有一定的參考意義。這一段較大誤差出現(xiàn)的原因為:由圖4(b)可知,在200~400 s的時間段內(nèi)聲源距離增加,聲源距離的增加導(dǎo)致信噪比的下降從而造成了誤差的增大。
3)在400~1 331 s的時間段內(nèi),圖6(a) 基于加權(quán)直方圖的估計結(jié)果準確率為93%,均方根誤差為5.7°;圖6(b) 基于CNN-3的估計結(jié)果的準確率為97%,均方根誤差為4.8°。在這個時間段內(nèi)2種方法都有較好的表現(xiàn),CNN-3的估計結(jié)果略好于加權(quán)直方圖法。
綜上,在各個時間段內(nèi),基于卷積神經(jīng)網(wǎng)絡(luò)方法的性能要優(yōu)于加權(quán)直方圖法,尤其是在0~400 s干擾較強、信噪比較低時,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢更加明顯,進一步驗證了本文方法的可靠性。
對于實驗中出現(xiàn)的誤差,除了上面分析的幾點外還存在以下3點:1)作為聲源的船只并不是一個點聲源,船長為60 m,而記錄GPS的天線位于船艉,在1 km的聲源距離上由此造成的誤差最大能到3.4°;2)估計結(jié)果根據(jù)羅經(jīng)記錄到的航向角進行了補償,但羅經(jīng)記錄的航向角本身可能存在一定的誤差,進行補償時就把誤差引入了結(jié)果之中;3)矢量水聽器x、y通道的指向性并不是嚴格的正交,不滿足加權(quán)直方圖法和仿真的訓(xùn)練數(shù)據(jù)正交的前提假設(shè),從而引入了誤差。
1)與很多機器學(xué)習(xí)定位方法相比,本文方法不需要實測數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),僅利用KRAKEN仿真數(shù)據(jù)對卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,降低了訓(xùn)練成本。
2)仿真結(jié)果表明利用卷積神經(jīng)網(wǎng)絡(luò)的方法可以獲得精確的方位估計結(jié)果,特別是在低信噪比的情況下(-5 dB)其依然有較高的估計準確率EACCU=87%,ERMSE=6.9°,高于加權(quán)直方圖法EACCU=66%,ERMSE=28.7°。實驗數(shù)據(jù)處理結(jié)果說明在各個時間段基于卷積神經(jīng)網(wǎng)絡(luò)的方法都要優(yōu)于傳統(tǒng)的加權(quán)直方圖法,進一步證明了卷積神經(jīng)網(wǎng)絡(luò)法的可靠性。
3)由實驗數(shù)據(jù)分析結(jié)果可知,其他船只的干擾、矢量水聽器各通道的指向性不嚴格正交、聲源距離增加導(dǎo)致信噪比的下降、聲源船不滿足點聲源條件以及羅經(jīng)存在誤差等都是造成方位估計結(jié)果不準確的原因,在以后的實驗中應(yīng)盡量避免這些因素的干擾。