王全東 郭良浩 閆 超
(1中國科學院聲學研究所 聲場聲信息國家重點實驗室 北京 100190)
(2中國科學院大學 北京 100049)
海洋環(huán)境下,水聲目標信號常常被強干擾或背景噪聲所掩蓋,造成水聲目標識別十分困難。因此,為提高識別的有效性和可靠性,抑制干擾因素,還原目標信號波形顯得尤為重要。水聲被動信號恢復技術旨在研究處理被動接收信號,適應海洋環(huán)境的復雜性,抑制干擾和背景噪聲的同時保證目標信號不失真,從而恢復目標信號波形,對國家安全、海洋監(jiān)測及開發(fā)等領域有重要意義。
在單陣元觀測情況下,目前學者已提出了很多算法來解決信號降噪問題。譜減法最早被Boll[1]提出,是將噪聲譜從接收信號譜中減去,但會引入不自然的人工噪聲;基于最小均方誤差的降噪算法包括Ephraim等[2]提出的最小均方誤差估計器,以及Cohen等[3]提出的最優(yōu)對數(shù)幅度譜估計法,這些方法能降低人工噪聲,但是需要對噪聲譜進行估計,在信噪比較低時難以取得滿意效果;其他經(jīng)典算法包括經(jīng)驗模態(tài)分解[4]、小波變換[5-6]、奇異譜分解[7]和單陣元盲源分離[8-9],這些算法通常需要對噪聲的能量大小、概率密度分布和統(tǒng)計特性做出較多的先驗假設,然而在實際海洋條件下這些假設很難滿足。
在多陣元觀測情況下,算法可以同時利用空域和頻域信息,因而可以取得較單陣元更顯著的降噪效果[10]。過去幾十年來,水聲陣列信號降噪的研究工作主要集中在波束形成理論上。波束形成技術通過噪聲干擾抵消達到陣列降噪的目的,是改善信噪比的有效手段。一般地,波束形成類方法分常規(guī)波束形成(Conventional beamforming,CBF)和自適應波束形成。常規(guī)波束形成可在保持信號幅度不變的同時,衰減干擾噪聲信號。該類方法魯棒性強,實現(xiàn)簡單,但在干擾方位與目標方位臨近的情況下難以抑制強干擾。自適應波束形成包括最小方差無失真響應波束形成(Minimum variance distortionless response,MVDR)、廣義旁瓣消除器(Generalized sidelobe canceller,GSC)、最大信噪比波束形成器等。MVDR由Capon[11]最先提出,對期望信號進行無失真約束,同時使得總的輸出功率最小。該類方法具有較好的方位分辨率和較強的干擾抑制能力,但其需要已知精確的期望信號方位,對參數(shù)失配非常敏感。Cox等[12]提出對白噪聲增益進行約束,從而導出了對角加載MVDR,提高了對基陣誤差的穩(wěn)健性。對角加載MVDR因操作簡單而廣泛應用,Du等[13]針對加載量不易確定的問題提出了全自動對角加載算法,進一步提高了魯棒性。Griffths等[14]引入了GSC作為MVDR的一種等價形式,GSC將固定波束形成器與自適應濾波器結合,顯著降低了MVDR計算量。針對GSC的方位敏感問題,研究人員提出利用特征分析技術提取干擾噪聲子空間,降低了阻塞矩陣的信號泄漏[15]??偟膩碚f,自適應波束形成取得了顯著進展,但其依然對目標信號方位和陣元位置有著較高的要求。在淺海垂直陣條件下,在多途作用下陣元之間的相關性較低,盡管距離較近時可采用聚焦波束形成來進行降噪和定位[16-17],但遠距離情況下依然較難準確獲得目標信號在各陣元的到達時間差(Time difference of arrival,TDOA),因而很難通過波束形成達到降噪的目的。
最近幾年,深度學習理論在圖像處理、語音識別、人工智能等重要領域取得了成功。深度神經(jīng)網(wǎng)絡(Deep neural network,DNN)作為一種卓越的信號處理模型,具有強大的建模能力,是由數(shù)據(jù)驅(qū)動的,因而能將已有的數(shù)據(jù)應用起來完成分類、回歸等任務[18]。目前已有研究人員將淺層神經(jīng)網(wǎng)絡和深層神經(jīng)網(wǎng)絡用于水聲定位研究中[19-21],取得了顯著進展。這種監(jiān)督學習的方法也可以用于估計帶噪信號和目標信號之間的復雜的非線性映射,具備更強的能力去從噪聲中分辨目標信號,對比傳統(tǒng)無監(jiān)督方法已顯示出了卓越的性能提升[22]。目前已有采用DNN進行主動聲吶信號降噪的方法[23],但是這種方法只適用于單陣元接收信號,也僅在仿真中對加性白噪聲進行了抑制,對于其他真實情況下干擾或噪聲的抑制還沒有進行研究。
本文提出一種適用于水聲被動目標信號波形恢復的方法,此方法能夠自適應地學習目標信號自身的時頻特征,有效去除不符合目標信號特征分布的噪聲,在保真目標信號的同時,提高輸出信噪比(Signal to noise ratio,SNR)。本方法不限定噪聲的統(tǒng)計分布(各向同性噪聲,臨近方向干擾),也對陣列排布沒有限制,對訓練數(shù)據(jù)集中不存在的信號具有一定的泛化能力,因而可以應用在各種陣列條件下。首先,在單陣元被動接收情況下,本方法采用DNN作為回歸模型,估計帶噪信號到純凈信號之間的映射函數(shù),將時間上擴幀的帶噪對數(shù)功率譜特征(Log-power spectra,LPS)映射為純凈的LPS,再結合帶噪相位利用重疊相加法[24]將信號變換回時域。本文進一步采用DNN同時估計純凈LPS和理想比率掩蔽(Ideal ratio mask,IRM)以提高DNN輸出的穩(wěn)健性。第二,提出陣列DNN方法,將多個陣元的LPS特征拼接為一個長向量作為DNN的輸入,從而利用陣列空間信息來恢復目標信號。同時研究了不同陣元規(guī)模情況下如何有效利用陣列信號中的時間信息和空域信息。第三,在陣列DNN的基礎上提出了兩階段融合DNN模型,第一階段將陣列分為若干個子陣,分別利用每個子陣訓練陣列DNN,第二階段將第一階段降噪后的特征以及所有陣元的帶噪特征一起輸入一個DNN進行特征融合訓練,這樣的兩階段DNN處理可看作一個組合模型,第一階段主要利用時間信息,第二階段主要強調(diào)空間信息,因而能全面利用各陣元包含的豐富時頻域信息。實驗證明單陣元DNN能明顯提高輸出信號質(zhì)量,抑制噪聲,最后的兩階段DNN模型可以取得上述模型中最佳的處理效果。
本文內(nèi)容安排如下:第一部分介紹神經(jīng)網(wǎng)絡回歸理論和單陣元DNN模型。第二部分闡述提出的陣列DNN模型和兩階段融合模型。實驗結果和分析為第三部分。最后一個部分為結論。
考慮一個任意的M陣元的接收陣。陣列接收信號經(jīng)過短時傅里葉變換(Short time Fourier transform,STFT)后在頻域表示為M維向量Z(ωl,k),
其中,Z(ωl,k)=[z1(ωl,k)zi(ωl,k)···zM(ωl,k)]T代表接收向量,S(ωl,k)=[s1(ωl,k)si(ωl,k)···sM(ωl,k)]T代 表M維 信號向 量,N(ωl,k)=[n1(ωl,k)ni(ωl,k)···nM(ωl,k)]T為M維 噪聲或干擾向量,(·)T代表轉(zhuǎn)置。zi(ωl,k)、si(ωl,k)和ni(ωl,k)分別代表第i陣元的接收信號、目標信號和噪聲,i=1,···,M。ωl為離散頻率,l為頻率索引,L為處理的頻率點數(shù),k為時間幀索引。為簡潔描述,文章余下部分省略ωl。當M=1時,接收信號簡化為單陣元信號。
在人工神經(jīng)網(wǎng)絡理論中,無限逼近定理[25-26]為DNN強大的映射學習能力提供了理論基礎。無限逼近定理表明,一個僅有一個隱藏層的前饋多層感知機含有一個任意的連續(xù)S型函數(shù)和有限神經(jīng)元數(shù)量,可以在Rn的子集上以任意精度逼近任意連續(xù)的函數(shù)。
令σ為任意連續(xù)S型函數(shù),如sigmoid函數(shù)。In代表n維單位超立方體[0,1]n。In上的實值連續(xù)函數(shù)空間表示為C(In)。無限逼近定理表述如下[26]:函數(shù)形式
在C(In)中是稠密(dense)的, 其中N為整數(shù),βj,θj∈R為實參數(shù),yj是實向量。換言之,給定任意f∈C(In)和ε>0,總有一個函數(shù)G(x),對于所有x∈In滿足|G(x)-f(x)|<ε。
人工神經(jīng)網(wǎng)絡的函數(shù)逼近誤差是有界的[25]。對于一個單隱藏層含有N個S型神經(jīng)元節(jié)點的前饋網(wǎng)絡,網(wǎng)絡逼近函數(shù)的積分平方誤差在cf/N內(nèi),cf取決于被逼近函數(shù)的傅里葉變換的模。分析公式(2)可知,最簡單的回歸網(wǎng)絡結構含有一個輸入層,對應于形式一個隱藏的S型函數(shù)層,對應于和一個線性輸出層來對所有神經(jīng)元的值進行加權求和作為最后的標量輸出G(x)。最近,上述向量對標量的多層感知機映射已被拓展到高維的向量對向量的深度回歸模型[22],也即輸出不再是一個標量而是一個多維向量,可以利用其映射能力來研究水聲被動信號恢復問題。在本文中所用深度神經(jīng)網(wǎng)絡的結構如下:輸入向量x由接收信號的L維LPS特征構成,LPS特征即為log(PZ),其中PZ為功率譜,輸出也為一個向量,其中包含恢復出的目標信號的LPS特征,中間不再只有一個隱藏層,隱藏層節(jié)點數(shù)為N。
在單陣元條件下,本文提出用DNN回歸模型來進行水聲目標信號恢復。如圖1所示,其處理過程包括兩個階段:訓練階段和測試階段。對于訓練階段,首先構造一個訓練數(shù)據(jù)集,然后提取訓練所需的特征,設計好DNN結構并進行訓練。DNN的輸入為接收信號的LPS進行擴幀后的特征,輸出為純凈的目標信號的當前時間幀的LPS特征。DNN的目標函數(shù)E為輸出的LPS特征?Sk與純凈目標信號LPS特征ˉSk的均方誤差(Mean square error,MSE),表示如下:
其中,NN為批處理個數(shù),k和k的維數(shù)均為L,分別為輸出的LPS和純凈的LPS,k±τ=[ˉZk-τ,k-τ+1,···,ˉZk,ˉZk+1,···,k+τ]為擴幀拼接的輸入帶噪LPS特征,擴幀窗長R=2τ+1,而(W,b)為DNN的權值和偏置的集合。擴幀能使DNN同時學習時間和頻域尺度上的信息,有助于DNN分辨目標信號和噪聲干擾。DNN可以用隨機梯度下降法來最小化目標函數(shù)直至收斂完成訓練。在此基礎上本文采用多目標(multi-target)訓練,將IRM特征作為正則項與純凈LPS一同作為輸出以期進一步提高DNN的泛化能力[27]。L維IRM特征定義如下:
圖1 單陣元DNN處理框圖Fig.1 The block diagram of the single-sensor DNN method
加入IRM后的目標函數(shù)變?yōu)?/p>
在測試階段,分別提取需降噪的信號的LPS和相位,將帶噪LPS輸入DNN處理,輸出恢復的LPS特征。有研究表明,帶噪相位本身就是對純凈相位的一種最小均方誤差估計[2],因而可以將恢復的特征與帶噪相位結合進行反短時傅里葉變換(Inverse short-time Fourier transform,ISTFT),并用重疊相加法[24]恢復為時域波形。
針對陣列接收信號降噪問題,本文提出陣列DNN算法,將多個陣元的帶噪特征拼接在一起形成一個長向量作為DNN輸入。在受限的DNN寬度(隱層單元數(shù))下,若將K(K≤M)個陣元信號分別擴幀后再拼接,輸入維數(shù)將達到L×R×K,可能會造成輸入維數(shù)過高,難以完成穩(wěn)定的訓練或造成過擬合。因此,本文控制了時間窗長的大小使得輸入維數(shù)在不同陣元數(shù)條件下可比,并研究了不同陣元數(shù)的降噪性能??蓪⑷我魂囋O置為參考陣元,從陣列帶噪信號中估計參考陣元中的目標信號波形。利用多目標訓練,陣列DNN的目標函數(shù)表示為
其中,當K<M時,=[ˉZ1,k±τ,···,ˉZK,k±τ]為K個陣元各自擴幀后的拼接輸入向量,ˉZi,k±τ為擴幀的第i個陣元的帶噪LPS,當K=M時,τ=0各陣元不進行擴幀操作。這里的IRM目標由參考陣元的信號和噪聲計算而來。由于不同陣元接收的是來自不同水聲傳播路徑混合的信號,所以它們具有相關且互補的特征,因此可以讓DNN學習到陣列中的空域信息。這種將多個陣元信號同時送入DNN并以最小均方誤差作為損失函數(shù)的處理方式與波束形成類似,但不同點在于陣列DNN能夠自適應學習非線性的映射函數(shù)。
如上文所述,陣元數(shù)較多情況下,陣列DNN僅將一部分陣元信號進行拼接作為輸入時可以進行擴幀利用時間信息,但不能利用所有陣元的空間信息,而當陣列DNN拼接所有陣元的信號作為輸入時,為控制輸入特征總維數(shù),將不會采取擴幀的操作而直接將所有陣元的當前時間幀拼接在一起,但這樣不能充分利用時間信息,所以總體上由于輸入維數(shù)限制,陣列DNN不能同時充分利用時間和空間上的信息。為解決這一問題,本文提出一種兩階段陣列DNN融合的處理方法。這是一個組合模型,其結構如圖2所示。第一階段是增強階段,將M個陣元分為Q組,每一組K個陣元組成一個子陣,擴幀后采用陣列DNN進行訓練,記為增強DNN。這里DNN不進行IRM的訓練,以便輸出給下一個階段。這一階段的每個DNN強調(diào)利用時間信息,但沒有利用所有的陣元信息。第二階段為融合階段,在第一階段的Q個DNN之上進一步挖掘陣列的空間信息,記為融合DNN。將增強階段的Q個增強DNN輸出和所有陣元帶噪LPS特征拼接在一起作為融合DNN的輸入去映射目標信號的LPS和IRM。融合DNN的目標函數(shù)定義為
圖2 兩階段融合DNN結構圖Fig.2 The structure of the two-stage integration DNN
為驗證本文所提方法的降噪能力,本文進行了七組對比實驗。本實驗采用一次海試實驗中的船輻射噪聲作為目標信號,其實驗條件如下:聲源深度為5 m,水深152 m,八陣元接收垂直陣深度為128~135 m,陣元間隔1 m;沉積層厚24 m,聲速1572~1593 m/s,密度1.76 g/cm3;水底為流體半空間,聲速5200 m/s,密度1.8 g/cm3;深度剖面為典型負梯度。本文選用時間段為2009年1月31日01:43-02:05,期間目標勻速逐漸遠離接收陣。本文將公開數(shù)據(jù)集SWellEX-96[29]S5實驗中的信號作為要去除的噪聲,選取垂直陣前八個陣元的信號,所用時間段為1996年5月10日23:15-23:58,其有兩個噪聲源,較深的源發(fā)射信號為65個單頻信號和FM chirp信號,較淺的源發(fā)射另外9個單頻信號,所有單頻信號在49~400 Hz之間。依據(jù)公式(1)合成陣列接收信號,單陣元接收SNR分別為-10 dB、-5 dB、0 dB、5 dB、10 dB。訓練信號是將船輻射噪聲數(shù)據(jù)的前17 min和SWellEX-96數(shù)據(jù)的前38 min拆分成多個時間片段,進行隨機組合按信噪比混合在一起,得到一個約90 h記錄時間的訓練集。測試集信號為船輻射噪聲最后6 min數(shù)據(jù)和SWellEX-96最后6 min數(shù)據(jù)混合而成,因而是訓練數(shù)據(jù)集中不存在的,其信噪比設置與訓練集相同。訓練數(shù)據(jù)中的目標信號和噪聲的時頻圖分別為圖3和圖4,可以看出目標信號與噪聲的頻域分布不同,目標信號和噪聲都既包含連續(xù)譜也包含強線譜。
圖3 前17 min目標信號時頻譜Fig.3 The time-frequency spectrum(TFS)of the first 17 minutes of target signal
本實驗的分析頻帶為0~500 Hz,頻域分辨率為1.95 Hz,LPS特征維數(shù)為257(一幀),IRM維數(shù)也為257維。降噪所用的DNN結構為輸入層為線性層,中間為兩層隱藏層,每層2048節(jié)點數(shù),S型函數(shù)為sigmoid,輸出層也為線性層。DNN初始學習率為0.00002,采用隨機梯度下降法訓練,批處理數(shù)量為32。訓練IRM時,α為0.05。為檢驗算法降噪和保真的效果,采用兩種客觀描述參數(shù)。
圖4 前38 min噪聲時頻譜Fig.4 The TFS of the first 38 min of noise
第一個參數(shù)為輸出SNR,定義為
其中,T為輸出時間幀總數(shù),Ptar(ωl,k)和Pnoi(ωl,k)分別代表輸出信號中目標信號的功率譜和輸出信號中噪聲的功率譜。需要指出的是,由于DNN為非線性處理,不能通過分別輸入純目標信號特征和純噪聲特征分別得到輸出的目標信號特征和殘余噪聲特征來直接計算輸出SNR,所以這里目標信號和噪聲功率的估計方法如下:首先根據(jù)IRM確定帶噪信號時頻圖上噪聲占主導的時頻區(qū)域,IRM值小于0.2處視為噪聲區(qū)域,計算輸出信號中這一區(qū)域的功率作為噪聲功率,其他區(qū)域的功率作為目標信號功率。
第二個參數(shù)為輸出功率的均方誤差MSE,物理意義為輸出信號的功率估計誤差,定義為
其中,Ptest(ωl,k)和Pclean(ωl,k)分別代表待測試的輸出信號的功率譜和純凈目標信號的功率譜。輸出SNR和MSE是一組互補的參數(shù),比如輸出SNR增高的時候,MSE不一定減小,即輸出能量未必跟原來相同。因此不同算法對比時,以下三種情況都可以認為達到了更好的恢復效果:SNR增大,同時MSE減小;MSE相當?shù)那闆r下,SNR增大;以及SNR相當?shù)那闆r下,MSE顯著減小。
本實驗將第四個陣元(ch4)作為參考陣元,并在所有對比算法中估計第四個陣元中的目標信號。作為對比,采用水聲環(huán)境下常用的CBF對陣列數(shù)據(jù)進行處理。常規(guī)波束形成算法流程簡述如下:首先根據(jù)陣列位置和俯仰角掃描范圍(0°~180°)確定陣列流形向量,然后利用較高頻段的接收數(shù)據(jù)(300~500 Hz)來進行波束掃描,從而獲得每一幀信號的掃描方位譜(接收協(xié)方差矩陣利用21個快拍來進行估計),根據(jù)方位譜峰值所在的位置確定每一幀接收信號的俯仰角,并據(jù)此進行常規(guī)波束形成獲得輸出波形和功率譜。本文的俯仰角的零度定義為垂直向上方向。
作為測試示例,0 dB帶噪測試信號的對數(shù)功率譜如圖5所示,其中的噪聲成分的對數(shù)功率譜為圖6,真實目標信號的對數(shù)功率譜為圖7。觀察到噪聲信號幾乎將目標信號掩蓋。下面給出CBF處理結果。圖8展示了0 dB條件下CBF波束掃描后的入射俯仰角估計結果,圖9為10 dB條件下的掃描結果。對比這兩圖可知,在較低信噪比和淺水多途條件下,較難獲得準確的俯仰角估計結果。圖10為0 dB下根據(jù)圖8的俯仰角估計結果,利用CBF獲得的輸出信號的對數(shù)功率譜,可以看到噪聲的強線譜依然清晰可見,沒有得到很有效的去除,且由于入射俯仰角估計錯誤一些時間段的譜出現(xiàn)了異常。表1為各算法輸出結果的兩項客觀描述參數(shù)在-10 dB~10 dB的平均結果。對比表1的第二行的第四號陣元的接收信號(記為ch4 mix)和第三行CBF輸出結果,CBF算法能夠一定程度上提高輸出SNR,但是在多途作用下各陣元接收到的目標信號是不同的,因而CBF僅是將目標信號成分在不同陣元間進行了平均,難以取得理想平面波假設下的陣增益,導致CBF結果與參考陣元接收的目標信號相關性較差,所以導致了MSE參數(shù)反而上升了。
圖5 0 dB測試帶噪信號對數(shù)功率譜(ch4)Fig.5 The LPS of the testing signal at 0 dB(ch4)
圖6 0 dB測試信號中的噪聲的對數(shù)功率譜(ch4)Fig.6 The LPS of the noise in the testing signal at 0 dB(ch4)
圖7 0 dB測試信號中的真實目標信號的對數(shù)功率譜(ch4)Fig.7 The LPS of the target signal in the testing signal at 0 dB(ch4)
圖8 0 dB下目標信號入射俯仰角掃描結果Fig.8 The pitch angle scanning(PAS)result of the target signal at 0 dB
下面利用DNN來進行目標信號恢復。單陣元DNN利用了第四陣元信號的時間信息和頻域信息,其輸入為擴幀LPS,維數(shù)為257×11×1,輸出為當前幀257維LPS,記為‘ch4 noIRM’。如圖11所示,將帶噪信號輸入單陣元DNN后輸出的對數(shù)功率譜很接近圖7,這顯示出DNN具有強大的建模能力,顯著抑制了噪聲成分,目標信號恢復效果明顯。對比表1的第三行和第四行,單陣元DNN輸出SNR比CBF高5 dB以上的同時,顯著降低了功率估計的MSE,表明本處理方法對測試信號有較強的泛化能力。
圖9 10 dB下目標信號入射俯仰角掃描結果Fig.9 The PAS result of the target signal at 10 dB
圖10 0 dB下的CBF輸出的對數(shù)功率譜Fig.10 The LPS output by the CBF at 0 dB
表1 各個對比算法的輸出參數(shù)在-10 dB~10 dB的平均結果Table1 The average objective measurements for all algorithms at-10 dB~10 dB
圖11 0 dB下單陣元DNN輸出的對數(shù)功率譜Fig.11 The LPS output by the single-sensor DNN at 0 dB
根據(jù)第2.1的分析,由于DNN輸入維數(shù)的限制,在利用較多陣元數(shù)時,需要降低擴幀的窗長來保證DNN訓練的穩(wěn)定。因此本實驗研究了利用兩個陣元(陣元4和陣元5,記為‘ch45’)、四個陣元(陣元3~陣元6,記為‘ch3456’)和八個陣元(陣元1~陣元8,記為‘8ch’)的情況,分別采用窗長R等于5、3、1,均沒有訓練IRM特征,標記為‘noIRM’。三者的輸出結果列于表1的第六、第七、第八行,可以看出三個陣列DNN的恢復效果均優(yōu)于單陣元DNN,表明使用陣元DNN利用了陣列的空間信息,提高了DNN估計的準確度。四陣元系統(tǒng)‘ch3456’的輸出SNR與兩陣元系統(tǒng)和八陣元系統(tǒng)相當,但是取得了三者之中最小的MSE,更好地估計了目標波形的功率大小。這說明在陣列DNN的框架下,陣元數(shù)越多不一定越好,綜合利用空間信息和時間信息才能取得更佳的恢復效果。
在DNN輸出層不僅可以輸出目標信號LPS,也可以估計IRM,即輸出總維數(shù)為514。表1的第五行和第九行為單陣元DNN和八陣元DNN同時訓練LPS和IRM的結果,標記為‘IRM’。在同等情況下,標記‘IRM’的系統(tǒng)在保持輸出SNR相當時輸出MSE的要明顯優(yōu)于標記‘noIRM’的DNN系統(tǒng),說明多目標映射時,IRM作為目標函數(shù)中的正則項,與LPS一起訓練,能提升DNN估計LPS的魯棒性,更好地恢復目標信號功率。下面簡述一下IRM正則項提高性能的原因。類似于文獻[12]中在目標函數(shù)中加入正則項來提高MVDR的魯棒性,本文式(5)、式(6)、式(7)加入右邊第二項的正則化項后使網(wǎng)絡進行多目標或多任務學習,由于IRM特征的物理意義為歸一化的輸入信噪比,所以相當于在估計LPS特征這個主要任務上多加了一個估計輸入信噪比的附加任務。在機器學習理論中,通常來講,用共享的神經(jīng)網(wǎng)絡來同時學習一個或多個額外的適當任務可以同時提高全部任務的學習能力,而在實際使用網(wǎng)絡時可以將用于學習額外任務的參數(shù)去除??偟膩碚f,IRM特征估計作為正則項可以限制深度神經(jīng)網(wǎng)絡參數(shù),引入損失函數(shù)的歸納偏差,迫使學習算法在兩個任務的交叉表征區(qū)域找到最終解,避免單任務下在一個更大表征區(qū)域求得局部最優(yōu)解,因而可以降低網(wǎng)絡過擬合風險使得網(wǎng)絡更好、更快地收斂。
根據(jù)第3.3節(jié)的分析,為了全面利用八個陣元信號的時間和空間信息,本文訓練了兩階段融合系統(tǒng)。第一階段訓練了兩個增強DNN,分別為‘ch3456’和‘ch1234’(由陣元1~陣元4訓練)。‘ch1234’與‘ch3456’性能接近,因此未列入表1。第二階段中,將第一階段的兩個DNN的LPS輸出和所有八個陣元的帶噪信號拼接在一起,形成一個維數(shù)為257×10的向量作為輸入,輸出為LPS和IRM特征,共514維。圖12為兩階段DNN處理0 dB測試信號后的對數(shù)功率譜,可以看到圖7中目標信號在50~100 Hz之間、360 Hz和420 Hz處的線譜在圖12中得到了很好的突出和保留,目標信號在180~240 Hz之間的連續(xù)譜也得到了有效恢復,說明本方法對目標信號和噪聲的頻域特性沒有限制,因而適用性較好。兩階段DNN的平均輸出參數(shù)結果如表1的最后一行所示,記為‘2stage’。特征融合后,其MSE略好于‘ch3456’,但輸出SNR優(yōu)于‘ch3456’1 dB以上。這說明,本方法能在兩個四陣元陣列DNN基礎上,進一步綜合利用八個陣元的時間空間信息,取得了所有單陣元和陣列對比算法中最佳的信號恢復效果。其原因為,在融合階段DNN的映射能力被再次利用,由于每個陣元的帶噪信號中含有一部分較高信噪比的時頻點,將其與降噪后的特征一同送入DNN本質(zhì)上提高了訓練的豐富度,因此融合DNN能從中學習并將第一階段沒有處理好的時頻點進一步恢復。
圖12 0 dB下兩階段融合DNN輸出的對數(shù)功率譜Fig.12 The LPS output by the two-stage DNN at 0 dB
為著重討論DNN目標信號恢復算法在不同輸入SNR條件下的性能變化,在圖13和圖14中對比了CBF、單陣元DNN和兩階段DNN的兩種描述參數(shù)。由于CBF的MSE遠高于本文的DNN算法,故均方誤差由對數(shù)MSE,即10log(MSE)來衡量。三種算法的輸出SNR隨輸入SNR增大而增大,對數(shù)MSE隨輸入SNR增大而減小。然而CBF的對數(shù)MSE始終高出DNN輸出結果30以上,說明CBF的功率估計遠不及DNN準確。隨著輸入SNR增大,兩階段DNN的輸出SNR與CBF的輸出SNR的差距從10 dB減小到了2 dB,DNN方法比CBF在低SNR下有著更加突出的優(yōu)勢。此外,兩階段DNN在低SNR條件下比高SNR條件下展示出相對單陣元DNN更加明顯的優(yōu)勢,這表明兩階段DNN算法融合陣列的豐富時域空域信息對于低SNR接收信號有著更重要的意義。
圖13 不同輸入SNR下三種算法的輸出SNR對比Fig.13 Output SNR comparisons between three methods under different SNRs
圖14 不同輸入SNR下三種算法的對數(shù)MSE對比Fig.14 Log-MSE comparisons between three methods under different SNRs
為體現(xiàn)本文方法能夠自適應學習目標信號的時頻特征,計算了以頻率為變量的輸出SNR,其定義如下:
因為DNN只輸出單路LPS, 所以Ptar(ωl,k)和Pnoi(ωl,k)兩者難以分開,故采用真實目標信號 的 功 率 譜Pclean(ωl,k)來 近 似Ptar(ωl,k), 用Ptest(ωl,k)-Pclean(ωl,k)來近似Pnoi(ωl,k),從而近似估計單頻SNR。
圖15對比了在0 dB測試條件下的CBF、單陣元DNN和兩階段DNN在全部頻點上輸出的SNR。從圖中可以看到,帶噪信號的SNR在噪聲頻點處(如200 Hz左右、350 Hz左右和400 Hz左右等)有非常明顯的谷點,也即這些頻率的信號質(zhì)量非常差。經(jīng)過CBF,這些頻點的SNR有所增加,然而還是有明顯的谷點。經(jīng)過本文DNN處理后,這些噪聲谷點被基本消除,其中兩階段DNN在各個頻點的輸出SNR最高。此外,可以看到DNN輸出的SNR在原目標信號的功率較強的頻率點上出現(xiàn)了峰值(如100 Hz左右和360 Hz左右),較好地恢復了目標信號原有的頻率分布。
圖15 0 dB條件下全部頻點處CBF、單陣元DNN和兩階段DNN的輸出SNR對比Fig.15 The output SNR comparisons between CBF,single-sensor DNN and two-stage DNN at different frequencies at 0 dB
為體現(xiàn)DNN在不同頻率下的恢復性能差異,在圖15基礎上計算了全部頻率下三種算法的SNR增益,如圖16所示??梢钥吹剑N算法在噪聲強線譜頻點上均有較大的SNR增益的峰值,其中兩階段DNN的SNR增益最高。結合圖15可以得到以下結論,DNN恢復算法在噪聲較強的頻點上具有更高的SNR增益,所以能抑制噪聲并準確恢復目標信號的頻率分布。對比圖7、圖10和圖12中真實目標信號的對數(shù)功率譜、CBF和兩階段DNN的處理結果,可以看出兩階段DNN輸出信號比CBF輸出信號更接近真實目標信號。由此說明本文DNN處理方法能夠自適應地學習目標信號自身的時頻特征,有效去除不符合目標信號特征分布的噪聲。
圖16 0 dB條件下全部頻點處CBF、單陣元DNN和兩階段DNN的輸出SNR增益對比Fig.16 The output SNR gain comparisons between CBF,single-sensor DNN and two-stage DNN at different frequencies at 0 dB
本文提出了一種基于DNN的水聲目標信號被動恢復方法。DNN作為回歸模型,具有強大的建模能力,建立了帶噪對數(shù)功率譜特征到純凈對數(shù)功率譜特征的多維映射函數(shù)。本方法在單陣元下利用時間和頻譜信息恢復了目標信號,并利用多目標訓練提高了魯棒性;在接收陣情況下采用陣元DNN同時將陣列信號映射到參考陣元,提高了空域信息利用能力,并探討了時間窗和陣元數(shù)的限制關系;在此基礎上提出兩階段處理算法來融合降噪后的特征和所有空域帶噪特征,進一步提高了目標信號恢復能力。實驗數(shù)據(jù)處理結果表明,本方法能顯著去除噪聲,輸出比常規(guī)波束形成更高的SNR并準確估計目標信號能量。本方法優(yōu)勢在于能夠從大量訓練數(shù)據(jù)中學習目標信號的先驗信息,將其有效應用于測試信號,對于訓練集中不存在的信號有一定的泛化能力,且本方法對噪聲分布和陣列排布沒有要求,能夠有效恢復線譜和連續(xù)譜信號。本文實驗的訓練數(shù)據(jù)和測試數(shù)據(jù)有一定相關性,但在實際應用中,目標信號可能會疊加不同種類的噪聲或干擾,因此如何提高在其他惡劣條件下的目標波形恢復的穩(wěn)健性需要進一步研究。此外,由于本文的實驗為垂直陣數(shù)據(jù),陣元之間的相關性較差,因此DNN在利用更多陣元數(shù)時,沒有體現(xiàn)出類似于波束形成在平面波條件下的增益變化,下一步將研究提高陣元相關性來進一步提高陣列DNN處理的增益。