基于遷移學習的水聲目標識別①

2020-11-13 07:12:36潘安迪劉姍琪

計算機系統(tǒng)應用 2020年10期

鄧晉,潘安迪,肖川,劉姍琪

1(復旦大學計算機科學技術學院,上海 201203)

2(中國電子科技集團公司第二十三研究所,上海 200437)

水聲目標識別技術是一種利用聲吶接收的被動目標輻射噪聲、主動目標回波以及其他傳感器信息提取目標特征并判別目標類型或艦型的信息處理技術[1].水聲目標識別包括聲吶技術、環(huán)境感知計算、監(jiān)聽技術[2]等.在水聲領域,目標分類與識別是國際公認的難題,目前尚無有效的方法實現(xiàn)水聲目標的準確識別.海水是聲音在水下傳播的介質,但海水的分層特性、時變特性以及區(qū)域不均勻性,使聲音在船舶過程中受信道畸變、混響和雜波的影響,導致信號強度衰減,特征被掩蓋,進而給水聲目標特征識別和分類帶來很大的挑戰(zhàn).遠航、風、波、洋湍流提高了海洋環(huán)境中噪聲水平,重要信號被遮蔽,使目標信號的探測和識別性能嚴重下降[3].因此,如何有效探測和估計長距離低信噪比下的目標、以及從船舶輻射噪聲信號中提取特征[4],是水下定位、識別和跟蹤的迫切問題,實際上,水聲目標識別一直是國際公認的難題.

本文的組織結構如下:第1 節(jié)介紹基于傳統(tǒng)聲學特征水聲目標識別概況;第2 節(jié)介紹基于遷移學習的水聲目標識別背景及方法;第3 節(jié)實驗結果及分析;第4 節(jié)文章總結及未來工作展望.

1 基于傳統(tǒng)聲學特征的水聲目標識別

水中目標輻射噪聲組成復雜,主要聲源包括:機械噪聲、螺旋槳噪聲和水動力噪聲[5].一般的水聲目標識別都是基于人工特征的,通常包括:時頻特征[2,6,7]、線譜[4,8–11]、DEMON 譜[5]等等.在人工提取特征后使用統(tǒng)計學模型、模式分類或專家系統(tǒng)等方法進行分類識別.算法1 為基于傳統(tǒng)聲學特征的水聲目標識別算法.

算法1.基于傳統(tǒng)聲學特征的水聲目標識別算法1)預處理,將水聽器陣列采集到的聲吶信號通過信號增強,提高信噪比.2)特征提取,提取幀級別的時域或頻域信息,諸如:線譜分布、連續(xù)譜能量譜分布、特定頻段線譜數(shù)量、LOFAR 譜和DEMON 等.3)分類識別,基于水聲目標特征的分類識別方法主要有統(tǒng)計分類、模型匹配、神經網絡和專家系統(tǒng)等方法.

在過去的20年中,通過發(fā)展先進的水聲信號處理技術,對艦船輻射噪聲的特征提取方式進行了廣泛多樣的探索[12].這些方法里面比較經典的有,利用振蕩性質,Duffing 振子[10]和隨機共振理論[11]檢測船舶輻射噪聲的線譜.由于音頻信號的非平穩(wěn)特性,時頻分析技術更適合于非平穩(wěn)信號,這種方法的優(yōu)點是能結合時域中的非平穩(wěn)信息和頻域信息,例如短時傅立葉變換(STFT)[6,7],小波變換(WT)[6,13,14]和Hilbert-Huang 變換(HHT)[15,16].考慮到船舶輻射噪聲的非線性特性,許多方法被用來提取非線性特征,包括相空間重構[17,18],基于信號調制的DEMON 譜分析[5],基于序貫檢測思想的LOFAR 分析[19],基于分形的方法[20,21],和復雜性度量[22]等.

2 基于遷移學習的水下聲源識別

在機器學習領域,遷移學習[20]被定義為針對一個有標記的源域和目標域這兩個領域的數(shù)據分布P(xs)和P(xt)不同,即P(xs)≠P(xt),遷移學習的目的就是要借助Ds的知識,來學習目標域Dt的知識(標簽).通常有算法2 所示的4 種方法實現(xiàn)遷移學習.

算法2.遷移學習的4 種基本方法1)基于樣本遷移,根據一定的權重生成規(guī)則,對數(shù)據樣本進行重用.2)基于特征遷移,通過特征變幻的方法相互遷移,來減少源域和目標域之間的差距;或者將源域和目標域的數(shù)據特征變換到統(tǒng)一特征空間中,然后利用傳統(tǒng)機器學習方法進行識別.3)基于關系遷移,關注源域和目標域的樣本之間的關系,挖掘不同領域之間的相似性.4)基于模型遷移,從源域和目標域中找到他們之間共享的參數(shù),以實現(xiàn)知識的遷移.

遷移學習的常見動機是目標任務中缺少足夠的訓練數(shù)據,當使用神經網絡時,通過共享預訓練網絡的權重參數(shù),可以顯著減少目標任務模型中需要訓練參數(shù)的數(shù)量,從而以較小的數(shù)據集實現(xiàn)有效的學習[23].一個流行的例子是在計算機視覺中遷移學習用于圖像語義的分割,該網絡可以利用在圖像分類[24]任務中學習到的諸如圖像基本形狀等豐富的信息并進一步用于圖像分割任務.

針對圖像任務,Visual Geometry Group (VGG)[25]模型是由Google 開發(fā)和維護的圖像分類模型,VGG16是最好的圖像分類模型之一,它經過1000 種物體的訓練,因此可以識別1000 種物體.

針對音頻任務,數(shù)據集AudioSet[26]是基于人們上傳到YouTube 的大量數(shù)據及所提供的標簽.其包含567 個不同類型的音頻數(shù)據,總時長約567 小時.Google已經發(fā)布了基于該數(shù)據集訓練的模型VGGish[27],它在網絡的較低層處理頻譜圖,并在較高層時使用多個卷積層和完全連接層獲取深層表征用于后續(xù)分類.

深度學習技術可以從原始數(shù)據中學習特征,在提取信號樣本的固有特征方面具有優(yōu)勢,特別是在復雜環(huán)境下,這種特征提取上面的優(yōu)勢相比傳統(tǒng)特征提取方法更為突出.遷移學習可以將在學習一項任務時獲得相應的知識用來解決相關的任務,通?？梢詫⒃慈蝿盏牟糠謪?shù)用于目標任務.受此啟發(fā),基于頻譜與圖片的二維相似性,我們提出了兩類遷移學習方案,一是分別利用基于ImageNet[28]及AudioSet 分別預訓練的模型作為特征提取器,將學習到深度特征進一步用于分類;二是對上述模型進行微調.

圖1是基于遷移學習的水下聲源識別算法的整體流程,主要分為3 個部分:(1)信號預處理,對輸入信號進行分段規(guī)整及傅里葉變換;(2)進行深層特征提取并選取相應分類器進行分類;(3)對相應預訓練網絡進行微調.

圖1 算法整體流程

2.1 預處理

如圖2(a)所示,艦船輻射噪聲能量主要集中分布于8000 Hz 以下的低頻部分[29],基于這種能量分布規(guī)律,為了更好地刻畫低頻成分的分布規(guī)律,我們借鑒了語音識別中的梅爾頻譜.其中,目標音頻信號采樣率為52 734 Hz,使用具有50%重疊的90 ms 漢明窗加窗函數(shù),輸出的梅爾頻譜存儲為3×224×224 的圖片格式,以便后續(xù)操作后續(xù)用于VGG16 網絡的輸入.此外,VGGish預訓練網絡的輸入采樣頻率為16 000 Hz,我們對實驗音頻數(shù)據進行了下采樣.窗口長度(STFTlength)為25 ms,重疊長度(Hopsize)為10 ms,輸出頻譜為96×64,嵌入(Embedding)編碼大小為128.如圖2所示,圖2(a)表示音頻信號的功率譜,圖2(b)表示音頻信號的經傅里葉變換后的線性功率譜,圖2(c)表示音頻信號的梅爾頻譜.

圖2 VGG 網絡預處理及譜示意圖

2.2 使用預訓練網絡提取深度特征用于分類

如圖3為使用預訓練網絡特征提取器的遷移學習框架.本文分別使用基于音頻預訓練的VGGish,以及基于圖像預訓練的VGG16 網絡分別作為特征提取器.分別將網絡輸出層的輸出作為特征向量,其特征向量長度分別為128 和4096.

圖3 使用預訓練網絡作為特征提取器

本文使用scikit-learn[30]的SVM 和kNN 的算法實現(xiàn),以及開源ELM 的算法實現(xiàn),分別進行實驗并對比VGGish 和VGG16 抽取的深度特征向量在不同分類器(SVM,kNN 和ELM)中的識別性能.

(1)SVM

支持向量機(Suport Vector Machine,SVM)[31]是在分類與回歸分析中分析數(shù)據的監(jiān)督式學習模型與相關的學習算法.原始數(shù)據是在有限維空間中分布的,但一般區(qū)分的集合在該空間中往往線性不可分.為此,SVM將原有限維空間映射到維數(shù)高更高的空間中,并在高維或無限維空間中構造超平面或超平面集合用以劃分不同的集合.為了保持計算負荷合理,人們選擇適合該問題的核函數(shù)k(x,y)來定義SVM 方案使用的映射,以確保用原始空間中的變量可以很容易計算點積.在本文中,我們分別采用線性核函數(shù)(LinearSVM)和高斯核函數(shù)作為支持向量機的核函數(shù),高斯核函數(shù)表示如式(1),其中 σ是帶寬.

(2)kNN

k 最近鄰(k-Nearest Neighbor,kNN)[32]分類算法是是一種用于分類和回歸的非參數(shù)統(tǒng)計方法.在這兩種情況下,輸入包含特征空間(Feature Space)中的k個最接近的訓練樣本.在kNN 分類中,輸出是一個分類族群.一個對象的分類由其鄰居的“多數(shù)表決”確定,k個最近鄰居(k為正整數(shù),通常較小)中最常見的分類決定了賦予該對象的類別.若k=1,則該對象的類別直接由最近的一個節(jié)點賦予.kNN 是基于實例(Instancebased)的學習方法,kNN 算法沒有訓練的步驟,因為數(shù)據集就是模型本身,在有新樣本輸入時,將測量樣本與訓練集中每個點的距離,選擇k個最接近的點作為k最近鄰,新樣本的類別即為k個點中數(shù)量最多的類別,可以描述為以下公式:

其中,Ci為K 近鄰點中類別為i的點的個數(shù),k和點之間的距離度量方式是可選的參數(shù),經過實驗,本選取歐式距離作為度量,k取值為5.

(3)ELM

極限學習機(Extreme Learning Machine,ELM)[33]實際上也屬于前饋神經網絡,極限學習機的出現(xiàn)主要是為了解決神經網絡訓練訓練速度慢的問題.傳統(tǒng)的前饋神經網絡(如BP 神經網絡)需要人為設置大量的網絡訓練參數(shù),此算法卻只需要設定網絡的結構,而不需設置其他參數(shù),因此具有簡單易用的特點.其輸入層到隱藏層的權值是一次隨機確定的,算法執(zhí)行過程中不需要再調整,而隱藏層到輸出層的權值只需解一個線性方程組來確定,因此可以提升計算速度.

極限學習機原理如下:其中W1是輸入向量到隱藏節(jié)點層的權重矩陣,σ是激活函數(shù),W2是隱藏節(jié)點層到輸出向量的權重矩陣.

ELM 對超參數(shù)敏感,我們對其進行了參數(shù)搜索,并使用ReLU 作為非線性激活函數(shù).其中,ELM 的主要超參數(shù)是隱藏的單元數(shù):100、250、500、1200、1800、2500.本文使用開源ELM 實現(xiàn),該代碼可從https://github.com/zygmuntz/Python-ELM 獲取.

2.3 微調

如圖4所示,實驗選擇了基于VGG 與訓練的VGG16網絡進行微調,其中VGG16 網絡的輸入為[3,224,224],VGGISH 的輸入為[96,64],本文使用Python 的librosa擴展包計算音頻的梅爾頻譜圖作為網絡的輸入.考慮到實驗所用數(shù)據集音頻時長,我們無法微調整個網絡,因此在實驗中只微調了嵌入層(Embeddinglayers),并使用一些正則化技術訓練一個簡單的多層感知機(MLP,Multiayer Perceptron),使用ReLU 激活函數(shù),Batch Norm 正則化和Dropout 的前連接隱藏層,最終輸出為5 類.

圖4 使用音頻頻譜對VGG16 預訓練網絡進行微調

圖5 A～E 五類音頻波形及梅爾頻譜

3 實驗及結果分析

3.1 數(shù)據集

本文使用的船只噪聲數(shù)據來自2012年至2013年間在西班牙海岸不同地區(qū)錄制的ShipsEar[29]數(shù)據集.該數(shù)據集共有在15 s 到10 分鐘以內的11 種艦船類型共計90 條記錄,按照數(shù)據集原文的標注,根據艦船種類的可以將它們合并為A、B、C、D 各4 個大類,以及E 類1 個背景噪聲,如圖5所示為選取5 個類的音頻波形及其梅爾頻譜實例,其中,橫軸為時間,縱軸分別為振幅和梅爾頻率.詳細劃分如表1所示.

表1 ShipsEar 數(shù)據集詳情

3.2 評價指標

我們將模型預測值與真實標簽進行比較,獲取測試中所有樣例的真正例(TP),假正例(FP),真負例(TN)和假負例(FN)個數(shù).并針對每一個實驗結果分別計算準確率、召回率及F1 函數(shù),用以全面而準確地度量來實驗結果.其中,準確率是所有正確被檢索的結果(TP)占所有實際被檢索到的(TP+FP)的比例;召回率是所有正確被檢索的結果(TP)占所有應該檢索到的結果(TP+FN)的比例;F1 是準確率和召回率的調和平均數(shù).這些指標可以用以下公式表示:

3.3 實驗結果和分析

本文選取當前在ShipEar 數(shù)據上使用神經網絡取得的最好分類結果的論文:基于深度玻爾茲曼機的水聲目標識別[3]作為對照文章.該方法是一種可通過輸入數(shù)據集學習概率分布的隨機生成神經網絡.

(1)基于預訓練網絡特征提取的識別效果

如表2所示,將VGGish 及VGG16 分別直接作為特征提取器,得到的特征向量分別作為不同分類器的輸入.在使用VGG16 的特征向量與最近鄰分類算法kNN 組合時,取得了最好的分類結果,平均最優(yōu)準確率為90.26%,與當前最好的結果DBM[3]只差了不到0.5 個百分點.此外,VGGish 特征向量在與支持向量機SVM組合時也取得了準確率為87.78%比較理想的分類結果.

表2 不同訓練網絡特征向量與不同分類器的性能指標

(2)基于微調預訓練網絡的識別效果

本文將基于音頻數(shù)據集預訓練的VGGish 及基于圖片數(shù)據集預訓練的VGG16 分別去掉原始Softmax層之后,加入不同的全連接層和新的Softmax 輸出層,如表3所示,在VGGish 上取得的最優(yōu)準確率為89.22%,在VGG16 上最優(yōu)準確率為92.48%.相對當前最優(yōu)的DBM 網絡的90.70%,本文提出的算法有比較明顯的性能提升.

表3 微調VGGISH、VGG16 及DBM 網絡性能指標

如圖6所示,對于添加一個神經元個數(shù)為1024 隱層的VGG16 網絡,當使用對數(shù)損失函數(shù)時,損失函數(shù)隨訓練次數(shù)的變化,在大約200 次迭代后即收斂,相比DBM[3]的收斂速度大約提升了5 倍.

圖6 VGG16 在訓練集上的錯誤率

如圖7所示,橫軸為真實值,縱軸為預測值,可以看出,針對類別E,即環(huán)境噪聲的平均預測準確率為98%左右,且不存在漏判,即沒有識別出將艦船噪聲并當做環(huán)境音;算法對于針對A、B、C、D 四類艦船噪聲的識別準確率分別為90%、83%、92%、93%.其中,針對B 類相對較低的準確率,僅為83%,通過對ShipsEar 數(shù)據集的分析,我們認為是B 類數(shù)據的量相對于A、C、D 類原始數(shù)據的相對不均衡,這個問題可以通過進一步擴充數(shù)據集得到避免.總的來說,我們提出的基于遷移學習的水聲目標識別算法,多次試驗平均最優(yōu)準確率為92.48%,取得了當前最好的分類效果,在算法訓練和數(shù)據處理上也有比較明顯的優(yōu)勢.

4 結論與展望

在水聲目標識別受限于海洋環(huán)境的復雜性,而難以提取有效的目標特征并進行分類的背景下,本文首次采用基于遷移學習的水聲目標識別方法,分別采用預訓練網絡特征提取和微調兩種遷移學習方法,并應用ShipsEar 數(shù)據集,進行了算法驗證.結果表明,與當前最好的DBM 分類算法相比,我們取得了92.48%的最好平均準確率.總的來說,通過實驗我們驗證了遷移學習應用于水聲目標分類中的可行性,并且遷移學習可以解決在音頻領域的數(shù)據稀疏問題.此外,這種思路也許可以被用于很多不同的音頻任務,具有廣闊的應用前景.

圖7 5 個類的分類混淆矩陣

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看