基于修正CycleGAN的聲吶圖像庫(kù)構(gòu)建方法研究

2022-01-21 15:20:34凡志邈夏偉杰

聲學(xué)技術(shù) 2021年6期

凡志邈，夏偉杰，劉雪

（南京航空航天大學(xué)電子信息工程學(xué)院，江蘇南京 210016）

0 引言

受水中介質(zhì)復(fù)雜性的影響，電磁波易被吸收，導(dǎo)致在水中的傳播距離很短，難以實(shí)現(xiàn)遠(yuǎn)距離探測(cè)任務(wù)，而聲波在水中可傳播數(shù)十千米，是一種較為理想的傳播信號(hào)。低頻段下，聲波傳播距離較遠(yuǎn)，可以直接利用信號(hào)的頻譜等特征實(shí)現(xiàn)噪聲識(shí)別工作（如艦船噪聲）；而高頻階段，在幾百米范圍內(nèi)可以實(shí)現(xiàn)聲吶目標(biāo)的成像，目前成像聲吶逐漸成為海洋水聲探測(cè)行業(yè)的必需設(shè)備之一[1]。由于水下環(huán)境復(fù)雜，實(shí)際作業(yè)難度大，難以獲取大量數(shù)據(jù)樣本。然而目前許多水下工程研究都需要較大的數(shù)據(jù)樣本，如利用深度學(xué)習(xí)實(shí)現(xiàn)水下目標(biāo)分類與檢測(cè)網(wǎng)絡(luò)的訓(xùn)練需要大量的聲吶圖像，但現(xiàn)實(shí)中無(wú)法收集到大量的聲吶圖像。在現(xiàn)有文獻(xiàn)中，并沒(méi)有直接用于聲吶圖像生成的資料，大多數(shù)采用多波束技術(shù)生成聲吶圖像[2]。很多研究人員已經(jīng)在合成孔徑雷達(dá)（Synthetic Aperture Radar,SAR）和遙感光學(xué)圖像之間的映射方面取得一定的進(jìn)步。如Schmitt等[3]利用Pix2Pix成功實(shí)現(xiàn)了SAR圖像到遙感光學(xué)圖像之間的映射。由于聲吶成像的原理與雷達(dá)成像有很多相似之處，聲吶也因此扮演著水下雷達(dá)的角色。本文受到SAR圖像與遙感光學(xué)圖像之間圖像遷移思想的啟發(fā)，借助SAR圖像與遙感光學(xué)圖像的映射及圖像風(fēng)格遷移思想，提出基于CycleGAN模型利用光學(xué)圖像合成聲吶圖像，實(shí)現(xiàn)聲吶圖像庫(kù)的構(gòu)建方法。

1 CycleGAN理論

1.1 CycleGAN網(wǎng)絡(luò)

CycleGAN的總損失由對(duì)抗損失LGAN和循環(huán)一致性損失Lcyc兩部分組成，可由式（1）表示[9]：

其中：λ是用來(lái)控制循環(huán)一致性損失在整體損失中的占比。

圖1 CycleGAN模型框架Fig.1 The framework of CycleGAN model

對(duì)抗損失[9]：

式中：log主要用于求極值，其底為2、e、10均可。式（2）表示正向?qū)箵p失，反向?qū)箵p失與其類似，即對(duì)抗損失采用交叉熵?fù)p失函數(shù)。

循環(huán)一致性損失[9]：

式（3）中，fλ和bλ分別控制前向循環(huán)損失和后向循環(huán)損失的占比。

在訓(xùn)練時(shí)，生成器與鑒別器交替更新，直到判別器的損失接近0.5，即達(dá)到納什平衡條件。循環(huán)一致性損失用來(lái)防止生成器G和F產(chǎn)生過(guò)擬合，避免所有的光學(xué)圖像全部映射到聲吶圖像中的一張圖像上。

1.2 CycleGAN網(wǎng)絡(luò)改進(jìn)

CycleGAN網(wǎng)絡(luò)在實(shí)現(xiàn)圖像風(fēng)格遷移時(shí)不需要匹配的數(shù)據(jù)集，且在紋理和色彩轉(zhuǎn)換方面有一定的優(yōu)勢(shì)[10]，但是在訓(xùn)練過(guò)程中CycleGAN容易出現(xiàn)模型崩塌的現(xiàn)象，接下來(lái)從CycleGAN損失函數(shù)進(jìn)行改進(jìn)，以緩解該情況的發(fā)生，使最終合成的聲吶圖像有更好的效果。

（1）將原始的GAN損失公式中的對(duì)數(shù)似然損失用平方損失替換（如式（4）所示），可以增加網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。

（2）增加一個(gè)恒等損失函數(shù)，該損失函數(shù)在CycleGAN的實(shí)際應(yīng)用部分被提及[9]，用來(lái)增強(qiáng)圖像翻譯色調(diào)的準(zhǔn)確性。CycleGAN中的重構(gòu)損失主要由兩部分組成：GAN損失和循環(huán)一致?lián)p失，其中GAN損失實(shí)現(xiàn)類別遷移，而循環(huán)一致?lián)p失保證循環(huán)遷移。除此之外，在本文實(shí)驗(yàn)中加入一個(gè)恒等損失，用來(lái)防止循環(huán)遷移過(guò)多，其對(duì)應(yīng)的表示形式為[9]

（3）為了加快網(wǎng)絡(luò)的收斂速度，在判別器的損失函數(shù)中加入Wasserstein距離[6]，其定義為

其中KL為KL（Kullback-Leibler）散度，表達(dá)式為[7]

而在此情況下，Wasserstein距離仍然可以體現(xiàn)兩個(gè)分布的距離，因此本文利用Wasserstein距離作為正則項(xiàng)，指導(dǎo)CycleGAN模型的訓(xùn)練，有效緩解模式崩塌問(wèn)題。對(duì)Wasserstein距離的實(shí)際求解需要滿足利普希茨連續(xù)條件（Lipschitz）[11]：判別損失函數(shù)梯度不能超過(guò)常數(shù)K，如式（19）所示：

其中，Relu（?）為激活函數(shù)，p表示判別器梯度求范數(shù)，本文取值為2；K值取1即表示本文采用1-Lipschitz約束條件。

改進(jìn)后，CycleGAN模型的判別器損失函數(shù)為

其中，λw為超參數(shù)；

CycleGAN模型改進(jìn)前后，鑒別器的損失函數(shù)變化曲線如圖2所示。從圖2可見，采用Wassrestein距離修正后的鑒別器，損失函數(shù)有更好的收斂效果。

2 基于CycleGAN模型的聲吶圖像組成

2.1 實(shí)驗(yàn)數(shù)據(jù)獲取

在本實(shí)驗(yàn)中，分別采集了不同目標(biāo)的光學(xué)圖像和聲吶圖像，并用它們來(lái)訓(xùn)練CycleGAN模型。本文對(duì)三種目標(biāo)的聲吶圖像進(jìn)行了合成實(shí)驗(yàn)，分別是三角形、飲料瓶以及輪胎。因此，需要采集相應(yīng)的光學(xué)圖像和聲吶圖像，并且每個(gè)實(shí)驗(yàn)都是獨(dú)立進(jìn)行的。對(duì)于光學(xué)圖像，由于沒(méi)有現(xiàn)成的數(shù)據(jù)集可供使用，我們通過(guò)網(wǎng)絡(luò)爬?。ㄈ顼嬃掀?、輪胎）以及采用繪圖軟件手工繪制方式（如三角架）獲得。本文采用了英國(guó)的Tritech公司生產(chǎn)的Gemini720前視二維成像聲吶采集聲吶圖像，圖像分辨率為 1024×768×3，但是由于圖像中實(shí)際目標(biāo)占比較小，因此根據(jù)目標(biāo)大小按照特定比例進(jìn)行裁剪，最終使所有圖像的分辨率均為256×256×3。具體實(shí)驗(yàn)數(shù)據(jù)集組成如表1所示。

圖2 改進(jìn)前后CycleGAN模型鑒別損失函數(shù)對(duì)比Fig.2 Comparison of discriminator loss functions of CycleGAN before and after improvement

表1 CycleGAN模型實(shí)現(xiàn)光學(xué)到聲吶圖像遷移數(shù)據(jù)集構(gòu)成Table 1 The datasets for training CycleGAN to transfer optical image to sonar image

2.2 實(shí)驗(yàn)結(jié)果與分析

每類目標(biāo)的聲吶圖像合成實(shí)驗(yàn)分開訓(xùn)練，如圖3所示為最終的合成效果，同時(shí)為了對(duì)比本文改進(jìn)的CycleGAN網(wǎng)絡(luò)實(shí)現(xiàn)的光學(xué)到聲吶的圖像風(fēng)格轉(zhuǎn)換效果，本文還訓(xùn)練了Pix2Pix、MUNIT[12]、DiscoGAN[13]。訓(xùn)練時(shí)的具體參數(shù)設(shè)置如表2所示。

表2 CycleGAN模型訓(xùn)練參數(shù)設(shè)置Table 2 Training parameter setting of CycleGAN

圖3 基于CycleGAN實(shí)現(xiàn)光學(xué)到聲吶圖像的風(fēng)格轉(zhuǎn)換Fig.3 Style transfer from optical image to sonar image based on CycleGAN

從圖3中的實(shí)驗(yàn)結(jié)果可以看出，訓(xùn)練的網(wǎng)絡(luò)都能實(shí)現(xiàn)從光學(xué)到聲吶圖像的風(fēng)格遷移，但是最終的效果卻不同。Pix2Pix模型可以生成三角架和飲料瓶，但是輪胎的生成效果不好，此外當(dāng)輸入不同的測(cè)試圖片時(shí)，合成的聲吶圖像總是相同。從圖3中可以看出，MUNIT和DiscoGAN模型合成的聲吶圖像的分辨率很低；原CycleGAN模型合成的聲吶圖像出現(xiàn)像素點(diǎn)缺失現(xiàn)象，相較之下，經(jīng)過(guò)修正的CycleGAN模型合成的聲吶圖像與真實(shí)的聲吶圖相較接近，并且對(duì)不同的輸入也能合成不同的聲吶圖像，從而保證聲吶圖像的多樣性，如圖4所示。

3 基于Mask RCNN的合成聲吶圖像的目標(biāo)檢測(cè)實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證生成的聲吶圖像的效果，本文還開展了目標(biāo)檢測(cè)實(shí)驗(yàn)。實(shí)驗(yàn)開展分成兩步，先對(duì)生成的每一類目標(biāo)進(jìn)行了單目標(biāo)檢測(cè)，然后將生成的所有數(shù)據(jù)集混合，進(jìn)行多目標(biāo)檢測(cè)。每一次實(shí)驗(yàn)數(shù)據(jù)集的組成如表3所示，其中訓(xùn)練集和驗(yàn)證集通過(guò)本文方法而生成，通過(guò)成像聲吶獲取測(cè)試集。

圖4 合成聲圖像的多樣性Fig.4 Diversity of synthetic sonar images

表3 目標(biāo)檢測(cè)數(shù)據(jù)集組成Table 3 Composition of object detection datasets

在目標(biāo)檢測(cè)實(shí)驗(yàn)中，采用的是 Mask RCNN[14]模型，它是在Faster RCNN[15]基礎(chǔ)上的改進(jìn)，增加了一個(gè)用于分割任務(wù)的分支。雖然在檢測(cè)速度上較Faster RCNN慢，但是檢測(cè)精度有很大的提升。目前，利用Mask RCNN可以實(shí)現(xiàn)目標(biāo)的檢測(cè)、識(shí)別、分割以及人體姿態(tài)估計(jì)等任務(wù)。本文中Mask RCNN的特征提取網(wǎng)絡(luò)采用一個(gè)32層的卷積神經(jīng)網(wǎng)絡(luò)，為了解決模型的退化問(wèn)題，在部分層中采用了殘差模塊[16]。

目標(biāo)檢測(cè)結(jié)果如圖5所示，圖5（a）～5（b）中左側(cè)為輸入，右側(cè)為輸出結(jié)果，右側(cè)圖形中的數(shù)據(jù)為置信度，即檢測(cè)到目標(biāo)落在規(guī)定的置信度區(qū)間的概率。（1）對(duì)于單目標(biāo)的檢測(cè)，圖5（a）是三角架目標(biāo)的檢測(cè)結(jié)果。從圖5（a）中可以看到，三角架目標(biāo)被成功地檢測(cè)出來(lái)，并且所有的三角架測(cè)試圖片均被檢測(cè)出來(lái)，檢測(cè)率達(dá)到100%。圖5（b）為飲料瓶的檢測(cè)結(jié)果，飲料瓶也被成功檢測(cè)到，所有的飲料瓶測(cè)試圖片中8張圖片未被成功檢出，單目標(biāo)飲料瓶的檢測(cè)率約為96.2%。圖5（c）為輪胎目標(biāo)的檢測(cè)結(jié)果，輪胎目標(biāo)被檢測(cè)出來(lái)，所有的輪胎測(cè)試圖片中5張沒(méi)有檢測(cè)到任何目標(biāo)，檢測(cè)率約為97.6%；因此從單目標(biāo)的檢測(cè)結(jié)果來(lái)看，利用CycleGAN模型構(gòu)建的聲吶圖像庫(kù)可以用于目標(biāo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練。（2）對(duì)于多目標(biāo)的檢測(cè)如圖5（d）所示，左邊為輸入的多目標(biāo)圖像，圖中的目標(biāo)有三角架、飲料瓶、輪胎，右邊為檢測(cè)結(jié)果；從檢測(cè)結(jié)果可以看出，多目標(biāo)輸入的情況下，對(duì)應(yīng)的目標(biāo)也成功被檢測(cè)出來(lái)，進(jìn)一步驗(yàn)證了CycleGAN模型生成的聲吶圖像的有效性。

圖5 目標(biāo)檢測(cè)結(jié)果Fig.5 The results of object detection

4 結(jié) 論

本文提出了采用CycleGAN網(wǎng)絡(luò)，利用光學(xué)到聲吶圖像風(fēng)格遷移，實(shí)現(xiàn)聲吶圖像庫(kù)的構(gòu)建。通過(guò)對(duì)損失函數(shù)進(jìn)行改進(jìn)，加快網(wǎng)絡(luò)的收斂速度，提高了CycleGAN網(wǎng)絡(luò)的性能。通過(guò)與不同風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行比較，結(jié)果表明修正后的CycleGAN能生成更好的聲吶圖像。最后用合成的聲吶圖像訓(xùn)練Mask RCNN網(wǎng)絡(luò)，并用真實(shí)的聲吶圖像進(jìn)行測(cè)試，訓(xùn)練后的模型能夠成功檢測(cè)出目標(biāo)，進(jìn)一步驗(yàn)證了本文構(gòu)建的聲吶圖像庫(kù)的有效性。但是本文方法也有一定的局限性，并不是對(duì)輸入的所有測(cè)試圖片都能合成一個(gè)比較理想的聲吶圖像，因此在聲吶圖像庫(kù)的構(gòu)建過(guò)程中，需要用到大量的光學(xué)圖像，從合成中的聲吶圖像中人為地選出合適的結(jié)果。