凡志邈,夏偉杰,劉 雪
(南京航空航天大學(xué)電子信息工程學(xué)院,江蘇南京 210016)
受水中介質(zhì)復(fù)雜性的影響,電磁波易被吸收,導(dǎo)致在水中的傳播距離很短,難以實(shí)現(xiàn)遠(yuǎn)距離探測(cè)任務(wù),而聲波在水中可傳播數(shù)十千米,是一種較為理想的傳播信號(hào)。低頻段下,聲波傳播距離較遠(yuǎn),可以直接利用信號(hào)的頻譜等特征實(shí)現(xiàn)噪聲識(shí)別工作(如艦船噪聲);而高頻階段,在幾百米范圍內(nèi)可以實(shí)現(xiàn)聲吶目標(biāo)的成像,目前成像聲吶逐漸成為海洋水聲探測(cè)行業(yè)的必需設(shè)備之一[1]。由于水下環(huán)境復(fù)雜,實(shí)際作業(yè)難度大,難以獲取大量數(shù)據(jù)樣本。然而目前許多水下工程研究都需要較大的數(shù)據(jù)樣本,如利用深度學(xué)習(xí)實(shí)現(xiàn)水下目標(biāo)分類與檢測(cè)網(wǎng)絡(luò)的訓(xùn)練需要大量的聲吶圖像,但現(xiàn)實(shí)中無(wú)法收集到大量的聲吶圖像。在現(xiàn)有文獻(xiàn)中,并沒(méi)有直接用于聲吶圖像生成的資料,大多數(shù)采用多波束技術(shù)生成聲吶圖像[2]。很多研究人員已經(jīng)在合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)和遙感光學(xué)圖像之間的映射方面取得一定的進(jìn)步。如Schmitt等[3]利用Pix2Pix成功實(shí)現(xiàn)了SAR圖像到遙感光學(xué)圖像之間的映射。由于聲吶成像的原理與雷達(dá)成像有很多相似之處,聲吶也因此扮演著水下雷達(dá)的角色。本文受到SAR圖像與遙感光學(xué)圖像之間圖像遷移思想的啟發(fā),借助SAR圖像與遙感光學(xué)圖像的映射及圖像風(fēng)格遷移思想,提出基于CycleGAN模型利用光學(xué)圖像合成聲吶圖像,實(shí)現(xiàn)聲吶圖像庫(kù)的構(gòu)建方法。
CycleGAN的總損失由對(duì)抗損失LGAN和循環(huán)一致性損失Lcyc兩部分組成,可由式(1)表示[9]:
其中:λ是用來(lái)控制循環(huán)一致性損失在整體損失中的占比。
圖1 CycleGAN模型框架Fig.1 The framework of CycleGAN model
對(duì)抗損失[9]:
式中:log主要用于求極值,其底為2、e、10均可。式(2)表示正向?qū)箵p失,反向?qū)箵p失與其類似,即對(duì)抗損失采用交叉熵?fù)p失函數(shù)。
循環(huán)一致性損失[9]:
式(3)中,fλ和bλ分別控制前向循環(huán)損失和后向循環(huán)損失的占比。
在訓(xùn)練時(shí),生成器與鑒別器交替更新,直到判別器的損失接近0.5,即達(dá)到納什平衡條件。循環(huán)一致性損失用來(lái)防止生成器G和F產(chǎn)生過(guò)擬合,避免所有的光學(xué)圖像全部映射到聲吶圖像中的一張圖像上。
CycleGAN網(wǎng)絡(luò)在實(shí)現(xiàn)圖像風(fēng)格遷移時(shí)不需要匹配的數(shù)據(jù)集,且在紋理和色彩轉(zhuǎn)換方面有一定的優(yōu)勢(shì)[10],但是在訓(xùn)練過(guò)程中CycleGAN容易出現(xiàn)模型崩塌的現(xiàn)象,接下來(lái)從CycleGAN損失函數(shù)進(jìn)行改進(jìn),以緩解該情況的發(fā)生,使最終合成的聲吶圖像有更好的效果。
(1)將原始的GAN損失公式中的對(duì)數(shù)似然損失用平方損失替換(如式(4)所示),可以增加網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。
(2)增加一個(gè)恒等損失函數(shù),該損失函數(shù)在CycleGAN的實(shí)際應(yīng)用部分被提及[9],用來(lái)增強(qiáng)圖像翻譯色調(diào)的準(zhǔn)確性。CycleGAN中的重構(gòu)損失主要由兩部分組成:GAN損失和循環(huán)一致?lián)p失,其中GAN損失實(shí)現(xiàn)類別遷移,而循環(huán)一致?lián)p失保證循環(huán)遷移。除此之外,在本文實(shí)驗(yàn)中加入一個(gè)恒等損失,用來(lái)防止循環(huán)遷移過(guò)多,其對(duì)應(yīng)的表示形式為[9]
(3)為了加快網(wǎng)絡(luò)的收斂速度,在判別器的損失函數(shù)中加入Wasserstein距離[6],其定義為
其中KL為KL(Kullback-Leibler)散度,表達(dá)式為[7]
而在此情況下,Wasserstein距離仍然可以體現(xiàn)兩個(gè)分布的距離,因此本文利用Wasserstein距離作為正則項(xiàng),指導(dǎo)CycleGAN模型的訓(xùn)練,有效緩解模式崩塌問(wèn)題。對(duì)Wasserstein距離的實(shí)際求解需要滿足利普希茨連續(xù)條件(Lipschitz)[11]:判別損失函數(shù)梯度不能超過(guò)常數(shù)K,如式(19)所示:
其中,Relu(?)為激活函數(shù),p表示判別器梯度求范數(shù),本文取值為2;K值取1即表示本文采用1-Lipschitz約束條件。
改進(jìn)后,CycleGAN模型的判別器損失函數(shù)為
其中,λw為超參數(shù);
CycleGAN模型改進(jìn)前后,鑒別器的損失函數(shù)變化曲線如圖2所示。從圖2可見,采用Wassrestein距離修正后的鑒別器,損失函數(shù)有更好的收斂效果。
在本實(shí)驗(yàn)中,分別采集了不同目標(biāo)的光學(xué)圖像和聲吶圖像,并用它們來(lái)訓(xùn)練CycleGAN模型。本文對(duì)三種目標(biāo)的聲吶圖像進(jìn)行了合成實(shí)驗(yàn),分別是三角形、飲料瓶以及輪胎。因此,需要采集相應(yīng)的光學(xué)圖像和聲吶圖像,并且每個(gè)實(shí)驗(yàn)都是獨(dú)立進(jìn)行的。對(duì)于光學(xué)圖像,由于沒(méi)有現(xiàn)成的數(shù)據(jù)集可供使用,我們通過(guò)網(wǎng)絡(luò)爬?。ㄈ顼嬃掀?、輪胎)以及采用繪圖軟件手工繪制方式(如三角架)獲得。本文采用了英國(guó)的Tritech公司生產(chǎn)的Gemini720前視二維成像聲吶采集聲吶圖像,圖像分辨率為 1024×768×3,但是由于圖像中實(shí)際目標(biāo)占比較小,因此根據(jù)目標(biāo)大小按照特定比例進(jìn)行裁剪,最終使所有圖像的分辨率均為256×256×3。具體實(shí)驗(yàn)數(shù)據(jù)集組成如表1所示。
圖2 改進(jìn)前后CycleGAN模型鑒別損失函數(shù)對(duì)比Fig.2 Comparison of discriminator loss functions of CycleGAN before and after improvement
表1 CycleGAN模型實(shí)現(xiàn)光學(xué)到聲吶圖像遷移數(shù)據(jù)集構(gòu)成Table 1 The datasets for training CycleGAN to transfer optical image to sonar image
每類目標(biāo)的聲吶圖像合成實(shí)驗(yàn)分開訓(xùn)練,如圖3所示為最終的合成效果,同時(shí)為了對(duì)比本文改進(jìn)的CycleGAN網(wǎng)絡(luò)實(shí)現(xiàn)的光學(xué)到聲吶的圖像風(fēng)格轉(zhuǎn)換效果,本文還訓(xùn)練了Pix2Pix、MUNIT[12]、DiscoGAN[13]。訓(xùn)練時(shí)的具體參數(shù)設(shè)置如表2所示。
表2 CycleGAN模型訓(xùn)練參數(shù)設(shè)置Table 2 Training parameter setting of CycleGAN
圖3 基于CycleGAN實(shí)現(xiàn)光學(xué)到聲吶圖像的風(fēng)格轉(zhuǎn)換Fig.3 Style transfer from optical image to sonar image based on CycleGAN
從圖3中的實(shí)驗(yàn)結(jié)果可以看出,訓(xùn)練的網(wǎng)絡(luò)都能實(shí)現(xiàn)從光學(xué)到聲吶圖像的風(fēng)格遷移,但是最終的效果卻不同。Pix2Pix模型可以生成三角架和飲料瓶,但是輪胎的生成效果不好,此外當(dāng)輸入不同的測(cè)試圖片時(shí),合成的聲吶圖像總是相同。從圖3中可以看出,MUNIT和DiscoGAN模型合成的聲吶圖像的分辨率很低;原CycleGAN模型合成的聲吶圖像出現(xiàn)像素點(diǎn)缺失現(xiàn)象,相較之下,經(jīng)過(guò)修正的CycleGAN模型合成的聲吶圖像與真實(shí)的聲吶圖相較接近,并且對(duì)不同的輸入也能合成不同的聲吶圖像,從而保證聲吶圖像的多樣性,如圖4所示。
為了進(jìn)一步驗(yàn)證生成的聲吶圖像的效果,本文還開展了目標(biāo)檢測(cè)實(shí)驗(yàn)。實(shí)驗(yàn)開展分成兩步,先對(duì)生成的每一類目標(biāo)進(jìn)行了單目標(biāo)檢測(cè),然后將生成的所有數(shù)據(jù)集混合,進(jìn)行多目標(biāo)檢測(cè)。每一次實(shí)驗(yàn)數(shù)據(jù)集的組成如表3所示,其中訓(xùn)練集和驗(yàn)證集通過(guò)本文方法而生成,通過(guò)成像聲吶獲取測(cè)試集。
圖4 合成聲圖像的多樣性Fig.4 Diversity of synthetic sonar images
表3 目標(biāo)檢測(cè)數(shù)據(jù)集組成Table 3 Composition of object detection datasets
在目標(biāo)檢測(cè)實(shí)驗(yàn)中,采用的是 Mask RCNN[14]模型,它是在Faster RCNN[15]基礎(chǔ)上的改進(jìn),增加了一個(gè)用于分割任務(wù)的分支。雖然在檢測(cè)速度上較Faster RCNN慢,但是檢測(cè)精度有很大的提升。目前,利用Mask RCNN可以實(shí)現(xiàn)目標(biāo)的檢測(cè)、識(shí)別、分割以及人體姿態(tài)估計(jì)等任務(wù)。本文中Mask RCNN的特征提取網(wǎng)絡(luò)采用一個(gè)32層的卷積神經(jīng)網(wǎng)絡(luò),為了解決模型的退化問(wèn)題,在部分層中采用了殘差模塊[16]。
目標(biāo)檢測(cè)結(jié)果如圖5所示,圖5(a)~5(b)中左側(cè)為輸入,右側(cè)為輸出結(jié)果,右側(cè)圖形中的數(shù)據(jù)為置信度,即檢測(cè)到目標(biāo)落在規(guī)定的置信度區(qū)間的概率。(1)對(duì)于單目標(biāo)的檢測(cè),圖5(a)是三角架目標(biāo)的檢測(cè)結(jié)果。從圖5(a)中可以看到,三角架目標(biāo)被成功地檢測(cè)出來(lái),并且所有的三角架測(cè)試圖片均被檢測(cè)出來(lái),檢測(cè)率達(dá)到100%。圖5(b)為飲料瓶的檢測(cè)結(jié)果,飲料瓶也被成功檢測(cè)到,所有的飲料瓶測(cè)試圖片中8張圖片未被成功檢出,單目標(biāo)飲料瓶的檢測(cè)率約為96.2%。圖5(c)為輪胎目標(biāo)的檢測(cè)結(jié)果,輪胎目標(biāo)被檢測(cè)出來(lái),所有的輪胎測(cè)試圖片中5張沒(méi)有檢測(cè)到任何目標(biāo),檢測(cè)率約為97.6%;因此從單目標(biāo)的檢測(cè)結(jié)果來(lái)看,利用CycleGAN模型構(gòu)建的聲吶圖像庫(kù)可以用于目標(biāo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練。(2)對(duì)于多目標(biāo)的檢測(cè)如圖5(d)所示,左邊為輸入的多目標(biāo)圖像,圖中的目標(biāo)有三角架、飲料瓶、輪胎,右邊為檢測(cè)結(jié)果;從檢測(cè)結(jié)果可以看出,多目標(biāo)輸入的情況下,對(duì)應(yīng)的目標(biāo)也成功被檢測(cè)出來(lái),進(jìn)一步驗(yàn)證了CycleGAN模型生成的聲吶圖像的有效性。
圖5 目標(biāo)檢測(cè)結(jié)果Fig.5 The results of object detection
本文提出了采用CycleGAN網(wǎng)絡(luò),利用光學(xué)到聲吶圖像風(fēng)格遷移,實(shí)現(xiàn)聲吶圖像庫(kù)的構(gòu)建。通過(guò)對(duì)損失函數(shù)進(jìn)行改進(jìn),加快網(wǎng)絡(luò)的收斂速度,提高了CycleGAN網(wǎng)絡(luò)的性能。通過(guò)與不同風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行比較,結(jié)果表明修正后的CycleGAN能生成更好的聲吶圖像。最后用合成的聲吶圖像訓(xùn)練Mask RCNN網(wǎng)絡(luò),并用真實(shí)的聲吶圖像進(jìn)行測(cè)試,訓(xùn)練后的模型能夠成功檢測(cè)出目標(biāo),進(jìn)一步驗(yàn)證了本文構(gòu)建的聲吶圖像庫(kù)的有效性。但是本文方法也有一定的局限性,并不是對(duì)輸入的所有測(cè)試圖片都能合成一個(gè)比較理想的聲吶圖像,因此在聲吶圖像庫(kù)的構(gòu)建過(guò)程中,需要用到大量的光學(xué)圖像,從合成中的聲吶圖像中人為地選出合適的結(jié)果。