鞏文靜 田 杰 李寶奇 劉紀元
(1 中國科學院聲學研究所 北京 100190)
(2 中國科學院大學 北京 100049)
(3 中國科學院先進水下信息技術重點實驗室 北京 100190)
水下目標成像及分類可以通過不同的成像技術實現(xiàn),利用光學傳感器獲得的圖像分辨率較高、目標較為直觀[1],在目標分類研究中有重要應用。Gleason等[2]使用監(jiān)督分類的方法對水下光學圖像中的目標和海床進行分類,將海床的局部地形或高度作為附加特征添加到分類器中,具有一定的有效性;Pramunendar等[3]提出了一種應用于反向傳播神經(jīng)網(wǎng)絡的圖像增強模型,通過選擇合適的插值方法和反向傳播神經(jīng)網(wǎng)絡結構提高圖像分辨率,取得了較高的分類準確率;王士龍等[4]提取目標的邊界矩,利用改進的FCM 聚類算法較好地實現(xiàn)了對水下目標的分類識別。
雖然以上利用光圖實現(xiàn)水下目標分類已經(jīng)取得了一定成果,但是受成像條件復雜性的影響,水下光成像作用距離近,圖像對比度較差。由于聲吶的探測距離較遠,成像范圍較大[5?6],聲成像技術的不斷發(fā)展使得利用聲吶圖像進行目標分析成為可能[7?9]。Sinai等[10]利用C-V輪廓算法將聲吶圖像分割為目標及陰影兩部分,通過人工提取幾何特征來實現(xiàn)水下目標分類;Williams[11]利用卷積神經(jīng)網(wǎng)絡將水聲圖像分為有目標和無目標兩類,取得了滿意的效果;朱可卿等[12]使用高斯混合模型對聲圖的陰影部分進行提取,設計融合分類器實現(xiàn)對水下沉底小目標的分類,分類性能較好。
然而,受聲吶自身技術參數(shù)的限制以及水下噪聲、混響的影響,聲成像的清晰度較低,且聲圖獲取較為困難?,F(xiàn)有水下目標分類方法的研究大多依靠單一的光學或聲學圖像數(shù)據(jù)集,通過人工提取特征或使用卷積神經(jīng)網(wǎng)絡完成對目標的分類。但是,單一數(shù)據(jù)集對目標的描述具有一定限制,且卷積神經(jīng)網(wǎng)絡模型較為復雜,網(wǎng)絡的計算和分類速度較慢。因此,如何降低模型復雜度,節(jié)約計算資源,獲得更好的分類效果,都是亟待解決的關鍵問題。
為了改善網(wǎng)絡的分類性能,適應小樣本背景下的水下目標分類任務,主要從以下角度解決上述問題。首先,選擇輕量化的MobilenetV2 網(wǎng)絡并對其結構進行改進,減小網(wǎng)絡的參數(shù)量,進一步提高網(wǎng)絡運算效率。其次,在改進網(wǎng)絡的基礎上設計并行網(wǎng)絡結構,將采集的聲、光學圖像真實數(shù)據(jù)集同時輸入網(wǎng)絡,采用中間層融合策略,利用融合特征得到最終的分類結果。該方法規(guī)避了單一數(shù)據(jù)集對目標描述的限制,充分利用聲、光學兩種圖像各自的優(yōu)勢以及MobilenetV2網(wǎng)絡參數(shù)少、輕量化的特點,在節(jié)約網(wǎng)絡計算資源的同時,提高了算法的分類準確率。
MobileNet 是Google 于2017年提出的新型輕量化網(wǎng)絡[13],MobileNetV2 與其相比,具有較少的網(wǎng)絡參數(shù)數(shù)量和更低的運算成本,相比普通的全卷積網(wǎng)絡能夠減少8~9 倍的計算量,網(wǎng)絡性得到了進一步改善,與VGG16 等常用網(wǎng)絡相比具有低消耗和實時性等優(yōu)點,符合目標分類任務的要求[14]。MobileNetV2網(wǎng)絡包括普通卷積(Conv)、反向殘差結構的深度分離卷積(Bottleneck)和平均池化(Avgpool)幾部分,網(wǎng)絡結構如圖1所示。
圖1 MobileNetV2 網(wǎng)絡結構Fig.1 Network structure of Mobilenetv2
Bottleneck結構是MobileNetV2網(wǎng)絡的核心部分,每個Bottleneck 由兩個普通卷積和一個深度分離卷積(Dwise)組成[15]。該結構首先通過1×1的卷積進行維度擴展,再用3×3 的深度分離卷積提取特征,最后使用1×1 的卷積來壓縮數(shù)據(jù)[16],兩個普通卷積分別使用ReLU6和Linear函數(shù)進行激活,深度分離卷積使用標準化BN 層[17]和線性整流函數(shù)ReLU6[18]進行正則化和激活。圖2(a)和圖2(b)分別表示步長為1 和步長為2 時的Bottleneck 網(wǎng)絡結構,當步長為1 時,需要將該網(wǎng)絡結構的輸出與上一層的輸出進行疊加,實現(xiàn)不同位置的信息整合。
圖2 Bottleneck 網(wǎng)絡結構圖Fig.2 Bottleneck network structure
MobilenetV2 網(wǎng)絡使用ImageNet 數(shù)據(jù)集進行訓練,數(shù)據(jù)集圖片數(shù)量達到140 萬張,而水下目標圖像采集較為困難,獲取的數(shù)據(jù)數(shù)量較少,直接使用原網(wǎng)絡進行訓練無法得到較好的擬合效果,且ImageNet 數(shù)據(jù)集共包含圖像1000 個類別,目標種類與水下目標差別懸殊,無法直接進行遷移學習。MobilenetV2 網(wǎng)絡第9 層的輸出通道由320 增加到1280,通道數(shù)的增加會消耗更多的計算資源;網(wǎng)絡使用平均池化Avgpool 降采樣來減少特征數(shù)量,更多地保留圖像的背景信息,不完全適用于水下目標分類任務。
因此,為了增強網(wǎng)絡在水下場景的適用性,充分發(fā)揮深度分離卷積在特征提取中的優(yōu)勢,提高目標分類的精確度,本文在MobileNetV2 網(wǎng)絡的基礎上進行了如下改進:(1) 為了在訓練網(wǎng)絡時進一步減少計算資源、節(jié)約內存空間,在保證精度的前提下充分考慮參數(shù)量和運算成本,借鑒文獻[14]的方法,通過多次實驗對比,本文去掉第9層之后的網(wǎng)絡層,并將該卷積層通道數(shù)由1280改為128。(2) 為了適應水下目標分類任務,在保留目標特征信息的同時提升網(wǎng)絡的收斂速率,本文使用Flatten層進行數(shù)據(jù)降維,將三維的輸出轉化為一維后,添加Dropout層改善網(wǎng)絡擬合,丟棄率設為0.5,最后增加一個全連接層,得到最終的分類結果。
圖3為改進MobileNetV2 網(wǎng)絡的結構示意圖,網(wǎng)絡包括特征提取和分類兩個部分。特征提取網(wǎng)絡包括1 個普通卷積、7 個具有反向殘差結構的深度分離卷積和1 個普通卷積,通過Flatten 層將三維特征圖轉換為一維后,使用Dropout層改善網(wǎng)絡擬合。分類網(wǎng)絡使用全連接層結構,從而得到每一個目標屬于各個類別的概率。
圖3 改進Mobilenetv2 網(wǎng)絡結構圖Fig.3 Network structure of improved Mobilenetv2
網(wǎng)絡的參數(shù)量和計算量作為兩個重要的指標,通常用來對網(wǎng)絡模型的復雜度進行評估,參數(shù)量對應的是算法的空間復雜度,表示對計算機內存資源的消耗;計算量對應時間復雜度,關系到網(wǎng)絡的運算時間。參數(shù)量和計算量主要來網(wǎng)絡中的自卷積層和全連接層,計算過程可以表示為
其中,P和F分別代表模型的參數(shù)量和計算量,下標cnn 和dense 分別表示卷積層和全連接層,Ml和Kl分別表示輸入圖片的尺寸和網(wǎng)絡使用的卷積核大小,Cl?1和Cl為卷積運算中輸入、輸出特征圖的通道數(shù),D1、D2為網(wǎng)絡中的卷積層與全連接層個數(shù)。使用式(1)~(2)對原始及改進后的MobileNetV2網(wǎng)絡模型進行復雜度計算,計算結果如表1所示。
表1 原始及改進MobileNetV2 網(wǎng)絡復雜度Table 1 Network complexity of original and improved Mobilenetv2
MobileNetV2 網(wǎng)絡模型需要訓練的參數(shù)數(shù)量約為3.4 M,改進后網(wǎng)絡模型的參數(shù)數(shù)量約為1.9 M,與原始網(wǎng)絡相比,模型參數(shù)數(shù)量減少了近一倍。與此同時,改進的MobileNetV2 網(wǎng)絡計算量為230 M,相比原始網(wǎng)絡的計算量也有一定數(shù)量的減少。由此可見,改進后的網(wǎng)絡復雜度有所減小,能夠提高網(wǎng)絡運算效率,進一步節(jié)約計算資源。
聲學圖像能夠大范圍獲取,效率較高,光學圖像的高分辨率能夠實現(xiàn)對目標細節(jié)的描述。為了實現(xiàn)二者的優(yōu)勢互補,提出一種聲光圖像融合分類網(wǎng)絡模型。目前,對異源圖像的聯(lián)合處理網(wǎng)絡主要有輸入前融合和輸入后融合兩種[19],前者是將圖像進行融合處理后再輸入特征提取網(wǎng)絡,此種方式通常需要改變第一層卷積的數(shù)量,使得訓練結果變差;后者是對圖像進行特征提取之后,將特征提取網(wǎng)絡的中間層信息融合[20],能夠保證網(wǎng)絡訓練的準確性。
本文使用輸入后融合的思想,將水下目標的聲、光兩種圖像并行輸入網(wǎng)絡進行特征提取,在某一層將兩個模塊輸出的特征圖進行融合,實現(xiàn)兩種圖像的信息交流。特征提取使用的網(wǎng)絡主干為1.2 節(jié)中改進的MobileNetV2 網(wǎng)絡,在網(wǎng)絡的特征提取過程中,圖像的原始信息更多地體現(xiàn)在網(wǎng)絡的淺層特征當中,網(wǎng)絡的深層特征較為抽象,具有更多的分類信息。因此,根據(jù)網(wǎng)絡的結構特點,本文選擇在網(wǎng)絡的深層位置進行特征融合,將網(wǎng)絡最后一個卷積層的輸出作為待融合特征,使用融合操作的結果實現(xiàn)水下目標分類,從而達到更高的分類準確率。
融合分類網(wǎng)絡模型如圖4所示,該網(wǎng)絡由特征提取、特征融合、融合特征提取、分類4 個部分組成。聲學圖像和光學圖像分別送入改進的MobileNetV2網(wǎng)絡,特征提取部分包括一個普通卷積、具有反向殘差結構的深度分離卷積及其之后的卷積層。在網(wǎng)絡的最后一個卷積層位置,將輸出的特征圖按通道對應實現(xiàn)特征融合,這里應用的融合算法是通道拼接(concatenate),融合過程的數(shù)學表達式為
圖4 基于改進MobileNetV2 的融合分類網(wǎng)絡Fig.4 Fusion classification network based on improved Mobilenetv2
其中,Xoptical和Xacoustic表示輸入的光學圖像和聲學圖像;和表示光學圖像和聲學圖像從輸入到最后一個卷積層之間的特征提取網(wǎng)絡;H2代表融合操作的通道拼接算法;output 為融合后輸出的新特征,用以實現(xiàn)目標分類。分類過程可以表示為
其中,K為分類結果,S代表Softmax 分類函數(shù),將網(wǎng)絡最后一層的輸出轉化為輸入圖像屬于各類別的概率,公式為
水下目標聲圖由成像聲吶獲得,三維成像聲吶具有圖像的深度信息,同時可以獲得更清晰的目標輪廓[21],因此使用前視三維聲吶獲取聲圖。本文所用的水下目標數(shù)據(jù)集由千島湖實驗獲得,實驗裝置布放如圖5所示。數(shù)據(jù)采集裝置由一個綠激光水下攝像機和一個前視三維聲吶組成,二者成對獲取水下目標圖像。其中,綠激光水下攝像機型號為WWA-6226,波長為532 nm,分辨率1920×1080,最大可視范圍設置為8 m;聲吶設備為高頻三維成像聲吶,工作頻率為300 kHz,帶寬30 kHz,波束開角45?,波束數(shù)目為128×128,實驗過程中最大工作深度設置為30 m。
圖5 實驗裝置布放圖Fig.5 Layout of experimental apparatus
三維成像聲吶得到的數(shù)據(jù)為三維圖像,攜帶方位、距離和散射強度等信息。數(shù)據(jù)獲取過程中,受水下復雜環(huán)境以及設備自身限制的影響,可能包含一定的噪點,首先使用式(6)所示過程對歸一化后的原始數(shù)據(jù)進行濾波處理。
其中,pi=(xi,yi,zi)為三維圖像中每個點的坐標,f(pi)為該點的散射強度,k為濾波閾值。將原始三維圖像及濾波后的圖像以點云形式進行可視化,效果如圖6所示。
圖6 水下三維圖像可視化效果圖Fig.6 Visualization of underwater 3D image
為了方便數(shù)據(jù)處理,將三維圖像距離向上散射強度最強的點投影到二維平面,用其深度值作為該點的像素值,得到目標的深度圖。將攝像機拍攝的圖像作為光學圖像數(shù)據(jù)集,三維圖像處理后得到的深度圖作為聲學圖像數(shù)據(jù)集。兩個數(shù)據(jù)集中的圖像成對存在,數(shù)據(jù)格式為三通道RGB圖像,共2196張,包括鐵框、蛙人、繩子、繩子拖曳的小球、橋墩5類水下目標,部分數(shù)據(jù)集圖像如圖7所示。
圖7 部分實驗數(shù)據(jù)集圖像Fig.7 Images of some experimental data sets
為了驗證所提網(wǎng)絡在水下目標分類任務中的可行性,設計了以下實驗。首先采集水下目標圖像,制作實驗數(shù)據(jù)集。(1) 在光學圖像數(shù)據(jù)集上進行實驗,對比VGG16、Resnet50、MobileNetV2以及改進的MobileNetV2網(wǎng)絡對5種水下目標的分類性能,驗證了改進MobileNetV2 網(wǎng)絡在水下目標分類任務中的適用性;(2) 利用改進的MobileNetV2 網(wǎng)絡以及提出的聲光圖像融合分類網(wǎng)絡模型對水下目標進行分類,驗證融合網(wǎng)絡結構對水下目標分類準確率的提高;(3) 使用不同融合算法在不同位置進行融合,利用融合網(wǎng)絡對目標圖像進行分類,討論融合位置及融合算法對分類準確率的影響;(4)在數(shù)據(jù)缺失的條件進行融合網(wǎng)絡的分類實驗,記錄網(wǎng)絡的分類準確率,驗證網(wǎng)絡的魯棒性。以下實驗使用的所有網(wǎng)絡均基于Keras 深度學習框架搭建,并利用CUDNN進行加速處理。實驗計算機CPU 為6核i7-10750H、Win10操作系統(tǒng)、GPU為RTX2070。
在采集的5 類水下目標圖像中,隨機抽取20%的目標數(shù)據(jù)作為測試集,余下的作為訓練集。為了確保目標分類的準確性,在抽取數(shù)據(jù)時需要將聲學圖像和光學圖像數(shù)據(jù)一一對應。訓練集和測試集的樣本組成如表2所示。
表2 訓練集和測試集樣本數(shù)量Table 2 Sample number of training set and test set
分別使用VGG16、Resnet50、MobileNetV2 以及改進的MobileNetV2 網(wǎng)絡對本文數(shù)據(jù)集(以光學圖像為例)進行分類,驗證幾種分類網(wǎng)絡對水下目標的分類性能。將水下目標圖像輸入網(wǎng)絡進行訓練和測試,在網(wǎng)絡訓練前,應用高斯分布G(μ,σ2)對網(wǎng)絡中的所有參數(shù)進行隨機初始化,其中μ=0,σ=1。采用Optimizers 優(yōu)化器對整個網(wǎng)絡的參數(shù)進行優(yōu)化,學習率設為0.00001。在訓練數(shù)據(jù)中每次隨機抽取16張圖像訓練網(wǎng)絡,迭代次數(shù)為100,網(wǎng)絡采用代價函數(shù)選用分類交叉熵。幾種模型的分類結果可見表3,其中,分類時間是測試過程中對一張圖像得出分類結果所用的平均時間。
表3 目標分類網(wǎng)絡性能比較Table 3 Comparison of performance of target classification network
由表3可以看出,分類準確率最高的是VGG16網(wǎng)絡,可以達到93.7%,但是其分類時間最長,參數(shù)量最大,計算代價較高。Resnet50 網(wǎng)絡的分類時間和計算代價有所減少,但分類準確率較低,MobilenetV2網(wǎng)絡與之相比準確率有所提高,在參數(shù)量上也具有一定優(yōu)勢。綜合考慮分類準確率、時間、參數(shù)量幾種指標,MobilNetV2 網(wǎng)絡要優(yōu)于另外兩種網(wǎng)絡模型。相比于原始MobilNetV2網(wǎng)絡,改進后的網(wǎng)絡得到的分類準確率更高,且分類時間、參數(shù)量均有減小,說明本文做出的改進對模型性能有一定的提升,更加適用于水下目標分類任務。
分別使用改進的MobileNetV2 網(wǎng)絡對聲學圖像和光學圖像進行分類,之后應用本文提出的融合分類網(wǎng)絡將對應的聲學圖像和光學圖像成對輸入網(wǎng)絡進行訓練和測試,對水下目標圖像進行分類。網(wǎng)絡超參數(shù)的設置均與前述實驗一致,訓練過程曲線如圖8所示。
由代價函數(shù)變化曲線可以看出,幾種模型的函數(shù)值在整個訓練過程中不斷下降,最終都逐漸趨于平穩(wěn),改進后的MobileNetV2 網(wǎng)絡在兩個數(shù)據(jù)集上具有較小的損失值,融合網(wǎng)絡的損失值最小,相比單通道的分類網(wǎng)絡具有更好的性能。圖8(b)為訓練過程不同分類模型的分類準確率變化曲線,將測試集輸入訓練好的網(wǎng)絡進行分類,檢驗模型的分類性能,改進前后與融合網(wǎng)絡在本文數(shù)據(jù)集上的分類準確率如表4所示。
圖8 訓練過程變化曲線Fig.8 Change curve of training process
由表4可以看出,改進MobilNetV2 網(wǎng)絡對兩種圖像的分類準確率分別為87.9%和93.1%,網(wǎng)絡模型的擬合情況較好,能適應水下目標分類的小樣本數(shù)據(jù)。本文提出的融合分類網(wǎng)絡對水下目標圖像的分類準確率達到96.5%,相比融合前的網(wǎng)絡模型對聲學圖像和光學圖像的分類準確率分別提高8.6%和3.4%,具有良好的分類性能。
表4 不同網(wǎng)絡的分類準確率Table 4 Classification accuracy of different networks
本文在對聲光圖像進行融合時使用的算法是通道拼接(concatenate),在網(wǎng)絡的深層位置進行特征融合。除此之外,融合算法還包括直接疊加(add)、最大化運算(maximum)等,融合位置也可以選在網(wǎng)絡的淺層部分。分別使用add、maximum、concatenate三種融合算法,在改進MobileNetV2網(wǎng)絡的第一個卷積層后進行特征融合,將該融合網(wǎng)絡記為淺層融合網(wǎng)絡,本文提出的融合網(wǎng)絡記為深層融合網(wǎng)絡,利用聲、光學圖像分別在兩種融合網(wǎng)絡上進行實驗,訓練過程代價函數(shù)及準確率的變化如圖9所示。
圖9 融合網(wǎng)絡訓練過程變化曲線Fig.9 Change curve of fusion network training process
兩種融合網(wǎng)絡在不同的融合算法下代價函數(shù)值均下降并收斂,融合算法的選擇對網(wǎng)絡性能的影響不明顯,深層融合網(wǎng)絡的收斂速率更快。將測試集數(shù)據(jù)輸入訓練好的融合分類網(wǎng)絡,得到最終分類結果,融合網(wǎng)絡對水下目標的分類結果可見表5。
表5 不同融合網(wǎng)絡對本文數(shù)據(jù)集的分類性能Table 5 Classification performance of different fusion networks on the dataset in this paper
由表5可以看出,淺層融合和本文提出深層融合的平均準確率分別達到95.3%和96.4%,相比使用單通道網(wǎng)絡對水下目標圖像的分類準確率均有明顯提高,深層位置的融合網(wǎng)絡分類準確率更高。由于深層融合需要的參數(shù)更多,運算成本也略有增加。同一融合位置下不同融合算法的選擇對分類結果的影響較小。
在實際水下應用中,由于水下攝像機和聲吶的作用距離不同,遠距離條件下只有聲吶能夠獲取到有效數(shù)據(jù),且水下環(huán)境的復雜性及實驗過程的各種不可控因素可能會導致其中一臺設備無法正常工作??紤]到最差的情況,假設其中一臺設備失效,將該設備獲得的圖像記為一個全0 數(shù)組,另一設備獲得的為正常圖像,將其輸入本文的融合網(wǎng)絡進行測試,兩種情況下不同數(shù)據(jù)集在網(wǎng)絡中的分類結果如表6所示。
表6 不同數(shù)據(jù)集下的融合網(wǎng)絡分類準確率Table 6 Classification accuracy of fusion networks under different data sets
由表6可以看出,在光圖缺失的情況下,融合網(wǎng)絡的分類準確率為85.7%,聲圖缺失情況下的分類準確率達到90.3%,相比正常數(shù)據(jù)下的分類準確率有所降低,原因可能是融合后的特征圖中包含無效數(shù)據(jù),對網(wǎng)絡具有一定干擾作用。由此可見,當一臺設備失效時,融合網(wǎng)絡的分類準確率會受到一定影響,但是最低仍能達到85%以上,而普通的單路網(wǎng)絡在此種情況下會失去分類能力,說明本文提出的融合網(wǎng)絡具有一定的容錯能力和魯棒性。
本文主要以下從兩個角度改善網(wǎng)絡的分類性能,以適應小樣本條件下的水下目標分類任務。首先,將改進的MobilenetV2 網(wǎng)絡作為基礎網(wǎng)絡,以減小網(wǎng)絡訓練過程的計算開銷和內存占用,使用實驗采集的真實數(shù)據(jù)進行網(wǎng)絡訓練,改善網(wǎng)絡擬合效果。其次,將改進網(wǎng)絡作為融合網(wǎng)絡的分支,使用中間層融合策略將水下目標的聲、光學圖像特征圖進行融合,實現(xiàn)各自的優(yōu)勢互補,進一步提高分類準確率。實驗結果表明,與其他常用分類模型相比,MobilenetV2 網(wǎng)絡的分類準確率較提高,在參數(shù)量上和分類時間上也具有一定優(yōu)勢。改進的MobilenetV2 網(wǎng)絡與原網(wǎng)絡相比,參數(shù)量及計算資源消耗減少,分類準確率進一步提高,在水下目標分類任務中具有更好的性能。相比融合前的網(wǎng)絡,融合網(wǎng)絡模型的學習曲線收斂更快,且準確率更高,在add、maximum、concatenate三種融合算法下,融合網(wǎng)絡的分類準確率均有不同程度的提升。在單路數(shù)據(jù)缺失的情況下,融合網(wǎng)絡的分類準確率仍能達到85%以上,具有一定的魯棒性。