李海菊, 連 超 , 管利聰, 李超倫 , 欒振東
(1. 青島科技大學(xué) 自動(dòng)化與電子工程學(xué)院, 山東 青島 266061; 2. 中國科學(xué)院海洋地質(zhì)與環(huán)境重點(diǎn)實(shí)驗(yàn)室,山東 青島 266071; 3. 中國科學(xué)院海洋研究所深海中心, 山東 青島 266071; 4. 中國科學(xué)院海洋生態(tài)與環(huán)境科學(xué)重點(diǎn)實(shí)驗(yàn)室, 山東 青島 266071; 5. 中國科學(xué)院大學(xué), 北京 100049; 6. 中國科學(xué)院海洋大學(xué)科研究中心,山東 青島 266071)
冷泉流體是海底沉積界面下溢出的由天然氣水合物分解后產(chǎn)生的一些富含甲烷、硫化氫和二氧化碳等組分的流體[1-3]。深海冷泉區(qū)活躍著大量化能自養(yǎng)菌, 其驅(qū)動(dòng)形成了繁茂的深海無脊椎生物群落[4], 主要包括以潛鎧蝦(Shinkaia crosnieriBaba & Williams,1998)為主的甲殼類和以深海偏頂蛤(Bathymodiolus platifrons)為主的貽貝。研究深海冷泉區(qū)生物的種類、數(shù)量、分布等情況是認(rèn)知冷泉生態(tài)系統(tǒng)的必然要求,對(duì)尋找天然氣水合物有重要參考價(jià)值, 同時(shí)也是后續(xù)評(píng)價(jià)資源開發(fā)、環(huán)境影響的重要依據(jù)[5]。然而, 從深海底采集獲得的超大數(shù)據(jù)量冷泉生物圖像給生物學(xué)家在數(shù)據(jù)處理與分析方面的工作增加了難度。如何快速準(zhǔn)確地識(shí)別生物種類和數(shù)取生物數(shù)量, 并且清晰直觀地復(fù)現(xiàn)海域生物分布情況, 是本文的研究方向和目的。
基于深度學(xué)習(xí)的圖像目標(biāo)識(shí)別是當(dāng)前較為前沿的解決這類問題的方法。該方法利用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)提取目標(biāo)物體的特征, 通過人工標(biāo)注數(shù)據(jù)集并進(jìn)行訓(xùn)練, 訓(xùn)練后導(dǎo)出的模型用于目標(biāo)物體的識(shí)別[6]??傮w來說, 主要包括兩個(gè)部分: 第一部分是特征提取網(wǎng)絡(luò), 用于提取不同層次、不同分辨率的語義特征。目前較為流行的有: AlexNet[7]、VGGNet[8]、ResNet[9]、MobileNet[10]等。第二部分是定位和分類網(wǎng)絡(luò), 通過學(xué)習(xí)第一部分提取出的圖像特征, 來找尋目標(biāo)物體的位置并指出目標(biāo)物體的類別, 這是圖像目標(biāo)識(shí)別方法的核心。
自2013 年以來, 基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks, CNNs)的定位和分類網(wǎng)絡(luò)已然成為目標(biāo)檢測任務(wù)的主要算法之一, 它通過從低級(jí)特征構(gòu)建高級(jí)特征來學(xué)習(xí)特征層次結(jié)構(gòu), 以此實(shí)現(xiàn)對(duì)圖像中的目標(biāo)定位和分類[11]。目前主要分為兩大類: 一類是以Faster R-CNN[12]為代表的兩步檢測(Regionbased/Two-stage detector)算法; 另一類是以SSD(Single shot multibox detector)[13]為代表的單步檢測(Regionfree/One-stage detector)算法。
基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法發(fā)展迅速, 多用于小樣本的遷移學(xué)習(xí), 在海洋生物領(lǐng)域也有涉及[14]。Lu 等[15]提出一種過濾深層卷積網(wǎng)絡(luò)(Filtering deep convolutional network, FDCNet)對(duì)深海生物進(jìn)行分類, 其分類準(zhǔn)確率分別比目前較為先進(jìn)的分類方法AlexNet、GooLeNet[16]、ResNet50 和ResNet101 高1.8%, 2.9%, 2.0%和1.0%。Zhou 等[17]提出了3 種專門用于水下成像的數(shù)據(jù)增強(qiáng)方法, 結(jié)合更快的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Faster region-based convolutional neural network, Faster R-CNN)驗(yàn)證了該方法對(duì)海洋生物檢測和識(shí)別的有效性。用3 種數(shù)據(jù)增強(qiáng)方式得到的海洋生物增廣數(shù)據(jù)集, 相較于原始數(shù)據(jù)集,大大提高了Faster R-CNN 模型的效率。Liu 等[18]提出一種基于BP 神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Networks, BPNN)的三維海洋生物入侵預(yù)警模型。通過BP 神經(jīng)網(wǎng)絡(luò)檢測不同流速下海洋生物與入侵生物的密度, 以此估計(jì)它們之間的關(guān)系, 并建立預(yù)警模型。實(shí)驗(yàn)結(jié)果表明, 該預(yù)警模型能夠有效地描述入侵強(qiáng)度和預(yù)警等級(jí)。以上文獻(xiàn)為本文深海冷泉生物的識(shí)別提供了思路。
本文改進(jìn)識(shí)別準(zhǔn)確度較高的深度學(xué)習(xí)模型——R-FCN_ResNet, 以此研究復(fù)雜背景下深海冷泉生物的識(shí)別。首先, 本文使用中國科學(xué)院海洋研究所(IOCAS)提供的中國臺(tái)西南冷泉區(qū)的圖像, 建立了深海冷泉生物數(shù)據(jù)庫。然后, 使用基于區(qū)域的全卷積網(wǎng)絡(luò)(Region-based fully convolutional networks,R-FCN)來學(xué)習(xí)數(shù)據(jù)庫的參數(shù), 并進(jìn)行識(shí)別和分類。最后復(fù)現(xiàn)了該片海域主要的生物分布情況。
基于區(qū)域的全卷積網(wǎng)絡(luò)屬于兩步檢測算法[19],其網(wǎng)絡(luò)結(jié)構(gòu)見圖1。所謂兩步檢測, 第一步就是從一系列特征圖中提取目標(biāo)物體特征, 生成分類獨(dú)立的區(qū)域建議網(wǎng)絡(luò)(Region proposal network, RPN)[20]和位置敏感得分圖, 即找到圖像中含有目標(biāo)物體的候選框, 并且給出每個(gè)候選框的對(duì)應(yīng)得分。該部分實(shí)現(xiàn)了區(qū)域建議網(wǎng)絡(luò)與分類網(wǎng)絡(luò)之間的權(quán)值共享, 提升了網(wǎng)絡(luò)檢測的速度和性能。第二步就是利用非極大值抑制(Non-maximum suppression, NMS), 對(duì)具體類概率和位置回歸的綜合得分進(jìn)行去重和投票, 以此達(dá)到定位和分類目標(biāo)物體的目的。該部分是R-FCN 框架的關(guān)鍵部分。
圖1 R-FCN 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 R-FCN network structure
2015 年, 在 ImageNet 挑戰(zhàn)賽上, 殘差網(wǎng)絡(luò)(Residual networks, ResNet)在圖像分類任務(wù)上取得了很高的準(zhǔn)確率, 在眾多網(wǎng)絡(luò)中脫穎而出[21-22]。圖2展示了ResNet 模型的基礎(chǔ)結(jié)構(gòu): 殘差學(xué)習(xí)塊。其中,X表示恒等映射,F(X)表示殘差映射, ReLU(Rectified linear unit)表示激活函數(shù)。
圖2 殘差學(xué)習(xí)塊Fig. 2 Residual learning block
殘差學(xué)習(xí)塊并不是通過一個(gè)層或者多個(gè)層直接擬合所需的映射, 而是將恒等映射和殘差映射同時(shí)擬合進(jìn)所需的映射中, 以此提取到從淺層到深層的特征。因此, ResNet 利用殘差學(xué)習(xí)塊, 解決了深度卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練速度慢和容易出現(xiàn)梯度爆炸或梯度消失的問題。
在提取更細(xì)微和更深層次的目標(biāo)物體特征時(shí),R-FCN 算法達(dá)不到很好的效果。特別是在對(duì)本文研究對(duì)象——潛鎧蝦和貽貝這種小目標(biāo)物體進(jìn)行檢測時(shí), 往往會(huì)發(fā)生錯(cuò)檢和漏檢的情況。而ResNet 利用其獨(dú)特的殘差注意力機(jī)制提取從淺層到深層的圖像特征, 使不同層次的特征圖能夠捕捉圖像中的多種響應(yīng)結(jié)果。因此本文將ResNet 作為目標(biāo)檢測的基礎(chǔ)網(wǎng)絡(luò), 用于特征提取。 改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)R-FCN_ResNet 見圖3。
圖3 R-FCN_ResNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 R-FCN_ResNet network structure
另外, 對(duì)于小目標(biāo)物體檢測, 在提取候選框時(shí),如果anchor[13]過大, 會(huì)導(dǎo)致許多重要信息丟失。因此為了提取到更多有用的信息, 本文設(shè)置了更小尺寸的anchor。
本文主要對(duì)深海冷泉生物圖像進(jìn)行識(shí)別研究,并復(fù)現(xiàn)某片海域的生物分布情況。圖4 是本文的研究流程圖。研究步驟包括: 數(shù)據(jù)集制作、模型訓(xùn)練、模型評(píng)估。其中, 數(shù)據(jù)集制作包括圖像獲取、圖像切割、圖像標(biāo)注和圖像格式轉(zhuǎn)換等步驟; 模型訓(xùn)練是整個(gè)研究的重心部分, 包括框架搭建、參數(shù)設(shè)定、參數(shù)整定等內(nèi)容; 模型評(píng)估主要從多個(gè)方面對(duì)比單步檢測網(wǎng)絡(luò)和兩步檢測網(wǎng)絡(luò)對(duì)本文數(shù)據(jù)集的適用性。
圖4 研究流程Fig. 4 Research process
本文原始數(shù)據(jù)集的來自中國科學(xué)院海洋研究所。利用深海三維激光影像掃描技術(shù)在臺(tái)西南冷泉區(qū)獲取原始圖像, 然后利用航空攝影矯正技術(shù)將以上大量原始圖像拼接成一張大小為13.4 GB 的深海冷泉生物圖片(見圖5a)。根據(jù)單位換算, 知其面積約為150 m×200 m。將拼接圖片等分切割成6 400 份, 每份大小約為410 kB, 面積約為2.7 m×2.9 m(見圖5b)。分辨率寬約為1 368 像素, 高約為1 382 像素。并將這些張圖片按6∶2∶2 的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集。然后, 對(duì)訓(xùn)練集和驗(yàn)證集圖片中目標(biāo)生物進(jìn)行大量的人工標(biāo)注。標(biāo)注時(shí)要注意將生物的各種形態(tài)都包括進(jìn)去, 這是衡量模型好壞的關(guān)鍵。標(biāo)注的目標(biāo)生物包括: 貽貝(見圖5d)1 類初級(jí)消費(fèi)者, 潛鎧蝦(見圖5c)、螃蟹、魚和螺4 類次級(jí)消費(fèi)者, 共5 類。其中貽貝9 153 個(gè), 占比66.03%,潛鎧蝦2 684 個(gè), 占比16.91%。初步判斷, 此片海域中的螃蟹、魚等次級(jí)消費(fèi)者數(shù)量極少, 這對(duì)探究深海冷泉生物密集度和海底冷泉活躍度以及尋找天然氣水合物的影響極小。
圖5 深海冷泉生物圖像樣本集Fig. 5 Sample set of deep-sea cold-spring biological images
模型的訓(xùn)練就是預(yù)學(xué)習(xí)生物的形態(tài)特征, 在不斷學(xué)習(xí)生物特征的同時(shí), 也不斷地矯正生物特征向量的權(quán)值。模型訓(xùn)練和測試所用的中央處理器(Central processing unit, CPU)為Intel Core i5-8400, 圖形處理器(Graphics Processing Unit, GPU)為GeForce GTX 1060,內(nèi)存為6GB。深度學(xué)習(xí)框架是TensorFlow(https://github.com/tensorflow/tensorflow), 該框架對(duì)輸入圖片尺寸沒有限制, 因此不再需要對(duì)圖片的尺寸進(jìn)行歸一化處理。
在模型訓(xùn)練前, 需要對(duì)一些參數(shù)進(jìn)行設(shè)置, 以期達(dá)到好的訓(xùn)練效果。將訓(xùn)練迭代步數(shù)設(shè)置為25 萬步,學(xué)習(xí)率設(shè)置為0.004。將先驗(yàn)框的最大尺寸設(shè)置為0.95,最小尺寸設(shè)置為0.35。先驗(yàn)框的最小尺寸比原文[13]中設(shè)置的較大些, 這是因?yàn)闈撴z蝦和貽貝的體積都較小,為了檢測出較多的小目標(biāo)生物, 應(yīng)盡可能將6 種不同尺度的特征圖控制在較大的范圍內(nèi)。最后經(jīng)過不斷的細(xì)微調(diào)整, 得到適用于深海冷泉區(qū)生物識(shí)別的模型。
圖6 中展示了整個(gè)訓(xùn)練過程中定位損失和分類損失之和[13]的變化情況, 在2 000 步迭代步數(shù)前, 總損失便急速下降2.77, 在0.2 萬~12 萬步迭代步數(shù)期間, 總損失逐漸緩慢下降至0.98, 在0.2 萬~12 萬步迭代步數(shù)期間, 總損失基本上逐趨近于0, 由此可以看出R-FCN_ResNet 模型達(dá)到了很好的訓(xùn)練效果。
圖6 R-FCN_ResNet 模型訓(xùn)練總損失Fig. 6 Total training loss of R-FCN_ResNet model
各個(gè)模型訓(xùn)練結(jié)束后, 將測試集圖片輸入至訓(xùn)練好的導(dǎo)出模型中進(jìn)行生物識(shí)別測試, 以此來評(píng)估R-FCN_ResNet 算法用于深海冷泉生物識(shí)別的準(zhǔn)確性, 并且將此作為探尋深?;钴S冷泉的重要依據(jù)。本文只檢測和識(shí)別海床表面的貽貝和潛鎧蝦, 對(duì)于重疊和埋于沉積物或其他生物下的無法用肉眼分清和估計(jì)的生物不做考慮。
目標(biāo)檢測算法的好壞很難被衡量, 因?yàn)槌怂惴ū旧淼目蚣芩悸分? 還有許多因素影響它的速度和精度, 比如訓(xùn)練時(shí)候的不同參數(shù)設(shè)置、不同的損失函數(shù)的定義方法以及不同的特征提取網(wǎng)絡(luò)如VGGNet[8]、ResNet[9]、MobileNet[10]等。因此為了對(duì)比不同算法各自的優(yōu)勢(shì), 本文統(tǒng)一在TensorFlow 框架中訓(xùn)練模型和檢測生物, 并且設(shè)置相同的訓(xùn)練迭代步數(shù)、學(xué)習(xí)率、先驗(yàn)框尺寸和特征圖大小等參數(shù)。然后, 不考慮算法本身的內(nèi)部結(jié)構(gòu), 直接將測試集中的圖片輸入至訓(xùn)練好的模型中進(jìn)行目標(biāo)識(shí)別。最后, 對(duì)比3 種模型的識(shí)別效果, 權(quán)衡速度和精度兩方面后確認(rèn)適用于本文數(shù)據(jù)集的算法[23]。
在表1 中, 訓(xùn)練耗損時(shí)間表示迭代步數(shù)為15 萬步時(shí), 訓(xùn)練模型所花費(fèi)的時(shí)間。平均檢測速度是每檢測一張圖片所需的平均時(shí)間。平均置信度是5 個(gè)目標(biāo)生物的類條件概率與IOU 的乘積[13]的平均值。具體類置信度被歸一化在[0, 1]之間, 閾值設(shè)為0.5。從橫向分析, 3 種算法的平均檢測時(shí)間都在1sec/per image以上, 無法與毫秒級(jí)的檢測速度相比, 這是由GPU的自身性能決定的。訓(xùn)練耗損時(shí)間都超過1 d。平均置信度得分都大于0.8。
從縱向分析, R-FCN_ResNet 算法訓(xùn)練耗損時(shí)間比Faster R-CNN 算法短了大概32 h, 大大地節(jié)省了時(shí)間和資源。另一方面, R-FCN_ResNet 算法的平均置信度只比Faster R-CNN 算法低0.011 8, 由此說明兩個(gè)算法的檢測精度相差無幾, 但是其平均檢測速度卻比Faster R-CNN 算法快了大約3 s, 說明就檢測速度一項(xiàng)而言, R-FCN_ResNet 算法更優(yōu)。另外,SSD_MobileNet 算法雖然在訓(xùn)練耗損時(shí)間和平均檢測速度方面表現(xiàn)突出, 但是對(duì)于潛鎧蝦和貽貝這種小目標(biāo)來說, 檢測效果卻是最差的。其平均置信度比R-FCN_ResNet 低0.406, 比Faster R-CNN 低0.524。因此從訓(xùn)練耗損時(shí)間、平均檢測速度、平均置信度方面綜合考慮之后, 確認(rèn)R-FCN_ResNet 算法為適用于深海密集生物檢測和識(shí)別的算法。
表1 三種算法的性能對(duì)比Tab. 1 Performance comparison of three algorithms
圖7 R-FCN_ResNet 模型的識(shí)別效果Fig. 7 Recognition effect of R-FCN_ResNet model
圖7 展示了R-FCN_ResNet 模型的識(shí)別效果圖??梢钥闯? 該模型能很好的檢測出深海冷泉區(qū)的潛鎧蝦和貽貝。圖中綠色框圈出的是潛鎧蝦, 藍(lán)色框圈出的是貽貝, 每個(gè)框圖上方都標(biāo)有目標(biāo)生物的種類名稱和確認(rèn)為該類目標(biāo)生物的置信度。在確認(rèn)檢測到潛鎧蝦和貽貝任意一種小目標(biāo)生物的前提下, 給出的預(yù)測框基本上準(zhǔn)確圈出了目標(biāo)物體。由此可以得出, 該模型具有定位誤差小, 對(duì)背景的誤判率小的優(yōu)點(diǎn)。但是, 從圖7b 中可以看出, 仍然有極少量的貽貝沒有被檢測和識(shí)別出來。因此, 為了更進(jìn)一步分析R-FCN_ResNet 算法對(duì)本文數(shù)據(jù)集的適用性以及評(píng)估此算法識(shí)別生物數(shù)量的準(zhǔn)確性, 本文分別用R-FCN_ResNet 算法和人工識(shí)別方法去檢測測試區(qū)的共900 張圖片的生物數(shù)量, 并且計(jì)算各生物數(shù)量矩陣的相關(guān)系數(shù), 以此來說明此算法自動(dòng)識(shí)別生物數(shù)量和人工數(shù)取生物數(shù)量的符合度。
測試區(qū)遍布著較多的生物, 設(shè)定生物數(shù)量在0~80范圍內(nèi)的區(qū)域稱為稀疏區(qū), 在80~200范圍內(nèi)的區(qū)域稱為密集區(qū)。圖8、圖9 分別展示了R-FCN_ResNet算法和人工識(shí)別方法檢測潛鎧蝦和貽貝的數(shù)量曲線。從中可以看出兩條曲線的趨勢(shì)基本一致, 且計(jì)算得知潛鎧蝦和貽貝的兩個(gè)數(shù)量矩陣的相關(guān)系數(shù)分別是0.982 4 和0.976 9, 由此說明利用此算法識(shí)別深海冷泉生物的準(zhǔn)確度較高, 即R-FCN_ResNet 算法自動(dòng)識(shí)別的生物數(shù)量和人工數(shù)取的生物數(shù)量基本一致。另外, 稀疏區(qū)的生物數(shù)量符合度比密集區(qū)高, 這說明R-FCN_ResNet 算法在稀疏區(qū)的識(shí)別準(zhǔn)確度高于密集區(qū)的識(shí)別準(zhǔn)確度。
圖8 R-FCN_ResNet 算法和人工識(shí)別方法檢測潛鎧蝦數(shù)量的曲線Fig. 8 Curve of R-FCN_ResNet algorithm and artificial recognition method for detecting Shinkaia crosnieri quantity
圖9 R-FCN_ResNet 算法和人工識(shí)別方法檢測貽貝數(shù)量的曲線Fig. 9 Curve of R-FCN_ResNet algorithm and artificial recognition method for detecting Bathymodiolus platifrons quantity
通過研究深海冷泉區(qū)生物的種類、數(shù)量、分布等情況, 可以輔助生物學(xué)家快速準(zhǔn)確地尋找到富含天然氣水合物溢流的區(qū)域, 即活躍冷泉區(qū)。根據(jù)冷泉生態(tài)系統(tǒng)的群落結(jié)構(gòu)特征可知, 生物越密集的地方富含甲烷的可能性和相對(duì)濃度越高。另一方面, 目標(biāo)檢測算法對(duì)比實(shí)驗(yàn)表明, 改進(jìn)后的R-FCN_ResNet 算法結(jié)合本文數(shù)據(jù)集可以高效準(zhǔn)確地檢測出深海冷泉區(qū)的潛鎧蝦和貽貝。因此, 基于此算法檢測出該片海域潛鎧蝦和貽貝的數(shù)量, 然后復(fù)現(xiàn)其分布情況, 以此作為探尋活躍冷泉的重要依據(jù)。
圖10、圖11 分別展示了該片海域潛鎧蝦和貽貝的數(shù)量分布情況。可以看出, 該片海域邊界區(qū)的生物較少, 中心區(qū)(測試區(qū))生物數(shù)量較多, 因此可以判斷中心區(qū)天然氣水合物溢流的可能性和相對(duì)濃度都較高。另外, 根據(jù)該區(qū)域潛鎧蝦和貽貝的時(shí)空變化特征,可以協(xié)助探究環(huán)境中甲烷濃度的變化, 進(jìn)而推測天然氣水合物釋放量的變化情況。
圖10、圖11 給出的信息不僅可以用以探究和分析深海冷泉天然氣水合物的溢流情況和含量。而且,根據(jù)兩圖中潛鎧蝦和貽貝密集度的不同, 結(jié)合生物習(xí)性、生物外形特征等進(jìn)一步探究海洋生物在深海冷泉生態(tài)系統(tǒng)中的重要作用; 根據(jù)本文訓(xùn)練出的模型實(shí)時(shí)地監(jiān)測該片海域不同時(shí)期的潛鎧蝦和貽貝的分布情況, 以此為研究深海冷泉生態(tài)系統(tǒng)與生命過程對(duì)環(huán)境變化的影響機(jī)制, 為制定和更改深海冷泉環(huán)境保護(hù)計(jì)劃, 為維護(hù)深海冷泉生態(tài)平衡提供數(shù)據(jù)支撐。
本文利用殘差學(xué)習(xí)塊改進(jìn)了基于區(qū)域的全卷積網(wǎng)絡(luò), 提出了深海冷泉生物的自動(dòng)識(shí)別方法, 復(fù)現(xiàn)了潛鎧蝦和貽貝的分布情況。實(shí)驗(yàn)結(jié)果表明, 本文提出的自動(dòng)識(shí)別和檢測深海冷泉生物的方法準(zhǔn)確度和速度都較高, 并且利用此方法協(xié)助探尋活躍冷泉的位置是可行且具有現(xiàn)實(shí)價(jià)值的。但是, 目前在對(duì)高密度、低特征和大范圍的深海冷泉小目標(biāo)生物進(jìn)行檢測時(shí), 仍然存在漏檢的情況。因此, 如何改進(jìn)和創(chuàng)新目標(biāo)識(shí)別與檢測方法, 提高小目標(biāo)生物檢測精度,是下一步研究的主要方向。
圖10 潛鎧蝦分布情況復(fù)現(xiàn)圖Fig. 10 Reproduction of Shinkaia crosnieri distribution
圖11 貽貝分布情況復(fù)現(xiàn)圖Fig. 11 Reproduction of Bathymodiolus platifrons distribution