• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種時(shí)空特征聚合的水下珊瑚礁魚(yú)檢測(cè)方法

      2021-04-13 02:00:06陳智能史存存李軒涯賈彩燕黃磊
      關(guān)鍵詞:珊瑚礁時(shí)序卷積

      陳智能,史存存,李軒涯,賈彩燕,黃磊

      (1.中國(guó)科學(xué)院自動(dòng)化研究所 數(shù)字內(nèi)容技術(shù)與服務(wù)研究中心,北京100190;2.北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京100044;3.百度公司,北京100085; 4.中國(guó)海洋大學(xué) 信息科學(xué)與工程學(xué)院,青島266100)

      珊瑚礁魚(yú)泛指生活在熱帶海洋珊瑚叢中的各種魚(yú),它們種類(lèi)繁多、形態(tài)各異、色彩斑斕,是最富活力和觀賞性的海洋生物群體之一。研究表明,珊瑚礁魚(yú)的種類(lèi)、數(shù)量和活動(dòng)痕跡是否豐富,直接反映了珊瑚礁生態(tài)系統(tǒng)的健康狀態(tài)和海洋生物多樣性豐富程度[1]。珊瑚礁魚(yú)活動(dòng)的顯著變化,則往往與溫度劇變、水域污染和過(guò)度人類(lèi)活動(dòng)等事件緊密聯(lián)系[2]。通過(guò)監(jiān)測(cè)分析珊瑚礁魚(yú)的活動(dòng),可以快速、準(zhǔn)確、精細(xì)地掌握海洋生態(tài)系統(tǒng)的健康狀況。此外,珊瑚礁魚(yú)的分析研究還將有助于幫助海洋生物學(xué)家研究不同海洋動(dòng)物的行為及其之間的相互作用[3]。目前,隨著全球大多數(shù)珊瑚礁生態(tài)系統(tǒng)呈退化趨勢(shì),這一研究已經(jīng)得到了廣泛重視。

      在海洋科學(xué)領(lǐng)域,最初人們主要采取人工撒網(wǎng)法[4]和潛水調(diào)查法[5]開(kāi)展珊瑚礁魚(yú)活動(dòng)調(diào)查。人工撒網(wǎng)法先由人在珊瑚礁水域撒網(wǎng)撈魚(yú),再經(jīng)過(guò)海洋生物學(xué)家整理得到分析結(jié)果。潛水調(diào)查法由專(zhuān)業(yè)潛水員手持水下攝像機(jī)穿越珊瑚礁水域,通過(guò)對(duì)所拍攝影像進(jìn)行事后分析,得到調(diào)查范圍內(nèi)的珊瑚和珊瑚礁魚(yú)情況。雖然已被沿用很多年,它們的缺點(diǎn)也很明顯:執(zhí)行一次調(diào)查不僅消耗大量人力物力,而且會(huì)對(duì)魚(yú)類(lèi)活動(dòng)產(chǎn)生一定影響,此外還難以獲得大面積連續(xù)的監(jiān)測(cè)數(shù)據(jù)。隨著水下成像技術(shù)的發(fā)展,在珊瑚礁水域特定位置安裝水下攝像機(jī),采集珊瑚礁魚(yú)活動(dòng)影像并進(jìn)行分析正在成為一種普遍接受的做法。相比于傳統(tǒng)調(diào)查方法,水下攝像既不影響珊瑚礁魚(yú)行為,同時(shí)也為后續(xù)分析提供了大量素材。目前,全球多個(gè)國(guó)家和地區(qū)的珊瑚礁水域都部署了水下攝像系統(tǒng)并產(chǎn)生了大量珊瑚礁魚(yú)監(jiān)控影像。對(duì)這些影像的分析催生了跨學(xué)科交叉研究需求:海洋生物學(xué)家手動(dòng)分析每天產(chǎn)生的大量影像數(shù)據(jù)是不切實(shí)際的,迫切需要智能化的珊瑚礁魚(yú)分析技術(shù),能夠從真實(shí)水下環(huán)境采集的影像中,自動(dòng)得到珊瑚礁魚(yú)的出現(xiàn)位置、種類(lèi)、數(shù)量等信息。

      在信息科學(xué)領(lǐng)域,視頻大數(shù)據(jù)智能分析是一個(gè)廣受關(guān)注的研究課題。特別是近年來(lái),基于深度學(xué)習(xí)的視頻分析與理解取得了顯著突破,在大規(guī)模視頻分類(lèi)與檢測(cè)[6-10]、細(xì)粒度圖像分類(lèi)[11-12]等任務(wù)上,深度學(xué)習(xí)相比于傳統(tǒng)方法性能取得了大幅提升。但是,目前多以消費(fèi)類(lèi)視頻圖像及安防、交通等領(lǐng)域的監(jiān)控視頻為研究對(duì)象,對(duì)水下影像的分析相對(duì)較少。水下影像具有成像質(zhì)量不高、水下環(huán)境復(fù)雜等分析難點(diǎn),此外具體到珊瑚礁魚(yú)檢測(cè)上,還存在視覺(jué)多樣性高、標(biāo)注數(shù)據(jù)有限等挑戰(zhàn),這些困難決定了直接應(yīng)用其他領(lǐng)域成熟的分析方法并不是最優(yōu)方案,需要專(zhuān)門(mén)研究珊瑚礁魚(yú)的有效檢測(cè)方法。

      目前,已經(jīng)有一些針對(duì)珊瑚礁魚(yú)檢測(cè)分析的研究工作。早期研究多在受限情況下開(kāi)展。例如,文獻(xiàn)[13]提出了一種基于輪廓匹配的魚(yú)識(shí)別方法,文獻(xiàn)[14]提出了一種基于特征變換和支持向量機(jī)的羅非魚(yú)自動(dòng)分類(lèi)方法,他們的實(shí)驗(yàn)都是在已捕撈、拍照時(shí)擺放較規(guī)則的魚(yú)的圖像上開(kāi)展。針對(duì)水下自然環(huán)境中生活的魚(yú),文獻(xiàn)[15-16]從不同角度提出了聯(lián)合形狀和紋理特征的魚(yú)分類(lèi)方法,結(jié)果表明,水下環(huán)境魚(yú)檢測(cè)分類(lèi)的難度明顯大于之前的受限環(huán)境。面對(duì)水下珊瑚礁魚(yú)成像分辨率低的問(wèn)題,Wei等[17]提出了一種利用互聯(lián)網(wǎng)高分辨率魚(yú)圖像進(jìn)行數(shù)據(jù)增強(qiáng)的珊瑚礁魚(yú)分類(lèi)方法。圍繞真實(shí)水下監(jiān)控視頻珊瑚礁魚(yú)檢測(cè)的Sea-CLEF系列國(guó)際競(jìng)賽[18],來(lái)自韓國(guó)首爾大學(xué)[19]、德國(guó)耶拿大學(xué)[20]的團(tuán)隊(duì)采用了運(yùn)動(dòng)前景提取與基于深度學(xué)習(xí)分類(lèi)相結(jié)合的解決方案,取得了較好成績(jī)。近期相關(guān)工作更傾向于利用深度學(xué)習(xí)目標(biāo)檢測(cè)模型來(lái)解決珊瑚礁魚(yú)檢測(cè)問(wèn)題。例如,文獻(xiàn)[21]提出了一個(gè)相鄰層特征融合的全卷積網(wǎng)絡(luò)進(jìn)行珊瑚礁魚(yú)檢測(cè)。為更好應(yīng)對(duì)水下復(fù)雜環(huán)境,Zhuang等[22]提出了先用SSD模型[23]檢測(cè)珊瑚礁魚(yú),再用ResNet網(wǎng)絡(luò)[24]對(duì)檢測(cè)前景進(jìn)行分類(lèi)的方法。印度韋洛爾技術(shù)大學(xué)的研究團(tuán)隊(duì)[25]評(píng)估了不同主干網(wǎng)Faster R-CNN模型[26]在該競(jìng)賽上的檢測(cè)性能。德國(guó)杜塞爾多夫大學(xué)的學(xué)者[27]提出了一種基于YOLO模型[28]的改進(jìn)方法,取得了較好的檢測(cè)效果。

      上述研究雖然顯著推動(dòng)了珊瑚礁魚(yú)自動(dòng)檢測(cè)技術(shù)的發(fā)展,但仍存在一些不足:將珊瑚礁魚(yú)檢測(cè)視為一個(gè)前景提取及分類(lèi)的任務(wù),或?qū)⑵湟暈橐粋€(gè)圖像目標(biāo)檢測(cè)加上時(shí)序后處理的任務(wù)。前者雖然前景提取時(shí)能一定程度利用視頻時(shí)序信息抑制水下復(fù)雜環(huán)境造成的負(fù)面影響,但其將檢測(cè)過(guò)程切分成了前景提取和分類(lèi)2個(gè)獨(dú)立的子任務(wù),二者無(wú)法相互促進(jìn)和增強(qiáng),檢測(cè)性能受到限制。對(duì)于后者,由于檢測(cè)時(shí)忽視了時(shí)序維度,且受目標(biāo)大小有限、環(huán)境復(fù)雜等的影響,深度模型難以提取高質(zhì)量檢測(cè)特征,易造成誤檢和漏檢,雖然時(shí)序后處理可消除一部分錯(cuò)誤,但這也很難稱(chēng)之為視頻時(shí)序信息的深入利用。

      認(rèn)識(shí)到特征辨識(shí)力不足是制約當(dāng)前檢測(cè)精度提升的關(guān)鍵因素,本文提出了一種時(shí)空特征聚合的水下珊瑚礁魚(yú)檢測(cè)方法。具體地,設(shè)計(jì)了一個(gè)新穎的卷積網(wǎng)絡(luò)結(jié)構(gòu)以提取更具辨識(shí)力的時(shí)空聯(lián)合特征。該網(wǎng)絡(luò)從SSD模型發(fā)展而來(lái)。同時(shí),其包含一個(gè)多層視覺(jué)特征聚合模塊,以提取更豐富的視覺(jué)特征,以及一個(gè)時(shí)序特征聚合模塊,可結(jié)合運(yùn)動(dòng)目標(biāo)生成時(shí)序強(qiáng)化的特征表示。通過(guò)以上2個(gè)模塊實(shí)現(xiàn)對(duì)空間和時(shí)間2個(gè)維度特征的聚合,得到了可有效表征水下視覺(jué)目標(biāo)的時(shí)空聯(lián)合特征。公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法可提升真實(shí)水下環(huán)境珊瑚礁魚(yú)檢測(cè)的精度。

      本文的主要貢獻(xiàn)如下:

      1)提出了一個(gè)多層視覺(jué)特征聚合的深度網(wǎng)絡(luò)模塊,設(shè)計(jì)了自頂向下的切分和自底向上的歸并,可實(shí)現(xiàn)不同分辨率多層卷積特征圖的聚合。

      2)提出了一個(gè)時(shí)序特征聚合的深度網(wǎng)絡(luò)模塊,可結(jié)合運(yùn)動(dòng)目標(biāo)融合相鄰幀的卷積特征圖,從時(shí)序維度強(qiáng)化所提取特征。

      3)通過(guò)集成以上2個(gè)模塊,提出了一個(gè)時(shí)空特征聚合的深度目標(biāo)檢測(cè)網(wǎng)絡(luò),可實(shí)現(xiàn)對(duì)視頻目標(biāo)特征的有效提取及檢測(cè)。

      4)公開(kāi)數(shù)據(jù)集的實(shí)驗(yàn)表明,本文方法可以有效檢測(cè)真實(shí)水下環(huán)境中的珊瑚礁魚(yú),相比于傳統(tǒng)方法和模型取得了更好的檢測(cè)精度。

      1 相關(guān)技術(shù)

      本節(jié)對(duì)珊瑚礁魚(yú)檢測(cè)方法中涉及或相關(guān)的技術(shù)進(jìn)行簡(jiǎn)要介紹,具體包括前景提取及分類(lèi)、圖像目標(biāo)檢測(cè)和視頻目標(biāo)檢測(cè)3個(gè)方面。

      1.1 前景提取及分類(lèi)

      前景提取及分類(lèi)方法將珊瑚礁魚(yú)檢測(cè)視為一個(gè)前景目標(biāo)提取及分類(lèi)問(wèn)題。由于當(dāng)前水下攝像采集的都是固定場(chǎng)景視頻,借鑒安防、交通監(jiān)控等領(lǐng)域的分析經(jīng)驗(yàn),利用多幀圖像平均、高斯混合模型[29]等方法可以對(duì)這類(lèi)視頻進(jìn)行背景建模,進(jìn)而可以通過(guò)背景差減和適當(dāng)后處理,提取當(dāng)前幀中的運(yùn)動(dòng)區(qū)域。將這些區(qū)域視為前景目標(biāo)從圖像中截取出來(lái)并歸一化到特定大小,即可作為深度神經(jīng)網(wǎng)絡(luò)或其他機(jī)器學(xué)習(xí)模型的輸入,構(gòu)建相應(yīng)分類(lèi)模型實(shí) 現(xiàn) 珊 瑚 礁 魚(yú) 檢 測(cè)。AlexNet[30]、GoogleNet[31]、ResNet[24]都是現(xiàn)有文獻(xiàn)中用到的分類(lèi)網(wǎng)絡(luò)。

      前景提取的效果是這類(lèi)方法能否取得好的結(jié)果的關(guān)鍵。由于珊瑚礁魚(yú)在圖像中通常只是一小部分,且受到影像分辨率低,以及水流、背景目標(biāo)運(yùn)動(dòng)(如珊瑚擺動(dòng))等的影響,所提取的前景通常會(huì)有較多噪聲。分類(lèi)網(wǎng)絡(luò)雖然可以濾除其中一部分,但因前景目標(biāo)提取不完整、提取冗余等因素,不可避免會(huì)對(duì)分類(lèi)精度造成一定影響。

      1.2 圖像目標(biāo)檢測(cè)

      圖像目標(biāo)檢測(cè)方法將珊瑚礁魚(yú)檢測(cè)視為一個(gè)基于單幀圖像的目標(biāo)檢測(cè)問(wèn)題。圖像目標(biāo)檢測(cè)是隨著深度學(xué)習(xí)技術(shù)發(fā)展性能得到顯著提升的領(lǐng)域之一。根據(jù)檢測(cè)原理的不同,現(xiàn)有檢測(cè)方法主要分為兩階段方法和一階段方法兩大類(lèi)。

      兩階段方法一般包含2個(gè)網(wǎng)絡(luò):候選區(qū)域生成網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)。首先,使用候選區(qū)域生成網(wǎng)絡(luò)在圖像特征圖上生成目標(biāo)候選框;然后,使用檢測(cè)網(wǎng)絡(luò)對(duì)生成的目標(biāo)候選框進(jìn)行中心位置和長(zhǎng)寬的回歸,并進(jìn)行分類(lèi)。典型的兩階段方法包括Faster R-CNN[26]、Cascade R-CNN[32]等。

      一階段方法通過(guò)對(duì)目標(biāo)位置、大小和長(zhǎng)寬比進(jìn)行密集的采樣來(lái)檢測(cè)目標(biāo)。這類(lèi)方法先在特征圖的每個(gè)位置根據(jù)不同的大小和長(zhǎng)寬比預(yù)定義固定數(shù)量的默認(rèn)框,再對(duì)默認(rèn)框的中心位置和長(zhǎng)寬進(jìn)行回歸,并對(duì)其包含的物體進(jìn)行分類(lèi)判別。典型的一階段方法有YOLO[28]、SSD[23]等。

      除以上方法,近年來(lái)也有一些考慮目標(biāo)定位損失[33]和無(wú)需預(yù)定義默認(rèn)框[34]的方法被提出來(lái)并取得良好檢測(cè)性能。此外,強(qiáng)化網(wǎng)絡(luò)所提取特征的辨識(shí)力也是提升目標(biāo)檢測(cè)性能的重要方向。這方面代表性工作有特征金字塔網(wǎng)絡(luò)FPN[35]、默認(rèn)框可適配學(xué)習(xí)的RefineDet[36]等。

      具體到珊瑚礁魚(yú)檢測(cè)方面,目前有文獻(xiàn)用到Faster R-CNN[26]、SSD[23]和YOLO[28]。因視頻幀分辨率低、水下環(huán)境復(fù)雜、魚(yú)體態(tài)呈多維變化等特點(diǎn),所提取特征質(zhì)量不可避免受到影響,制約了以上方法的精度。為此,文獻(xiàn)[22,27]提出利用額外分類(lèi)器來(lái)強(qiáng)化檢測(cè)結(jié)果,這一做法的效果主要體現(xiàn)在減少誤判上,對(duì)漏判則作用不大。

      1.3 視頻目標(biāo)檢測(cè)

      視頻目標(biāo)檢測(cè)泛指同時(shí)利用圖像靜態(tài)特征和視頻運(yùn)動(dòng)信息實(shí)現(xiàn)檢測(cè)的各種方法。目前,主要有2類(lèi)視頻目標(biāo)檢測(cè)方法:第1類(lèi)是圖像目標(biāo)檢測(cè)及后處理。先在多幀圖像上進(jìn)行目標(biāo)檢測(cè),再采取適當(dāng)后處理,得到視頻級(jí)檢測(cè)結(jié)果。這類(lèi)方法是圖像目標(biāo)檢測(cè)方法的簡(jiǎn)單延伸,其存在難以充分利用檢測(cè)結(jié)果的時(shí)序相關(guān)性等不足。第2類(lèi)方法利用可同時(shí)接受視覺(jué)和時(shí)序信息作為輸入的深度模型進(jìn)行檢測(cè)。目前,已經(jīng)有一些相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu)被提出來(lái)。例如,利用2個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別處理視覺(jué)和運(yùn)動(dòng)信息的雙流神經(jīng)網(wǎng)絡(luò)[6],利用卷積神經(jīng)網(wǎng)絡(luò)提取單幀圖像視覺(jué)特征,進(jìn)而用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)建模相鄰幀之間相關(guān)性的CNN-LSTM結(jié)構(gòu)[7],利用3D卷積提取時(shí)空聯(lián)合特征的三維卷積神經(jīng)網(wǎng)絡(luò)[9]。這些方法統(tǒng)籌考慮了時(shí)空域,因而可以提取到更為強(qiáng)大的特征,從而提升行為識(shí)別、視頻分類(lèi)等多個(gè)視頻任務(wù)的分析精度。

      由于珊瑚礁魚(yú)通常只占視頻幀的一小塊區(qū)域,且其位置隨著時(shí)間變化,構(gòu)建有效的局部視覺(jué)和時(shí)序特征表示是視頻目標(biāo)檢測(cè)的關(guān)鍵。這方面典型工作有光流引導(dǎo)特征聚合網(wǎng)絡(luò)[10],依據(jù)光流方向聚合相鄰幀特征圖以強(qiáng)化對(duì)當(dāng)前幀目標(biāo)的表示,可適當(dāng)緩解目標(biāo)因運(yùn)動(dòng)模糊、面積過(guò)小、罕見(jiàn)姿態(tài)等問(wèn)題導(dǎo)致的檢測(cè)困難。此外,也有學(xué)者研究了同時(shí)進(jìn)行目標(biāo)檢測(cè)和跟蹤的網(wǎng)絡(luò)[37],通過(guò)二者的互補(bǔ)提升檢測(cè)性能。

      2 本文方法

      2.1 整體網(wǎng)絡(luò)結(jié)構(gòu)

      本節(jié)介紹提出的時(shí)空特征聚合水下珊瑚礁魚(yú)檢測(cè)方法。圖1給出了時(shí)空特征聚合神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu)??梢钥吹剑摼W(wǎng)絡(luò)接受當(dāng)前視頻幀及前后相鄰幀作為輸入。當(dāng)前幀通過(guò)圖中c1~cf組成的視覺(jué)特征聚合模塊(Visual Feature Aggregation,VFA),生成一個(gè)融合了多層卷積特征圖、信息更豐富的新視覺(jué)特征圖。同時(shí),對(duì)于其中參與目標(biāo)預(yù)測(cè)的特征圖(cf,c15~c19),通過(guò)圖中實(shí)線框表示的時(shí)序特征聚合模塊(Temporal Feature Aggregation,TFA)對(duì)當(dāng)前幀及相鄰幀特征圖予以聚合,從而生成具備更強(qiáng)表示能力的時(shí)空聚合特征(Visual-Temporal Feature Aggregation,VTFA)。珊瑚礁魚(yú)檢測(cè)將在空間分辨率逐步降低的多個(gè)聚合特征圖上進(jìn)行。

      圖1 本文時(shí)空特征聚合神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu)Fig.1 Overall architecture of the proposed spatio-temporal features aggregation neural network

      本文網(wǎng)絡(luò)可視為一種從SSD模型[23]發(fā)展而來(lái)的復(fù)合結(jié)構(gòu),在其單幀圖像處理通道中(見(jiàn)圖1中虛線框),類(lèi)似于 SSD 利用卷積神經(jīng)網(wǎng)絡(luò)VGG16[38]作為特征提取主干網(wǎng),其中基本卷積層c1~c13與VGG16一致,最后2個(gè)全連接層和分類(lèi)層被截?cái)?,予以替換的是6個(gè)空間分辨率逐步降低的新增卷積層(c14~c19)。在SSD中,目標(biāo)檢測(cè)將在c10、c15~c19這6個(gè)不同尺度的卷積特征圖上進(jìn)行。

      損失函數(shù)方面,本文網(wǎng)絡(luò)與SSD的形式相同,整個(gè)網(wǎng)絡(luò)的損失函數(shù)定義為

      式中:x為記錄預(yù)測(cè)框和標(biāo)注框匹配情況的矩陣;c為當(dāng)前樣本的預(yù)測(cè)置信度向量;l和g分別為預(yù)測(cè)框和標(biāo)注框的坐標(biāo)信息;N為當(dāng)前幀預(yù)測(cè)框數(shù)量;Lconf和Lloc分別為類(lèi)別損失和定位損失;a為一個(gè)用于平衡2類(lèi)損失的參數(shù),本文設(shè)置為1。以上損失項(xiàng)的計(jì)算公式可參見(jiàn)文獻(xiàn)[23]。

      不同于SSD,本文網(wǎng)絡(luò)的目標(biāo)預(yù)測(cè)是在經(jīng)過(guò)單幀圖像多層特征圖聚合與/或相鄰幀同層特征圖聚合后生成的時(shí)空強(qiáng)化特征圖上進(jìn)行,這2個(gè)聚合模塊正是本文的創(chuàng)新之處。

      2.2 視覺(jué)特征聚合模塊

      源自VGG16的基本卷積層中,SSD僅用c10進(jìn)行預(yù)測(cè),忽視了其他層信息。水下監(jiān)控視頻由于質(zhì)量低、成像環(huán)境復(fù)雜且珊瑚礁魚(yú)目標(biāo)通常較小,基本卷積層特征圖上的信息對(duì)于檢測(cè)來(lái)說(shuō)尤其重要?;诖耍疚脑O(shè)計(jì)了一個(gè)視覺(jué)特征聚合模塊對(duì)基本卷積層進(jìn)行更有效的利用,以提高水下復(fù)雜環(huán)境中的珊瑚礁魚(yú)檢測(cè)性能。

      視覺(jué)特征聚合模塊由一個(gè)自頂向下的切分和一個(gè)自底向上的歸并操作組成。切分過(guò)程迭代地將卷積層分成不同的組,形成了一個(gè)自頂向下的切分結(jié)構(gòu)。在這個(gè)結(jié)構(gòu)的最頂層,所有卷積層都在同一組。當(dāng)卷積層數(shù)量n是偶數(shù)時(shí),在下一層它們將從中間切分,分成2個(gè)各含有n/2個(gè)層的組;當(dāng)卷積層的數(shù)量n是奇數(shù)時(shí),在下一層最中間的卷積層將被視為一個(gè)單獨(dú)的組,其左右兩邊的卷積層被分為另外2個(gè)組,各含有(n-1)/2個(gè)層?;谶@一原則,卷積層可以不斷被切分,直至每個(gè)組中卷積層的數(shù)量小于等于2,此時(shí)切分過(guò)程停止。圖2(a)的上半部分給出了一個(gè)切分的例子。

      基于以上切分結(jié)果,自底向上的歸并從下往上不斷合并每個(gè)組中的特征圖,最終形成了一個(gè)聚合了所有卷積特征圖的特征。具體地,卷積層歸并時(shí)涉及對(duì)2個(gè)或3個(gè)分辨率和通道數(shù)可能不同的特征圖融合。由于卷積神經(jīng)網(wǎng)絡(luò)特征圖從淺層到深層滿足分辨率不變或遞減的規(guī)律,對(duì)于2個(gè)特征圖融合的情況:若分辨率不同,將低分辨率特征圖上采樣到與高分辨率特征圖具有相同大小,再進(jìn)行融合;若分辨率相同則直接融合。對(duì)于3個(gè)特征圖融合的情況,先保持中間層特征圖的分辨率不變,若其淺層方向特征圖分辨率大于中間層,則通過(guò)下采樣將其降采樣到與中間層特征圖相同分辨率再融合;若其深層方向特征圖分辨率小于中間層,則將其上采樣到與中間層特征圖一樣大小再進(jìn)行融合;若淺層和/或深層方向特征圖分辨率與中間層的一致,則直接融合。通過(guò)迭代進(jìn)行融合操作,最終所有特征圖將會(huì)被融合成一個(gè)具有適中分辨率的聚合特征圖,如圖2(a)下半部分所示,該特征圖將會(huì)替換c10進(jìn)行預(yù)測(cè)。

      圖2 本文提出的視覺(jué)特征聚合模塊和時(shí)序特征聚合模塊Fig.2 The proposed visual feature aggregation module and temporal feature aggregation module

      對(duì)于融合過(guò)程中的特征圖通道數(shù)可能不一致的情況,以(三層融合的)中間層或(兩層融合中)淺層方向的特征圖為基準(zhǔn),融合前先通過(guò)1×1的卷積將其他層特征圖的通道數(shù)予以對(duì)齊。注意到,該特征聚合模塊不僅適用于VGG16主干網(wǎng),也可以推廣到其他卷積主干網(wǎng)。相比于僅利用c10進(jìn)行預(yù)測(cè),以及文獻(xiàn)[21]僅融合相鄰預(yù)測(cè)層的方案,本文視覺(jué)特征聚合模塊以一種合理且可擴(kuò)展的方式聚合了多個(gè)基本卷積層的特征圖,提供了更豐富的局部細(xì)節(jié)和上下文信息,有利于更好刻畫(huà)視頻幀中的珊瑚礁魚(yú)目標(biāo)。

      2.3 時(shí)序特征聚合模塊

      珊瑚礁魚(yú)在水下游動(dòng)時(shí)體態(tài)呈多維變化,當(dāng)其部分遮擋或以罕見(jiàn)體態(tài)出現(xiàn)時(shí),不可避免會(huì)帶來(lái)檢測(cè)困難。融合相鄰幀特征顯然有利于緩解該問(wèn)題。基于此,本文設(shè)計(jì)了時(shí)序特征聚合模塊在相鄰幀上融合運(yùn)動(dòng)目標(biāo)相關(guān)的特征圖,以生成更強(qiáng)化的特征表示。

      時(shí)序特征聚合模塊的示意圖如圖2(b)所示。對(duì)于輸入到網(wǎng)絡(luò)的當(dāng)前視頻幀及其前后相鄰幀,利用圖1所示的主干網(wǎng)結(jié)構(gòu)提取每幀圖像各個(gè)卷積層的特征圖,這些特征圖記錄了目標(biāo)在當(dāng)前圖像上的卷積響應(yīng)值。基于此,在特征圖上計(jì)算當(dāng)前幀與每個(gè)相鄰幀的幀差圖,對(duì)幀差圖進(jìn)行灰度化和二值化并結(jié)合適當(dāng)后處理,如圖2(b)所示,記錄了當(dāng)前幀與其相鄰幀之間運(yùn)動(dòng)信息的二值幀差圖。

      對(duì)于網(wǎng)絡(luò)中參與目標(biāo)預(yù)測(cè)的特征圖,通過(guò)以下公式對(duì)其進(jìn)行時(shí)序聚合:

      式中:fj,n為視頻幀Ij聚合前的第n層特征圖;f′i,n為視頻幀Ii聚合后的第n層特征圖;Bi,j為Ii與Ij的二值幀差圖,當(dāng)i=j時(shí),Bi,j為值全為1的矩陣;“?”為對(duì)應(yīng)相乘操作;Si=(Ii-k,Ii-k+1,…,Ii+k)為Ii及其相鄰幀集合,k為鄰域邊界;wj為Ij對(duì)應(yīng)的權(quán)重,即

      其中:σ為歸一化因子,以確保所有權(quán)重之和為1。

      式(2)以線性加權(quán)的方式,將相鄰幀特征圖中對(duì)應(yīng)幀差運(yùn)動(dòng)區(qū)域的特征融合到當(dāng)前幀同層特征圖中。這一做法可以生成一個(gè)以當(dāng)前幀運(yùn)動(dòng)目標(biāo)為中心,適當(dāng)囊括其周邊區(qū)域,時(shí)序強(qiáng)化的特征。由于珊瑚礁魚(yú)是視頻中的運(yùn)動(dòng)主體,這一做法可有效緩解當(dāng)前幀珊瑚礁魚(yú)目標(biāo)因運(yùn)動(dòng)模糊、罕見(jiàn)姿態(tài)等帶來(lái)的特征表示困難。

      以上時(shí)序融合在所有6個(gè)參與目標(biāo)預(yù)測(cè)的卷積特征圖上都將進(jìn)行,其中包括了一個(gè)通過(guò)視覺(jué)特征聚合模塊生成的預(yù)測(cè)層。因此,網(wǎng)絡(luò)可提取到時(shí)空聯(lián)合的強(qiáng)化特征更好地進(jìn)行目標(biāo)檢測(cè)。注意到,文獻(xiàn)[10]也提出了一種光流引導(dǎo)的相鄰幀特征圖融合方法。本文與其有2點(diǎn)區(qū)別:①在融合區(qū)域確定上,文獻(xiàn)[10]先計(jì)算兩幀之間的光流,再依此將每幀光流前景對(duì)應(yīng)的特征圖位移后再與當(dāng)前幀相應(yīng)位置疊加融合。與之對(duì)應(yīng),本文采用了計(jì)算代價(jià)顯著降低的幀差運(yùn)算,融合區(qū)域也是相對(duì)更寬泛的幀差前景區(qū)域。采用這一做法主要是考慮到低質(zhì)量視頻中光流計(jì)算誤差較大,容易導(dǎo)致位移估計(jì)不準(zhǔn)確。此外,認(rèn)為魚(yú)周邊區(qū)域的特征也有助于檢測(cè)。②在相鄰幀融合的權(quán)重上,文獻(xiàn)[10]用余弦相似度動(dòng)態(tài)計(jì)算當(dāng)前幀與相鄰幀的權(quán)重,而本文采用的是一個(gè)以當(dāng)前幀為中心的類(lèi)高斯分布權(quán)重,直接賦予與當(dāng)前幀更鄰近的相鄰幀更大權(quán)重。這一做法在降低計(jì)算量的同時(shí),也一定程度避免了相似度計(jì)算對(duì)噪聲敏感的影響。

      上述融合中,時(shí)序聚合的鄰域k是一個(gè)重要參數(shù)。大的k值融合的相鄰幀多,但網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,計(jì)算代價(jià)更高;小的k值則有時(shí)序信息融合不充分的隱患。此外,選定k值后,鄰域中圖像分析的采樣間隔也是一個(gè)需要明確的細(xì)節(jié)。將在消融實(shí)驗(yàn)中論證不同做法的區(qū)別。

      2.4 后處理

      基于幀級(jí)檢測(cè)結(jié)果及置信度,本文先利用非極大值抑制消除單幀圖像上的冗余檢測(cè)框,再提出了一個(gè)時(shí)序后處理以提升珊瑚礁魚(yú)檢測(cè)精度。該后處理旨在改善部分情況下珊瑚礁魚(yú)檢測(cè)得分置信度過(guò)低,易造成漏檢和誤檢的現(xiàn)象。具體地,在得到單幀檢測(cè)結(jié)果后,先將相鄰幀中滿足檢測(cè)類(lèi)別相同且IoU>0.5的檢測(cè)框標(biāo)記成檢測(cè)對(duì),再將檢測(cè)對(duì)中檢測(cè)框得分統(tǒng)一為置信度高的得分。通過(guò)這種方式,一定程度利用了目標(biāo)的時(shí)序互補(bǔ)性強(qiáng)化了檢測(cè)得分,使檢測(cè)結(jié)果更穩(wěn)定。上述非極大值抑制和時(shí)序后處理如圖3所示。

      圖3 非極大值抑制和本文提出的時(shí)序后處理Fig.3 Non-maximum suppression and the proposed temporal post-processing

      本文網(wǎng)絡(luò)實(shí)現(xiàn)時(shí),由于當(dāng)前幀預(yù)測(cè)需要利用前后相鄰幀特征圖,為避免重復(fù)提取圖像特征,在確定鄰域參數(shù)k及其采樣間隔后,將申請(qǐng)一個(gè)公共緩存空間存儲(chǔ)以當(dāng)前幀為中心,鄰域內(nèi)所有采樣圖像參與預(yù)測(cè)的卷積特征圖。這樣,每幀檢測(cè)時(shí),只需計(jì)算當(dāng)前幀的時(shí)空聯(lián)合聚合特征圖以開(kāi)展以當(dāng)前幀為中心的目標(biāo)檢測(cè)。對(duì)一個(gè)視頻幀序列,則只需按時(shí)序?qū)λ胁蓸訋貜?fù)以上過(guò)程,相應(yīng)調(diào)整緩存空間內(nèi)容,即可依次計(jì)算所有采樣幀上的檢測(cè)結(jié)果。

      3 實(shí)驗(yàn)與結(jié)果

      3.1 數(shù)據(jù)集

      用SeaCLEF國(guó)際競(jìng)賽[18]數(shù)據(jù)作為本文實(shí)驗(yàn)數(shù)據(jù)集。該數(shù)據(jù)集提供了5個(gè)不同場(chǎng)景和日期的93個(gè)水下監(jiān)控視頻,給出了其中出現(xiàn)的15種珊瑚礁魚(yú)的逐幀標(biāo)注,包括魚(yú)的類(lèi)別和矩形框形式的位置信息,共有21 396個(gè)標(biāo)注樣例。該數(shù)據(jù)集涵蓋了圖像分辨率低、水下環(huán)境復(fù)雜、魚(yú)體態(tài)變化大等一系列真實(shí)水下監(jiān)控視頻包含的檢測(cè)難點(diǎn)。

      競(jìng)賽將數(shù)據(jù)集分成了訓(xùn)練集和測(cè)試集,分別包含20個(gè)和73個(gè)視頻的13 882個(gè)和7 514個(gè)標(biāo)注實(shí)例。訓(xùn)練集和測(cè)試集都涵蓋了全部的5個(gè)場(chǎng)景。但是,不同魚(yú)在數(shù)據(jù)集中的分布并不均勻,出現(xiàn)次數(shù)最多的網(wǎng)紋宅泥魚(yú)在訓(xùn)練集和測(cè)試集上分別出現(xiàn)了3165和5 046次,15種魚(yú)中黑緣單鰭魚(yú)在測(cè)試集中僅出現(xiàn)了8次,甚至鏡斑蝴蝶魚(yú)和黑鰭粗唇魚(yú)在測(cè)試集沒(méi)有出現(xiàn)。因此參考文獻(xiàn)[21],本文將上述3類(lèi)魚(yú)從檢測(cè)任務(wù)中去除,構(gòu)成了一個(gè)包含12種珊瑚礁魚(yú)的目標(biāo)檢測(cè)任務(wù)。表1給出了這些魚(yú)的名稱(chēng),以及它們?cè)谟?xùn)練集和測(cè)試集中的數(shù)量分布情況。

      表1 SeaCLEF數(shù)據(jù)集中不同類(lèi)別魚(yú)的數(shù)量Table 1 Numbers of different fish species on SeaCLEF dataset

      3.2 實(shí)驗(yàn)設(shè)置及評(píng)價(jià)指標(biāo)

      本文采用一個(gè)兩步訓(xùn)練過(guò)程來(lái)訓(xùn)練網(wǎng)絡(luò)。第1步基于單幀圖像訓(xùn)練一個(gè)僅包含視覺(jué)特征聚合模塊的目標(biāo)檢測(cè)網(wǎng)絡(luò):先讀取ImageNet數(shù)據(jù)集的預(yù)訓(xùn)練參數(shù),再采用批量隨機(jī)梯度下降方法進(jìn)行訓(xùn)練,批的大小為32張圖像。設(shè)置網(wǎng)絡(luò)總共迭代訓(xùn)練120 000次。先將學(xué)習(xí)率設(shè)置為0.000 1進(jìn)行1 000次迭代的熱身訓(xùn)練,完成熱身訓(xùn)練以后將學(xué)習(xí)率升至0.001,迭代訓(xùn)練40 000次和80 000次之后,分別將學(xué)習(xí)率降低為0.000 1和0.000 01,以使網(wǎng)絡(luò)更好地收斂。梯度更新動(dòng)量值為0.9。第2步訓(xùn)練基于第1步得到的參數(shù)訓(xùn)練整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。由于特征圖相加操作的可導(dǎo)性,整個(gè)網(wǎng)絡(luò)是端到端可訓(xùn)練的。第2步同樣采用批量隨機(jī)梯度下降的精調(diào)訓(xùn)練,批的大小為1張圖像,迭代輪數(shù)設(shè)置為60000次,其中前40000次與后20000次的學(xué)習(xí)率分別為0.000 1和0.000 01。采用了隨機(jī)剪裁和調(diào)整圖像對(duì)比度的數(shù)據(jù)增強(qiáng)方式。圖像在輸入網(wǎng)絡(luò)之前先將大小調(diào)整為300×400。全部訓(xùn)練在一個(gè)GTX Titan X GPU上完成,基于TensorFlow平臺(tái)完成整個(gè)模型訓(xùn)練需要約34 h。

      推理階段,本文網(wǎng)絡(luò)接受當(dāng)前幀及其前后多個(gè)相鄰幀作為輸入,輸出當(dāng)前幀的檢測(cè)結(jié)果。檢測(cè)結(jié)果經(jīng)過(guò)2.4節(jié)的后處理,可得到視頻級(jí)檢測(cè)結(jié)果。評(píng)價(jià)指標(biāo)上,本文用目標(biāo)檢測(cè)領(lǐng)域廣泛使用的平均精度均值mAP,其定義為

      式中:APi為第i個(gè)目標(biāo)類(lèi)別通過(guò)改變閾值得到的不同召回率下的平均精度;n為目標(biāo)類(lèi)別個(gè)數(shù)。

      3.3 消融實(shí)驗(yàn)

      通過(guò)消融實(shí)驗(yàn)來(lái)驗(yàn)證視覺(jué)特征聚合模塊和時(shí)序特征聚合模塊中特征圖的具體融合方式,以及時(shí)序融合時(shí)當(dāng)前幀的鄰域及采樣間隔。

      融合方式方面,驗(yàn)證視覺(jué)特征聚合模塊時(shí),將網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為僅輸入當(dāng)前幀Ii的情況,此時(shí)網(wǎng)絡(luò)僅包含圖1中虛線框的部分。對(duì)比了對(duì)應(yīng)相加、取最大值和取平均值3種特征圖融合策略。表2給出了相應(yīng)的mAP值??梢钥吹?,對(duì)應(yīng)相加取得了更好的性能。

      驗(yàn)證不同融合方式對(duì)時(shí)序特征聚合模塊的影響。先將網(wǎng)絡(luò)固定為輸入{Ii-4,Ii,Ii+4}3幀圖像的情況。為簡(jiǎn)化起見(jiàn),去除了網(wǎng)絡(luò)中的視覺(jué)特征聚合模塊。表2給出了上述3種情況下的mAP值。結(jié)果表明,取最大值進(jìn)行融合更有利于進(jìn)行珊瑚礁魚(yú)檢測(cè)。

      分析采樣鄰域及間隔對(duì)結(jié)果的影響。受限于計(jì)算資源,僅考慮了輸入不超過(guò)5個(gè)視頻幀的情況。結(jié)合不同采樣間隔,將其分成了如表3和表4所示的11種情況,其中2表示考慮{Ii-2,Ii,Ii+2}3幀圖像的情況,46表示考慮{Ii-6,Ii-4,Ii,Ii+4,Ii+6}5幀圖像的情況,其余依此類(lèi)推。實(shí)驗(yàn)中網(wǎng)絡(luò)都未包括視覺(jué)特征聚合模塊。

      可以看到,輸入5幀圖像可以取得比3幀圖像更好的檢測(cè)結(jié)果。這一點(diǎn)是符合預(yù)期的,因?yàn)榫酆细嘞噜弾欣谔崛「弑孀R(shí)力的特征。此外,注意到與當(dāng)前幀間隔為6(3幀情況),以及4和8(5幀情況)時(shí),相比于其他間隔情況下取得了更好的結(jié)果。幀數(shù)間隔大一般關(guān)聯(lián)著更大的運(yùn)動(dòng)區(qū)域,對(duì)應(yīng)到本文網(wǎng)絡(luò)則是更大范圍的特征融合。當(dāng)間隔相對(duì)適中時(shí),可使得相鄰特征圖中目標(biāo)及合適范圍的周邊上下文得到更強(qiáng)化的刻畫(huà),但若間隔過(guò)大,則容易融合到更多的噪聲而起到負(fù)面作用?;谝陨辖Y(jié)果,本文網(wǎng)絡(luò)結(jié)構(gòu)最終確定為接受{Ii-8,Ii-4,Ii,Ii+4,Ii+8}5幀圖像作為輸入,并將對(duì)應(yīng)相加和取最大值分別作為視覺(jué)特征聚合和時(shí)序特征聚合中多個(gè)特征圖的融合方式。

      表2 不同融合方式及性能Table 2 Different fusion methods and their performance

      表3 輸入為3幀圖像時(shí)不同參數(shù)下的網(wǎng)絡(luò)性能Table 3 Network perfor mance under different parameters when three-frame images are input

      表4 輸入為5幀圖像時(shí)不同參數(shù)下的網(wǎng)絡(luò)性能Table 4 Network perfor mance under different parameters when five-frame images are input

      3.4 實(shí)驗(yàn)結(jié)果及對(duì)比分析

      為評(píng)估檢測(cè)性能,將本文網(wǎng)絡(luò)及其衍生結(jié)構(gòu)和幾種主流方法與模型進(jìn)行了實(shí)驗(yàn)比較。

      BS+GoogleNet[20]:德國(guó)耶拿大學(xué)提出的基于前景提取及分類(lèi)的珊瑚礁魚(yú)檢測(cè)方法。

      Faster R-CNN[26]、YOLOv3[28]和SSD[23]:采用這3個(gè)主流目標(biāo)檢測(cè)模型進(jìn)行珊瑚礁魚(yú)檢測(cè)。

      FFDet[21]:基于相鄰卷積層特征融合的珊瑚礁魚(yú)檢測(cè)方法。

      FGFA[10]:光流引導(dǎo)的相鄰幀特征圖融合的檢測(cè)方法。

      Ours-VTFA、Ours-VFA 和Ours-TFA:本 文 網(wǎng)絡(luò),以及本文網(wǎng)絡(luò)分別去除時(shí)序特征聚合模塊和視覺(jué)特征聚合模塊后對(duì)應(yīng)的珊瑚礁魚(yú)檢測(cè)方法。

      表5給出了以上方法的圖像級(jí)和視頻級(jí)實(shí)驗(yàn)結(jié)果及時(shí)間消耗??梢钥吹?,Ours-VTFA方法相比于傳統(tǒng)基于前景提取及分類(lèi)、主流目標(biāo)檢測(cè)模型取得了8.8% ~16.8%的相對(duì)性能提升,表明本文時(shí)空特征聚合網(wǎng)絡(luò)能更好地檢測(cè)水下珊瑚礁魚(yú)。同時(shí),該方法也取得了比僅考慮其中一種模態(tài)聚合的Ours-VFA和Ours-TFA更好的效果,說(shuō)明從時(shí)間和空間2個(gè)維度強(qiáng)化特征提取的互補(bǔ)性和必要性。

      視覺(jué)特征聚合方面,對(duì)比于沒(méi)有特征融合的SSD和采用相鄰層視覺(jué)特征融合的FFDet,Ours-VFA方法取得了更好的檢測(cè)性能,說(shuō)明基本卷積層聚合生成的特征圖可以更好地描述珊瑚礁魚(yú)的類(lèi)別和位置信息,挖掘利用基本卷積層特征對(duì)低質(zhì)量水下視頻中珊瑚礁魚(yú)檢測(cè)具有重要價(jià)值。此外,注意到Ours-VFA方法的檢測(cè)速度顯著快于FGFA等高精度方法,僅略遜于精度不如它的SSD和FFDet。Ours-VFA方法不失為一種速度和精度得到較好折中的檢測(cè)方案。

      表5 不同方法的檢測(cè)性能Table 5 Detection perfor mance of differ ent methods

      時(shí)序特征聚合方面,Ours-TFA方法與SSD的區(qū)別在于:前者在網(wǎng)絡(luò)中聚合了相鄰幀對(duì)應(yīng)運(yùn)動(dòng)區(qū)域的特征圖,即獲得了6.3%的mAP相對(duì)提升,驗(yàn)證了時(shí)序維度的挖掘利用有助于提升檢測(cè)性能。本文基于幀差的相鄰幀聚合方法可以融合相鄰幀目標(biāo)周邊的上下文區(qū)域,有助于提取更加有效的特征。該方法雖然檢測(cè)性能低于FGFA,但時(shí)間消耗減少了2倍以上,主要是幀差計(jì)算的代價(jià)顯著低于光流計(jì)算。在Ours-VFA方法的基礎(chǔ)上進(jìn)一步融入時(shí)序特征聚合模塊,可繼續(xù)提升檢測(cè)性能,再次說(shuō)明了本文網(wǎng)絡(luò)可以互補(bǔ)地聚合時(shí)間和空間維度的特征。注意到,Ours-VTFA方法可以取得優(yōu)于FGFA的實(shí)驗(yàn)結(jié)果,且檢測(cè)時(shí)間也縮短了2倍以上,這也再一次凸顯了聚合基本卷積層特征的重要性。此外,所有方法采用了本文后處理技術(shù)后,檢測(cè)精度均有一定提升,表明網(wǎng)絡(luò)內(nèi)外挖掘的時(shí)序信息具有一定互補(bǔ)性,在不同層次利用它們可進(jìn)一步提升檢測(cè)精度。

      圖4給出了各種檢測(cè)模型在不同珊瑚礁魚(yú)類(lèi)別上的檢測(cè)結(jié)果。其中,每種魚(yú)的8個(gè)檢測(cè)結(jié)果從左到右分別是Faster R-CNN、YOLOv3、SSD、FFDet、FGFA、Ours-VFA、Ours-TFA 和 Ours-VTFA 8種方法取得的。可以看到,不同類(lèi)型魚(yú)的檢測(cè)結(jié)果差異巨大。即使性能最好的方法,在褐斑刺尾鯛上的AP值也不超過(guò)0.1。與之對(duì)應(yīng),無(wú)論是哪種方法,在宅泥魚(yú)、克氏雙鋸魚(yú)和月斑蝴蝶魚(yú)上都取得了較高AP值。從兩方面解釋造成以上顯著類(lèi)間差異的原因:①珊瑚礁魚(yú)樣本數(shù)量在類(lèi)別上分布不均。結(jié)合表1可看到,AP值高的魚(yú)類(lèi)別樣本較多,而AP低的魚(yú)類(lèi)別樣本較少,訓(xùn)練數(shù)據(jù)是否豐富,一定程度上影響了所構(gòu)建模型的檢測(cè)精度。②不同類(lèi)型魚(yú)的視覺(jué)辨識(shí)難度各不相同,導(dǎo)致檢測(cè)難度不一。水下低質(zhì)量視頻中魚(yú)的檢測(cè)主要依賴(lài)對(duì)魚(yú)顏色和形態(tài)輪廓等的刻畫(huà),在訓(xùn)練數(shù)據(jù)相對(duì)充足的情況下,部分顏色和形態(tài)易于辨識(shí),區(qū)分度較大的魚(yú)可以被高精度的檢測(cè),宅泥魚(yú)和月斑蝴蝶魚(yú)均屬于此類(lèi)。但是,當(dāng)訓(xùn)練數(shù)據(jù)較少,且魚(yú)的區(qū)分性特征在低質(zhì)量視頻中不突出,易與其他目標(biāo)混淆時(shí),如褐斑刺尾鯛,檢測(cè)精度則受到嚴(yán)重影響。以上實(shí)驗(yàn)表明,水下監(jiān)控視頻中珊瑚礁魚(yú)的高精度檢測(cè)仍然是一個(gè)極具挑戰(zhàn)的技術(shù)難點(diǎn)。

      圖4 各種檢測(cè)模型在不同珊瑚礁魚(yú)類(lèi)別上的檢測(cè)結(jié)果Fig.4 Detection results of different coral reef fish species by various detection models

      4 結(jié)束語(yǔ)

      認(rèn)識(shí)到從充滿挑戰(zhàn)的水下監(jiān)控視頻中檢測(cè)珊瑚礁魚(yú)的重要價(jià)值,本文提出了一種時(shí)空特征聚合的水下珊瑚礁魚(yú)檢測(cè)方法。該方法從時(shí)間和空間2個(gè)維度出發(fā),分別設(shè)計(jì)了一個(gè)視覺(jué)特征聚合模塊以融合多層不同分辨率的卷積特征圖,以及一個(gè)時(shí)序特征聚合模塊以實(shí)現(xiàn)幀差引導(dǎo)的相鄰幀卷積特征圖融合。SeaCLEF數(shù)據(jù)集上的實(shí)驗(yàn)基本驗(yàn)證了以上2個(gè)特征聚合模塊的有效性。本文基于以上聚合模塊提出的檢測(cè)模型相比于多個(gè)典型方法和模型,可以取得更好的檢測(cè)精度。

      檢測(cè)性能的提升主要?dú)w功于提取了更具表征力的時(shí)空聯(lián)合特征。除了特征,數(shù)據(jù)和模型也是影響檢測(cè)精度的關(guān)鍵因素。在下一步工作中,一方面將探索如何利用互聯(lián)網(wǎng)上公開(kāi)的珊瑚礁魚(yú)視頻圖像,進(jìn)一步提升低質(zhì)量水下視頻中珊瑚礁魚(yú)的檢測(cè)精度。另一方面,還將關(guān)注如何利用生成對(duì)抗網(wǎng)絡(luò)等技術(shù),生成更多高質(zhì)量和多樣化的珊瑚礁魚(yú)訓(xùn)練樣本,從而構(gòu)建更加魯棒有效的珊瑚礁魚(yú)檢測(cè)模型。此外,還計(jì)劃在開(kāi)源深度學(xué)習(xí)平臺(tái)飛槳上復(fù)現(xiàn)該方法。

      猜你喜歡
      珊瑚礁時(shí)序卷積
      基于時(shí)序Sentinel-2數(shù)據(jù)的馬鈴薯遙感識(shí)別研究
      基于Sentinel-2時(shí)序NDVI的麥冬識(shí)別研究
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      終于等到你!ATOLL(珊瑚礁)ST200流媒體播放機(jī)、SDA200流媒體播放/功放一體機(jī)
      珊瑚礁世界的魚(yú)兒
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      跟蹤導(dǎo)練(三)3
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      一種毫米波放大器時(shí)序直流電源的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:08
      硨磲采挖對(duì)珊瑚礁生態(tài)系統(tǒng)的破壞——以西沙北礁為例
      乳山市| 九龙县| 富平县| 禄丰县| 自贡市| 临湘市| 新安县| 依兰县| 合山市| 柳州市| 微山县| 翼城县| 尖扎县| 嘉荫县| 日土县| 固镇县| 区。| 镇江市| 纳雍县| 政和县| 工布江达县| 白沙| 江孜县| 山西省| 澄迈县| 青州市| 祥云县| 宣化县| 霍山县| 余庆县| 格尔木市| 河池市| 乃东县| 吉木乃县| 瓦房店市| 含山县| 永善县| 石屏县| 通海县| 泸定县| 鹤峰县|