• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      側掃聲納檢測沉船目標的輕量化DETR-YOLO法

      2022-08-17 09:44:34湯寓麟李厚樸張衛(wèi)東邊少鋒翟國君張曉平
      系統(tǒng)工程與電子技術 2022年8期
      關鍵詞:聲納沉船置信度

      湯寓麟, 李厚樸,*, 張衛(wèi)東, 邊少鋒, 翟國君, 劉 敏, 張曉平

      (1. 海軍工程大學電氣工程學院, 湖北 武漢 430033; 2. 軍委聯(lián)合參謀部戰(zhàn)場環(huán)境體系論證中心,北京 100088; 3. 海軍海洋測繪研究所, 天津 300061; 4. 中國人民解放軍91001部隊, 北京 100841;5. 中國地質大學(北京)信息網(wǎng)絡中心, 北京 100083)

      0 引 言

      隨著側掃聲納探測技術的不斷進步,使用側掃聲納搜索失事沉船成為海道測量障礙物核查和海上搜救的重要內容。目前,隨著計算機視覺技術的不斷發(fā)展與疊代,基于深度學習的側掃聲納影像自動識別和目標自動檢測是海道測量領域發(fā)展的前沿方向,國內外學者開展了廣泛的研究。文獻[17]在與經(jīng)典機器學習SVM算法對比后提出以改進的VGG-16為框架的卷積神經(jīng)網(wǎng)絡遷移學習識別方法,完成了側掃聲納海底沉船的影像自動識別并取得明顯優(yōu)于傳統(tǒng)方式的精度和效率。目標檢測是在圖像識別的基礎上實現(xiàn)目標的定位,文獻[18]使用Faster R-CNN模型實現(xiàn)了側掃聲納海底沉船目標的自動檢測,但是針對該模型存在結構復雜、訓練和檢測效率低等問題。文獻[19]提出了基于遷移學習的改進YOLOv3模型的側掃聲納沉船目標檢測方法,雖然在一定程度上提高了訓練和檢測效率,但是仍存在小目標漏警率高,檢測速度無法滿足實時性要求等問題。文獻[20]針對YOLOv3存在的問題以及面向工程應用的現(xiàn)實需求,通過對比8種不同深度和寬度的結構后,提出了改進的YOLOv5a模型,該模型雖然在小尺度目標的檢測精度和整體檢測效率上取得了很大的提升,但是在重疊目標以及復雜海況下的檢測性能有待進一步加強。

      近年來,隨著Transformer在機器翻譯、NLP(natural language processing)領域取得令人矚目的成績,越來越多的研究者開展Transformer相關研究。Transformer是一種主要基于自注意機制的深度神經(jīng)網(wǎng)絡,最初應用于自然語言處理領域,之后逐漸被應用到更多的計算機視覺領域。文獻[27-28]提出了基于Transformer的像素自回歸預測模型,并在圖像分類任務上取得不錯的成績。文獻[29]提出基于ViT的Transformer模型,利用純Transformer進行圖像塊序列預測,并在多個圖像識別基準數(shù)據(jù)集上獲得SOTA性能。在目標檢測領域,Facebook AI于2020年利用Transformer中能夠有效建模圖像中的長程關系的attention機制,簡化目標檢測的pipeline,構建端到端的目標檢測器DETR(Detection Transformer),并取得了優(yōu)異的檢測性能,該模型雖然擁有高效的檢測效率,但是需要大量的數(shù)據(jù)作為樣本支撐才能達到滿意的檢測精度。

      針對因海洋環(huán)境復雜,聲納影像存在大量的噪聲而造成的目標信息混淆、特征細節(jié)模糊以及重疊目標漏警與虛警率高的問題,結合Transformer和YOLOv5模型在目標檢測任務中的特點,本文嘗試將Transformer與YOLOv5模型結合,擬構建基于DETR-YOLO的側掃聲納沉船自動檢測模型,通過加入多尺度特征復融合模塊,減少特征信息的丟失,提高小目標檢測能力。融入注意力機制SENet,強化模型對重要特征通道的敏感性,提取更強有力的特征。采用加權融合框(weighted boxes fusion, WBF)加權融合框,提升檢測框的定位精度和置信度,降低檢測的漏警率和虛警率,以期在獲得復雜海況下優(yōu)異檢測性能的同時滿足輕量化工程部署需求。

      1 DETR-YOLO模型

      DETR-YOLO模型結構由輸入、Backbone、Neck和輸出4部分組成,具體如圖1所示。

      圖1 DETR-YOLO模型結構Fig.1 DETR-YOLO model structure

      1.1 DETR

      為使模型達到更好的檢測效果的同時實現(xiàn)模型的輕量化目標,本文創(chuàng)新融合了DETR結構。DETR結構由Encoder、Decoder和Prediction 3部分組成,具體如圖2所示。在Backbone部分,使用常規(guī)的卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)學習輸入圖像的特征并送入Encoder進行位置編碼;在Encoder部分,首先將Backbone輸出的特征圖進行維度壓縮,即通過1×1卷積核對××維的特征圖進行卷積操作,將通道數(shù)壓縮為得到××維特征圖。其次,對特征圖進行序列轉換,即將空間維度×壓縮到得到×的2維特征圖,最后將2維特征圖加上positional encoding進行位置編碼。Encoder部分共包含6層,每層均包含8個自注意力模塊和FFN(feed forward network);Decoder部分同樣包含6層,每層包含8個自注意力模塊、8個共同注意力模塊和FFN。Decoder對Encoder輸出的特征圖進行特征提取,Decoder將少量固定數(shù)量的位置嵌入Object Queries,作為輸入并參與輸出。最后將Decoder的輸出傳遞給FFN,進行網(wǎng)絡檢測類別(class)和位置(box)或無目標類。

      圖2 DETR結構Fig.2 DETR structure

      DETR注意力模塊的引入使模型有選擇的聚焦輸入有效部分,提升模型目標特征學習的針對性,同時與傳統(tǒng)Transformer不同的是,DETR在特征圖處理的過程中一次性處理全部的Object Queries,即一次性輸出所有的預測結果,而不是從左至右逐一的輸出,大大的節(jié)省了模型訓練的效率,利于模型的輕量化目標。

      1.2 多尺度特征復融合

      YOLOv5模型包含8×8,16×16,32×32大小感受野的目標檢測,但是針對更小尺度目標存在特征學習不充分進而導致最終漏檢的情況,本文首先增加檢測層,通過3×3卷積核經(jīng)步長為2的降采樣得到152×152大小的特征圖,以獲得4×4的特征感受野,從而更好的對小尺度目標進行檢測。檢測層的增加雖然提升了小尺度目標特征提取和特征融合的能力,但是一定程度上導致模型的復雜程度加深,因此帶來的計算量的增加和冗余計算不利于模型的輕量化。為此,在原有模型的基礎上采用CSP(cross stage paritial)模型結構,如圖1所示,通過殘差結構的堆疊和卷積的同步操作完成跨階段結構下結果的合并,實現(xiàn)梯度變化在特征圖上的集成,在增強模型學習能力的基礎上降低計算瓶頸和內存成本,解決網(wǎng)絡優(yōu)化中梯度重復的問題,更好的達到模型輕量化的目的。

      隨著降采樣的不斷加深,模型不斷的從淺層特征學習到深層的語義特征學習。針對深層的語義特征學習雖然擁有更大的感受野,但是較大的降采樣因子會帶來位置信息的損失,同時深層的語義特征與淺層特征之間相對獨立,因缺少信息的融合造成特征信息的利用率不高,不利于模型訓練的問題,本文采用了多尺度特征復融合結構,具體如圖3所示。首先,通過上采樣將強語義特征向上傳遞,與淺層特征進行融合,增加多尺度的語義表達。隨后,通過下采樣將強定位特征與深層的語義特征融合,增強多尺度的定位能力,從而全面提升模型的特征學習能力。另外,本文將多尺度的特征進行交叉復融合,加強融合特征之間的再融合,從而實現(xiàn)多層的參數(shù)聚合,進一步提升抽象特征和位置信息的學習。

      圖3 多尺度特征復融合示意圖Fig.3 Schematic diagram of multi-scale feature fusion

      1.3 SENet模塊

      針對傳統(tǒng)的卷積操作是在局部感受野上將空間信息和特征維度信息進行聚合以獲取全局信息,往往忽略了特征通道之間的相互關系,遺失細節(jié)特征,并且沒有針對性的進行有效特征學習的問題,本文采用了SENet注意力機制結構進行優(yōu)化,讓模型以全局信息為基礎,通過學習的方式自動獲取每個特征通道的重要程度并賦予相應的權重,在增強有益特征學習的同時抑制冗余特征的學習,以加強特征學習的針對性,提高模型的檢測性能。具體結構如圖4所示。

      圖4 SENet結構圖Fig.4 SENet structure

      SENet分為Squeeze和Excitation兩部分,其中Squeeze部分通過全局平均池化(Global pooling)對相應的特征圖進行一維壓縮,即將××的特征圖壓縮成1×1×:

      (1)

      式中:×表示特征圖的寬高;為通道數(shù);(,)表示第個通道位置為(,)的元素,∈。

      在Squeeze操作獲得全局特征后通過Excitation操作提取各通道之間的關系:

      Ex=((,))=((,))

      (2)

      Excitation操作采用Sigmoid中的gating機制,通過引入全連接層FC,以參數(shù)將通道降低為原來的1,經(jīng)ReLU函數(shù)()激活后通過全連接層FC,以參數(shù)將通道恢復原來通道數(shù),最后經(jīng)Sigmoid函數(shù)()生成各通道權重。本文采用的降維比例為=16。

      最后,將生成的權重值經(jīng)過Scale操作加權到對應的特征通道中,得到最終的輸出:

      =()=·

      (3)

      SENet以輕量級的結構在增加少量計算量的同時提升模型對通道特征的敏感性,帶來模型性能的提升。

      1.4 WBF

      常規(guī)的目標檢測任務在篩選預測框時采用非極大值抑制(non-maximum suppression, NMS),NMS雖然可以有效去除單一目標的冗余預測框,但是針對重疊目標,NMS由于僅從交并比(intersection over union, IoU)單一角度考慮,所以存在漏檢的問題。因此,本文采用WBF,具體如圖5所示。

      圖5 WBF示意圖Fig.5 WBF schematic

      WBF考慮了每個預測框在檢測框生成中的作用,即根據(jù)置信度分數(shù)賦予每個預測框權重,并生成加權融合框的坐標,融合框的置信度由所有預測框的平均置信度,具體如下:

      (4)

      (5)

      式中:(1,1),(2,2)為生成融合框的左上角和右下角坐標;(1,1),(2,2)為第個預測框的左上角和右下角坐標;分別為生成融合框和每個預測框的置信度分數(shù)。

      NMS和WBF生成的最終檢測框如圖6所示,相較于NMS策略生成的檢測框將兩個相近重疊目標誤檢成單一目標,WBF策略生成的檢測框正確地檢測出兩個目標,在一定程度上有效的降低了相近目標漏警的概率,同時擁有更高的定位精度和置信度,證明WBF策略在本數(shù)據(jù)集中的有效性。

      圖6 檢測框對比圖Fig.6 Anchor frame comparison chart

      2 實驗與分析

      2.1 數(shù)據(jù)集與預處理

      本文的實驗數(shù)據(jù)延用文獻[20],主要由國內外各涉海部門以及國內生產(chǎn)廠家提供,使用包括Klein3000、EdgeTech4200、Yellowfin和海卓系列等主流側掃聲納設備在我國東海、南海、黃渤海以及內陸湖泊實測得到,同時使用爬蟲程序在網(wǎng)絡上進行數(shù)據(jù)的搜集,共1 200張。

      圖7 沉船目標分布和尺寸情況Fig.7 Distribution and size of shipwreck targets

      從圖7中可以看出,沉船目標主要集中在圖片的中央位置,且大多為小尺寸的目標。為了進一步豐富樣本數(shù)據(jù),同時彌補沉船目標的尺寸和分布局限性,讓模型獲得更好的訓練效果,本文首先對數(shù)據(jù)集進行歸一化處理,并采用Moscia、圖像旋轉、多尺度剪裁放大、圖像平移、圖像鏡像、圖像加噪等數(shù)據(jù)增強操作。Mosaic數(shù)據(jù)增強方法豐富了目標的位置分布情況且在一定程度上放大了小尺寸目標,從而在提高模型訓練效率的同時提高模型的泛化能力。

      2.2 實驗配置與網(wǎng)絡訓練

      實驗均基于Pytorch框架用Python語言實現(xiàn),實驗環(huán)境:Windows10操作系統(tǒng);CPU為Intel(R) Core(TM) i9-10900X@3.70 GHz; GPU為2塊NVIDIA GeForce RTX 3090,并行內存48GB。

      為在保證模型訓練效果的同時提升訓練效率,將數(shù)據(jù)集設定為8∶2,其中訓練集的5%設定為驗證集,并采用五折交叉運算策略進行模型訓練;訓練的初始學習率設置為0.000 1,并在開始訓練前進行步長為5的warm-up訓練,同時采用一維線性插值調整學習率,并在訓練過程中采用余弦退火算法實現(xiàn)學習率的實時調整;訓練步數(shù)設置為1 200步,并根據(jù)計算機配置設置batch size為32。

      基于以上數(shù)據(jù)集和實驗配置,本實驗對比了YOLOv5a、Transformer和本文提出的DETR-YOLO3種模型。圖8為3種模型的訓練情況。

      圖8 3種模型訓練過程對比Fig.8 Comparison of training process of three models

      從圖8(a)和圖8(b)可以看出,3種模型的位置和置信度損失值均隨著訓練步數(shù)的增加而不斷減小并最終趨于穩(wěn)定,達到擬合狀態(tài)。其中,本文模型由于使用了多尺度特征復融合策略以及SENet注意力機制,所以能夠獲得更加全面、細節(jié)的特征,因此置信度損失值最低。在位置損失值上,本文模型由于融合了DETR模塊,所以在初始階段需要進行位置信息編碼,造成初始損失值較高,但是隨著訓練步數(shù)的不斷增加,DETR全局感知和并行信息處理的優(yōu)勢逐漸發(fā)揮。同時,WBF策略充分考慮各個預測框的權重比例,避免有效預測框的信息丟失,使位置損失值迅速下降并趨于收斂,并在1 200步時和YOLOv5a幾乎一樣。

      從圖8(c)和圖8(d)可以看出,本文模型雖然融合了DETR,在結構明顯復雜于YOLOv5a模型的情況下訓練時間僅延長了10 min,并且無論是在CPU線程使用數(shù)量還是GPU內存使用上均低于YOLOv5a。

      3種模型在驗證集上的平均精度AP值如圖9所示。從圖9(a)可以看出在IoU設置為0.5時,3種模型均在訓練600步后AP值達到1。為更好的對訓練模型性能進行比較,本實驗比較了IoU閾值為0.5至0.95,步長為0.05情況下3種模型的AP值,具體如圖9(b)所示。由圖9可知,本實驗模型AP值最終達到0.691,在訓練過程中整體高于YOLOv5a和Transformer模型,并在訓練700步后模型趨于穩(wěn)定,在訓練速度和效率上同樣優(yōu)于其他兩個模型。

      圖9 3種模型AP值對比Fig.9 Comparison of AP values of three models

      綜上,本文模型以少量訓練時間增加為代價取得最低的訓練損失值以得到檢測性能最佳的模型,同時以更低的硬件要求滿足工程化部署需求。

      2.3 檢測效果與性能評估

      為評估訓練完成后模型的檢測性能,將YOLOv5a、Transformer和本文模型在測試集上進行檢測,并以AP值和每秒檢測幀數(shù)(frames per second, FPS)作為量化指標,評估模型檢測精度和效率;以生成模型的權重大小作為輕量化以及工程化的評估依據(jù),3種模型具體的檢測量化結果如表1所示。

      表1 3種模型在測試集檢測結果對比

      從表1可知,本文模型在AP值上明顯高于其他兩個模型,AP_0.5達到84.5%,較其他兩個模型分別提高了2.7%和7.2%,AP_0.5~0.95達到57.7%,較其他兩個模型分別提高了6.1%和13.8%,說明本文提出的模型具有最佳的檢測精度;模型結構的復雜勢必會帶來檢測速度的降低和權重的增加。因此,雖然在FPS和權重上DETR-YOLO模型較其他兩個模型略有遜色,但是減少的少量FPS和增加的少量權重對模型輕量化和工程部署不會帶來實質性影響。同時,以少量的檢測速度和模型權重增加為代價換來的檢測精度的大幅度提高是極具性價比的。

      為驗證多尺度特征復融合和SENet等策略的有效性,同樣以AP值和FPS為評估指標,采用控制變量法對比分析各個策略對模型檢測性能的影響,實驗結果如表2所示。

      表2 不同策略的檢測效果對比

      對比組別1與YOLOv5模型可知,DETR模塊的融入使AP_0.5提升了1.36%,并且FPS提升了11幀,證明DETR模塊無論是在檢測精度還是檢測效率上都有顯著的提升。對比組別1和組別2可知,多尺度特征復融合的融入使AP_0.5提升了0.85%,代表了檢測精度的提高,證明了該策略可有效的實現(xiàn)特征參數(shù)的聚合,強化語義特征和定位特征的學習,降低信息損失帶來的影響。但FPS下降了12幀,代表了新增的結構和參數(shù)帶來了計算量的增加,一定程度上降低了檢測的效率。對比組別1和組別3可知,SENet模塊的融合使AP_0.5提升了0.41%,證明注意力機制的引入在增強有益特征學習的同時抑制了冗余特征的學習,加強了特征學習的針對性。在結合多尺度特征復融合和SENet策略后,通過對比組別1和組別4可知,兩種策略的結合使AP_0.5提升了1.36%,同時也帶來了FPS上14幀的損失。對比組別4和組別2,3可知,兩種策略的結合要優(yōu)于單一策略的使用。綜上,模型模塊的增加勢必會帶來結構的復雜和計算量的增加并導致檢測效率的降低。但是,本文模型在如何以盡可能少的效率損失換來檢測精度的大幅提升上取得了較好的成績。

      圖10為3種模型的部分沉船目標檢測效果對比圖,從左至右分別為原圖、標注圖、Transformer、YOLOv5a以及DETR-YOLO模型檢測效果圖。

      圖10 3種模型檢測結果對比圖Fig.10 Comparison of detection results of three models

      由圖10可知,Transformer模型僅能滿足檢測出沉船目標的要求,但是在定位精度和置信度上都沒有出色的檢測表現(xiàn);YOLOv5a模型較Transformer模型在檢測性能上有較大的提升,但是在重疊目標上存在漏警的問題;而本文提出的DETR-YOLO模型無論是在定位精度、置信度還是重疊目標的檢測上都有顯著的性能提升,尤其是第一組的重疊沉船目標檢測上,在對細節(jié)準確區(qū)分的同時依舊保持較高的定位精度和置信度。

      由于水聲信號具有時變性和空變形,海水中存在各種環(huán)境噪聲影響,且不同的海況以及海洋環(huán)境會對聲納影像造成不同程度的干擾,其中斑點噪聲是影響側掃聲納影像質量的主要因素。因此,為了更好的模擬不同海洋環(huán)境下的實際情況,從上至下分別對影像添加期望為0,標準差為20、60、100的瑞利噪聲。3種模型的檢測效果對比圖如圖11所示,從左至右分別為Transformer、YOLOv5a和DETR-YOLO。從圖11(a)看出,對于添加了標準差為20、60和80的瑞利噪聲后的影像,Transformer模型能夠識別出右下角的大尺度目標,但是置信度和定位精度都大幅度下降,而對于左上角的目標全部漏檢。從圖11(b)看出,YOLOv5a對于添加標準差為20的瑞利噪聲后的影像能夠檢測出所有沉船目標,但是卻虛警了中間和左下角的非沉船目標。從圖11(c)看出,DETR-YOLO模型對于添加標準差20、60和100瑞利噪聲的影像均檢測出所有目標,且無論是在檢測的置信度還是定位精度上,都明顯優(yōu)于其他兩個模型。雖然在標準差為60和100的瑞利噪聲影響下分別虛警了右上角和左下角的目標,但是在真實的實際搜救任務中,虛警的價值要遠遠高于漏警的價值,這在一定程度上反應了本文提出的DETR-YOLO模型能夠更好適應海洋的復雜環(huán)境,具有更優(yōu)異的檢測性能和泛化能力,魯棒性強,具有更強的實用性與指導意義。

      3 結束語

      針對如何在復雜海洋噪聲背景下進一步提高小尺度海底沉船目標檢測的準確性、降低重疊目標的漏警率和虛警率的同時實現(xiàn)模型輕量化的現(xiàn)實需求,提出了基于DETR-YOLO模型的側掃聲納沉船目標檢測模型,通過融合DETR與YOLOv5結構,加入多尺度特征復融合模塊,融入注意力機制SENet,采用WBF加權融合框策略,提升模型的整體檢測性能。實驗結果表明,DETR-YOLO模型在測試集中AP_0.5和AP_0.5∶0.95值分別達到84.5%和57.7%,較Transfermer和YOLOv5a模型大幅度提高;DETR-YOLO模型在檢測精度和檢測效率以及模型權重和模型結構上取得了較好的平衡,滿足工程部署對模型輕量化的要求,對復雜海況下沉船搜救具有重要現(xiàn)實價值。

      猜你喜歡
      聲納沉船置信度
      硼鋁復合材料硼含量置信度臨界安全分析研究
      沉船的啟示
      Daniel Kish
      船載調頻連續(xù)波聲納測深技術研究
      基于聽覺特征的被動聲納目標識別
      電子測試(2018年14期)2018-09-26 06:04:12
      正負關聯(lián)規(guī)則兩級置信度閾值設置方法
      計算機應用(2018年5期)2018-07-25 07:41:26
      海底沉船
      琴童(2016年4期)2016-05-14 10:58:54
      關于聲納發(fā)射電源的改進設計
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      沉船探秘
      麻阳| 凉山| 汪清县| 扶余县| 泗洪县| 北宁市| 永清县| 甘泉县| 苏尼特左旗| 桐庐县| 余庆县| 焉耆| 华蓥市| 开化县| 荔波县| 信阳市| 都兰县| 鄄城县| 威信县| 巧家县| 许昌市| 新蔡县| 丰城市| 华亭县| 兴隆县| 道真| 泰和县| 绍兴市| 宁陵县| 乐昌市| 小金县| 博湖县| 绥江县| 陵水| 东方市| 新邵县| 儋州市| 永嘉县| 阳原县| 道真| 普格县|