基于MFFDet R的多源艦船圖像融合檢測方法

2025-03-20 00:00:00姜杰凌青閆文君劉凱

系統(tǒng)工程與電子技術(shù) 2025年2期

關(guān)鍵詞：特征融合

摘要：針對對無人機采集到的多源圖像的艦船目標(biāo)融合檢測問題，提出一種基于多模態(tài)特征融合旋轉(zhuǎn)檢測網(wǎng)絡(luò)（multi modal feature fusion detection network based on rotation， MFFDet R）的多源艦船圖像融合檢測方法。首先，為提升檢測速度，采用單階段無錨框設(shè)計降低計算量。隨后，為提升檢測精度，采用旋轉(zhuǎn)任務(wù)對齊學(xué)習(xí)進行標(biāo)簽分配和對齊。然后，為實現(xiàn)多模態(tài)特征的充分融合，設(shè)計多模態(tài)特征融合網(wǎng)絡(luò)。最后，根據(jù)特定場景有針對性地設(shè)計檢測頭和角度預(yù)測頭，以提升網(wǎng)絡(luò)檢測性能。通過實驗對比驗證，結(jié)果表明所提方法可以有效實現(xiàn)對多源艦船的融合檢測，且對不同場景艦船目標(biāo)的檢測性能優(yōu)于其他方法。

關(guān)鍵詞：多源圖像; 融合檢測; 任務(wù)對齊學(xué)習(xí); 特征融合

中圖分類號： TP 391.4

文獻標(biāo)志碼： ADOI：10.12305/j.issn.1001 506X.2025.02.06

Multi source ship image fusion detection method based on MFFDet R

JIANG Jie， LING Qing*， YAN Wenjun， LIU Kai

（Aviation Combat Service Academy， Naval Aviation University， Yantai 264001，China）

Abstract：A multi source ship image fusion detection method based on multi modal feature fusion detection network based on rotation （MFFDet R） is proposed to address the issue of ship target fusion detection for multi source images obtained by unmanned aerial vehicles. Firstly， a single stage anchor free frame design is adopted to reduce computational complexity to improve detection speed. Subsequently， rotation task alignment learning is adopted for label allocation and alignment to improve detection accuracy. Then， a multimodal feature fusion network is designed to achieve full fusion of multimodal features. Finally， detection heads and angle prediction heads are designed for specific scenarios to improve network detection performance. Through experimental comparison and verification， the results show that the proposed method can effectively achieve fusion detection of multi source ships， and its detection performance for ship targets in different scenarios is superior to other methods.

Keywords：multi source image; fusion detection; task alignment learning; feature fusion

0 引言

當(dāng)前，隨著無人機航拍數(shù)據(jù)采集的愈加便捷，其在各個領(lǐng)域應(yīng)用的場景也愈加廣泛，無人機在智慧交通、地質(zhì)勘測、蟲害預(yù)防、預(yù)警偵查等方面發(fā)揮出重要作用，通過對無人機采集到的多源視頻圖像進行目標(biāo)檢測跟蹤識別，是當(dāng)前研究的重點內(nèi)容^［^1-3^］。艦船目標(biāo)一直是檢測任務(wù)中的難點問題，一是艦船目標(biāo)種類較多且形狀和大小不規(guī)則，因船型、船種、船舶用途等因素而異;二是艦船在航行時易被其他船只、建筑物、云霧等遮擋，且艦船本身的顏色、紋理等特征較少，也會影響檢測效果;三是海上環(huán)境復(fù)雜，易受海浪、浮冰、光照變化等因素干擾;四是數(shù)據(jù)集的不足，對艦船目標(biāo)的數(shù)據(jù)獲取和標(biāo)注成本較高^［^4-6^］。針對上述情況，通過對無人機采集到的多源圖像進行特征提取融合，是有效提升檢測效果的重要途徑之一。多源圖像融合（multi source image fusion， MIF）是指將多源信道所采集到的關(guān)于同一目標(biāo)的圖像數(shù)據(jù)經(jīng)過圖像和計算機技術(shù)處理，最大限度地提取各自信道中的有利信息，最后綜合成高質(zhì)量的圖像。融合后的結(jié)果可以更好地將多幅圖像在時空上的相關(guān)性和信息上的互補性進行整合，從而將更為重要的圖像特征進行表征，以便于后續(xù)處理。

因此，多源圖像的融合檢測，相比于單源圖像融合檢測而言，其特征信息更加豐富，應(yīng)用場景更加廣泛，可以有效增強檢測的準(zhǔn)確性，特別是對小目標(biāo)、疑似目標(biāo)具有更高的檢出率，可進一步減少檢測的波動性和不確定性，增強算法的魯棒性^［^7-9^］。

針對多源圖像的融合檢測同樣存在許多研究難點，一是數(shù)據(jù)的異構(gòu)性，不同傳感器采集到的數(shù)據(jù)類型、格式及精度存在差異;二是數(shù)據(jù)的不確定性，多源數(shù)據(jù)受到的干擾因素更多，易產(chǎn)生誤差;三是融合算法的選擇，需要考慮如何兼顧檢測的實時性和準(zhǔn)確性^［¹⁰^］。為解決以上問題，相關(guān)學(xué)者做了大量的研究工作，并提出很多方法。目前，針對多源融合檢測的方法主要分為4類，一是基于像素級的融合方法，即根據(jù)圖像色度、飽和度、亮度的色彩空間，將多源圖像合成為一幅圖像后，再進行特征提取和檢測。文獻［11］提出一種基于小波變換的像素融合方法，通過將圖像分解為不同頻率的子圖像，然后采用不同的融合策略，重構(gòu)出新的圖像。文獻［12］提出一種基于潛在低階表示的自適應(yīng)尺度像素融合方法，將紅外和可見光圖像分解為兩個尺度表示，以構(gòu)造自適應(yīng)權(quán)值，用于圖像重建。二是基于特征融合的方法，即對圖像幾何特征、紋理特征、方向梯度直方圖等進行提取，將多個圖像源的特征進行融合后再進行檢測。文獻［13］提出一種基于邊緣卷積濾波與合成孔徑雷達及光學(xué)多特征分類的檢測方法。文獻［14］設(shè)計一種基于不變特征的風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)，利用多源數(shù)據(jù)間的共享知識學(xué)習(xí)不變特征，以實現(xiàn)信息互補，再采用通用網(wǎng)絡(luò)完成目標(biāo)檢測。三是基于決策融合的方法，即對圖像源信息進行提取并分類后，根據(jù)現(xiàn)實任務(wù)需要選擇有用的特征信息進行融合，從而做出最優(yōu)的決策。文獻［15］提出一種將有監(jiān)督和無監(jiān)督分類器相結(jié)合的方法以進行信息提取，再通過支持向量機完成決策的選擇。文獻［16］提出利用社會網(wǎng)絡(luò)分析多模態(tài)生物特征的模式，根據(jù)多源圖像的類間特征和類內(nèi)特征進行決策融合。四是基于深度學(xué)習(xí)的方法，利用深度學(xué)習(xí)模型對多個圖像源進行訓(xùn)練，然后將模型進行融合，得到最終的檢測結(jié)果。文獻［17］設(shè)計一種低秩雙線性池化注意力網(wǎng)絡(luò)，將不同模態(tài)的圖像特征雙線性池化后，利用權(quán)重矩陣進行低秩分解，根據(jù)低秩權(quán)重因子進行反向傳播，實現(xiàn)端到端學(xué)習(xí)。文獻［18］提出一種艦船關(guān)鍵子區(qū)域檢測識別融合網(wǎng)絡(luò)，根據(jù)艦船特征點劃分不同的子區(qū)域，在特征金字塔上提取不同子區(qū)域特征，對其分配不同權(quán)重，并與全局特征進行融合，以增強表征能力。

目前，基于深度學(xué)習(xí)的方法相比于其他3類方法，檢測效果較好，適用范圍更廣，但是用于多源艦船目標(biāo)檢測的方法相對較少，且沒有針對性地解決艦船多尺度、小目標(biāo)、受遮擋等問題?；诖?，本文提出一種基于深度學(xué)習(xí)的多源艦船圖像融合檢測方法，構(gòu)建多模態(tài)特征融合旋轉(zhuǎn)檢測網(wǎng)絡(luò)（multi modal feature fusion detection network based on rotation， MFFDet R），通過多路骨干網(wǎng)絡(luò)對多源圖像進行特征提取，并有針對性地設(shè)計網(wǎng)絡(luò)頸部和頭部，最終完成對多源艦船目標(biāo)的檢測。

1 MFFDet R目標(biāo)檢測算法

MFFDet R是一個高效的單階段無錨框旋轉(zhuǎn)框檢測網(wǎng)絡(luò)，采用旋轉(zhuǎn)框檢測是因為對于近岸場景下的艦船目標(biāo)而言，船與船的排列十分密集，采用旋轉(zhuǎn)框檢測，可以有效提升檢測性能。旋轉(zhuǎn)框是指具有一定角度的矩形框，因為物體本身與圖像坐標(biāo)軸會存在大小不一的傾斜角，所以使用旋轉(zhuǎn)框描述物體相比于使用水平框進行描述，可以包含更少的背景，從而使定位更加精細(xì)^［¹⁹^］。特別是當(dāng)前的旋轉(zhuǎn)框檢測算法多為有錨框的方法，且多使用插值和可復(fù)型卷積網(wǎng)絡(luò)來對齊卷積特征圖和旋轉(zhuǎn)物體，為模型的部署帶來了不便。因此，MFFDet R采用無錨框方法，在每一個像素上放置一個錨點，為檢測頭設(shè)置上、下邊界，將基準(zhǔn)真實值分配給相應(yīng)的特征圖，然后計算邊界框的中心位置，選擇最近的像素點作為正樣本。

1.1 網(wǎng)絡(luò)框架

網(wǎng)絡(luò)主干RESCSPNet，由殘差網(wǎng)絡(luò)ResNet50與跨階段局部網(wǎng)絡(luò)CSPNet結(jié)合組成，可以將殘差連接緩解梯度消失與跨階段密度連接降低計算負(fù)擔(dān)兩個優(yōu)勢互補。網(wǎng)絡(luò)結(jié)構(gòu)共包含3個連續(xù)卷積層，通過殘差塊ResBlock^［20^］進行連接，同時有效擠壓提?。╡ffective squeeze and extraction，ESE）層^［²¹^］也被用于在每個特征提取階段中施加通道注意力^［²²^］，以多模態(tài)特征融合網(wǎng)絡(luò)（multi modal feature fusion network，MFFN）作為頸部，引出P3、P4和P5這3個特征圖做檢測。為進一步提升模型精度，設(shè)計高效任務(wù)對齊頭（efficient task aligned head， ET head），引入了一個解耦的角度預(yù)測頭。算法的框架模型如圖1所示。

1.2 旋轉(zhuǎn)任務(wù)對齊學(xué)習(xí)

考慮到在近岸場景下艦船目標(biāo)排列十分緊密且相互間存在遮擋的情況，為更好地克服分類和定位不一致的問題，提升檢測準(zhǔn)確度，提出旋轉(zhuǎn)任務(wù)對齊學(xué)習(xí)（rotated task alignment learning， Rotated TAL）方法，對標(biāo)簽分配采用Rotated TAL方法^［²³^］來完成旋轉(zhuǎn)框檢測。該方法由動態(tài)標(biāo)簽分配和任務(wù)對齊損失組成，動態(tài)標(biāo)簽分配意味著預(yù)測損失感知，根據(jù)預(yù)測為每個基準(zhǔn)真實值分配動態(tài)數(shù)量的正錨框，通過顯式地對齊這兩個任務(wù)，Rotated TAL可以同時獲得最高的分類分?jǐn)?shù)和最精確的邊界框;對于旋轉(zhuǎn)任務(wù)對齊損失，使用標(biāo)準(zhǔn)化的任務(wù)一致性度量t，即t^，來替換損失中的目標(biāo)，采用每個實例中最大的交并比（intersection over union， IoU）進行歸一化，該分類的二進制交叉熵（binary cross entropy， BCE）^［24^］可以重寫為

L=∑Ni=1BCE（pi，t^i）（1）

式中：pi表示該角度i在每個區(qū)間內(nèi)下降的概率。

任務(wù)一致性度量的計算方法為

t=sα·uβ（2）

式中：s為預(yù)測的分類得分;u為預(yù)測的邊界框與相應(yīng)的基準(zhǔn)真實值之間的IoU值;α、β為系數(shù)。

1.3 多模態(tài)特征融合網(wǎng)絡(luò)MFFN

為了提取更加豐富的語義信息特征并與精確定位信息相結(jié)合，對多模態(tài)特征的融合處理，除采用傳統(tǒng)特征金字塔網(wǎng)絡(luò)（feature pyramid network，F(xiàn)PN）^［25^］自頂向下進行上采樣的模式，還設(shè)計了多種融合路徑。首先，對每個特征圖進行感興趣區(qū)域（region of interest， ROI）對齊操作，以提取目標(biāo)的特征。然后，對元素級特征進行最大融合操作，以使網(wǎng)絡(luò)適配新的特征，對于相鄰的層特征不是簡單地疊加到一起，而是采用拼接的方式，以獲得更高的預(yù)測準(zhǔn)確度。最后，設(shè)計自底向上進行下采樣的路徑，將底層信息與高層信息相融合，設(shè)計增強路徑，采用橫向、跨級連接的方式來豐富每個級別的特征信息，縮短底層到頂層的距離，以減少計算量。路徑結(jié)構(gòu)如圖2所示。

1.4 高效任務(wù)對齊頭

針對艦船多尺度、小目標(biāo)的問題，提出速度和準(zhǔn)確性兼具的ET head。ET head可以很好地增強檢測過程中分類與回歸的交互性。ET head通過計算任務(wù)交互的特征值，由任務(wù)對齊預(yù)測器（task aligned predictor， TAP）^［26^］進行預(yù)測，根據(jù)任務(wù)對齊學(xué)習(xí)提供的學(xué)習(xí)信號對兩個預(yù)測的空間分布進行對齊。

ET Head和Rotated TAL通過協(xié)作改進兩項任務(wù)的一致性，如圖3所示。ET Head首先對FPN特征進行分類和定位預(yù)測。然后，Rotated TAL基于一種任務(wù)對齊度量來計算兩個預(yù)測之間的對齊程度。最后，ET Head在反向傳播過程中使用Rotated TAL計算的學(xué)習(xí)信號自動調(diào)整其分類概率和定位預(yù)測。對齊程度最高的錨點通過概率圖獲得更高的分類分?jǐn)?shù)，并通過學(xué)習(xí)的偏移量獲得更準(zhǔn)確的邊界框預(yù)測。

1.5 ProbIoU損失

由于角度的周期性和邊緣的交換能力，基于直接回歸的旋轉(zhuǎn)對象檢測器存在邊界不連續(xù)問題。采用ProbIoU損失作為回歸損失^［²⁷^］進行聯(lián)合優(yōu)化（x，y，w，h，θ）。為了計算ProbIoU損失，將旋轉(zhuǎn)矩形框建模為高斯矩形框（Gaussian bounding box，GBB），然后利用兩個GBB之間的距離等度量作為回歸損失。

給定兩個以GBB表示的對象，使用巴氏系數(shù)計算兩個概率分布之間的距離，來獲得一個實際的距離度量。兩個二維概率密度函數(shù)p（x）和q（x）之間的巴氏距離BD為

BD（p，q）=－ln BC（p，q）（3）

式中：BC為巴氏系數(shù);p為預(yù)測得分;q為目標(biāo)IoU得分。巴氏距離BD并不是一個實際的距離，因為其不滿足三角不等式，因此定義海林格距離HD為實際距離：

HD（p，q）=1－Bc（p，q）（4）

式中：HD（p，q）滿足距離度量的所有要求，并且可以作為高斯參數(shù)的函數(shù)分析表達。

將GBB和ProbIoU用于訓(xùn)練紅外與可見光融合旋轉(zhuǎn)檢測器，假設(shè)p={x1，y1，a1，b1，c1}是網(wǎng)絡(luò)回歸的GBB參數(shù)集，q={x2，y2，a2，b2，c2}是期望GBB的真實標(biāo)注。對象檢測器中的定位損失為

L1（p，q）=HD（p，q）=1-ProbIoU（p，q）∈［0，1］

L2（p，q）=BD（p，q）=－ln（1－L21（p，q））∈［0，∞］（5）

式中：定位損失可以相對于p微分，并且梯度可以解析計算，當(dāng)p=q時達到理想的最小值零。

1.6 解耦的角度預(yù)測頭

傳統(tǒng)旋轉(zhuǎn)框檢測模型直接在一個回歸分支中預(yù)測（x，y，w，h，θ）。然而，對于學(xué)習(xí)矩陣而言，其需要更多的特征，因此對其進行解耦，設(shè)計一個獨立的輕量級角度預(yù)測分支，僅包含一個ESE注意力模塊和一層卷積層^［²⁸^］。

采用分類聚焦損失（distribution focal loss， DFL）^［29^］直接學(xué)習(xí)角度的通用分布，將［0，π/2］的角度區(qū)間劃分為90份，每一份的區(qū)間大小為π/180，然后通過積分得到預(yù)測的角度值：

θ=∑90°i=0°pi·i·ω（6）

式中：pi表示該角度在每個區(qū)間內(nèi)下降的概率。

1.7 可學(xué)習(xí)門控單元

針對艦船目標(biāo)特性，為加強對微小和密集目標(biāo)的檢測性能，加速推理過程和降低部署難度，增加可學(xué)習(xí)門控單元（learnable gating unit， LGU），以控制來自前一層的信息，實現(xiàn)自適應(yīng)融合不同感受野的特征。在訓(xùn)練階段，網(wǎng)絡(luò)包含3×3卷積、1×1卷積、直連（shortcut）連接等結(jié)構(gòu)，以強化推理階段，通過重新參數(shù)化處理將網(wǎng)絡(luò)變換為類視覺幾何組（visual geometry group， VGG）網(wǎng)絡(luò)的3×3卷積規(guī)范結(jié)構(gòu)。

y=f（x）+α1g（x）+α2x（7）

式中：f（x）為1×1卷積函數(shù);g（x）為3×3卷積函數(shù);α1和α2是可學(xué)習(xí)的參數(shù)。在推理過程中，可學(xué)習(xí)的參數(shù)可以與卷積層一起重新參數(shù)化，從而使參數(shù)的速度和數(shù)量都不會發(fā)生變化。

1.8 損失函數(shù)

分別將變焦損失（varifocal loss， VFL）^［30^］和DFL應(yīng)用到目標(biāo)檢測器中，對分類和定位任務(wù)進行學(xué)習(xí)，以獲得性能的改善。計算公式如下：

VFL（p，q）=－q（qln p+（1－q）ln（1－p）， qgt;0

－αpγln（1－p）， q=0（8）

式中：對于正樣本，q為生成的邊界框與基準(zhǔn)邊界框之間的IoU，對于負(fù)樣本，q為0。

DFL（Si，Si+1）=－（（yi+1－y）ln Si+

（y－yi）ln（Si+1））（9）

式中：yi與yi+1分別為標(biāo)簽y附近的預(yù)測值;Si、Si+1分別為預(yù)測值yi、yi+1對應(yīng)的概率。

VFL使用目標(biāo)分?jǐn)?shù)對正樣本的損失進行加權(quán)，使高IoU正樣本對損失的貢獻相對較大，讓模型在訓(xùn)練期間更加關(guān)注高質(zhì)量樣本，而非低質(zhì)量樣本。對于DFL，為了解決檢測框表示不靈活的問題，使用一般分布來預(yù)測邊界框。

最終設(shè)計損失函數(shù)Loss如下：

Loss=α·lossVFL+β·lossGIoU+γ·lossDFL∑Nposit^（10）

式中：t^表示歸一化目標(biāo)分?jǐn)?shù);α、β、γ為權(quán)重系數(shù);lossVFL為變焦損失函數(shù);lossDFL為分類聚焦損失函數(shù);lossGIoU為高斯分布損失函數(shù)。

2 實驗與結(jié)果分析

2.1 數(shù)據(jù)集構(gòu)建

實驗數(shù)據(jù)集通過操作民用無人機航拍采集不同地點、不同場景下的多模態(tài)艦船視頻影像進行制作，首先使用OpenCV工具包將視頻分解成一系列的圖像幀，并按照設(shè)定的時間間隔對視頻幀進行提取，在分解視頻幀、生成圖像幀的過程中，根據(jù)每個圖像幀的幀列序號進行命名，有助于保證整個數(shù)據(jù)集的順序和組織，最終共得到紅外和可見光船舶圖像30 506張。將圖像分別存放于兩個文件夾，其中相同圖像序號為同一時間同一場景采集，但是因傳感器的差異，其視場角大小不同，故圖像并非嚴(yán)格對齊，使用Label img工具對樣本進行標(biāo)注，并將樣本保存為VOC數(shù)據(jù)格式。圖4為所制作的多源艦船圖像數(shù)據(jù)集的部分樣本。

2.2 實驗環(huán)境及評價指標(biāo)

實驗操作系統(tǒng)為Ubuntu20.04，深度學(xué)習(xí)框架為Pytorch1.9.0，開發(fā)工具為Visual Studio，硬件環(huán)境CPU為Inter（R） Core（R）i7，GPU為NVIDIA（R） GTX（R） 3080。

評價指標(biāo)包括平均準(zhǔn)確率均值（mean average precision， mAP）、參數(shù)量（parameters）、每秒十萬億次浮點運算次數(shù)（giga float point operations per second， GFLOPs）、每秒處理幀數(shù)（（frames per second， FPS），F(xiàn)PS、mAP數(shù)值越大，表示模型檢測性能越好。

算法消融實驗、對比實驗及網(wǎng)絡(luò)訓(xùn)練結(jié)果均采用可見光圖像輸入作為檢測網(wǎng)絡(luò)基準(zhǔn)模型。多源檢測輸入源圖像在同一時刻采用同一標(biāo)簽，將輸出可視化結(jié)果設(shè)定為可見光圖像。

2.3 消融實驗

為驗證旋轉(zhuǎn)任務(wù)對齊學(xué)習(xí)、解耦角度預(yù)測頭、角度預(yù)測與DFL、可學(xué)習(xí)門控單元對模型檢測性能的提升，共設(shè)計4組消融實驗進行對比，對比結(jié)果如表1所示。表1中的參數(shù)為每秒百萬浮點運算（million float point operations per second， MFLOPs）從實驗結(jié)果可以看出，采用旋轉(zhuǎn)任務(wù)對齊學(xué)習(xí)方法可以有效提升網(wǎng)絡(luò)的檢測精度且不會影響實時性，改進角度預(yù)測頭雖然在一定程度上增加了參數(shù)量，但是對檢測精度的提升也是顯著的，角度預(yù)測與DFL可學(xué)習(xí)門控單元的引入也對精度的提升有一定的增益，最終相比于原基線網(wǎng)絡(luò)，mAP提升了2.53%，參數(shù)量增加了2.64M，GLOPs增加了12.56。

2.4 算法性能對比實驗

為客觀評價改進模型對算法性能的整體提升效果，選取當(dāng)前主流的旋轉(zhuǎn)目標(biāo)檢測算法進行對比，采用DOTA1.0和DOTA2.0數(shù)據(jù)集進行測試，該數(shù)據(jù)集來自不同傳感器和平臺航拍圖像，其中DOTA1.0共包含15個類別共2 806幅圖片，DOTA2.0共包含18個類別共11 268幅圖片。針對檢測實時性，采用Tesla V100數(shù)據(jù)集進行測試。如表2所示，mAP1、mAP2分別為DOTA1.0、2.0數(shù)據(jù)集檢測結(jié)果，F(xiàn)PS為Tesla V100數(shù)據(jù)集檢測結(jié)果。可以看出，本文算法的mAP分別可達82.7%和62.3%，F(xiàn)PS可達78.0，反映出模型結(jié)構(gòu)改進對網(wǎng)絡(luò)的性能有明顯的提升效果，算法的準(zhǔn)確度和實時性都優(yōu)于其他算法。

2.5 網(wǎng)絡(luò)訓(xùn)練及驗證

使用自建多源艦船數(shù)據(jù)集對網(wǎng)絡(luò)模型進行訓(xùn)練，采用隨機抽取的方式，選用8 000張圖像構(gòu)建訓(xùn)練集，選用2 000張圖像用作測試集。修改配置文件參數(shù)為訓(xùn)練周期數(shù)為100，學(xué)習(xí)率為0.001，批大小為4，置信度閾值為0.5，步長為32。使用隨機梯度下降作為優(yōu)化器進行迭代，輸入圖片像素統(tǒng)一設(shè)定為512×512。

算法經(jīng)訓(xùn)練后如圖5所示，圖5（a）、圖5（b）分別為平均精確度和分類損失的訓(xùn)練結(jié)果?？梢钥闯?，網(wǎng)絡(luò)模型經(jīng)本數(shù)據(jù)集訓(xùn)練后，訓(xùn)練效果較好，整體損失值較少，未出現(xiàn)過擬合現(xiàn)象，收斂速度快，波動小，檢測精度高。

為比較不同回歸損失函數(shù)對算法性能的影響，選取旋轉(zhuǎn)目標(biāo)檢測損失函數(shù)、相對熵進行比較，旋轉(zhuǎn)目標(biāo)檢測損失函數(shù)通過采用卡爾曼濾波器模擬傾斜交叉比的定義，實現(xiàn)與傾斜交叉比的趨勢水平對齊。不同損失函數(shù)的計算兩個高斯分布之間的庫-萊伯勒散度，并將其作為相對熵的回歸損失。對比結(jié)果如表3所示，可以看出選取其他損失函數(shù)會導(dǎo)致檢測性能降低。

為驗證多源融合檢測網(wǎng)絡(luò)對不同源圖像檢測的提升效果，排除網(wǎng)絡(luò)模型參數(shù)變化對檢測結(jié)果的影響，對單源圖像及兩路同源圖像的檢測結(jié)果進行對比實驗，結(jié)果如表4所示。從對比結(jié)果可以看出，網(wǎng)絡(luò)對多源圖像檢測精度的提升是符合預(yù)期的。

為驗證旋轉(zhuǎn)框檢測對多源艦船目標(biāo)檢測性能的提升，選取當(dāng)前主流水平框算法進行對比實驗，所用數(shù)據(jù)集為自建離岸數(shù)據(jù)集和近岸數(shù)據(jù)集，以驗證在不同場景下的檢測效果。mAP1、mAP2分別為離岸結(jié)果和近岸結(jié)果，結(jié)果如表5所示。可以看出，本文算法對近岸場景下的檢測效果優(yōu)于水平框檢測算法。

2.6 可視化結(jié)果

多源艦船圖像融合檢測方法適用于處理有云霧影響、海浪干擾、光照條件較差等復(fù)雜場景。此時采用單源檢測難以取得較好的效果，因此選取數(shù)據(jù)集中部分檢測難度大的樣本的檢測結(jié)果，如圖6和圖7所示，以作為可視化展示。

圖6所示為無人機在遠距離拍攝下，受海平面反射影響，艦船目標(biāo)較小且色彩紋理特征不明顯，可以驗證網(wǎng)絡(luò)的抗干擾性能。從驗證結(jié)果可以看出，單一檢測下可見光和紅外的置信度分別為0.83和0.35，經(jīng)融合檢測后置信度提升至0.86，反映出算法可以提升對小目標(biāo)的檢測性能，有效處理干擾情況。

圖7是拍攝艦船在有云霧干擾下的場景，可以驗證網(wǎng)絡(luò)對遮擋情況的檢測性能。從驗證結(jié)果可以看出，單一檢測下可見光和紅外的置信度分別為0.61和0.34，經(jīng)融合檢測后置信度為0.81，反映出算法處理云霧遮擋的效果較好。

圖8是多艦船目標(biāo)在同一畫面中的場景，可以驗證網(wǎng)絡(luò)對多目標(biāo)的融合檢測性能。從驗證結(jié)果可以看出，單一檢測下兩個目標(biāo)的可見光和紅外的置信度為0.74、0.66和0.61、0.74，經(jīng)融合檢測后置信度為0.85、0.84，反映出算法可以有效實現(xiàn)多目標(biāo)的融合檢測，且融合后的檢測精度有明顯提升。

3 結(jié)束語

為解決多源艦船圖像融合檢測問題，提出MFFDet R。根據(jù)無人機航拍艦船目標(biāo)特點，有針對性地設(shè)計網(wǎng)絡(luò)模塊，首先采用單階段無錨框范式，并對網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化，降低網(wǎng)絡(luò)參數(shù)量和時延，提升實時性。隨后，采用旋轉(zhuǎn)任務(wù)對齊學(xué)習(xí)方法提升檢測精度，并通過強化檢測頭、解耦角度預(yù)測頭提升對遮擋目標(biāo)的檢測性能。最后，設(shè)計可學(xué)習(xí)門控單元，加強了對小目標(biāo)的檢測能力。通過對網(wǎng)絡(luò)性能的實驗驗證并與其他同類算法進行對比，結(jié)果表明本文方法不僅可以實現(xiàn)多源目標(biāo)融合檢測，并且可有效提升對艦船目標(biāo)的檢測性能，從可視化實驗結(jié)果中可以看出本文方法能夠較好地滿足現(xiàn)實任務(wù)的需要。下一步將對不同模態(tài)下的艦船目標(biāo)融合識別問題展開進一步研究。

參考文獻

［1］王彥情，馬雷，田原. 光學(xué)遙感圖像艦船目標(biāo)檢測與識別綜述［J］. 自動化學(xué)報， 2011， 37（9）： 1029-1039.

WANG Y Q， MA L， TIAN Y. Overview of ship target detection and recognition in optical remote sensing images［J］. Journal of Automation， 2011， 37（9）： 1029-1039.

［2］趙其昌，吳一全，苑玉彬. 光學(xué)遙感圖像艦船目標(biāo)檢測與識別方法研究進展［J］. 航空學(xué)報， 2023， 34（1）： 242-251.

ZHAO Q C， WU Y Q， YUAN Y B. Research progress on ship target detection and recognition methods in optical remote sensing images［J］. Journal of Aeronautics， 2023， 34（1）： 242-251.

［3］何友，熊偉，劉俊，等. 海上信息感知與融合研究進展及展望［J］. 火力與指揮控制， 2018， 43（6）： 1-10.

HE Y， XIONG W， LIU J， et al. Research progress and prospects on maritime information perception and fusion［J］. Firepower and Command and Control， 2018， 43（6）： 1-10.

［4］甘春生. 星載遙感圖像艦船檢測方法研究［D］. 遼寧：沈陽航空航天大學(xué)， 2016.

GAN C S. Research on ship detection methods in spaceborne remote sensing images［D］. Liaoning： Shenyang University of Aeronautics and Astronautics， 2016.

［5］LEI S， ZOU Z X， LIU D G， et al. Sea land segmentation for infrared remote sensing images based on superpixels and multi scale features［J］. Infrared Physics amp; Technology， 2018， 91： 12-17.

［6］ZHI B X， ZHOU F. Analysis of new top hat transformation and the application for infrared dim small target detection［J］. Pattern Recognition， 2010， 43（6）： 2145-2156.

［7］LIU R， LU Y， GONG C， et al. Infrared point target detection with improved template matching［J］. Infrared Physics amp; Technology， 2012， 55（4）： 380-387.

［8］李海軍，孔繁程，林云. 基于改進YOLOv5s的紅外艦船檢測算法［J］. 系統(tǒng)工程與電子技術(shù)， 2023， 45（8）： 2415-2422.

LI H J， KONG F C， LIN Y. Infrared ship detection algorithm based on improved YOLOv5s［J］. Systems Engineering and Electronics， 2023， 45（8）： 2415-2422.

［9］潘為年. 基于深度學(xué)習(xí)的紅外成像艦船目標(biāo)檢測方法研究［D］. 成都：電子科技大學(xué)， 2021.

PAN W N. Research on infrared imaging ship target detection method based on deep learning［D］. Chengdu： University of Electronic Science and Technology of China， 2021.

［10］ZHANG J X. Multi source remote sensing data fusion： status and trends［J］. International Journal of Image and Data Fusion， 2010， 1（1）： 5-24.

［11］LI M J， DONG Y B， WANG X L. Pixel level image fusion based the wavelet transform［C］∥Proc.of the 6th International Congress on Image and Signal Processing， 2013， 2： 995-999.

［12］HAN X， LYU Y， SONG T X. An adaptive two scale image fusion of visible and infrared images［J］. IEEE Access， 2019， 7： 56341-56352.

［13］YOU T T， TANG Y. Visual saliency detection based on adaptive fusion of color and texture features［C］∥Proc.of the 3rd IEEE International Conference on Computer and Communications， 2017： 2034-2039.

［14］楊曦，張鑫，郭浩遠，等. 基于不變特征的多源遙感圖像艦船目標(biāo)檢測算法［J］. 電子學(xué)報， 2022， 50（4）： 887.

YANG X， ZHANG X， GUO H Y， et al. Ship target detection algorithm based on invariant features in multi source remote sensing images［J］. Journal of Electronics， 2022， 50（4）： 887.

［15］WANG A， JIANG J N， ZHANG H Y. Multi sensor image decision level fusion detection algorithm based on D S evidence theory［C］∥Proc.of the 4th International Conference on Instrumentation and Measurement， Computer， Communication and Control， 2014， 620-623.

［16］PAUL P P， GAVRILOVA M L， ALHAJJ R. Decision fusion for multimodal biometrics using social network analysis［J］. IEEE Trans.on Systems， Man， and Cybernetics： Systems， 2014， 44（11）： 1522-1533.

［17］關(guān)欣，國佳恩，衣曉. 基于低秩雙線性池化注意力網(wǎng)絡(luò)的艦船目標(biāo)識別［J］. 系統(tǒng)工程與電子技術(shù)， 2023， 45（5）： 1305-1314.

GUAN X， GUO J E， YI X. Ship target recognition based on low rank bilinear pooling attention network［J］. Systems Engineering and Electronics， 2023， 45（5）： 1305-1314.

［18］DELIANG X， YIHAO X U， JIANDA C， et al. An algorithm based on a feature interaction based keypoint detector and sim CSPNet for SAR image registration［J］. Journal of Radars， 2022， 11（6）： 1081-1097.

［19］ZHANG Y C， ZHANG W B， YU J Y， et al. Complete and accurate holly fruits counting using YOLOX object detection［J］. Computers and Electronics in Agriculture， 2022， 198： 107062.

［20］DEVER W G. The chronology of Syria Palestine in the second millennium BCE： a review of current issues［J］. Bulletin of the American Schools of Oriental Research， 1992， 288（1）： 1-25.

［21］SONG G L， LIU Y， WANG X G. Revisiting the sibling head in object detector［C］∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2020： 11563-11572.

［22］FU A M， ZHANG X L， XIONG N X， et al. VFL： a verifiable federated learning with privacy preserving for big data in industrial IOT［J］. IEEE Trans.on Industrial Informatics， 2020， 18（5）： 3316-3326.

［23］FENG C J， ZHONG Y J， GAO Y， et al. Tood： task aligned one stage object detection［C］∥Proc.of the IEEE/CVF International Conference on Computer Vision， 2021： 3490-3499.

［24］LI X， WANG W H， WU L J， et al. Generalized focal loss： learning qualified and distributed bounding boxes for dense object detection［J］. Advances in Neural Information Processing Systems， 2020， 33： 21002-21012.

［25］LIN T Y， DOLLAR P， GIRSHICK R， et al. Feature pyramid networks for object detection［C］∥Proc.of the IEEE conference on computer vision and pattern recognition， 2017： 2117-2125.

［26］LIU Z， LI Y， YAO L， et al. Task aligned generative meta learning for zero shot learning［C］∥Proc.of the AAAI Confe rence on Artificial Intelligence， 2021， 35（10）： 8723-8731.

［27］LLERENA J E. Probabilistic intersection over union for training and evaluation of oriented object detectors［J］. 2022， 15（6）： 156-178.

［28］HE K M， ZHANG X Y， REN S Q， et al. Deep residual learning for image recognition［C］∥Proc.of the IEEE Conference on Computer Vision and Pattern Recognition， 2016： 770-778.

［29］ZHANG H Y， WANG Y， DAYOUB F， et al. Varifocalnet： an IoU aware dense object detector［C］∥Proc.of the IEEE/CVF Conference on Computer Vision and Pattern Recognition， 2021： 8514-8523.

［30］LI X， WANG W H， WU L J， et al. Generalized focal loss： learning qualified and distributed bounding boxes for dense object detection［J］. Advances in Neural Information Processing Systems， 2020， 33： 21002-21012.

作者簡介

姜杰（1990—），男，助理工程師，博士研究生，主要研究方向為人工智能、圖像處理。

凌青（1987—），女，副教授，博士，主要研究方向為電磁信號處理。

閆文君（1986—），男，副教授，博士，主要研究方向為電磁信號處理。

劉凱（1986—），男，副教授，博士，主要研究方向為人工智能、深度學(xué)習(xí)。