李浩然, 熊 偉, 崔亞奇
(海軍航空大學信息融合研究所, 山東 煙臺 264001)
當今海洋權益越來越受到重視,海洋監(jiān)視技術對維護海洋權益有著重要意義[1]。在海洋監(jiān)視領域,合成孔徑雷達(synthetic aperture radar, SAR)與船舶自動識別系統(tǒng)(automatic identification system, AIS)數(shù)據(jù)之間的關聯(lián)關系的建立有著廣泛的應用場景[2],如偵察監(jiān)視[3-5]、污染監(jiān)控[6-8]、目標識別[9-11]、非法打撈等[12-14]。星載SAR和AIS都具有全天時全天候的工作能力,但又各具特點,在艦船目標監(jiān)視方面有著優(yōu)勢互補的特性。AIS信息更新頻率快且精度高,可以直接獲得艦船的位置、航向、尺寸等特征信息[15]。星載SAR探測范圍廣,獲取圖像的分辨率較高,但訪問周期長。AIS信息中艦船的具體特征信息可作為對應SAR圖像中目標信息的補充,而SAR圖像又是AIS信息中對應目標更直觀的表示。通過SAR圖像與AIS信息關聯(lián)關系的建立,由AIS信息關聯(lián)檢索到對應SAR圖像,可以快速鎖定目標所在的大致區(qū)域,有助于周圍環(huán)境態(tài)勢的判定;而SAR圖像關聯(lián)檢索到對應AIS數(shù)據(jù),能夠進一步獲得目標的具體信息,有利于了解目標的基本情況。SAR圖像與AIS信息之間相互補充可以使我們對目標情況掌握更全面,提升海洋目標的態(tài)勢感知能力。
數(shù)據(jù)關聯(lián)用于判別來自不同傳感器的信息是否源于同一目標[16],是實現(xiàn)上述兩種信息有效互補的基礎和前提。SAR和AIS的關聯(lián)屬于典型的跨模態(tài)數(shù)據(jù)關聯(lián)問題。文獻[17]提出了用一種對SAR和AIS數(shù)據(jù)融合的新方法,在決策層采用算數(shù)平均函數(shù)對數(shù)據(jù)融合,并在模擬數(shù)據(jù)集上進行了檢驗。文獻[18]通過一種改進的自適應支持向量機對AIS信息中的知識進行遷移來提高SAR艦船分類性能,實驗證明傳統(tǒng)方法的效果可以得到明顯改進。文獻[19]提出了一種利用SAR圖像中目標的航速估計來提高SAR與AIS匹配精度的方法,具有較廣泛的適應性。文獻[20]提出了一種在密集場景下輔助分類的SAR與AIS數(shù)據(jù)關聯(lián)技術,利用基于AIS信息遷移學習的SAR分類模型提高了數(shù)據(jù)關聯(lián)的置信度。然而,以上針對SAR圖像與AIS數(shù)據(jù)關聯(lián)的方法,通常提取兩種數(shù)據(jù)中目標的位置及屬性特征信息,轉(zhuǎn)換為同模態(tài)的數(shù)據(jù)后再通過融合決策實現(xiàn)關聯(lián)匹配。然而上述方法很大程度上依賴于SAR圖像中的位置信息,輔助以目標的尺寸等信息實現(xiàn)關聯(lián),未能充分利用遙感圖像豐富的語義信息,若缺失準確位置信息則難以實現(xiàn)兩者的關聯(lián)。此外,這些方法多依賴于人工設計特征且關聯(lián)步驟繁瑣,關聯(lián)效率低。
近年來,深度學習技術已經(jīng)越來越廣泛應用于圖文檢索[21]、音頻翻譯[22]和文本視頻匹配[23]等領域中的跨模態(tài)數(shù)據(jù)關聯(lián)問題。但AIS信息并不同于一般的文本或是音頻等信息,AIS信息中包含時空信息以及目標屬性等信息,其不同于一般的句子結構,文本信息中不是僅僅是單詞的有序組合,而是名稱詞語和對應數(shù)值的組合,相對來說結構更加復雜,而且數(shù)據(jù)本身上下文間沒有明顯的邏輯性,特征信息挖掘難度大。通常的用于解決跨模態(tài)問題的模型對文本這一模態(tài)特征的獲取是立足于語言模型,獲得文本數(shù)據(jù)的語法結構以及深層語義信息,但這種結構不能完全適用于AIS信息,故難以達到滿意關聯(lián)的效果,這使得遙感圖像與AIS信息間關聯(lián)模型的建立更具挑戰(zhàn)性。
為了更好地解決遙感圖像與AIS信息的關聯(lián)問題,克服多源數(shù)據(jù)類型之間存在的異構鴻溝,實現(xiàn)高效準確的關聯(lián)檢索,本文提出了一種基于深度特征融合的SAR圖像與AIS信息關聯(lián)學習的方法。根據(jù)SAR圖像和AIS數(shù)據(jù)所含信息豐富且難獲取的特點分別設計了相應的特征提取網(wǎng)絡模型,將網(wǎng)絡學習到的兩種模態(tài)數(shù)據(jù)的特征表示映射到同一特征空間并進行融合,然后在這一空間中通過關聯(lián)學習目標函數(shù)實現(xiàn)跨模態(tài)數(shù)據(jù)之間關聯(lián)關系的學習,同時構建了一個包含SAR圖像和AIS信息的數(shù)據(jù)集,并在數(shù)據(jù)集上驗證了所提模型的有效性。
SAR圖像與AIS信息的數(shù)據(jù)之間存在異構鴻溝,難以直接進行數(shù)據(jù)間的關聯(lián)。首先需要將兩種不同傳感器獲取的數(shù)據(jù)信息映射到同一個特征空間,使得不同類型的信息有統(tǒng)一的特征表示形式。進一步,通過對關聯(lián)學習目標函數(shù)的設計發(fā)掘兩種數(shù)據(jù)間潛在的關聯(lián)關系,實現(xiàn)SAR圖像與AIS信息之間的關聯(lián)檢索。本文設計的用于SAR圖像與AIS信息關聯(lián)的模型結構如圖1所示,分別通過兩個子網(wǎng)絡模型對SAR和AIS數(shù)據(jù)特征進行充分的學習,再將學得的兩種模態(tài)特征表示分別映射到同一特征空間中,然后在共同的特征空間進行關聯(lián)關系的建模。這個過程可以表示為
圖1 本文方法構架
i=WII
(1)
t=WTT
(2)
S=cos(i,t)
(3)
式中:WI和WT分別為SAR圖像和AIS文本信息的權重矩陣;i和t分別為SAR圖像和AIS信息的特征表示;cos(x,y)表示x,y兩個向量之間的余弦相似度。下面將具體介紹本文的方法。
SAR圖像特征學習的基本過程如圖2所示,為了更好地學習到圖像中的目標信息,輸入的SAR圖像首先會通過一個目標檢測模型,保存獲得的圖像中目標的邊界框并將其標注在圖像上。進一步,將帶有邊界框的SAR圖像輸入到卷積神經(jīng)網(wǎng)絡,使用的圖像特征提取模型為在ImageNet數(shù)據(jù)集上預訓練的Resnet18[24],每幅輸入的SAR圖像大小都調(diào)整為256×256后輸入到網(wǎng)絡模型中以獲取對應的特征表示。
圖2 SAR圖像特征提取網(wǎng)絡
遙感圖像不同于自然圖像,其具有更豐富的語義信息,僅使用全局特征雖然可以表示圖像所包含的大部分信息,但仍有一定缺陷。文獻[25]設計的殘差精化模塊有助于提取到圖片的精細化特征,深層特征圖尺度大,能夠捕獲突出對象的高級語義信息;而淺層特征圖尺度小,能夠提取目標精細語義信息。在這種方法的啟發(fā)下我們設計的網(wǎng)絡結構在獲得遙感圖像特征表示時,不但提取圖像的全局特征同時也得到各層的特征圖,獲得一組多尺度特征圖。然后對不同層輸出的特征圖進行了上采樣,進而對特征圖進行拼接分別獲得底層特征和高層特征,然后使用卷積層對底層特征采樣使其大小與高層特征相匹配,高層特征則通過卷積進行等尺度變化。最后得到的SAR圖像特征表示是將提取的不同層次特征圖融合后的結果,以此得到遙感圖像的更細粒度表示,更能體現(xiàn)目標特征。SAR圖像特征融合示意圖如圖3所示。
圖3 SAR圖像特征融合
上述過程可以表示為
L=conv3×3(Cat(F2,Upsample(F3)))
(4)
H=conv1×1(Cat(F4,Upsample(F5)))
(5)
i=(σ(Linear(Cat(L,H))))⊙G
(6)
式中:Fi代表第i層網(wǎng)絡的輸出特征,網(wǎng)絡的基本結構參數(shù)如表1中所示;conv()表示卷積操作,右下角標為卷積核大小;Cat()表示維數(shù)一致的特征向量,在通道數(shù)維度上進行拼接;Upsample()代表上采樣操作;Linear()代表線性變換;σ()代表Sigmoid激活函數(shù);G為網(wǎng)絡獲取的全局特征;i為各層級圖像特征融合后得到的SAR圖像特征表示;⊙表示按元素相乘。
表1 SAR圖像特征提取網(wǎng)絡基本結構參數(shù)
AIS信息的輸入形式為文本格式,其中包含海上移動通信業(yè)務標識(maritime mobile service identity, MMSI)、經(jīng)緯度、船的尺寸、航向等具有代表性的目標基本信息。AIS信息輸入后,首先對AIS文本信息進行分詞并編碼,由于AIS的文本信息不同于一般的句子,所以我們對分詞器進行了特定的設計,分詞得到的目標信息的名稱和真值保持結合在一起,例如“MMSI:107521122”的形式,這樣的設計更利于體現(xiàn)AIS數(shù)據(jù)中所包含的目標特征信息,保證了信息的整體一致性,利于后續(xù)的特征提取。然后將分詞后的每個單詞編碼嵌入到300維向量后再輸入到網(wǎng)絡模型中進一步挖掘數(shù)據(jù)中的特征信息,由于AIS信息與一般文本語句有較大差異,以及分詞后詞間并無明顯的邏輯性,為了提高對AIS信息的表示能力,充分挖掘數(shù)據(jù)中的表征信息。AIS信息特征提取過程如圖4所示,構建了以門控循環(huán)單元(gated recurrent unit,GRU)作為循環(huán)神經(jīng)網(wǎng)絡的基本節(jié)點以及以一維卷積為基本過濾器的卷積神經(jīng)網(wǎng)絡模型處理AIS的文本信息,以獲取數(shù)據(jù)整體以及細節(jié)的語義信息,最終由兩個網(wǎng)絡分支獲取的特征融合構成AIS信息的特征表示。
圖4 AIS信息特征提取網(wǎng)絡
假設輸入的AIS信息中分詞后得到n個字符串,在對分詞得到的結果編碼后,AIS信息的輸入可以表示為{s1,s2,…,sn},si∈R300,si為對字符串編碼后的向量。然后分別輸入到GRU以及一維卷積神經(jīng)網(wǎng)絡中提取特征,得到AIS信息的細粒度表示。
GRU主要包含更新門zt和重置門,通過這兩個門來控制輸入和遺忘信息的平衡,其網(wǎng)絡結構計算過程可表示為
rt=σ(Wr·[ht-1,xt])
(7)
zt=σ(Wz·[ht-1,xt])
(8)
(9)
(10)
yt=σ(Wo·ht)
(11)
表2 網(wǎng)絡結構參數(shù)
AIS文本信息的最終特征表示是由GRU和一維卷積神經(jīng)網(wǎng)絡獲取的兩部分特征相結合:
s=GRU(T)+CNN1D(T)
(12)
在SAR圖像與AIS信息特征提取的網(wǎng)絡模型中,通過特征融合能夠得到網(wǎng)絡模型對單模態(tài)信息更準確的特征表示,但兩模態(tài)特征信息之間并沒有交互,容易造成模型過于依賴圖單一模態(tài)的表征,不利于提高跨模態(tài)信息之間的關聯(lián)性。單一模態(tài)的AIS信息雖然在一定程度上能夠反映遙感圖像中目標的部分特征,但通常不能包含圖像中更全面的目標信息。受到文獻[26]啟發(fā),在模型中可以利用圖像特征信息來指導AIS信息的特征表示輸出,實現(xiàn)兩模態(tài)特征的交互。通過利用已經(jīng)獲取的遙感圖像特征對AIS信息的特征表示進行引導,特征融合后得到含有引導信息的特征輸出,使模型不僅僅局限于關注單模態(tài)特征表示,還引入了不同模態(tài)間的交互信息,使獲得的目標的特征表示信息更全面且能夠增強模態(tài)間信息的語義相關性,有助于提高SAR圖像與AIS信息的關聯(lián)效果。圖像特征向量經(jīng)過線性層及激活函數(shù)后,與文本特征結合來指導其特征輸出。可以表示為
t=σ(Linear(i))⊙s
(13)
式中:σ()為激活函數(shù);i和s分別為獲取的SAR圖像特征表示和AIS信息特征表示;Linear(x)表示對x進行線性變換;t代表帶有視覺信息指導下的AIS信息表示。
為了構建SAR圖像與AIS信息之間準確的關聯(lián)關系,通過目標函數(shù)在共同空間的約束,使得兩種模態(tài)相匹配數(shù)據(jù)的特征表示在高層語義保持一致。網(wǎng)絡模型關聯(lián)學習的目標函數(shù)由兩部分組合而成,目標函數(shù)的設計可以加快模型的收斂同時學習到更具辨別性的特征,其表達式為
L=Lsim+Ltriple
(14)
式中:Lsim表示相似性約束損失;Ltriple表示三元損失。
1.4.1 相似性約束
針對不同模態(tài)數(shù)據(jù)之間的異構性,該約束使匹配的SAR圖像與AIS信息的特征表示在統(tǒng)一的特征空間中相互靠近,克服由于數(shù)據(jù)異構性造成數(shù)據(jù)間的語義鴻溝,增強不同模態(tài)特征表示間的語義關聯(lián)性,拉近了匹配的SAR與AIS信息的特征表示在共同空間中的距離。
(15)
式中:N為一個批次中所含的成對樣本數(shù);i和t分別為SAR圖像和AIS文本信息的特征表示。
1.4.2 三元損失
隨著多模態(tài)特征匹配的發(fā)展,三元損失已經(jīng)是多模態(tài)特征匹配領域常用的損失函數(shù)之一。文獻[27]對三元損失進行了改進,提高了其在圖文檢索應用的效果。在共同空間中,三元損失通過增大樣本與其對應的負樣本之間的距離,同時使該樣本與其對應的正樣本之間的距離盡可能近,這樣可以使模型學習到更細微的特征,增強提取到特征的判別性,進一步提高關聯(lián)的準確性。
(16)
由于獲取相匹配的遙感圖像與AIS信息難度大,目前并沒有遙感圖像與AIS信息相互匹配的公開數(shù)據(jù)集。為了驗證本文所提方法的有效性,解決SAR圖像與AIS信息之間的關聯(lián)問題,本文構建了一個包含SAR圖像和對應AIS文本信息的數(shù)據(jù)集,圖5展示了數(shù)據(jù)集中的部分樣例。對應文本信息選取了AIS中具有代表性的目標特征信息,包含MMSI、經(jīng)緯度、船的長寬、航向等基本信息。數(shù)據(jù)集的構建以SAR圖像艦船目標檢測數(shù)據(jù)集(SAR ship detection dataset,SSDD)[28]為基礎,從中選取了650張只包含一個目標的SAR圖像,每張SAR圖像對應的AIS信息根據(jù)目標特點進行標注。
圖5 數(shù)據(jù)集樣例
在本實驗中,隨機挑選數(shù)據(jù)集中80%的數(shù)據(jù)作為訓練集,10%作為驗證集,剩余的10%作為測試集。以Resnet18為基本網(wǎng)絡構架提取SAR圖像的特征表示,訓練過程隨機讀取匹配的SAR圖像與AIS信息,同時輸入到網(wǎng)絡模型中。我們使用Adam優(yōu)化器來訓練整個網(wǎng)絡,三元損失門限值設置為0.3,批次大小設置為16,訓練迭代20個循環(huán),學習率設置為0.000 2。
此外,實驗檢索任務分為SAR圖像到AIS信息(S2A)和AIS信息到SAR圖像(A2S)兩種類型。本實驗中采用基于實值表示學習跨模態(tài)檢索任務[29]常用的性能評價指標召回率(Recall)作為模型的評價指標,召回率是指給定查詢樣本時模型返回的相關樣本與數(shù)據(jù)集中所有與其相匹配的樣本數(shù)之比。在跨模態(tài)領域,R@K(K=1,5,10)表示針對一種模態(tài)信息的查詢,返回另一種模態(tài)數(shù)據(jù)的前K個結果中包含正確匹配樣本的百分比。R_m是R@K所有數(shù)據(jù)的平均值,用于評估模型的整體性能更為合理。兩個評價指標的值越高,模型表現(xiàn)越好。
為了驗證本文模型算法的有效性,我們在構建的SAR圖像與AIS信息相匹配的數(shù)據(jù)集上進行了實驗驗證,分別進行了SAR圖像檢索以及AIS信息的檢索。為確保模型的有效性和可靠性,實驗結果我們采用五折交叉驗證后的平均值,在兩種任務上的實驗結果如表3所示。
表3 本文方法實驗結果
表3中分別展示了本文方法在SAR圖像檢索AIS信息(SAR->AIS)以及AIS檢索SAR圖像(AIS->SAR)的實驗結果以及與SCAN[30]以及AMFMN[31]方法的對比。從數(shù)據(jù)上可以看出,本文方法在所構建的數(shù)據(jù)集上可以達到較好的效果,尤其是在返回的前幾個結果檢索到匹配信息的準確率較高,表明模型能夠較好地學習到兩種異構數(shù)據(jù)潛在的關聯(lián)關系,能夠較準確地實現(xiàn)這兩種模態(tài)數(shù)據(jù)的相互檢索。SCAN使用堆疊交叉注意力模型實現(xiàn)圖文匹配,是在自然領域的圖文跨模態(tài)檢索任務中的經(jīng)典算法,后續(xù)的很多相關研究都將其作為基準對比效果;而AMFMN是在遙感領域最近提出的用于圖文跨模態(tài)的關聯(lián)學習方法,其能適應多尺度輸入并能夠過濾冗余特征,并在更細粒度的數(shù)據(jù)集上表現(xiàn)出較好的性能。從上述方法對比的實驗結果可以進一步看出,本文的方法較SCAN、AMFMN表現(xiàn)更好,尤其是在R@1和R@5這兩個指標上有較大提升,說明本文方法關聯(lián)匹配的精準度更高,證明了本文方法用于SAR圖像與AIS信息關聯(lián)檢索任務的有效性。
為了更直觀地分析模型效果,從測試數(shù)據(jù)集中挑選出具有代表性的例子,以及模型檢索到的最相似的前3個對象。如圖6和圖7所示,其中紅框標出的圖像或文本為對應查詢樣本的真值。
圖6 AIS->SAR檢索結果
圖7 SAR->AIS檢索結果
圖6和圖7分別展示了SAR圖像檢索AIS信息以及AIS信息檢索SAR圖像的幾個結果,可以看出查詢對象所對應的真值大多都能包含在排序靠前的檢索結果中,這說明本文對SAR圖像和AIS信息之間進行關聯(lián)學習的方法是有效的。此外,對于查詢對象返回的相似度較高但不是真值的那些樣本,其特征信息是與真值非常類似的,只是在細節(jié)上有所差異。通過這種將結果可視化的方式,可以看出本文設計的網(wǎng)絡模型在提取SAR圖像與AIS 信息細粒度特征以及發(fā)掘兩者之間潛在關聯(lián)關系的突出能力,進一步說明了本文方法的有效性。
為了驗證所提模型中各部分的作用,進一步檢驗本文方法的有效性,我們設計了不同模塊組合的模型,并進行了對比實驗進行分析。為簡化表示,分別用“M”“M1”“M2”“M3”“M4”“M5”“M6”“M7”“M8”代表本文完整模型、SAR圖像細節(jié)特征模塊與AIS信息的GRU特征模塊組合、SAR圖像細節(jié)特征模塊與AIS信息的一維卷積特征模塊組合、SAR圖像全局特征模塊與AIS信息的GRU特征模塊組合、SAR圖像全局特征模塊與AIS信息的一維卷積特征模塊組合、SAR圖像細節(jié)特征模塊與AIS信息的完整特征模塊組合、SAR圖像完整特征模塊與AIS信息的GRU特征模塊組合、SAR圖像完整特征模塊與AIS信息的一維卷積特征模塊組合、SAR圖像全局特征模塊與AIS信息的完整特征模塊組合,這些組合的模型在兩類任務上的實驗結果如表4所示。
表4 對比實驗結果
從對比實驗結果可以看出,如果從本文模型的SAR圖像特征提取模塊以及AIS信息特征提取模塊中各移除一個模塊,則剩余部分的組合模型整體關聯(lián)效果會有明顯下降;如果只是從整個模型中任意移除某一模塊,也會導致模型的整體效果下降,只有當模型完整時達到最佳效果,對比實驗結果充分說明了本文方法所設計各模塊的有效性。
針對SAR圖像與AIS信息關聯(lián)難度大,其數(shù)據(jù)間相似性難以度量的問題,提出了一種基于深度特征融合的SAR圖像與AIS信息關聯(lián)的方法。與現(xiàn)有的方法相比,無需過多的人工干預,能夠直接對兩種模態(tài)信息的關聯(lián)關系進行建模,將不同模態(tài)特征表示映射到同一特征空間并通過特征融合以增強關聯(lián)性,使得模型實現(xiàn)更加高效準確的關聯(lián)檢索。為了驗證方法的有效性,構建了一個包含SAR圖像及匹配AIS信息的數(shù)據(jù)集。然而,受限于匹配的SAR圖像與AIS信息難獲得性,數(shù)據(jù)集中的AIS信息多參照實際的數(shù)據(jù)內(nèi)容形式進行標注獲得,而且構造數(shù)據(jù)集的規(guī)模較小,下一步工作需要構建實測的且包含更多復雜場景大規(guī)模數(shù)據(jù)集來進行實驗驗證并深入探索以進一步提高關聯(lián)的準確性。