• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      注意力卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的弱小目標(biāo)軌跡檢測(cè)

      2020-12-23 09:12:24楊其利周炳紅李明濤
      光學(xué)精密工程 2020年11期
      關(guān)鍵詞:短時(shí)記憶紅外注意力

      楊其利,周炳紅,鄭 偉,李明濤

      (1.中國(guó)科學(xué)院 國(guó)家空間科學(xué)中心,北京 100190;2.中國(guó)科學(xué)院大學(xué) 工程科學(xué)學(xué)院,北京 100049)

      1 引 言

      紅外弱小目標(biāo)的軌跡檢測(cè)是紅外導(dǎo)引的一項(xiàng)關(guān)鍵技術(shù)?;诩t外序列圖像的弱小目標(biāo)運(yùn)動(dòng)軌跡提取技術(shù)是對(duì)成像傳感器采集的圖像序列進(jìn)行特征提取,并根據(jù)這些特征對(duì)圖像序列中的小目標(biāo)進(jìn)行關(guān)聯(lián)、匹配,得到運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)軌跡。近地天體大多距離地球遙遠(yuǎn),尺寸小且亮度低,難以被有效探測(cè)到,其信息采集主要依靠望遠(yuǎn)鏡(可見(jiàn)光和紅外)和雷達(dá)等天文觀測(cè)設(shè)備,目前紅外探測(cè)技術(shù)已被引入到近地天體預(yù)警和監(jiān)測(cè)任務(wù)中。紅外場(chǎng)景的目標(biāo)檢測(cè)和提取可以全天時(shí)工作,在小天體探測(cè)、導(dǎo)彈制導(dǎo)及戰(zhàn)場(chǎng)偵察等航空航天領(lǐng)域具有重要的地位。

      傳統(tǒng)有效的方法是在多幀圖像序列中首先估計(jì)目標(biāo)的運(yùn)動(dòng)軌跡,沿軌跡進(jìn)行目標(biāo)能量積累,然后對(duì)積累后的圖像進(jìn)行檢測(cè)判決。由于目標(biāo)能量在連續(xù)幀圖像之間是相關(guān)的,而噪聲在連續(xù)幀之間是不相關(guān)的,因而沿目標(biāo)軌跡的能量積累將遠(yuǎn)遠(yuǎn)大于非目標(biāo)軌跡上的能量積累,在積累后的圖像上進(jìn)行判決將有較高的信噪比,得到較好的檢測(cè)性能。這種先估計(jì)軌跡后檢測(cè)目標(biāo)的方法亦被稱作檢測(cè)前跟蹤(Track Before Detect, TBD)[1]技術(shù)。

      Blostein等[2]的多階假設(shè)檢驗(yàn)方法可以同時(shí)檢測(cè)多個(gè)線性運(yùn)動(dòng)目標(biāo),它將多個(gè)目標(biāo)的軌跡組織成一棵樹(shù)的形式,然后利用假設(shè)檢驗(yàn)方法對(duì)樹(shù)的每一層進(jìn)行修剪,能夠有效地檢測(cè)單個(gè)目標(biāo)的軌跡。這種算法的效率和直接軌跡匹配的算法相比,有數(shù)量級(jí)的顯著提高,但是需要在目標(biāo)范圍內(nèi)將目標(biāo)限制為均勻的直線運(yùn)動(dòng),因此該方法的應(yīng)用受到限制。Liou等[3]提出了一種高階相關(guān)方法,該方法可以在目標(biāo)數(shù)量、初始條件等未知的情況下,從有噪聲的三維圖像中檢測(cè)出直線或曲線軌跡,適用于不同雜波密度下的多目標(biāo)檢測(cè),但是它將灰度圖像轉(zhuǎn)化為二值圖像,轉(zhuǎn)化時(shí)若閾值選擇得較高則漏檢率高,導(dǎo)致航跡檢測(cè)失敗;相反,運(yùn)算量較大。Barniv等[4]提出的動(dòng)態(tài)規(guī)劃方法,利用了分段優(yōu)化的思想,將目標(biāo)軌跡搜索問(wèn)題分解為分級(jí)優(yōu)化的問(wèn)題,這種方法不僅可以檢測(cè)勻速運(yùn)動(dòng)的目標(biāo),而且也可以用于檢測(cè)機(jī)動(dòng)運(yùn)動(dòng)的目標(biāo)。然而,隨著目標(biāo)信噪比的降低,基于動(dòng)態(tài)規(guī)劃方法的性能下降非常明顯,且該方法空間復(fù)雜度較高算法實(shí)時(shí)性較差。Reed等[5]提出了三維匹配濾波方法,將弱小目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為三維空間上速度匹配的問(wèn)題,并且通過(guò)理論推導(dǎo)獲得了頻域上最優(yōu)三維匹配濾波方程,但是三維匹配濾波器需要事先知道目標(biāo)的灰度分布函數(shù)以及目標(biāo)運(yùn)動(dòng)速度,在實(shí)際應(yīng)用中,這些參數(shù)很難事先得到。

      深度學(xué)習(xí)方法在視覺(jué)目標(biāo)跟蹤領(lǐng)域的巨大成功,為移植或搭建適用于紅外目標(biāo)跟蹤的深度學(xué)習(xí)模型提供了可能。對(duì)于時(shí)空序列問(wèn)題,近年來(lái)火熱的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的AlexNet[6],VGG[7],GoogleNet[8]等算法都無(wú)法解決。主要原因是以上3種算法代表的卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是對(duì)結(jié)構(gòu)表征能力很強(qiáng),缺點(diǎn)是局限于靜態(tài)圖,無(wú)法建模動(dòng)態(tài)圖的時(shí)空序列問(wèn)題。遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[9]很重要的一個(gè)用途是處理和預(yù)測(cè)序列數(shù)據(jù),可能在紅外場(chǎng)景下有所作為。對(duì)于缺乏形狀和紋理特征的紅外目標(biāo),可以嘗試?yán)眉t外目標(biāo)時(shí)間維度上的信息。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[10]是遞歸神經(jīng)網(wǎng)絡(luò)的一種變體,它解決了網(wǎng)絡(luò)訓(xùn)練過(guò)程中梯度爆炸和消失的問(wèn)題。Shi等[11]在結(jié)合了LSTM的序列處理能力和CNN的空間特征表達(dá)能力后,提出了能夠解決時(shí)空序列預(yù)測(cè)問(wèn)題的卷積LSTM模型(Convolutional Long Short-Term Memory, ConvLSTM),這種結(jié)構(gòu)被用于處理降水臨近預(yù)報(bào)的序列圖像,特別適合于時(shí)空數(shù)據(jù)。張等[12]提出將ConvLSTM與3D卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,用于手勢(shì)識(shí)別任務(wù),考慮到手勢(shì)主要包含手的局部信息和手臂的全局運(yùn)動(dòng)信息,他使用3D卷積神經(jīng)網(wǎng)絡(luò)用于學(xué)習(xí)局部的短期時(shí)空特征,使用ConvLSTM學(xué)習(xí)長(zhǎng)期時(shí)空特征,這種短期和長(zhǎng)期時(shí)空特征相結(jié)合的學(xué)習(xí)方法在任務(wù)中取得了最佳的精度。人類的視覺(jué)注意力機(jī)制能夠幫助人眼在復(fù)雜的環(huán)境中快速定位至最感興趣的目標(biāo)。謝等[13]提出一種基于注意力的網(wǎng)絡(luò)結(jié)構(gòu),用于檢測(cè)圖像的顯著區(qū)域,突出了圖像前景區(qū)域像素并抑制背景區(qū)域信息,實(shí)現(xiàn)了減少背景干擾的目的。

      序列圖像目標(biāo)軌跡提取,本質(zhì)上就是同時(shí)提取序列圖像中目標(biāo)的時(shí)間維運(yùn)動(dòng)信息和空間維特征信息的過(guò)程。因此,受上述研究者的啟發(fā),本文針對(duì)連續(xù)15幀紅外圖像序列,提出一種將ConvLSTM,3D卷積核以及注意力機(jī)制結(jié)合在一起的網(wǎng)絡(luò)架構(gòu),充分利用紅外序列的時(shí)間維信息和空間維信息,實(shí)現(xiàn)紅外圖像序列弱小目標(biāo)運(yùn)動(dòng)軌跡的檢測(cè),其中3D卷積核用于提取短期時(shí)空信息,ConvLSTM用于提取序列的長(zhǎng)期時(shí)空信息,注意力機(jī)制用于篩選與弱小目標(biāo)運(yùn)動(dòng)軌跡相關(guān)的關(guān)鍵信息,同時(shí)忽略絕大部分不重要的背景信息。

      2 注意力機(jī)制卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

      2.1 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)

      長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)形式,解決了原始遞歸網(wǎng)絡(luò)對(duì)于長(zhǎng)時(shí)期依賴問(wèn)題,即通過(guò)之前提到但是時(shí)間上較為久遠(yuǎn)的內(nèi)容進(jìn)行后續(xù)的推理和判斷。LSTM的基本思路是引入門(mén)控單元,來(lái)處理記憶單元的記憶、遺忘、輸入、輸出程度的問(wèn)題,如圖1(a)所示,其基本單元被稱為記憶塊,由1個(gè)中心節(jié)點(diǎn)和3個(gè)門(mén)控單元組成。中心節(jié)點(diǎn)通常被稱為記憶細(xì)胞,用以存儲(chǔ)當(dāng)前網(wǎng)絡(luò)狀態(tài),3個(gè)門(mén)控單元分別被稱為輸入門(mén)、輸出門(mén)和遺忘門(mén),用以控制記憶塊內(nèi)信息流動(dòng)。在前向傳播過(guò)程中,輸入門(mén)用以控制輸入到記憶細(xì)胞的信息流,輸出門(mén)用以控制記憶細(xì)胞到網(wǎng)絡(luò)其他結(jié)構(gòu)單元的信息流。在反向傳播過(guò)程中,輸入門(mén)用以控制迭代誤差流出記憶細(xì)胞,輸出門(mén)用以控制迭代誤差流入記憶細(xì)胞。而遺忘門(mén)則用以控制記憶細(xì)胞內(nèi)部的循環(huán)狀態(tài),決定信息的取舍或遺忘。通過(guò)這種門(mén)控機(jī)制,LSTM網(wǎng)絡(luò)得以控制單元內(nèi)信息流動(dòng),使其具備保存長(zhǎng)時(shí)間信息的能力,即‘記憶’能力,在訓(xùn)練過(guò)程中能夠防止內(nèi)部梯度受外部干擾,避免了梯度彌散和梯度爆炸問(wèn)題。設(shè)單個(gè)LSTM記憶塊的輸入向量為Xt,前向傳播公式可表述如下。

      圖1 (a)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),(b)卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

      長(zhǎng)期記憶單元Ct更新過(guò)程:

      it=σ(WxiXt+WhiHt-1+bi),

      (1)

      ft=σ(WxfXt+WhfHt-1+bf),

      (2)

      (3)

      (4)

      短期記憶單元Ht更新過(guò)程:

      ot=σ(WxoXt+WhoHt-1+bo),

      (5)

      Ht=ot°tanhCt,

      (6)

      其中ot表示輸出門(mén),控制著短期記憶如何受長(zhǎng)期記憶影響。

      單個(gè)LSTM記憶快的輸出Ct,Ht循環(huán)作為記憶快的輸入輸出,即第t-1時(shí)刻記憶快輸出Ct-1,Ht-1為t時(shí)刻LSTM記憶快的輸入值,此為層內(nèi)循環(huán)。層內(nèi)各時(shí)刻LSTM記憶快共用相同權(quán)重參數(shù)W~和偏置系數(shù)b~,因此,單層LSTM網(wǎng)絡(luò)可以看作單個(gè)LSTM記憶快輸入輸出值的循環(huán)計(jì)算。此外,短期記憶Ht還作為下一個(gè)LSTM記憶快的輸入?yún)⑴c到該層循環(huán)計(jì)算中,此為層間計(jì)算。

      2.2 卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

      Shi等[11]針對(duì)雷達(dá)回波序列圖像,提出了卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Convolutional Long Short Term Memory Networks, ConvLSTM),解決了臨近降水預(yù)測(cè)問(wèn)題。此后,ConvLSTM已被應(yīng)用于動(dòng)作識(shí)別[14]、手勢(shì)識(shí)別[12]和其他領(lǐng)域[15],這些數(shù)據(jù)都有很強(qiáng)的時(shí)空相關(guān)特性。

      如圖1(b)所示,ConvLSTM單元與LSTM單元具有同樣的3個(gè)門(mén)控制單元和1個(gè)中心節(jié)點(diǎn),分別是:輸入門(mén)、遺忘門(mén)、輸出門(mén)和記憶細(xì)胞。最大的不同是在當(dāng)前時(shí)刻的輸入與短期記憶結(jié)合后進(jìn)行了單層卷積計(jì)算,這個(gè)不同點(diǎn)是提取空間結(jié)構(gòu)信息的關(guān)鍵。ConvLSTM可以描述為:

      it=σ(Wxi*Xt+Whi*Ht-1+bi),

      (7)

      ft=σ(Wxf*Xt+Whf*Ht-1+bf),

      (8)

      ot=σ(Wxo*Xt+Who*Ht-1+bo),

      (9)

      (10)

      (11)

      Ht=ot°tanhCt,

      (12)

      ParamConvLSTM=K×K×(Cin+Cout)×Cout×4.

      (13)

      在繼承全連接LSTM算法強(qiáng)大的時(shí)間相關(guān)性處理能力的基礎(chǔ)上,通過(guò)增加一層卷積結(jié)構(gòu)解決了原算法的空間數(shù)據(jù)冗余的問(wèn)題,實(shí)現(xiàn)了空間結(jié)構(gòu)的表征能力。

      2.3 3D卷積神經(jīng)網(wǎng)絡(luò)

      3D卷積神經(jīng)網(wǎng)絡(luò)在2D卷積神經(jīng)網(wǎng)絡(luò)[19]的基礎(chǔ)上改變而來(lái),主要運(yùn)用在視頻分類[16]、動(dòng)作識(shí)別[17]、醫(yī)療診斷[18]等領(lǐng)域。3D卷積是通過(guò)堆疊多個(gè)連續(xù)幀組成一個(gè)立方體,然后在立方體中運(yùn)用3D卷積核。通過(guò)這種結(jié)構(gòu),卷積層中的特征圖都會(huì)與上一層中的多個(gè)相鄰幀相連,從而捕獲運(yùn)動(dòng)信息。如圖2所示,一個(gè)特征圖某個(gè)位置的值是通過(guò)卷積上一層的連續(xù)三組特征圖的同一位置的局部感受野得到的。通過(guò)對(duì)連續(xù)的三組特征圖進(jìn)行卷積處理,得到一組3D的特征圖。

      圖2 相同的3D卷積核應(yīng)用于輸入視頻中的重疊立方體以提取運(yùn)動(dòng)特征[17]

      在構(gòu)造3D卷積層時(shí),首先建立一組小的3D卷積特征提取器,掃描輸入來(lái)獲取更高層次的特征表示。使用不同的卷積核與輸入特征做卷積操作來(lái)生成新的特征體。3D卷積操作的函數(shù)表示為:

      (14)

      2.4 采用注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)

      2.4.1 基于注意力機(jī)制的ConvLSTM

      為了研究不同的門(mén)控單元與注意力機(jī)制組合后的特性,本文使用了兩種卷積長(zhǎng)短時(shí)記憶單元的變體,由于結(jié)構(gòu)中引入了注意力機(jī)制[20],考慮到結(jié)構(gòu)的計(jì)算量會(huì)有所增加,且并不是所有門(mén)控單元都需要卷積操作,因此,兩種變體的結(jié)構(gòu)中將部分門(mén)控單元改為全連接操作。

      第一種變體,如圖3(a)所示,在ConvLSTM的基礎(chǔ)上,將ConvLSTM的遺忘門(mén)、輸出門(mén)的卷積操作改為全連接操作,由于輸入Xt和上一時(shí)刻的短期記憶Ht-1為二維張量特征映射,需要通過(guò)全局最大池化的方式將其變?yōu)橐痪S向量,并且在輸入門(mén)it中增加了注意力機(jī)制。并將這種結(jié)構(gòu)稱為基于輸入門(mén)注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶單元(Convolutional Long Short Term Memory based on Attention Mechanism of Input Gate, AIConvLSTM)。Sigmoid激活函數(shù)使門(mén)值處在0~1范圍內(nèi)。輸入門(mén)和其他門(mén)控單元可以重新定義為:

      (15)

      (16)

      Zt=Wi*tanh(Wxi*Xt+Whi*Ht-1+bi),

      (17)

      (18)

      (19)

      (20)

      (21)

      (22)

      (23)

      Ht=ot°tanhCt,

      (24)

      圖3 (a)輸入門(mén)注意機(jī)制的卷積長(zhǎng)短時(shí)記憶單元,(b)輸出門(mén)注意機(jī)制的卷積長(zhǎng)短時(shí)記憶單元

      第二種變體,如圖3(b)所示,也是在ConvLSTM的基礎(chǔ)上,將輸入門(mén)、遺忘門(mén)的卷積操作改為全連接操作,但是注意力機(jī)制位于輸出門(mén)的位置。將這種結(jié)構(gòu)稱為基于輸出門(mén)注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶單元(Convolutional Long Short Term Memory based on Attention Mechanism of Output Gate, AOConvLSTM)。輸出門(mén)和其他門(mén)控單元可以重新定義為:

      (25)

      (26)

      (27)

      (28)

      Zt=Wo*tanh(Wxo*Xt+Who*Ht-1+bo),

      (29)

      (30)

      (31)

      (32)

      (33)

      Ht=ot°tanhCt,

      (34)

      2.4.2 模型設(shè)計(jì)

      本文的網(wǎng)絡(luò)結(jié)構(gòu)引入了3D卷積核和帶有注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶單元。3D卷積核用于提取輸入圖像序列的時(shí)間和空間特征,而帶有注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶單元用于進(jìn)一步學(xué)習(xí)時(shí)空特征的關(guān)聯(lián)信息,并且過(guò)濾掉與任務(wù)無(wú)關(guān)的信息。如圖4所示,模型包含10個(gè)可調(diào)參數(shù)層,輸入層接收連續(xù)15幀尺寸為48×48的圖像序列。為了研究不同變體的卷積長(zhǎng)短時(shí)記憶單元的特性,本文將該模型作為主體架構(gòu)。

      第一階段,特征提取層,利用不同的3D卷積核對(duì)原始輸入的15幀連續(xù)圖像序列分別進(jìn)行卷積操作,初步提取多幀圖像關(guān)于弱小目標(biāo)運(yùn)動(dòng)軌跡的特征。3D卷積核的時(shí)間維為3,空間維為3×3,卷積核數(shù)為64,跨距和零填充都為1×1×1,后接ReLU激活函數(shù)和批標(biāo)準(zhǔn)化層。

      第二階段,雙支路3D卷積融合模塊,該模塊包含兩個(gè)3D卷積支路,共3個(gè)3D卷積層,每個(gè)卷積層后跟ReLU激活函數(shù)和批標(biāo)準(zhǔn)化層,兩個(gè)支路通過(guò)“串聯(lián)”操作進(jìn)行信息融合。其中一個(gè)支路包含一個(gè)3D卷積層和批標(biāo)準(zhǔn)化層,另一個(gè)支路包含兩個(gè)串聯(lián)的3D卷積層和批標(biāo)準(zhǔn)化層。這一階段的主要目的是通過(guò)兩個(gè)分支網(wǎng)絡(luò)對(duì)第一個(gè)3D卷積層得到的特征信息進(jìn)行提取和抽象,并通過(guò)“串聯(lián)”操作融合不同抽象程度的時(shí)空特征。該階段所有3D卷積核都采用時(shí)間維為3,空間維為3×3,卷積核數(shù)為64,跨距和零填充都為1×1×1的參數(shù)設(shè)置。

      圖4 基于注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)

      第三階段,3D卷積層,這一層采用時(shí)間維為3,空間維為3×3,卷積核數(shù)為32,跨距和零填充都為1×1×1的3D卷積核,后接ReLU激活函數(shù)。該層通過(guò)減小卷積核數(shù)量,進(jìn)一步抽象圖像序列的信息,有效減少特征圖的數(shù)量,并為下一卷積長(zhǎng)短時(shí)記憶模塊的輸入做準(zhǔn)備,降低計(jì)算時(shí)間。以上多層3D卷積層都學(xué)習(xí)到了局部的短期時(shí)空特征。

      第四階段,注意力卷積長(zhǎng)短時(shí)記憶(Convolutional Long Short-term Memory with Attention Mechanism, AConvLSTM)模塊,該模塊由兩層改進(jìn)的卷積長(zhǎng)短時(shí)記憶單元堆疊而成,用于學(xué)習(xí)圖像序列的長(zhǎng)期時(shí)空特征圖,能夠很好地模擬特征信息的時(shí)空關(guān)系。卷積核大小設(shè)置為3×3,跨距和零填充都為1×1,核數(shù)為32。由于在卷積核中都使用了“零”填充,因此AConvLSTM在不同階段的時(shí)空特征都具有相同的空間大小,即AConvLSTM的輸出特征圖空間尺寸依然為48×48。

      第五階段,3D卷積模塊,該模塊由3個(gè)3D卷積層組成。所有3D卷積核的時(shí)間維設(shè)置為3,空間維為3×3,跨距和零填充都為1×1×1,前兩層卷積核數(shù)為16,后接ReLU激活函數(shù)。由于弱小目標(biāo)軌跡檢測(cè)任務(wù)是一個(gè)二分類問(wèn)題,最后一層3D卷積層輸出網(wǎng)絡(luò)的預(yù)測(cè),因此,卷積核數(shù)為1,后接Sigmoid激活函數(shù)。

      2.4.3 模型實(shí)現(xiàn)

      本實(shí)驗(yàn)使用Google開(kāi)源的Keras框架來(lái)實(shí)現(xiàn),使用的訓(xùn)練數(shù)據(jù)集為仿真的視頻數(shù)據(jù),包括3 000個(gè)數(shù)據(jù)維度為48×48×15的紅外圖像序列,測(cè)試樣本來(lái)自5個(gè)紅外圖像序列。實(shí)驗(yàn)的硬件環(huán)境是:CPU為Intel(R) Xeon(R) Silver 4114 CPU @ 2.20 GHz,內(nèi)存為32 GB,系統(tǒng)類型為64位Windows10 操作系統(tǒng),網(wǎng)絡(luò)采用帶動(dòng)量參數(shù)的隨機(jī)梯度下降法進(jìn)行訓(xùn)練:

      (35)

      其中:mom為動(dòng)量參數(shù),Δwi是參數(shù)w第i輪的更新量,lri+1是當(dāng)前的學(xué)習(xí)率,L是損失函數(shù),wc是權(quán)重衰減系數(shù)。動(dòng)量參數(shù)可以加快收斂速度,這里動(dòng)量設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為0.000 5,總共迭代120代,初始學(xué)習(xí)率為0.001,每隔20代下降0.000 2,每一次學(xué)習(xí)的樣本數(shù)量(batch size)設(shè)置為2。使用的損失函數(shù)為交叉熵?fù)p失函數(shù),它是語(yǔ)義分割問(wèn)題中常用的損失函數(shù),其數(shù)學(xué)表達(dá)式為:

      (36)

      3 實(shí)驗(yàn)設(shè)置

      在本節(jié)中,本文提出的模型將在5個(gè)紅外圖像序列上進(jìn)行測(cè)試和評(píng)估。首先簡(jiǎn)要描述模型訓(xùn)練用到的訓(xùn)練數(shù)據(jù)集以及5個(gè)紅外圖像序列測(cè)試集。然后介紹了用于衡量模型性能的評(píng)價(jià)指標(biāo)。

      3.1 數(shù)據(jù)集描述

      本文所使用的訓(xùn)練數(shù)據(jù)集是在一段不含目標(biāo)的紅外視頻中,人工加入高斯信號(hào)構(gòu)造的仿真數(shù)據(jù)集。首先對(duì)每幅圖像隨機(jī)生成坐標(biāo)點(diǎn),提取48×48區(qū)域作為背景樣本。然后將二維高斯強(qiáng)度模型作為目標(biāo)樣本添加到背景樣本中。二維高斯模型如下:

      (37)

      其中:(x0,y0)是圖像目標(biāo)的中心,s(i,j)是目標(biāo)在圖像位置(i,j)的像素值。生成目標(biāo)的強(qiáng)度sE是介于0到1之間的隨機(jī)數(shù),σx和σy是高斯分布標(biāo)準(zhǔn)差。利用不同的參數(shù)可以產(chǎn)生不同信噪比的弱小目標(biāo),相鄰的兩幀圖像中的目標(biāo)中心間隔1個(gè)像元,每次生成連續(xù)的15幀圖像序列。本文生成的目標(biāo)信噪比介于1~5 dB,訓(xùn)練樣本如圖5所示。測(cè)試集是5個(gè)紅外圖像序列,用于驗(yàn)證所提算法的有效性,前3個(gè)序列來(lái)自真實(shí)序列,后兩個(gè)序列為仿真序列,其詳細(xì)描述如表1所示。

      圖5 紅外圖像序列仿真數(shù)據(jù)集

      表1 五個(gè)真實(shí)圖像序列的細(xì)節(jié)描述

      3.2 度量指標(biāo)

      實(shí)驗(yàn)使用了4種度量方法:均方根誤差,平均絕對(duì)誤差,峰值信噪比和結(jié)構(gòu)相似度。

      均方根誤差(Root Mean Square Error, RMSE)是預(yù)測(cè)值與真值偏差的評(píng)分和觀測(cè)次數(shù)比值的平方根,對(duì)一組測(cè)量中的特大或特小的誤差反映特別敏感。因此,均方根誤差能夠很好地反映出測(cè)量精密度。其數(shù)學(xué)表達(dá)式如下:

      (38)

      其中:Xij,Yij分別表示網(wǎng)絡(luò)輸出觀測(cè)圖像X和真值圖像Y中位于(i,j)位置像素的值,R,C分別表示圖像的高度和寬度。

      平均絕對(duì)誤差(Mean Absolute Error, MAE)是觀測(cè)值與真值絕對(duì)誤差的平均。平均絕對(duì)誤差由于離差被絕對(duì)值化,不會(huì)出現(xiàn)正負(fù)相抵消的情況。因而,平均絕對(duì)誤差能夠更好地反映預(yù)測(cè)值誤差的實(shí)際情況:

      (39)

      其中:變量Xij,Yij,R,C含義同RMSE一樣。RMSE相當(dāng)于L2范數(shù),MAE相當(dāng)于L1范數(shù)。次數(shù)越高,計(jì)算結(jié)果就越與較大的離差值有關(guān),而忽略較小的離差值。這就是RMSE針對(duì)預(yù)測(cè)值更加敏感的原因。

      峰值信噪比(Peak Signal to Noise Ratio, PSNR)是經(jīng)常用于圖像壓縮、超分辨率圖像重建等領(lǐng)域中信號(hào)重建質(zhì)量的評(píng)價(jià)方法,它通過(guò)均方根誤差進(jìn)行定義,單位為分貝(dB):

      (40)

      式中變量Xij,Yij,R,C含義同RMSE一樣。PSNR是最普遍和使用最為廣泛的一種圖像客觀評(píng)價(jià)指標(biāo),它是基于對(duì)應(yīng)圖像像素點(diǎn)的誤差,即基于誤差敏感的圖像質(zhì)量評(píng)價(jià)指標(biāo),數(shù)值越大表示失真越小。

      結(jié)構(gòu)相似度(Structural Similarity Index, SSIM)也是一種全參考的圖像質(zhì)量評(píng)價(jià)指標(biāo),它分別從亮度、對(duì)比度、結(jié)構(gòu)三方面度量圖像的相似性:

      (41)

      (42)

      (43)

      (44)

      (45)

      其中:μX,μY分別表示觀測(cè)圖像X和真值圖像Y像素的均值,R,C分別表示圖像的高度和寬度。σX,σY分別表示觀測(cè)圖像X和真值圖像Y的標(biāo)準(zhǔn)差,σXY表示圖像X和Y的協(xié)方差,為了避免分母為0,C1,C2通常設(shè)置為常數(shù),這里C1=(K1L)2,C2=(K2L)2,K1=0.01,K2=0.03,L=255。

      3.3 基準(zhǔn)模型

      為了分析注意力機(jī)制卷積長(zhǎng)短時(shí)記憶單元的特性,本文構(gòu)造了兩種不同的注意力卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型,第一個(gè)模型是將圖4架構(gòu)中的注意力卷積長(zhǎng)短時(shí)記憶模塊中的兩層AConvLSTM都替換為AIConvLSTM,稱這個(gè)模型為3D-AIConvLSTM,第二個(gè)模型是將圖4架構(gòu)中的兩層AConvLSTM都替換為AOConvLSTM,稱這個(gè)模型為3D-AOConvLSTM。另外構(gòu)造了兩種基準(zhǔn)模型與它們進(jìn)行了對(duì)比試驗(yàn)。第一個(gè)基準(zhǔn)模型是將圖4主體架構(gòu)中的兩層AConvLSTM替換為兩層時(shí)間維為3,空間維為3×3,核數(shù)為32,跨距和零填充都為1×1×1的3D卷積層,稱這個(gè)基準(zhǔn)模型為3DCNN。第二個(gè)基準(zhǔn)模型是將主體架構(gòu)中的兩層AConvLSTM都替換為ConvLSTM,稱這個(gè)模型為3D-ConvLSTM。

      圖6 四種模型在8個(gè)紅外短序列的弱小目標(biāo)軌跡提取結(jié)果

      4 實(shí)驗(yàn)結(jié)果分析與模型對(duì)比

      圖6展示了不同軌跡檢測(cè)方法對(duì)8個(gè)連續(xù)15幀紅外圖像短序列的軌跡提取結(jié)果,其中,紅色矩形框標(biāo)注了紅外圖像真實(shí)目標(biāo)的位置,粉色矩形框標(biāo)注了不同方法對(duì)目標(biāo)運(yùn)動(dòng)軌跡提取的結(jié)果(彩圖見(jiàn)期刊電子版)。第1列展示了8個(gè)短序列的首幀圖像,其中圖6中1-A與1-B為來(lái)自序列1的紅外圖像,2-C與2-D為來(lái)自序列2的紅外圖像,3-E與3-F為來(lái)自序列3的紅外圖像,4-G與5-H分別來(lái)自序列4、序列5的紅外圖像。第2列展示了對(duì)應(yīng)紅外短序列小目標(biāo)的真實(shí)運(yùn)動(dòng)軌跡,第3列至第6列分別展示了3DCNN方法、3D-ConvLSTM方法、3D-AIConvLSTM方法和3D-AOConvLSTM方法對(duì)8個(gè)短序列的檢測(cè)結(jié)果。

      由圖6可知,3DCNN方法的軌跡提取長(zhǎng)度要短于真實(shí)的運(yùn)動(dòng)軌跡,背景中殘留了大量的噪聲和雜波。3D-ConvLSTM方法提取的軌跡非常接近真實(shí)的目標(biāo)運(yùn)動(dòng)軌跡,但背景中殘留的噪聲和雜波要比3DCNN更多,特別是1-A,1-B,4-G,5-H的檢測(cè)結(jié)果,兩種方法都?xì)埩袅舜罅康碾s波和噪聲。3D-AIConvLSTM的結(jié)果顯示,其雜波殘留非常少,效果要優(yōu)于3DCNN和3D-ConvLSTM方法的結(jié)果,且提取的目標(biāo)運(yùn)動(dòng)軌跡也接近真實(shí)軌跡,但對(duì)于2-D和3-E的短序列處理結(jié)果,其軌跡出現(xiàn)了斷點(diǎn),即目標(biāo)運(yùn)動(dòng)軌跡不連續(xù)。3D-AOConvLSTM方法的處理結(jié)果,展示了其提取的目標(biāo)軌跡不僅非常接近真實(shí)軌跡,其連續(xù)的運(yùn)動(dòng)軌跡,效果要優(yōu)于3D-AIConvLSTM方法,背景中的噪聲和雜波也殘留非常少,效果優(yōu)于3DCNN方法和3D-ConvLSTM方法。因此,基于輸出門(mén)注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(3D-AOConvLSTM)能夠很好地提取復(fù)雜背景下弱小目標(biāo)的運(yùn)動(dòng)軌跡。

      為了客觀地描述本方法的優(yōu)勢(shì),本文還在5個(gè)紅外圖像序列,計(jì)算了均方根誤差(RMSE),平均絕對(duì)誤差(MAE),峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)等4個(gè)度量指標(biāo),用于衡量上述4種軌跡提取方法的性能,表2~表5展示了不同方法對(duì)于5個(gè)紅外圖像序列在4個(gè)度量指標(biāo)上的均值。

      表2 四種軌跡提取方法在不同序列上的均方根誤差

      表3 四種軌跡提取方法在不同序列上的平均絕對(duì)誤差

      表4 四種軌跡提取方法在不同序列上的峰值信噪比

      表5 四種軌跡提取方法在不同序列上的結(jié)構(gòu)相似度

      由表2~表5所示,基于輸出門(mén)注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(3D-AOConvLSTM)除了在序列1紅外圖像上的結(jié)構(gòu)相似度指標(biāo)上,與取得該指標(biāo)最優(yōu)值的3DAI-ConvLSTM方法僅相差0.000 2,在序列5紅外圖像上的均方根誤差和峰值信噪比取得次優(yōu)結(jié)果之外,在5個(gè)序列上的其他度量指標(biāo)均達(dá)到了最優(yōu)的結(jié)果。

      表6展示了4種軌跡方法的參數(shù)容量,2種基于注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),即3D-AIConvLSTM和3D-AOConvLSTM的參數(shù)數(shù)量最少,均只有432 560個(gè)參數(shù),少于3DCNN和3D-ConvLSTM的參數(shù)量。

      為了展示整個(gè)序列的弱小目標(biāo)運(yùn)動(dòng)軌跡,本文通過(guò)在時(shí)間維上疊加同一序列所有軌跡提取結(jié)果,繪制了軌跡平面,并且把出現(xiàn)3次以上非0像素點(diǎn)的位置設(shè)置為0,其展示結(jié)果如圖7所示(彩圖見(jiàn)期刊電子版)。第1列展示了5個(gè)序列的真實(shí)運(yùn)動(dòng)軌跡,第2列至第4列分別表示3DCNN,3D-ConvLSTM,3D-AIConvLSTM以及3D-AOConvLSTM方法對(duì)5個(gè)序列提取的完整軌跡,黃色圓圈標(biāo)注了處理結(jié)果的雜波部分,藍(lán)色圓圈標(biāo)注了軌跡的間斷部分。由圖7可知,序列1只包含一個(gè)運(yùn)動(dòng)目標(biāo),且運(yùn)動(dòng)軌跡為一條直線,序列2包含4個(gè)目標(biāo),運(yùn)動(dòng)軌跡比較隨意,序列3包含大量的運(yùn)動(dòng)目標(biāo),且軌跡交織在一起,部分目標(biāo)的運(yùn)動(dòng)軌跡不連續(xù),呈虛線狀態(tài)。序列4和序列5均各包含一個(gè)目標(biāo),并保持直線運(yùn)動(dòng)。3DCNN方法提取的軌跡呈虛線狀,軌跡間隔過(guò)大,背景中殘留了較多雜波噪聲。3D-ConvLSTM方法提取的軌跡與真實(shí)的軌跡相似,但是序列2和3的結(jié)果中仍然出現(xiàn)了軌跡間斷的部分,背景中殘留的雜波比3DCNN方法還要嚴(yán)重,特別是在序列4和序列5中,3DCNN和3D-ConvLSTM方法殘留了大面積的雜波背景,這主要是由序列中的強(qiáng)雜波和背景快速運(yùn)動(dòng)造成的。3D-AIConvLSTM方法得到的結(jié)果顯示背景噪聲很少,但序列3中部分目標(biāo)的運(yùn)動(dòng)軌跡沒(méi)有檢測(cè)出來(lái),造成了漏檢現(xiàn)象。3D-AOConvLSTM方法得到的軌跡與真實(shí)的軌跡最為相似,背景噪聲也很少,其軌跡檢測(cè)結(jié)果明顯優(yōu)于3DCNN,3D-ConvLSTM和3D-AIConvLSTM方法。

      本文通過(guò)控制變量的方式,在同一個(gè)主體架構(gòu)上,逐步替換網(wǎng)絡(luò)中的注意力卷積長(zhǎng)短時(shí)記憶模塊,由以上對(duì)比方法的實(shí)驗(yàn)結(jié)果可以看出,所有網(wǎng)絡(luò)層均為3D卷積核的3DCNN檢測(cè)到的軌跡表現(xiàn)為軌跡短、不連續(xù),未能檢測(cè)到目標(biāo)的全部軌跡信息,而在此基礎(chǔ)上替換了兩層3D卷積核的3D-ConvLSTM則檢測(cè)到真實(shí)軌跡的完整信息,表現(xiàn)為連續(xù)的完整軌跡,這就從實(shí)驗(yàn)結(jié)果上體現(xiàn)出3D卷積核只能提取序列的短期時(shí)空信息,正好印證了3D卷積核的結(jié)構(gòu)特性,即只能卷積相鄰的幾組特征體,而3D-ConvLSTM由于使用了ConvLSTM單元,其結(jié)構(gòu)上的循環(huán)特性保證了序列不斷的信息抽取,其軌跡檢測(cè)結(jié)果的完整性和連續(xù)性也驗(yàn)證了它的結(jié)構(gòu)特性。在3D-ConvLSTM的基礎(chǔ)上,本文又提出了3D-AIConvLSTM和3D-AOConvLSTM,它們?cè)贑onvLSTM單元中均使用了注意力機(jī)制,最大的不同就是在LSTM中添加的卷積操作位置不同,由3D-AIConvLSTM和3D-AOConvLSTM的對(duì)比實(shí)驗(yàn)可以看出,不同的卷積位置取得的軌跡檢測(cè)結(jié)果大不相同,在輸入門(mén)中加入卷積操作和注意力機(jī)制,由于輸入門(mén)控制著新記憶信息寫(xiě)入長(zhǎng)期記憶的程度,輸入數(shù)據(jù)被丟棄之后會(huì)直接進(jìn)入長(zhǎng)期記憶,并會(huì)進(jìn)一步與輸出門(mén)信息融合,形成短期記憶,使短期記憶保留的信息越來(lái)越少,在減少背景雜波的同時(shí),也相應(yīng)的丟失了目標(biāo)信息,而在輸出門(mén)中加入卷積操作和注意力機(jī)制,長(zhǎng)期記憶接收來(lái)自輸入門(mén)的信息,并融入了來(lái)自輸出門(mén)的信息,這也是3D-AOConvLSTM的軌跡要優(yōu)于3D-AIConvLSTM的原因。

      表6 四種軌跡提取方法的模型參數(shù)數(shù)量

      圖7 不同檢測(cè)方法在5個(gè)序列上的軌跡提取結(jié)果

      針對(duì)連續(xù)15幀的復(fù)雜紅外圖像序列,3D-AOConvLSTM方法利用3D卷積核提取短期的時(shí)空信息,利用AOConvLSTM單元提取時(shí)空信息的長(zhǎng)期信息,利用注意力機(jī)制丟棄大量的冗余時(shí)空信息,實(shí)現(xiàn)了對(duì)弱小目標(biāo)運(yùn)動(dòng)軌跡的有效提取?;谳敵鲩T(mén)注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)表現(xiàn)效果最好的原因,在于它將注意力機(jī)制放置在輸出門(mén)的位置,輸出門(mén)控制著短期記憶如何受長(zhǎng)期記憶影響,它能夠從長(zhǎng)期記憶中提取與任務(wù)相關(guān)的重要信息,并舍棄冗余信息,而基于輸入門(mén)注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層將注意力機(jī)制放置在輸入門(mén)的位置,控制著新記憶信息寫(xiě)入長(zhǎng)期記憶的程度,若長(zhǎng)期記憶中的重要信息被錯(cuò)誤的丟棄,那么后續(xù)時(shí)刻與任務(wù)相關(guān)的信息將永久消失,這就是將注意力機(jī)制放置在輸出門(mén)的優(yōu)勢(shì)。

      5 結(jié) 論

      本文通過(guò)結(jié)合3D卷積核、長(zhǎng)短時(shí)記憶單元以及注意力機(jī)制,設(shè)計(jì)了深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),建立了紅外圖像序列中多幀圖像與軌跡檢測(cè)之間的相關(guān)性,從大量時(shí)空信息中有選擇的篩選和任務(wù)相關(guān)的重要信息,同時(shí)忽略絕大部分冗余的信息,能夠應(yīng)用在近地小天體的探測(cè)和預(yù)警任務(wù)中。本文方法無(wú)需任何先驗(yàn)知識(shí),就能夠精確檢測(cè)到小運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)軌跡,解決了基于TBD軌跡搜索算法存在的需要事先獲取目標(biāo)灰度分布函數(shù)或運(yùn)動(dòng)速度等先驗(yàn)知識(shí)的問(wèn)題。與3DCNN,3D-ConvLSTM,3D-AIConvLSTM方法對(duì)比,基于輸出門(mén)注意力機(jī)制的卷積長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)紅外序列圖像中低于6 pixel弱小目標(biāo)的運(yùn)動(dòng)軌跡有效檢測(cè),檢測(cè)效果最好,背景噪聲殘留最少,在均方根誤差和平均絕對(duì)誤差上相對(duì)于3DCNN、3D-ConvLSTM和3D-AIConvLSTM方法平均降低了32.8%和46.3%,在峰值信噪比和結(jié)構(gòu)相似度上平均提高了18.3%和4.3%。

      猜你喜歡
      短時(shí)記憶紅外注意力
      基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的動(dòng)力電池剩余容量預(yù)測(cè)方法
      網(wǎng)紅外賣(mài)
      讓注意力“飛”回來(lái)
      閃亮的中國(guó)紅外『芯』
      金橋(2021年4期)2021-05-21 08:19:20
      TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
      電子制作(2019年7期)2019-04-25 13:17:14
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      短時(shí)記憶、長(zhǎng)時(shí)記憶對(duì)英語(yǔ)聽(tīng)力的影響
      基于快速遞推模糊2-劃分熵圖割的紅外圖像分割
      A Beautiful Way Of Looking At Things
      短時(shí)記憶理論的影響
      日照市| 广州市| 肥东县| 赣州市| 奉化市| 大石桥市| 屯留县| 天水市| 灯塔市| 五峰| 龙泉市| 迭部县| 富源县| 乌鲁木齐县| 祁阳县| 敦化市| 义乌市| 岑溪市| 白山市| 亚东县| 搜索| 石台县| 开阳县| 天全县| 鄂尔多斯市| 双峰县| 昌宁县| 黑水县| 新源县| 安龙县| 台北县| 漠河县| 和顺县| 安化县| 东阳市| 深州市| 昌平区| 木兰县| 龙江县| 新源县| 淮滨县|