梁煜,陳童,張為
(天津大學(xué) 微電子學(xué)院,天津 300072)
火災(zāi)是日常生活中最常見(jiàn)的災(zāi)害之一,一旦發(fā)生,會(huì)給人們的生命財(cái)產(chǎn)帶來(lái)巨大的威脅.因此,在火災(zāi)發(fā)生的初期進(jìn)行快速有效的檢測(cè)并進(jìn)行預(yù)警具有重大的意義.早期基于傳感器的火災(zāi)檢測(cè)方法受環(huán)境、空間的影響較大,且響應(yīng)時(shí)間長(zhǎng),局限性較大.隨著計(jì)算機(jī)視覺(jué)的發(fā)展,火焰檢測(cè)技術(shù)逐漸由基于傳感器的識(shí)別演變?yōu)閳D像檢測(cè)技術(shù),其檢測(cè)速度快,準(zhǔn)確率高,且能夠感知火災(zāi)發(fā)生的具體位置,逐漸成為火災(zāi)檢測(cè)的主流.
傳統(tǒng)的圖像檢測(cè)技術(shù)主要是利用機(jī)器學(xué)習(xí)算法,選擇火焰的顏色、運(yùn)動(dòng)以及閃爍頻率等特征進(jìn)行提取并分類(lèi)識(shí)別,進(jìn)而輸出火焰檢測(cè)結(jié)果.FOGGIA等[1]基于火焰的形狀、顏色和運(yùn)動(dòng)特性,設(shè)計(jì)了一個(gè)實(shí)時(shí)的火災(zāi)檢測(cè)系統(tǒng)模型.MUHAMMAD 等[2]使用了多種經(jīng)典分類(lèi)網(wǎng)絡(luò)分別來(lái)提取火焰特征,避免了繁瑣耗時(shí)的預(yù)處理過(guò)程,根據(jù)實(shí)際問(wèn)題提出了輕便高效的火災(zāi)檢測(cè)模型.YU 等[3]提出了一種用于火災(zāi)煙霧實(shí)時(shí)檢測(cè)的紋理分析方法,利用了火焰的紋理特征進(jìn)行識(shí)別.KHAN 等[4]提出一種結(jié)合火焰的顏色、邊界、面積、圓形度等特征的分類(lèi)模型,同時(shí)利用了火焰的靜態(tài)與動(dòng)態(tài)特征.但是上述方式均是基于人工提取特征,消耗時(shí)間長(zhǎng),且算法魯棒性低.
近年來(lái),基于深度學(xué)習(xí)技術(shù)的圖像型火災(zāi)檢測(cè)技術(shù)由于其準(zhǔn)確率高、速度快且受外界干擾小逐漸發(fā)展起來(lái).KIM 等[5]運(yùn)用了Faster R-CNN 檢測(cè)疑似火災(zāi)區(qū)域和非火災(zāi)區(qū)域,構(gòu)建了一種基于深度學(xué)習(xí)和視頻序列的火災(zāi)檢測(cè)方法.將卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于火焰特征提取,能夠使用戶(hù)獲得更加豐富的火焰特征信息,增強(qiáng)了對(duì)火焰的識(shí)別能力.皮駿等[6]將YOLOv5s 的主干網(wǎng)絡(luò)替換成Shufflenet v2,并加入CA 注意力模塊,讓骨干網(wǎng)絡(luò)對(duì)圖片信息的提取效率變得更快,在保持網(wǎng)絡(luò)精度的同時(shí)保證檢測(cè)速度,能滿(mǎn)足在白天、黑夜或視野良好等情況下對(duì)森林火災(zāi)的實(shí)時(shí)性預(yù)防與檢測(cè).葉銘亮等[7]結(jié)合Transformer 與深度學(xué)習(xí)算法并應(yīng)用于森林火災(zāi)檢測(cè)領(lǐng)域,在Swin Transformer 網(wǎng)絡(luò)結(jié)構(gòu)中對(duì)窗口自注意力機(jī)制進(jìn)行改進(jìn),采用了KNN 自注意力提高對(duì)小塊噪聲的識(shí)別,使用Augmentation 數(shù)據(jù)增強(qiáng)方法增加模型的泛化能力.
上述的檢測(cè)算法在火災(zāi)檢測(cè)任務(wù)中取得了不錯(cuò)的效果,但是也存在一些局限性,首先是實(shí)際場(chǎng)景下檢測(cè)效果不太理想,針對(duì)一些特定背景、特定形狀的火焰檢測(cè)效果好,但是不能很好地應(yīng)用于復(fù)雜場(chǎng)景,環(huán)境背景適應(yīng)性較差.其次,由于攝像頭遠(yuǎn)近以及火勢(shì)蔓延程度不同,火焰在圖片中呈現(xiàn)的尺度變化較大,算法對(duì)多尺度火焰檢測(cè)精度較低.
鑒于目前火焰檢測(cè)算法中存在的問(wèn)題,本文采用了Anchor Free 結(jié)構(gòu)設(shè)計(jì)了一種適用于實(shí)際場(chǎng)景的多尺度火災(zāi)檢測(cè)算法.該算法將主干網(wǎng)絡(luò)殘差模塊設(shè)置為多分支結(jié)構(gòu)并替換原本的3×3 卷積為自適應(yīng)注意力模塊提取出更具表達(dá)力的火焰特征,之后在特征融合網(wǎng)絡(luò)通過(guò)亞像素卷積減少信息丟失,并對(duì)高層特征進(jìn)一步增強(qiáng)融合,最后根據(jù)火焰形狀自適應(yīng)地產(chǎn)生正樣本用于之后的預(yù)測(cè),改進(jìn)GIoU Loss 以獲得更準(zhǔn)確的邊界框回歸.該算法能夠?qū)崟r(shí)檢測(cè)多尺度火焰目標(biāo),而且具有準(zhǔn)確率高、誤報(bào)率低等優(yōu)點(diǎn),適用于各種實(shí)際場(chǎng)景下的火災(zāi)檢測(cè)任務(wù).
本文構(gòu)建了如圖1 所示的火災(zāi)檢測(cè)算法,整體采用了無(wú)錨框網(wǎng)絡(luò)的基本形式.為了提取到更為豐富的火焰特征,選取經(jīng)典的特征提取網(wǎng)絡(luò)ResNet-50[8]作為基礎(chǔ)的主干網(wǎng)絡(luò),將殘差模塊設(shè)置為多分支結(jié)構(gòu),并添加自適應(yīng)注意力模塊用于關(guān)注通道信息以及選取適合的感受野.頸部網(wǎng)絡(luò)用于將高分辨率特征和強(qiáng)語(yǔ)義特征結(jié)合,本文首先引入了特征金字塔FPN[9]結(jié)構(gòu)用于融合不同層的特征.在此基礎(chǔ)上,通過(guò)亞像素卷積減輕通道縮減造成的信息缺失問(wèn)題,并引入特征增強(qiáng)模塊豐富特征解決了FPN 自上而下融合過(guò)程中導(dǎo)致的高層特征缺失問(wèn)題.
圖1 火災(zāi)檢測(cè)算法網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of fire detection algorithm
此外,檢測(cè)網(wǎng)絡(luò)分為兩個(gè)分支分別用于分類(lèi)和回歸,兩個(gè)分支都先經(jīng)過(guò)4 個(gè)卷積層進(jìn)行特征強(qiáng)化.之后,分類(lèi)分支再通過(guò)一個(gè)3×3 卷積得到的特征圖,該特征圖上每一個(gè)點(diǎn)對(duì)應(yīng)的值代表預(yù)測(cè)為火焰的概率,中心度分支預(yù)測(cè)當(dāng)前位置與要預(yù)測(cè)的目標(biāo)中心點(diǎn)的歸一化距離.在分類(lèi)網(wǎng)絡(luò)訓(xùn)練過(guò)程中,由于背景點(diǎn)數(shù)量較多會(huì)導(dǎo)致正負(fù)樣本不均衡,因此選用Focal Loss[10]作為分類(lèi)損失函數(shù),具體運(yùn)算如公式(1)所示,取γ=2 ,α=0.25.回歸分支生成的H×W×4特征圖預(yù)測(cè)錨點(diǎn)到檢測(cè)框上下左右四條邊界的距離.并用改進(jìn)后的GIoU Loss[11]作為回歸損失函數(shù).
火焰本身具有豐富的自身特征.例如,火焰顏色在實(shí)際場(chǎng)景中往往與周?chē)h(huán)境有較大的差異性.諸如溫度和燃燒物的材料都會(huì)影響火焰的顏色,顏色隨著溫度的升高而傾向于冷色,隨著溫度的降低而傾向于暖色.燃燒溫度的高低也會(huì)影響火焰飽和度和亮度的變化.此外,火焰形狀大小多變,受不同燃燒材料和燃燒環(huán)境的影響,火焰隨時(shí)間的蔓延程度也有很大不同.然而由于現(xiàn)有的主干網(wǎng)絡(luò)感受野大小有限并且缺乏跨通道之間的相互作用,往往不能很好地關(guān)注到火焰本身的特征,因此,本文對(duì)ResNet-50 主干網(wǎng)絡(luò)進(jìn)行了改進(jìn),以期網(wǎng)絡(luò)能在眾多背景點(diǎn)中更關(guān)注火焰的特征,提高檢測(cè)的準(zhǔn)確度.
本文將ResNet 主干網(wǎng)絡(luò)中的每一個(gè)殘差模塊設(shè)計(jì)成多分支結(jié)構(gòu),即用一種平行堆疊相同結(jié)構(gòu)的block,可以在不增加參數(shù)量級(jí)的基礎(chǔ)上提升模型的準(zhǔn)確率,同時(shí)還能減少超參數(shù)的數(shù)量,并添加注意力模塊.改進(jìn)前后的殘差模塊如圖2 所示,整體采用組卷積的形式,group 數(shù)為32,并將原本的3×3 卷積替換成本文設(shè)計(jì)的自適應(yīng)注意力模塊.
為了更好地適應(yīng)火災(zāi)尺度變化較大的特征,提升對(duì)于火災(zāi)的檢測(cè)效果,受SKNet[12]的啟發(fā),本文設(shè)計(jì)了如圖3 所示的自適應(yīng)注意力模塊,雙分支結(jié)構(gòu)可以對(duì)不同的輸入分配不同大小的感受野.與SKNet 不同的是,本文并沒(méi)有采用全連接的方式對(duì)通道嵌入空間信息,而是借鑒ECANet[13]的思想,采用局部跨通道交互的方式對(duì)通道分配權(quán)重,避免了降維對(duì)于學(xué)習(xí)通道注意的影響,自適應(yīng)地分配通道權(quán)重.2.2.1 節(jié)對(duì)比試驗(yàn)可以顯示本文提出的自適應(yīng)注意力模塊對(duì)于火焰檢測(cè)的效果優(yōu)于SKNet 和ECANet.該模塊整體結(jié)構(gòu)分為3×3 和5×5 兩個(gè)分支,對(duì)于H×W×C的輸入特征分別經(jīng)過(guò)這兩個(gè)分支之后進(jìn)行特征相加融合,此時(shí)得到的H×W×C的中間特征融合了不同感受野的上下文信息.該融合后的特征再經(jīng)過(guò)一個(gè)全局平均池化層(global average pooling, GAP)整合全局空間信息,并且與相鄰的5 個(gè)通道進(jìn)行跨通道交互,局部跨通道之間的交互可以使得網(wǎng)絡(luò)更關(guān)注有效的通道,此時(shí)得到的1×1×C的特征包含了豐富的通道信息.再通過(guò)歸一化函數(shù)Softmax 分配通道權(quán)重,該權(quán)重代表了每個(gè)通道對(duì)特征提取的影響力.通過(guò)保留更有價(jià)值的特征,從而達(dá)到提高特征表示能力的目的.最后再與原圖像相乘得到攜帶通道權(quán)重的輸出,兩部分相加即為最終自適應(yīng)注意力模塊的輸出.
圖3 自適應(yīng)注意力模塊的具體實(shí)現(xiàn)Fig.3 Concrete implementation of adaptive attention block
局部跨通道之間的交互是通過(guò)一個(gè)權(quán)重共享的卷積核大小為k的一維卷積實(shí)現(xiàn)的,在全局平均池化層之后的特征上進(jìn)行跨通道之間的交互,分配權(quán)重信息,對(duì)應(yīng)表達(dá)式如下:
式(2)為整體權(quán)重計(jì)算表達(dá)式,其中 ω代表通道權(quán)重,S代表SoftMax 激活函數(shù),C1Dk代表卷積核大小為k的一維卷積,k代表局部跨通道的覆蓋率.式(3)為單層特征權(quán)重計(jì)算的表達(dá)式, ωi為第i層特征yi對(duì)應(yīng)的權(quán)重,j表示通道, ωi是通過(guò)yi相鄰的k個(gè)通道計(jì)算得到的,代表了yi相鄰k個(gè)通道的集合.經(jīng)實(shí)驗(yàn)驗(yàn)證當(dāng)k= 5 時(shí)效果最好,因此本文設(shè)置超參數(shù)k為5,具體實(shí)驗(yàn)見(jiàn)2.2.1 節(jié).
自適應(yīng)注意力模塊的3×3 和5×5 兩個(gè)分支可以提供不同的感受野大小.而火焰在實(shí)際場(chǎng)景中由于距離攝像頭遠(yuǎn)近的不同以及蔓延程度的不同,在圖像中展示出的尺度不同.因此,網(wǎng)絡(luò)可以根據(jù)火焰不同尺度進(jìn)行自適應(yīng)的調(diào)整,對(duì)于不同輸入使用的卷積核感受野不同,參數(shù)權(quán)重也不同,可以自適應(yīng)地對(duì)輸出進(jìn)行處理,分配不同的感受野大小.考慮每個(gè)通道及其相鄰的5 個(gè)通道來(lái)捕獲跨通道交互,即每一層都關(guān)注和它相鄰的5 層通道的相互作用,通過(guò)分配權(quán)重表示了每個(gè)通道對(duì)特征提取的影響力.提升對(duì)當(dāng)前火災(zāi)檢測(cè)有用的特征圖通道的權(quán)重,抑制對(duì)當(dāng)前任務(wù)作用不大的特征通道,從而讓神經(jīng)網(wǎng)絡(luò)重點(diǎn)關(guān)注權(quán)重值大的通道,通過(guò)顯式的構(gòu)建卷積特征通道之間的相互依賴(lài)關(guān)系來(lái)提高網(wǎng)絡(luò)的表示能力.所以經(jīng)過(guò)自適應(yīng)注意力模塊,網(wǎng)絡(luò)不僅可以根據(jù)火焰本身尺度大小自適應(yīng)地選取感受野,還能夠自適應(yīng)地給定通道權(quán)重,更適于提取火焰特征.為了證明本文設(shè)計(jì)注意力模塊的有效性,與經(jīng)典的注意力機(jī)制進(jìn)行了對(duì)比試驗(yàn),具體實(shí)驗(yàn)結(jié)果見(jiàn)2.2.1 節(jié).
本文改進(jìn)后的整體主干網(wǎng)絡(luò)結(jié)構(gòu)和ResNet-50對(duì)比如表1 所示,改進(jìn)后的主干網(wǎng)絡(luò)更關(guān)注通道特征之間的關(guān)系,增加了有用通道的權(quán)重,抑制了不相關(guān)的特征信息.此外,網(wǎng)絡(luò)可以對(duì)不同尺度的火焰自適應(yīng)的選擇感受野大小,使得網(wǎng)絡(luò)的輸出特征更加豐富,提高了火焰特征提取網(wǎng)絡(luò)的魯棒性,有利于提高火焰檢測(cè)任務(wù)的檢測(cè)效果.
表1 改進(jìn)前后主干網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比Tab.1 Comparison of backbone structure before and after improvement
在實(shí)際火災(zāi)場(chǎng)景中,火焰離攝像頭遠(yuǎn)近不同或者火災(zāi)蔓延的程度都會(huì)導(dǎo)致火焰尺度有明顯的變化,這對(duì)算法模型的多尺度檢測(cè)能力提出了更高的要求.高層網(wǎng)絡(luò)感受野較大,語(yǔ)義信息表征能力強(qiáng),但空間信息表征能力較弱;而低層網(wǎng)絡(luò)感受野空間信息表征能力強(qiáng),語(yǔ)義信息表征能力弱.傳統(tǒng)的FPN 結(jié)構(gòu)通過(guò)自上而下的信息融合一定程度上改善了對(duì)于多尺度目標(biāo)的檢測(cè)效果,但是也存在以下兩點(diǎn)不足:
1) FPN 網(wǎng)絡(luò)初期為了提高計(jì)算效率采用1×1卷積進(jìn)行通道維度縮減時(shí)會(huì)導(dǎo)致嚴(yán)重的信息丟失,側(cè)重于在縮減后的256 個(gè)通道的特征金字塔Pi上開(kāi)發(fā)有效的模塊,但是沒(méi)有充分利用Ci豐富的通道信息.
2) 較低層次的特征映射通過(guò)自上而下的融合可以合并較高層次的語(yǔ)義信息,但是最高層次的特征只包含單一級(jí)別的上下文信息.
因此,為了更好地滿(mǎn)足多尺度火焰檢測(cè)的需求,本文在原有FPN 的基礎(chǔ)上添加了亞像素融合方法(sub-pixel conv),并且利用特征增強(qiáng)模塊(feature augmentation)對(duì)P5進(jìn)行特征增強(qiáng),以充分利用全局特征信息,提升對(duì)多尺度火焰的檢測(cè)能力.改進(jìn)后的FPN網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示.
圖4 特征增強(qiáng)FPN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Feature enhanced FPN network structure
其中{C2,C3,C4,C5}表示主干輸出,通過(guò)亞像素卷積生成{F2,F3,F4,F5}特征層,通道數(shù)減少為256,對(duì)應(yīng)輸入圖片的步長(zhǎng)為{4,8,16,32}.特征金字塔{P2,P3,P4,P5}通過(guò)FPN 中自上而下路徑生成,單獨(dú)對(duì)P5進(jìn)行了特征增強(qiáng),有效解決了最高層特征上下文信息單一的問(wèn)題.
主干網(wǎng)絡(luò)的高級(jí)特征{C4,C5}包含豐富的語(yǔ)義信息.但是傳統(tǒng)的FPN 結(jié)構(gòu)直接采用1×1卷積層來(lái)減少Ci的通道維數(shù),這導(dǎo)致了嚴(yán)重的通道信息丟失.而本文采用的亞像素融合是指采用亞像素卷積[14]的方法融合低分辨率特征和高分辨率特征,卷積過(guò)程如圖5 所示,它通過(guò)像素重組(shuffling pixels) 來(lái)增加寬度和高度的尺寸,而不是單純地通過(guò)補(bǔ)零進(jìn)行反卷積.將多通道特征圖上的單個(gè)像素組合成新特征上單位通道像素,這樣原特征圖上的每個(gè)像素就相當(dāng)于新的特征圖上的一個(gè)亞像素.其結(jié)果就是將尺度大小為H×W×C·r2的特征重新排列為rH×rW×C,其數(shù)學(xué)表達(dá)式如下:
圖5 亞像素卷積方法實(shí)現(xiàn)Fig.5 Implementation of subpixel convolution method
亞像素融合充分利用了{(lán)C4,C5}豐富的通道信息,并將它們合并到Fi中,如圖4 網(wǎng)絡(luò)架構(gòu)所示,亞像素卷積可以看作是C5、C4到F4、F3的兩個(gè)額外連接,同時(shí)進(jìn)行上采樣和通道融合,然后利用C5、C4豐富的通道信息增強(qiáng)特征金字塔的表達(dá)能力,彌補(bǔ)了因通道縮減導(dǎo)致的信息丟失.為了證明本文采用的亞像素卷積方法的優(yōu)勢(shì),在2.2.2 節(jié)進(jìn)行了對(duì)比試驗(yàn).
此外,在傳統(tǒng)的FPN 中,較低層次的特征映射通過(guò)合并較高層次的語(yǔ)義信息,自然地賦予不同的上下文信息.但是,最高級(jí)別的特征層P5只包含單一級(jí)別的上下文信息,而沒(méi)有從其他層級(jí)中受益.因此,本文設(shè)計(jì)了一個(gè)如圖6 所示的特征增強(qiáng)模塊(feature augmentation)用來(lái)豐富P5的通道信息.對(duì)F5特征進(jìn)行膨脹率為2, 4, 8, 16, 24 的空洞卷積提取不同感受野范圍的上下文,將每個(gè)空洞卷積層的輸出拼接到輸入特征圖上,然后再輸入到下一個(gè)空洞卷積層,并且空洞卷積之間采用了密集連接的形式,注入不同的空間上下文信息,強(qiáng)化了P5的特征表示.
圖6 特征增強(qiáng)模塊的具體結(jié)構(gòu)Fig.6 Specific structure of feature augmentation modules
改進(jìn)后的FPN 結(jié)構(gòu)融合后的特征被賦予多尺度的上下文信息,利用高層語(yǔ)義信息對(duì)低層特征進(jìn)行映射增強(qiáng),更好地利用了全局空間信息,使得網(wǎng)絡(luò)的輸出特征更加豐富,更有利于后續(xù)的多尺度目標(biāo)檢測(cè)過(guò)程.
標(biāo)簽分配在目標(biāo)檢測(cè)中有著重要的作用,傳統(tǒng)的標(biāo)簽分配方法例如FCOS[15]通過(guò)標(biāo)準(zhǔn)框中心點(diǎn)和鋪設(shè)點(diǎn)之間的距離和尺寸來(lái)確定正負(fù)樣本,目標(biāo)框內(nèi)的錨點(diǎn)作為候選樣本.這樣做忽略了具有不同大小和形狀的對(duì)象的劃分邊界可能會(huì)有所不同的事實(shí),限制了檢測(cè)器的學(xué)習(xí)能力.因此,為了適應(yīng)火焰形狀多變的特點(diǎn),本文引入了一種自適應(yīng)的選取樣本[16]的方法,依據(jù)中心點(diǎn)距離以及IoU 閾值的統(tǒng)計(jì)特性自動(dòng)劃分正負(fù)樣本.
離對(duì)象中心越近的錨點(diǎn)更有可能產(chǎn)生更高質(zhì)量的檢測(cè),所以首先根據(jù)錨框和對(duì)象之間的中心距離選擇候選對(duì)象.對(duì)于每個(gè)輸出的檢測(cè)層,計(jì)算錨框和目標(biāo)的中心點(diǎn)的L2距離,選取K個(gè)錨框離目標(biāo)中心點(diǎn)最近的錨框作為候選正樣本.其次計(jì)算每個(gè)候選正樣本和ground truth 之間的IoU,得到每組IoU 的均值和標(biāo)準(zhǔn)差.均值高表示具有高質(zhì)量的候選框,應(yīng)當(dāng)提高閾值來(lái)調(diào)整正樣本,同樣均值較低則應(yīng)該降低閾值.此外,標(biāo)準(zhǔn)差是用來(lái)衡量哪些層適合檢測(cè)該對(duì)象的,標(biāo)準(zhǔn)差高意味著高質(zhì)量的錨框集中在一層中,低標(biāo)準(zhǔn)差則表示多個(gè)層都適合該ground truth.所以將IoU 閾值設(shè)置為每組IoU 的均值和標(biāo)準(zhǔn)差之和,根據(jù)對(duì)象的統(tǒng)計(jì)特征,自動(dòng)選擇對(duì)應(yīng)特征層上合適的錨框,解決固定閾值對(duì)檢測(cè)器的限制.
FCOS 的采樣方式如圖7(a)所示,其結(jié)果較為固定,而且由于火焰形狀多變,會(huì)引入了大量的背景點(diǎn)作為正樣本加入訓(xùn)練,對(duì)模型的學(xué)習(xí)造成困擾.而本文引入的自適應(yīng)標(biāo)簽分配方法采樣方式如圖7(b)所示,能夠很好地適應(yīng)火焰自身形狀,篩選出更適合的正樣本,有效規(guī)避經(jīng)典采樣方式的弊端,對(duì)于火焰特征的學(xué)習(xí)更為充分,有效提升了不同環(huán)境背景下的火焰檢測(cè)能力,增強(qiáng)了算法的環(huán)境適應(yīng)性.
圖7 正樣本分配效果圖Fig.7 Positive sample distribution effect
在此基礎(chǔ)上,由于火災(zāi)形態(tài)尺度多變,對(duì)邊界框回歸也提出了更高的要求,GIoU Loss 在IoU 損失中引入懲罰項(xiàng)以緩解梯度消失問(wèn)題,可以較好的反應(yīng)相交情況,本文在現(xiàn)有的GIoU Loss 的基礎(chǔ)上引入了參數(shù)λ,改進(jìn)前后的損失函數(shù)如下.將λ應(yīng)用于IoU損失函數(shù)以及正則化項(xiàng),可以獲得更準(zhǔn)確的邊界框回歸,提高bbox 的回歸精度.改進(jìn)前后的GIoU Loss公式如下:
GIoU Loss 對(duì)應(yīng)λ=1 的情況,IoU 的梯度一直是-1.當(dāng)λ>1 時(shí),如果對(duì)應(yīng)IoU 大于0.5,損失梯度大于-1,可以加速收斂.因此,λ>1 可以增加了高IoU 目標(biāo)的損失和梯度,通過(guò)更多地關(guān)注高IoU 目標(biāo)來(lái)獲得高的bbox 回歸精度.而當(dāng)λ<1 時(shí),它降低了高IoU 目標(biāo)的權(quán)重,會(huì)影響bbox 的回歸精度.根據(jù)本文實(shí)驗(yàn)可得當(dāng)λ=3 時(shí)效果最好,具體實(shí)驗(yàn)過(guò)程見(jiàn)2.2.2 節(jié).
由于目前缺乏高質(zhì)量的火災(zāi)公共數(shù)據(jù)集,本文按照MS COCO 數(shù)據(jù)集格式要求自建了一個(gè)包含豐富環(huán)境背景的火災(zāi)數(shù)據(jù)集.數(shù)據(jù)集圖片搜集于實(shí)際火災(zāi)視頻、實(shí)驗(yàn)火災(zāi)視頻以及網(wǎng)絡(luò)上公開(kāi)火災(zāi)視頻等191 段視頻,共包含火災(zāi)圖像13 573 張,其中訓(xùn)練集10 014 張,測(cè)試集3 559 張.數(shù)據(jù)源涵蓋了地鐵站、停車(chē)場(chǎng)、超市、學(xué)校、工廠和寺廟等數(shù)百個(gè)場(chǎng)景,包括多種尺度形態(tài)的火災(zāi)圖像,大、中、小尺度圖像根據(jù)火焰標(biāo)準(zhǔn)框占圖像的像素點(diǎn)百分比劃分,圖像尺度越大在實(shí)際場(chǎng)景中代表火焰距離攝像頭越近或者蔓延程度越大.部分?jǐn)?shù)據(jù)集圖片如圖8 所示,包括室內(nèi)、室外、黑天和燈光、紅色物體、光線干擾等多種場(chǎng)景下的圖像,從左到右尺度由小到大,能夠充分驗(yàn)證本文提出的適用于實(shí)際環(huán)境的多尺度火災(zāi)檢測(cè)算法的有效性.此外,為了驗(yàn)證模型的泛化能力,本文在劃分測(cè)試集與訓(xùn)練集時(shí)選擇了不同場(chǎng)景.
圖8 部分?jǐn)?shù)據(jù)集火災(zāi)圖像Fig.8 Partial data set fire images
本文訓(xùn)練和測(cè)試的實(shí)驗(yàn)環(huán)境如表2 所示.采用隨機(jī)梯度下降優(yōu)化器進(jìn)行迭代訓(xùn)練,批訓(xùn)練規(guī)模為4,訓(xùn)練輪數(shù)為12 輪,動(dòng)量和權(quán)重衰減因子分別為0.9和0.000 1,初始學(xué)習(xí)率為0.001 25.學(xué)習(xí)率在第8 輪和第11 輪分別衰減為當(dāng)前學(xué)習(xí)率的10%.訓(xùn)練過(guò)程中采用隨機(jī)翻轉(zhuǎn)、隨機(jī)縮放及亮度變化等數(shù)據(jù)增強(qiáng)方式,增加訓(xùn)練的數(shù)據(jù)量,解決過(guò)擬合和樣本不平衡問(wèn)題,提高模型的泛化能力.
表2 實(shí)驗(yàn)環(huán)境參數(shù)Tab.2 Experimental environmental parameters
為了驗(yàn)證本文主干網(wǎng)絡(luò)中設(shè)計(jì)的自適應(yīng)注意力模塊、利用亞像素卷積和特征增強(qiáng)模塊改進(jìn)后的FPN 模塊以及自適應(yīng)標(biāo)簽分配包含改進(jìn)GIoU Loss的效果和對(duì)整體網(wǎng)絡(luò)的貢獻(xiàn),設(shè)計(jì)了消融實(shí)驗(yàn),整體實(shí)驗(yàn)結(jié)果如表3 所示.本文對(duì)模型綜合性能的評(píng)價(jià)指標(biāo)采用的是COCO 評(píng)價(jià)標(biāo)準(zhǔn)中的AP 和AP50,其中AP50代表IoU 閾值為0.5 時(shí)模型檢測(cè)的精度,即網(wǎng)絡(luò)輸出的檢測(cè)框與數(shù)據(jù)集標(biāo)注框IoU 大于0.5 則為預(yù)測(cè)正確;而AP 代表IoU 閾值取0.5~0.95 之間的10個(gè)值時(shí)模型檢測(cè)的精度的平均值.此外,采用COCO評(píng)價(jià)標(biāo)準(zhǔn)中的APl,APm和APs表征模型對(duì)大、中、小尺度目標(biāo)的檢測(cè)精度,衡量算法對(duì)多尺度火焰的檢測(cè)效果.以下是對(duì)各個(gè)模塊消融效果分析.
表3 整體網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果Tab.3 Results of global network ablation experiment
本文首先將主干網(wǎng)絡(luò)殘差模塊設(shè)置為多分支結(jié)構(gòu),并把殘差模塊中的3×3 卷積替換為本文設(shè)計(jì)的自適應(yīng)注意力模塊.如表3 實(shí)驗(yàn)結(jié)果顯示,嵌入自適應(yīng)注意力模塊之后,AP 由54.2%提升為55.3%,AP50由91.8%提升為92.9%,多尺度的檢測(cè)精度均有提升.由此可以證明本文設(shè)計(jì)的自適應(yīng)注意力模塊的有效性,可以根據(jù)火焰尺度自適應(yīng)選取感受野并自適應(yīng)分配通道權(quán)重,提升了特征提取能力.
本文在FPN 基礎(chǔ)上添加了亞像素融合之后,在原有精度基礎(chǔ)上各個(gè)尺度的檢測(cè)精度均有提升,如表3 所示,其中APs和APl增幅均超過(guò)了一個(gè)百分點(diǎn),證明了本文引入的亞像素融合可以充分利用高層特征圖豐富的通道信息,彌補(bǔ)因通道縮減造成的信息丟失.
在此基礎(chǔ)上進(jìn)行多尺度特征增強(qiáng)之后,整體火焰檢測(cè)精度進(jìn)一步提升,APs由54.0%上升為55.1%,APl由56.1%上升至57.8%.證明了本文設(shè)計(jì)的特征增強(qiáng)模塊的有效性,可以注入不同的空間上下文信息,增強(qiáng)特征金字塔的特征表達(dá)能力.
在原有改進(jìn)的網(wǎng)絡(luò)基礎(chǔ)上,采用自適應(yīng)采樣方式對(duì)模型進(jìn)行改進(jìn),整體網(wǎng)絡(luò)檢測(cè)精度以及各個(gè)尺度目標(biāo)的檢測(cè)精度均有提升,如表3 所示.其中AP50由94.1%上升到94.9%,證明了自適應(yīng)采樣方式對(duì)于火災(zāi)檢測(cè)任務(wù)的有效性,改進(jìn)后的標(biāo)簽分配利用統(tǒng)計(jì)特性作為閾值,克服了固定閾值對(duì)檢測(cè)器學(xué)習(xí)能力的限制,更適應(yīng)火焰形狀多變的特點(diǎn),可以有效提升不同環(huán)境背景下的火焰檢測(cè)能力.
2.2.1 自適應(yīng)注意力模塊
為了驗(yàn)證本文設(shè)計(jì)的自適應(yīng)注意力模塊的有效性,本文與SENet、SKNet 以及ECANet 注意力機(jī)制進(jìn)行了對(duì)比試驗(yàn).保持基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)不變,保持?jǐn)?shù)據(jù)集和實(shí)驗(yàn)環(huán)境配置不變,在其基礎(chǔ)上分別嵌入了不同的注意力模塊,實(shí)驗(yàn)結(jié)果如表4 所示.
表4 注意力機(jī)制對(duì)比試驗(yàn)結(jié)果Tab.4 Comparison experimentation results of the attention mechanism
通過(guò)表4 的結(jié)果,可以看到本文設(shè)計(jì)的自適應(yīng)注意力模塊對(duì)網(wǎng)絡(luò)檢測(cè)效果提升最為明顯,說(shuō)明本文設(shè)計(jì)的自適應(yīng)注意力模塊可以使得網(wǎng)絡(luò)不僅可以根據(jù)火焰本身尺度大小自適應(yīng)選取合適的感受野大小,并且可以給定通道不同的權(quán)重,提取到更適合的火焰特征,更有利于火災(zāi)檢測(cè)任務(wù).
此外,為得到對(duì)網(wǎng)絡(luò)提取特征更為有效的超參數(shù)k,本文在原網(wǎng)絡(luò)基礎(chǔ)上嵌入自適應(yīng)注意力模塊進(jìn)行了多次對(duì)比試驗(yàn),實(shí)驗(yàn)結(jié)果如圖9 所示,其中k為[4, 8]區(qū)間內(nèi)整數(shù).隨著k逐漸增大,AP 值先增加后下降.實(shí)驗(yàn)結(jié)果表明,k= 5 時(shí)網(wǎng)絡(luò)效果最好.因此本文在最終算法中固定k為5.
圖9 k 參數(shù)對(duì)比實(shí)驗(yàn)結(jié)果Fig.9 Comparison experimentation results of value k
2.2.2 自適應(yīng)注意力模塊
為了驗(yàn)證本文亞像素卷積上采樣方式對(duì)于彌補(bǔ)信息丟失的有效性,本文進(jìn)行了以下對(duì)比試驗(yàn).保持基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)以及實(shí)驗(yàn)環(huán)境配置不變,在原FPN基礎(chǔ)上將上采樣方式分別替換為雙線性插值和亞像素卷積,實(shí)驗(yàn)結(jié)果如表5 所示.
表5 上采樣方式對(duì)比試驗(yàn)結(jié)果Tab.5 Comparison of upsampling mode with experimental results
2.2.3 損失函數(shù)
為得到提升效果最好的損失參數(shù)λ,本文在不進(jìn)行其他改進(jìn)的基礎(chǔ)上進(jìn)行了多次對(duì)比試驗(yàn),分別取λ為[1, 6]區(qū)間內(nèi)整數(shù).λ為1 時(shí)代表GIoU Loss 損失函數(shù),實(shí)驗(yàn)結(jié)果如表6 所示.隨著λ逐漸增大,AP 值增加后趨于平穩(wěn)再逐漸下降,于3 處到達(dá)最高值.實(shí)驗(yàn)結(jié)果表明,調(diào)整λ的值會(huì)影響模型的檢測(cè)效果,且λ為3 時(shí)模型的檢測(cè)效果最好.因此本文在最終算法中固定λ為3.
表6 λ 參數(shù)取值對(duì)比試驗(yàn)結(jié)果Tab.6 Comparison of value λ with experimentation results
為了驗(yàn)證本文算法的有效性,保持實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)參數(shù)不變,在本文自建數(shù)據(jù)集上利用經(jīng)典的目標(biāo)檢測(cè)算法FCOS、RetinaNet 以及最新的目標(biāo)檢測(cè)算法YOLOF[17]、TOOD[18]和DETR[19]進(jìn)行了對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表7 所示.可以看出,本文算法在整體檢測(cè)精度和多尺度的檢測(cè)精度上均有更好的檢測(cè)效果.
表7 與經(jīng)典目標(biāo)檢測(cè)算法的對(duì)比實(shí)驗(yàn)結(jié)果Tab.7 Comparison of experimentation results with classical object detection algorithms
此外,為了證明本文算法的先進(jìn)性,和經(jīng)典的Anchor Free 目標(biāo)檢測(cè)算法FCOS 以及最新的目標(biāo)檢測(cè)算法YOLOF 和DETR 在檢測(cè)效果上進(jìn)行了對(duì)比,對(duì)比效果如圖10 所示.可以看出本文提出的算法在黑夜、白天以及有光斑、燈光干擾時(shí)檢測(cè)效果均優(yōu)于其他3 種算法,明顯抑制了實(shí)際場(chǎng)景中誤報(bào)漏報(bào)情況的發(fā)生,說(shuō)明本文算法抗干擾能力更強(qiáng),綜合性能更好.
圖10 不同場(chǎng)景多尺度火焰檢測(cè)效果對(duì)比圖Fig.10 Detection effect comparison of multi-scale flame in different scenes
為了進(jìn)一步驗(yàn)證本文提出算法模型的有效性,在火災(zāi)檢測(cè)常用的公開(kāi)數(shù)據(jù)集Mivia(http://signal.ee.ilkent.edu.tr/VisiFire/)上與一些常用的火災(zāi)檢測(cè)算法進(jìn)行了對(duì)比.Mivia 數(shù)據(jù)集由FOGGIA 等收集,涵蓋不同環(huán)境下的31 段視頻,其中火災(zāi)視頻14 段,非火災(zāi)視頻17 段,包含燈光、移動(dòng)物體以及紅色類(lèi)火物體等干擾環(huán)境,更適用于檢測(cè)模型的魯棒性.表8 展示了本文算法與經(jīng)典火災(zāi)算法在Mivia 數(shù)據(jù)集上準(zhǔn)確度(precision)、誤報(bào)率(false positive, FP)以及漏報(bào)率(false negative, FN)的性能評(píng)估結(jié)果,其他算法的數(shù)據(jù)均來(lái)源于原文獻(xiàn).誤報(bào)率代表假陽(yáng)性,即非火物體被預(yù)測(cè)為火的概率;漏報(bào)率即假陰性,即火災(zāi)目標(biāo)沒(méi)有被檢測(cè)出來(lái)的概率;而準(zhǔn)確率代表預(yù)測(cè)為火災(zāi)的樣本中有多少比例為真值.
表8 與經(jīng)典的火災(zāi)檢測(cè)算法對(duì)比實(shí)驗(yàn)結(jié)果Tab.8 Comparison of experimentation results with classical fire detection algorithms
基于以上實(shí)驗(yàn)結(jié)果,本文算法在檢測(cè)精度相比其他火災(zāi)檢測(cè)算法均具有優(yōu)勢(shì),并且漏報(bào)率為0,針對(duì)數(shù)據(jù)集中室內(nèi)、室外、黑夜、白天等多種環(huán)境下的多種尺度火災(zāi)都有較好的檢測(cè)效果,能夠?qū)崿F(xiàn)火災(zāi)的精準(zhǔn)定位和分類(lèi).此外,本文算法在也不易受光照、燈光和移動(dòng)物體等條件的影響,環(huán)境背景適應(yīng)性更強(qiáng),與其他算法相比更具有優(yōu)勢(shì),更能滿(mǎn)足實(shí)際火災(zāi)檢測(cè)的需要.
本文提出了一種適用于實(shí)際場(chǎng)景的多尺度火災(zāi)檢測(cè)算法,有效解決了當(dāng)前火災(zāi)檢測(cè)算法容易受外界干擾產(chǎn)生誤報(bào)漏報(bào)的問(wèn)題.將主干網(wǎng)絡(luò)殘差模塊設(shè)計(jì)為多分支結(jié)構(gòu),并嵌入自適應(yīng)注意力模塊提取到了更具表達(dá)力的火焰特征;通過(guò)亞像素卷積改進(jìn)了特征圖上采樣過(guò)程中出現(xiàn)的信息缺失問(wèn)題,并且添加了特征增強(qiáng)模塊豐富了最高層特征,提升了對(duì)多尺度火焰的檢測(cè)效果;采用自適應(yīng)標(biāo)簽分配適應(yīng)火焰自身形狀尺度,增強(qiáng)了算法的學(xué)習(xí)能力;對(duì)GIoU Loss 函數(shù)進(jìn)行了改進(jìn),獲得了更精確的邊界框回歸.
經(jīng)實(shí)驗(yàn)表明,與常用的目標(biāo)檢測(cè)算法和火災(zāi)檢測(cè)算法相比,本文提出的火災(zāi)檢測(cè)算法檢測(cè)精度高,抗干擾能力強(qiáng),能夠適用于實(shí)際場(chǎng)景下的不同形態(tài)的火災(zāi)檢測(cè)場(chǎng)景,具有較高的應(yīng)用價(jià)值.