融合細節(jié)特征與混合注意力機制的火災煙霧檢測

2022-07-07 01:55:04汪睿卿王慧琴王可

液晶與顯示 2022年7期

汪睿卿，王慧琴，王可

汪睿卿，王慧琴*，王可

（西安建筑科技大學信息與控制工程學院，陜西西安 710311）

針對卷積神經(jīng)網(wǎng)絡高層特征圖中細節(jié)特征被削弱造成煙霧圖像底層特征丟失的問題，提出一種融合細節(jié)特征與混合注意力機制的YOLOv4改進算法。設計了細節(jié)特征融合模塊，將主干網(wǎng)絡中的底層細節(jié)特征引入高層特征圖，得到具有豐富多尺度信息的融合特征。在通道和空間維度上采用混合注意力機制對融合特征的圖權(quán)重進行重新賦值，在增強煙霧目標特征的同時抑制無關區(qū)域特征，使煙霧特征表達具有更好的魯棒性。實驗結(jié)果表明，本文算法的平均精確率、精確率和召回率相比YOLOv4算法分別提高了4.31%，1.21%，9.86%，同時保持了較快的檢測速度。本文算法能夠有效提取煙霧目標的整體特征，對于復雜背景下的火災煙霧檢測任務更為適用。

煙霧檢測；深度學習；YOLOv4算法；特征融合；混合注意力機制

1 引言

當前，主流的火災探測方法仍然依靠傳統(tǒng)的傳感器來監(jiān)測特定物理量，如煙霧顆粒、環(huán)境溫度、相對濕度和輻射光強等。由于火災燃燒產(chǎn)物的生成和傳播需要一定時間，因此，此類探測器可能會產(chǎn)生響應延遲，且難以在大空間建筑和室外環(huán)境正常工作［1］?；馂牡脑缙陉幦茧A段常伴有煙霧生成，實時檢測火災煙霧可對火災的產(chǎn)生發(fā)出早期預警，及時發(fā)現(xiàn)早期火情，避免了因燃燒產(chǎn)物的傳播造成的檢測滯后，其檢測范圍相較傳統(tǒng)傳感器也更廣，適用于大空間建筑和室外環(huán)境的火災檢測。此外，這種檢測方式可節(jié)約大量人力資源并消除了人的主觀錯誤判斷對火災預警的影響。

基于傳統(tǒng)計算機視覺算法的視頻煙霧檢測主要可分為如下幾個階段：圖像預處理、疑似區(qū)域提取、煙霧特征描述和煙霧識別［1］。Kim［2］等人利用高斯混合模型（Gaussian Mixture Model， GMM）作為背景估計算法提取煙霧區(qū)域，采用Adaboost算法檢測候選區(qū)域的煙霧，在室外煙霧檢測中取得了較好效果。Zhao［3］等人利用卡爾曼濾波分割候選煙霧區(qū)域并采用局部二元模式（Local Binary Motion Pattern， LBMP）定義煙霧的紋理特征，提出了一種基于動態(tài)紋理特征的煙霧檢測算法。Wang［4］等人采用基于模糊邏輯的數(shù)據(jù)增強策略增強了圖像的灰度動態(tài)范圍，提取并融合了煙霧圖像的靜態(tài)和動態(tài)特征，將這些特征向量歸一化并輸入到支持向量機（Support Vector Machine， SVM）模型中進行識別。為有效提取煙霧圖像的紋理特征，Ye［5］等人將視頻幀序列視作獨立的多維數(shù)據(jù)，設計了一種融合Surfacelet變換和3D-隱馬爾可夫樹模型（Hidden Markov Tree， HTM）的煙霧動態(tài)特征描述子，這種特征描述子更接近煙霧圖像動態(tài)紋理的本質(zhì)特征。

上述視頻煙霧檢測方法基于人工設計復雜的煙霧特征，人工設計的煙霧特征在很大程度上依賴于設計者的先驗知識，具有較強的可解釋性但是泛化性很差，僅適用于簡單的火災場景［6］。卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network， CNN）作為最重要的深度學習模型之一，具有良好的特征提取能力和泛化能力，隨著硬件算力的提升和大規(guī)模數(shù)據(jù)集的出現(xiàn)，卷積神經(jīng)網(wǎng)絡的工程化應用得以實現(xiàn)，成為計算機視覺領域的主流方法之一［7-8］。Tao［9］等人基于AlexNet［10］設計了一個端到端的火災煙霧識別網(wǎng)絡，在測試集上實現(xiàn)了99.4%的檢測率，優(yōu)于傳統(tǒng)檢測算法。為緩解訓練樣本不平衡造成的過擬合，Yin［11］等人將批量歸一化（Batch Normalization， BN）引入煙霧識別網(wǎng)絡，有效提高了識別精度。為了提高特征提取效果，Gu［12］等人提出了一個由兩個子網(wǎng)絡組成煙霧檢測網(wǎng)絡，并以串行形式融合兩個子網(wǎng)絡的輸出。隨著卷積神經(jīng)網(wǎng)絡的發(fā)展，諸多性能優(yōu)異的目標檢測網(wǎng)絡也被應用到火災煙霧檢測中。He［13］等人將Faster R-CNN［14］中的特征提取網(wǎng)絡替換為深度殘差網(wǎng)絡（Residual Network， ResNet）［15］并將特征金字塔網(wǎng)絡（Feature Pyramid Network， FPN）集成到區(qū)域候選網(wǎng)絡（Regional Proposal Networks， RPN）中，相比原始算法在煙霧和火焰的識別精度上均有提高。端到端的單階段檢測算法結(jié)構(gòu)簡單，具有較強的實時性。Cai［16］等人通過將通道注意力模塊和正則化模塊引入 YOLOv3［17］提出了YOLO-SMOKE算法，在提高了精確率的同時增強了算法的魯棒性。Gagliardi［18］等人將卡爾曼濾波器和改進的輕量級SSD［19］算法相結(jié)合，設計了一個級聯(lián)的端到端煙霧檢測算法，在嵌入式設備上實現(xiàn)了較快的檢測速度。吳凡［20］等人通過改進三維卷積神經(jīng)網(wǎng)絡，提出了一種時空域煙霧檢測算法，引入了時域變化特征，提高了煙霧檢測準確率。

卷積神經(jīng)網(wǎng)絡可以獲取豐富的圖像特征，其中底層特征圖包含了圖像的紋理、邊緣等細節(jié)特征，高層特征圖則保留了抽象的語義信息［21］。在火災煙霧檢測任務中，底層細節(jié)特征有利于煙霧目標準確定位，高層語義特征則有利于煙霧目標正確分類。隨著網(wǎng)絡層數(shù)的增加，特征圖包含的高層語義信息愈發(fā)抽象，同時分辨率降低，特征圖中關于煙霧目標的底層細節(jié)特征將會被削弱。

本文提出了一種基于YOLOv4（You Only Look Once version4）［22］網(wǎng)絡的火災煙霧檢測算法，通過融合特征提取網(wǎng)絡CSPDarknet53各層級特征圖，得到同時具有細粒度特征和語義信息的特征表示，并結(jié)合CBAM混合注意力機制［23］在融合后特征圖的空間和通道維度上進行權(quán)重重新分配。實驗結(jié)果表明，本文算法在保持較快檢測速度的同時提高了火災煙霧的檢測精度。

2 YOLOv4算法

作為YOLO系列算法的后續(xù)版本，YOLOv4算法繼承了前代算法的思想，將目標檢測任務視作回歸問題構(gòu)建了一個端到端的網(wǎng)絡模型，在檢測速度和檢測精度上均有優(yōu)異表現(xiàn)。YOLOv4的網(wǎng)絡結(jié)構(gòu)如圖1所示，其主要由CSPDarknet53（Cross Stage Partial Connections Darknet53）、空間金字塔池化（Spatial Pyramid Pooling， SPP）［24］、路徑聚合網(wǎng)絡（Path Aggregation Network， PANet）［25］和YOLO檢測頭（YOLO Head）等部分組成。其中，基于Darknet53［17］特征提取網(wǎng)絡并引入CSPNet（Cross Stage Partial Network）［26］思想提出了新的骨干網(wǎng)絡CSPDarknet53。CSPDarknet53共有5個CSPDarknet模塊，生成的5個層級特征圖對應原始輸入的下采樣率分別為2，4，8，16，32，特征圖對應的通道數(shù)分別為64，128，256，512，1 014。YOLOv4算法的頸部（Neck）由SPP和 PANet結(jié)構(gòu)組成，PANet使用了更短的路徑對特征圖進行融合，SPP模塊通過最大池化（Max Pooling）操作增大了感受野，在高層特征圖融合了全局特征和局部特征。

圖1　YOLOv4 網(wǎng)絡結(jié)構(gòu)圖

3 融合細節(jié)特征與混合注意力機制的火災煙霧檢測算法

更深層的卷積可提高卷積神經(jīng)網(wǎng)絡的語義表達和特征提取能力，然而高層特征圖中關于圖像的細節(jié)特征將會被削弱，不利于目標的有效定位，而且真實火災煙霧場景中的復雜背景和遮擋將會對煙霧檢測造成干擾。本文通過提取CSPDarknet53特征提取網(wǎng)絡生成的5個層級的特征圖，將淺層細節(jié)特征融合至高層特征圖，獲得具有豐富多尺度信息的高質(zhì)量煙霧特征。隨后，使用混合注意力機制對融合后特征圖在通道域和空間域進行權(quán)重重新分配，使得無效背景信息被進一步抑制，提高了煙霧目標區(qū)域的特征表達效果，增強了網(wǎng)絡特征表達的魯棒性。

3.1　煙霧細節(jié)特征提取與融合

CSPDarknet53特征提取網(wǎng)絡由Darknet53網(wǎng)絡改進而來，其中包括5個CSPDarknet結(jié)構(gòu)，對應輸出5個層級不同尺寸的特征圖。YOLOv4算法中提取3個高層的特征圖將其輸入至PANet中進行融合，最后經(jīng)過YOLO Head結(jié)構(gòu)得到輸出結(jié)果。通用的目標檢測算法旨在處理多類別的目標檢測任務，底層的細節(jié)特征如紋理、邊緣和輪廓等不足以有效區(qū)分不同類目標，因此也較少被直接用于表征目標特征信息?；馂臒熿F檢測是一種單類別目標檢測，圖像底層的細節(jié)特征有利于區(qū)分煙霧目標和圖像背景；此外，常見的煙霧場景多樣復雜，煙霧的擴散也會造成特征的不明顯。為增強煙霧區(qū)域特征，設計了一個細節(jié)特征融合模塊（Detailed Feature Fusion Module， DFF），通過統(tǒng)一特征圖的尺寸將底層特征圖和高層特征圖在通道維度進行拼接，實現(xiàn)了細節(jié)特征與語義特征的融合，如圖2所示。

圖2　細節(jié)特征融合模塊

細節(jié)特征融合模塊是由兩個特征金字塔（Feature Pyramid Networks）［27］結(jié)構(gòu)組成的特征金字塔網(wǎng)絡。兩個特征金字塔分別為自頂向下（Top-down）支路和自底向上（Bottom-up）支路，同時接收底層特征圖和高層特征圖，對尺寸較大的底層特征圖采用最大池化（Max Pooling）操作進行下采樣，對尺寸較小的高層特征圖以雙線性插值法（Bilinear Interpolate）進行上采樣，分別生成兩個尺寸一致的特征圖。常見的特征融合方式主要包括通道拼接、逐元素相乘和逐元素相加3種形式，為避免特征金字塔獲取的細節(jié)特征被高層特征覆蓋造成細節(jié)特征丟失，對生成的特征圖采用通道拼接的方式進行融合，得到信息更豐富的強魯棒性多尺度特征。以底層特征圖和高層特征圖分別經(jīng)過兩次下采樣和上采樣為例，細節(jié)特征融合模塊可表示為式（1）：

其中：和分別表示輸入特征金字塔底層和高層特征圖；和分別表示最大池化運算和雙線性插值，下標和表示下采樣和上采樣中的尺度因子；表示沿通道維度拼接操作，融合過程如圖3所示。

以實驗中設置的輸入圖片尺寸（416，416，3）為例，CSPDarknet53特征提取網(wǎng)絡共生成了5個尺寸分別為（208，208，64），（104，104，128），（52，52，256），（26，26，512），（13，13，1 024）的特征圖，分別為scale1，scale2，scale3，scale4，scale5。scale5是CSPDarknet53網(wǎng)絡經(jīng)特征映射輸出的最高層特征圖，其通道維長度為1 024，具有豐富的語義信息；但是scale5特征圖的分辨率較低，其長寬均為13，缺乏足夠的細節(jié)特征。因此本文選擇將scale5特征圖同最底層特征圖scale1相融合，使用最短路徑引入細節(jié)特征，以獲得更豐富的具有尺度差異的特征表達并盡可能保留原始特征，同理特征圖scale2和scale4相融合。具體來看，DFF模塊1同時輸入特征圖scale2和特征圖scale4，首先分別對這兩個特征圖進行兩次尺度因子為2的下采樣和上采樣，經(jīng)過卷積操作將通道數(shù)調(diào)整為128，最后在通道維度進行拼接生成了尺寸為（52，52，256）的融合特征圖；DFF模塊2則對scale1和scale5特征圖進行了融合，得到的融合特征圖尺寸同DFF模塊1。

表1細節(jié)特征融合模塊參數(shù)設置

Tab.1　Parameters setting of DFF modules

3.2　基于混合注意力機制的煙霧特征魯棒性增強

通過細節(jié)特征融合可將煙霧圖像底層細節(jié)特征引入高層特征圖，但是通過通道拼接方式得到的特征圖可能會帶來冗余信息及無關背景信息，因此引入注意力機制對融合特征圖進行權(quán)重重新分配，以提升煙霧特征的表達效果，增強網(wǎng)絡特征表達的魯棒性。注意力機制通過調(diào)整特征圖的權(quán)重達到抑制無關區(qū)域特征和增強目標區(qū)域特征的目的，提高了網(wǎng)絡的特征表達效果。卷積神經(jīng)網(wǎng)絡中的注意力機制可分為通道注意力機制、空間注意力機制和混合注意力機制3種。通道注意力和空間注意力分別在通道域和空間域?qū)μ卣鲌D加以權(quán)重，混合注意力機制則兼顧這兩點。本文在此處采用的CBAM［20］是一種典型的混合注意力機制，通過池化操作獲得通道域和空間域權(quán)重，并以串行形式將這兩部分權(quán)重與輸入特征圖進行逐元素相乘，如圖4所示。

此外，為了緩解混合注意力機制中特征映射過程造成的特征丟失，避免出現(xiàn)網(wǎng)絡退化問題，本文對輸入混合注意力機制的特征圖通過殘差連接方式（Shortcut Connections）［15］同混合注意力機制的輸出特征圖進行逐元素相加，如式（5）所示：

生成最終的殘差混合注意力特征圖。

CBAM機制的細節(jié)特征融合模塊（Detailed Feature Fusion module with CBAM， DFF-CBAM）由DFF模塊和CBAM模塊串聯(lián)組成，如圖5所示。DFF-CBAM模塊中對DFF輸出的特征圖分別在通道域和空間域加以權(quán)重，融合了煙霧圖像底層細節(jié)特征并對特征圖通道間和空間位置的特征分布進行了學習，在煙霧特征得到進一步強化的同時對背景干擾信息進行了抑制，使得圖像中煙霧區(qū)域特征對網(wǎng)絡輸出結(jié)果具有更大的貢獻，得到了更具魯棒性的特征表達。

圖5　引入CBAM的細節(jié)特征融合

3.3　網(wǎng)絡整體結(jié)構(gòu)

本文算法的網(wǎng)絡結(jié)構(gòu)如圖6所示，算法的主干網(wǎng)絡為CSPDarknet53特征提取網(wǎng)絡，頸部由引入CBAM的細節(jié)特征融合模塊（DFF-CBAM）和PANet組成，頭部由YOLO Head組成。輸入圖像經(jīng)CSPDarknet53得到5個不同尺寸的特征圖，底層的特征圖scale1和scale2分別通過DFF-CBAM模塊與高層的scale5和scale4融合，得到的融合特征圖引入了底層細節(jié)特征同時在空間域和通道域?qū)?quán)重進行了重新賦值，對圖像煙霧區(qū)域特征進行增強，生成了信息更豐富且更具魯棒性的特征表達。隨后，融合特征圖和CSPDarknet53輸出的scale3特征圖依次經(jīng)過PANet和YOLO Head結(jié)構(gòu)得到最終的多尺度預測結(jié)果。本文算法中提出的DFF-CBAM模塊直接將底層特征圖和高層特征進行融合，保留了更多的原始特征，得到了信息更豐富的融合結(jié)果。本文算法移除了SPP模塊，減少了冗余操作并降低了模型參數(shù)量。

圖6　網(wǎng)絡整體結(jié)構(gòu)

4 實驗設計與分析

本文實驗的硬件環(huán)境為AMD Ryzen9 5900x處理器，32 GB內(nèi)存，NVIDIA GeForce RTX3090顯卡；軟件環(huán)境為Windows 10操作系統(tǒng)，Pytorch 1.8.1深度學習框架，CUDA 11.1，Python 3.6。

4.1　實驗數(shù)據(jù)集和參數(shù)設置

訓練中采用自適應動量估計（Adaptive Moment Estimation， Adam）優(yōu)化器，批量大?。˙atch Size）設置為16，初始學習率設置為0.001，每個訓練周期（Epoch）結(jié)束后學習率調(diào)整為上一次的0.92倍。

4.2　評價指標

本文采用精確率（Precision）、召回率（Recall）和平均精確率均值（mAP）對模型進行評估，因本文檢測目標為單類別目標，故mAP即為平均精確率（AP），公式如下：

4.3　檢測結(jié)果

本文算法的檢測結(jié)果示例如圖7所示，包括了室內(nèi)火災煙霧、室內(nèi)燈光干擾下煙霧、室外小目標煙霧、室外復雜背景煙霧、森林火災煙霧和夜間火災煙霧等常見火災煙霧場景。結(jié)果表明，在多個實際場景中，本文算法均能以較高置信度準確檢測出完整的煙霧目標。

圖7　檢測結(jié)果示例。（a）室內(nèi)煙霧；（b）室內(nèi)燈光干擾煙霧；（c）室外小目標煙霧；（d）室外復雜背景煙霧；（e）森林火災煙霧；（f）夜間火災煙霧。

實驗中發(fā)現(xiàn)，部分室外煙霧目標易受類煙物體干擾，訓練集的完備性也對網(wǎng)絡訓練有較大的影響，因此算法在少數(shù)測試樣本上的檢測結(jié)果并未達到預期。典型的未成功檢測圖像如圖8所示，圖中煙霧目標整體輪廓較模糊，且和昏暗的天空背景相連，難以有效區(qū)分；煙霧區(qū)域內(nèi)多呈半透明的白色，缺少足夠的紋理特征，易受植被和裸露的巖石等干擾。因此，在這種情況下，算法對于煙霧目標的整體把握較差，即使檢測出的部分煙霧目標其置信度也較低，不能判定為成功檢測。

圖8　未成功檢測圖像

4.4　消融實驗

為充分說明本文算法中設計和改進的模塊對火災煙霧檢測效果的影響，設計消融實驗以驗證各模塊的有效性，實驗結(jié)果如表2所示。

表2消融實驗結(jié)果

Tab.2　Experimental results of ablation study

消融實驗中除YOLOv4算法以外均刪去SPP模塊。加入DFF模塊后，在引入煙霧圖像細節(jié)特征的同時也帶來部分背景無關信息，使得算法精確率相比于YOLOv4算法下降了1.62%，但召回率提升了7.2%。加入CBAM模塊后，算法更聚焦于煙霧目標區(qū)域，使得精確率相較于YOLOv4算法提升了1.16%，同時召回率也得到了提升。值得注意的是，實驗中在刪去SPP模塊并加入CBAM模塊之后，檢測速度比原始YOLOv4算法更快，這也表明了CBAM機制在引入較少參數(shù)的情況下有效提升了模型性能。

4.5　對比實驗

為全面評估本文算法的有效性，設計實驗與當前主流的深度學習目標檢測算法和基于深度學習的火災煙霧檢測算法進行對比，實驗結(jié)果如表3所示。

表3與其他檢測算法性能對比

Tab.3　Performance comparison with other algorithms

實驗結(jié)果中，本文算法的精確率、召回率和平均精確率均優(yōu)于對比算法，檢測速度相較于改進前的YOLOv4算法略有下降，但優(yōu)于兩階段目標檢測算法。文獻［29］和文獻［30］分別基于單階段算法SSD和YOLOv4針對煙霧檢測任務進行改進，檢測性能相較原始算法均有提升。其中文獻［29］中采用了遞進池化和反卷積操作指導特征提取和融合。文獻［30］則采用嵌入通道注意力機制的方式增強了YOLO檢測頭的信息提取能力。

圖9為YOLOv4算法和本文算法的PR曲線圖，圖中陰影面積即為平均精確率。通過細節(jié)特征融合和引入注意力機制，本文算法在相同實驗條件下相比于YOLOv4算法的平均精確率提高了4.31%。

圖9　PR曲線。（a） YOLOv4算法PR曲線；（b）本文算法PR曲線。

圖10和圖11分別為精確率曲線和召回率曲線圖，計算精確率和召回率時設置置信度閾值為0.5。本文算法的精確率和召回率相比于YOLOv4算法分別提高1.21%和9.86%。圖11的召回率曲線顯示，隨著置信度閾值的提高，本文算法的召回率相比于YOLOv4有了更大的提升，這表明本文算法對于難分煙霧樣本有更好的檢測效果。綜合上述對比結(jié)果可知，本文算法在煙霧檢測方面具有更好的性能。細節(jié)特征融合增強了煙霧圖像的特征表達效果，提升了算法對煙霧目標的定位能力；同時注意力機制可抑制無關的圖像背景特征并對煙霧特征賦予更大的權(quán)重，減少了檢測結(jié)果中假負例的數(shù)量，從而使得召回率相比于改進前有明顯提高。

圖10　精確率曲線

圖11　召回率曲線

4.6　可視化分析

為了進一步分析本文算法在煙霧圖像特征表達上相較YOLOv4算法的優(yōu)勢，設計了特征圖可視化對比實驗并利用CAM［31］方法繪制熱力圖。

圖12是網(wǎng)絡中5個層級特征圖的可視化對比實驗結(jié)果，分別為scale1、scale2、YOLO Head1、YOLO Head2和YOLO Head3，對應尺寸大小為（208，208），（104，104），（52，52），（26，26），（13，13）。特征圖隨著網(wǎng)絡層數(shù)的加深尺寸逐漸變小，并在運算過程中逐漸將細節(jié)特征映射到高層語義特征。圖12中本文算法的底層特征圖相較于YOLOv4算法提取了更多明顯的細節(jié)信息，如紋理和邊緣輪廓等。隨著感受野的增大，細節(jié)信息逐漸稀疏化，特征圖分辨率降低，紋理和輪廓等愈發(fā)難以辨認，但是語義信息得到進一步增強，在目標區(qū)域中心形成聚焦并逐步映射至目標整體區(qū)域。在高層特征圖中，得益于混合注意力機制對特征圖空間維度和通道維度權(quán)重的重新分配，本文算法在煙霧目標中心區(qū)域產(chǎn)生了更高的激活值，且激活值的分布范圍更符合實際圖像中煙霧的分布。

圖12　特征圖可視化

圖13是兩種算法的熱力圖對比實驗結(jié)果，通過熱力圖可以看出，由于煙霧目標的視覺特征較差且煙霧背景復雜，兩種算法在檢測過程中均不同程度地受到了影響，YOLOv4算法在煙霧目標區(qū)域的激活值較低且分布較為雜亂，在背景區(qū)域的激活范圍和強度明顯高于本文算法，難以有效反映出真實煙霧目標位置；本文算法則相對更準確地在煙霧目標區(qū)域形成聚焦產(chǎn)生較高的激活值，并對背景區(qū)域的激活進行了抑制。由此可見，本文提出的基于注意力機制的細節(jié)特征融合方法有效增強了煙霧目標的整體特征，能夠改善煙霧檢測中煙霧目標特征不明顯和背景復雜、干擾信息較多的問題。

圖13　熱力圖對比

5 結(jié)論

本文針對火災煙霧檢測中高層特征圖的細節(jié)特征被削弱且背景干擾較多的問題，基于YOLOv4提出了一種融合細節(jié)特征與注意力機制的火災煙霧檢測算法。通過引入細節(jié)特征，提高了網(wǎng)絡的特征提取和表達能力；利用CBAM機制對融合特征圖進行權(quán)重重新賦值，得到了更具魯棒性的特征表達。與YOLOv4算法相比，在保持較高檢測速率的同時，本文算法的平均精確率、精確率和召回率分別提高了4.31%，1.21%，9.86%。下一步工作將優(yōu)化特征融合過程，減少冗余操作并降低模型參數(shù)量，設計適用于嵌入式設備的輕量化火災煙霧檢測網(wǎng)絡。

［1］史勁亭，袁非牛，夏雪.視頻煙霧檢測研究進展［J］.中國圖象圖形學報，2018，23（3）：303-322.

SHI J T， YUAN F N， XIA X. Video smoke detection： a literature survey［J］.， 2018， 23（3）： 303-322. （in Chinese）

［2］ KIM H， RYU D， PARK J. Smoke detection using GMM and adaboost［J］.， 2014， 3（2）： 123-126.

［3］ ZHAO Y Q， ZHOU Z， XU M M. Forest fire smoke video detection using spatiotemporal and dynamic texture features［J］.， 2015， 2015： 40.

［4］ WANG Y B. Smoke recognition based on machine vision［C］2016. Xi'an， China： IEEE， 2016： 668-671.

［5］ YE W， ZHAO J H， WANG S，. Dynamic texture based smoke detection using Surfacelet transform and HMT model［J］.， 2015， 73： 91-101.

［6］李欣健，張大勝，孫利雷，等.復雜場景下基于CNN的輕量火焰檢測方法［J］.模式識別與人工智能，2021，34（5）：415-422.

LI X J， ZHANG D S， SUN L L，. CNN-based lightweight flame detection method in complex scenes［J］.， 2021， 34（5）： 415-422. （in Chinese）

［7］林景棟，吳欣怡，柴毅，等.卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)優(yōu)化綜述［J］.自動化學報，2020，46（1）：24-37.

LIN J D， WU X Y， CHAI Y，. Structure optimization of convolutional neural networks： a survey［J］.， 2020， 46（1）： 24-37. （in Chinese）

［8］夏雪，袁非牛，章琳，等.從傳統(tǒng)到深度：視覺煙霧識別、檢測與分割［J］.中國圖象圖形學報，2019，24（10）：1627-1647.

XIA X， YUAN F N， ZHANG L，. From traditional methods to deep ones： review of visual smoke recognition， detection， and segmentation［J］.， 2019， 24（10）： 1627-1647. （in Chinese）

［9］ TAO C Y， ZHANG J， WANG P. Smoke detection based on deep convolutional neural networks［C］//2016. Wuhan， China： IEEE， 2016： 150-153.

［10］ KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks［C］25. Lake Tahoe： Curran Associates Inc.， 2012： 1097-1105.

［11］ YIN Z J， WAN B Y， YUAN F N，. A deep normalization and convolutional neural network for image smoke detection［J］.， 2017， 5： 18429-18438.

［12］ GU K， XIA Z F， QIAO J F，. Deep dual-channel neural network for image-based smoke detection［J］.， 2020， 22（2）： 311-323.

［13］ HE Z X， XIE L P， HUA B C，. Joint detection of smoke and flame in photovoltaic system based on deep learning［C］2020（）. Shanghai， China： IEEE， 2020： 6067-6071.

［14］ REN S Q， HE K M， GIRSHICK R，. Faster R-CNN： towards real-time object detection with region proposal networks［J］.， 2017， 39（6）： 1137-1149.

［15］ HE K M， ZHANG X Y， REN S Q，. Deep residual learning for image recognition［C］2016. Las Vegas： IEEE， 2016： 770-778.

［16］ CAI W B， WANG C Y， HUANG H G，. A real-time smoke detection model based on YOLO-SMOKE algorithm［C］2020. Fuzhou， China： IEEE， 2020： 1-3.

［17］ REDMON J， FARHADI A. YoLOv3： an incremental improvement［J］.， 2018：1804.02767.

［18］ GAGLIARDI A， DE GIOIA F， SAPONARA S. A real-time video smoke detection algorithm based on Kalman filter and CNN［J］.， 2021， 18（6）： 2085-2095.

［19］ LIU W， ANGUELOV D， ERHAN D，. SSD： single shot MultiBox detector［C］14. Amsterdam： Springer， 2016： 21-37.

［20］吳凡，王慧琴，王可.時空域深度學習火災煙霧檢測［J］.液晶與顯示，2021，36（8）：1186-1195.

WU F， WANG H Q， WANG K. Spatio-temporal deep learning fire smoke detection［J］.， 2021， 36（8）： 1186-1195. （in Chinese）

［21］李紅光，于若男，丁文銳.基于深度學習的小目標檢測研究進展［J］.航空學報，2021，42（7）：024691.

LI H G， YU R N， DING W R. Research development of small object traching based on deep learning［J］.， 2021， 42（7）： 024691. （in Chinese）

［22］ BOCHKOVSKIY A， WANG C Y， LIAO H Y M. YOLOv4： optimal speed and accuracy of object detection［J］.：2004.10934， 2020.

［23］ WOO S， PARK J， LEE J Y，. CBAM： convolutional block attention module［C］15. Munich， Germany： Springer， 2018： 3-19.

［24］ HE K M， ZHANG X Y， REN S Q，. Spatial pyramid pooling in deep convolutional networks for visual recognition［J］.， 2015， 37（9）： 1904-1916.

［25］ LIU S， QI L， QIN H F，. Path aggregation network for instance segmentation［C］2018. Salt Lake City， UT， USA： IEEE， 2018： 8759-8768.

［26］ WANG C Y， LIAO H Y M， WU Y H，. CSPNet： a new backbone that can enhance learning capability of CNN［C］2020. Seattle， WA， USA： IEEE， 2020： 1571-1580.

［27］ LIN T Y， DOLLáR P， GIRSHICK R，. Feature pyramid networks for object detection［C］2017. Honolulu， USA： IEEE， 2017： 936-944.

［28］ TAN M X， LE Q V. EfficientNet： rethinking model scaling for convolutional neural networks［C］36. Long Beach， CA， USA： PMLR， 2019： 6105-6114.

［29］劉麗娟，陳松楠.一種基于改進SSD的煙霧實時檢測模型［J］.信陽師范學院學報（自然科學版），2020，33（2）：305-311.

LIU L J， CHEN S N. Real-time smoke detection model based on improved SSD［J］.（）， 2020， 33（2）： 305-311. （in Chinese）

［30］謝書翰，張文柱，程鵬，等.嵌入通道注意力的YOLOv4火災煙霧檢測模型［J］.液晶與顯示，2021，36（10）：1445-1453.

XIE S H， ZHANG W Z， CHENG P，. Firesmoke detection model based on YOLOv4 with channel attention［J］.， 2021， 36（10）： 1445-1453. （in Chinese）

［31］ ZHOU B L， KHOSLA A， LAPEDRIZA A，. Learning deep features for discriminative localization［C］2016. Las Vegas， NV， USA： IEEE， 2016： 2921-2929.

Fire smoke detection combined with detailed features and hybrid attention mechanism

WANG Rui-qing，WANG Hui-qin*，WANG Ke

（，，710055，）

To solve the problem that the detailed features of the high-level feature map are weakened and the low-level features of the smoke image are lost， an improved YOLOv4 algorithm that combines the detailed features and the attention mechanism is proposed. The detail feature fusion module is designed， and the low-level features in backbone network are introduced into high-level features to obtain the fusion feature map with extensive multi-scale information. Then， a hybrid attention mechanism in two separate dimensions of channel and spatial is adopted， to reassign the weight of the fusion feature map. The smoke target features are enhanced the background features are suppersed， hence the proposed algorithm is robust in feature expression. The experimental results show that the average precision， precision and recall rate of the algorithm in this paper are increased by 4.31%， 1.21% and 9.86% respectively compared with the YOLOv4 algorithm， while maintaining a high detection speed. The proposed algorithm can effectively extract the overall features of smoke targets， and is suitable for smoke detection tasks in complex backgrounds.

smoke detection； deep learning； YOLOv4； feature fusion； hybrid attention mechanism

TP391

10.37188/CJLCD.2021-0325

1007-2780（2022）07-0900-13

2021-12-14；

2022-01-11.

陜西省自然科學基礎研究計劃（No.2021JM-377）；陜西省科技廳科技合作項目（No.2020KW-012）；陜西省教育廳智庫項目（No.18JT006）；西安市科技局高校人才服務企業(yè)項目（No.GXYD10.1）

Supported by Natural Science Basic Research Plan in Shaanxi Province （No. 2021JM-377）； Science and Technology Cooperation Projects in Department of Science and Technology of Shaanxi Province（No. 2020KW-012）； Think Tank Project in Department of Education of Shaanxi Province（No. 18JT006）； Talent Service Enterprise Project of Science and Technology University in Xi'an City（No.GXYD10.1）

，E-mail：hqwang@xauat.edu.cn

汪睿卿（1996—），男，安徽安慶人，碩士研究生，2019于皖西學院獲得學士學位，主要從事深度學習與計算機視覺等方面的研究。E-mail：wrq1216@163.com

王慧琴（1970—），女，山西長治人，博士，教授，2002年于西安交通大學獲得博士學位，主要從事智能信息處理、信息理論與應用、信息技術與管理、數(shù)字建筑等方面的研究。E-mail：hqwang@xauat.edu.cn

融合細節(jié)特征與混合注意力機制的火災煙霧檢測

1 引言

2 YOLOv4算法

3 融合細節(jié)特征與混合注意力機制的火災煙霧檢測算法

3.1 煙霧細節(jié)特征提取與融合

3.2 基于混合注意力機制的煙霧特征魯棒性增強

3.3 網(wǎng)絡整體結(jié)構(gòu)

4 實驗設計與分析

4.1 實驗數(shù)據(jù)集和參數(shù)設置

4.2 評價指標

4.3 檢測結(jié)果

4.4 消融實驗

4.5 對比實驗

4.6 可視化分析

5 結(jié)論

3.1　煙霧細節(jié)特征提取與融合

3.2　基于混合注意力機制的煙霧特征魯棒性增強

3.3　網(wǎng)絡整體結(jié)構(gòu)

4.1　實驗數(shù)據(jù)集和參數(shù)設置

4.2　評價指標

4.3　檢測結(jié)果

4.4　消融實驗

4.5　對比實驗

4.6　可視化分析