程廣濤 鞏家昌 李建
摘 要:為提高煙霧識別準確率,構建模塊化深度卷積神經網絡,進行煙霧圖像特征提取和識別。模塊化結構使網絡架構簡單而靈活,首先利用常見的深度卷積運算設計基本模塊網絡結構,然后僅將模塊網絡與全連接層依次連接,即可構建深度卷積神經網絡,使對煙霧圖像的表達更加具體。利用數據增強技術擴充煙霧圖像訓練數據,從而緩解煙霧識別中常見的過擬合問題。實驗結果表明,該方法在兩個測試集上分別達到了96.56%和98.82%的檢測率,驗證了該方法的有效性。
關鍵詞:煙霧識別;模塊網絡;卷積神經網絡;數據增強
DOI:10. 11907/rjdk. 192553????????????????????????????????????????????????????????????????? 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301 ? 文獻標識碼:A??????????????? 文章編號:1672-7800(2020)003-0083-04
Smoke Recognition Based on Modular Deep Convolutional Neural Network
CHENG Guang-tao1,GONG Jia-chang2, LI Jian1
(1. Research and Development Center, National Center for Fire Engineering Techonology, Tianjin 300381, China;2. Department of Audio-Visual Information Forensic Technology, Criminal Investigation Police University of China, Shenyang 110854, China)
Abstract: In order to improve the accuracy of smoke recognition, a modular deep convolutional neural network is proposed for simultaneous features extraction and recognition of the smoke image. The modular structure makes the deep network simpler and more flexible. Firstly, the basic module network structure is designed by using the common deep convolution operation, and then the deep convolutional neual network can be constructed only by connecting the modular networks with the full connection layers in turn to enhence the more abstract and concrete expression of the smoke image. The data augumentation technology is used to expand the training smoke images, so as to alleviate the common over-fitting phenomenon in smoke recognition. The experimental results show that 96.56% and 98.82% of the detection rates are respectively achieved in the two testing data sets, which proves the effectiveness of the method.
Key Words: smoke recognition;modular network;convolutional neural network;data augumentation
0 引言
隨著我國安全城市、安全社區(qū)、智慧消防等全新理念的提出,各種視頻監(jiān)控系統(tǒng)在大中城市得到了大規(guī)模應用,利用視頻圖像分析技術解決煙霧檢測問題受到多位學者關注[1- 2]?,F有算法大多采用圖像特征提取與分類器的流程框架,不但可克服傳統(tǒng)煙霧檢測設備的不足,而且適用性廣、檢測速度快、抗干擾能力強。
Chen等[3]通過分析煙霧色彩在RGB模型3個通道上的灰度值識別煙霧區(qū)域;Fujiwara等[4]采用分形理論提取煙霧自相似性分形特征,在圖像中搜索煙霧目標;Yuan等[5]利用高階局部二值化模式進行煙霧檢測;Dubey等[6]為提取煙霧圖像每個通道的LBP(Local Binary Pattern)特征,提出了基于多通道LBP特征編碼(Multichannel Decoded Local Binary Patterns,MCLBP)的煙霧識別方法;張潔等[7]結合紋理特征和輪廓光流信息進行煙霧識別;姚太偉等[8]結合煙霧的模糊特征和運動特征,應用小波變換和稀疏光流進行煙霧識別;袁非牛等[9]提出一種基于Gabor濾波的層級結構,實現多尺度、多方向的多層紋理特征表達,提高煙霧識別的綜合效果;Tian等[10]通過圖像分離方法提出一種基于融合圖像的煙霧檢測方法,計算了煙霧和背景的融合圖像,采用優(yōu)化方法求解煙霧不透明度;Yuan等[11]采用規(guī)則劃分檢測窗口的方式,消除AdaBoost算法學習產生的形狀依賴性,從而提出一種魯棒的視頻煙霧特征。然而,煙霧圖像顏色、紋理、形狀特征隨著光照條件等因素變化而表現得異常不穩(wěn)定,現有算法仍然面臨著高漏報率和高誤報率的困擾。
深度卷積神經網絡在醫(yī)學圖像分析、行人識別、情感分析等方面有著優(yōu)異表現[12-17]。借助卷積神經網絡在圖像特征表達上的優(yōu)勢,本文設計模塊化深度卷積神經網絡(Modular Deep Convolutional Neural Network,MDCNN)用于煙霧圖像識別。它可以根據圖像數據自動提取可靠特征,并與圖像分類操作統(tǒng)一在一個框架中。模塊化設計使網格構建更加靈活,通過減少超參數,改進網絡訓練效率。同時本文進一步利用數據增強技術緩解模型過擬合問題,提高訓練模型泛化能力。
1 MDCNN架構
本部分從3個方面闡述煙霧識別模塊化深度卷積神經網絡結構:模塊網絡設計、基于模塊網絡的深度卷積神經網絡構造、網絡訓練。
1.1 模塊網絡
將深度卷積神經網絡模塊化,使網絡結構更加靈活,減少網絡訓練超參數數量,從而提高訓練效率。本文設計的模塊網絡Module-[c]如圖1所示,包含卷積層、批規(guī)范化層(Batch Normalization,BN)、ReLu(Rectified Linear Units)激活函數層和池化層。
(1)卷積層是卷積神經網絡的核心構造,圖像識別任務中的卷積通常是二維卷積,即離散二維濾波器(卷積核)與二維圖像作卷積操作,使用二維濾波器在二維圖像上所有像素點進行滑動,與該像素點及其鄰域像素點作內積。在深度卷積神經網絡中,通過卷積操作可提取圖像邊緣與紋理等低級特征到復雜的抽象特征中。模塊網絡采用的卷積核大小為[3×3×c],滑動步長為1,空間填充參數為1,保持特征圖經過卷積操作后分辨率不變,其中[c]為特征圖通道數目。上述卷積操作在圖1中使用Conv(3, 1, 1,[c])標記。堆積[3×3]卷積核在增加特征表示能力的同時可降低參數數量。
(2)批量隨機梯度下降法(Mini-Batch Gradient Descent,MBGD)被廣泛應用于深度卷積神經網絡訓練。在訓練過程中,隨著網絡深度加深,深度卷積神經網絡中神經元產生的數據逐漸發(fā)生偏移或變動,導致數據漂移,從而降低學習效率[18]。為了解決該問題,批規(guī)范化(Batch Normalization,BN)被提出用以規(guī)范化神經元產生的數據,實現均值為0、標準差為1的標準正態(tài)分布,從而避免梯度消失問題、提高訓練效率。目前,BN已經成為深度卷積神經網絡中的基本構件。
(3)在神經網絡中經常使用Sigmoid非線性激活函數[S(x)=11+e-x]和雙曲正切非線性激活函數[tanh(x)=ex-e-xex+e-x]提高特征表達能力。在深度卷積神經網絡中,需使用梯度下降法迭代更新網絡中的學習參數,然而上述非線性激活函數容易產生梯度消失問題,進而導致網絡參數更新緩慢或更新失效。為了解決該問題,ReLu激活函數[R(x)=max(0,x)]被廣泛應用于深度卷積神經網絡,作為非線性激活函數,它可以避免梯度消失問題,使訓練模型更快收斂。
(4)經過卷積層提取的特征維數非常高,易造成過擬合問題且消耗計算資源。為解決該問題,池化層一般被連接在卷積層后以降低卷積特征圖分辨率。常見的池化方法有最大池化與平均池化,它們分別在池化區(qū)域內取最大值和平均值。由于最大池化方法抗干擾與抗圖像平移性能較強,因此選擇最大池化方法,池化區(qū)域大小為[2×2],滑動步長為2,這樣池化層將特征圖分辨率降低為原來的[14]。圖1使用MaxPooling標記上述最大池化操作。
1.2 模塊化深度卷積網絡
如表1所示,構造的深度卷積神經網絡包含3個模塊網絡,3個全連接層(Full connected layer,FC),網絡輸入是[48×48×3]的RGB圖像,對圖像進行的唯一預處理是減均值操作,其中均值由所有訓練圖像計算而得。順次連接3個模塊網絡,其中卷積操作Conv(3, 1, 1,[c])的特征圖通道數目[c]分別為64、128、128;然后連接3個全連接層,前兩個全連接層通道數為128,最后一個全連接層通道數為類別數2,因為煙霧數據樣本產生過擬合頻次較低,前兩個全連接層后分別采用參數為0.5的Dropout操作[19],以降低過擬合風險;最后使用Softmax函數將網絡輸出歸一化為概率值,如式(1)所示。
1.3 網絡訓練
采用交叉熵損失函數計算訓練深度卷積神經網絡目標函數。
其中[n]表示訓練樣本個數,[y(i)]表示第[i]個樣本的標簽,[p(i)]表示第[i]個樣本的預測結果。
使用批量梯度下降算法優(yōu)化上述目標函數,訓練深度卷積神經網絡參數變量,批量大小設置為96,動量參數為0.9。訓練過程利用權重下降進行正則化,其中[L2]懲罰乘子設置為[10-5],學習率設置為[10-2],整個訓練過程循環(huán)遍歷訓練數據集300次,每經過100次時將學習率除以10進行更新,學習率共被除以2次。網絡權重初始化采用Kaiming初始化方法[20]。
2 數據增強
深度卷積神經網絡一般包含幾百萬個待學習的參數,達到高識別率需提供大量訓練圖像。進行煙霧圖像識別時存在的一個問題是煙霧圖像訓練數據不充分,訓練深度神經網絡模型時易產生過擬合,泛化能力差,即訓練的模型只對少量訓練數據產生較好效果,而對驗證集和測試集效果較差。數據增強技術是緩解過擬合的常用方法,它基于現有少量訓練數據集通過幾何變換等操作達到擴充訓練圖像數據集的目的。本文數據增強方法包括水平翻轉、垂直翻轉和尺度變化,通過數據增強技術產生的示例如圖2所示。
3 實驗結果與分析
本文使用Pytorch深度學習框架構建和訓練模塊化深度卷積神經網絡。實驗在Windows10操作系統(tǒng)中運行,PC機配置主頻為3.40GHz的i7-3700 CPU處理器,16GRAM和Nvidia GTX 1080Ti GPU顯卡。
3.1 數據集
表2顯示了江西財經大學袁非牛教授[9]研究組公開的4個數據集,分別為Set1、Set2、Set3和Set4。Set1 包含1 383張圖像,其中552張煙霧圖像和831張非煙霧圖像;Set2包含1 505張圖像,其中688張煙霧圖像和817張非煙霧圖像;Set3包含10 712張圖像,其中2 201張煙霧圖像和8 511張非煙霧圖像;Set4包含10 617張圖像,其中2 254張煙霧圖像和8 363張非煙霧圖像。實驗使用Set3作為訓練數據集,Set4作為驗證數據集,Set1 和 Set2為測試數據集。
3.2 評估指標
使用檢測率(Detection Rate,DR)、誤報率(False Alarm Rate, FAR)和準確率(Accuracy Rate,AR)[3]作為煙霧識別方法的量化評價指標。
其中[Qp]和[Qn]分別是正、負樣本數目,[Pp]表示正樣本中被正確檢測的數目,[Np]表示負樣本中被錯分為正樣本的數目,[Nn]表示負樣本中被正確檢測的數目。算法目的是提高AR指標和DR指標,同時使FAR指標更低。
3.3 數據增強
采用水平翻轉、垂直翻轉和尺度變化3種數據增強技術,SetA表示在Set3基礎上增強原有訓練集中煙霧正樣本,保持原有負樣本不變。增強的訓練數據集如表3所示,增強后訓練數據中煙霧樣本和非煙樣本達到平衡狀態(tài)。
3.4 實驗結果
不同煙霧識別算法的實驗結果如表4所示,表中加粗數字表示各指標下的最優(yōu)值。
從3個方面討論實驗結果。
(1)少量數據訓練過擬合問題。表4中MDCNN-Set3表示MDCNN算法以原有訓練數據集Set進行訓練,由于訓練圖像集煙霧圖像數據不充分,導致過擬合問題,訓練的模型泛化能力差,因此測試集Set1和Set2上的實驗結果指標還有待提高。
(2)數據增強技術對性能的影響。表4中MDCNN-SetA顯示了MDCNN算法在增強后的數據集SetA上進行訓練的實驗結果。在Set1測試數據集上,DR從94.38%提高到96.56%, AR從97.11%提高到97.90%,FAR從1.08%降低到0.48%;在Set2測試數據集上,DR從94.33%提高到98.82%,AR從97.01%提高到98.55%,FAR從0.73%降低到0.37%。從實驗數據可以看到,通過數據增強技術對訓練數據集進行擴充可緩解過擬合問題,增強訓練模型泛化能力。
(3)為展示利用深度卷積神經網絡進行煙霧識別的優(yōu)勢,將MDCNN方法與傳統(tǒng)方法進行比較。傳統(tǒng)煙霧檢測方法包括特征提取和分類流程。利用紋理特征表示煙霧已被證明是有效的方式,然后利用分類器支持向量機(Support Vector Machine, SVM)進行識別驗證。與基于紋理的煙霧檢測方法MCLBP[6]進行結果比較,MDCNN-SetA方法在Set1和Set2測試集上的DR、AR和FAR指標均表現更佳。
4 結語
本文利用卷積層、批規(guī)范化層、非線性激活函數層和池化層構造模塊網絡,然后將若干模塊網絡與全連接層順次連接構成深度卷積神經網絡,進行煙霧圖像特征提取和識別。針對煙霧識別問題中由于煙霧圖像數據不足產生的過擬合現象,采取水平翻轉、垂直翻轉和尺度變化數據增強技術擴充訓練數據集,進而提高訓練模型泛化能力。實驗結果表明,數據增強處理后,模塊化深度卷積神經網絡可提高檢測率、降低誤報率。下一步將著力研究煙霧圖像全局特征,提高煙霧識別性能。
參考文獻:
[1]史勁亭,袁非牛,夏雪. 視頻煙霧檢測研究進展[J]. 中國圖像圖形學報,2018,23(3): 303-322.
[2]許峰,于春雨,徐放. 視頻圖像火災探測技術研究趨勢[J]. 消防科學與技術,2012,31(11):1185-1188.
[3]CHEN Y H,YIN Y H,HUANG SF,et al. The somke detection for early fire-alarming system base on video processing[C]. Proceedings of 2006 International Conference on Intelligent Information Hiding and Multimedia, 2006: 427-430.
[4]FUJIWARA N,TERADA K. Extraction of a smoke region using fractal co-ding[C]. 2004 IEEE International Symposium on Communications and Information Technology, 2004: 659-662.
[5]YUAN F N,SHI J T,XIA X,et al. High-order local ternary patters with locality preserving projection for smoke detection and image classification[J]. Information Sciences,2016,372(12):225-240.
[6]DUBEY S R,SINGH S K, SINGH R K. Multichannel decoded local binary patterns for content-based image retrieval[J]. IEEE Transactions on Image Processing,2016,25 (9): 4018-4032.