岳洋
摘要:為了提升高色差視頻圖像自動分類的精確度,文章采用開源的深度學習框架Pylorch,提出了一種基于深度學習的高色差圖像分類方法.文章針對高色差圖像分類提出一種調(diào)整后的VGG16網(wǎng)絡(luò)模型( Ad_VGG16),該網(wǎng)絡(luò)利用正負例樣本均衡化和學習率自適應(yīng)調(diào)整來優(yōu)化過擬合和局部最小值問題,其次因高色差圖像分類效果與輸入圖像大小有很大關(guān)系,則修改VGG16網(wǎng)絡(luò)第一個全連接層以適應(yīng)任意大小的輸入圖像,再采用交叉驗證來提高網(wǎng)絡(luò)的泛化能力。最終的實驗數(shù)據(jù)表明,與VGGJ16和ResNet18網(wǎng)絡(luò)相比,Ad VGG16網(wǎng)絡(luò)具有更好的分類準確度,其最終的分類準確度達到92%。
關(guān)鍵詞:深度學習:VGG16:ResNet18:高對比度:分類
中圖分類號:TP183;TP391.9 文獻標志碼:A
0 引言
隨著網(wǎng)絡(luò)視頻用戶的不斷擴大和視頻監(jiān)控系統(tǒng)的廣泛應(yīng)用,視頻圖像越來越多地用于表示和傳遞信息。但視頻圖像的質(zhì)量會受到很多因素的影響,比如硬件環(huán)境、拍攝姿勢、角度等,特別是由于曝光設(shè)置不當導(dǎo)致圖像過于明亮或異常黑暗的現(xiàn)象:外部光的色溫不同會導(dǎo)致捕獲的圖像與物體真實顏色之間存在偏差。這些失真因素會導(dǎo)致無法從視頻圖像中獲取有用的信息,對于監(jiān)控視頻來說,嚴重的失真現(xiàn)象可能會導(dǎo)致產(chǎn)生無效的監(jiān)控信息。因此,研究關(guān)于高色差視頻圖像的自動分類技術(shù),可以對視頻圖像在采集、傳輸和處理3個階段進行優(yōu)化和監(jiān)控。
視頻高色差圖像的分類方法有很多,主要分為主觀分類和客觀分類兩大類[1]。到目前為止,許多客觀的分類檢測方法已經(jīng)被提出。其次特征提取是視頻圖像質(zhì)量檢測、分類和質(zhì)量評價的關(guān)鍵[2]。當前有人提出一些無參考的圖像質(zhì)量評價算法,這些算法先對失真圖像識別,再對圖像質(zhì)量進行評估,如BRISQUE'3]和DIIVINE[4].BRISQUE模型被稱為無參考/盲圖像質(zhì)量評價算法模型,它不計算失真特定的特征,如模糊、振環(huán)或阻塞。DIIVINE模型是基于這樣一個假定:自然場景具有一些統(tǒng)計特性,這些特性在失真的情況下會發(fā)生變化,使其變得不自然:通過使用場景統(tǒng)計來描述這種不自然的特性可以識別出部分失真圖像。
基于以上啟發(fā),本文通過設(shè)計白適應(yīng)調(diào)整VGG16網(wǎng)絡(luò)對視頻高色差圖像進行自動分類。在模型訓練前會對高色差圖像進行數(shù)據(jù)預(yù)處理。調(diào)整后的VCJCJ16網(wǎng)絡(luò)采用交叉驗證機制,通過驗證損失和準確率來劃分數(shù)據(jù)集和學習率。最終的實驗數(shù)據(jù)表明,調(diào)整后的VGG16網(wǎng)絡(luò)的分類結(jié)果優(yōu)于ResNet18和VGG16等傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)。
1 算法模型
本文受VGG16網(wǎng)絡(luò)經(jīng)典結(jié)構(gòu)的啟發(fā),對VGG16網(wǎng)絡(luò)進行了一些調(diào)整,命名為Ad—VGG16。該網(wǎng)絡(luò)保留了經(jīng)典的VGGl6結(jié)構(gòu),首先為了適應(yīng)輸入圖像的任意大小,將VGG16網(wǎng)絡(luò)第一個全連接層改為全卷積層,同時也可達到提高模型訓練和預(yù)測的準確性。其次,在網(wǎng)絡(luò)中加入交叉驗證機制和白適應(yīng)步長調(diào)整機制,可以提高網(wǎng)絡(luò)的泛化能力和加快網(wǎng)絡(luò)的收斂速度。Ad—VGG16網(wǎng)絡(luò)架構(gòu)如圖1所示。
Ad—VGG16網(wǎng)絡(luò)主體結(jié)構(gòu)由6個卷積層和2個全連接組成,分類結(jié)果利用softmax層輸出。首先,由于模型訓練的數(shù)據(jù)量較小,則引入交叉驗證機制提高模型的訓練精確度[5].該機制將1 200個數(shù)據(jù)集分成10部分,每部分作為一個驗證集,最終錯誤率等于每部分錯誤率總和除以10。其次,引入學習率白適應(yīng)調(diào)整機制可以防止模型訓練時收斂過于緩慢的現(xiàn)象,該機制指4次迭代精確度不變時,學習率將降低為上一次的0.8倍。在模型結(jié)構(gòu)上,將VCG16第一個全連接修改為全卷積層,可適配任何輸入圖像大小。
1.2 數(shù)據(jù)集
為了驗證本方法的性能指標,實驗采用的數(shù)據(jù)集來源于3個部分,第一部分是實際監(jiān)控視頻,第二部分是實際拍攝視頻,第三部分是模擬標準圖像庫。模型訓練前會利用Opencv技術(shù)將視頻數(shù)據(jù)逐幀轉(zhuǎn)換為圖像,最終的訓練數(shù)據(jù)集由600張高色差圖像和600張普通圖像組成。其中,數(shù)據(jù)集場景包括人、景觀、建筑、動物等。表1給出每個場景類別對應(yīng)的圖像數(shù)量。
1.3 數(shù)據(jù)預(yù)處理
1.3.1 正負例樣本均衡化
為了獲得更好的網(wǎng)絡(luò)分類精度,在數(shù)據(jù)預(yù)處理階段加入正負例樣本均衡[5]。正負例樣本均衡化可增加樣本圖像的數(shù)據(jù)量,避免因樣本圖像分布不均勻而使得分類精度偏低。實驗中的監(jiān)控視頻包括1 000段正常視頻、500段異常亮視頻和50段異常暗視頻。由于樣本分布不均勻,本文采用兩個仿射變換,即旋轉(zhuǎn)A,和縮放A。來實現(xiàn)視頻的正負例樣本均衡,詳細執(zhí)行過程如下。
當μ值在合理范圍內(nèi)時,認為樣本數(shù)據(jù)分布相對均勻,算法的分類性能不受影響。
(2)當μ∈μ時,操作停止。否則,進行正負樣本均衡化。
(3)隨機取θ和s的值,重復(fù)步驟2,直到μ∈μ。
1.3.2 圖像局部對比歸一化
為了提高模型的泛化能力,引入了圖像局部歸一化機制。該機制可以避免神經(jīng)元過度飽和,更大程度消除亮度和對比方差對模型的影響。在訓練模型之前,對數(shù)據(jù)圖像塊進行局部比較和歸一化處理,將圖像(i,j)處的亮度值設(shè)置為m(i,j),局部對比歸一化
1.3.3 評價指標
本文采用多個評價指標對Ad—VGG16網(wǎng)絡(luò)的分類效果進行直觀評價。其中,評價指標包含假陽性( FP)、真陽性(TP)、假陰性(FN)、真陰性(TN)。
這4個指標的詳細說明如下:
TP:預(yù)測為陽性(P),實際上預(yù)測為正確(T),指判斷為陽性的準確率。
TN:預(yù)測為負(N),實際預(yù)測為正確(T),指判斷為負的準確率。
FP:預(yù)測是積極的(P),實際上預(yù)測是錯誤的(F),即判斷消極為積極。
FN:預(yù)測是負的(N),實際上預(yù)測是錯誤的(F),即積極的判斷稱為負的。
選擇Sensicivity,preclsion,Accuracy和F1評分作為評價指標。4個計算公式如下(4)一(7)所示。
2 實驗數(shù)據(jù)
2.1 實驗設(shè)置
本實驗使用深度學習框架Pytorch。訓練網(wǎng)絡(luò)使用Intel lOx AMD EPYC 7402 24核處理器@2.80 CHz和NVIDIA A30顯卡,16 G內(nèi)存。采用CUDAII.1和CUDNN8.0.5進行模型加速訓練。輸入數(shù)據(jù)集按照比例9:1隨機分為訓練集和驗證集,輸入圖像數(shù)據(jù)大小為512×512×3.優(yōu)化器選擇Adam,初始學習率為0. 000 1。
2. 2結(jié)果和討論
本文選擇ResNet18網(wǎng)絡(luò)、VCC16網(wǎng)絡(luò)的圖像分類方法在相同實驗環(huán)境下進行對照測試,其中.ResNet18和VGG16網(wǎng)絡(luò)的輸入圖像數(shù)據(jù)尺寸設(shè)置為224x224x3。實驗中所有數(shù)據(jù)都進行了預(yù)處理,即正負例均衡和局部歸一化。通過迭代實驗,驗證數(shù)據(jù)集中不同模型的精確度和誤差曲線如圖2所示,最終評價指標數(shù)據(jù)如表2所示。
由圖2看出.3種算法精確度在迭代過程中的波動均較大,但總體上Ad VGC16網(wǎng)絡(luò)比其他兩種網(wǎng)絡(luò)的分類精確度更高,最終準確率達到91. 660。在分類誤差方面.VGC;16網(wǎng)絡(luò)在迭代過程中誤差波動最大.ResNet18在第20次迭代后誤差會出現(xiàn)一個持續(xù)變大再下降過程,Ad.VGG16分類誤差處于較均勻下降階段,迭代結(jié)束時Ad—VGG16分類誤差達到0. 056 966.
從表2數(shù)據(jù)可知,Ad—VGG16網(wǎng)絡(luò)在高色差圖像分類中取得了較好效果。同時Ad—VGC16網(wǎng)絡(luò)準確率為91. 66%,靈敏度為88. 89%.精度為94. 11%,F(xiàn)1評分為91. 42%。
3 結(jié)語
本文提出基于白適應(yīng)調(diào)整VGG16網(wǎng)絡(luò)的高色差視頻圖像預(yù)測方法,主要的研究意義如下:(1)解決了主觀和客觀進行高色差圖像分類的缺陷,可高準確率進行高色差場景識別;(2)該方法對特征不需要主動提取,能夠自動克服圖像內(nèi)容對高色差檢測的影響,網(wǎng)絡(luò)可自主學習圖像特征使得模型可適配任意場景的高色差分類場景;(3)用實際視頻監(jiān)控、仿真圖像庫測試本網(wǎng)絡(luò)的分類精確度,均取得了很好的分類效果,使得Ad—VGG16網(wǎng)絡(luò)的分類精確度達到了92%.其次在靈敏度、精度和Fl評分方面均優(yōu)于VGG16和ResNet18網(wǎng)絡(luò)。
參考文獻
[1]LI C, BOVIK A C, WU X.Blind image qualityassessment using a general regression neural network[J]. IEEE Transactions on Neural Networks. 2011(5):793-799。
[2]賈惠珍,孫權(quán)森,王同罕.結(jié)合感知特征和自然場景統(tǒng)計的無參考圖像質(zhì)量評價[J].中國圖象圖形學報,2014(6):859-867.
[3] MITTAL A, MOORTHY A K, BOVIK A C. No -Reference image quality assessment in the spatial domain[ J ] IEEE Transactions on Image Processing APublication of the IEEE Signal Processing Society , 2012( 12) :4695.
[4] MOORTHY , ANUSH, KRISHNA , et al. Blind imagequality assessment: from natural scene statistics toperceptual quality[J]. IEEE Transac.tions on ImageProcessing, 2011( 12): 3350-3364.
[5]鄔美銀,陳黎,田菁.基于卷積神經(jīng)網(wǎng)絡(luò)的視頻圖像失真檢測及分類[J].計算機應(yīng)用研究,2016( 9):2827-2830.
(編輯傅金睿)