劉 穎,劉玉霞,畢 萍*
(1.西安郵電大學(xué)通信與信息工程學(xué)院,西安 710121;2.電子信息現(xiàn)場(chǎng)勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室(西安郵電大學(xué)),西安 710121;3.無線通信與信息處理技術(shù)國(guó)際聯(lián)合研究中心(西安郵電大學(xué)),西安 710121;4.西安郵電大學(xué)圖像與信息處理研究所,西安 710121)
(*通信作者電子郵箱biping@xupt.edu.cn)
近年來,監(jiān)控設(shè)備的推廣和普及給偵查破案帶來了極大的便利。但是由于受到光照、拍攝距離和拍攝角度等因素的影響,公安部門所獲得的部分監(jiān)控視頻或監(jiān)控圖像分辨率低、偵查目標(biāo)模糊不清[1],給偵查工作帶來了極大的挑戰(zhàn)[2]。因此,低分辨率圖像的識(shí)別是亟待解決的實(shí)際應(yīng)用問題。
針對(duì)低分辨率圖像的識(shí)別有兩種策略:一種為直接法,即分辨率穩(wěn)健特征表達(dá)法[3],該方法直接從低分辨率圖像上提取穩(wěn)健的特征,再將提取到的特征用于圖像識(shí)別,例如局部頻域描述子方法[4]、基于顏色特征的描述子方法[5]等;另一種為間接法,Ghoneim 等[6]提出先對(duì)低分辨圖像進(jìn)行超分辨率重建得到高分辨率圖像,再用圖像識(shí)別的方法進(jìn)行識(shí)別。該類方法使用超分辨率重建算法先預(yù)測(cè)出低分辨率圖像中缺失的高頻信息部分,再?gòu)母哳l信息中獲得更豐富的目標(biāo)特征用以提高低分辨率圖像的識(shí)別率。觀察低分辨率圖像和高分辨率圖像可以發(fā)現(xiàn),兩者之間主體外觀輪廓近似,即高/低分辨率圖像之間的邊緣相似,而高分辨率圖像的邊緣中包含了更豐富的圖像細(xì)節(jié)信息,若能從低分率圖像中獲得類似的高分辨率圖像的邊緣信息,則可以提升低分辨率圖像識(shí)別的算法性能。Nazeri等[7]從缺失的圖像中先學(xué)習(xí)出缺失圖像的邊緣,再將整幅圖像的邊緣信息作為先驗(yàn)信息加入到圖像修復(fù)的算法中,使得修復(fù)后的圖像更準(zhǔn)確,性能更好。
借鑒Nazeri 等[7]的思想,本文先從低分辨率圖像中生成與其高分辨率圖像相似的幻想邊緣,并將該邊緣作為先驗(yàn)信息加入到識(shí)別網(wǎng)絡(luò)中然后進(jìn)行圖像識(shí)別,從而提高低分辨率圖像的識(shí)別率。
LeNet-5 是由LeCun 等[8]于1998 年提出,該模型用于手寫字符識(shí)別,是經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型。模型是一個(gè)端到端的網(wǎng)絡(luò)結(jié)構(gòu),共有7 層,包含2 個(gè)卷積層(Convolutional layer,Conv)、2 個(gè)池化層(Pooling layer,Pool)、3 個(gè)全連接層(Fully Connected layers,F(xiàn)C),最后輸出識(shí)別結(jié)果。在網(wǎng)絡(luò)訓(xùn)練的過程中,其損失函數(shù)定義為:
其中:W表示網(wǎng)絡(luò)中所有參數(shù)的集合,P表示訓(xùn)練批次的個(gè)數(shù),ZP表示一個(gè)批次的輸入值,yDp表示輸出的預(yù)測(cè)類別。在損失函數(shù)中加入了自適應(yīng)懲罰項(xiàng),i表示種類類別,j表示一個(gè)批次里的樣本數(shù)。在神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)輸出的類別錯(cuò)誤類較多時(shí),該懲罰項(xiàng)給預(yù)測(cè)錯(cuò)誤的類分配一個(gè)較大的權(quán)重,使神經(jīng)網(wǎng)絡(luò)做下一次反向傳播時(shí),降低了預(yù)測(cè)錯(cuò)誤類別的概率,直到損失值達(dá)到最小,網(wǎng)絡(luò)收斂。
邊緣學(xué)習(xí)網(wǎng)絡(luò)采用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)結(jié)構(gòu),它由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分組成。GAN 網(wǎng)絡(luò)結(jié)構(gòu)在圖像風(fēng)格遷移[9-10]、超分辨率重建[11-13]及圖像到圖像轉(zhuǎn)換[14-15]領(lǐng)域中獲得了非常好的結(jié)果。
網(wǎng)絡(luò)設(shè)計(jì)時(shí),卷積層數(shù)過少會(huì)導(dǎo)致提取不全圖像的重要特征信息,若是增加網(wǎng)絡(luò)層數(shù)又會(huì)使得網(wǎng)絡(luò)訓(xùn)練參數(shù)過多,訓(xùn)練時(shí)長(zhǎng)太長(zhǎng)。經(jīng)以上考慮,在生成網(wǎng)絡(luò)結(jié)構(gòu)中選擇3 個(gè)卷積層對(duì)圖像進(jìn)行下采樣,這是實(shí)驗(yàn)的一個(gè)經(jīng)驗(yàn)值;n個(gè)殘差塊(Residual Block),用于提取圖像特征;2 個(gè)轉(zhuǎn)置卷積層(Transposed Convolution layer,ConvTranspose),用于對(duì)圖像進(jìn)行上采樣。判別網(wǎng)絡(luò)采用12 ×12 PatchGAN[16]的網(wǎng)絡(luò)結(jié)構(gòu),它包含5 個(gè)卷積層。網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。在生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)中均使用了頻譜歸一化(Spectral Normalization,SN)[17]策略。SN 最初僅用于判別網(wǎng)絡(luò)中,但Odena 等[18]為了防止在網(wǎng)絡(luò)的訓(xùn)練過程中參數(shù)和梯度值的突變,也將SN用在了生成網(wǎng)絡(luò)中。SN 通過縮小每層的網(wǎng)絡(luò)權(quán)重矩陣與其最大奇異值的比值使網(wǎng)絡(luò)訓(xùn)練達(dá)到穩(wěn)定,從而將Lipschitz常數(shù)限制為1。
圖1 低分辨率圖像識(shí)別網(wǎng)絡(luò)Fig.1 Low-resolution image recognition network
令I(lǐng)gt表示高分辨率圖像,Cgt表示高分辨率圖像的邊緣,表示低分辨率圖像,表示低分辨率圖像的邊緣。生成網(wǎng)絡(luò)中,將作為生成器的輸入,得到預(yù)測(cè)的低分辨率圖像的邊緣Cpred。
判別網(wǎng)絡(luò)中,Cgt和Cpred作為網(wǎng)絡(luò)的輸入,用對(duì)抗損失和特征匹配損失作為目標(biāo)函數(shù)來訓(xùn)練網(wǎng)絡(luò),即目標(biāo)函數(shù)定義為:
其中:λadv和λFM是正則化的參數(shù),實(shí)驗(yàn)中選擇λadv=1且λFM=1。
對(duì)抗損失函數(shù)定義為:
特征匹配損失定義為:
其中:M表示判別器中的卷積層數(shù),Ni表示第i個(gè)激活層中的元素個(gè)數(shù),D(i)表示判別器第i層的激活值。特征匹配損失函數(shù)LFM通過比較預(yù)測(cè)的低分辨率圖像邊緣與真實(shí)的高分辨率圖像邊緣在各個(gè)中間層的特征圖的相似性來訓(xùn)練網(wǎng)絡(luò),最終使得預(yù)測(cè)的低分辨率圖像邊緣與真實(shí)的高分辨率圖像邊緣近似。
低分辨率圖像識(shí)別網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1 所示,在判別網(wǎng)絡(luò)中,每層卷積之后會(huì)形成圖像的特征圖,對(duì)網(wǎng)絡(luò)所學(xué)習(xí)的邊緣Cpred與高質(zhì)圖像的邊緣Cgt的特征圖進(jìn)行特征匹配(Feature Matching),其輸出值是一個(gè)4 維張量,目的是來計(jì)算特征匹配損失函數(shù)LFM,達(dá)到以假亂真的效果。低分辨率圖像識(shí)別算法當(dāng)中,用GAN 結(jié)構(gòu)學(xué)習(xí)邊緣Cpred使得其與Cgt相近,來得到更準(zhǔn)確的的邊緣信息,將Cpred作為先驗(yàn)信息融合到中進(jìn)行識(shí)別,實(shí)驗(yàn)發(fā)現(xiàn)加入了邊緣先驗(yàn)信息能提高低分率圖像的識(shí)別率。
識(shí)別步驟如下所述:
步驟1 將原始高分辨率圖像Igt下采樣再上采樣生成低分辨率圖像,同時(shí)對(duì)高分辨率圖像和低分辨率圖像分別進(jìn)行邊緣檢測(cè),得到圖像的邊緣Cgt和;
步驟3 將生成的低分辨率圖像邊緣Cpred與低分辨率圖像融合,生成具有邊緣先驗(yàn)信息的新的低分辨率圖像數(shù)據(jù);
步驟5 低分辨率測(cè)試圖像經(jīng)過邊緣生成網(wǎng)絡(luò)和識(shí)別網(wǎng)絡(luò)后得到最終識(shí)別結(jié)果。
實(shí)驗(yàn)中使用了MNIST、EMNIST 和Fashion-mnist 三個(gè)數(shù)據(jù)集,圖像大小為28×28(28像素×28像素),其中訓(xùn)練集各60 000幅圖像,測(cè)試集各10 000圖像,且每個(gè)數(shù)據(jù)集中各有10類。三個(gè)數(shù)據(jù)集中每個(gè)類別的數(shù)量統(tǒng)計(jì)如表1 所示。MNIST、EMNIST 這兩個(gè)數(shù)據(jù)集雖然在圖像尺寸和圖像內(nèi)容上一致,但是MNIST 數(shù)據(jù)集中的數(shù)字比EMNIST 數(shù)字略小,如圖2(a)、(b)所示。
將28×28 的原始圖像Igt分別下采樣為7×7 和3×3 的低分辨率圖像后再上采樣還原為28×28的圖像,并定義該圖像為低分辨率圖像部分實(shí)驗(yàn)數(shù)據(jù)如圖2所示。
表1 各數(shù)據(jù)集類別的數(shù)量統(tǒng)計(jì)Tab.1 Quantity statistics for different categories in each dataset
圖2 實(shí)驗(yàn)數(shù)據(jù)樣本Fig.2 Samples in experimental data
目前Canny 邊緣檢測(cè)算子應(yīng)用最為廣泛,該算法能夠盡可能多地標(biāo)識(shí)出圖像中的實(shí)際邊緣。Rabby 等[19]運(yùn)用了Canny 邊緣檢測(cè)算法對(duì)水果進(jìn)行了識(shí)別與分類,考慮到MNIST、EMNIST 和Fashion-mnist 數(shù)據(jù)集圖像簡(jiǎn)單且無復(fù)雜的背景和紋理,同時(shí)對(duì)比了常用的5 類邊緣檢測(cè)算子Prewitt、Roberts、Sobel、Log 和Canny 的檢測(cè)結(jié)果,如圖3 所示。由圖3可知Canny 算子提取到的圖像邊緣最完整,故本實(shí)驗(yàn)中也用Canny算子對(duì)高分辨率圖像Igt和低分辨率圖像進(jìn)行邊緣提取,獲得邊緣Cgt和。
圖3 不同算子的邊緣檢測(cè)結(jié)果Fig.3 Edge detection results of different operators
邊緣生成網(wǎng)絡(luò)采用GAN 策略生成與高分辨率圖像近似的低分辨率圖像的邊緣。網(wǎng)絡(luò)中各層參數(shù)如表2所示。
在生成網(wǎng)絡(luò)中,不同的殘差塊的數(shù)量對(duì)邊緣生成產(chǎn)生不同的影響。圖4中比較了在MNIST 數(shù)據(jù)集上用7×7 的低分辨率圖像作為輸入,分別采用6 個(gè)殘差塊、8 個(gè)殘差塊和10 個(gè)殘差塊網(wǎng)絡(luò)時(shí),生成網(wǎng)絡(luò)輸出的圖像邊緣。實(shí)驗(yàn)結(jié)果表明,殘差塊越多,生成的圖像邊緣越清晰完整,但需要訓(xùn)練的參數(shù)更多,耗時(shí)更長(zhǎng)。綜合考慮網(wǎng)絡(luò)的參數(shù)數(shù)目和訓(xùn)練時(shí)間,本實(shí)驗(yàn)選擇生成網(wǎng)絡(luò)的殘差塊個(gè)數(shù)為n=8。
表2 邊緣生成網(wǎng)絡(luò)各層參數(shù)Tab.2 Parameters of each layer of adversarial edge learning network
圖4 殘差塊個(gè)數(shù)對(duì)邊緣學(xué)習(xí)的影響Fig.4 Influence of the number of residual blocks on adversarial edge learning
LeNet-5 的識(shí)別網(wǎng)絡(luò)共有7 層,每層網(wǎng)絡(luò)的參數(shù)如表3所示。
生成網(wǎng)絡(luò)生成的圖像邊緣信息可以采用兩種策略加入到低分辨率圖像中:一種方式為像素逐點(diǎn)疊加,即式(6);另一種方式為兩幅圖像拼接,即式(7):
兩種策略生成的樣本經(jīng)過識(shí)別網(wǎng)絡(luò)訓(xùn)練后,得到的識(shí)別率如表4 所示(以MNIST 數(shù)據(jù)集中的7×7、3×3 低分辨率圖像為例)。實(shí)驗(yàn)結(jié)果表明,疊加策略可以得到更高的識(shí)別率。
表3 LeNet-5各層的參數(shù)Tab.3 Parameters of each layer of LeNet-5
表4 疊加和拼接兩種策略的識(shí)別結(jié)果Tab.4 Recognition results of two strategies(stacking and stitching)
利用網(wǎng)絡(luò)的對(duì)抗性學(xué)習(xí)原理,對(duì)于幻想生成的低分辨率圖像的邊緣和其對(duì)應(yīng)高質(zhì)圖像的邊緣,判別網(wǎng)絡(luò)無法做出正確判斷時(shí),本文網(wǎng)絡(luò)訓(xùn)練完成,本文實(shí)驗(yàn)中相應(yīng)的參數(shù)設(shè)置為迭代次數(shù)50 000,學(xué)習(xí)率0.01。對(duì)MNIST、EMNIST和Fashionmnist 三個(gè)數(shù)據(jù)集中的測(cè)試樣本進(jìn)行下采樣和上采樣后分別得到7×7 和3×3 兩個(gè)尺度的低分辨率圖像。經(jīng)過本文提出的低分辨率圖像識(shí)別算法網(wǎng)絡(luò)預(yù)測(cè)學(xué)習(xí)出低分辨圖像的邊緣,然后將邊緣信息和低分辨率圖像相融合的方法送入到LeNet-5 經(jīng)典網(wǎng)絡(luò)中進(jìn)行識(shí)別測(cè)試,得到其對(duì)應(yīng)的識(shí)別率。同時(shí)對(duì)7×7 和3×3 兩個(gè)尺度的低分辨率圖像運(yùn)用超分辨率重建SRCNN(Super Resolution Convolutional Neural Network)經(jīng)典算法[20]進(jìn)行超分辨率重建后送入到LeNet-5 識(shí)別網(wǎng)絡(luò)進(jìn)行識(shí)別得到其對(duì)應(yīng)的識(shí)別率。所測(cè)得到的識(shí)別率均是取其均值并計(jì)算了標(biāo)準(zhǔn)差,兩次實(shí)驗(yàn)結(jié)果對(duì)比匯總,如表5所示,結(jié)果如圖5所示。
表5 低分辨率圖像的識(shí)別結(jié)果Tab.5 Recognition results of low-resolution images
從表5中數(shù)據(jù)分析可以看出:在MNIST 數(shù)據(jù)集中,加入預(yù)測(cè)邊緣后使得3×3圖像的識(shí)別率提高了約8個(gè)百分點(diǎn),實(shí)驗(yàn)結(jié)果較為明顯。在MNIST、EMNIST 和Fashion-mnist三個(gè)數(shù)據(jù)集中,加入預(yù)測(cè)邊緣后使得7×7 圖像的識(shí)別率略有提高。但是在Fashion-mnist 數(shù)據(jù)集中,加入預(yù)測(cè)邊緣后使得3×3 圖像的識(shí)別率反而沒有直接加入Canny 邊緣的識(shí)別率高,說明該數(shù)據(jù)集圖像較其他兩個(gè)數(shù)據(jù)集圖像紋理更豐富,僅運(yùn)用Canny邊緣作為邊緣學(xué)習(xí)生成網(wǎng)絡(luò)基準(zhǔn),這樣用傳統(tǒng)方法得到的邊緣信息不能夠滿足復(fù)雜圖像的邊緣學(xué)習(xí)要求,從而影響了圖像的識(shí)別率。
圖5 實(shí)驗(yàn)結(jié)果Fig.5 Experimental results
從日常監(jiān)控視頻所獲得的低分辨率圖像往往會(huì)夾雜著些許的噪聲,與此同時(shí),考慮到日常生活中噪聲影響,以MNIST數(shù)據(jù)集7×7 為例,對(duì)輸入圖像分別加入密度為0.01,0.02,0.03的椒鹽噪聲并對(duì)其進(jìn)行識(shí)別測(cè)試,識(shí)別結(jié)果如表6和圖6所示。
表6 帶有椒鹽噪聲的MNIST(7×7)圖像識(shí)別結(jié)果Tab.6 Recognition results of MNIST(7×7)images with salt and pepper noise
從圖6 可以直觀地看到,隨著實(shí)驗(yàn)噪聲濃度加大,網(wǎng)絡(luò)生成的邊緣無規(guī)定的形狀,幾乎沒有了完整數(shù)字輪廓,數(shù)字7 最為明顯;從表6 識(shí)別率數(shù)字分析可以看出,加入原有的Canny邊緣得到的識(shí)別率要比通過網(wǎng)絡(luò)得到的預(yù)測(cè)邊緣和低分辨率圖像融合識(shí)別得到的結(jié)果要好很多。結(jié)果表明,加入的椒鹽噪聲會(huì)嚴(yán)重影響實(shí)驗(yàn)預(yù)測(cè)的幻想生成邊緣,導(dǎo)致幻想邊緣嚴(yán)重形變,從而使得識(shí)別率下降,因此邊緣學(xué)習(xí)算法對(duì)噪聲的魯棒性較差,不具備抗噪能力。
圖6 MNIST(7×7)圖像在不同密度噪聲下的邊緣學(xué)習(xí)結(jié)果Fig.6 Adversarial edge learning results of MNIST(7×7)images under different density noise
從網(wǎng)絡(luò)提取特征分析來看,實(shí)驗(yàn)比較了不同數(shù)據(jù)集中7×7 圖像經(jīng)過LeNet-5 第一層的特征圖,以MNIST 數(shù)據(jù)中的數(shù)字0、EMNIST 數(shù)據(jù)中的數(shù)字5 和Fashion-mnist 數(shù)據(jù)中的一款靴子為例,結(jié)果如圖7所示。
圖7 各類數(shù)據(jù)集上特征圖比對(duì)Fig.7 Feature map comparison on various datasets
從圖7可以看出:對(duì)MNIST數(shù)字0和EMNIST數(shù)字5分析,由于它自生的信息比較單一,加入邊緣先驗(yàn)信息后它所提到的特征輪廓甚是明顯,而Fashion_mnist自身信息較為豐富,網(wǎng)絡(luò)特征提取只能夠提取到它的外部輪廓,并沒有前面提取到的特征明顯,對(duì)比發(fā)現(xiàn),加入邊緣信息后得到的特征圖紋理輪廓更加清晰,網(wǎng)絡(luò)所提取到的圖像特征信息更豐富,因此,引入圖像邊緣信息是可以提高低分辨率圖像的識(shí)別率。本文所加入的邊緣信息是對(duì)所有分類識(shí)別都有促進(jìn)作用還是單純地只針對(duì)某一類數(shù)據(jù)起作用?為了解決該疑惑,在實(shí)驗(yàn)過程中保存了識(shí)別網(wǎng)絡(luò)模型參數(shù),并分別畫出了各類數(shù)據(jù)集中7×7和3×3圖像無邊緣信息所對(duì)應(yīng)的ROC曲線圖和融合邊緣信息后的ROC 曲線圖,結(jié)果如圖8~10 所示。以圖9(c)和圖9(d)的類別0 和類別2 來說,它的總體識(shí)別是較高的,類別0 加入邊緣先驗(yàn)信息后識(shí)別變高了0.001 6,但類別2 卻降了0.003。由數(shù)據(jù)分析可知,邊緣信息對(duì)每個(gè)類別識(shí)別率的貢獻(xiàn)不同,有些類別加入邊緣后識(shí)別率升高,但是有些類別加入邊緣信息后反而會(huì)降低識(shí)別率,這說明從這類樣本中并沒有學(xué)到有效的邊緣信息。
圖8 MNIST數(shù)據(jù)集上的ROC曲線Fig.8 ROC curves on MNIST dataset
圖9 EMNIST數(shù)據(jù)集上的ROC曲線Fig.9 ROC curves on EMNIST dataset
圖10 Fashion-mnist數(shù)據(jù)集上的ROC曲線Fig.10 ROC curves on Fashion-mnist dataset
本文針對(duì)低分辨率圖像的識(shí)別問題,提出了一種基于GAN 結(jié)構(gòu)的邊緣學(xué)習(xí)低分辨率圖像識(shí)別算法,將通過生成網(wǎng)絡(luò)學(xué)習(xí)到的低分辨率圖像的幻想邊緣信息融入到識(shí)別網(wǎng)絡(luò)中,得到清晰的特征圖紋理輪廓,從而豐富了低分辨率圖像的高頻信息。結(jié)果表明,所提算法在MNIST 和EMNIST 數(shù)據(jù)集中識(shí)別率提高較為明顯,但在較為復(fù)雜的Fashion-mnist 數(shù)據(jù)集中過低分辨率圖像的識(shí)別率不升反降。當(dāng)圖像受椒鹽噪聲干擾時(shí),邊緣學(xué)習(xí)網(wǎng)絡(luò)的輸出結(jié)果受噪聲干擾嚴(yán)重,無法準(zhǔn)確獲得低質(zhì)圖的邊緣,導(dǎo)致低分辨率圖像識(shí)別率急劇下降,實(shí)驗(yàn)表明本文提出的邊緣學(xué)習(xí)網(wǎng)絡(luò)的抗噪能力較差。在今后的工作中,受噪聲干擾的復(fù)雜紋理低分辨率圖像的識(shí)別是進(jìn)一步的研究目標(biāo)。