李瑞東 劉?!瞽h(huán)
摘要:? 針對傳統(tǒng)圖像質(zhì)量評價模型在屏幕內(nèi)容圖像上存在的無法取得滿意結(jié)果的問題,本文提出一種基于深度學(xué)習(xí)模型的屏幕內(nèi)容圖像評價模型。首先將屏幕內(nèi)容圖像進(jìn)行歸一化處理,用局部二值化(local binary pattern,LBP)算法旋轉(zhuǎn)不變均勻模式求得特征圖,并運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)對局部二值化特征圖進(jìn)行質(zhì)量評價。為驗(yàn)證所提出的屏幕內(nèi)容圖像質(zhì)量評價模型的準(zhǔn)確性,采用斯皮爾曼秩相關(guān)系數(shù)和皮爾斯線性相關(guān)系數(shù)兩種流行的評估標(biāo)準(zhǔn)進(jìn)行驗(yàn)證。驗(yàn)證結(jié)果表明,本文模型與傳統(tǒng)的質(zhì)量評價模型相比具有明顯的優(yōu)勢,表明本模型比大多數(shù)現(xiàn)有的圖像質(zhì)量評估(image quality assessment,IQA)模型更符合主觀評估結(jié)果,相比于其他評價模型更具有競爭性。該研究為提升評估結(jié)果的精準(zhǔn)度提供了理論依據(jù)。
關(guān)鍵詞:? 圖像質(zhì)量評價; 屏幕內(nèi)容圖像; LBP; 卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號: TP391.413; TN911.73文獻(xiàn)標(biāo)識碼: A
目前,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展及現(xiàn)代多媒體通信終端的普及,使用戶能夠執(zhí)行許多復(fù)雜的通信任務(wù),這些移動終端在使用期間呈現(xiàn)給消費(fèi)者的可視內(nèi)容,不再是單一的自然圖像,而是包含文本、圖像、地圖和計(jì)算機(jī)生成的圖形等混合圖像,類似于上述視覺內(nèi)容的圖像通常被稱為屏幕圖像。屏幕圖像在產(chǎn)生、處理及傳輸過程中都不可避免的產(chǎn)生失真,造成圖像質(zhì)量的下降,最終影響用戶體驗(yàn)。在已有的研究中,許多客觀的圖像質(zhì)量評估方法被提出,較為簡便的方法有峰值信噪比(peak signaltonoise ratio,PSNR)[1]與均方誤差(mean squared error,MSE),根據(jù)像素值強(qiáng)度的差異進(jìn)行質(zhì)量預(yù)測;著名的有結(jié)構(gòu)相似性(structural similarity,SSIM)[2]模型,此模型分別計(jì)算亮度、對比度和結(jié)構(gòu)相似性,考慮到圖像是因結(jié)構(gòu)而產(chǎn)生失真,而不是像素之間的差異;Xue W等人[3]構(gòu)建了針對圖像梯度幅值相似度標(biāo)準(zhǔn)差(gradient magnitude similarity deviation,GMSD)[4]模型,此模型不但提升了評估結(jié)果的精準(zhǔn)度,還極大程度上簡化了計(jì)算步驟。這些評估方法在自然圖像質(zhì)量評估上表現(xiàn)良好,但在屏幕圖像質(zhì)量評估上取得的成績并不好,其原因是屏幕內(nèi)容圖像具有比自然圖像更復(fù)雜的構(gòu)圖。屏幕內(nèi)容圖像不僅包含自然圖像,還添加了計(jì)算機(jī)生成的文本、圖形和圖標(biāo)等各種組件,這導(dǎo)致屏幕圖像通常包含非常鋒利的邊緣、相對簡單的形狀、具有少量顏色的細(xì)線、甚至單像素寬的單色線[4]。因此,屏幕內(nèi)容圖像的質(zhì)量評價不應(yīng)與自然圖像一樣以整體為單位進(jìn)行預(yù)測。近年來,也有一些對屏幕內(nèi)容圖像的研究,Yang H等人[5]根據(jù)屏幕圖像內(nèi)文字與圖像部分視覺誤差,提出可率先分別評估屏幕圖像內(nèi)的文字與圖像部分,然后再通過加權(quán)融合處理來評價屏幕圖像。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,研究人員提出了許多深度學(xué)習(xí)網(wǎng)絡(luò)來解決圖像質(zhì)量評估問題,并且具有優(yōu)于傳統(tǒng)算法的性能。將屏幕圖像直接運(yùn)用現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)模型(convolutional neural network,CNN)進(jìn)行學(xué)習(xí)訓(xùn)練時,由于屏幕圖像的特殊及復(fù)雜的結(jié)構(gòu)特點(diǎn),網(wǎng)絡(luò)模型很難同時學(xué)習(xí)和區(qū)分不同區(qū)域的特征,從而不能準(zhǔn)確的進(jìn)行評估。此外,深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程需要大量數(shù)據(jù),現(xiàn)有圖像數(shù)據(jù)庫中的樣本有限,可通過將圖像切割成圖像塊,將圖像塊作為卷積神經(jīng)網(wǎng)絡(luò)模型中的訓(xùn)練樣本[6],以解決訓(xùn)練樣本不足的問題?;诖耍疚奶岢鲆环N基于局部二值化算法(local binary pattern,LBP)[7]的屏幕圖像質(zhì)量評價CNN模型。該模型與傳統(tǒng)的質(zhì)量評價模型相比具有明顯的優(yōu)越性。
1屏幕內(nèi)容圖像數(shù)據(jù)庫
本文在屏幕內(nèi)容圖像數(shù)據(jù)庫(screen image quality assessment database,SIQAD)[5]中驗(yàn)證提出方法的準(zhǔn)確性。SIQAD包含20張參考圖像,每張圖像具有7種失真類型,包括高斯噪聲(gaussian noise,GN)、高斯模糊(gaussian blur,GB)、運(yùn)動模糊(motion blur,MB)、對比度變化(contrast change,CC)、JPEG(JPEG Compression)壓縮、JPEG2000壓縮(JPEG2000 Compression)和基于分層的壓縮(layer segmentationbacked coding,LSC),每種失真類型包括7個等級。因此,SIQAD中有980張失真的屏幕內(nèi)容圖像,而且每張圖像都有專業(yè)評審人員進(jìn)行的主觀質(zhì)量評價得分。截取SIQAD中一副屏幕內(nèi)容圖像,其中,參考屏幕內(nèi)容圖像如圖1所示,高斯噪聲失真圖像如圖2所示,對比度變化失真圖像如圖3所示,JPEG壓縮失真圖像如圖4所示。
2特征
LBP是一種描述圖像特征像素點(diǎn)與各個像素點(diǎn)之間灰度關(guān)系的局部特征非參數(shù)算法,同時也是一張高效的紋理描述算法。在計(jì)算LBP特征圖之前,先將圖像進(jìn)行歸一化處理,令I(lǐng)(i,j)表示圖像(i,j)處的像素值,歸一化值(i,j)計(jì)算方式為
式中,i∈(1,2,…,m);j∈(1,2,…,n);i和j表示圖像的長度和寬度;μ為平均值;σ為歸一化窗口中強(qiáng)度值的方差;C表示一個常數(shù),為了防止除數(shù)為0,在這里將其設(shè)置為1。
采取旋轉(zhuǎn)不變均勻的LBP,普通LBP的計(jì)算方式為
式中,R和L表示相鄰像素的數(shù)量和與相鄰像素距離的半徑;i表示R個圓形對稱相鄰像素的像素值,i∈(0,1,…,R-1);c表示局部區(qū)域中心像素的像素值。旋轉(zhuǎn)不變均勻LBP算法為
式中,λ表示數(shù)位轉(zhuǎn)換[8]。
根據(jù)上述方法,得到屏幕圖像的旋轉(zhuǎn)不變均勻LBP特征圖,將其切割為若干個大小為32×32的圖像塊,將圖像塊作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。
3CNN模型
本文設(shè)計(jì)了一個端到端的CNN模型,CNN模型如圖5所示。該模型以32×32的圖像塊作為輸入;第1層為卷積層,具有30個大小為7×7的內(nèi)核,步長為1像素,得到30個大小為26×26的特征圖;第2層為池化層,具有3部分:最大值、最小值和平均值,以3×3為窗口,步長為2,得到3組13×13×30的特征圖;第4層為池化層,具有3部分:最大值、最小值和平均值,以2×2為窗口,步長為2像素,得到3組4×4×90的特征圖。將得到的特征圖進(jìn)行匯集處理,得到一個2 880×1的矢量特征;第5層~第7層為全連接層,節(jié)點(diǎn)個數(shù)分別為4 096,4 096和1 024;最后回歸為一個值,該值為輸入圖像塊的質(zhì)量評價得分。
圖5CNN模型為確保圖像塊的預(yù)測得分與原圖像的主管評分具有線性關(guān)系,在最后的輸出層采用支持向量機(jī)回歸(support vactor regerssion,SVR)[9],最終目標(biāo)函數(shù)定義為
L=1M∑Mm=1‖f(Pi)-Qi‖l2(6)
式中,L為損失函數(shù);Pi表示輸入的圖像塊;f(·)為非線性函數(shù);Qi為輸入補(bǔ)丁原圖像的主管得分;M為每批輸入圖像塊的總數(shù)。
為了更好地保留圖像中的有用信息,使模型預(yù)測結(jié)果更加精準(zhǔn),在網(wǎng)絡(luò)的3個全連接層中,使用線性整流函數(shù)(rectified linear unit,Relu)作為激活函數(shù)[10],描述如下
式中,xi表示Relu的輸入;g表示Relu的輸出;wi表示Relu的權(quán)重[11]。
本實(shí)驗(yàn)隨機(jī)選擇了SIQAD中80%的失真圖像作為CNN模型的訓(xùn)練集,10%的失真圖像作為驗(yàn)證集,10%的失真圖像作測試集[12]。模型是在Matlab中的Caffe工具箱進(jìn)行搭建[13]。CNN模型在訓(xùn)練過程中,將基本學(xué)習(xí)率設(shè)置為001,學(xué)習(xí)速率衰減量設(shè)置為09,動量初始值為09,逐漸下降后最終保持在05[14]。
4匯集質(zhì)量評價得分
得到每個圖像塊的質(zhì)量得分Qi后,即可計(jì)算整幅屏幕內(nèi)容圖像的質(zhì)量評價得分,采取的匯集方式為平均每張圖像塊的質(zhì)量得分[15]。最終屏幕內(nèi)容圖像的評價得分為
S=∑mm=1Qi/m(8)
式中,m為該屏幕內(nèi)容圖像分割成的圖像塊數(shù)量。
5實(shí)驗(yàn)結(jié)果
SIQAD中的失真屏幕內(nèi)容圖像都具有主觀評價得分,評價模型所預(yù)測的得分與主觀評價得分越接近,則說明該預(yù)測模型的性能越優(yōu)越。圖像質(zhì)量評價性能可由幾個常用的指標(biāo)表示。使用兩種流行的評估標(biāo)準(zhǔn)來驗(yàn)證所提出的屏幕內(nèi)容圖像質(zhì)量評價模型的準(zhǔn)確性,這兩種方法是斯皮爾曼秩相關(guān)系數(shù)(spearman rank correlation coefficient,SROCC)和皮爾斯線性相關(guān)系數(shù)(pearson linear correlation coefficient,PLCC)[16]。
SROCC主要測量兩組數(shù)據(jù)的秩相關(guān),PLCC主要測量兩組數(shù)據(jù)之間的線性相關(guān)。SROCC為
SROCC=1-\[6∑ni=1d2i/n(n2-1)\](9)
式中,n表示測試圖像的總數(shù);di表示第i個圖像的模型預(yù)測得分的排名與主觀評價得分的排名之間差值。SROCC的范圍是[0,1],數(shù)值越高,表示算法的精度越高。PLCC為
PLCC=∑ni=1(yi-yk)(i-k)/∑ni=1(yi-yk)2∑ni=1(i-k)2(10)
式中,yi和i分別表示第i個圖像的主觀評價得分和模型預(yù)測得分;yk和k分別表示所有yi和i的均值。PLCC的范圍是[0,1],數(shù)值越高,表示算法的精度越高。
本文所提出的模型與幾種優(yōu)秀的傳統(tǒng)質(zhì)量評價模型進(jìn)行比較,傳統(tǒng)質(zhì)量評價模型包括峰值信噪比(peak signaltonoise ratio,PSNR)[1],結(jié)構(gòu)相似性(structural similarity,SSIM)[2],特征相似性(feature similarity,F(xiàn)SIM)[17],梯度幅度相似性偏差(gradient magnitude similarity deviation,GMSD)[3]和SCI感知質(zhì)量評估(sci perceptual quality assessment,SPQA)[5]。本文模型與多種評價模型的性能對比如表1所示。
由表1可以看出,本文提出的預(yù)測模型,SROCC值為0862 4,PLCC值為0879 5。相比于傳統(tǒng)的3種簡單的評價方法PSNR、SSIM及FSIM,本文提出方法具有明顯的優(yōu)勢。而相比于目前流行的高效方法GMSD以及針對屏幕內(nèi)容圖像質(zhì)量評價方法SPQA,本文提出的方法,SROCC值和PLCC值略高于上述兩種方法,可見本文提出的方法具有優(yōu)秀的性能,相比于其他評價模型具有競爭性。
由表2可以看出,以LBP特征圖作為樣本比原始圖像作為樣本性能更優(yōu)異。原始圖像作為樣本時,圖像質(zhì)量評價的結(jié)果只取決于CNN模型的設(shè)計(jì);以原圖像的LBP特征圖作為輸入時,事先突出了顯示圖像容易被辨識的紋理特征,使CNN模型更加直接的對引起失真的紋理差異進(jìn)行學(xué)習(xí)訓(xùn)練。
由此可以證明,以LBP紋理圖像作為卷積神經(jīng)網(wǎng)絡(luò)的樣本時,可以提高圖像的質(zhì)量評價結(jié)果。
6結(jié)束語
本文提出的傳統(tǒng)圖像特征與深度學(xué)習(xí)模型相結(jié)合的方法雖取得不錯的實(shí)驗(yàn)結(jié)果,但屏幕內(nèi)容圖像質(zhì)量評價仍然是圖像質(zhì)量評價領(lǐng)域中具有挑戰(zhàn)性的新穎課題,還有許多方面需要進(jìn)一步完善。運(yùn)用旋轉(zhuǎn)不變均勻的LBP算法將圖像進(jìn)行預(yù)處理,得到的LBP特征圖作為CNN模型的輸入,相比于直接將圖像進(jìn)行訓(xùn)練學(xué)習(xí),此法可使CNN模型更加直接和準(zhǔn)確的學(xué)習(xí)圖像的紋理特征。本研究所設(shè)計(jì)的端到端CNN模型以圖像塊為輸入,而不是以整幅圖像為輸入,解決了訓(xùn)練樣本不足的問題。在后續(xù)工作中,將繼續(xù)提升CNN模型的結(jié)構(gòu),探究更加合理的訓(xùn)練方式和匯集策略。
參考文獻(xiàn):
[1]Wang Z, Bovik A C. Modern image quality assessment[M]. San Rafael, CA, USA: Morgan and Claypool, 2006.
[2]Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600612.
[3]Xue W, Zhang L, Mou X, et al. Gradient magnitude similarity deviation: A highly efficient perceptual image quality index[J]. IEEE Transactions on Image Processing, 2014, 23(2): 684695.
[4]Yi Z, Chandler D M, Xuanqin M. Quality assessment of screen content images via convolutionalneuralnetworkbased synthetic/natural segmentation[J]. IEEE Transactions on Image Processing, 2018, 27(10): 11.
[5]Yang H, Fang Y, Lin W. Perceptual quality assessment of screen content images[J]. IEEE Transactions on Image Processing, 2015, 24(11): 44084421.
[6]Kang L, Ye P, Li Y, et al. Convolutional neural networks for nofeference image quality assessment[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE Computer Society, 2014: 17331740.
[7]Fang Y, Yan J, Li L, et al. No reference quality assessment for screen content images with both local and global feature representation[J]. IEEE Transactions on Image Processing, 2018, 27(4): 16001610.
[8]Beamer L J, Carroll S F, Eisenberg D. The BPI/LBP family of proteins: a structural analysis of conserved regions[J]. Protein Science, 2008, 7(4): 906914.
[9]Smola A J, Bernhard S. A tutorial on support vector regression[J]. Statistics and Computing, 2004, 14(3): 199222.
[10]Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]∥Intemational Conference on Leaming. ICML, 2010: 807814.
[11]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]∥Conference and Workshop on Neural Information Processing Systems. Lake Tahoe, Spain: NIPS, 2012.
[12]Sheikh H R, Bovik A C, de Veciana G. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14(12): 21172128.
[13]Li C, Bovik A, Wu X. Blind image quality assessment using a general regression neural network[J]. IEEE Transactions on Neural Networks, 2011, 22(5): 793799.
[14]Ciresan D C, Meier U, Schmidhuber J. Multicolumn deep neural networks for image classification[J]. In Computer Vision and Pattern Recognition, 2012: 36423649.
[15]Wang Z, Li Q. Information content weighting for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2011, 20(5): 11851198.
[16]Ye J, Bhagat S K, Li H M, et al. Differentiation between recurrent gliomas and radiation necrosis using arterial spin labeling perfusion imaging[J]. Experimental & Therapeutic Medicine, 2016, 11(6): 24322436.
[17]Zhang L, Zhang L, Mou X, et al. A feature similarity index for image quality assessment[J]. IEEE Trans Image Process, 2011, 20(8): 23782386.
CNN Model for Screen Content Image Assessment Based on LBP
LI Ruidong, LIU Hai, YANG Huan
(College of Computer Science & Technology,? Qingdao University, Qingdao 266071, China)Abstract:? Due to the fact that traditional image quality assessment model cannot obtain satisfactory results on the screen content image,? this paper proposes a screen content image assessment model based on the deep learning model. First,? the screen content image is normalized,? and the local binary pattern (LBP) algorithm is used to obtain the feature map by rotating the invariant uniform pattern. The convolutional neural network is used to evaluate the quality of the local binary feature map. In order to verify the accuracy of the proposed screen content image quality assessment model,? Spearman′s rank correlation coefficient and Pierce′s linear correlation coefficient are used for verification. The verification results show that the model in this paper has obvious advantages compared with traditional quality assessment models,? indicating that this model is more in line with the subjective assessment results than most existing image quality assessment (IQA) methods. Compared with other models,? the model is more competitive. This study provides a theoretical basis for improving the accuracy of the assessment results.
Key words:? image quality assessment; screen content image; LBP; convolutional neural network
收稿日期: 2020-02-11; 修回日期: 2020-03-09
基金項(xiàng)目:? 青島市應(yīng)用研究資助項(xiàng)目(2016025)
作者簡介:? 李瑞東(1994-),男,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺。
通信作者:? 楊環(huán),女,博士,碩士生導(dǎo)師,主要研究方向?yàn)槿斯ぶ悄芎陀?jì)算機(jī)視覺等。? Email: cathy_huanyang@hotmail.com