豐明坤 趙生妹 邢 超
?
基于視覺顯著失真度的圖像質(zhì)量自適應(yīng)評(píng)價(jià)方法
豐明坤*①②趙生妹①邢 超①
①(南京郵電大學(xué)信號(hào)處理與傳輸研究院 南京 210003)②(浙江科技學(xué)院信息與電子工程學(xué)院 杭州 310023)
針對(duì)結(jié)構(gòu)相似(SSIM)圖像質(zhì)量評(píng)價(jià)算法沒有考慮人眼視覺多通道性和對(duì)圖像高失真評(píng)價(jià)的不穩(wěn)定性,提出一種基于視覺顯著失真度的圖像質(zhì)量自適應(yīng)融合(VSAP)評(píng)價(jià)方法。該方法首先采用log-Gabor濾波提取圖像的高頻、中頻及低頻3層視覺特征,基于log-Gabor變換尺度和方向權(quán)重系數(shù)計(jì)算特征值的相似度;然后基于視覺閾值多分辨性迭加計(jì)算出特征值的失真度;最后,根據(jù)視覺失真度自適應(yīng)融合相似度評(píng)價(jià)與失真度評(píng)價(jià)獲得圖像質(zhì)量的最終客觀評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明,VSAP方法不但對(duì)圖像不同類型失真的客觀評(píng)價(jià)與主觀感知具有更高的相關(guān)性,而且3個(gè)主要指標(biāo)斯皮爾曼等級(jí)相關(guān)系數(shù)(SROCC)、曲線擬合相關(guān)系數(shù)(CC)和均方根誤差(RMSE)對(duì)圖像不同水平失真的整體評(píng)價(jià)性能更穩(wěn)定,明顯優(yōu)于其它評(píng)價(jià)方法。
圖像質(zhì)量評(píng)價(jià);計(jì)算機(jī)視覺;log-Gabor濾波器;視覺顯著;自適應(yīng)融合
隨著圖像應(yīng)用技術(shù)的發(fā)展,圖像質(zhì)量評(píng)價(jià)的研究引起了人們的關(guān)注,該研究分為主觀評(píng)價(jià)和客觀評(píng)價(jià)兩種方法,前者通過測(cè)試者的主觀感知來評(píng)價(jià)圖像的質(zhì)量;后者則依據(jù)計(jì)算機(jī)模擬人類視覺系統(tǒng)建模研究圖像質(zhì)量。客觀方法以其速度快、實(shí)時(shí)性強(qiáng)而成為了研究重點(diǎn)。在全參考圖像質(zhì)量客觀評(píng)價(jià)研究領(lǐng)域中,人類視覺系統(tǒng)(Human Visual System, HVS)建模方法比峰值信噪比(Peak Signal to Noise Ratio, PSNR)類方法具有較高的準(zhǔn)確度。Dalay模型[6]和Lubin模型[7]基于每個(gè)視覺通道的感知門限檢測(cè)概率評(píng)價(jià)圖像。文獻(xiàn)[8]基于基準(zhǔn)、亮度和掩膜的歸一化因子使用Minkowski度量進(jìn)行評(píng)價(jià)。文獻(xiàn)[9]則利用離散余弦和小波變換模擬人眼評(píng)價(jià)圖像質(zhì)量。文獻(xiàn)[10]優(yōu)化了評(píng)價(jià)參數(shù)。HVS方法的缺點(diǎn)是建模效率較低,并且較少考慮圖像自身的失真特性。
近些年基于系統(tǒng)論提出了一些新的方法。文獻(xiàn)[11]提出的SSIM(StructuralSIMilarity)方法基于圖像結(jié)構(gòu)相關(guān)性評(píng)價(jià)其質(zhì)量。文獻(xiàn)[12]提出的信息保真度準(zhǔn)則(Information Fidelity Criterion, IFC)方法基于失真圖像和參考圖像共享信息量的大小進(jìn)行質(zhì)量評(píng)價(jià)。文獻(xiàn)[13]提出的奇異值分解 (Singular Value Decomposition, SVD)算法基于參考圖像和失真圖像奇異值的差值評(píng)價(jià)圖像質(zhì)量。文獻(xiàn)[14]將圖像分離出頻率失真度量 (Distortion Measure, DM) 和加性噪聲失真度量(Noise Quality Measure, NQM)并分別進(jìn)行評(píng)價(jià)。系統(tǒng)論方法的優(yōu)點(diǎn)是基于圖像的語義信息進(jìn)行質(zhì)量評(píng)價(jià),建模效率較高,但缺點(diǎn)是沒有考慮HVS的多通道特性。
當(dāng)前,比較多的研究將HVS特性融入圖像高層系統(tǒng)論,取得了較好的評(píng)價(jià)效果。文獻(xiàn)[15]提出的多尺度結(jié)構(gòu)相似度(Multi-Scale Structural SIMilarity, MS-SSIM)算法融合了圖像多個(gè)尺度上的SSIM評(píng)價(jià)。文獻(xiàn)[16]提出的特征相似度(Feature SIMilarity, FSIM)算法則基于相位一致性特征評(píng)價(jià)圖像質(zhì)量。文獻(xiàn)[17]提出了基于局部統(tǒng)計(jì)結(jié)構(gòu)相關(guān)(StatisticalLocal Correlation, SLC)算法。文獻(xiàn)[18]提出了圖像奇異值分解的結(jié)構(gòu)相似度評(píng)價(jià)算法。文獻(xiàn)[19]提出的視覺顯著索引(Visual Saliency Index, VSI)算法在視覺顯著圖(Graph-Based Visual Saliency, GBVS)變換域計(jì)算圖像的SSIM值。文獻(xiàn)[20]提出的視覺信息保真度(Visual Information Fidelity, VIF)算法則評(píng)價(jià)圖像視覺稀疏特征的相似度。這些改進(jìn)方法的缺點(diǎn)是圖像視覺特征算法不統(tǒng)一,且不能自適應(yīng)地融合最佳評(píng)價(jià)策略。
該領(lǐng)域目前仍然存在的問題是針對(duì)圖像不同類型失真和不同程度失真的評(píng)價(jià),沒有一種方法整體上保持較好的評(píng)價(jià)性能。針對(duì)該問題,并借鑒HVS特性及SSIM類改進(jìn)算法的成果,本文提出一種基于圖像視覺失真度顯著的自適應(yīng)融合(Visual Salience Adaptive Pooling, VSAP)評(píng)價(jià)方法。VSAP首先采用2維log-Gabor變換模擬人眼提取圖像視覺顯著特征,然后將HVS對(duì)比度敏感函數(shù)和中央凹融入評(píng)價(jià),分別計(jì)算失真圖像和參考圖像的視覺結(jié)構(gòu)相似度和視覺失真度,最后基于圖像失真度自適應(yīng)地融合了相似度評(píng)價(jià)和失真度評(píng)價(jià)。
基于圖像失真度自適應(yīng)融合的VSAP方法可用圖1描述。該方法首先對(duì)圖像進(jìn)行l(wèi)og-Gabor變換模擬人眼提取圖像的多通道視覺顯著圖特征,然后設(shè)計(jì)視覺結(jié)構(gòu)相似度(Visual Structural SIMilarity, VSSIM)算法和視覺閾值迭加自適應(yīng)(Visual Threshold Iteratively Adaptive, VTIA)算法分別計(jì)算失真圖像和參考圖像的相似度與失真度,最后基于圖像失真度函數(shù)自適應(yīng)地融合VSSIM與VTIA獲得圖像質(zhì)量評(píng)價(jià)VSAP值。其中,VSSIM算法首先獨(dú)立計(jì)算對(duì)應(yīng)通道的相似度值;然后在每個(gè)視覺尺度上,基于視覺方向權(quán)重系數(shù)加權(quán)融合值,獲得該視覺尺度通道的相似度值;最后基于視覺尺度權(quán)重系數(shù)加權(quán)融合,獲得最終相似度測(cè)量VSSIM值。VTIA算法則按照VSSIM算法相似的流程計(jì)算失真度MSE。兩者不同之處在于VTIA每一步融合過程均多考慮了視覺中央凹效應(yīng),且VSSIM融合采用乘積的方式,而VTIA則采用迭加求和的方式。
圖1 VSAP方法原理
HVS通常根據(jù)圖像自身失真度,自適應(yīng)地調(diào)節(jié)視覺分辨率并融合多重評(píng)價(jià)方法,因此,VSAP方法統(tǒng)一并自適應(yīng)地融合了VSSIM和VTIA的評(píng)價(jià)結(jié)果,可用式(1)表示:
2.1 log-Gabor變換的視覺特性
log-Gabor小波具有以下優(yōu)點(diǎn):(1)空域和頻域聯(lián)合測(cè)不準(zhǔn)下限;(2)頻譜覆蓋寬;(3)高頻端延長的尾巴符合自然圖像統(tǒng)計(jì)特性;(4)對(duì)數(shù)結(jié)構(gòu)吻合HVS特性[16]。
2維log-Gabor是1維log-Gabor的徑向高斯平滑擴(kuò)展,其頻域函數(shù)為[16]
2.2 圖像視覺相似度VSSIM算法
圖2 VSSIM算法原理
其中,視覺尺度調(diào)制和視覺方向調(diào)制分別如下:
(1)視覺尺度調(diào)制:圖像中頻、高頻及低頻視覺特征對(duì)評(píng)價(jià)結(jié)果的影響不同,據(jù)此,基于對(duì)比度敏感函數(shù)定義視覺尺度權(quán)重系數(shù)[21]:
(2)視覺方向調(diào)制:log-Gabor具有良好的視覺方向性,據(jù)此,定義視覺方向權(quán)重系數(shù)[21]:
2.3圖像視覺失真度VTIA算法
圖3 VTIA方法
失真閾值判決準(zhǔn)則為
(2)視覺中央凹調(diào)制: 文獻(xiàn)[22]的中央凹理論認(rèn)為:中央凹中心區(qū)域的空間分辨率高于非中心區(qū)域的分辨率。文獻(xiàn)[23]將這種特性表示成如式(17)所示的空間函數(shù):
疊加所有通道的失真度,可得最終評(píng)價(jià)結(jié)果VTIA為
本實(shí)驗(yàn)采用LIVE數(shù)據(jù)庫,該庫包含以下5種典型失真:(1)JPEG壓縮;(2)JPEG2000壓縮;(3)WN白噪聲;(4)gblur高斯模糊;(5)fastfading移動(dòng)信道。根據(jù)視頻質(zhì)量專家組VQEG規(guī)范化標(biāo)準(zhǔn)測(cè)試3個(gè)指標(biāo):(1)反映主、客觀評(píng)價(jià)結(jié)果數(shù)據(jù)相關(guān)性的斯皮爾曼等級(jí)相關(guān)系數(shù)SROCC指標(biāo);(2)基于非線性數(shù)據(jù)擬合回歸算法的相關(guān)系數(shù)CC;(3)擬合均方根誤差RMSE。實(shí)驗(yàn)過程保持嚴(yán)格同等條件,每個(gè)方法每次測(cè)試都從同一初始參數(shù)開始。
3.1基于圖像不同失真類型的實(shí)驗(yàn)結(jié)果
表1是VSAP方法和其它方法基于圖像不同失真類型的非線性數(shù)據(jù)擬合回歸算法的Pearson相關(guān)系數(shù)CC和均方根誤差RMSE實(shí)驗(yàn)結(jié)果,CC衡量預(yù)測(cè)的準(zhǔn)確性,越接近1則說明數(shù)據(jù)擬合一致性越好,RMSE是標(biāo)準(zhǔn)非線性擬合的準(zhǔn)確度,RMSE越小說明擬合精度越高。表1中加粗?jǐn)?shù)字表示性能較好,結(jié)果顯示VSAP方法的CC和RMSE指標(biāo)對(duì)于各類圖像失真都能保持較好的預(yù)測(cè)相關(guān)性和精度,且整體評(píng)價(jià)性能(RMSE=6.104, CC=0.965)明顯優(yōu)于其它方法。
表1 VSAP方法及其它方法的均方根誤差RMSE和相關(guān)系數(shù)CC比較
表2中SROCC指標(biāo)的實(shí)驗(yàn)結(jié)果越接近1說明該方法的主、客觀相關(guān)性越好。表中加粗?jǐn)?shù)字表示性能較高,結(jié)果說明了VSAP方法對(duì)各類失真的客觀評(píng)價(jià)與主觀感知相對(duì)其它方法保持了較高的相關(guān)性,且整體評(píng)價(jià)性能明顯優(yōu)于其它方法(SROCC= 0.963,高于FSIM方法0.2個(gè)百分點(diǎn))。
表2 VSAP方法及其它方法的SROCC比較結(jié)果
3.2基于圖像不同失真程度的實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)依據(jù)平均主觀分值(Mean Opinion Scores, MOS)將圖像失真劃分為低()、中()、高() 3個(gè)失真水平,對(duì)每個(gè)失真水平保持統(tǒng)一的實(shí)驗(yàn)初值條件,對(duì)不同失真水平的評(píng)價(jià),只有當(dāng)3個(gè)指標(biāo)RMSE, CC和SROCC都保持較高的水平時(shí),才能說明該方法性能較好。表3中加粗?jǐn)?shù)字表示性能較低,結(jié)果表明多數(shù)方法對(duì)圖像高失真的評(píng)價(jià)性能不穩(wěn)定,與主觀感知相關(guān)性較低,MSSIM的SROCC也僅有0.544。本文VSAP方法對(duì)圖像高失真水平的評(píng)價(jià)性能,相對(duì)其它方法有了明顯的提升(RMSE=6.004, CC=0.625, SROCC=0.638),也是唯一對(duì)不同水平失真整體評(píng)價(jià)保持較好穩(wěn)定性能的方法。
表3 VSAP方法及其它方法基于圖像不同失真度的測(cè)試
圖4是VSAP方法和其它兩個(gè)方法的主客觀測(cè)試結(jié)果散點(diǎn)及非線性回歸圖,圖4(a)是基于視覺閾值信噪比的圖像質(zhì)量評(píng)價(jià)方法,圖4(b)是基于結(jié)構(gòu)相關(guān)的圖像質(zhì)量評(píng)價(jià)方法,圖4(c)圖是基于圖像失真度自適應(yīng)融合的質(zhì)量評(píng)價(jià)方法。圖4結(jié)果顯示VSAP方法擬合曲線的評(píng)價(jià)結(jié)果整體分布較為均勻,預(yù)測(cè)的線性度較為準(zhǔn)確,每個(gè)測(cè)量結(jié)果的散點(diǎn)圍繞擬合曲線均勻集中分布說明VSAP方法的評(píng)價(jià)精度高。
圖4 VSAP及其它方法的主客觀評(píng)價(jià)散點(diǎn)圖
利用log-Gabor變換的視覺顯著性,計(jì)算圖像多通道相似度和失真度,并結(jié)合HVS的視覺方向、視覺尺度調(diào)制效應(yīng)及中央凹融合獲得失真圖像和參考圖像的相似度與失真度測(cè)量結(jié)果,最后提出的VSAP融合評(píng)價(jià)基于圖像失真度自適應(yīng)地融合了相似度與失真度,實(shí)驗(yàn)結(jié)果說明該方法評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)較為吻合,整體上精度比其它方法優(yōu)越。后期研究將在log-Gabor變換的視覺特性和圖像失真度之間建立一種自適應(yīng)的關(guān)系,并結(jié)合圖像處理的后期視覺心理決策機(jī)制,通過混合專家(Mixture of Expert, MoE)理論最優(yōu)化地融合多重圖像質(zhì)量評(píng)價(jià)方法。
[1] 蔣剛毅, 黃大江, 王旭, 等. 圖像質(zhì)量評(píng)價(jià)方法研究進(jìn)展[J]. 電子與信息學(xué)報(bào), 2010, 32(1): 219-226.
Jiang Gang-yi, Huang Da-jiang, Wang Xu,.. Overview on image quality assessment methods[J].&, 2010, 32(1): 219-226.
[2] 張飛艷, 謝偉, 陳榮元, 等. 基于視覺加權(quán)的奇異值分解壓縮圖像質(zhì)量評(píng)價(jià)測(cè)度[J]. 電子與信息學(xué)報(bào), 2010, 32(5): 1061-1065.
Zhang Fei-yan, Xie Wei, Chen Rong-yuan,.. Compression image quality assessment based on human visual weight and singular value decomposition[J].&, 2010, 32(5): 1061-1065.
[3] 王翔, 丁勇. 基于Gabor濾波器的全參考圖像質(zhì)量評(píng)價(jià)方法[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2013, 47(3): 422-430.
Wang Xiang and Ding Yong. Full reference image quality assessment based on Gabor filter[J].(), 2013, 47(3): 422-430.
[4] 米曾真. 小波域中CSF頻率與方向加權(quán)的圖像質(zhì)量評(píng)價(jià)方法[J]. 電子學(xué)報(bào), 2014, 42(7): 1273-1276.
Mi Zeng-zhen. Image quality evaluation method based on frequency and direction weighted to CSF in wavelet domain[J]., 2014, 42(7): 1273-1276.
[5] Yalman Y. Histogram based perceptual quality assessment method for color images[J]., 2014, 36(6): 899-908.
[6] Daly S. The visible different predictor: an algorithm for the assessment of images fidelity[C]. Digital Images and Human Vision Conference, Cambridge, England, 1993: 179-206.
[7] Lubin J. A visual discrimination model for images system design and evaluation[C]. Proceedings of the Conference on Visual Models for Target Detection and Recognition, Singapore City, Singapore, 1995: 207-220.
[8] Safranek R J and Johnston J D. A perceptually tuned sub-band image coder with image dependent quantization and post-quantization data compression[C]. Proceedings of the IEEE International Conference on Acoust, Speech and Signal Processing, Glasgow, UK, 1989: 1945-1948.
[9] Watson A B. DCT quantization matrices visually optimized for individual images[C]. Proceedings of the SPIE Human vision, Visual Processing, and Digital Display IV, Washington, USA, 1993: 202-216.
[10] Teo P C and Heeger D J. Perceptual image distortion[C]. SPIE International Conference on Image Processing, Texas, USA, 1994: 982-986.
[11] Wang Zhou, Bovik A C, Sheikh H R,.. Image quality assessment: from error visibility to structural similarity[J]., 2004, 13(4): 600-612.
[12] Sheikh H R, Bovik A C, and Veciana G D. An information fidelity criterion for image quality assessment using natural scene statistics[J]., 2005, 14(12): 2117-2128.
[13] Aleksandr S D, Alexander G, and Eskicioglu A M. An SVD-based grayscale image quality measure for local and global assessment[J]., 2006, 15(2): 422-429.
[14] Venkata N D, Kite T D, Bovik A C,Image quality assessment based on degradation model[J]., 2000, 9(4): 636-650.
[15] Wang Zhou, Simoncelli EP, and BovikA C. Multi-scale structural similarity for image quality assessment[C]. Proceedings of the 37th IEEE Asilomar Conference on Signals, Systems and Computers, Pacific Grove, Canada, 2002(2): 1398-1402.
[16] ZhangLin, ZhangLei, MouXuanqin,.. FSIM: a feature similarity index for image quality assessment[J]., 2011, 20(8): 2378-2386.
[17] Ding Yong, Wang Shao-ze, and Zhang Dong. Full-reference image quality assessment using statistical local correlation [J]., 2014, 50(2): 79-81.
[18] Hu An-zhou, Zhang Rong, Yin Dong,.. Image quality assessment using a SVD-based structural projection[J].:, 2014, 29(3): 293-302.
[19] Zhang Lin, Shen Ying, and Li Hong-yu. VSI: a visual saliency-induced index for perceptual image quality assessment[J]., 2014, 23(10): 4270-4281.
[20] ChangHua-wen, YangHua, Gan Yong,.. Sparse feature fidelity for perceptual image quality assessment[J]., 2013, 22(10): 4007-4018.
[21] LarsonEC and ChandlerDM. Most apparent distortion: full-reference image quality assessment and the role of strategy[J]., 2010, 19(1): 011006-1-011006-21.
[22] Wandell B A. Foundations of Vision[M]. Stanford: Sinauer Associates, 1995: 277-284.
[23] WangZhou, Lu L G, and Bovik A C. Foveation scalablevideo coding with automatic fixation selection[J]., 2003, 12(2): 243-254.
Image Quality Self-adaptive Assessment Based on Visual Salience Distortion
Feng Ming-kun①②Zhao Sheng-mei①Xing Chao①
①(,,210003,)②(,,310023,)
The StructuralSIMilarity (SSIM) algorithm of image quality assessment does not take into account the characteristics of multi-channel resolutions of human vision, it is also not consistent with subjective human evaluation for high level distortions. A Visual Salience Adaptive Pooling (VSAP) strategy of image quality assessment is proposed based on visual multi-scale and multi-orientation of log-Gabor transformation. Firstly, the visual characteristics of image on the high, medium, and low frequency are extracted by the log-Gabor transformation. Then the visual similarity scores based on visual scales and visual orientations of log-Gabor are calculated, accordingly, the visual distortion levels of image are calculated iteratively with the visual multi- resolution threshold. Finally, a strategy of image quality assessment is proposed with adaptive pooling similarity scores to distortion scores. The experimental results show that objective assessments of VSAP for different types of distortion hold higher correlation with subjective assessment. More importantly, the overall assessment performance of the Spearman Rank-Order Correlation Coefficient (SROCC), Correlation Coefficient (CC) and Root Mean Square Error (RMSE) for different levels of distortion is more consistent with subjective scores and superiorto other methods.
Image quality assessment; Computer vision; log-Gabor filter; Visual salience; Adaptive pooling
TN911.73
A
1009-5896(2015)09-2062-07
10.11999/JEIT141641
豐明坤 104027@zust.edu.cn
2014-12-25收到,2015-04-01改回,2015-06-11網(wǎng)絡(luò)優(yōu)先出版
豐明坤: 男,1978 年生,博士生,講師,研究方向?yàn)橛?jì)算機(jī)視覺、圖像質(zhì)量評(píng)價(jià).
趙生妹: 女,1968 年生,博士,教授,博士生導(dǎo)師,研究方向?yàn)闊o線通信中的信號(hào)處理.
邢 超: 男,1980 年生,博士生,研究方向?yàn)榫幋a信息論.