王學(xué)珍,劉 昱,李器宇,汪少初
(天津大學(xué)電子信息工程學(xué)院,天津 300072)
圖像質(zhì)量評價(Image Quality Assessment,IQA)屬于信號處理學(xué)科中較為年輕的領(lǐng)域,分為主觀評價和客觀評價兩種方式。主觀評價方式講究樣本采樣,以樣本分布模擬總體分布,把參與評價的主體的平均打分作為圖像質(zhì)量主觀評分(Mean Opinion Score,MOS)[1-3]。主觀評價因為評價周期長、參與人數(shù)多、對主客觀條件均要求嚴(yán)格,不利于在實踐中推廣。與之相反,客觀評價方式借助高性能計算機(jī)和基于人類視覺模型的算法設(shè)計,不僅能快速給出始終一致地圖像質(zhì)量評分,而且方便嵌入其他工程應(yīng)用[4]。近些年,研究者們對IQA客觀算法的設(shè)計與改進(jìn)取得了不少優(yōu)秀成果。然而,針對客觀算法的準(zhǔn)確性評估一直都存在爭議。
Richard Dosselmann[5]對IQA算法中獲得廣泛應(yīng)用的結(jié)構(gòu)相似度[6](Structural Similarity index,SSIM)算法與均方誤差(Mean Squared Error,MSE)算法進(jìn)行統(tǒng)計分析和主觀比較研究之后發(fā)現(xiàn),上述兩種算法的性能有很多相近的地方。這與文獻(xiàn)[6]和文獻(xiàn)[7]的結(jié)論不同。此后,他與Xue Dong Yang合作[8]為SSIM算法和MSE算法的度量值建立了代數(shù)關(guān)系式,更進(jìn)一步拉近了兩種算法之間的關(guān)系。以上成果提供了審慎反思的新視角,它對IQA算法中僅憑少數(shù)個例,或通過缺乏可信度的統(tǒng)計分析而得到的結(jié)論提出了質(zhì)疑。為了給不同的IQA算法做準(zhǔn)確評估,Hamid Rahim Sheikh 等[7]和 Nikolay Ponomarenko 等[9]采取了相同的策略,他們分別設(shè)計了LIVE database圖片庫和TID2008圖片庫來代表各種圖像內(nèi)容和失真類型,以對應(yīng)圖像的MOS值作為評估IQA算法的依據(jù)。不同的是,Sheikh[7]提出首先用1個含5個參數(shù)的Logistic方程做數(shù)據(jù)的非線性回歸擬合,然后選用3種性能度量指標(biāo)分別做評估;不足之處在于Logistic方程缺乏普遍意義,以及3種性能指標(biāo)的統(tǒng)計學(xué)意義含重復(fù)的部分;Nikolay Ponomarenko[9]則直接選用Spearman相關(guān)系數(shù)和Kendall相關(guān)系數(shù)對各算法分別進(jìn)行排序,這2個統(tǒng)計指標(biāo)顯得過于粗糙、簡陋。
視頻質(zhì)量專家組(Video Quality Experts Group,VQEG)作為推進(jìn)視頻質(zhì)量評價VQA(Video Quality Assessment),由于VQA與IQA的評估標(biāo)準(zhǔn)相同,本文中一律用IQA代替)領(lǐng)域的專家組織,前后推出3次針對視頻質(zhì)量評價算法評估的報告[1-3]。在統(tǒng)計分析策略方面,新報告相比之前版本均有變動。最新版本報告[1]的策略為:首先用1個保證單調(diào)遞增的含4個參數(shù)的三次多項式方程做為數(shù)據(jù)的非線性回歸擬合;然后選用3種性能度量指標(biāo)分別從不同角度做評估。該報告未提供三次多項式方程形式的非線性回歸擬合的具體實施過程。
針對VQEG提供的IQA算法評估策略中未作說明的,三次多項式形式的非線性回歸擬合過程開展研究,力爭探索一種客觀評估IQA算法性能的方法。本文選用TID2008圖片庫[9]及其MOS數(shù)據(jù)作為實驗素材,以峰值信噪比(PSNR,Peak Signal to Noise Radio)、SSIM[6]和多尺度 SSIM[10](MSSIM,Multi-scale SSIM)3 種算法為評估的對象舉例,給出了基于有約束最小二乘法的曲線擬合過程。
主觀評價被認(rèn)為是評價圖像質(zhì)量最有效力、最可信賴的方式[11]。因此,本文認(rèn)為對IQA算法做評估的過程就是衡量IQA算法度量值與主觀評分的相似度和差異度的過程。本文僅對圖像逼真度(Image Fidelity)感興趣,因此只涉及全參考IQA算法的質(zhì)量評估。其中所采用的三次多項式形式的回歸映射函數(shù)和3個性能指標(biāo),均參照VQEG[1]的做法;考慮到TID2008數(shù)據(jù)庫中MOS值的獲取途徑,原始圖像(或參考圖像)的MOS值存在缺失,因此,將文獻(xiàn)[1]中出現(xiàn)DMOS值的位置用失真圖像的MOS值代替。
回歸映射函數(shù)的方程形式為
式中:要求式(1)在x定義域范圍內(nèi)保持單調(diào)遞增。
1.2.1 Pearson相關(guān)系數(shù)(R)
式中:Xi代表主觀評分(MOS值);Yi代表客觀評分(MOSp值);N代表參與評估的圖像總數(shù)。Pearson相關(guān)系數(shù)R衡量了一種算法輸出的預(yù)測值與主觀數(shù)據(jù)之間的線性關(guān)系,值越大,表示算法的單調(diào)性越好。
1.2.2 均方根誤差(RMSE)
式中:N代表參與評估的圖像總數(shù);d表示映射函數(shù)方程中自由度的個數(shù),文中d=4。RMSE描述了IQA算法的準(zhǔn)確度,值越小,算法的準(zhǔn)確度越高。
1.2.3 離散率(Outlier Radio,OR)
式中:1個有效的離散點是滿足式(5)約束條件的點。
式中:K2=1.96,σ (mos(i))表示與第i幅圖像相關(guān)的標(biāo)準(zhǔn)差;Nsubjs=33,表示參與評價第i幅圖像的人數(shù)[8]。OR表征了IQA算法評分與主觀評分的一致程度,值越小,算法與主觀評分的一致性越好。
考慮到IQA算法的目的是為了模擬人眼視知覺的判斷,本文選定將均方根誤差最小化作為回歸映射函數(shù)的直接目標(biāo)。將IQA算法應(yīng)該滿足的基本假設(shè)為:圖像質(zhì)量越高,即MOS值越大,算法度量值(MOSp)應(yīng)該越大。因此,在定義域內(nèi)保持單調(diào)遞增是回歸映射函數(shù)需要滿足的約束條件。因為均方根運算不影響函數(shù)的單調(diào)性,所以目標(biāo)函數(shù)的形式可簡化為
將公式(1)代入式(6),得
式中:f為因變量,對任何i值,MOS(i)均為常量。以上述形式充當(dāng)目標(biāo)函數(shù)的方法即為最小二乘法。
當(dāng)將x作為自變量考慮時,x的定義域可歸一化為[0,1]區(qū)間,顯然公式(1)為連續(xù)函數(shù),為了使MOSp(x)在x的定義域內(nèi)滿足單調(diào)遞增,當(dāng)且僅當(dāng)MOSp(x)的一階導(dǎo)數(shù)MOSp'(x)在[0,1]區(qū)間滿足
式中:目標(biāo)函數(shù)和約束不等式十分復(fù)雜。參考文獻(xiàn)[12-15]中提及該目標(biāo)函數(shù)和約束條件既不屬于多元線性回歸問題,也不屬于簡單的曲線擬合和非線性回歸的范疇。從回歸分析的角度來看,其可定性為有約束的線性回歸問題,此時 a,b,c,d 為待求變量。
當(dāng)將a,b,c,d看作自變量重新考慮上述過程時,發(fā)現(xiàn)公式(8)即為線性約束條件。離散情況下,當(dāng)x的數(shù)據(jù)量足夠大時,若對每一個x值,均有公式(8)成立,那么可近似認(rèn)為MOSp(x)在[0,1]區(qū)間上單調(diào)遞增。當(dāng)然,前者為后者的必要不充分條件,結(jié)果是否符合預(yù)期需要驗證。簡言之,對第i幅圖像(i=1,2,…,N),使每一個 MOSp(xi)均滿足公式(8),同時最優(yōu)化目標(biāo)函數(shù)(7)的值最小,最后通過查看映射函數(shù)曲線來反過來驗證函數(shù)MOSp(x)是否單調(diào)。上述即為本文采取的策略,可用數(shù)學(xué)模型表達(dá)為
式中:C 和A 為矩陣;d,b,lb,ub和x為矢量,其中x=[a,b,c,d]為待求變量。
實驗平臺采用Matlab實現(xiàn),其數(shù)學(xué)模型為
式中:C,A 和 Aeq 為矩陣;d,b,beq,lb,ub 和 x 為矢量,其中x為待求變量。
對本文而言,各參數(shù)的含義如下:x=[d,c,b,a]T,,y為某一IQA算法1700 ×1維的度量值其中 mosi表示對應(yīng)第i幅圖像的MOS 值,Aeq=beq=[],lb=[-Inf,-Inf,-Inf,- Inf],ub=[Inf,Inf,Inf,Inf]。上述符號均按Matlab語言表述,由此解得的自變量x即為公式(1)中映射函數(shù)的系數(shù)。
根據(jù)PSNR、SSIM和MSSIM三種算法基于TID2008數(shù)據(jù)庫的計算結(jié)果,使用Matlab優(yōu)化工具箱擬合得到的回歸映射函數(shù)分別為
式中:psnr_t=psnr/50,使得psnr_t值中99.94%的比例落在區(qū)間[0,1]之間。
PSNR、SSIM和MSSIM 3種算法的散點圖和回歸映射函數(shù)曲線如圖1所示。圖1的橫坐標(biāo)分別表示圖像的PSNR、SSIM和MSSIM 算法歸一化到[0,1]區(qū)間的度量值,這些度量值通過對TID2008圖像庫的失真圖像及其參考圖像應(yīng)用各算法計算得到;縱坐標(biāo)表示圖像的MOS值,數(shù)據(jù)直接取自TID2008圖像庫[9],0值表示主觀判斷圖像質(zhì)量最差,9表示最好。如果存在理想算法,那么在圖1的坐標(biāo)系下其散點將全部分布在第1象限的某條直線上。觀察圖1中曲線可知,根據(jù)此方法得到的映射函數(shù)的確在數(shù)據(jù)定義域內(nèi)單調(diào)遞增。
圖1 3種算法的散點圖和其映射函數(shù)曲線
實驗所得的統(tǒng)計參量如表1,表2所示。表1為不同算法的統(tǒng)計參量絕對值。該組數(shù)據(jù)顯示,3種算法與MOS值之間的線性相關(guān)系數(shù)R全部低于90%,RMSE平均相差0.7個等級(全部為0~9共10個等級),OR系數(shù)顯示有至少94%以上的算法度量誤差閾值大于人眼。表2列出了不同算法的相對差異程度,用0和1表示,0表示兩種算法的差異不明顯,1表示兩種算法間存在顯著的差異。由以上兩組數(shù)據(jù)可以得到3種算法的性能排序,但是其結(jié)果與人眼判斷的MOS值差距很大,均不能令人滿意。這組性能指標(biāo)與文獻(xiàn)[6-7]的實驗數(shù)據(jù)相比,數(shù)據(jù)意義簡單、明確,對客觀地理解和判斷IQA算法的性能有所幫助。
表1 統(tǒng)計參量的絕對值
表2 統(tǒng)計參量Pearson CC,RMSE及OR的相對差異顯著程度
上述實驗結(jié)果表明,目前主流的IQA算法與主觀評價值之間差異較大,圖像的客觀評價算法仍有待進(jìn)一步提高性能。本文提供了一種衡量圖像客觀評價與主觀評價之間差異的方案,為圖像評級研究提供了幫助。應(yīng)該指出,本文的方法還有待完善,如公式(1)不一定滿足在[0,1]整個區(qū)間內(nèi)單調(diào)遞增,具體單調(diào)區(qū)間受算法的度量值 x的上下限 xmin、xmax影響,只能滿足在[xmin,xmax]區(qū)間內(nèi)的單調(diào)遞增,下一步研究將對該曲線擬合方法繼續(xù)完善。
本文針對VQEG對IQA算法的評估策略,采用基于有約束最小二乘法的數(shù)學(xué)模型,對算法數(shù)據(jù)的三次多項式形式非線性回歸擬合過程求解。建議的方法約束條件為線性,所以求解過程效率高,可以為研究IQA算法提供性能比較的實驗平臺。
[1]VQEG.Final report from the video quality experts group on the valida-tion of objective models of multimedia quality assessment,phase I[DB/OL].(2008-09-12)[2011-07-21].http://www.vqeg.org.
[2]VQEG.Final report from the video quality experts group on the validation of objective models of video quality assessment,phase I[DB/OL].(2000-03-03)[2011-07-21].http://www.vqeg.org.
[3]VQEG.Final report from the video quality experts group on the validation of objective models of video quality assessment,phase II[DB/OL].(2003-08-25)[2011-07-21].http://www.vqeg.org.
[4]李永強(qiáng),沈慶國,朱江,等.數(shù)字視頻質(zhì)量評價方法綜述[J].電視技術(shù),2006,30(6):74-77.
[5]DOSSELMANN R.An evaluation of existing and emerging digital image and video quality metrics[D].Canada:University of Regina,2006.
[6]WANG Z,BOVIK A C,SHEIKH H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[7]SHEIKH H R,SABIR M F,BOVIK A C.A statistical evaluation of recent full reference image quality assessment algorithms[J].IEEE Transactions on Image Processing,2006,15(11):3440-3451.
[8]DOSSELMANN R,YANG X D.A comprehensive assessment of the structural similarity index[J].Signal,Image and Video Processing,2011,5(1):81-91.
[9]PONOMARENKO N,LUKIN V,ZELENSKY A,et al.TID2008 – a database for evaluation of full-reference visual quality assessment metrics[J].Advances of Modern Radioelectronics,2009,10:30-45.
[10]WANG Z,SIMONCELLI E P,BOVIK A C.Multiscale structural similarity for image quality assessment[C]//Proc.the 37th IEEE Asilomar Conference on Signals,Systems and Computers.[S.l.]:IEEE Press,2003:1398-1402.
[11]BOVIK A.The essential guide to image processing[M].Salt Lake City:Academic Press,2009:553-595.
[12]斯皮格爾,希勒,斯里尼瓦桑.概率與統(tǒng)計[M].孫山澤,戴中維,譯.2版.北京:科學(xué)出版社,2002.
[13]何曉群.實用回歸分析[M].北京:高等教育出版社,2008.
[14]DOUGLAS M,DONALD G.非線性回歸分析及其應(yīng)用[M].韋博成,萬方煥,朱宏圖,譯.北京:中國統(tǒng)計出版社,1997:1-71.
[15]MATHEWS J,F(xiàn)INK K.數(shù)值方法:MATLAB版[M].周璐,陳渝,錢方,等,譯.4版.北京:電子工業(yè)出版社,2005:195-213.