楊亞威,李俊山,張士杰,蘆鴻雁,胡雙演
(第二炮兵工程大學(xué) 信息工程系,陜西 西安 710025)
在當(dāng)今數(shù)字化信息時代,隨著傳感器技術(shù)和網(wǎng)絡(luò)多媒體技術(shù)的迅猛發(fā)展,圖像信息的應(yīng)用越來越廣泛。面對浩如煙海的圖像信息,人眼已很難滿足實(shí)際的應(yīng)用需求。根據(jù)人眼視覺系統(tǒng)的特性建立圖像質(zhì)量的自動評價模型,然后讓機(jī)器代替人來監(jiān)控圖像信息,將是一項(xiàng)非常有意義的工作[1-3]。
在圖像質(zhì)量評價方法中,人眼視覺系統(tǒng)的生理學(xué)和心理學(xué)的研究是至關(guān)重要的。如果人類視覺系統(tǒng)中所有相關(guān)部分都能被精確地模擬,那么就很有可能會實(shí)現(xiàn)圖像質(zhì)量的精確預(yù)測。但是,由于人類視覺系統(tǒng)非常復(fù)雜,目前存在的視覺模型僅僅對人類視覺進(jìn)行了簡單的模擬,因此存在一定的局限性。另外,質(zhì)量評價系統(tǒng)的建模和參數(shù)的確定是一個抽象的過程,很難與實(shí)際的視覺系統(tǒng)的認(rèn)知過程相對應(yīng)[1]。因此,從仿生學(xué)的角度出發(fā),運(yùn)用人類視覺感知特性的最新研究成果,設(shè)計更有效的圖像質(zhì)量評價方法是一個重要的研究方向,也是解決圖像質(zhì)量評價難題的基本思路[5]。
現(xiàn)有的通用無參考型(No Reference,NR)圖像質(zhì)量評價(Image Quality Assessment,IQA)方法大多是對人類額定的失真類型的圖像和相應(yīng)的主觀質(zhì)量評分進(jìn)行學(xué)習(xí)以預(yù)測圖像質(zhì)量,如DIIVINE[6],CBIQ[7],LBIQ[8],BLIINDS[9]和BRISQUE[3]。此類算法的一般步驟為:首先利用某種算法或模型提取失真圖像的特征,然后利用某種回歸算法對特征和相應(yīng)的主觀質(zhì)量評分進(jìn)行訓(xùn)練和學(xué)習(xí)得到質(zhì)量評價的回歸器,最后利用訓(xùn)練的回歸器對圖像質(zhì)量進(jìn)行評價。尋求一種能夠很好地表征圖像質(zhì)量的特征是此類算法成敗的關(guān)鍵。T.Poggio等人[10-12]經(jīng)過多年努力構(gòu)建了基于生物視皮層感受野認(rèn)知的標(biāo)準(zhǔn)模型(Standard Model,ST Model),ST模型以生物神經(jīng)學(xué)原理為基礎(chǔ),模擬了靈長類動物視皮層感受野的認(rèn)知過程,所得特征具有很強(qiáng)的表征能力,在目標(biāo)分類、檢測和識別中有很廣泛的應(yīng)用[13-14]。
本文以視覺仿生學(xué)相關(guān)研究為基礎(chǔ),對生物視覺ST模型進(jìn)行了研究和分析,計算出了能夠稀疏表示圖像的標(biāo)準(zhǔn)模型特征(Standard Model Features,SMFs);對目前常用的回歸方法進(jìn)行研究,選擇使用LS-SVM回歸方法對SMFs進(jìn)行了訓(xùn)練和學(xué)習(xí),生成了能夠預(yù)測圖像質(zhì)量的回歸器?;贚IVE IQA庫的實(shí)驗(yàn)結(jié)果表明,本文算法不僅對特定失真的圖像具有很好的質(zhì)量評價能力,而且對于交叉失真的圖像也具有較好的質(zhì)量評價能力,很好地完成了無參考型圖像質(zhì)量評價的功能。
由于圖像質(zhì)量評價的主體是人,因此人類視覺特性對評價算法的研究具有重要意義。但是,對人眼視覺特性的研究涉及生理、心理等方面的知識,目前技術(shù)條件下還難以定量地描述視覺的認(rèn)知特性,所以迄今為止還沒有一套完善的視覺計算模型。盡管如此,在客觀圖像質(zhì)量評價中引入少許簡單的人類視覺系統(tǒng)的知識或模型,也能大大提高客觀評價結(jié)果和主觀感知的一致性。
Hubel等人[15]在靈長類動物視皮層17區(qū)第4層上發(fā)現(xiàn)了對特殊朝向的條形光刺激有強(qiáng)烈反應(yīng)的包括簡單細(xì)胞(Simple Cell)和復(fù)雜細(xì)胞(Complex Cell)的感受野構(gòu)型,并提出了通過匯集操作來完成從簡單細(xì)胞到復(fù)雜細(xì)胞的傳遞過程[16]。神經(jīng)學(xué)研究表明簡單細(xì)胞的基本功能是對空間頻率和朝向的選擇性,具有初步的特征檢測的功能,利用多通道Gabor濾波進(jìn)行特征提取能夠模擬簡單細(xì)胞的這一功能;復(fù)雜細(xì)胞擁有更大的感受野,通過匯集操作來完成對簡單細(xì)胞的響應(yīng)。在基本的視皮層理論中,簡單單元通過尋找感受野中的首選刺激來計算特征,復(fù)雜單元通過匯集局部簡單單元來構(gòu)建視覺通道。在計算機(jī)的實(shí)現(xiàn)中,整個認(rèn)知過程可以看作是一個有監(jiān)督的學(xué)習(xí)算法[10]。
Poggio等人構(gòu)建的基于生物視皮層感受野認(rèn)知的ST模型主要由4層計算單元(S1,C1,S2,C2)組成,其中S單元代表簡單細(xì)胞,利用Gabor濾波計算一些高維的特征;C單元代表復(fù)雜細(xì)胞,主要通過匯集操作來獲取S單元的極值,所得特征具有位置和尺度不變性。ST模型的層次結(jié)構(gòu)如圖1所示。
圖1 ST模型流程圖Fig.1 Flow chart of ST model
利用ST模型提取C2SMFs特征的具體步驟如下[10,14]:
Step 1.提取S1SMFs。利用式(1)的Gabor濾波與輸入圖像進(jìn)行卷積,將所得特征在band序列上進(jìn)行排列得到S1SMFs。
其中:x0=xcosθ+ysinθ,y0=-xsinθ+ycosθ,θ∈[0,π],γ為x0與y0的比例因子,σ為有效寬度,λ為波長。
Step 2.提取C1SMFs。首先對S1SMFs在尺度和位置上模擬視網(wǎng)膜定位,通過匯集操作得出局部極大值,然后進(jìn)行重采樣將所得特征在cPatches序列上排列得到C1SMFs。
Step 3.提取S2SMFs。利用徑向基函數(shù)(Radial Basis Function,RBF)濾波求 S2SMFs,RBF公式為
其中:β為調(diào)制強(qiáng)度系數(shù),X 為C1單元的cPatches特征,Pi為訓(xùn)練集求得的某一尺度的cPatches特征,r為求得的S2SMFs。
Step 4.提取C2SMFs。對S2SMFs在尺度和位置上通過匯集操作獲取全局極大值,得到包含N個元素的向量,N的大小取決于cPatches特征的維數(shù)。
目前研究表明圖像模糊的本質(zhì)原因是由于高頻能量的缺失,即圖像的清晰度與圖像的頻域系數(shù)密 切 相 關(guān)[7,9,17],生 物 視 覺 ST 模 型 是 通 過Gabor頻域變換和匯集操作獲取的高維向量來稀疏地表征圖像的。因此,利用ST模型的C2 SMFs特征進(jìn)行圖像質(zhì)量評價具有較好的理論基礎(chǔ)。
由統(tǒng)計學(xué)習(xí)理論和SVM建立了一套較好的有限樣本下機(jī)器學(xué)習(xí)的理論框架和通用方法,既有嚴(yán)格的理論基礎(chǔ),又能較好地解決小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問題,因此成為目前國際上機(jī)器學(xué)習(xí)領(lǐng)域新的研究熱點(diǎn)[18]。SVM學(xué)習(xí)利用優(yōu)化方法得到的結(jié)果是全局最優(yōu)解,不會產(chǎn)生過學(xué)習(xí)和局部最小等問題,具很強(qiáng)的學(xué)習(xí)能力和泛化性能。
近年來,Suykens[19]提出一種新的最小二乘支持向量機(jī)(LS-SVM)算法,該算法將SVM的求解從二次規(guī)劃問題轉(zhuǎn)化為解線性方程組,降低了SVM的學(xué)習(xí)難度,提高了SVM的求解效率。對于回歸問題,LS-SVM未知變量的數(shù)目僅相當(dāng)于同等規(guī)模分類問題的未知變量數(shù)目,從而避免了傳統(tǒng)SVM回歸問題中未知變量數(shù)目膨脹的問題,而且LS-SVM采用容易控制的數(shù)值穩(wěn)定策略,使得核函數(shù)矩陣在非正定情況下也能取得良好的效果[20]。LS-SVM本質(zhì)上主要通過增加函數(shù)項(xiàng)、變量或系數(shù)等方法使公式變形,從而產(chǎn)生出各種具有某一方面優(yōu)勢或者一定應(yīng)用范圍的算法。
其中:φ(x)是特征映射;w和b是待求的回歸參數(shù)。
Suykens等提出的LS-SVM方法相當(dāng)于求解下面的最小值問題:
本文在 Pentium(R)Dual-Core 2.5GHz CPU,4G內(nèi)存的硬件環(huán)境和 Windows 7,Matlab R2010a的軟件環(huán)境條件下進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)采用LIVE IQA庫,庫中包含5種失真類型的圖像——JPEG和JPEG2000(JP2K)壓縮,白噪聲模糊(White Noise,WN),高斯模糊(Gauss Blur,GB)和 Rayleigh快衰落信道失真(Fast Fading,F(xiàn)F),共29張參考圖像和779張具有不同失真程度的退化圖像。每幅圖像都有相關(guān)聯(lián)的差異均值主觀質(zhì)量評分(Differential Mean Opinion Score,DMOS),DMOS是一種成熟的主觀圖像質(zhì)量評價指標(biāo)。在LIVE圖像庫中,DMOS的變化范圍是[0,100],DMOS值越小,圖像質(zhì)量越好。
為了驗(yàn)證算法的有效性,本文首先用自抽樣法對特定失真類型的退化圖像進(jìn)行實(shí)驗(yàn)分析。具體方法為:從特定失真庫中隨機(jī)選取100幅圖像利用LS-SVM進(jìn)行訓(xùn)練,通過訓(xùn)練的模型對該失真庫中所有圖像進(jìn)行預(yù)測評分,循環(huán)上述方法10次并對預(yù)測結(jié)果求平均。這里選擇的訓(xùn)練圖像數(shù)量較多,主要因?yàn)镈MOS變化范圍較大,需要較多訓(xùn)練集來得出穩(wěn)定的回歸模型。實(shí)驗(yàn)選取相對誤差Δ來評價算法的性能,Δ的計算公式為:
其中:n代表特定失真庫中圖像的數(shù)量;DMOS(i)代表第i幅圖像的主觀圖像質(zhì)量評分;Spre(i)代表第i幅圖像的預(yù)測評分;DMOSmax和DMOSmin分別代表DMOS的最大值和最小值。
實(shí)驗(yàn)結(jié)果表明,本文算法對于FF,WN,GB三種失真類型評價結(jié)果良好,Δff=2.607%,Δwn=2.259%,Δgb=1.063%,對于JPEG 和JPEG2000的預(yù)測結(jié)果稍差,Δjp=5.253%,Δjp2k=4.764%。圖2為FF,WN,GB三種失真類型的預(yù)測結(jié)果,橫坐標(biāo)代表失真庫中圖像的序號,某一序號上的預(yù)測值加上誤差曲線上對應(yīng)的數(shù)值為該圖像DMOS值。
圖2 特定失真預(yù)測結(jié)果Fig.2 Predicted results of rated distorted images
一種通用的無參考圖像質(zhì)量評價方法應(yīng)對失真類型不敏感,為進(jìn)一步驗(yàn)證算法的有效性,本文進(jìn)行了交叉失真的實(shí)驗(yàn)分析。實(shí)驗(yàn)選擇失真程度連續(xù)性較好的GB失真庫作為訓(xùn)練集進(jìn)行學(xué)習(xí),利用得到的回歸模型對WN和FF兩類失真的圖像進(jìn) 行預(yù) 測,得 出 Δgb2wn=5.068%,Δgb2ff=5.576%,也能較好的完成圖像質(zhì)量的評價。圖3為交叉失真預(yù)測結(jié)果。
圖3 交叉失真預(yù)測結(jié)果Fig.3 Predicted results of cross distorted images
利用以下兩個指標(biāo)對幾種圖像質(zhì)量評價方法的性能進(jìn)行比較。
①線性相關(guān)系數(shù)(Correlation Coefficient,CC)
Pearson線性相關(guān)系數(shù)用來反映客觀評價模型預(yù)測的精確性,其表達(dá)式見式(14)。Pearson相關(guān)系數(shù)取值范圍為[-1,1],其絕對值越接近1,表明預(yù)測值Spre與主觀質(zhì)量評價DMOS之間的相關(guān)性越強(qiáng),客觀評價模型預(yù)測越準(zhǔn)確。
其中:n代表樣本組的數(shù)量;DMOS(i)代表第i幅圖像的主觀圖像質(zhì)量評分;Spre(i)代表第i幅圖像的預(yù)測評分;DMOSmax和DMOSmin分別代表DMOS的最大值和最小值。
②Spearman等級相關(guān)系數(shù)(Spearman Rank-Order Correlation Coefficient,SROCC)
Spearman等級相關(guān)系數(shù)用來衡量客觀預(yù)測模型的單調(diào)性,Spearman等級相關(guān)系數(shù)的計算公式如式(15)。Spearman相關(guān)系數(shù)的取值范圍也是[-1,1],同Pearson相關(guān)系數(shù)一樣,其絕對值越接近1,表明預(yù)測值Spre與主觀質(zhì)量評價DMOS之間的單調(diào)性越好。
其中:n代表樣本組的數(shù)量;RDMOS(i)和 RSpre(i)分別表示DMOS(i)與Spre(i)在各自樣本組中的排列序號。
表1和表2為本文方法與幾種圖像質(zhì)量評價方法的比較結(jié)果,其中SMFIQ為本文算法,從表中結(jié)果可以看出,本文提出的算法對于圖像質(zhì)量具有很好的預(yù)測性能。
表1 幾種圖像質(zhì)量評價方法的CC值比較Tab.1 Comparison of CC among several image quality assessment approaches
表2 幾種圖像質(zhì)量評價方法的SROCC值比較Tab.2 Comparison of SROCC among several image quality assessment approaches
利用生物視覺特征和LS-SVM回歸方法構(gòu)建了一種無參考型圖像質(zhì)量評價方法。實(shí)驗(yàn)結(jié)果表明,該方法對圖像質(zhì)量具有很好的評價能力,對于特定失真和交叉失真的預(yù)測誤差分別為2%和5%左右。但本文算法中ST認(rèn)知模型與人類感知圖像清晰度的過程并不是嚴(yán)格對應(yīng)的,亦缺乏嚴(yán)格的理論基礎(chǔ),研究人類感知圖像的基本過程,對ST模型進(jìn)行改進(jìn)使之更好完成圖像的質(zhì)量評價是下一步的研究重點(diǎn);另外,提取生物視覺特征是對整幅圖像進(jìn)行處理的,這與人類視覺注意機(jī)制也是不相符的,研究視覺注意機(jī)制的最新成果,對復(fù)雜場景進(jìn)行分塊加權(quán)以完成復(fù)雜場景圖像的質(zhì)量評價也是下一步的研究重點(diǎn)。
[1]王宇慶.局部方差在圖像質(zhì)量評價中的應(yīng)用[J].中國光學(xué),2011,4(5):531-536.Wang Y Q.Application of local variance in image quality assessment[J].Chinese Optics,2011,4(5):531-536 (in Chinese)
[2]鞏盾,田鐵印,王紅.溫度環(huán)境下空間遙感光學(xué)系統(tǒng)成像質(zhì)量的檢測[J].中國光學(xué),2012,5(6):602-609.Gong D,Tian T Y,Wang H.Image quality testing of space remote sensing optical system under thermal environment[J].Chinese Optics,2012,5(6):602-609(in Chinese)
[3]Mittal A,Moorthy A K,Bovik A C.No-reference image quality assessment in the spatial domain [J].IEEE Transactions on Image Processing,2012,21(12):4695-4708.
[4]高新波,路文.視覺信息質(zhì)量評價方法[M].西安:西安電子科技大學(xué)出版社,2011.Gao X B,Lu W.Quality Assessment Methods for Visual Information [M].Xian:Xidian University Press,2011.(in Chinese)
[5]姚軍財.基于人眼對比度敏感視覺特性的圖像質(zhì)量評價方法[J].液晶與顯示,2011,26(3):390-396.Yao J C.Image quality assessment method based on contrast sensitivity characteristics of human vision system [J].Chinese Journal of Liquid Crystals& Displays,2011,26(3):390-396(in Chinese)
[6]Moorthy A K,Bovik A C.Blind image quality assessment:from natural scene statistics to perceptual quality[J].IEEE Transactions on Image Processing,2011,20(12):3350-3364.
[7]Ye P,Doermann D.No-reference image quality assessment using visual codebook[J].IEEE Transactions on Image Processing,2012,21(7):3129-3138.
[8]Tang H,Joshi N,Kapoor A.Learning a blind measure of perceptual image quality[C].International Conference on Compute Vision and Pattern Recognition,2011:305-312.
[9]Saad M,Bovik A C,Charrier C.Blind image quality assessment:a natural scene statistics approach in the DCT domain[J].IEEE Transactions on Image Processing,2012,21(8):3339-3352.
[10]Serre T,Kouh M,Cadieu C,et al.A theory of object recognition:computations and circuits in the feedforward path of the ventral stream in primate visual vortex[R].Massachusetts Institute of Technology,2005.
[11]Serre T,Wolf L,Poggio T.Object recognition with features inspired by visual cortex [C].IEEE Conference on Computer Vision and Pattern Recognition,2005:994-1000.
[12]Serre T,Oliva A,Poggio T.A feedforward architecture accounts for rapid categorization[J].Proceedings of the National Academy of Sciences,2007,104(15):6424-6429.
[13]Serre T,Wolf L.Robust object recognition with cortex-like mechanisms[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(3):411-426.
[14]Mutch J,Lowe D G.Object class recognition and localization using sparse features with limited receptive fields[J].International Journal of Compute Vision,2008,80(1):45-57.
[15]Hubel D H,Wiesel T N.Receptive fields,Binocular interaction and functional architecture in the cat's visual cortex[J].Journal of Physiology,1962,160:106-154.
[16]Hubel D H,Wiesel T N.Receptive fields and functional architecture of monkey striate cortex [J].Journal of Physiology,1968,195:215-243.
[17]Vu C,Phan T,Chandler D M.S3:A spectral and spatial measure of local perceived sharpness in natural images[J].IEEE Transactions on Image Processing,2012,21(3):934-945.
[18]焦李成,周偉達(dá),張莉,等.智能目標(biāo)識別與分類[M].北京:科學(xué)出版社,2010.Jiao L C,Zhou W D,Zhang L,et al.Intelligent object recognition and classification [M].Beijing:Science Press,2010(in Chinese)
[19]Suykens J A K,Vandewalle J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.
[20]Gestel T V,Suykens J A K,Baesens B,et al.Benchmarking least squares support vector machine classifiers[J].Machine Learning,2004,54(1):5-32.