王偉,劉輝,楊俊安
數(shù)字視頻和圖像縮小了人類和自然界的差距。然而不幸的是,由于各種各樣的圖像退化和畸變,有用的信息可能會(huì)被丟失,因此如何評(píng)價(jià)失真圖像的質(zhì)量成為了一種緊迫需要。理論上,人類視覺系統(tǒng)(HVS)是最有效和直接的方式,但是其收集大量人類打分?jǐn)?shù)據(jù)的過程極其復(fù)雜、耗時(shí)。
關(guān)于圖像質(zhì)量評(píng)價(jià)的研究已經(jīng)有較長(zhǎng)時(shí)間。通常圖像質(zhì)量可以通過直接計(jì)算原始圖像和退化圖像之間的距離來衡量。然而在大多數(shù)情況下,我們往往只有失真后的圖像,并沒有原始圖像做參考。這種問題的出現(xiàn)影響了圖像質(zhì)量評(píng)價(jià)的進(jìn)程,進(jìn)而可能會(huì)給后續(xù)分析帶來麻煩,因此怎樣設(shè)計(jì)出一個(gè)合適的盲圖像質(zhì)量評(píng)價(jià)系統(tǒng)是人們迫切的愿望。
建立一個(gè)典型盲圖像質(zhì)量評(píng)價(jià)系統(tǒng)通常需要兩個(gè)成分:一系列特征以及學(xué)習(xí)型的回歸模型。典型全參考圖像質(zhì)量評(píng)價(jià)過程流程圖如圖1所示。之前的方法通常將特征提取和模型訓(xùn)練分開考慮。對(duì)于這些特定類型的失真圖像,相應(yīng)的特征被用來衡量它們的質(zhì)量,比如空間域的邊緣寬度[1]以及在某些轉(zhuǎn)換域的峭度[2]。然而當(dāng)退化種類未知時(shí),上述論文中所提的特定特征將無法使用。
圖1 典型全參考圖像質(zhì)量評(píng)價(jià)過程流程圖Fig. 1 The flowchart of typical FR_IQA process
還有一些其他方法沒有使用人工手工選取的局部描繪算子,而是基于特征學(xué)習(xí)。監(jiān)督式濾波器學(xué)習(xí)已被Jain和Karu在文獻(xiàn)[3]中采用作為紋理分類,其中特征提取和分類任務(wù)被神經(jīng)網(wǎng)絡(luò)執(zhí)行。文獻(xiàn)[4]采用了無監(jiān)督特征學(xué)習(xí),其中局部算子被編代碼然后用一種無監(jiān)督的方式來學(xué)習(xí)。為了學(xué)習(xí)一個(gè)更加簡(jiǎn)潔緊湊的和有區(qū)分性的字典,學(xué)習(xí)類的方法優(yōu)化包括采用一個(gè)優(yōu)化過的具有重建性和區(qū)分性的標(biāo)準(zhǔn)[5-6]。
相較這些傳統(tǒng)方法,一個(gè)具有區(qū)分性的特征集和靈活的學(xué)習(xí)策略可以提高表現(xiàn)。為了在圖像質(zhì)量預(yù)測(cè)階段改善聯(lián)合統(tǒng)計(jì)特征和學(xué)習(xí)策略,介紹了兩種不同的特征提取成分:1)一個(gè)局部特征提取器;2)一個(gè)匯總了局部特征分布的全局特征提取器。
為了不失一般性,采用了一個(gè)基于字典類譯碼本的方法來規(guī)避標(biāo)準(zhǔn)信息的優(yōu)勢(shì)。傳統(tǒng)的字典學(xué)習(xí)方法聚焦于信號(hào)的重構(gòu),同時(shí)需要字典中的學(xué)習(xí)原子,應(yīng)該能很好地代表圖像塊,本文所提方法則沒有這個(gè)限制。事實(shí)上,后續(xù)顯示用于圖像質(zhì)量分類的字典將有很大不同。
特征提取的第1步是從增強(qiáng)的圖像塊中捕捉合適的特征。在這個(gè)部分中,討論怎么使用一系列線性濾波器來獲取局部特征。受人類視覺系統(tǒng)發(fā)現(xiàn)和感知物體的啟發(fā),嘗試設(shè)計(jì)出一個(gè)自然的、面向?qū)ο蟮臋z測(cè)器,在不同種類間具有一般性。首先,整幅圖像被分割成互相重疊的圖像塊,然后從這些區(qū)域中提取兩種類型的特征:一類是局部特征,另一類則是統(tǒng)計(jì)整幅圖像局部特征分布情況的全局特征。
2.1.1 局部特征
為了方便,將原始圖像塊歸一化成一系列局部描述算子。本節(jié)將提取以下算子來代表整幅圖像的局部特征。
1) 顯著性地圖
圖像的亮度變化傳達(dá)著圖像自身許多有用的信息。帶通圖像響應(yīng),尤其是高斯濾波器響應(yīng),可以用作描繪多種圖像的語義結(jié)構(gòu),比如直線、邊緣、角點(diǎn)以及斑點(diǎn)等,這些都與人類主觀認(rèn)知密切相關(guān)。有了這個(gè)發(fā)現(xiàn),我們開發(fā)了一種語義顯著性準(zhǔn)則來感知圖像中的目標(biāo)[7]:
2) 梯度幅值圖
梯度算子通常使用卷積模板來表達(dá),本文實(shí)現(xiàn)中,梯度幅值的定義為式中和分別是圖像相應(yīng)像素位置的水平梯度和垂直梯度。自然界梯度統(tǒng)計(jì)分布在圖像分析中扮演著關(guān)鍵角色,梯度相似性可被用作建立圖像語義結(jié)構(gòu)的基本要素,這些語義結(jié)構(gòu)與人類可感知的自然圖像質(zhì)量密切相關(guān)。
2.1.2 全局統(tǒng)計(jì)特性
為了克服傳統(tǒng)像素級(jí)評(píng)價(jià)方法的不足,我們更加關(guān)注局部特征細(xì)節(jié)和全局統(tǒng)計(jì)特征之間的平衡。
統(tǒng)計(jì)作為一種全局描述算子,是對(duì)所提取局部特征分布的概述。特別指出的是,我們使用了一種BRISQUE[8]參數(shù)模型,模型對(duì)像素值進(jìn)行了GGD歸一化,其中形狀和尺度參數(shù)都被用作特征。雖然濾波響應(yīng)的峭度和峰度值可能不能正確描述分布的形狀,但對(duì)于質(zhì)量高低不等的圖像,它們是相對(duì)好的指示器,如圖2所示。
圖2 濾波響應(yīng)后不同等級(jí)模糊失真示例(高DMOS值表示低質(zhì)量無量綱)Fig. 2 Examples of filter responses for different levels of blur distortion (high DMOS indicates low quality)
本節(jié)討論這些局部特征和全局描述算子是如何通過來學(xué)習(xí)準(zhǔn)則預(yù)測(cè)不同圖像的質(zhì)量,輕松解決圖像質(zhì)量盲評(píng)價(jià)的病態(tài)任務(wù)問題。
2.2.1 學(xué)習(xí)階段
為了方便訓(xùn)練一個(gè)值得可信的圖像質(zhì)量盲評(píng)價(jià)模型通常需要一個(gè)很大的人類打分訓(xùn)練集,通過主觀測(cè)試獲得這樣一個(gè)模型的代價(jià)顯得昂貴耗時(shí)。因此在訓(xùn)練階段開發(fā)一個(gè)不需要如此大數(shù)據(jù)量的人類主觀打分的圖像質(zhì)量盲評(píng)價(jià)模型變得迫不及待。本節(jié)求助于聚類學(xué)習(xí)和池化映射策略。
1) 池化策略
如果手里沒有任何人類主觀質(zhì)量打分,我們瞄準(zhǔn)學(xué)習(xí)圖像質(zhì)量盲評(píng)價(jià)的中心集。為了方便起見,退化圖像和原始圖像都被分割成重疊塊。
所提方法的關(guān)鍵問題是怎樣分配感知質(zhì)量。本文我們求助于特征相似性指數(shù)[9](FSIM)來計(jì)算參考圖像和變形圖像之間的相似度。通過這種方式,可以去除對(duì)人類主觀打分的依賴。退化圖像的FSIM得分定義如下:
因此整幅圖像的質(zhì)量可表達(dá)為平均質(zhì)量,這就與百分池化結(jié)果保持一致了。
2)聚類
通過塊質(zhì)量歸一化策略,將相似度得分按分值分成多個(gè)組,再把那些降質(zhì)塊按各自的局部構(gòu)造分為不同類。
2.2.2 測(cè)試階段
有了這些學(xué)習(xí)得到的不同質(zhì)量層的中心集,可以通過把這些退化圖像特征映射到相應(yīng)的質(zhì)量得分池,輕易地推斷出感知質(zhì)量,如圖3所示。
通過應(yīng)用濾波算法,可以獲得新的增強(qiáng)圖像及其相應(yīng)的質(zhì)量等級(jí)。
圖3 圖像質(zhì)量估計(jì)流程圖Fig. 3 The process of image quality prediction
通過式(9)所示的均值策略來推斷新測(cè)試圖像最終的質(zhì)量得分。
在通用基準(zhǔn)數(shù)據(jù)集LIVE數(shù)據(jù)庫上評(píng)估了我們所提算法。LIVE數(shù)據(jù)庫包含了29幅參考圖像及其對(duì)應(yīng)的779幅5種不同類型的退化圖像。為了代表性和簡(jiǎn)潔性考慮,僅僅選擇其中兩個(gè)典型的退化類型:白噪聲(WN)、高斯模糊(BLUR)。對(duì)于每個(gè)退化圖像,都有一個(gè)主觀感知得分DMOS值,分值范圍從0~100不等。較低的DMOS得分代表著較好的視覺質(zhì)量。實(shí)驗(yàn)中,隨機(jī)選取80%的參考圖像及其退化圖像作為訓(xùn)練集樣本,剩余20%用作測(cè)試集。
為了驗(yàn)證本文所提方法的有效性,選擇LIVE數(shù)據(jù)庫中一個(gè)數(shù)據(jù)集來分別預(yù)測(cè)它們的質(zhì)量得分,如圖4所示。
圖4 LIVE數(shù)據(jù)庫中同一幅基準(zhǔn)圖像不同退化程度后的圖像質(zhì)量預(yù)測(cè)Fig. 4 Quality prediction of different degraded degree image from LIVE database using proposed method
從結(jié)果可以看出,使用本文算法預(yù)測(cè)出的分?jǐn)?shù)和人類視覺系統(tǒng)的結(jié)果完全一致。
用植入線性關(guān)聯(lián)系數(shù)(LCC)準(zhǔn)則來評(píng)估本文所提算法的表現(xiàn)。LCC通過衡量真實(shí)分?jǐn)?shù)和預(yù)測(cè)分?jǐn)?shù)之間的線性關(guān)系來預(yù)測(cè)分?jǐn)?shù)。假如有n幅退化圖像,每幅圖像有一個(gè)人類感知分?jǐn)?shù)等級(jí)和一個(gè)預(yù)測(cè)的分?jǐn)?shù)等級(jí)。LCC的計(jì)算為
作為對(duì)比,選擇集中具有代表性的NR-IQA方法來評(píng)價(jià)LIVE數(shù)據(jù)庫中特定退化類型和非特定退化類型的實(shí)驗(yàn)。對(duì)于前者,隨機(jī)選擇特定類型的退化圖像來訓(xùn)練和測(cè)試,對(duì)于后者所有退化類型的圖像將放在一起訓(xùn)練和測(cè)試。
前人幾種表現(xiàn)良好的無參考圖像質(zhì)量評(píng)價(jià)和全參考圖像質(zhì)量評(píng)價(jià)方法用來作為對(duì)比:如表I所列,BRISQUE[8]、CORNIA[4]和 CNN[11]都是從原文中提取的方法。除了CNN,所有這些方法在作對(duì)比時(shí),取LIVE數(shù)據(jù)庫中的80%做訓(xùn)練,剩余20%做測(cè)試。對(duì)于CNN取60%做訓(xùn)練,20%做更新,剩余的20%做測(cè)試。
表 1 LIVE數(shù)據(jù)庫上的LCCTable 1 LCC on LIVE
本文提出了一個(gè)簡(jiǎn)單有效的框架來自動(dòng)評(píng)估圖像質(zhì)量。全文的創(chuàng)新性在于集成使用了局部特征和全局統(tǒng)計(jì)特性描繪圖像。本文的貢獻(xiàn)是兩方面的:首先,本文用到了一個(gè)包括局部特征和全局統(tǒng)計(jì)特性有區(qū)分性的特征集來表征圖像塊;其次,研究了怎樣在無標(biāo)記的數(shù)據(jù)集上構(gòu)建字典,使用了一個(gè)跟退化類型無關(guān)的池化策略來加速學(xué)習(xí)過程。
相比前人的方法,本文所提算法有了很大的提高,實(shí)驗(yàn)表明本文算法能有效處理某種程度上不可預(yù)見退化類型的圖像。未來將考慮將目標(biāo)檢測(cè)融合到我們的框架中去,以此代替對(duì)所有檢測(cè)區(qū)域質(zhì)量的均值化處理。