王 楊,向秀梅,盧 嘉,郁振鑫
(1.河北工業(yè)大學電子信息工程學院,天津 300401;2.河北工業(yè)大學天津市電子材料與器件重點實驗室,天津 300401)
隨著立體圖像相關技術的發(fā)展,準確地評價立體圖像在采集、存儲、壓縮、傳輸等過程中的失真程度逐漸成為研究熱點[1]。立體圖像質量的客觀評價以其評價方式便捷、結果客觀可靠等優(yōu)勢而被普遍應用。根據評價過程參考圖像的信息量將客觀評價方法分為3種:全參考型、半參考型和無參考型[2],其中無參考型評價方法無需參考圖像信息,更為便捷和實用。
Figure 1 Overall framework of the non-reference stereo image quality evaluation method圖1 無參考立體圖像質量評價方法的整體框架
由于立體圖像由左、右視點圖像構成,包含深度信息和視差信息,不能將單目圖像評價方法直接用于立體圖像質量評價[3]。Chen等人[4]利用從立體圖像提取的二維和三維特征來評估立體感知質量。馬允等人[5]提取梯度幅值、拉普拉斯特征、空域自然場景統(tǒng)計特征訓練無參考立體圖像評價模型。Zhang等人[6]在卷積神經網絡的基礎上,通過單通道和三通道提取圖像特征來評價立體圖像質量。Liu等人[7]通過合成三維視覺顯著圖來實現不同區(qū)域的權重分配,將更高的權重分配給更重要的感知區(qū)域。Lin等人[8]提取相位一致性測量中的局部相位和局部幅度,并提出將其作為主要特征的立體圖像質量評估框架。Ma等人[9]在梯度域中,通過聯合考慮人類視覺系統(tǒng)的對比靈敏度和鄰域梯度信息來生成修改的梯度幅度圖,結合空間和梯度域的質量以提高立體圖像的整體質量。Yao等人[10]利用雙變量自然場景統(tǒng)計模型,分別從雙眼融合、雙眼競爭和雙眼抑制區(qū)域提取特征來捕獲圖像質量。Zhou等人[11]提出了一種左、右視圖子網之間包含多層網絡交互體系結構的無參考立體圖像質量評價方法。
基于上述提取立體圖像特征訓練評價模型的思想,以及三維視覺顯著性由二維視覺顯著性和深度信息構成的啟發(fā)[12],本文在雙目特性的基礎上融合左、右視點圖像和視差信息,以此來獲取深度信息,并結合Gabor小波變換圖像和灰度共生矩陣反映出二維視覺顯著性部分特征這一特點,提取深度信息的顯著性特征,即三維顯著性特征。通過建立左、右視點圖像和合成圖像特征與圖像質量間的回歸關系,提出一種基于雙目融合的無參考立體圖像質量評價方法。該方法評價對稱失真和非對稱失真類型立體圖像均具有較高準確性,目前尚未見報道。
本文所提出的無參考立體圖像質量評價方法如圖1所示,圖中DMOS(Difference Mean Opinion Score)為差異平均主觀得分,SVR(Support Vector Regression)為支持向量回歸,Q(Quality)表示所得評價值。首先利用拉普拉斯金字塔完成左、右視點圖像的逐層分解,采用每層圖像區(qū)域能量或平均梯度確定該層融合系數,在雙目加權模型基礎上構建合成圖(Cyclopean Image);然后對左、右視圖和合成圖像進行二維顯著性特征提取;最后將特征向量和主觀評價值輸入到支持向量回歸SVR模型中進行訓練并預測立體圖像評價值。
合成圖像的構建需要先將參與合成的左、右視點圖像逐層分解,本文采用拉普拉斯金字塔分解,分解步驟如下所示:
步驟1利用高斯核分別將參加融合的左、右視點圖像IL、IR分解為高斯金字塔圖像序列;
步驟2將每層圖像與內插放大的上一層圖像作差,可得該層的拉普拉斯金字塔分解圖像;
步驟3由下至上重復內插放大、作差過程,形成左、右視點圖像的拉普拉斯金字塔序列,分別為{IL0,IL1,…,ILn}、{IR0,IR1,…,IRn},底層圖像為IL0、IR0,頂層圖像為ILn、IRn。
合成圖像包含了左、右視點圖像和視差圖像所包含的信息,可用雙目加權模型[13]構建合成圖像:
CI(x,y)=ωL(x,y)×IL(x,y)+
ωR(x+d,y)×IR(x+d,y)
(1)
其中,IL和IR分別為左、右視點圖像,d為視差信息。ωL、ωR分別為左、右視點圖像的融合系數,因圖像平均梯度和區(qū)域能量均包含圖像局部紋理信息,這里采用平均梯度和區(qū)域能量來逐層分析融合權重。
Figure 2 Cyclopean images of distorted stereo image pairs圖2 失真立體圖像對的合成圖像
在雙目加權模型上由下至上將左、右視點圖像的拉普拉斯金字塔序列逐層融合,其中頂層圖像ILn、IRn的融合系數采用平均梯度來分析,中間層圖像ILm、IRm(0 (2) (3) 其中,GRn為IRn的平均梯度,ERm(i,j)為IRm的區(qū)域能量,M、N為左、右視點圖像大小,ΔIx、ΔIy分別為像素f(x,y)在x、y方向的一階差分。 同理可得頂層圖像ILn的區(qū)域平均梯度GLn和中間層圖像ILm的區(qū)域能量ELm(i,j),則頂層圖像和中間層圖像的融合系數為: (4) (5) 如圖2所示,樣本來自圖像庫LIVE 3D phase Ⅰ[14],分別為立體圖像在高斯模糊、瑞利衰落、JP2K壓縮、JPEG壓縮、白噪聲失真下的合成圖像。 二維視覺顯著性是定位人眼感興趣區(qū)域的重要機制,而人眼存在著紋理敏感性,紋理敏感性會對有著明顯紋理變化的區(qū)域分配更多的注意力,本文采用Gabor小波變換和灰度相關矩陣抽取局部紋理特征。與二維圖像相比,立體圖像攜帶的深度信息也影響著視覺感知。將深度信息與二維顯著性特征檢測方法相結合,建立提取三維顯著性特征的立體圖像質量評價模型。 2.2.1 Gabor小波特征 Gabor濾波器的頻率和方向與人眼視覺系統(tǒng)存在相似性[15],且可以提取圖像不同方向的紋理信息,能夠提供良好的方向選擇和尺度選擇,因此本文采用Gabor濾波作為第一步特征提取方法。二維離散Gabor小波變換過程可用式(6)表示: (6) x′=xcosθ+ysinθ (7) y′=-xsinθ+ycosθ (8) 其中,(x,y)為圖像中的像素坐標點,λ表示波長,也代表Gabor濾波器的尺度,θ表示濾波器的方向,φ為相位偏移,σ為標準差;γ表示空間縱橫比,決定了濾波器的形狀,通常取γ=0.5。本文將濾波核中平等條帶的方向θ選取為0,π/4,π/2,3π/4,π,Gabor核函數中余弦函數的波長參數λ=4,5,6,7,8,即生成5種方向5種尺度的濾波器組,將圖像與濾波器組卷積可得變換圖像,如圖3所示。 Figure 3 5-scale,5-direction Gabor wavelet transform image圖3 5尺度、5方向的Gabor小波變換圖像 選取不同的尺度和方向,利用所得的不同Gabor濾波器對圖像進行變換,分別提取變換后圖像幅度的均值和方差特征,可得2×a×b維的特征向量: Figure 4 Stereo image quality evaluation model圖4 立體圖像質量評價模型A=[μ0,0,σ0,0,μ0,1,σ0,1,…,μa-1,b-1,σa-1,b-1] (9) 本文取5種方向5種尺度,θ=0,π/4,π/2,3π/4,π,λ=4,5,6,7,8,即a=5,b=5。將左、右視點圖像和合成圖像進行幅度參數提取,分別用AL、AR和AC表示。 2.2.2 灰度共生矩陣特征 圖像的灰度相關特性表現為某距離的2像素之間存在某灰度關系[16],因而利用灰度共生矩陣描述圖像的灰度相關特性。本文通過計算灰度共生矩陣的4個最常用的特征值,來表示圖像的部分紋理特征。 (10) (11) (12) (13) 式(10)~式(13)分別為灰度共生矩陣的對比度、熵、能量、逆差分矩的計算公式。其中,pθ(i,j)為圖像在方向θ上計算的L階灰度共生矩陣,本文將方向θ分別設置為水平方向、豎直方向、主對角線和副對角線方向,可得到4個方向的特征參數: B=[G1,0°,G1,45°,G1,90°,G1,135°,…, G4,0°,G4,45°,G4,90°,G4,135°] (14) 通過式(14)提取左、右視點圖像和合成圖像的灰度共生矩陣特征,分別表示為BL、BR和BC。 對左、右視點圖像和合成圖分別進行Gabor小波變換幅度特征和灰度共生矩陣特征提取,右視點圖像表示為GR=[AR,BR],左視點圖像表示為GL=[AL,BL],合成圖像表示為GC=[AC,BC]。將每對立體圖像的特征參數記為G=[GR,GL,GC],其中共提取的特征數為198。 如圖4所示,模型分為訓練部分和測試部分。訓練部分將提取的特征集與主觀評價值作為SVR模型的輸入,進行模型的訓練,得到特征值與主觀評價值之間的映射。模型在Python3.7環(huán)境下進行訓練和預測。測試部分根據特征值與主觀評價值之間的映射,將部分立體圖像的特征值輸入到訓練模型中,得到預測的評價值。 本文選取了 LIVE 3D phase Ⅰ和 LIVE 3D phase Ⅱ立體圖像數據庫進行測試,LIVE 3D phase Ⅰ中共有365幅失真立體圖像和20幅參考圖像,其中失真類型包含高斯模糊、JEPG 壓縮、高斯白噪聲、JP2K壓縮和快速衰退。LIVE 3D phase Ⅱ中共有360幅失真立體圖像和8幅參考圖像[17],其中失真類型包含對稱失真和非對稱失真2大類。將所有樣本隨機劃分為訓練和測試2個部分,其中80%用于訓練,20%用于測試。 本文采用的核函數分別為Rbf,Linear和Poly,如圖5所示,橫坐標為預測值,縱坐標為測試值,采用Rbf核函數時,模型的預測曲線最為準確,此曲線上的預測值幾乎等同于測試值,故本文選用Rbf核函數對樣本集進行訓練。C為懲罰因子,分別設置懲罰因子為10,100,1 000,從圖6可以看出,隨著懲罰因子的增大,預測值逐漸偏離測試值。而Rbf 核函數的核系數gamma的改變對訓練模型影響較小,如圖7所示,隨著gamma的減小,預測值逐漸等同于測試值,預測結果在gamma=0.01時最為準確。因此,將訓練模型的懲罰因子和核系數分別設置為10和0.01。 Figure 5 Prediction curves with different kernel functions圖5 使用不同核函數時的預測曲線 Figure 6 Prediction curves with different penalty factors圖6 不同懲罰因子的預測曲線 Figure 7 Prediction curves with different kernel coefficients圖7 不同核系數的預測曲線 本文采用Spearman等級相關系數SROCC(Spearman Rank Order Correlation Coefficient)和Pearson線性相關系數PLCC(Pearson Linear Correlation Coefficient)客觀分析所提評價模型的相關性,SROCC和PLCC值越接近1,模型預測值與主觀評價值的相關性越高。 表1分別比較了SSIM[18]、文獻[7,19-25]和本文方法在LIVE 3D phase Ⅰ、LIVE 3D phase Ⅱ立體圖像數據庫上的SROCC指標,表2分別比較了它們的PLCC指標。其中文獻[18]的SSIM為平面圖像質量評價方法,其余文獻均為無參考立體圖像質量評價方法。 表格中5種失真類型分別為高斯模糊、瑞利快衰退、JP2K壓縮、白噪聲和JPEG壓縮,對每種失真類型的最佳評價方法采用加粗標注。由表1和表2中數據可知,在LIVE 3D phase Ⅰ 數據庫上,本文所提方法的SROCC指標相比于其它對比方法分別提高了9.8,2.7,12.3,2.4,2.5,2.2,4.7,12.7個百分點,PLCC指標分別提高了9.0,0.7,10.0,1.4,0.6,0.2,2.4,5.9個百分點。在LIVE 3D phase Ⅱ 數據庫上,本文所提方法的SROCC指標分別提高了21.8,8.3,51.3,8.6,7.0,7.8,4.4,12.1個百分點,PLCC指標分別提高了21.1,6.6,45.7,4.1,4.8,6.1,2.8,5.3個百分點。數據分析表明,本文方法對于對稱失真和非對稱失真圖像的評價均具有較高一致性,總體優(yōu)于其他對比方法。 Table 1 SROCC coefficients on the databases表1 數據庫上的SROCC系數 Table 2 PLCC coefficients on the databases表2 數據庫上的PLCC系數 本文提出了一種結合圖像融合的無參考立體圖像質量評價方法。雙目加權模型能夠模擬視覺感知的處理過程,為得到立體圖像對的深度信息,引入雙目加權模型分別對左、右視點圖像進行分解、融合、重構,并結合雙目感知和二維顯著性特征,提取合成圖像的局部頻域、能量、熵、對比度等特征作為三維顯著性特征。結果表明,該方法對于對稱失真和非對稱失真立體圖像的評價均與主觀評價值具有較高的相關性,可以作為一種評價立體圖像質量的新思路。2.2 特征提取
2.3 基于雙目融合的無參考立體圖像質量評價模型
3 實驗與結果分析
3.1 樣本集劃分
3.2 參數設定
3.3 數據庫上的實驗結果
4 結束語