董 銳
(滁州學(xué)院 音樂學(xué)院,安徽 滁州 239000)
近年來,人們獲取視頻和圖像等視覺信息的方法很多。與此同時,人們在多媒體技術(shù)上的需求也在不斷提高,例如音樂視頻、視頻會議等[1]。視覺是人類感知外界信息的方式之一,通過它可以直接獲取外界圖像和信息[2]。因此,人的主觀評價對視頻質(zhì)量評價起到了重要作用,建立視覺模型勢在必行[3]。視頻質(zhì)量評價主要分為主觀評價和客觀評價[4]。視頻質(zhì)量主觀評價是憑借人的主觀感受對視頻質(zhì)量進(jìn)行評定的一種方法。這種方法的結(jié)果穩(wěn)定性較差,操作過程復(fù)雜且費(fèi)時費(fèi)力[5]。視頻質(zhì)量客觀評價則利用客觀方法,通過建立科學(xué)的數(shù)學(xué)模型模擬人的主觀感受來評估視頻質(zhì)量[6]。均方誤差、信噪比是視頻質(zhì)量評價的主要方法,但這些遠(yuǎn)遠(yuǎn)不能滿足實際應(yīng)用需要。此外,由于視頻信息本身的復(fù)雜性,再加上目前對人類視覺系統(tǒng)認(rèn)識不足,故需要建立人類視覺系統(tǒng)數(shù)據(jù)模型。本研究提出一種基于光流法和結(jié)構(gòu)相似度的視頻質(zhì)量評價方法,并使用MATLAB軟件進(jìn)行仿真與研究,以期為無線視頻質(zhì)量評價提供理論參考。
結(jié)構(gòu)相似度(SSIM)方法指出視頻幀包含更多的結(jié)構(gòu)信息,像素點(diǎn)之間存在強(qiáng)相關(guān)性。SSIM利用人類視覺系統(tǒng)(HVS)的自適應(yīng)特性,將亮度、結(jié)構(gòu)和對比度結(jié)合起來,更好地反映了人的主觀感受,是與感知圖像失真非常接近的一種客觀評價方法。該方法的基本流程見圖1。
圖1 SSIM方法檢測系統(tǒng)流程Fig.1 Flow chart of SSIM detection system
如圖1所示,輸入的原始參考視頻幀用x表示,失真視頻幀用y表示。定義一個包含亮度、對比度和結(jié)構(gòu)相似性信息的方程組:
(1)
SSIM(x,y)=[l(x,y)]α·[c(x,y)]β·[s(x,y)]γ。
(2)
式(2)中,調(diào)整參數(shù)的條件為α>0,β>0,γ>0。取α=β=γ=1,式(2)則變?yōu)?/p>
(3)
視頻整體質(zhì)量也可以用SSIM(x,y)來表示,即
(4)
SSIM(x,y)取值為0~1,且值越接近1,圖像的失真程度越低。該評價方法將亮度、結(jié)構(gòu)和對比度結(jié)合起來,更好地反映了人的主觀感受,是與感知圖像失真非常接近的一種客觀評價方法。
SSIM算法只能看出視頻的結(jié)構(gòu)信息,卻對時間域上的相互關(guān)系考慮甚少,從而不能檢測到視頻的運(yùn)動信息,故本研究提出了基于運(yùn)動感知和SSIM的視頻質(zhì)量評價方法(SSIMHS)。這種方法在空間域上使用基于SSIM的方法計算測試視頻與原始視頻每一幀的結(jié)構(gòu)信息;在時間域上,首先通過視頻幀間像素的運(yùn)動矢量關(guān)系計算視頻的運(yùn)動信息內(nèi)容,再利用視頻間的對比度信息,計算視頻在無線信道傳輸過程中受到噪聲干擾而產(chǎn)生的感知程度,結(jié)合運(yùn)動信息和感知程度得到感知系數(shù)作為時域加權(quán)因子,然后對SSIM空域視頻質(zhì)量評價結(jié)果進(jìn)行加權(quán),最后得到基于運(yùn)動感知的視頻質(zhì)量評價測度。其中,運(yùn)動感知質(zhì)量評價算法包含兩方面的計算,分別為光流的基本約束方程和Horn-Schunk算法。
(1)運(yùn)動感知算法
根據(jù)HVS的高效編碼假說[4],信息內(nèi)容的增加和感知程度的降低都會使視覺事件的重要性得到質(zhì)的飛躍。為計算像素點(diǎn)的信息內(nèi)容和感知程度,定義一個權(quán)重函數(shù):
w=I-U=(αlgvr+β)-(lgvg-γlgc+δ),
(5)
式中:I為相對運(yùn)動速度權(quán)重;U為背景運(yùn)動速度權(quán)重。
對基于像素點(diǎn)的視頻質(zhì)量評價結(jié)果用式(5)進(jìn)行加權(quán),得
(6)
式中:q(x,y,t)為像素點(diǎn)的質(zhì)量或失真測度,即t時刻像素點(diǎn)(x,y)的質(zhì)量;Q為視頻最終的質(zhì)量測度。
(2)光流的基本約束方程
光流法是圖像的亮度保持不變,利用圖像序列中像素在時間域上的變化與相鄰幀之間的強(qiáng)度差異,推斷出物體移動速度及方向的方法。
設(shè)I(x,y,t)是圖像點(diǎn)(x,y)在時間段t的灰度,規(guī)定點(diǎn)從(t+δt)運(yùn)動到(x+δx,y+δy)時,兩個時間點(diǎn)的灰度是一致的:
I(x+uδt,y+vδt,t+δt)=I(x,y,t)。
(7)
光流約束方程為
Ixu+Iyv+It=0或I·v+It=0,
(8)
式中:Ix、Iy、It表示參考像素點(diǎn)的灰度值沿x、y、t方向的偏導(dǎo)數(shù)。
(3)Horn-Schunk算法
Horn-Schunk算法就是二維速度場v與灰度u的結(jié)合。那么,第n幀圖像與第n+1幀圖像速度與灰度的關(guān)系為
(9)
由式(8)推導(dǎo)出光流誤差方程為
e2(X)=(Ix+Iy+It)2,
(10)
式中:X=(x,y)T。當(dāng)滿足相鄰兩次迭代結(jié)果的差值小于期望公差值時,迭代過程才會結(jié)束。
綜上所述,SSIM算法只能看出視頻的結(jié)構(gòu)信息,卻對時間域上的相互關(guān)系考慮甚少,從而不能檢測到視頻的運(yùn)動信息,故本研究提出了基于光流法和SSIM的視頻質(zhì)量評價方法。
使用兩種評價指標(biāo)(Pearson線性相關(guān)系數(shù)和Spearman等級相關(guān)系數(shù))對視頻質(zhì)量評價中得到的圖像數(shù)據(jù)進(jìn)行客觀評價。
(1)Pearson線性相關(guān)系數(shù)是測量客觀評價與主觀評價是否為線性關(guān)系的系數(shù),定義為
(11)
(2)Spearman等級相關(guān)系數(shù)主要反映評價模型的主觀與客觀評價是否存在單調(diào)性關(guān)系,定義為
(12)
本研究使用得克薩斯大學(xué)奧斯汀分校建立的開源LIVE數(shù)據(jù)庫驗證算法性能。數(shù)據(jù)庫中包含10段原始視頻及其失真視頻,名稱分別為“bf”“dv”“fc”“hc”“l(fā)a”“po”“rb”“sd”“ss”“tk”。 每個視頻時長50 s,幀速率為450幀/s。數(shù)據(jù)庫以平均主觀得分差(即原始視頻圖像質(zhì)量與失真視頻圖像質(zhì)量的主觀評分差,differential mean opinion score,DMOS)作為視頻圖像質(zhì)量評價的參考分?jǐn)?shù),分?jǐn)?shù)越高表示視頻圖像質(zhì)量越好。同時,使用兩種評價指標(biāo)(Pearson線性相關(guān)系數(shù)和Spearman等級相關(guān)系數(shù))對視頻質(zhì)量評價中得到的圖像數(shù)據(jù)進(jìn)行客觀評價。這兩種指標(biāo)的絕對值越接近1,說明算法的性能越好。
圖2 LIVE視頻數(shù)據(jù)庫中10段視頻不同速率適配等級下每幀視頻的主觀評價值Fig.2 The mean opinion score of each frame under different rate adaptation levels of ten videos in the LIVE video database
仿真結(jié)果如圖2所示,s14代表R1-R4-R1視頻在幀速率為14幀/s時每幀的主觀評價值,s24代表R2-R4-R2視頻在幀速率為24幀/s時的主觀評價值,s34代表R3-R4-R3視頻在幀速率為34幀/s時的主觀評價值。
從圖2中可以看出,在相同情況下傳輸?shù)囊曨l數(shù)據(jù)量越多,包含更多細(xì)節(jié)的幀信息丟失越少,視頻質(zhì)量越高;幀速率越低,相同時間內(nèi)傳輸?shù)囊曨l幀相對越少,包含更多細(xì)節(jié)的幀信息丟失越多,視頻質(zhì)量越低。
DMOS值由主觀評分值取平均值得到,表1給出了LIVE數(shù)據(jù)庫提供的視頻在不同幀速率下的DMOS值。
表1 不同幀速率下視頻的DMOS值Tab.1 DMOS value under different frame rate video
為了驗證SSIMHS視頻質(zhì)量評價方法的性能,分別以SROCC和PROCC為指標(biāo),與典型圖像質(zhì)量評價方法(峰值信噪比PSNR方法和結(jié)構(gòu)相似度SSIM方法)進(jìn)行比較,結(jié)果如表2所示。
表2 不同方法相關(guān)系數(shù)分析Tab.2 Correlation coefficient analysis of different methods
表2中顯示的PSNR、SSIM和SSIMHS的兩個相關(guān)系數(shù)值均在0.5以上,表明主客觀評價結(jié)果都有較好的線性相關(guān)性,但相較于SSIM和PSNR方法,SSIMHS方法的PROCC值更高,顯示了SSIMHS方法的優(yōu)越性,證明了此次設(shè)計的合理性。
本研究通過感知系數(shù)權(quán)值評價視頻質(zhì)量,得到結(jié)論如下:
(1)無線網(wǎng)絡(luò)傳輸速率和發(fā)生速率適配情況下,速率越高視頻質(zhì)量越好,反之視頻失真越嚴(yán)重。
(2)SSIM方法的主觀與客觀評價存在高度單調(diào)性,結(jié)果與主觀評價一致。
(3)SSIMHS比SSIM方法和PSNR方法的PROCC值更高,表明SSIMHS方法的評價效果更好。