雷霄驊,姜秀華
(中國(guó)傳媒大學(xué)理工學(xué)部,北京 100024)
?
碼流域無(wú)參考視頻客觀質(zhì)量評(píng)價(jià)方法的發(fā)展現(xiàn)狀
雷霄驊,姜秀華
(中國(guó)傳媒大學(xué)理工學(xué)部,北京 100024)
數(shù)字視頻質(zhì)量對(duì)人類視覺(jué)信息的獲取影響很大,如何評(píng)價(jià)視頻的質(zhì)量是一個(gè)很重要的技術(shù)。由于在很多的實(shí)際應(yīng)用環(huán)境中沒(méi)有參考視頻,因此無(wú)參考視頻質(zhì)量評(píng)價(jià)技術(shù)是最具有實(shí)用價(jià)值的一類技術(shù)。無(wú)參考視頻質(zhì)量評(píng)價(jià)技術(shù)按照提取特征的位置的不同可以分為像素域方法和碼流域方法。本文綜述了碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)方法的分類和發(fā)展現(xiàn)狀。文章首先介紹了視頻質(zhì)量評(píng)價(jià)的分類,然后按照不同的實(shí)驗(yàn)環(huán)節(jié)介紹了碼流域視頻質(zhì)量評(píng)價(jià)的發(fā)展?fàn)顩r,最后總結(jié)了碼流域視頻質(zhì)量評(píng)價(jià)的發(fā)展趨勢(shì)并探討了其未來(lái)的發(fā)展方向。通過(guò)本文研究人員可以較全面地了解碼流域視頻質(zhì)量評(píng)價(jià)這一領(lǐng)域。
視頻;碼流;特征;無(wú)參考;視頻質(zhì)量評(píng)價(jià)
隨著網(wǎng)絡(luò)帶寬的發(fā)展,數(shù)字視頻越來(lái)越成為一種主流的信息傳播方式。數(shù)字視頻在處理的過(guò)程中可能會(huì)因?yàn)楦鞣N原因產(chǎn)生圖像質(zhì)量問(wèn)題,例如模糊、塊效應(yīng)、振鈴效應(yīng)等。視頻質(zhì)量評(píng)價(jià)就是研究這些圖像質(zhì)量問(wèn)題對(duì)人主觀感受影響的一門(mén)學(xué)科。本文總體上分成三個(gè)章節(jié)。第一章對(duì)視頻質(zhì)量評(píng)價(jià)的分類做一個(gè)概括性的介紹,第二章對(duì)其中的一個(gè)分支——碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)的分類和發(fā)展現(xiàn)狀做詳細(xì)的綜述,第三章總結(jié)了碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)的發(fā)展趨勢(shì)并探討了其未來(lái)的發(fā)展方向。
視頻質(zhì)量評(píng)價(jià)可以分為兩大類:主觀評(píng)價(jià)方法和客觀評(píng)價(jià)方法。人是視頻的最終使用者,所以主觀質(zhì)量評(píng)價(jià)是最準(zhǔn)確和可靠的視頻質(zhì)量評(píng)價(jià)方法。但是主觀評(píng)價(jià)實(shí)驗(yàn)一方面費(fèi)時(shí)費(fèi)力,另一方面結(jié)果容易受到觀察者自身認(rèn)知水平的影響,所以并不適用于實(shí)際環(huán)境。客觀評(píng)價(jià)方法彌補(bǔ)了主觀評(píng)價(jià)方法的不足,采用數(shù)學(xué)的方法計(jì)算得到視頻的質(zhì)量。經(jīng)過(guò)這些年的發(fā)展,客觀評(píng)價(jià)方法已經(jīng)可以比較精確地預(yù)測(cè)視頻的質(zhì)量。
2.1 主觀評(píng)價(jià)方法
主觀質(zhì)量評(píng)價(jià)即觀察者通過(guò)觀看一批視頻序列,對(duì)視頻序列的質(zhì)量進(jìn)行打分。國(guó)際電信聯(lián)盟在BT.500的標(biāo)準(zhǔn)[1]中推薦了DSIS法以及DSCQS法,以及幾種替代方法。
(1) DSIS
DSIS(double-stimulus impairment scale,雙刺激損傷量表)法每組需要觀看兩個(gè)視頻。每組試驗(yàn)中觀測(cè)者首先觀看無(wú)損傷的原始視頻,然后觀看受損視頻,隨后根據(jù)第一個(gè)視頻打分評(píng)價(jià)第二個(gè)視頻。獲得的分?jǐn)?shù)稱為MOS(mean opinion score,平均意見(jiàn)分)。MOS越高代表視頻的質(zhì)量越好。每組實(shí)驗(yàn)根據(jù)需要可以播放一遍或者兩遍視頻。圖1顯示了DSIS的實(shí)驗(yàn)過(guò)程。圖中橫坐標(biāo)為時(shí)間,T1為無(wú)損傷的基準(zhǔn)視頻,T3為有損傷的視頻,而T2為兩個(gè)視頻之間的灰場(chǎng)。
圖1 主觀評(píng)價(jià)視頻播放順序
視頻的主觀質(zhì)量一般情況下從“優(yōu)”到“劣”分成5個(gè)級(jí)別,分別對(duì)應(yīng)從“不可察覺(jué)”到“很討厭”5個(gè)級(jí)別,如表1所示。
表1 主觀評(píng)價(jià)量表
(2)DSCQS
DSCQS(double-stimulus continuous quality-scale,雙激勵(lì)連續(xù)質(zhì)量量表)法每組需要觀看兩個(gè)視頻。與DSIS法不同的地方在于,觀察者并不知道這兩個(gè)視頻中哪個(gè)是原始視頻,哪個(gè)是受損視頻。觀察者在觀看的過(guò)程中,對(duì)每組實(shí)驗(yàn)中的兩個(gè)視頻都進(jìn)行打分評(píng)價(jià)。在統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果的過(guò)程中,計(jì)算原始視頻分?jǐn)?shù)和受損視頻分?jǐn)?shù)之差,作為該受損視頻的DMOS(degradation mean opinion score,平均意見(jiàn)下降分)。與MOS正好相反,DMOS越低代表視頻質(zhì)量越好。
2.2 客觀評(píng)價(jià)方法
客觀質(zhì)量評(píng)價(jià)通過(guò)數(shù)學(xué)計(jì)算的方法對(duì)視頻序列的質(zhì)量進(jìn)行打分。根據(jù)對(duì)原始視頻信息的依賴程度,可以將客觀質(zhì)量評(píng)價(jià)方法分成3大類:全參考視頻質(zhì)量評(píng)價(jià),縮減參考視頻質(zhì)量評(píng)價(jià),以及無(wú)參考視頻質(zhì)量評(píng)價(jià)。其中全參考視頻質(zhì)量評(píng)價(jià)需要原始視頻的所有信息,縮減參考視頻質(zhì)量評(píng)價(jià)只需要原始視頻的一些特征信息,而無(wú)參考視頻質(zhì)量評(píng)價(jià)則不需要原始視頻的信息。
2.2.1 全參考
全參考視頻質(zhì)量評(píng)價(jià)需要原始視頻的所有信息,通過(guò)計(jì)算原始視頻與失真視頻之間的感知誤差,綜合得到失真視頻的質(zhì)量值。全參考視頻質(zhì)量評(píng)價(jià)的方法很多,最常用的兩種方法是PSNR(Peak Signal to Noise Ratio,峰值信噪比)和SSIM(Structural SIMilarity,結(jié)構(gòu)相似度)。
(1)PSNR
PSNR通過(guò)直接計(jì)算像素點(diǎn)灰度值之間的誤差來(lái)衡量視頻圖像的質(zhì)量。它的計(jì)算公式為:
(1)
式中L為圖像灰度值范圍,對(duì)于8bit位深的圖像來(lái)說(shuō)L=2^8-1=255;M*N圖像塊的MSE(均方誤差)計(jì)算公式為:
(2)
PSNR取值一般在20到50之間,取值越高代表視頻圖像質(zhì)量越好。該算法的優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單,缺點(diǎn)是不能很嚴(yán)格的符合人眼主觀感知的質(zhì)量。
(2)SSIM
SSIM是Zhou Wang等人提出的一種圖像質(zhì)量評(píng)價(jià)算法[2]。它綜合考慮亮度、對(duì)比度、結(jié)構(gòu)三方面的信息衡量視頻圖像質(zhì)量。SSIM取值在0到1之間,取值越高代表視頻圖像質(zhì)量越好。相對(duì)于PSNR來(lái)說(shuō),SSIM計(jì)算復(fù)雜了很多,但是它的結(jié)果更加符合人眼主觀感知的質(zhì)量。
2.2.2 縮減參考
縮減參考視頻質(zhì)量評(píng)價(jià)只需要原始視頻的一些特征信息??s減參考方法的優(yōu)點(diǎn)主要是可以在傳輸少量數(shù)據(jù)的基礎(chǔ)上對(duì)視頻圖像質(zhì)量作比較準(zhǔn)確地評(píng)估。縮減參考一個(gè)最典型的例子是VQM算法。
VQM(Video Quality Metric,視頻質(zhì)量算法)是VQEG(Video Quality Experts Group,視頻質(zhì)量專家組)組織的Pinson等人提出的一種圖像質(zhì)量評(píng)價(jià)算法[3]。它利用統(tǒng)計(jì)學(xué)原理模擬實(shí)際的人眼視覺(jué)系統(tǒng),在提取參考及其對(duì)應(yīng)的受損圖像中人眼能夠感知的圖像特征值(亮度、色彩、時(shí)空變化等信息)的基礎(chǔ)上,計(jì)算得出視頻質(zhì)量客觀評(píng)價(jià)值。該評(píng)價(jià)值為人眼可感知的模糊、塊失真、不自然的運(yùn)動(dòng)、噪音和錯(cuò)誤塊等損傷的綜合反映。VQM取值在0到1之間,取值越小代表視頻圖像質(zhì)量越好。
2.2.3 無(wú)參考
無(wú)參考視頻質(zhì)量評(píng)價(jià)完全不需要原始視頻的信息。無(wú)參考視頻質(zhì)量評(píng)價(jià)是最有實(shí)用價(jià)值的一類視頻質(zhì)量評(píng)價(jià)方法,但也是最難研究的一種視頻質(zhì)量評(píng)價(jià)方法。由于缺少原始視頻圖像的對(duì)比,很難評(píng)價(jià)現(xiàn)有視頻圖像的質(zhì)量情況,因此目前還沒(méi)有國(guó)際上公認(rèn)的無(wú)參考視頻質(zhì)量評(píng)價(jià)方法。無(wú)參考視頻質(zhì)量評(píng)價(jià)根據(jù)特征參數(shù)來(lái)源的不同可以分為像素域無(wú)參考視頻質(zhì)量評(píng)價(jià)和碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)。
(1)像素域
像素域無(wú)參考視頻質(zhì)量評(píng)價(jià)從視頻像素中提取特征參數(shù),計(jì)算視頻的質(zhì)量。像素域無(wú)參考視頻質(zhì)量評(píng)價(jià)目前主要研究幾種常見(jiàn)的損傷——模糊,噪聲,以及塊效應(yīng)等。例如Marziliano等人提出了基于圖像邊緣寬度的模糊度估計(jì)算法[4],張旗等人提出的基于小波域高頻系數(shù)的噪聲估計(jì)算法[5],以及Wang Zhou等人提出的基于離散傅里葉變換的塊效應(yīng)估計(jì)算法[6]。除此之外,也有一些機(jī)構(gòu)在嘗試研究具有一定通用性的算法。例如德州大學(xué)奧斯丁分校研究人員提出的BIQI[7]、BRISQUE[8]等算法。
(2)碼流域
碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)從視頻壓縮碼流中提取特征參數(shù),計(jì)算視頻質(zhì)量。相對(duì)于像素域無(wú)參考視頻質(zhì)量評(píng)價(jià),碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)的準(zhǔn)確度要高很多,但是它的應(yīng)用只限于某種特定標(biāo)準(zhǔn)的壓縮碼流,而且評(píng)價(jià)的損傷形式也限定為視頻壓縮損傷。后文中將會(huì)對(duì)這一類視頻質(zhì)量評(píng)價(jià)方法做詳細(xì)的介紹。
碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)方法一方面計(jì)算結(jié)果比較準(zhǔn)確,另一方面適用范圍比較窄。因此碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)方法通常用于針對(duì)某一種壓縮編碼標(biāo)準(zhǔn)進(jìn)行精確評(píng)價(jià)。如圖2所示,碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)實(shí)驗(yàn)的研究過(guò)程從整體上可以分成兩個(gè)實(shí)驗(yàn):訓(xùn)練實(shí)驗(yàn)和測(cè)試實(shí)驗(yàn)。訓(xùn)練實(shí)驗(yàn)可以獲得視頻質(zhì)量評(píng)價(jià)模型,而驗(yàn)證實(shí)驗(yàn)則用于驗(yàn)證視頻質(zhì)量評(píng)價(jià)模型的準(zhǔn)確性。訓(xùn)練實(shí)驗(yàn)可以分成如下幾個(gè)步驟:
1)選視頻序列。選擇一些用于訓(xùn)練實(shí)驗(yàn)的原始視頻序列。
2)壓縮。將這些測(cè)試視頻序列壓縮成不同的碼率的碼流。
3)提取特征。提取壓縮碼流中的特征參數(shù)。
4)質(zhì)量評(píng)價(jià)。通過(guò)主觀視頻質(zhì)量評(píng)價(jià)或者客觀視頻質(zhì)量評(píng)價(jià)方法獲得視頻質(zhì)量值。
5)建模。使用特征值和視頻質(zhì)量值進(jìn)行建模,獲得視頻質(zhì)量評(píng)價(jià)模型。
測(cè)試實(shí)驗(yàn)和訓(xùn)練實(shí)驗(yàn)的流程基本上是一樣的。它們之間主要的區(qū)別在于測(cè)試實(shí)驗(yàn)在提取特征之后使用視頻質(zhì)量評(píng)價(jià)模型預(yù)測(cè)得到視頻質(zhì)量預(yù)測(cè)值,然后通過(guò)與視頻質(zhì)量實(shí)際值進(jìn)行對(duì)比后就可以驗(yàn)證模型的準(zhǔn)確性。后文中將會(huì)對(duì)上述各個(gè)步驟中的提取特征參數(shù)、質(zhì)量評(píng)價(jià)、建模技術(shù)的發(fā)展情況進(jìn)行綜述。
圖2 碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)的研究方法
3.1 選視頻序列
實(shí)驗(yàn)中使用的視頻序列都是無(wú)損傷且無(wú)壓縮的原始視頻序列。常用的免費(fèi)視頻序列可以從Xiph[9]或者CDVL[10]等素材網(wǎng)站上下載使用。這些視頻序列的數(shù)據(jù)量很大,通常以YUV444、YUV422、YUV420、RGB等格式進(jìn)行存儲(chǔ)。
3.2 壓縮
實(shí)驗(yàn)中經(jīng)常使用視頻編碼的標(biāo)準(zhǔn)參考軟件將原始視頻序列壓縮編碼為視頻碼流。例如HEVC對(duì)應(yīng)的標(biāo)準(zhǔn)參考軟件為HM[11],H.264對(duì)應(yīng)的參考軟件為JM[12]。在一些研究中也會(huì)使用一些其它的常用視頻編碼器,例如FFmpeg[13]、x264[14]等等。一個(gè)原始視頻一般會(huì)壓縮編碼為多個(gè)損傷程度不同的視頻碼流,可以通過(guò)設(shè)定QP或碼率來(lái)控制它們的損傷程度。
3.3 提取特征
特征用于作為視頻質(zhì)量評(píng)價(jià)模型的輸入?yún)?shù)。由此可見(jiàn)特征的選擇直接決定了視頻質(zhì)量評(píng)價(jià)模型的準(zhǔn)確程度。目前無(wú)參考碼流域視頻質(zhì)量評(píng)價(jià)主要是針對(duì)的是H.264碼流,因此本小節(jié)以H.264為背景梳理一下常見(jiàn)的特征。這些特征一般以視頻幀為單位進(jìn)行提取,最后得到的整段視頻的特征就是該段視頻內(nèi)視頻幀特征的均值。例如一段H.264視頻的QPavg的特征的計(jì)算方法如下所示:
(3)
式中QPavgseq為一段視頻的QPavg,QPavgframe為一幀視頻QPavg,N為視頻幀數(shù)。
特征從大體上可以分為與QP有關(guān)的特征、與宏塊類型有關(guān)的特征、與運(yùn)動(dòng)矢量有關(guān)的特征、以及其它特征四種類型。下文將會(huì)分別介紹這四種類型的特征。
(1)QP有關(guān)的特征
QP有關(guān)的特征是使用最為廣泛的一類特征。該類特征中最常見(jiàn)的特征是QPavg,它代表了一幀視頻中所有宏塊的QP均值。在H.264中,每個(gè)宏塊包含一個(gè)QP值,反映了該宏塊的量化程度[15]。QP越大,代表該宏塊的量化程度越大,一般情況下該宏塊的圖像質(zhì)量也會(huì)越差。量化是視頻編碼中導(dǎo)致視頻質(zhì)量降低的最主要的原因。它的基本原理就是把圖像樣值映射為一個(gè)較小的數(shù)值,可以概括為下式:
(4)
式中,y為圖像采樣點(diǎn)數(shù)值,Qscale為量化步長(zhǎng),y’為量化值,round()為取整函數(shù)。
從量化公式中可以看出,量化步長(zhǎng)Qscale越大,量化值越小,視頻的數(shù)據(jù)量就越小。因此可知隨著量化步長(zhǎng)Qscale的增加,視頻的壓縮程度越大,相應(yīng)的視頻質(zhì)量越差。在H.264碼流中,Qscale的數(shù)值并不直接存儲(chǔ),而是通過(guò)QP進(jìn)行存儲(chǔ)。QP與Qscale之間的關(guān)系如下式所示:
Qscale=2(QP-4)/6
(5)
從公式可以看出,QP與Qscale近似服從指數(shù)關(guān)系。因此使用QP作為特征可以較好的反映出視頻的量化程度,進(jìn)而反映出視頻的質(zhì)量。文獻(xiàn)[16]的研究中,Intotree、Amazon等幾個(gè)視頻的QPavg和主觀質(zhì)量DMOS之間的關(guān)系如圖3所示。從圖中可以看出視頻質(zhì)量隨著QP的增加而呈現(xiàn)出明顯的下降趨勢(shì)(DMOS取值越大代表視頻質(zhì)量下降越嚴(yán)重)。
圖3 QP和DMOS之間的關(guān)系
QPavg是最常見(jiàn)的與QP有關(guān)的特征。文獻(xiàn)[16][17][18][19][20]等都使用了QPavg作為它們提出的模型的特征。除此之外,一些文獻(xiàn)還使用了與QP有關(guān)的其它一些特征用于反映QP的取值情況。文獻(xiàn)[21]選擇了一幀視頻中所有QP的中位數(shù)QPmedian、標(biāo)準(zhǔn)差QPstd、最小值QPmin、最大值QPmax、10%分位數(shù)QP10%、90%分位數(shù)QP90%等作為它們提出的模型的特征。
(2)宏塊類型有關(guān)的特征
宏塊類型有關(guān)的特征包括宏塊的劃分方式,宏塊的預(yù)測(cè)方式,是否為Skip宏塊等宏塊屬性。H.264在幀間編碼的過(guò)程中可以將宏塊劃分為一些子宏塊以提高編碼效率。一個(gè)16x16的宏塊不僅可以直接進(jìn)行編碼處理,而且可以劃分為2個(gè)16x8,2個(gè)8x16,或者4個(gè)8x8的子塊再進(jìn)行處理。在視頻場(chǎng)景運(yùn)動(dòng)比較復(fù)雜的時(shí)候使用尺寸較小的宏塊可以達(dá)到更好的壓縮編碼效果。因此小尺寸宏塊的百分比可以反應(yīng)視頻內(nèi)容運(yùn)動(dòng)的復(fù)雜程度。文獻(xiàn)[22][23][24][25]中使用了8x8P作為它們提出的模型的特征。8x8P表示一幀圖像中劃分方式為16x8,8x16,8x8的宏塊占所有宏塊的百分比。
幀間編碼的過(guò)程中可以將一些難以使用幀間預(yù)測(cè)的宏塊以幀內(nèi)預(yù)測(cè)的方式進(jìn)行編碼。在運(yùn)動(dòng)比較復(fù)雜的場(chǎng)景中使用幀間預(yù)測(cè)很難找到合適的匹配塊,這時(shí)候使用幀內(nèi)預(yù)測(cè)反而能達(dá)到較好的效果。因此幀內(nèi)預(yù)測(cè)宏塊的百分比可以反應(yīng)視頻內(nèi)容運(yùn)動(dòng)的復(fù)雜程度。文獻(xiàn)[22][24][25]中使用了IntraP作為它們提出的模型的特征。IntraP表示一幀圖像中使用幀內(nèi)編碼的宏塊占所有宏塊的百分比。
幀間編碼的過(guò)程中還可以將一些編碼代價(jià)極小的宏塊以Skip方式進(jìn)行編碼。在畫(huà)面靜止的視頻中很多宏塊不需要傳遞任何信息,就會(huì)大量出現(xiàn)Skip類型宏塊。因此使用Skip宏塊的百分比可以反映視頻內(nèi)容運(yùn)動(dòng)的復(fù)雜程度。文獻(xiàn)[18][20]中使用了skip_num作為它們提出的模型的特征。Skip_num表示一幀圖像中Skip宏塊的個(gè)數(shù)。文獻(xiàn)[22][24][25]等使用了SkipP作為它們提出的模型的特征。SkipP表示一幀圖像中Skip宏塊占所有宏塊的百分比。
(3)運(yùn)動(dòng)矢量有關(guān)的特征
運(yùn)動(dòng)矢量有關(guān)的特征包括運(yùn)動(dòng)矢量均值,運(yùn)動(dòng)矢量的標(biāo)準(zhǔn)差等。幀間編碼的過(guò)程中,運(yùn)動(dòng)劇烈的視頻幀中宏塊的匹配塊的距離其自身較遠(yuǎn),因而通常有較大的運(yùn)動(dòng)矢量。因此使用運(yùn)動(dòng)矢量可以反映視頻內(nèi)容運(yùn)動(dòng)的復(fù)雜程度。文獻(xiàn)[22][23][24][25]中使用了MVavg作為它們提出的模型的特征。MVavg為一幀視頻中運(yùn)動(dòng)矢量長(zhǎng)度的均值,可以反應(yīng)出該視頻整體的運(yùn)動(dòng)強(qiáng)度。除此之外,一些文獻(xiàn)還使用了與運(yùn)動(dòng)矢量有關(guān)的其它一些特征用于反映運(yùn)動(dòng)矢量的取值情況。文獻(xiàn)[24]中選擇了X方向運(yùn)動(dòng)矢量長(zhǎng)度、Y方向運(yùn)動(dòng)矢量、X方向運(yùn)動(dòng)矢量的差值,Y方向運(yùn)動(dòng)矢量的差值等作為它們提出的模型的特征。
(4)其他特征
除了上述三大類特征之外,一些論文還提出了一些獨(dú)特的特征。文獻(xiàn)[26]中使用了環(huán)路濾波的邊界強(qiáng)度Bs作為特征。文獻(xiàn)[27]使用了從DCT系數(shù)計(jì)算而來(lái)的TI和SI作為特征。
(5)示例
圖4顯示了上述幾種特征的情況。圖中的視頻序列名稱為Foreman,分辨率為352x288,編碼方式為H.264。左上角的圖像為解碼后的一個(gè)視頻幀。右上角的圖像為該視頻幀的QP信息,其中網(wǎng)格線代表了該視頻幀的宏塊劃分情況,而其中的數(shù)字代表了該宏塊的QP取值。左下角的圖像為該視頻幀的宏塊類型信息,其中線段代表了宏塊的劃分情況,而“s”標(biāo)出了Skip類型宏塊。右下角的圖像為該視頻幀的運(yùn)動(dòng)矢量信息,其中的線段標(biāo)出了運(yùn)動(dòng)矢量的大小和方向。
3.4 質(zhì)量評(píng)價(jià)
質(zhì)量評(píng)價(jià)的分值反映了視頻質(zhì)量的好壞。碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)方法通常會(huì)選擇使用兩類視頻質(zhì)量評(píng)價(jià)指標(biāo):主觀評(píng)價(jià)分值以及客觀評(píng)價(jià)分值。
(1)主觀評(píng)價(jià)分值
主觀評(píng)價(jià)分值指的是主觀評(píng)價(jià)實(shí)驗(yàn)得到的MOS分值(或者DMOS分值)。該分值通過(guò)對(duì)壓縮碼流進(jìn)行主觀評(píng)價(jià)實(shí)驗(yàn)后獲得。主觀評(píng)價(jià)分值的優(yōu)點(diǎn)在于其結(jié)果與人眼主觀感受直接相符;缺點(diǎn)在于其實(shí)驗(yàn)過(guò)程費(fèi)時(shí)費(fèi)力,難以得到大量的實(shí)驗(yàn)數(shù)據(jù)。有關(guān)主觀評(píng)價(jià)的介紹在第一章已經(jīng)做過(guò)介紹,在這里不再做過(guò)多介紹。文獻(xiàn)[16][18][19]等使用了主觀評(píng)價(jià)分值作為質(zhì)量評(píng)價(jià)的指標(biāo)。
視頻幀圖像 量化參數(shù)
宏塊類型 運(yùn)動(dòng)矢量圖4 幾種常見(jiàn)特征的示意圖
(2)客觀評(píng)價(jià)分值
客觀評(píng)價(jià)分值指的是客觀質(zhì)量評(píng)價(jià)算法得到的各種指標(biāo),例如PSNR值、SSIM值、VQM值等。該分值通過(guò)對(duì)壓縮碼流進(jìn)行客觀質(zhì)量評(píng)價(jià)計(jì)算后獲得??陀^分值的優(yōu)缺點(diǎn)和主觀分值是正好相反的。由于客觀分值獲取方式相對(duì)容易,可以一次性計(jì)算大量的實(shí)驗(yàn)數(shù)據(jù),因而適用于基于機(jī)器學(xué)習(xí)的這種需要大量實(shí)驗(yàn)數(shù)據(jù)的視頻質(zhì)量評(píng)價(jià)模型。文獻(xiàn)[17]中使用PSNR值作為質(zhì)量評(píng)價(jià)的指標(biāo)。文獻(xiàn)[22]中使用PSNR值、PEVQ值、VQM值作為質(zhì)量評(píng)價(jià)指標(biāo)。文獻(xiàn)[24]中使用了SSIM值、PEVQ值、PSNR值、MSSIM值作為質(zhì)量評(píng)價(jià)指標(biāo)。
3.5 建模
建模用于在特征和視頻質(zhì)量之間建立一種對(duì)應(yīng)關(guān)系。碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)方法的模型大體上可以分成3種類型:線性模型,非線性模型,以及機(jī)器學(xué)習(xí)模型。
(1)線性模型
線性模型是最簡(jiǎn)單的一類視頻質(zhì)量評(píng)價(jià)模型。該模型直接將特征值以線性方程的方式組合起來(lái)。該種模型的形式如下所示:
Quality=w1*feature1+w2*feature2+c
(6)
式中feature1、feature2是特征值,w1、w2、w3是系數(shù)。
使用線性模型的視頻質(zhì)量評(píng)價(jià)研究的數(shù)量很多。文獻(xiàn)[20]提出了基于QPavg和num_skip的視頻質(zhì)量評(píng)價(jià)模型。該模型如下所示:
Quality=w1*QPavg+w2*num_skip+c
(7)
式中QPavg是QP均值,num_skip是Skip宏塊數(shù),w1、w2、w3是系數(shù)。
文獻(xiàn)[26]提出了基于QPavg和去塊效應(yīng)濾波器強(qiáng)度Bs的視頻質(zhì)量評(píng)價(jià)模型。該模型如下所示:
Quality=w0*PBS0+w1*PBS1+w2*PBS2+w3*PBS3+w4*PBS4+w5*QPavg+w6*Bitrate
(8)
式中BS0—BS4是5種濾波器邊界強(qiáng)度的出現(xiàn)頻率,QPavg是QP均值,Bitrate是碼率,w1—w6是系數(shù)。
文獻(xiàn)[27]提出了基于時(shí)域特征TI,空域特征SI,以及QPavg的視頻質(zhì)量評(píng)價(jià)模型。該模型如下所示:
Quality=w1*SI+w2*TI+w3*Qpavg
(9)
式中SI、TI是由DCT系數(shù)計(jì)算出來(lái)的特征,QPavg是QP均值,w1、w2、w3是系數(shù)。
(2)非線性模型
非線性模型的是相對(duì)復(fù)雜的一類視頻質(zhì)量評(píng)價(jià)模型。它考慮到一些特征與視頻質(zhì)量之間并非簡(jiǎn)單的線性關(guān)系,因而采用了其它形式的數(shù)學(xué)模型。例如下式即是一種非線性模型:
Quality=a*featurel*EXP(b*feature2)+c
(10)
式中feature1、feature2是特征值,a、b、c是系數(shù),Quality是視頻質(zhì)量。
使用非線性模型的視頻質(zhì)量評(píng)價(jià)研究的數(shù)量相對(duì)少一些。文獻(xiàn)[16]提出的視頻質(zhì)量評(píng)價(jià)模型如下所示:
Quality=bl*FB-b2*FQ
(11)
從模型的公式可以看出,該文章認(rèn)為視頻的質(zhì)量受FQ和FB兩部分因素的影響。其中FQ為量化影響因子,F(xiàn)B為碼流分配影響因子,b1、b2為系數(shù)。FQ計(jì)算方法如下所示:
FQ=(a1*Cn+a2)a3*Qpavg
(12)
式中Cn為視頻內(nèi)容復(fù)雜度相關(guān)的特征,QPavg是QP均值,a1、a2、a3為系數(shù)。
FB計(jì)算方法如下所示:
FB=DB*CRC
(13)
式中DB和CRC是影響碼流分配兩個(gè)特征,在這里限于篇幅不再詳細(xì)介紹。
文獻(xiàn)[28]提出了一種基于考慮時(shí)間復(fù)雜度和空間復(fù)雜度的視頻質(zhì)量評(píng)價(jià)模型。該模型如下所示:
(14)
式中σS、σT是有關(guān)時(shí)間復(fù)雜度和空間復(fù)雜度的特征值,QPavg是QP均值,a1、a2、a3、b1、b2、b3是系數(shù)。
(3)機(jī)器學(xué)習(xí)模型
機(jī)器學(xué)習(xí)模型是最為復(fù)雜的一種視頻質(zhì)量評(píng)價(jià)模型。它通常將特征參數(shù)輸入到一個(gè)人工神經(jīng)網(wǎng)絡(luò)或者支持向量機(jī)中,經(jīng)過(guò)比較復(fù)雜的計(jì)算得到視頻質(zhì)量。由于機(jī)器學(xué)習(xí)一般需要大量的實(shí)驗(yàn)數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,而主觀評(píng)價(jià)實(shí)驗(yàn)一般無(wú)法提供大量的實(shí)驗(yàn)結(jié)果,所以經(jīng)常使用客觀評(píng)價(jià)實(shí)驗(yàn)的數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)。因而很多機(jī)器學(xué)習(xí)模型預(yù)測(cè)的是PSNR值、VQM等客觀視頻質(zhì)量值。圖5顯示了一個(gè)基于人工神經(jīng)網(wǎng)絡(luò)的視頻質(zhì)量評(píng)價(jià)模型。該模型使用了5個(gè)特征作為神經(jīng)網(wǎng)絡(luò)的輸入層參數(shù),使用一個(gè)視頻質(zhì)量值作為神經(jīng)網(wǎng)絡(luò)的輸出層參數(shù)。該網(wǎng)絡(luò)中使用了1個(gè)隱藏層,其中包含了5個(gè)神經(jīng)元。
圖5 人工神經(jīng)網(wǎng)絡(luò)視頻質(zhì)量評(píng)價(jià)模型
文獻(xiàn)[23]中提出了一種基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的無(wú)參考視頻質(zhì)量評(píng)價(jià)模型。該模型選擇了Bits/Frame、16×16P、QPavg等6個(gè)特征作為神經(jīng)網(wǎng)絡(luò)的輸入。以視頻的客觀質(zhì)量PSNR值、PEVQ值或者SSIM值為輸出。其中神經(jīng)網(wǎng)絡(luò)使用了兩層BP神經(jīng)網(wǎng)絡(luò),并在隱藏層使用了6個(gè)或者10個(gè)神經(jīng)元。
文獻(xiàn)[24]中提出了一種基于最小二乘-支持向量機(jī)(LS-SVM)的無(wú)參考視頻質(zhì)量評(píng)價(jià)模型。該模型選擇了QPavg、IntraP、SkipP等18個(gè)特征作為神經(jīng)網(wǎng)絡(luò)的輸入。以視頻的客觀質(zhì)量PSNR值、PEVQ值、SSIM值或者M(jìn)SSIM值為輸出。
3.6 實(shí)驗(yàn)結(jié)果驗(yàn)證
實(shí)驗(yàn)結(jié)果驗(yàn)證用于檢驗(yàn)提出的視頻質(zhì)量評(píng)價(jià)模型的準(zhǔn)確性。通常情況下選定一些已知視頻質(zhì)量狀況的視頻碼流,以提出的視頻質(zhì)量評(píng)價(jià)模型的預(yù)測(cè)質(zhì)量值和視頻實(shí)際質(zhì)量值之間的相關(guān)性來(lái)評(píng)價(jià)模型的優(yōu)劣。模型預(yù)測(cè)質(zhì)量值與實(shí)際質(zhì)量值之間的相關(guān)性越強(qiáng),說(shuō)明評(píng)價(jià)的越準(zhǔn)確。廣泛采用的集中評(píng)價(jià)相關(guān)性的指標(biāo)有:均方根誤差,皮爾遜相關(guān)系數(shù),斯皮爾曼相關(guān)系數(shù)。
(1)均方根誤差
均方根誤差(Root mean squared error,RMSE)計(jì)算方法如下式所示。
(15)
式中{x1,x2,x3,x4…}為視頻實(shí)際的視頻質(zhì)量值,{y1,y2,y3,y4…}為視頻質(zhì)量評(píng)價(jià)模型的預(yù)測(cè)值。
(2)線性相關(guān)系數(shù)
線性相關(guān)系數(shù)(Linear correlation coefficient,LCC),也稱為皮爾遜相關(guān)系數(shù)(Pearson correlation coeffcient,PCC)的取值在-1到1之間,絕對(duì)值越接近于1代表兩列數(shù)據(jù)越相關(guān)。它的計(jì)算方法如下式所示。
(16)
式中為{x1,x2,x3,x4…}的均值,為{y1,y2,y3,y4…}的均值。σx、σy分別為他們的標(biāo)準(zhǔn)差。
(3)斯皮爾曼等級(jí)相關(guān)系數(shù)
斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman’s rankordered correlation coefficient,SROCC)的取值在-1到1之間,絕對(duì)值越接近于1代表兩列數(shù)據(jù)越相關(guān)。它的計(jì)算方式如下所示。
(17)
式中rxi,ryi分別為xi和yi在各自數(shù)據(jù)序列中按照大小排序后元素的排序位置(等級(jí))。
本文綜述了碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)方法的發(fā)展現(xiàn)狀。從質(zhì)量評(píng)價(jià)模型的角度來(lái)看,碼流域無(wú)參考視頻質(zhì)量評(píng)價(jià)方法經(jīng)歷了從線性模型,到符合人眼感知特性的非線性模型,最后到基于機(jī)器學(xué)習(xí)的模型的發(fā)展。從模型選取的特征來(lái)看,它經(jīng)歷了從簡(jiǎn)單的一兩個(gè)基于QP和宏塊類型的特征,到大量、多角度、符合人眼感知的特征的發(fā)展。當(dāng)前主要的碼流域視頻質(zhì)量評(píng)價(jià)方法都是基于H.264標(biāo)準(zhǔn)的,還很少有基于HEVC標(biāo)準(zhǔn)的方法。在未來(lái)如何在HEVC標(biāo)準(zhǔn)下選擇合適的視頻質(zhì)量評(píng)價(jià)模型將會(huì)是碼流域視頻質(zhì)量評(píng)價(jià)研究的一個(gè)熱點(diǎn)問(wèn)題。
[1]ITU-T RECOMMENDATION P.Subjective video quality assessment methods for multimedia applications[S].1999.
[2]Zhou W,Alan Conrad B,Hamid Rahim S,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600 - 612.
[3]Pinson M H,Wolf S.A New Standardized Method for Objectively Measuring Video Quality[J].IEEE Transactions on Broadcasting,2004,50(3):312-322.
[4]Marziliano P,Dufaux F,Winkler S,et al.A no-reference perceptual blur metric[C]. International Conference on Image Processing,2002,3:57-60.
[5]張旗,梁德群,樊鑫.基于小波域的圖像噪聲估計(jì)新方法[J].計(jì)算機(jī)工程,2004,30(8):37-39.
[6]Wang Z,Bovik A C,Evan B L.Blind measurement of blocking artifacts in images[C].International Conference on Image Processing,2000,3:981-984.
[7]Moorthy A K,Bovik A C.A two-step framework for constructing blind image quality indices[J].IEEE Signal Processing Letters,2010,17(5):513-516.
[8]Mittal A,Moorthy A K,Bovik A C.Blind/referenceless image spatial quality evaluator[C].2011 Conference Record of the Forty Fifth Asilomar Conference on Signals,Systems and Computers (ASILOMAR),2011:723-727.
[9]Xiph org Video Test Media[DB/OL].http://media.xiph.org/video/derf/
[10]Pinson,Margaret H.The Consumer Digital Video Library[J].IEEE Signal Processing Magazine,2013,30(4):171-174.
[11]ITU-T RECOMMENDATION H.265.2.Reference software for ITU-T H.265 high efficiency video coding[S].
[12]ITU-T RECOMMENDATION H.264.2.Reference software for ITU-T H.264 advanced video coding[S].
[13]FFmpeg[DB/OL].http://ffmpeg.org/
[14]x264[DB/OL].http://www.videolan.org/developers/x264.html
[15]ITU-T RECOMMENDATION H.264.Advanced video coding for generic audiovisual services[S].
[16]林翔宇,陳耀武.雙域無(wú)參考視頻質(zhì)量評(píng)價(jià)算法[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2012,40(4):64-70.
[17]Slanina M,Ricny V,F(xiàn)orchheimer R.A novel metric for H.264/AVC no-reference quality assessment[C].Systems,Signals and Image Processing,2007 and 6th EURASIP Conference focused on Speech and Image Processing,Multimedia Communications and Services,14th International Workshop on,IEEE,2007:114-117.
[18]史惠,孟放,姜秀華.基于H.264碼流的高清視頻質(zhì)量評(píng)價(jià)算法[J].電視技術(shù),2009,33(11):113-116.
[19]楊雪宜,孟放.基于H.264碼流的高清視頻質(zhì)量評(píng)價(jià)模型的算法分析[C]. 第七屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議,2012.
[20]Cheng Y,Jiang X,Wang C.HDTV Video Quality Objective Assessment Based on H.264 Compressed Domain[C].2011 Third International Conference on Communications and Mobile Computing (CMC),IEEE,2011:141-144.
[21]Shi Z,Chen P,F(xiàn)eng C,et al.Research on quality assessment metric based on H.264/AVC bitstream[C].IEEE International Conference on Anti-counterfeiting,Security & Identification,2012:1-5.
[22]Rossholm A,Lovstroem B.A new low complex reference free video quality predictor[C]. 2008 IEEE 10th Workshop on Multimedia Signal Processing,2008:729-731.
[23]Shahid M,Rossholm A,Lovstrom B.A reduced complexity no-reference artificial neural network based video quality predictor[C]. 2011 4th International Congress on Image and Signal Processing (CISP),2011:517 - 521.
[24]Shahid M,Rossholm A,Lovstrom B.A no-reference machine learning based video quality predictor[C].2013 Fifth International Workshop on Quality of Multimedia Experience (QoMEX),2013:176 - 181.
[25]Keimel C,Klimpke M,Habigt J,et al.No-reference video quality metric for HDTV based on H.264/AVC bitstream features[C]. IEEE International Conference on Image Processing,2011:3325-3328.
[26]Lee S O,Jung K S,Sim D G.Real-time objective quality assessment based on coding parameters extracted from H.264/AVC bitstream[J].IEEE Transactions on Consumer Electronics,2010,56(2):1071-1078.
[27]Sugimoto O,Naito S.A No Reference Metric of Video Coding Quality Based on Parametric Analysis of Video Bitstream[C]. International Conference on Image Processing,2011:3333-3336.
[28]Yang F,Wan S,Xie Q,et al.No-Reference Quality Assessment for Networked Video via Primary Analysis of Bit Stream[J].IEEE Transactions on Circuits & Systems for Video Technology,2010,20(11):1544-1554.
(責(zé)任編輯:王謙)
Review of Bitstream Domainno-reference Video Quality Assessment Method
LEI Xiao-hua,JIANG Xiu-hua
(School of Science and Technology,Communication University of China,Beijing 100024,China)
Digital video quality has great influence on human’s watching experience,so how to evaluate the quality of video is a very important technology.Because most ofreal environment is lack of reference video,no reference video quality assessment is the most practical kinds ofmethod among all video quality assessment methods.According to the different location of the features,no reference video quality evaluation method can be divided into pixel-domain method and bitstream-domain method.In this paper,we present a classification and review of published research work in the area of no reference bitstream-domain method.First,the paper introduces the classification of video quality assessment;and then according to different steps of experiment,it introduces development situation of bitstream-domain method;finally it summarizes the trend of bitstream-domain method and discusses its direction in the future.Through this paper,readers can fully understand the field of bitstream-domain method.
video;bitstream;feature;no-reference;video quality assessment
2016-04-16
雷霄驊(1990-),男(漢族),北京市人,中國(guó)傳媒大學(xué)博士研究生.E-mail:leixiaohua1020@126.com
TN949.6
A
1673-4793(2016)06-0037-09