魏小文,石旭利,趙子武
(上海大學(xué) 通信與信息工程學(xué)院,上海 200072)
近幾十年來,隨著通信和多媒體技術(shù)的迅速發(fā)展,視頻編碼技術(shù)得到了廣泛的應(yīng)用。而數(shù)字無損壓縮作為其核心技術(shù)就變得越來越重要。醫(yī)學(xué)成像、遙感、視頻傳輸都要求編碼比特?cái)?shù)盡可能少,并且傳輸?shù)膱D像與原始圖像在主觀質(zhì)量上幾乎是一樣的。JM軟件正是在這樣的背景下由國際視頻編碼組織提出并作為視頻編碼的標(biāo)準(zhǔn),且隨著視頻編碼技術(shù)的發(fā)展而進(jìn)步,經(jīng)歷了H.261,H.263,H.264 以及 MPEG-1,MPEG-2,MPEG-3和目前的MPEG-4。當(dāng)前的視頻編碼標(biāo)準(zhǔn)軟件及相應(yīng)的改進(jìn)方法可以很好地解決時間冗余、空間冗余及編碼冗余等問題,也就是無損地對視頻編碼比特?cái)?shù)進(jìn)行壓縮。例如,文獻(xiàn)[1]通過時域與空域相結(jié)合的自適應(yīng)預(yù)測來達(dá)到無損壓縮,視頻編碼器通過運(yùn)動估計(jì)去除時間冗余。文獻(xiàn)[2]通過人眼對圖像灰度變化的不同敏感程度特性對DCT塊進(jìn)行分類,從而去除空間冗余。文獻(xiàn)[3]根據(jù)圖像內(nèi)容的變化并且用小波變換來對視頻圖像進(jìn)行無損壓縮以去除空間冗余及編碼冗余。但以上方法及當(dāng)前的視頻編碼標(biāo)準(zhǔn)卻很少考慮視覺冗余。筆者提出的基于人眼視覺特性的壓縮方法可以有效地去除視覺冗余。其思想就是找到合適的恰可觀測失真 (亮度變化不可見的最大值),也就是人眼對圖像亮度變化的敏感度因子,通過敏感度因子對JM86代碼流程中DCT變換前的亮度殘差系數(shù)先進(jìn)行量化,然后再變換、量化、編碼,由此來進(jìn)一步壓縮比特?cái)?shù),去除視覺冗余,試驗(yàn)結(jié)果表明此方法有效。
當(dāng)光進(jìn)入人眼后,人眼視網(wǎng)膜上的光感受器對其進(jìn)行采樣,然后通過神經(jīng)元發(fā)送光信號到大腦,從而形成了圖像,視網(wǎng)膜上的光感受器(由桿狀物和圓錐細(xì)胞組成)在人眼視覺系統(tǒng)中的作用就相當(dāng)于傳感器。這些桿狀物對光照極其敏感并在光照較弱時不能感受到彩色[4]。如果由3種截然不同類型組成圓錐細(xì)胞,那么它的敏感度就要低得多,但是在適當(dāng)?shù)墓庹辗秶鷥?nèi)能夠讓人眼感受到彩色,進(jìn)入人眼的光信號有一個動態(tài)的范圍,約為1∶1014,然而神經(jīng)元傳輸信號的動態(tài)范圍僅僅只有1∶103,人眼能夠辨別的動態(tài)范圍是10-12的數(shù)量級[5-7]。因此,這就要求人眼有一種自適應(yīng)的機(jī)制,也就是人眼先感受到的是一些不變的亮度值,然后在亮度變化非常小的范圍內(nèi)來察覺圖像,而亮度就是人眼對可見光主觀感覺的大小。雖然人眼能夠很容易檢測到亮度的閃爍,但是很難用具體的數(shù)值對其強(qiáng)度進(jìn)行量化。盡管如此,大量的試驗(yàn)已經(jīng)證明了亮度強(qiáng)度通常近似為亮度的對數(shù)[6],當(dāng)然這種關(guān)系取決于對周圍發(fā)光體人眼的適應(yīng)水平。人眼對亮度的不同適應(yīng)水平就會產(chǎn)生不同的閾值,這是人眼視覺系統(tǒng)的一個重要特性。在這個閾值以內(nèi),人眼是不可見的。因此,可以將閾值看成是人眼不可見的最大值(MAX)。信號強(qiáng)度越大,其MAX也就越大。因此,對于視頻編碼而言,可以對亮度強(qiáng)度大的信號增大其MAX,然后進(jìn)行量化。文獻(xiàn)[7]將Weber原則和人眼對圖像的感知習(xí)慣結(jié)合,其中背景亮度與恰可觀測失真max的關(guān)系式為
式中:M指預(yù)測像素的亮度,K,a為依據(jù)經(jīng)驗(yàn)設(shè)定的參數(shù)。這里用預(yù)測像素而不用預(yù)測塊是因?yàn)轭A(yù)測塊內(nèi)的像素亮度不是恒定不變的,用預(yù)測像素可以更準(zhǔn)確預(yù)測不可見的最大值,用預(yù)測像素的亮度代替當(dāng)前像素的亮度是因?yàn)楫?dāng)前像素亮度不易得到。
在JM86代碼中,假定A′代表預(yù)測亮度像素值,A代表當(dāng)前亮度像素值,那么亮度殘差值B為
然后通過恰可觀測模型來對B(x,y)進(jìn)行第一次量化,去除視覺冗余。得到
將C(x,y)進(jìn)行整數(shù)DCT變換,得到變換后的殘差值 D(x,y),令
對 D(x,y)進(jìn)行第二次量化,得到 E(x,y),量化后分為兩步,一步是進(jìn)行熵編碼,形成碼流,進(jìn)行傳輸;另一步就是反量化,得到 F(x,y),再對 F(x,y)進(jìn)行反 DCT 變換,進(jìn)行重構(gòu),得到的重構(gòu)圖像為A″
將重構(gòu)圖像與當(dāng)前圖像相減得到差值G(x,y),即
進(jìn)一步去除視覺冗余
筆者提出的方法是在JM86上實(shí)現(xiàn)的。因?yàn)镴M86使用的是整數(shù)DCT變換,所以要對恰可觀測失真表達(dá)式取整,即 max=ceil[K×(1.219+M0.4)2.5+a],通過對 JM 代碼亮度數(shù)據(jù)的分析,K的取值只能在[0.01,0.10]之間。本試驗(yàn)測試的視頻序列為Bream,Mobile,Mother_Daughter,Container,Akiyo等 5個 QCIF標(biāo)準(zhǔn)視頻測試序列(176×144),每個序列編碼 50幀,幀內(nèi)周期為 0(第 1幀是I幀,其余都是P幀)。 在幀率為30 f/s(幀/秒),RDO為1的狀態(tài)下改變P幀QP的值來統(tǒng)計(jì)測試結(jié)果 (這里QP 取 24,26,28,30,32),可得最佳的經(jīng)驗(yàn)值為 K=0.06,a=0,此時的試驗(yàn)結(jié)果如表1所示。
表1 試驗(yàn)前后比特?cái)?shù)的變化
由表1中5個標(biāo)準(zhǔn)測試序列在不同的量化參數(shù)值比特?cái)?shù)的變化可以看出每個測試序列的平均總比特?cái)?shù)都有明顯的下降,且下降的比特率在8%~20%之間。說明此方法能很好地去除視覺冗余,提高編碼效率。下面通過圖1檢驗(yàn)視頻測試序列的主觀質(zhì)量。
通過解碼出來的主觀圖像效果對比可以看出,兩者幾乎是沒有明顯的差別,說明在量化之后(也就是進(jìn)一步去除冗余之后)圖像的主觀質(zhì)量并沒有下降,但是比特?cái)?shù)的壓縮率卻減少了近一半(Akiyo為44.44%,Bream為41.93%,Mother_Daughter為37.6%),有的甚至超過一半(Mobile為77.42%)。這說明了通過人眼的視覺系統(tǒng),圖像中存在較多的視覺冗余,有進(jìn)一步優(yōu)化的必要。
針對人眼的視覺特性,也就是對恰可觀測失真區(qū)域內(nèi)亮度不敏感的特性,提出了一種基于恰可觀測失真背景亮度模型來對亮度殘差進(jìn)行量化,在保證視頻主觀質(zhì)量沒有明顯變化的前提下,提高了編碼效率。另外,本方法還能在一定程度上降低JM86參考軟件的復(fù)雜度,因?yàn)橥ㄟ^恰可觀測失真模型對亮度殘差進(jìn)行量化處理之后,其數(shù)據(jù)得到明顯的壓縮,再進(jìn)行DCT變換時,其運(yùn)算量就會得到明顯的降低,從而達(dá)到了降低其運(yùn)算復(fù)雜度的效果。試驗(yàn)結(jié)果表明,5個標(biāo)準(zhǔn)視頻測試序列的主觀質(zhì)量并沒有下降,但各個測試序列總比特?cái)?shù)的平均壓縮率在8%~20%之間,證明了此方法有效。
[1]ZHANGMingfeng, HU Jia, ZHANGLiming.Losslessvideocompression using combination of temporal and spatial prediction[C]//Proc.IEEE International Conference on Neural Networks and Signal Processing.Shanghai,China:IEEE Press,2003,2:1193-1196.
[2]WEIZhenyu,NGAN K N.Spatio-temporal just noticeable distortion profile for grey scale image/video in DCT domain[J].IEEE Trans.Circuits and Systems for Video Technology,2009,19(3):337-346.
[3]DING JR, YANG JF.Adaptive entropy coding with (5,3) DWT for H.264 lossless image coding[C]//Proc.TENCON 2007-2007 IEEE Region 10 Conference.Taipei,China:IEEE Press,2007:1-4.
[4]XU Shilin,YU Li,ZHU Guangxi.A perceptual coding method based on the luma sensitivitymodel[C]//Proc.IEEE International Symposium on Circuitsand Systems.New Orleans,LA,USA:IEEEPress,2007:57-60.
[5]YANG X K, LIN W S, LU Z, et al.Motion-compensated residue preprocessing in video coding based on just-noticeble-distortion profile[J].IEEE Trans.Circuits and Systems for Video Technology,2005,15(6):742-752.
[6]徐士麟.于人眼觀測特性的視頻編碼技術(shù)研究[D].武漢:華中科技大學(xué),2009.
[7]IRANLIA,WONBOK L,PEDRAM M.HVS-aware dynamic backlight scaling in TFT-LCDs[J].IEEE Trans.Very Large Scale Integration(VLSI) Systems,2006,14(10):1103-1116.