雷海軍,楊 輝,何業(yè)軍
(深圳大學(xué) a.計(jì)算機(jī)與軟件學(xué)院;b.信息工程學(xué)院,廣東 深圳 518060)
3D視頻,又叫立體視頻,主要包括雙目立體視頻、多視點(diǎn)視頻和多視點(diǎn)深度增強(qiáng)視頻,因其具有立體感、高質(zhì)量、多媒體體驗(yàn)和交互性等特點(diǎn),越來(lái)越受到學(xué)術(shù)界和工業(yè)界的重視,并投入大量精力對(duì)其相關(guān)技術(shù)進(jìn)行深入研究[1]。2012年1月1號(hào)19:30開(kāi)播了3D電視試驗(yàn)頻道,3D電視大大提升了電視的功能和審美性,為人們帶來(lái)新的視聽(tīng)享受,有利于擴(kuò)大內(nèi)需。3D電視試驗(yàn)頻道的開(kāi)播是我國(guó)廣播電視發(fā)展史上的一個(gè)新的里程碑,標(biāo)志著我國(guó)廣播電視緊跟世界發(fā)展潮流,邁入了新的發(fā)展階段。
多視點(diǎn)視頻是一種有效的3D視頻表示方法,能夠更加生動(dòng)地再現(xiàn)場(chǎng)景,由不同視點(diǎn)的多個(gè)攝像機(jī)從不同視角拍攝同一場(chǎng)景得到的一組視頻信號(hào),多視點(diǎn)視頻編碼既要考慮同視點(diǎn)間的冗余又要考慮相鄰視點(diǎn)之間的冗余,具有編碼復(fù)雜度高和數(shù)據(jù)量大等特點(diǎn)。多視點(diǎn)視頻編碼技術(shù)作為3D視頻的關(guān)鍵技術(shù)之一,在三維立體電視(3D Television,3DTV)、自由視點(diǎn)電視(Free-viewpoint Television,F(xiàn)TV)和三維遠(yuǎn)程醫(yī)療(3D Telemedicine)等領(lǐng)域中有著非常廣闊的應(yīng)用前景[2]。多視點(diǎn)視頻編碼目前采用HHI提出的分層次B幀預(yù)測(cè)結(jié)構(gòu)比SIMULCAST預(yù)測(cè)結(jié)構(gòu)獲得更好的編碼壓縮效率,消除了視點(diǎn)內(nèi)和視點(diǎn)間的部分冗余[3-4],但是壓縮效率還有待進(jìn)一步提高,本文在此方面做了些研究工作。
與傳統(tǒng)二維視頻的采集不同,多視點(diǎn)視頻序列數(shù)據(jù)的采集需要多個(gè)攝像機(jī)從不同角度同步采集。根據(jù)實(shí)際應(yīng)用需要的不同,需要搭建不同的采集裝置。比較典型的采集裝置有平行相機(jī)(包括1D,2D)、匯聚和環(huán)形相機(jī)等,圖1給出了幾種由日本Nagoya大學(xué)提供的采用100個(gè)相機(jī)進(jìn)行同步采集的相機(jī)陣列配置示意圖[5]。
圖1 各種多視點(diǎn)視頻采集裝置
多視點(diǎn)視頻編碼的應(yīng)用框架圖如圖2所示,編號(hào)為0到N的多個(gè)視頻序列數(shù)據(jù)在多視點(diǎn)視頻編碼中心根據(jù)配置的預(yù)測(cè)結(jié)構(gòu)進(jìn)行編碼,編碼生成的碼流由Web服務(wù)器經(jīng)過(guò)網(wǎng)關(guān)輸出到因特網(wǎng),然后傳輸?shù)綉?yīng)用端,在應(yīng)用端通過(guò)解碼器接收碼流并且進(jìn)行解碼操作,具體的應(yīng)用端可以包括高清晰度電視(HDTV)、3DTV、FTV等,在解碼端需要解碼的視頻個(gè)數(shù)根據(jù)需要而定。
圖2 多視點(diǎn)視頻編碼應(yīng)用框架圖
研究具有高效壓縮效率的預(yù)測(cè)結(jié)構(gòu)成為MVC研究當(dāng)中的一項(xiàng)重要任務(wù),多視點(diǎn)視頻編碼框架JMVC[6-7]采用兼顧時(shí)域預(yù)測(cè)和視點(diǎn)間預(yù)測(cè)的分層次B幀預(yù)測(cè)結(jié)構(gòu)獲得了良好的壓縮效率。在文獻(xiàn)[8-10]中對(duì)多種預(yù)測(cè)結(jié)構(gòu)進(jìn)行了分析,在文獻(xiàn)[11]中提出了KS_IBP,KS_IPP,AS_IBP和SIMULCAST等預(yù)測(cè)結(jié)構(gòu),其中KS_IBP,KS_IPP預(yù)測(cè)結(jié)構(gòu)的錨定幀分別采用IBP和IPP結(jié)構(gòu)的視點(diǎn)間預(yù)測(cè),而非錨定幀只采用水平方向的預(yù)測(cè),因此率失真性能沒(méi)有兼顧時(shí)域和視點(diǎn)間預(yù)測(cè)的AS_IBP預(yù)測(cè)結(jié)構(gòu)好,JMVC采用多參考幀預(yù)測(cè)編碼方式,通過(guò)率失真模型選取最佳的參考幀,來(lái)獲取更高的壓縮效率。
HHI提出的分層次B幀預(yù)測(cè)結(jié)構(gòu)如圖3所示,由于其高效的壓縮性能而被JVT選為標(biāo)準(zhǔn)參考預(yù)測(cè)結(jié)構(gòu),該預(yù)測(cè)結(jié)構(gòu)水平方向采用分層次B幀,視點(diǎn)間采用IBP結(jié)構(gòu),水平方向的分層次B幀由最近的高層次兩幀預(yù)測(cè)而得,例如,B2水平方向由I0,B1預(yù)測(cè)而得。S0為基本視點(diǎn),其中奇數(shù)編號(hào)視點(diǎn)(S1,S3,S5)的錨定幀和非錨定幀參考同一時(shí)刻相鄰視點(diǎn),如S1視點(diǎn)B2幀在垂直方向參考S0視點(diǎn)B2幀,S2視點(diǎn)B2幀,偶數(shù)編號(hào)視點(diǎn)(S2,S4,S6)的錨定幀參考上一相鄰偶數(shù)編號(hào)視點(diǎn),如S2視點(diǎn)I0幀垂直方向參考S0視點(diǎn)的I0幀。由分層次B幀預(yù)測(cè)結(jié)構(gòu)分析可知,偶數(shù)編號(hào)視點(diǎn)S2,S4,S6的錨定幀的預(yù)測(cè)來(lái)源于上一相鄰偶數(shù)編號(hào)視點(diǎn),非錨定幀只采用水平預(yù)測(cè),根據(jù)相鄰視點(diǎn)間的差異性最小特性,本文提出的新的預(yù)測(cè)結(jié)構(gòu)AS_EIPP(Enhance AS_IPP)如圖4所示,水平方向和垂直方向分別代表時(shí)間方向和視點(diǎn)方向,AS_EIPP預(yù)測(cè)結(jié)構(gòu)Gop長(zhǎng)度為12,水平方向采用分層次B幀預(yù)測(cè)結(jié)構(gòu),視點(diǎn)間采用IPP結(jié)構(gòu),S0為基本視點(diǎn),S1,…,S7視點(diǎn)的錨定幀和非錨定幀都參考同一時(shí)刻上一個(gè)相鄰視點(diǎn)進(jìn)行垂直方向的視差預(yù)測(cè),相鄰視點(diǎn)之間的差異性最小,相對(duì)于AS_IBP可以進(jìn)一步提高壓縮效率,同時(shí)S2,…,S7視點(diǎn)的錨定幀和非錨定幀的后向參考分別來(lái)自S0,…,S7,即達(dá)到一個(gè)增強(qiáng)效果,進(jìn)一步提升壓縮效率。
圖4 AS_EIPP預(yù)測(cè)結(jié)構(gòu)
多視點(diǎn)視頻編碼采用多參考幀編碼模型,錨定幀和非錨定幀都有水平和垂直方向的多個(gè)參考幀,根據(jù)率失真最佳模型選擇最佳參考幀(V*ref),拉格朗日函數(shù)代價(jià)為式中:S代表視頻數(shù)據(jù);I代表編碼參數(shù)集合,包括編碼模型、運(yùn)動(dòng)矢量、參考幀索引等;λ代表拉格朗日乘積因子;D(S,I)和R(S,I)分別代表率失真值和比特?cái)?shù)。V*ref包括在I之內(nèi),最佳的參考幀為
式中,Φ代表當(dāng)前編碼幀的整個(gè)參考幀的集合。
1)PC機(jī)配置及操作系統(tǒng)環(huán)境:CPU主頻為2.83 GHz,內(nèi)存為4 Gbyte,操作系統(tǒng)為Win7,多視點(diǎn)視頻編碼系統(tǒng)版本號(hào)JMVC8.3.1。
2)量化參數(shù)(QP)值取22,27,32,37和42,搜索范圍為96,Gop長(zhǎng)度大小為12,參考幀數(shù)為2。
平均峰值信噪比為
式中:PSNRY,PSNRU,PSNRV分別表示像素Y,U和V分量的峰值信噪比。
比特變化率為
式中:Ri和Rj分別表示參考結(jié)構(gòu)和當(dāng)前結(jié)構(gòu)的比特率。
平均碼率為
式中:Rview,i表示第i個(gè)視點(diǎn)的比特率。
3)多視點(diǎn)視頻測(cè)試序列:BallRoom,Exit和Vassar[12]的基本屬性如表1所示,各編碼61幀、8個(gè)視點(diǎn)。
表1 多視點(diǎn)視頻測(cè)試序列基本參數(shù)
3個(gè)測(cè)試序列的實(shí)驗(yàn)數(shù)據(jù)如表2所示,給出了峰值信噪比和碼率的數(shù)據(jù)統(tǒng)計(jì)。由表2可知AS_EIPP預(yù)測(cè)結(jié)構(gòu)具有最高的壓縮效率,以BallRoom序列為例,相對(duì)于SI?MULCAST,當(dāng) QP=22時(shí):KS_IBP,KS_IPP,AS_IBP 和AS_EIPP比特率分別減少171 kbit/s,140 kbit/s,249 kbit/s和317 kbit/s,比特率幅度分別減少7.8%,9.5%,13.9%和17.7%;當(dāng)QP=27時(shí):比特率分別減少163 kbit/s,137 kbit/s,231 kbit/s和242 kbit/s,比特率幅度分別減少16.9%,14.2%,22.2%和25.2%;當(dāng)QP=32時(shí):比特率分別減少121 kbit/s,105 kbit/s,150 kbit/s和163 kbit/s,比特率幅度分別減少22.6%,19.6%,28.0%和30.4%;當(dāng)QP=37時(shí):比特率分別減少82 kbit/s,73 kbit/s,97 kbit/s和103 kbit/s,比特率幅度分別減少26.3%,23.4%,33.1%;當(dāng)QP=42時(shí):比特率分別減少47 kbit/s,42 kbit/s,54 kbit/s和51 kbit/s,比特率幅度分別減少為26.2%,23.4%,30.1%和31.8%。
表2 預(yù)測(cè)結(jié)構(gòu)實(shí)驗(yàn)結(jié)果數(shù)據(jù)對(duì)比
由表2的數(shù)據(jù)分析可知,AS_EIPP預(yù)測(cè)結(jié)構(gòu)具有最好的壓縮效率,與AS_IBP預(yù)測(cè)結(jié)構(gòu)相比,比特率減少幅度在1.7%~4%。隨著QP值的增大,比特率越來(lái)越小,相對(duì)于SIMULCAST,比特率減少幅度呈上升趨勢(shì)。率失真曲線對(duì)比如圖5所示。
通過(guò)分析多種多視點(diǎn)視頻編碼的預(yù)測(cè)結(jié)構(gòu),提出了一種新的預(yù)測(cè)結(jié)構(gòu)AS_EIPP,實(shí)驗(yàn)結(jié)果表明,與其他預(yù)測(cè)結(jié)構(gòu)相比,該預(yù)測(cè)結(jié)構(gòu)具有較好的率失真性能與壓縮效率。多視點(diǎn)視頻編碼主要是基于H.264/AVC編碼框架設(shè)計(jì)的,提高編碼效率是該研究領(lǐng)域的核心問(wèn)題之一,多視點(diǎn)視頻編碼復(fù)雜度大,其中模式?jīng)Q策、多參考幀選擇和運(yùn)動(dòng)估計(jì)是多視點(diǎn)視頻編碼中最耗時(shí)的部分,經(jīng)實(shí)驗(yàn)統(tǒng)計(jì)占到總個(gè)編碼時(shí)間的97%以上,下一步工作將會(huì)對(duì)編碼復(fù)雜度進(jìn)行研究,研究高性能算法,以提高多視點(diǎn)視頻編碼的實(shí)時(shí)性。
[1]MERKLE P,MULLER K,WIEGAND T.3D video:acquisition,cod?ing,and display[J].IEEE Trans.Consumer Electronics,2010,56(2):946-950.
[2]霍俊彥,常義林,李明,等.多視點(diǎn)視頻編碼的研究現(xiàn)狀及期展望[J].通信學(xué)報(bào),2010,31(5):113-118.
[3]趙鵬,何小海,王正勇,等.一種多視點(diǎn)視頻顏色校正方法[J].電視技術(shù),2011,35(21):29-31.
[4]廖小僮,馬然,安平,等.基于多視點(diǎn)視頻的差錯(cuò)控制技術(shù)[J].電視技術(shù),2010,34(3):11-13.
[5]何萍.多視點(diǎn)視頻編碼中的快速算法研究[D].寧波:寧波大學(xué),2010.
[6]VETRO A,WIEGAND T,SULLIVAN G J.Overview of the stereo and multiview video coding extensions of the H.264/MPEG-4AVC standard[J].Proceedings of the IEEE,2011,99(4):626-642.
[7]VETRO A,PANDIT P,KIMATA H,et al.Joint multiview video mod?el(jmvm)8.0[C]//Proc.JVT of ISO/IEC MPEG&ITU-T VCEG 27th Meeting.Geneva:[s.n.],2008:23-29.
[8]FEZZA S A,F(xiàn)ARAOUN K M,OUDDANE S.A comparison of pre?diction structures for multi-view videoc coding based on the H.264/AVC standard[C]//Proc.7th International Workshop on Systems,Sig?nal Processing and their Applications,2011.[S.l.]:IEEE Press,2011:111-114.
[9]HUO Junyan,CHANG Yilin,MA Yanzhuo.Efficient prediction struc?ture for key pictures in multiview video coding[C]//Proc.Sysposium on Photonics and Optoelectronics,2011.[S.l.]:IEEE Press,2011:1-4.
[10]HO Y S,OH K J.Overview of multi-view Video coding[C]//Proc.14th International Workshop on Systems,Signals and Image Pro?cessing,2007 and 6th EURASIP Conference focused on Speech and Image Processing,Multimedia Communication and Services.[S.l.]:IEEE Press,2007:5-12.
[11]MERRKLE P,SMOLIC A,MULLER K,et al.Efficient prediction structures for multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology,2007,17(11):1461-1473.
[12]MERL.Has provided the ballroom,exit and vassar sequence[EB/OL].[2012-03-10].http://www.merl.com.pub/avetro/mvc-testseq/orig-yuv/.