周建同,楊海濤,劉東,馬祥,王田
(1. 華為技術(shù)有限公司,廣東 深圳 518129;2. 中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230026)
視頻編碼的技術(shù)基礎(chǔ)及發(fā)展方向
周建同1,楊海濤1,劉東2,馬祥1,王田1
(1. 華為技術(shù)有限公司,廣東 深圳 518129;2. 中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230026)
現(xiàn)有視頻編碼采用基于塊的混合編碼架構(gòu),利用預(yù)測(cè)、變換、量化和熵編碼技術(shù)實(shí)現(xiàn)對(duì)視頻信號(hào)的高效壓縮。在現(xiàn)有架構(gòu)基礎(chǔ)上進(jìn)一步優(yōu)化,提供針對(duì)視頻圖像信號(hào)局部特性的更加靈活的處理和編碼。基于機(jī)器學(xué)習(xí)的視頻編碼技術(shù)有望部分或全面地改變現(xiàn)有的混合編碼框架,給視頻編碼帶來(lái)新的研究思路。未來(lái)視頻除了現(xiàn)有的二維平面視頻,還需要編碼面向AR/VR應(yīng)用的球面視頻數(shù)據(jù)和體視頻數(shù)據(jù),這些新的視頻源數(shù)據(jù)格式也給視頻編碼技術(shù)研究帶來(lái)新的機(jī)會(huì)和挑戰(zhàn)。
視頻編碼;機(jī)器學(xué)習(xí);虛擬現(xiàn)實(shí);球面視頻;體視頻
視頻編碼技術(shù)是數(shù)字媒體應(yīng)用的關(guān)鍵基礎(chǔ)性技術(shù),從ITU在1984年發(fā)布業(yè)界第一個(gè)數(shù)字視頻編碼標(biāo)準(zhǔn)H.120至今,經(jīng)過(guò)近30年的發(fā)展,產(chǎn)生一代代視頻編碼技術(shù),支撐了DVD、數(shù)字電視和IPTV[1]、互聯(lián)網(wǎng)視頻服務(wù)[2,3]、視頻監(jiān)控、AR/VR等視頻相關(guān)產(chǎn)業(yè)和應(yīng)用的發(fā)展。
視頻編碼技術(shù)的主要目的是解決大數(shù)據(jù)量視頻信息的高效存儲(chǔ)和傳輸,在有限資源的情況下,保證盡可能地提高用戶視覺(jué)體驗(yàn)。而隨著視頻采集和顯示設(shè)備的更新?lián)Q代,視頻體驗(yàn)在過(guò)去30年持續(xù)提升和變革,視頻產(chǎn)業(yè)也空前繁榮。目前空間分辨率達(dá)到4K(4 096×2 160像素)、時(shí)間分辨率超過(guò) 50幀/s的超高清視頻已經(jīng)開(kāi)始商用。而新興的虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等浸入式視頻應(yīng)用更是牽引視頻從過(guò)去 30年平面視頻提供的零自由度體驗(yàn)向三自由度全景視頻(球面數(shù)據(jù))和六自由度視頻(體數(shù)據(jù))發(fā)展,如圖1所示。對(duì)于三自由度全景視頻空間分辨率4K只是“起步價(jià)”,未來(lái)空間分辨率將達(dá)到8K、16K乃至更高,時(shí)間分辨率要求也隨之提升,90幀/s乃至更高的幀率能提供更好的用戶體驗(yàn)。而六自由度視頻更是顛覆了人們的傳統(tǒng)視頻體驗(yàn),提供視頻信息呈現(xiàn)空間內(nèi)的漫游體驗(yàn),具備多視點(diǎn)和多視角的特點(diǎn)。這些新的浸入式視頻體驗(yàn)和應(yīng)用給視頻編碼技術(shù)提出了更高的要求,也對(duì)現(xiàn)有的存儲(chǔ)和傳輸系統(tǒng)提出了很大的挑戰(zhàn)。即便使用目前最新最高效的通用視頻編碼國(guó)際標(biāo)準(zhǔn)高性能視頻編碼HEVC技術(shù),由于壓縮效率不夠,碼流的速率仍遠(yuǎn)遠(yuǎn)超出現(xiàn)有網(wǎng)絡(luò)的承載能力,極大地限制了相關(guān)業(yè)務(wù)的發(fā)展。因此進(jìn)一步提高視頻編碼的壓縮效率、提供面向三自由度視頻和六自由度視頻的高效編碼方案有迫切的需求。本文將從以下3個(gè)方面,對(duì)視頻編碼的技術(shù)發(fā)展進(jìn)行初步探討:現(xiàn)有混合編碼架構(gòu)的持續(xù)演進(jìn);基于機(jī)器學(xué)習(xí)理論的視頻編碼技術(shù)突破;六自由度視頻體數(shù)據(jù)的技術(shù)探索。
圖1 浸入式視頻發(fā)展趨勢(shì)
基于混合編碼框架的現(xiàn)有視頻編碼的技術(shù)仍在不斷演進(jìn)?,F(xiàn)有視頻編碼技術(shù)的基本框架即所謂混合編碼框架在30年來(lái)沒(méi)有發(fā)生大的變化,仍然沿襲了圖像分塊結(jié)構(gòu),配合預(yù)測(cè)—變換—量化—熵編碼的流程,只是每項(xiàng)具體方法,如預(yù)測(cè)方法、變換方法等,不斷演進(jìn),提供更為精細(xì)的局部信號(hào)自適應(yīng)能力,通過(guò)幾百種處理算法的靈活組合模式,提升視頻的壓縮效率,然后在摩爾定律的幫助下,解決復(fù)雜度提升帶來(lái)的問(wèn)題。其理論思路主要是從信號(hào)處理理論出發(fā),推導(dǎo)和設(shè)計(jì)不同的預(yù)測(cè)方法、變換方法等,再利用率失真優(yōu)化理論來(lái)進(jìn)行編碼模式選擇,從一組編碼方法或參數(shù)中根據(jù)率失真代價(jià)最小的準(zhǔn)則選擇最優(yōu)的方法或參數(shù)。
混合編碼架構(gòu)作為業(yè)界主流的視頻編碼技術(shù)架構(gòu)體系,其技術(shù)研究和標(biāo)準(zhǔn)化主要由兩個(gè)國(guó)際標(biāo)準(zhǔn)組織——ISO/IEC WG11運(yùn)動(dòng)圖像專(zhuān)家組 MPEG和 ITU-T SG16的視頻編碼專(zhuān)家組VCEG聯(lián)合推動(dòng)。最新一代的視頻編碼標(biāo)準(zhǔn)HEVC/H.265在2013年發(fā)布一年后,MPEG組織于 2014年 10月在法國(guó)斯特拉斯堡召開(kāi)了第一屆未來(lái)視頻編碼(FVC)技術(shù)論壇[4]。谷歌、華為、高通和Netflix等公司受邀做專(zhuān)題報(bào)告,結(jié)合各自產(chǎn)品與服務(wù),從不同角度闡述工業(yè)界對(duì)視頻壓縮編碼技術(shù)發(fā)展的觀點(diǎn),并提出更高壓縮效率的訴求。2015年 2月會(huì)議中,MPEG啟動(dòng)面向未來(lái)視頻壓縮編碼的相關(guān)標(biāo)準(zhǔn)工作,包括制定工作計(jì)劃[5]、進(jìn)一步匯總和梳理工業(yè)界需求[6]、征集潛在應(yīng)用于未來(lái)視頻壓縮編碼的技術(shù)方案[7,8]。2015年10月,MPEG與VCEG兩個(gè)組織宣布建立聯(lián)合視頻探索組(Joint Video Exploration Team,JVET)開(kāi)展面向FVC的技術(shù)研究探索[6]。2017年4月,JVET確定未來(lái)視頻編碼標(biāo)準(zhǔn)時(shí)間表,于2017年10月公開(kāi)征集標(biāo)準(zhǔn)候選技術(shù)方案,2018年4月啟動(dòng)正式標(biāo)準(zhǔn)化工作流程,2020年完成標(biāo)準(zhǔn)化并發(fā)布。FVC針對(duì)業(yè)界熱點(diǎn)應(yīng)用,將更好地滿足 4K/8K超高清視頻、高動(dòng)態(tài)范圍HDR視頻和VR全景視頻的應(yīng)用需求。其中,HDR視頻編碼和VR全景視頻編碼會(huì)基于 4K/8K超高清視頻編碼算法架構(gòu),疊加個(gè)性化編碼工具以及系統(tǒng)層適配參數(shù),滿足各自特殊需求。從2015年至今,F(xiàn)VC通過(guò)建立聯(lián)合探索模型(joint exploration test model,JEM),吸引了業(yè)界諸多公司和研究機(jī)構(gòu)的力量,高通[10]、三星、華為、聯(lián)發(fā)科、英特爾、微軟等公司以及德國(guó)的HHI研究所等都在積極投入。截至目前,F(xiàn)VC的編碼性能已經(jīng)比HEVC/H.265在超高清視頻[11]上提升 32%以上[12],其性能結(jié)果如圖2所示,標(biāo)志著面向下一代視頻壓縮標(biāo)準(zhǔn)的技術(shù)儲(chǔ)備已趨成熟。
圖2 FVC在超高清視頻序列上的編碼性能
當(dāng)前FVC編碼模型引入多項(xiàng)編碼技術(shù),涵蓋超高清視頻圖像塊劃分、幀內(nèi)預(yù)測(cè)、幀間預(yù)測(cè)、空間變換、環(huán)路濾波和熵編碼等視頻編/解碼器(如 codec)關(guān)鍵模塊。和之前的視頻編碼標(biāo)準(zhǔn)技術(shù)相比,如下4項(xiàng)關(guān)鍵技術(shù)對(duì)現(xiàn)有編碼架構(gòu)改變較大,并帶來(lái)顯著的性能提升。
2.1 靈活的圖像塊劃分技術(shù)
HEVC/H.265使用基于四叉樹(shù)的塊劃分方法[13],將一個(gè)圖像區(qū)域CTU作為四叉樹(shù)的根節(jié)點(diǎn),按照節(jié)點(diǎn)一分為四的方式(如圖3(a)所示),將CTU遞歸劃分成若干個(gè)葉節(jié)點(diǎn),每個(gè)葉節(jié)點(diǎn)為基本的編碼單元。
FVC在QT劃分樹(shù)的基礎(chǔ)上加入了4種基于二叉樹(shù)[14]和三叉樹(shù)[15]的劃分方式,如圖3(b)、圖3(c)、圖3(d)、圖3(e)所示;相應(yīng)地,劃分樹(shù)也擴(kuò)展為兩級(jí):首先,CTU作為第一級(jí)劃分樹(shù)的根節(jié)點(diǎn),第一級(jí)劃分樹(shù)上的節(jié)點(diǎn)僅可使用QT劃分方式繼續(xù)劃分,此與HEVC相同;然后,第一級(jí)劃分樹(shù)葉節(jié)點(diǎn)上“生長(zhǎng)出”第二級(jí)劃分樹(shù),即第一級(jí)劃分樹(shù)葉節(jié)點(diǎn)為第二級(jí)劃分樹(shù)的根節(jié)點(diǎn),第二級(jí)劃分樹(shù)上的節(jié)點(diǎn)可使用兩種 BT劃分方式和兩種TT劃分方式之一繼續(xù)劃分。
上述劃分方式可稱(chēng)為QT-BT/TT方式,即一種QT級(jí)聯(lián)BT/TT的二級(jí)劃分樹(shù)結(jié)構(gòu);與單一QT相比,它不但使得劃分產(chǎn)生的 CU形狀多樣,能夠更加靈活地適配圖像內(nèi)容,而且解決了四叉樹(shù)一分為四導(dǎo)致劃分過(guò)于細(xì)碎、CU數(shù)目較多的弊端,從而提高編碼效率約10%。
2.2 解碼端運(yùn)動(dòng)矢量推導(dǎo)
目前編碼過(guò)程中,運(yùn)動(dòng)矢量(motion vector,MV)信息耗費(fèi)較多的編碼比特。如果能夠減少運(yùn)動(dòng)矢量傳輸?shù)谋忍叵?,則可以有效提升視頻編碼效率。因此在傳統(tǒng)視頻編碼技術(shù)中引入解碼端運(yùn)動(dòng)矢量推動(dòng)(decoder side motion vector derivation,DMVD)技術(shù),可以有效降低MV信息的編碼開(kāi)銷(xiāo)。在2010年DMVD概念首次被引入視頻編碼標(biāo)準(zhǔn)研究中[16],解碼端推導(dǎo)的兩個(gè)思路原理分別如下。
基于空間相關(guān)性的模板匹配MV導(dǎo)出方案。在當(dāng)前塊的周?chē)阎亟ǖ南噜弲^(qū)域中確定一個(gè)L形模板(圖4中灰色區(qū)域),并在參考圖像中找到與模板相匹配的位置,將其MV作為當(dāng)前塊的MV或者M(jìn)V預(yù)測(cè)值[17,18]。圖4中W為L(zhǎng)形模板的尺寸。
圖3 3種圖像塊劃分示意
圖4 當(dāng)前塊的模板示意
圖5 基于幀率上采樣的MV導(dǎo)出方法
基于時(shí)間相關(guān)性的幀率上采樣的MV導(dǎo)出方案[19],對(duì)當(dāng)前塊基于鏡像搜索的方法,在相鄰兩幀中找到兩個(gè)匹配誤差最小的塊的位置(如圖 5所示),從而導(dǎo)出當(dāng)前塊的 MV。通過(guò)將這兩種理論的有效結(jié)合,F(xiàn)VC的解碼端運(yùn)動(dòng)矢量導(dǎo)出技術(shù)其性能達(dá)到6%[20]。
2.3 基于仿射變換模型幀間預(yù)測(cè)技術(shù)
現(xiàn)有視頻編碼標(biāo)準(zhǔn)中的運(yùn)動(dòng)補(bǔ)償模型均基于傳統(tǒng)的平動(dòng)模型理論,但其并不能有效編碼包含復(fù)雜運(yùn)動(dòng)內(nèi)容的序列,如旋轉(zhuǎn)(如圖6(a)所示)和縮放(如圖6(b)所示)等,其中為每個(gè)角點(diǎn)位置的運(yùn)動(dòng)矢量。仿射運(yùn)動(dòng)模型可以有效描述此類(lèi)復(fù)雜運(yùn)動(dòng),從而提高預(yù)測(cè)的準(zhǔn)確度,進(jìn)而提高編碼效率。傳統(tǒng)的仿射運(yùn)動(dòng)模型使用較為復(fù)雜,2015年基于放射變換運(yùn)動(dòng)模型的幀間預(yù)測(cè)技術(shù)被提出并成為 FVC參考中的基礎(chǔ)算法[21-23]。通過(guò)使用當(dāng)前塊上方兩個(gè)角點(diǎn)位置的運(yùn)動(dòng)矢量(如圖7(a)所示),基于4點(diǎn)仿射模型推導(dǎo)出當(dāng)前塊中每個(gè)像素或者每個(gè)子塊的運(yùn)動(dòng)矢量(如圖7(b)所示)。使用這種方法可以有效地提高含有復(fù)雜運(yùn)動(dòng)內(nèi)容的視頻序列的編碼效率,平均可以提高編碼性能約3%以上,對(duì)于某些復(fù)雜運(yùn)動(dòng)序列,編碼效率提升甚至可以達(dá)到30%。
圖6 旋轉(zhuǎn)運(yùn)動(dòng)和縮放運(yùn)動(dòng)示意
圖7 利用仿射運(yùn)動(dòng)模型導(dǎo)出MV
2.4 基于維納濾波器的自適應(yīng)環(huán)路濾波
維納濾波器是一種基于最小均方誤差的線性濾波器,可以有效地應(yīng)用于去噪等應(yīng)用場(chǎng)景。而視頻編碼引入的模糊等失真可看作一種疊加在原始視頻信號(hào)上的噪聲信號(hào)。因此,維納濾波也可以用于最小化編碼失真視頻信號(hào)與原始視頻信號(hào)之間的均方誤差,使得濾波后的視頻信號(hào)盡量接近原始信號(hào)。在2007年,維納濾波器作為一種后處理濾波器引入編碼標(biāo)準(zhǔn)領(lǐng)域[24],對(duì)解碼之后的視頻信號(hào)進(jìn)行恢復(fù)。2008年,參考文獻(xiàn)[25,26]提出一種塊級(jí)的自適應(yīng)環(huán)路濾波器,將維納濾波引入編碼環(huán)內(nèi),并且進(jìn)入 H.265的 KTA模型。在H.265標(biāo)準(zhǔn)化過(guò)程中得到了持續(xù)的改進(jìn)[27],但是由于解碼端復(fù)雜度較高的原因,最終并未進(jìn)入H.265的標(biāo)準(zhǔn)。目前,ALF由于其優(yōu)秀的編碼性能,又進(jìn)入FVC的編碼參考軟件JEM中,并成為FVC的關(guān)鍵技術(shù)之一。其編碼性能平均約為6%。
除了以上主要技術(shù),F(xiàn)VC在幀內(nèi)預(yù)測(cè)、變換等相關(guān)模塊均有進(jìn)一步優(yōu)化改進(jìn),使得整體性能較前一代視頻編碼技術(shù)得到大幅度提升。但從近幾年的研究和標(biāo)準(zhǔn)化工作來(lái)看,在傳統(tǒng)編碼框架基礎(chǔ)上的優(yōu)化難度也越來(lái)越大,整個(gè)編碼系統(tǒng)的復(fù)雜度也越來(lái)越高,給實(shí)際應(yīng)用帶來(lái)了一定的難度。面對(duì)不斷增長(zhǎng)的視頻數(shù)據(jù)量和編碼技術(shù)發(fā)展需求,尋找和研究更好的編碼理論,尋求算法和性能突破就變得尤為重要。
回顧現(xiàn)有視頻編碼方法的兩個(gè)問(wèn)題:(1)其理論假設(shè)常常是理想的平穩(wěn)信號(hào),而自然視頻的特性十分復(fù)雜,一般不滿足理想信號(hào)的假設(shè)。能否基于自然視頻的自身特性設(shè)計(jì)優(yōu)化的編碼方法?如何“自動(dòng)”地設(shè)計(jì)這些編碼方法而不是依賴人工調(diào)整參數(shù)?(2)在現(xiàn)有的編碼算法設(shè)計(jì)中,衡量失真所用的指標(biāo)是均方誤差,等價(jià)于優(yōu)化重建視頻的信號(hào)保真度(如峰值信噪比(peak signal to noise ratio,PSNR)),但是信號(hào)保真與重建視頻的視覺(jué)質(zhì)量并非一一對(duì)應(yīng),有時(shí)甚至倒掛。能否在率失真優(yōu)化時(shí)使用視覺(jué)失真度量?如何面向視覺(jué)質(zhì)量?jī)?yōu)化來(lái)設(shè)計(jì)編碼方法?
近年來(lái)蓬勃發(fā)展的深度學(xué)習(xí)技術(shù)為解決上述問(wèn)題提供了可能的方案。深度學(xué)習(xí)脫胎于仿生的人工神經(jīng)網(wǎng)絡(luò),借力大數(shù)據(jù)和高性能計(jì)算,在各種機(jī)器學(xué)習(xí)問(wèn)題特別是涉及語(yǔ)音、自然語(yǔ)言、圖像、視頻等類(lèi)型數(shù)據(jù)的問(wèn)題中表現(xiàn)出色,在一大批任務(wù)中取得了目前最好的結(jié)果。將深度學(xué)習(xí)引入視頻編碼,針對(duì)上述問(wèn)題有兩個(gè)潛在的優(yōu)勢(shì)。
使用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像視頻編碼早在20世紀(jì)八九十年代就有研究[28],但其性能一直未能在大量測(cè)試數(shù)據(jù)上穩(wěn)定地超越 JPEG 和視頻編碼標(biāo)準(zhǔn),因此這類(lèi)方法沉寂了相當(dāng)長(zhǎng)一段時(shí)間。從深度學(xué)習(xí)興起后,將深度學(xué)習(xí)用于圖像視頻編碼的研究又逐漸興起。
Toderici 等人[29,30]提出了基于深度網(wǎng)絡(luò)特別是遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的圖像壓縮方法。該方法的3個(gè)主要特點(diǎn):采用類(lèi)似自編碼器(auto-encoder)的網(wǎng)絡(luò)結(jié)構(gòu),并在其中插入二值量化層,直接得到二進(jìn)制碼流;采用多層次殘差學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),第一層對(duì)原始?jí)K進(jìn)行逼近,第二層對(duì)原始?jí)K和第一層輸出結(jié)果之間的殘差進(jìn)行逼近,第三層對(duì)原始?jí)K和第一、第二層輸出結(jié)果之和之間的殘差進(jìn)行逼近;對(duì)二進(jìn)制碼流又設(shè)計(jì)了基于RNN的熵編碼方法,進(jìn)一步提高壓縮效率。實(shí)驗(yàn)結(jié)果顯示,該方法在SSIM等視覺(jué)質(zhì)量評(píng)價(jià)準(zhǔn)則下顯著優(yōu)于JPEG。該方法可以視作一種可伸縮編碼方案(因其具有多層次結(jié)構(gòu)),也可以視作一種變換量化+熵編碼的方案。Dumas等人[31]對(duì)自編碼器進(jìn)行改進(jìn),提出了一種隨機(jī)“贏者全得”自編碼器,用于圖像壓縮獲得與 JPEG 相當(dāng)?shù)男阅?。Prakash等人[32]使用CNN 檢測(cè)圖像的感興趣區(qū)域,然后基于檢測(cè)結(jié)果調(diào)整不同區(qū)域的量化參數(shù),但是量化參數(shù)是手動(dòng)設(shè)定的,沒(méi)有率失真優(yōu)化過(guò)程。Ballé等人[33,34]在網(wǎng)絡(luò)中使用近似熵實(shí)現(xiàn)了圖像編碼率失真優(yōu)化,其失真度量函數(shù)是 MSE或經(jīng)過(guò)簡(jiǎn)單變換的MSE。具體來(lái)說(shuō),以參考文獻(xiàn)[34]為例,其思路如圖8所示。
圖8 Ballé等提出的基于非線性變換的編碼框架[34]
圖8中,x是輸入圖像,ga是編碼所用的正變換,也可以稱(chēng)為分析模塊,通過(guò)這個(gè)分析模塊把原始圖像x映射到碼字空間y,即:
其中,Φ表示這個(gè)分析模塊里面的參數(shù),這些參數(shù)需要通過(guò)訓(xùn)練獲得。
之后,碼字空間通過(guò)量化得到離散的符號(hào),即圖8中所示的q。為了重建出輸入圖像,q首先經(jīng)過(guò)反量化得到 ?y,接著通過(guò)一個(gè)反變換模塊(也可以稱(chēng)為合成模塊)gs,最終得到輸入圖像的重建圖像?x。值得一提的是,參考文獻(xiàn)[34]還實(shí)現(xiàn)了筆者前文所提的面向視覺(jué)質(zhì)量?jī)?yōu)化的編碼,即整個(gè)編碼系統(tǒng)的失真度量并不是在原始的數(shù)據(jù)空間,而是利用了基于感知的變換 gp將圖像信號(hào)變換到感知域之后再計(jì)算失真。這樣,整個(gè)編碼系統(tǒng)可以看成一個(gè)面向視覺(jué)質(zhì)量?jī)?yōu)化的深度學(xué)習(xí)圖像編碼系統(tǒng),在上述系統(tǒng)中發(fā)揮重要作用的是分析和合成這兩個(gè)模塊,其網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示。
圖9 編碼框架中的分析和合成模塊結(jié)構(gòu)
從圖 9不難看出,分析與合成網(wǎng)絡(luò)均可分為 3個(gè)階段,每個(gè)階段均包含卷積、下/上采樣和GDN/IGDN激活3種類(lèi)型操作,執(zhí)行每種類(lèi)型操作的網(wǎng)絡(luò)參數(shù)的數(shù)量在各操作模塊下標(biāo)出。圖9中各卷積操作網(wǎng)絡(luò)模塊中列出了卷積濾波器大?。∟×N)和輸入輸出特征數(shù)量(輸出特征數(shù)×輸入特征數(shù))。這個(gè)分析與合成網(wǎng)絡(luò)的特色之處在于使用了GDN和IGDN這兩個(gè)新型的激活函數(shù)。關(guān)于更多技術(shù)細(xì)節(jié),感興趣讀者可以參考文獻(xiàn)[33]。
由于CNN已被用于去除JPEG壓縮帶來(lái)的人工痕跡[35],也可以類(lèi)似地用于視頻編碼中的后處理。韓國(guó) KAIST 的 Park 等[36]提出了一種基于CNN 的視頻編碼后處理方案,并報(bào)告了顯著的碼率節(jié)省,但是訓(xùn)練CNN和使用CNN進(jìn)行編碼的是同一組序列,這可能由于過(guò)擬合而無(wú)法證實(shí)CNN方案的普適性。中國(guó)科學(xué)技術(shù)大學(xué)的Dai等人[37]研究了基于CNN的幀內(nèi)編碼后處理方案,提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu),并通過(guò)合理的實(shí)驗(yàn)驗(yàn)證了該方案的普適性。該方案取代去塊效應(yīng)(deblocking)濾波和像素自適應(yīng)偏移(sample adaptive offset, SAO),用于HEVC 幀內(nèi)編碼獲得了平均4.6%的碼率節(jié)省。圖10是Dai等人提出的用于視頻幀內(nèi)后處理的網(wǎng)絡(luò)結(jié)構(gòu)。
圖10 Dai等人提出的用于視頻幀內(nèi)后處理的網(wǎng)絡(luò)結(jié)構(gòu)[37]
該網(wǎng)絡(luò)把經(jīng)過(guò)幀內(nèi)壓縮之后的圖(未進(jìn)行任何后處理)作為輸入,對(duì)應(yīng)的原始圖像作為標(biāo)簽進(jìn)行訓(xùn)練。網(wǎng)絡(luò)共有4層,第二、三層使用了多尺度的卷積核,并且網(wǎng)絡(luò)采用了殘差訓(xùn)練。注意到原來(lái)HEVC的后處理操作包含了去塊效應(yīng)濾波和像素自適應(yīng)偏移這兩個(gè)步驟,且兩個(gè)步驟均基于信號(hào)處理相關(guān)理論人工設(shè)計(jì)了一些濾波參數(shù),而Dai等人把幀內(nèi)后處理操作直接形式化成了一個(gè)端到端的映射問(wèn)題進(jìn)行優(yōu)化,并且取得了更好的性能。
目前國(guó)內(nèi)外都有一些研究者正在進(jìn)行基于深度學(xué)習(xí)的其他視頻編碼方法的研究,例如幀內(nèi)預(yù)測(cè)方法[38]、亞像素插值方法、碼率控制方法、基于深度學(xué)習(xí)超分辨率的編碼方法、熵編碼方法等??傮w來(lái)說(shuō),基于深度學(xué)習(xí)的圖像視頻編碼研究正處在起步階段,幾乎所有的現(xiàn)有工作都是以信號(hào)保真度作為優(yōu)化目標(biāo),即網(wǎng)絡(luò)訓(xùn)練時(shí)使用MSE作為損失函數(shù)。面向視覺(jué)質(zhì)量?jī)?yōu)化的深度學(xué)習(xí)視頻編碼目前仍是空白,在未來(lái),通過(guò)深度學(xué)習(xí)聯(lián)合發(fā)展視覺(jué)質(zhì)量評(píng)價(jià)方法和面向視覺(jué)質(zhì)量?jī)?yōu)化的視頻編碼方法,可能是比較有前景的研究課題。
全浸入式視覺(jué)體驗(yàn)?zāi)軌蛟谝晥?chǎng)內(nèi)漫游,要求視頻數(shù)據(jù)提供 6個(gè)自由度的數(shù)據(jù)信息,即數(shù)據(jù)需要支持在三維坐標(biāo)空間中,沿x、y、z 3個(gè)坐標(biāo)軸方向移動(dòng)和圍繞這3個(gè)坐標(biāo)軸轉(zhuǎn)動(dòng)的6個(gè)運(yùn)動(dòng)情況下的視覺(jué)信息呈現(xiàn)。由于視覺(jué)信號(hào)采集、處理和呈現(xiàn)的難度,今天比較普及的是三自由度視頻,即圍繞x、y、z 3個(gè)坐標(biāo)軸轉(zhuǎn)動(dòng)情況下的視覺(jué)信息呈現(xiàn)。VR 360°視頻就是這種視頻數(shù)據(jù)的典型應(yīng)用。如上文所述,其原始數(shù)據(jù)呈現(xiàn)為球面數(shù)據(jù)形態(tài),相比于平面視頻數(shù)據(jù),球面視頻數(shù)據(jù)在實(shí)際應(yīng)用中要求更高的分辨率,比如8K、16K。由于球面數(shù)據(jù)可以通過(guò)簡(jiǎn)單的映射運(yùn)算轉(zhuǎn)化為傳統(tǒng)的平面視頻數(shù)據(jù),因此可以基于平面視頻編碼技術(shù)進(jìn)行處理,取得不錯(cuò)的編碼效果,其壓縮性能也隨著平面視頻編碼技術(shù)的提升而提升。但六自由度視頻則具有完全不同的數(shù)據(jù)形態(tài),一般稱(chēng)之為體視頻數(shù)據(jù)[39]。
體視頻數(shù)據(jù)一般有3種方式表達(dá): 三維網(wǎng)格表達(dá)、點(diǎn)云表達(dá)和超多視點(diǎn)表達(dá)。三維網(wǎng)格和點(diǎn)云都是計(jì)算機(jī)圖形學(xué)的經(jīng)典技術(shù)原理,隨著視頻體驗(yàn)向六自由度發(fā)展,視頻信號(hào)處理技術(shù)和計(jì)算機(jī)圖形技術(shù)正逐漸融合,成為未來(lái)體視頻數(shù)據(jù)發(fā)展的技術(shù)理論基礎(chǔ)。
利用三維網(wǎng)絡(luò)(3D mesh)來(lái)描述三維空間內(nèi)的對(duì)象,對(duì)于一個(gè)視覺(jué)空間內(nèi)的三維對(duì)象,使用記錄對(duì)象表面的幾何信息、拓?fù)湫畔⒑图y理信息來(lái)表達(dá)。幾何信息用來(lái)記錄對(duì)象表面每個(gè)網(wǎng)格頂點(diǎn)的坐標(biāo)位置,拓?fù)湫畔⒂脕?lái)記錄這些頂點(diǎn)之間的鏈接關(guān)系。通過(guò)幾何信息和拓?fù)湫畔?,可以有效表達(dá)三維對(duì)象的空間形狀,再結(jié)合對(duì)每個(gè)網(wǎng)格內(nèi)的紋理數(shù)據(jù)信息,即可以表達(dá)一個(gè)三維空間內(nèi)的體視頻數(shù)據(jù)。因此對(duì)于三維網(wǎng)格數(shù)據(jù)的編碼,需要全面考慮幾何數(shù)據(jù)、拓?fù)鋽?shù)據(jù)和紋理數(shù)據(jù)的聯(lián)合高效編碼。三維網(wǎng)格的編碼在計(jì)算機(jī)圖形學(xué)中已經(jīng)多有研究,而如何利用三維網(wǎng)格高效表達(dá)體視頻數(shù)據(jù)以及其高效編碼,還需要進(jìn)一步的研究。
點(diǎn)云是三維空間中一組離散點(diǎn)數(shù)據(jù)的組合,每個(gè)點(diǎn)數(shù)據(jù)包含該點(diǎn)的空間位置信息、顏色信息、光學(xué)反射信息等[40]。因此一個(gè)用點(diǎn)云描述的體視頻數(shù)據(jù)就是一組時(shí)間上連續(xù)采樣的空間點(diǎn)云數(shù)據(jù)序列。點(diǎn)云數(shù)據(jù)的編碼還是一個(gè)全新的問(wèn)題,其數(shù)據(jù)表達(dá)方式、編碼架構(gòu)等還需要結(jié)合應(yīng)用場(chǎng)景的需求進(jìn)行深入研究[41]。
超多視點(diǎn)表達(dá)是基于傳統(tǒng)二維視頻數(shù)據(jù)表達(dá)方式最直接的擴(kuò)展到體視頻數(shù)據(jù)的表達(dá)方式,即用二維視頻數(shù)據(jù)記錄體視頻數(shù)據(jù)各個(gè)視角方向的二維視頻信息。這樣得到的視頻數(shù)據(jù)就是一組二維視頻數(shù)據(jù)。每一個(gè)二維視頻數(shù)據(jù)可以采用現(xiàn)有的視頻編碼技術(shù)進(jìn)行編碼,再借助相鄰視角方向視頻數(shù)據(jù)之間的相關(guān)性,采用多視角編碼技術(shù)進(jìn)一步編碼,從而得到更高的編碼效率[42]。
由于六自由度體視頻技術(shù)目前還處在相當(dāng)早期的階段,因此關(guān)于體視頻數(shù)據(jù)的采集、處理、編碼、傳輸和呈現(xiàn)還需要大量的研究工作。國(guó)際運(yùn)動(dòng)圖像專(zhuān)家組 MPEG在2016年已經(jīng)開(kāi)始了面向浸入式六自由度視頻的長(zhǎng)期標(biāo)準(zhǔn)研究工作,該項(xiàng)目稱(chēng)為 MPEG-I(immersive)。MPEG-I也提出了從三自由度到六自由度的技術(shù)演進(jìn)路標(biāo),希望在2022年前后,能夠完成業(yè)界第一個(gè)面向六自由度體視頻數(shù)據(jù)的視頻編碼技術(shù)標(biāo)準(zhǔn)。
盡管視頻編碼理論、技術(shù)和標(biāo)準(zhǔn)已經(jīng)經(jīng)過(guò)幾十年的發(fā)展,但隨著新視頻采集和呈現(xiàn)技術(shù)以及新應(yīng)用的不斷涌現(xiàn),仍然面臨強(qiáng)烈的技術(shù)發(fā)展需求。一方面,針對(duì)傳統(tǒng)的二維視頻數(shù)據(jù),基于現(xiàn)有混合編碼架構(gòu)的視頻編碼技術(shù)仍呈現(xiàn)出不斷改進(jìn)的空間,通過(guò)對(duì)視頻圖像更加靈活的塊劃分技術(shù)、更加精準(zhǔn)的運(yùn)動(dòng)模型表達(dá)和運(yùn)動(dòng)信息編碼技術(shù)等,視頻的編碼效率可以得到顯著的提升。而基于機(jī)器學(xué)習(xí)的全新編碼思路和架構(gòu)正得到越來(lái)越多的探索和研究,有望在不遠(yuǎn)的將來(lái),部分或全部改變現(xiàn)有的視頻編碼架構(gòu)和設(shè)計(jì)原理,從而給視頻編碼領(lǐng)域帶來(lái)更大的突破。另一方面,在視頻數(shù)據(jù)源方面,三自由度球面視頻數(shù)據(jù)和六自由度體視頻數(shù)據(jù)給視頻編碼技術(shù)的研究帶來(lái)更多的挑戰(zhàn)和機(jī)會(huì),也給人們帶來(lái)全新的視頻體驗(yàn)和應(yīng)用。視頻編碼技術(shù)的發(fā)展需要新的應(yīng)用牽引,而新視頻應(yīng)用的繁榮也需要視頻編碼技術(shù)不斷的突破和創(chuàng)新。
[1]施唯佳, 蔣力, 賈立鼎. OTT TV和IPTV的技術(shù)比較分析[J].電信科學(xué), 2014, 30(5): 15-19,26. SHI W J, JIANG L, JIA L D. Technique comparative analysis of OTT TV and IPTV[J]. Telecommunications Science, 2014, 30(5): 15-19,26.
[2]魏崢, 施唯佳, 祝谷喬. 互聯(lián)網(wǎng)視頻中多屏互動(dòng)技術(shù)的應(yīng)用[J].電信科學(xué), 2014, 30(5): 27-32, 39. WEI Z, SHI W J, ZHU G Q. Multi-screen interaction technologies on internet streaming video[J]. Telecommunications Science, 2014, 30(5): 27-32, 39.
[3]張敏, 宋杰, 劉曉峰. 電信運(yùn)營(yíng)商面對(duì) OTT的戰(zhàn)略選擇[J].電信科學(xué), 2014, 30(2): 142-146,151. ZHANG M, SONG J, LIU X F. Strategic selection of telecom operators to counter OTT[J]. Telecommunications Science, 2014, 30(2): 142-146, 151.
[4]MPEG. Presentations of the brainstorming session of the future of video coding standardization: MPEG-w15050[S]. 2014.
[5]MPEG. Steps towards a future video compression standard:MPEG-w15272[S]. 2015.
[6]MPEG. Requirements for a future video coding standard: MPEG-w15090[S]. 2015.
[7]MPEG. Request for contributions on future video compression technology: MPEG-w15273[S]. 2015.
[8]JVET. Joint call for evidence on video compression with capability beyond HEVC: JVET-F1002[S]. 2017.
[9]MPEG. Joint group on future video coding technology exploration (JVET): MPEG-w15897[S]. 2015.
[10]ITU. Coding tools investigation for next generation video coding: ITU-T SG16-C806[S]. 2015.
[11]JVET. JVET common test conditions and software reference configurations: JVET-B1010[S]. 2016.
[12]JVET. Algorithm description of joint exploration test model 6: JVET-F1001[S]. 2017.
[13]YUAN Y, KIM I K, ZHENG X, et al. Quadtree based nonsquare block structure for inter frame coding in high efficiency video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1707-1719.
[14]AN J, CHEN Y W, ZHANG K, et al. Block partitioning structure for next generation video coding: COM 16– C966[S]. 2015.
[15]JVET. Multi-type-tree: JVET-D0117[S]. 2016.
[16]YANG H, FU J, LIN S, et al. Description of video coding technology proposal by Huawei Technologies & Hisilicon Technologies[C]//ISO/IEC JTC1/SC29/WG11, JCTVC-A111, April 15-23, 2010, Dresden, Germany.[S.1.:s.n.], 2010.
[17]KAMP S, WIEN M. Description of video coding technology proposal by RWTH Aachen University[C]//JVT on Video Coding of ITU-T VCEG and ISO/IEC MPEG 1st Meeting, JCTVC, JCTVC-A112, April 15-23, 2010, Dresden, Germany.[S.1.:s.n.], 2010.
[18]KAMP S, WIEN M. Decoder-side motion vector derivation for block-based video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1732-1745.
[19]CHIU Y, XU L, ZHANG W, et al. Description of video coding technology proposal: self derivation of motion estimation and adaptive (Wiener) loop filtering[C]//JCT-VC 1st Meeting, JCTVC-A106, April 15-23, 2010, Dresden, Germany.[S.1.:s.n.], 2010.
[20]CHEN J, CHIEN W J, KARCZEWICZ M, et al. Further improvements to HMKTA-1.0[J]. Doc VECG-AZO7, 2015.
[21]LIN S, CHEN H, ZHANG H, et al. Affine transform prediction for next generation video coding[J]. ITU-T SG16 Doc COM16-C1016, 2015.
[22]CHEN H, LIANG F, LIN S. Affine SKIP and MERGE modes for video coding[C]//2015 IEEE 17th International Workshop on Multimedia Signal Processing (MMSP), Oct 19-21, 2015, Xiamen, China. New Jersey: IEEE Press, 2015: 1-5.
[23]LI L, LI H, LIU D, et al. An efficient four-parameter affine motion model for video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.
[24]WITTMANN S, WEDI T. Transmission of post-filter hints for video coding schemes[C]//2007 IEEE International Conference on Image Processing, Sept 16-Oct 19, San Antonio, TX, USA. New Jersey: IEEE Press, 2007: 81-84.
[25]ITU. Adaptive (Wiener) filter for video compression:ITU-T SG16 Contribution C, VCEG-C437[S]. 2008.
[26]ITU. Adaptive loop filter for improving coding efficiency: ITU-T SG16 Contribution C, VCEG-C402[S]. 2008.
[27]TSAI C Y, CHEN C Y, YAMAKAGE T, et al. Adaptive loop filtering for video coding[J]. IEEE Journal of Selected Topics in Signal Processing, 2013, 7(6): 934-945.
[28]JIANG J. Image compression with neural networks–a survey[J]. Signal Processing: Image Communication, 1999, 14(9): 737-760.
[29]TODERICI G, O'MALLEY S M, HWANG S J, et al. Variable rate image compression with recurrent neural networks[J]. ar-Xiv preprint arXiv:1511.06085, 2015.
[30]TODERICI G, VINCENT D, JOHNSTON N, et al. Full resolution image compression with recurrent neural networks[J]. ar-Xiv preprint arXiv:1608.05148, 2016.
[31]DUMAS T, ROUMY A, GUILLEMOT C. Image compression with stochastic winner-take-all auto-encoder[C]//2017 IEEE International Conference on Acoustics (ICASSP 2017), March 5-9, 2017, New Orleans, USA. New Jersey: IEEE Press, 2017: 1512-1516.
[32]PRAKASH A, MORAN N, GARBER S, et al. Semantic perceptual image compression using deep convolution networks[J]. arXiv preprint arXiv:1612.08712, 2016.
[33]BALLé J, LAPARRA V, SIMONCELLI E P. End-to-end optimization of nonlinear transform codes for perceptual quality[J]. arXiv preprint arXiv:1607.05006, 2016.
[34]BALLé J, LAPARRA V, SIMONCELLI E P. End-to-end optimized image compression[J]. arXiv preprint arXiv:1611.01704, 2016.
[35]DONG C, DENG Y, CHANGE Loy C, et al. Compression artifacts reduction by a deep convolutional network[C]//2017 IEEE International Conference on Computer Vision (ICCV 2015), Dec 7-13, 2015, Santiago, Chile. New Jersey: IEEE Press, 2017: 576-584.
[36]PARK W S, KIM M. CNN-based in-loop filtering for coding efficiency improvement[C]//2016 IEEE Image, Video, and Multi-dimensional Signal Processing Workshop (IVMSP), July 11-12, 2016, Bordeaux, France. New Jersey: IEEE Press, 2016: 1-5.
[37]DAI Y, LIU D, WU F. A convolutional neural network approach for post-processing in HEVC intra coding[C]//2017 International Conference on Multimedia Modeling (MMM 2017), January 4-6, 2017, Reykjavik, Iceland. Heidelberg: Springer, 2017: 28-39.
[38]LIU Z, YU X, CHEN S, et al. CNN oriented fast HEVC intra CU mode decision[C]//2016 IEEE International Symposium on Circuits and Systems (ISCAS 2016), May 22-25, 2016, Montreal, Canada. New Jersey: IEEE Press, 2016: 2270-2273.
[39]LAFRUIT G, QUACKENBUSH S, FOESSEL S, et al. Technical report of the joint ad hoc group for digital representations of light/sound fields for immersive media applications[R]. 2016.
[40]TULVAN C, MEKURIA R, LI Z, et al. Use cases for point cloud compression[R]. 2016.
[41]MEKURIA R, LI Z, TULVAN C. Call for proposals for point cloud compression[R]. 2017.
[42]PALOMO C M. Interactive image-based rendering for virtual view synthesis from depth image[D]. Rio de Janeiro: Pontífícia Universidade Católica do Rio de Janeiro, 2009.
Trends and technologies of video coding
ZHOU Jiantong1, YANG Haitao1, LIU Dong2, MA Xiang1, WANG Tian1
1. Huawei Technologies Co., Ltd., Shenzhen 518129, China 2. University of Science and Technology of China, Heifei 230026, China
The current video coding uses block based hybrid architecture, which uses predictive, transform, quantization and entropy coding techniques to efficiently compress video signals. Further optimizations on current architectures provide more flexible processing and coding for local characteristics of video image signals. Video coding based on machine learning was expected to change the existing hybrid coding framework partially or comprehensively, and bring new research ideas to video coding. In addition to existing 2D video signal, the future of video also needs to spherical video coding and volumetric video coding for AR/VR applications, the new video source data format of the video encoding technology has brought new opportunities and challenges.
video coding, machine learning, virtual reality, spherical video, volumetric video
TP393
A
10.11959/j.issn.1000?0801.2017248
周建同(1980?),男,華為技術(shù)有限公司主任工程師,主要研究方向?yàn)槎嗝襟w應(yīng)用系統(tǒng)和視頻通信。
楊海濤(1983?),男,華為技術(shù)有限公司主任工程師,主要研究方向?yàn)閳D像視頻處理、壓縮和通信。
劉東(1983?),男,中國(guó)科學(xué)技術(shù)大學(xué)副教授,主要研究方向?yàn)閳D像視頻壓縮和多媒體數(shù)據(jù)挖掘。
馬祥(1987?),男,華為技術(shù)有限公司工程師,主要研究方向?yàn)橐曨l壓縮。
王田(1967?),男,華為技術(shù)有限公司媒體技術(shù)實(shí)驗(yàn)室主任,主要研究方向?yàn)槎嗝襟w通信系統(tǒng)、虛擬/增強(qiáng)現(xiàn)實(shí)和計(jì)算機(jī)視覺(jué)。
2017?07?15;
2017?08?08