張建剛
[摘要]MPEG-4(ISO/IEC 14496)則是基于第二代壓縮編碼技術制定的國際標準,它以視聽媒體對象為基本單元,采用基于內容的壓縮編碼,以實現(xiàn)數(shù)字視音頻、圖形合成應用及交互式多媒體的集成。MPEG系列標準對VCD、DVD等視聽消費電子及數(shù)字電視和高清晰度電視(DTV&&HDTV)、多媒體通信等信息產業(yè)的發(fā)展產生了巨大而深遠的影響。
[關鍵詞]MPEG-4 數(shù)據(jù)壓縮 視頻編碼 視聽對象 基于內容編碼 視頻對象提取運動估計與補償
中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2009)0720016-01
MPEG-4除采用第一代視頻編碼的核心技術,如變換編碼、運動估計與運動補償、量化、熵編碼外,還提出了一些新的有創(chuàng)見性的關鍵技術,并在第一代視頻編碼技術基礎上進行了卓有成效的完善和改進。下面重點介紹其中的一些關鍵技術。
一、視頻對象提取技術
MPEG-4實現(xiàn)基于內容交互的首要任務就是把視頻/圖像分割成不同對象或者把運動對象從背景中分離出來,然后針對不同對象采用相應編碼方法,以實現(xiàn)高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關鍵技術,也是新一代視頻編碼的研究熱點和難點。
目前進行視頻對象分割的一般步驟是:先對原始視頻/圖像數(shù)據(jù)進行簡化以利于分割,這可通過低通濾波、中值濾波、形態(tài)濾波來完成;然后對視頻/圖像數(shù)據(jù)進行特征提取,可以是顏色、紋理、運動、幀差、位移幀差乃至語義等特征;再基于某種均勻性標準來確定分割決策,根據(jù)所提取特征將視頻數(shù)據(jù)歸類;最后是進行相關后處理,以實現(xiàn)濾除噪聲及準確提取邊界。
二、VOP視頻編碼技術
MPEG-4支持任意形狀圖像與視頻的編解碼。對于任意形狀視頻對象。對于極低比特率實時應用,如可視電話、會議電視,MPEG-4則采用VLBV(Very Low Bit-rate Video,極低比特率視頻)核進行編碼。
傳統(tǒng)的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現(xiàn)了傳統(tǒng)編碼與基于內容編碼在MPEG-4中的統(tǒng)一。VO概念的引入,更加符合人腦對視覺信息的處理方式,并使視頻信號的處理方式從數(shù)字化進展到智能化,從而提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用及更多的內容交互成為可能。因此VOP視頻編碼技術被譽為視頻信號處理技術從數(shù)字化進入智能化的初步探索。
三、視頻編碼可分級性技術
視頻編碼的可分級性(scalability)是指碼率的可調整性,即視頻數(shù)據(jù)只壓縮一次,卻能以多個幀率、空間分辨率或視頻質量進行解碼,從而可支持多種類型用戶的各種不同應用要求。
MPEG-4通過視頻對象層(VOL,Video Object Layer)數(shù)據(jù)結構來實現(xiàn)分級編碼。MPEG-4提供了兩種基本分級工具,即時域分級(Temporal Scalability)和空域分級(Spatial Scalability),此外還支持時域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強層?;緦犹峁┝艘曨l序列的基本信息,增強層提供了視頻序列更高的分辨率和細節(jié)。
在隨后增補的視頻流應用框架中,MPEG-4提出了FGS(Fine Granular
ity Scalable,精細可伸縮性)視頻編碼算法以及PFGS(Progressive Fine Granularity Scalable,漸進精細可伸縮性)視頻編碼算法。
FGS編碼實現(xiàn)簡單,可在編碼速率、顯示分辨率、內容、解碼復雜度等方面提供靈活的自適應和可擴展性,且具有很強的帶寬自適應能力和抗誤碼性能。但還存在編碼效率低于非可擴展編碼及接收端視頻質量非最優(yōu)兩個不足。
PFGS則是為改善FGS編碼效率而提出的視頻編碼算法,其基本思想是在增強層圖像編碼時使用前一幀重建的某個增強層圖像為參考進行運動補償,以使運動補償更加有效,從而提高編碼效率。
四、運動估計與運動補償技術
MPEG-4采用I-VOP、P-VOP、B-VOP三種幀格式來表征不同的運動補償類型。它采用了H.263中的半像素搜索(half pixel searching)技術和重疊運動補償(overlapped motion compensation)技術,同時又引入重復填充(repetitive padding)技術和修改的塊(多邊形)匹配(modified block(polygon)matching)技術以支持任意形狀的VOP區(qū)域。
在MPEG-4視頻編碼中,運動估計相當耗時,對編碼的實時性影響很大。因此這里特別強調快速算法。目前有三種常用的匹配準則:
1.絕對誤差和(SAD,Sum of Absolute Difference)準則;
2.均方誤差(MSE,Mean Square Error)準則;
3.歸一化互相關函數(shù)(NCCF,Normalized Cross Correlation Funct
ion)準則。
在選取匹配準則后就應進行尋找最優(yōu)匹配點的搜索工作。最簡單、最可靠的方法是全搜索法(FS,Full Search),但計算量太大,不便于實時實現(xiàn)。因此快速搜索法應運而生,主要有交叉搜索法、二維對數(shù)法和鉆石搜索法,其中鉆石搜索法被MPEG-4校驗模型(VM,Verification Model)所采納,下面詳細介紹。
鉆石搜索(DS,Diamond Search)法以搜索模板形狀而得名,具有簡單、魯棒、高效的特點,是現(xiàn)有性能最優(yōu)的快速搜索算法之一。其基本思想是利用搜索模板的形狀和大小對運動估計算法速度及精度產生重要影響的特性。在搜索最優(yōu)匹配點時,選擇小的搜索模板可能會陷入局部最優(yōu),選擇大的搜索模板則可能無法找到最優(yōu)點。因此DS算法針對視頻圖像中運動矢量的基本規(guī)律,選用了兩種形狀大小的搜索模板。
大鉆石搜索模板(LDSP,Large Diamond Search Pattern),包含9個候選位置;
小鉆石搜索模板(SDSP,Small Diamond Search Pattern),包含5個候選位置。
DS算法搜索過程如下:開始階段先重復使用大鉆石搜索模板,直到最佳匹配塊落在大鉆石中心。由于LDSP步長大,因而搜索范圍廣,可實現(xiàn)粗定位,使搜索不會陷于局部最小,當粗定位結束后,可認為最優(yōu)點就在LDSP周圍8個點所圍菱形區(qū)域中。然后再使用小鉆石搜索模板來實現(xiàn)最佳匹配塊的準確定位,以不產生較大起伏,從而提高運動估計精度。
總之,MPEG-4實現(xiàn)了從矩形幀到VOP的轉變以及基于像素的傳統(tǒng)編碼向基于對象和內容的現(xiàn)代編碼的轉變,這正體現(xiàn)了傳統(tǒng)視頻編碼與新一代視頻編碼的有機統(tǒng)一?;趦热莸慕换バ允荕PEG-4的核心思想,這對于視頻編碼技術的發(fā)展方向及廣泛應用都具有特別重要的意義。