• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      屏幕內(nèi)容編碼方法研究進(jìn)展

      2017-09-15 08:48:13陳規(guī)勝宋傳鳴王相海
      關(guān)鍵詞:編碼方法調(diào)色板像素

      劉 丹 陳規(guī)勝 宋傳鳴 何 興 王相海

      1(遼寧師范大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 遼寧大連 116029)2(大連理工大學(xué)電子信息與電氣工程學(xué)部 遼寧大連 116024)3 (吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 長春 130012)

      屏幕內(nèi)容編碼方法研究進(jìn)展

      劉 丹1,2陳規(guī)勝1,3宋傳鳴1,2何 興1王相海1

      1(遼寧師范大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 遼寧大連 116029)2(大連理工大學(xué)電子信息與電氣工程學(xué)部 遼寧大連 116024)3(吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 長春 130012)

      (liudan_dl @lnnu.edu.cn)

      隨著云計(jì)算、虛擬桌面等的普遍推廣,屏幕內(nèi)容圖像已成為新一代云——移動(dòng)計(jì)算模型——不可或缺的一部分.研究壓縮效率高、實(shí)時(shí)性好、復(fù)雜性適中的屏幕內(nèi)容編碼方法是目前視頻編碼領(lǐng)域的熱點(diǎn)問題之一.從空間域、頻率域、時(shí)間域和顏色空間4方面分析了屏幕內(nèi)容圖像的數(shù)據(jù)統(tǒng)計(jì)特性,進(jìn)而重點(diǎn)闡述不連續(xù)色調(diào)圖像的典型編碼方法,將現(xiàn)有方法分為基于調(diào)色板-索引圖的編碼算法、基于模板匹配的編碼算法、基于塊匹配的編碼算法、基于字典的編碼算法、基于形狀表示的編碼算法以及時(shí)間域編碼方法、色度編碼方法,并進(jìn)一步總結(jié)基于混合框架的屏幕內(nèi)容編碼方法,對各類算法的優(yōu)勢和存在的不足進(jìn)行比較、分析和討論.在此基礎(chǔ)上,介紹了HEVC-SCC編碼國際標(biāo)準(zhǔn)制定工作的進(jìn)展,并對屏幕內(nèi)容編碼的未來發(fā)展趨勢進(jìn)行了展望.

      視頻編碼;圖像編碼;屏幕內(nèi)容;屏幕圖像;復(fù)合圖像;綜述

      隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字化的文本、圖像、圖形和視頻等替代了傳統(tǒng)的模擬媒體,這使得媒體的編輯和傳播變得愈加便捷,又促使媒體由單一形式向復(fù)合形式演變,如網(wǎng)頁、PDF(portable document format)文檔、掃描的電子文檔、幻燈片和海報(bào)等圖像中均包含了多種形式的媒體,研究者們將此類圖像稱為“復(fù)合圖像”(compound image)[1].而近5年,視頻會議、在線教學(xué)、遠(yuǎn)程醫(yī)療和遠(yuǎn)程桌面等逐年普及,尤其是云計(jì)算取得了迅猛發(fā)展,又出現(xiàn)了虛擬桌面、桌面云、WiFi顯示、無線HDMI(high definition multimedia interface)等應(yīng)用[2],這些應(yīng)用均要求把本地計(jì)算機(jī)屏幕顯示的內(nèi)容傳輸?shù)竭h(yuǎn)程終端上并顯示,以實(shí)現(xiàn)屏幕共享.由于屏幕內(nèi)容一般由各種應(yīng)用軟件生成,如辦公軟件、3D游戲、電影動(dòng)畫、地理信息系統(tǒng)、網(wǎng)絡(luò)瀏覽器等,圖像往往由文本、圖形和自然圖像等若干不同類型的區(qū)域混合而成.這類復(fù)合圖像又被稱為“屏幕內(nèi)容圖像”,它已成為新一代云——移動(dòng)計(jì)算模型——中不可或缺的一部分.一方面,屏幕視頻的數(shù)據(jù)量龐大(1 s的1 920×1 080分辨率@50 Hz的屏幕視頻數(shù)據(jù)量高達(dá)297 MB),且屏幕共享的交互性對編碼、傳輸?shù)膶?shí)時(shí)性提出了較高要求,許多應(yīng)用中甚至在10 Gbs的網(wǎng)絡(luò)帶寬下都不能滿足高清屏幕視頻的傳輸需求[3].另一方面,典型的JPEG(joint picture experts group),JPEG 2000,JPEG-LS對屏幕內(nèi)容中的自然圖像部分有很高的壓縮效率,卻對諸如線條、文字、圖形邊界等非連續(xù)色調(diào)內(nèi)容顯得無能為力;而一些對非連續(xù)色調(diào)內(nèi)容編碼效率較高的算法,如DjVu,MRC(mixed raster content),又對自然圖像內(nèi)容的壓縮能力有限,且計(jì)算復(fù)雜度高.在這樣的情況下,研究壓縮效率高、實(shí)時(shí)性好、復(fù)雜性適中的面向復(fù)合圖像,尤其是屏幕圖像的編碼方法則顯得尤其重要,也為實(shí)際應(yīng)用所亟需.

      最初,研究人員通過改變參數(shù)的方式來利用JPEG,JPEG 2000等標(biāo)準(zhǔn)算法壓縮復(fù)合圖像.例如,文獻(xiàn)[4-5]通過自適應(yīng)調(diào)整量化步長提出了JPEG的一種擴(kuò)展框架.為了保持清晰的文本圖形邊界,該方法采用較小的步長量化文本圖形區(qū)域.文獻(xiàn)[6]在JPEG的基礎(chǔ)上,根據(jù)圖像內(nèi)容自適應(yīng)地調(diào)整編碼器的率失真,從而為文本圖形區(qū)域分配更多的位.文獻(xiàn)[7]則采用了H.264AVC的幀內(nèi)編碼模式,并通過改變不同宏塊的量化參數(shù)來分別滿足文本塊和圖像塊的壓縮要求.盡管上述算法的參數(shù)可根據(jù)內(nèi)容的不同進(jìn)行自適應(yīng)地調(diào)整或者交互設(shè)定,其編碼效率往往不能令人滿意[8].于是,研究人員一方面逐步總結(jié)出復(fù)合圖像,特別是屏幕內(nèi)容圖像,相對于自然圖像的特殊性;另一方面,他們也發(fā)現(xiàn)屏幕圖像和其他類型的復(fù)合圖像相比,同樣存在一定不同之處,例如:由于塵埃污染和掃描儀本身的緣故,掃描復(fù)合圖像存在大量固有的噪聲,而屏幕內(nèi)容圖像則不受噪聲影響;多幅連續(xù)的屏幕內(nèi)容圖像之間存在沿著時(shí)間維的強(qiáng)相關(guān)性,可以像視頻序列那樣采用幀間預(yù)測編碼;而且,屏幕內(nèi)容圖像編碼和掃描復(fù)合圖像編碼在應(yīng)用上也有不同,前者需保證屏幕共享的交互性和實(shí)時(shí)性,編碼算法需兼顧壓縮效率和計(jì)算復(fù)雜度,而后者則主要應(yīng)用于替代紙質(zhì)文件實(shí)現(xiàn)文檔數(shù)字化,其壓縮效率需要率先考慮,算法復(fù)雜度則相對次要.

      本文從屏幕內(nèi)容圖像的數(shù)據(jù)統(tǒng)計(jì)特性出發(fā),重點(diǎn)闡述屏幕內(nèi)容圖像視頻的編碼進(jìn)展.將現(xiàn)有方法分為7類,即基于調(diào)色板-索引圖的編碼算法、基于模板匹配的編碼算法、基于塊匹配的編碼算法、基于字典的編碼算法、基于形狀表示的編碼算法、時(shí)間域編碼方法,以及色度分量編碼方法,并總結(jié)了屏幕內(nèi)容編碼的混合框架,對各類算法的優(yōu)勢和不足進(jìn)行比較和分析.最后,對屏幕內(nèi)容編碼方法的未來發(fā)展進(jìn)行了展望.

      1 屏幕內(nèi)容圖像的統(tǒng)計(jì)特性

      1.1 空間域的統(tǒng)計(jì)特性

      屏幕內(nèi)容往往由不連續(xù)色調(diào)的文本、圖表、圖形、圖標(biāo)等圖像和連續(xù)色調(diào)的自然圖像、視頻片段等不同類型的區(qū)域混合而成,而其中的文本、圖表、圖形等元素一般由顯示適配器生成,包含的紋理信息較多,但復(fù)雜紋理少,重復(fù)圖案多,對比度高,線條細(xì)膩,邊緣銳利,顏色種類少[11-12];而自然圖像則相反,顏色種類多,復(fù)雜紋理也多,邊緣一般較為平滑,二者的對比情況如圖1所示.

      為了更好地驗(yàn)證這一點(diǎn),文獻(xiàn)[8]采用空間頻率測度(spatial frequency measure,SFM)[13]統(tǒng)計(jì)了3 150個(gè)文本圖形塊和4 552個(gè)自然圖像塊的相鄰像素值的變化程度:

      SFM=

      其中,xi,j表示圖像塊中i行j列的像素值,M和N分別表示圖像塊的高度和寬度(實(shí)驗(yàn)中均設(shè)置為16).如圖2所示,文本圖形內(nèi)容塊中相鄰像素值的變化量廣泛分布于10~160之間,而自然圖像塊的變化量則幾乎全部集中在0~20之間,可見,文本圖形內(nèi)容塊的像素值變化量明顯高于自然圖像,其像素值的局部相關(guān)性不同于自然圖像.

      Fig. 1 Comparison between screen content images and natural images[11]圖1 屏幕內(nèi)容圖像和自然圖像的比較[11]

      Fig. 2 SFM distribution of screen content images[8]圖2 屏幕內(nèi)容圖像的SFM分布[8]

      1.2 頻率域的統(tǒng)計(jì)特性

      屏幕內(nèi)容圖像與自然圖像在像素值分布方面的差異,導(dǎo)致了二者在頻率域統(tǒng)計(jì)特性上的不同.圖3給出了圖1的2個(gè)圖像塊經(jīng)過離散余弦變換(discrete cosine transform, DCT)后的交流系數(shù)絕對值分布.可見,自然圖像塊的能量集中于3個(gè)大幅值變換系數(shù),而屏幕內(nèi)容圖像的能量分布則更加均勻,并未呈現(xiàn)明顯的能量集中現(xiàn)象.文獻(xiàn)[8]進(jìn)一步在更大的數(shù)據(jù)集上采用頻譜活動(dòng)測度(spectral activity measure,SAM)度量了3 150個(gè)文本圖形圖像塊和4 552個(gè)自然圖像塊的圖像變換系數(shù)幅值分布:

      Fig. 3 DCT AC coefficients distribution of the two kinds of image blocks in Fig.1[11]圖3 圖1中2類圖像塊的DCT交流系數(shù)分布[11]

      Fig. 4 SAM distribution of screen content images[8]圖4 屏幕內(nèi)容圖像的SAM分布[8]

      1.3 時(shí)間域的統(tǒng)計(jì)特性

      屏幕內(nèi)容由應(yīng)用軟件和顯示適配器捕獲生成,且主要記錄軟件界面和用戶操作序列,所以物體的運(yùn)動(dòng)特點(diǎn)與攝像機(jī)拍攝的自然視頻也存在不同.首先,由于自然視頻反映了物體在客觀世界的運(yùn)動(dòng),它的運(yùn)動(dòng)向量在理論上應(yīng)是連續(xù)的;而屏幕內(nèi)容的運(yùn)動(dòng)在本質(zhì)上是離散的[14],其最小運(yùn)動(dòng)幅度取決于顯示設(shè)備的定位精度,即運(yùn)動(dòng)向量為整數(shù)像素精度.其次,屏幕內(nèi)容包含了窗口移動(dòng)放大縮小、頁面滾動(dòng)、翻頁、淡入淡出等運(yùn)動(dòng),其運(yùn)動(dòng)幅度較之自然視頻更大,模式也更復(fù)雜[15].文獻(xiàn)[15]通過比較自然視頻序列“Johnny”和屏幕視頻“SlideShow”的相鄰幀的均方差(MSE)發(fā)現(xiàn),前者的幀差變化非常平緩,而后者的幀差則表現(xiàn)出劇烈變化,既存在長時(shí)間的零值,又有短時(shí)間的突變,如圖5所示.屏幕視頻的這個(gè)特點(diǎn)加大了幀間預(yù)測的難度,導(dǎo)致編碼器會產(chǎn)生波動(dòng)較大的輸出碼率.

      Fig. 5 Frame difference comparison between screen content sequence and natural video sequence[15] 圖5 屏幕內(nèi)容序列與自然視頻序列的幀差對比[15]

      1.4 顏色空間采樣的差異

      典型自然圖像和視頻的標(biāo)準(zhǔn)格式普遍采用4∶2∶0顏色空間采樣,如YUV 4∶2∶0.然而,由于屏幕內(nèi)容包含大量細(xì)線條,有些甚至是1個(gè)像素寬的單色線條,如果仍舊采用4∶2∶0的顏色采樣方式,就會產(chǎn)生人眼可見的明顯失真[16].為了實(shí)現(xiàn)畫面質(zhì)量的高保真,目前屏幕內(nèi)容圖像和視頻格式一般采用4∶4∶4的顏色采樣方式,如RGB 4∶4∶4,這使得屏幕內(nèi)容圖像的色度冗余高于自然圖像,前者的色度分量在編碼過程中會消耗比后者更多的位.

      1.5 小 結(jié)

      由1.1~1.4節(jié)比較可知,屏幕內(nèi)容有著復(fù)雜的空間和頻譜特征,變換編碼已不適用于其不連續(xù)色調(diào)部分的高效率編碼,這同時(shí)也解釋了文獻(xiàn)[4-7]等力圖通過傳統(tǒng)“幀內(nèi)幀間預(yù)測+變換結(jié)構(gòu)”的單一編碼器壓縮屏幕內(nèi)容等復(fù)合圖像的效率不夠理想的根本原因.于是,研究人員開始針對屏幕內(nèi)容圖像,尤其是不連續(xù)色調(diào)的文本、圖表、圖形等圖像的數(shù)據(jù)分布特性,展開了以下4方面研究:

      1) 根據(jù)不連續(xù)圖像的紋理信息多、邊緣銳利、顏色種類少等特點(diǎn),研究適用于文本、圖表、圖形等屏幕圖像視頻的空間域編碼方法.

      2) 根據(jù)不連續(xù)圖像序列的運(yùn)動(dòng)幅度大、運(yùn)動(dòng)模式復(fù)雜、離散運(yùn)動(dòng)等特點(diǎn),研究有效的、向量精度自適應(yīng)的時(shí)間域編碼(即幀間預(yù)測)方法.

      3) 根據(jù)不連續(xù)圖像的色度采樣特點(diǎn),研究減少屏幕內(nèi)容圖像視頻的色度信息冗余的方法.

      4) 根據(jù)屏幕內(nèi)容是連續(xù)色調(diào)圖像和不連續(xù)色調(diào)圖像混合體的特點(diǎn),研究適用于屏幕內(nèi)容編碼的總體框架.

      本文將分別詳細(xì)闡述這4個(gè)方面的典型研究工作.

      2 不連續(xù)色調(diào)圖像的空間域編碼方法

      對于第1個(gè)方面,為了保證文本、圖表、圖形等不連續(xù)色調(diào)圖像的主觀保真度,目前通常采用無損或近無損編碼算法對其進(jìn)行壓縮.早期,文獻(xiàn)[17]采用JPEG-LS算法編碼文本圖形圖像塊,但JPEG-LS是針對自然圖像統(tǒng)計(jì)特性設(shè)計(jì)的,不完全適用;文獻(xiàn)[18]采用PNG(portable network graphic)算法編碼不連續(xù)色調(diào)部分,但計(jì)算復(fù)雜度高,壓縮比有限.除了應(yīng)用標(biāo)準(zhǔn)的編碼算法以外,研究人員針對不連續(xù)色調(diào)圖像的像素分布特性提出了5類更加有效的方法,即基于調(diào)色板-索引圖的編碼算法、基于模板匹配的編碼算法、基于塊匹配的編碼算法、基于字典的編碼算法和基于形狀表示的編碼算法.

      考慮到不連續(xù)色調(diào)圖像包含顏色種類少的統(tǒng)計(jì)特性,文獻(xiàn)[11]提出將圖像中出現(xiàn)次數(shù)較多的幾種灰度值作為基本顏色(base color),分別為每種基本顏色指定一個(gè)索引值構(gòu)成調(diào)色板,再將原圖像的每個(gè)灰度值用對應(yīng)的索引值替代便形成一張索引圖(index map);只要將經(jīng)過熵編碼后的調(diào)色板和索引圖傳輸至解碼端,即可利用調(diào)色板和索引圖重構(gòu)出復(fù)合圖像,如圖6所示.由于該算法發(fā)掘了文本、圖表、圖形等圖像的數(shù)據(jù)特點(diǎn),成為不連續(xù)色調(diào)圖像的重要空間域編碼方法之一.

      Fig. 6 Diagram of palette -index map coding algorithm[11]圖6 調(diào)色板-索引圖編碼算法示意圖[11]

      該類算法包括3個(gè)主要步驟:調(diào)色板和索引圖的生成環(huán)節(jié)、調(diào)色板編碼環(huán)節(jié)和索引圖編碼環(huán)節(jié),后續(xù)的研究工作便從這3方面分別展開.

      2.1.1 調(diào)色板和索引圖的生成方法

      為了獲得不連續(xù)色調(diào)圖像的調(diào)色板和索引圖,文獻(xiàn)[11]提出首先采用K-均值算法將像素值聚合成若干類,并用每個(gè)聚類中心的值替代相應(yīng)類中的所有像素值;然后利用樹結(jié)構(gòu)向量量化(tree structure vector quantization, TSVQ)方法將像素值量化成1~8種基本顏色.文獻(xiàn)[19-22]進(jìn)一步將這種調(diào)色板-索引圖方法作為一種幀內(nèi)編碼模式增加到HEVC-SCC標(biāo)準(zhǔn)中,并且文獻(xiàn)[12,22]提出一種新的調(diào)色板生成方法,其主要步驟是先將圖像直方圖進(jìn)行排序,再從出現(xiàn)頻率最高的像素值開始掃描,若當(dāng)前像素值不能被調(diào)色板中的顏色以低于量化因子的誤差來表示,則將當(dāng)前像素值作為新的基本顏色增加到調(diào)色板.同時(shí),文獻(xiàn)[23]利用HEVC幀差編碼將量化誤差也傳輸至解碼端,實(shí)現(xiàn)了屏幕內(nèi)容的無損壓縮.不過,由于基本顏色的數(shù)量num因圖像內(nèi)容而異,編碼端就需要為每個(gè)圖像塊向解碼端傳送一個(gè)邊信息來標(biāo)識num,在一定程度上影響了編碼效率.

      于是,文獻(xiàn)[24]提出為每個(gè)圖像選取固定數(shù)量b的基本顏色,從而減少傳輸num的邊信息量,其主要思路是選取圖像中出現(xiàn)次數(shù)最多的b種像素值作為基本顏色,將其余像素值映射成離其最近且距離不超過閾值Δ1的基本顏色,而將那些與最近的基本顏色距離超過Δ1的像素值映射成逃逸色(escape color).經(jīng)過大量的實(shí)驗(yàn)統(tǒng)計(jì),文獻(xiàn)[24]認(rèn)為4種基本顏色為最佳數(shù)目.該方法選取基本顏色的計(jì)算過程簡單快速,但是無法避免由于基本顏色過于集中、逃逸色導(dǎo)致圖像失真偏大的情況.因此,文獻(xiàn)[25]提出了一種構(gòu)造最優(yōu)調(diào)色板和索引圖的率失真模型,有效控制了屏幕內(nèi)容圖像的整體失真,其BD-Rate指標(biāo)較文獻(xiàn)[20]降低了4.7%,不足之處是計(jì)算復(fù)雜度有所提高.文獻(xiàn)[8,26]也討論了類似的率失真模型,并且給出一種率失真模型的動(dòng)態(tài)規(guī)劃解法,其計(jì)算量低于文獻(xiàn)[20].

      此外,文獻(xiàn)[27]提出了一種索引圖的優(yōu)化方法,其中心思想是:若2個(gè)索引值相鄰的次數(shù)較多,則盡可能重新為它們分配2個(gè)連續(xù)的索引值.該思路較為新穎,將索引圖的壓縮效率提高了43%,但涉及較多的統(tǒng)計(jì)運(yùn)算.

      2.1.2 調(diào)色板編碼方法

      在建立了圖像塊(或編碼單元)的調(diào)色板后,文獻(xiàn)[11]采用上下文自適應(yīng)的算術(shù)編碼生成調(diào)色板信息的壓縮碼流;文獻(xiàn)[8]通過量化將基本顏色的值域從0~255調(diào)整成{0,8,16,24,32,…,248,255},再利用多符號算術(shù)編碼進(jìn)行壓縮;文獻(xiàn)[24]則采用差分脈沖編碼調(diào)制(differential pulse code modulator, DPCM)和霍夫曼編碼對調(diào)色板進(jìn)行壓縮.這3種方法均利用了調(diào)色板內(nèi)部的數(shù)據(jù)冗余,而考慮到不連續(xù)色調(diào)圖像顏色種類少的特點(diǎn),相鄰的或者位于相似紋理區(qū)域的不同圖像塊(或編碼單元)的調(diào)色板之間必然也存在一定相關(guān)性,顯然上述3種方法并未發(fā)掘這種相關(guān)性.鑒于此種情況,就有研究者提出了局部調(diào)色板和全局調(diào)色板的解決思路.

      所謂的“局部調(diào)色板”是指,利用調(diào)色板數(shù)據(jù)的局部相關(guān)性而設(shè)計(jì)的編碼方法.文獻(xiàn)[21,28]采用左側(cè)相鄰編碼單元的調(diào)色板來預(yù)測當(dāng)前編碼單元的調(diào)色板.文獻(xiàn)[29]提出一種調(diào)色板合并算法,其主要思路是將當(dāng)前編碼單元上方和左側(cè)相鄰編碼單元的調(diào)色板合并,若當(dāng)前編碼單元的某個(gè)基本顏色在該合并調(diào)色板C中,則把它在C中的索引值傳輸至解碼端;否則,將該基本顏色直接傳輸至解碼端.除了調(diào)色板合并方法以外,文獻(xiàn)[12]建立了一個(gè)參考調(diào)色板,若當(dāng)前調(diào)色板的某個(gè)基本顏色位于參考調(diào)色板中,則將該顏色在2個(gè)調(diào)色板中的索引之差傳輸至解碼端;否則,就利用當(dāng)前調(diào)色板中的前一種基本顏色預(yù)測待編碼的基本顏色,只將預(yù)測誤差傳輸至解碼端.該方法利用了圖像中不同塊的基本顏色間的相關(guān)性和同一圖像塊調(diào)色板內(nèi)部的顏色相關(guān)性,取得了不錯(cuò)的編碼效率.與此類似,文獻(xiàn)[26,30]也給出了調(diào)色板的2種編碼模式:隱式模式和顯示模式.前者是用已編碼圖像塊(編碼單元)的調(diào)色板作為當(dāng)前圖像塊(編碼單元)的調(diào)色板;后者則是從已編碼圖像塊(編碼單元)的調(diào)色板中提取出常用的基本顏色加入到一定容量的參考調(diào)色板,再為每種參考顏色設(shè)置一個(gè)重用標(biāo)識用于表示其在當(dāng)前調(diào)色板中是否重用.對于那些不在參考調(diào)色板、而出現(xiàn)在當(dāng)前調(diào)色板中的顏色,就直接將其編碼進(jìn)壓縮碼流.同時(shí),為了保持參考調(diào)色板有較高的預(yù)測準(zhǔn)確率,文獻(xiàn)[26,30]又定義了參考調(diào)色板的更新操作,實(shí)時(shí)地將當(dāng)前調(diào)色板中出現(xiàn)的新基本顏色放入?yún)⒖颊{(diào)色板,而將其中不常用的基本顏色刪除.需要指出,該編碼方案已被HEVC-SCC測試模型接納.

      有研究表明[31],圖像中廣泛存在著非局部相關(guān)性,即一個(gè)圖像塊往往與同一圖像中位置不相鄰的某塊具有相似的邊緣、紋理或輪廓等,這樣調(diào)色板數(shù)據(jù)也應(yīng)具有非局部相關(guān)性.而所謂的“全局調(diào)色板”就是利用調(diào)色板的這種非局部相關(guān)性所設(shè)計(jì)的編碼方法.文獻(xiàn)[25]首先利用率失真方法建立整幅圖像的調(diào)色板,再采用凸優(yōu)化方法從中選擇出預(yù)測誤差最小的若干種基本顏色建立全局調(diào)色板,進(jìn)而實(shí)現(xiàn)對每個(gè)圖像塊調(diào)色板的最優(yōu)預(yù)測.理論上,該方法可達(dá)到優(yōu)于上述所有調(diào)色板編碼方法的效率,但是它需要進(jìn)行2輪調(diào)色板掃描和求解優(yōu)化問題的多次迭代,故此其計(jì)算量明顯高于其他方法,實(shí)用性受到了一定限制.

      2.1.3 索引圖編碼方法

      索引圖是基于調(diào)色板-索引圖的編碼算法中體量最大的一部分?jǐn)?shù)據(jù),其編碼效率直接影響調(diào)色板編碼算法的整體壓縮性能,所以索引圖編碼是調(diào)色板編碼最主要的組成部分.

      早期,文獻(xiàn)[11]采用上下文自適應(yīng)的算術(shù)編碼壓縮索引圖,文獻(xiàn)[8]采用上下文重映射和熵編碼壓縮索引圖,二者均利用了索引圖的統(tǒng)計(jì)冗余.但由1.1節(jié)可知,索引圖中還會出現(xiàn)重復(fù)的圖案,即所謂的局部和非局部數(shù)據(jù)相關(guān)性.于是,文獻(xiàn)[12]采用1D串匹配的方法編碼索引圖,如圖7(a)的索引圖片段可編碼成一系列二元、三元組序列(0,14)(1,1,3)(0,17)(1,1,3)…(0,1)(0,2)(0,3)(0,4)(1,4,4)[12].然而,索引圖中的重復(fù)圖案幾乎全部是2D圖案,如采用前面的1D串匹配還存在較大冗余.如圖7(b),1D串匹配產(chǎn)生了多次重復(fù)的三元組(1,8,7),故此文獻(xiàn)[12,32]提出了索引圖的2D串匹配編碼方法,將1個(gè)重復(fù)的2D圖案表示成四元組“(匹配成功標(biāo)志,距離,寬度,高度)”,例如圖7(b)的陰影部分可表示成(0,0)(1,1,7,8).可見,充分發(fā)掘索引圖的數(shù)據(jù)相關(guān)性可帶來明顯的編碼增益.

      文獻(xiàn)[19]提出了一種2重預(yù)測編碼方法,即方向預(yù)測和模板預(yù)測.其中,方向預(yù)測如圖8所示,首先計(jì)算與待編碼索引相鄰的前一位置的索引值與其水平方向、對角線方向、垂直方向和反對角線方向上各索引值的歐氏距離;再選取歐氏距離最小的索引值所在的方向作為當(dāng)前位置的預(yù)測方向,把待編碼索引沿著預(yù)測方向上的索引值作為其預(yù)測.對于預(yù)測失敗的元素,則進(jìn)一步采用模板預(yù)測,其基本思想是利用統(tǒng)計(jì)相關(guān)性查找待編碼索引的最佳預(yù)測,如圖9所示,在模板“0020”作為上文,下文“1”出現(xiàn)3次,而“2”出現(xiàn)1次,所以“1”被作為待編碼索引的預(yù)測.最后,采用CABAC和2叉樹編碼對2個(gè)階段預(yù)測生成的匹配表進(jìn)行壓縮.由于方向預(yù)測和模板預(yù)測分別利用了索引圖的局部相關(guān)和非局部相關(guān),索引值被準(zhǔn)確預(yù)測的概率達(dá)到了92%.為此,文獻(xiàn)[24]提出了2級層次預(yù)測編碼模式來發(fā)掘索引圖的全局相關(guān)性:第1級將每個(gè)與左側(cè)相鄰索引值相等的索引標(biāo)識為符號“L”,將每個(gè)與上方相鄰索引值相等的索引標(biāo)識為符號“U”,然后將剩余索引標(biāo)識為“O”,得到如圖10(b)所示的預(yù)測符號圖;第2級對每一行預(yù)測符號進(jìn)行分組,每組包含m(m=4)個(gè)相鄰的預(yù)測符號.對于每個(gè)分組,若其中的預(yù)測符號均為“L”,則將該分組標(biāo)識為“X”;若其中的預(yù)測符號均為“U”,則將該分組標(biāo)識為“Y”;否則將該分組標(biāo)識為“Z”,結(jié)果如圖10(c)所示.最后,對各標(biāo)識符號進(jìn)行熵編碼.雖然文獻(xiàn)[19,24]是發(fā)掘索引圖局部與非局部相關(guān)的代表性方法,可是這2種方法涉及多輪掃描,計(jì)算量偏高.為此,文獻(xiàn)[29]對文獻(xiàn)[19]進(jìn)行了簡化,在水平和豎直方向中選取索引值變化量較小者作為預(yù)測方向,再采用預(yù)測方向上與待編碼索引直接相鄰的索引作為預(yù)測值.該方法的計(jì)算量僅相當(dāng)于文獻(xiàn)[19]的20%,但預(yù)測方向較少、未兼顧索引圖的非局部相關(guān)性,預(yù)測效率有所降低,適合于實(shí)時(shí)要求較高的應(yīng)用.

      Fig. 8 Diagram of directional prediction[19]圖8 方向預(yù)測示意圖[19]

      Fig. 9 Diagram of template prediction[19]圖9 模板預(yù)測示意圖[19]

      Fig. 10 Diagram of two-stage prediction of index map[24]圖10 索引圖的2級預(yù)測示意圖[24]

      與上述方法不同,文獻(xiàn)[33]發(fā)掘了索引圖的行、列相關(guān)性,提出水平預(yù)測模式、垂直預(yù)測模式和逐像素預(yù)測模式3種編碼模式.具體地講,若一個(gè)圖像塊的某一行(列)與其相鄰的前一行(列)有相同索引值或者僅有1個(gè)索引值不同,則用垂直(水平)預(yù)測模式編碼該行(列)像素的索引值.如果不滿足以上2種模式,則采用逐像素預(yù)測模式,即利用左側(cè)相鄰像素的索引值預(yù)測當(dāng)前像素的索引值,再將預(yù)測誤差寫入碼流.與文獻(xiàn)[8,11,19,29]的每次只能預(yù)測1個(gè)索引值的方法相比,該方法每次可預(yù)測多個(gè)索引值,其預(yù)測效率更高,所需同步信息更少,因此這一思路經(jīng)過改進(jìn)后被HEVC-SCC接納.HEVC-SCC為每個(gè)索引值定義2種預(yù)測模式:“COPY_ABOVE_MODE”和“COPY_INDEX_MODE”[31,34].前者類似文獻(xiàn)[33]的水平預(yù)測模式,后者相當(dāng)于垂直預(yù)測模式,不同的是,這2種模式采用拷貝行程替代了水平(垂直)預(yù)測模式的整行(整列)拷貝方式,使得預(yù)測不局限于整行(整列)進(jìn)行,連續(xù)預(yù)測的索引數(shù)目可少于或者多于一行(列),其編碼方式更加靈活,效率也更高.

      2.2 基于模板匹配的編碼算法

      針對屏幕圖像中往往包含較多的相同或相似文字和圖形的特點(diǎn),研究人員提出采用模板匹配的方法來降低屏幕內(nèi)容中這種非局部相關(guān)的信息冗余.模板匹配方法是在H.264AVC廣泛應(yīng)用的一種幀內(nèi)預(yù)測技術(shù),其基本思想是利用待編碼像素塊的某個(gè)鄰域的已編碼像素集合構(gòu)成一個(gè)模板,然后利用該模板在已編碼的區(qū)域中搜索與待編碼塊最相似的1個(gè)或多個(gè)塊,最后用最佳匹配塊[14]或多個(gè)相似塊的均值[35]作為待編碼塊的預(yù)測.由于這類方法不需向解碼端傳輸同步信息,可有效改善編碼效率,但是基于塊的模板匹配的計(jì)算量偏高,且預(yù)測準(zhǔn)確度不夠穩(wěn)定.在這種情況下,文獻(xiàn)[36]提出了一種像素粒度的模板匹配預(yù)測編碼方法,思路與圖9類似.實(shí)驗(yàn)表明,該方法的預(yù)測準(zhǔn)確率達(dá)到了80%,被準(zhǔn)確預(yù)測的像素?zé)o需編碼,只需編碼預(yù)測殘差非零的像素索引、位置和像素值.文獻(xiàn)[37-38]通過統(tǒng)計(jì)發(fā)現(xiàn),多數(shù)非零殘差對應(yīng)的像素值也分布在基本色中,為了進(jìn)一步提高非零殘差的編碼效率,該文采用全局調(diào)色板與當(dāng)前編碼單元調(diào)色板的差作為非零殘差的調(diào)色板,對小于一定閾值的殘差進(jìn)行率失真優(yōu)化下的修正,繼而減少了殘差的碼率,提高了整體的編碼效率.但是,模板匹配的過程仍然非常耗時(shí).為此,文獻(xiàn)[39]將Hash表結(jié)構(gòu)引入到了模板匹配中,提出了對一個(gè)由21個(gè)像素組成的模板在整幀范圍內(nèi)進(jìn)行快速搜索的方法,并采用LZMA(Lempel-Ziv-Markov chain algorithm)熵編碼方法壓縮預(yù)測殘差.與HEVC擴(kuò)展參考軟件相比,該方法的運(yùn)行時(shí)間降低了50%左右,并且編碼效率提高了1倍.

      2.3 基于塊匹配的編碼算法

      除了模板匹配,基于塊匹配的編碼算法也是一種發(fā)掘非局部數(shù)據(jù)相關(guān)性的有效手段,由文獻(xiàn)[40]首次引入H.264AVC中,目前已被采納為HEVC-SCC擴(kuò)展標(biāo)準(zhǔn)中的預(yù)測模式之一,稱為“幀內(nèi)塊拷貝”(intra block copy, IBC)[14].其基本思想類似于傳統(tǒng)的幀間運(yùn)動(dòng)估計(jì),在當(dāng)前幀的已編碼區(qū)域內(nèi)搜索與待編碼單元相似的塊,再將2個(gè)塊的距離(稱為“向量”)及預(yù)測誤差進(jìn)行編碼.如圖11所示,陰影部分為搜索區(qū)域,其中,CTU表示編碼樹單元(coding tree unit),BV表示塊向量(block vector),CU表示編碼單元(coding unit).

      Fig.11 Diagram of intra block copy method[14]圖11 幀內(nèi)塊拷貝方法示意圖[14]

      一方面,為了在編碼效率和計(jì)算量之間進(jìn)行折中,典型的幀內(nèi)塊拷貝方法往往采用較小的搜索范圍,無法有效提取出屏幕圖像存在的大范圍重復(fù)圖案和冗余.于是,文獻(xiàn)[41]提出了一種基于2級Hash的塊匹配方法,首先為每個(gè)待編碼塊計(jì)算出1級Hash值,將與該塊具有相同1級Hash值的塊作為候選塊;然后,選取與待編碼塊具有相同2級Hash值的候選塊作為最佳匹配塊.根據(jù)計(jì)算量的對比分析,該方法的搜索速度在一定條件下甚至可超過快速運(yùn)動(dòng)估計(jì)TZ Search方法,是一種高效率的幀內(nèi)塊拷貝技術(shù).

      另一方面,文獻(xiàn)[42]認(rèn)為方形塊結(jié)構(gòu)的預(yù)測方式對于屏幕內(nèi)容中的細(xì)膩線條等任意形狀、大小的圖案缺乏靈活性,提出了一種類似于HEVC的變塊尺寸運(yùn)動(dòng)估計(jì)的非方塊匹配模式,改善了塊匹配方法的編碼效率,但是其時(shí)間復(fù)雜度增加了約14%.文獻(xiàn)[43]則進(jìn)一步提出將1個(gè)編碼單元(CU)劃分為16個(gè)矩形的“微塊”,所允許的塊最小長度(或?qū)挾?可達(dá)到1個(gè)像素.由于預(yù)測結(jié)構(gòu)更加精細(xì),該方法的編碼效率較之傳統(tǒng)方形塊結(jié)構(gòu)平均提高了4.78%,編解碼的時(shí)間復(fù)雜度則提高約6.43%.可見,形狀豐富靈活的塊結(jié)構(gòu)有利于改善屏幕內(nèi)容的預(yù)測效率.實(shí)際上,這一結(jié)論也是基于字典的編碼算法的研究出發(fā)點(diǎn)之一.

      2.4 基于字典的編碼算法

      基于模板匹配和塊匹配的編碼算法均利用矩形區(qū)域的像素集合發(fā)掘屏幕內(nèi)容中蘊(yùn)含的非局部冗余,但是文本、圖表和圖標(biāo)等很難用固定形狀的像素集合實(shí)現(xiàn)最佳匹配,這樣就出現(xiàn)了一類基于字典的編碼算法.該算法的主要思想是利用待編碼像素所在的1個(gè)1D或2D的連續(xù)像素串作為模板,該像素串在空間域上可組織成任意的形狀,再在已編碼區(qū)域中搜索與其最匹配的像素串,進(jìn)而對待編碼像素與匹配像素串的距離和匹配串長度進(jìn)行編碼.

      2009年,文獻(xiàn)[44-45]采用基于Lempel-Ziv字典的gzip算法對復(fù)合圖像進(jìn)行編碼,將字典編碼技術(shù)引進(jìn)到圖像編碼中.其后,文獻(xiàn)[14,46]將該方法推廣到屏幕內(nèi)容的編碼中,應(yīng)用gzip或LZMA等提出了字典熵編碼,作為全色度無損編碼器的關(guān)鍵技術(shù)之一,后又經(jīng)其作者將字典編碼的基本執(zhí)行單元從最大編碼單元(largest coding unit, LCU)修改為CU[47-48].為了加快像素串的匹配速度,文獻(xiàn)[49]提出了Hash表結(jié)構(gòu)的1D字典編碼以及2種字典模式,對應(yīng)不同的搜索范圍;文獻(xiàn)[50]通過實(shí)驗(yàn)發(fā)現(xiàn)像素串的最佳匹配長度大多是3的倍數(shù),進(jìn)而提出一種3B計(jì)算Hash值的方法,使得像素串在匹配過程中不再逐字節(jié)地搜索,并將Hash表的存儲空間減少了23;文獻(xiàn)[51]則認(rèn)為可適當(dāng)降低匹配標(biāo)準(zhǔn),將像素串的無損匹配調(diào)整為有損匹配來提高匹配效率,并提出一種基于拉格朗日乘子法的率失真約束的有損字典編碼方法.

      然而,文獻(xiàn)[52-54]認(rèn)為采用1D像素串作為模板無法充分利用圖像的2D相關(guān)性,并且要求待匹配像素串和匹配像素串做到精確匹配也具有一定局限性.于是,文獻(xiàn)[52-54]進(jìn)一步提出一種屏幕內(nèi)容的2D字典編碼方法,將待編碼單元的Hash值作為字典索引查找到候選的匹配塊,再依據(jù)率失真函數(shù)確定最佳匹配塊,不過他們所采用的像素串仍然是規(guī)則的塊結(jié)構(gòu).文獻(xiàn)[55]則提出一種廣義的基于2D串拷貝的字典編碼.如圖12所示,連續(xù)的像素串可組成2D空間的任意形狀,對于具有復(fù)雜形狀的文本、圖標(biāo)等元素能夠?qū)崿F(xiàn)更加準(zhǔn)確的預(yù)測,且匹配過程既能夠在編碼單元間進(jìn)行,也可以在當(dāng)前待編碼的單元中進(jìn)行,比上述的幀內(nèi)塊拷貝和基于塊的字典編碼等方法更加靈活.同時(shí),該方法還支持待匹配像素串與匹配像素串發(fā)生重疊,通過增加匹配長度來提高編碼效率.

      Fig. 12 Diagram of 2D string copy[55]圖12 2D串拷貝示意圖[55]

      由于基于模板匹配的編碼算法、基于塊匹配的編碼算法和基于字典的編碼算法均充分利用了不連續(xù)色調(diào)圖像包含大量相同字符或者相同紋理結(jié)構(gòu)這一非局部相關(guān)性特點(diǎn),有效提高了屏幕內(nèi)容的編碼效率,3類算法的不同之處表現(xiàn)在基本預(yù)測結(jié)構(gòu)和預(yù)測參數(shù)的表示方式上.幀內(nèi)塊拷貝模式與幀間運(yùn)動(dòng)估計(jì)在一定程度上可以統(tǒng)一起來,在HEVC等視頻框架下實(shí)現(xiàn)較其他兩者更加方便,預(yù)測參數(shù)表示也較為簡單;而基于字典的編碼算法的預(yù)測參數(shù)表示卻比較復(fù)雜,參數(shù)數(shù)量也較多.為此,文獻(xiàn)[56]統(tǒng)計(jì)分析了字典編碼中位移參數(shù)的聯(lián)合概率分布和參數(shù)之間的相關(guān)性,進(jìn)而優(yōu)化設(shè)計(jì)了位移參數(shù)的碼字分配方案,并提出一種位移參數(shù)的聯(lián)合編碼方法,是對基于字典的編碼算法的一種有效改進(jìn).另外,上述3類算法的計(jì)算量都偏高,盡管研究人員通過引進(jìn)Hash函數(shù)的方式加速匹配計(jì)算,可是如何在Hash表的存儲空間、計(jì)算量和預(yù)測精度之間達(dá)到理想的折中仍需探索.

      2.5 基于形狀表示的編碼算法

      與上述的3種非局部搜索方法思路不同,文獻(xiàn)[9]認(rèn)為屏幕內(nèi)容圖像是由點(diǎn)、線、面、三角形和矩形等一些基本形狀組成,并稱之為形狀原語,進(jìn)而提出了形狀原語提取編碼方法.該方法選擇了4種形狀原語:孤立點(diǎn)、水平線、垂直線和矩形,任何一個(gè)復(fù)雜的形狀都可以分解為這4種形狀原語的組合,如圖13所示.為了提取屏幕圖像中的這些形狀原語,從最左下角開始按從左到右、從下到上的順序掃描圖像塊,如果當(dāng)前像素點(diǎn)已包含于前一形狀原語,則下一像素點(diǎn)成為當(dāng)前像素點(diǎn),繼續(xù)向右、向上掃描.該算法提出的形狀原語比較新穎,而且對形狀原語的編碼也較容易實(shí)現(xiàn),特別是能比較有效地處理不連續(xù)色調(diào)圖像.

      Fig. 13 Diagram of shape primitive extraction[9]圖13 形狀原語的提取示意圖[9]

      除了上述的系列性工作以外,還有一些研究者在不斷嘗試更多的編碼方法,如文獻(xiàn)[57]在HEVC的幀內(nèi)方向預(yù)測基礎(chǔ)上,針對屏幕內(nèi)容圖像中包含大量強(qiáng)邊緣的特點(diǎn),提出一種基于梯度的邊緣預(yù)測的幀內(nèi)預(yù)測模式.其基本思路是利用待編碼像素的3×4鄰域內(nèi)的像素計(jì)算沿著∠0°,∠45°,∠90°和∠135°方向的梯度值,從中選取梯度值最大方向的相鄰像素預(yù)測待編碼像素.文獻(xiàn)[58]則在文獻(xiàn)[57]基礎(chǔ)上,進(jìn)一步提出在中值預(yù)測、邊緣預(yù)測和幀內(nèi)方向預(yù)測3種模式中選取具有最優(yōu)率失真性能的模式進(jìn)行預(yù)測的無損編碼算法.該方法不僅與HEVC有很好的兼容性,還比HEVC的幀內(nèi)編碼效率提高了16.13%.

      3 屏幕內(nèi)容的時(shí)間域編碼方法

      針對第2個(gè)方面,典型自然視頻的物體運(yùn)動(dòng)往往是連續(xù)的,屏幕內(nèi)容的物體運(yùn)動(dòng)卻由于處理設(shè)備和顯示設(shè)備的工作特性呈現(xiàn)出離散的、整數(shù)像素精度的特點(diǎn),文獻(xiàn)[59-60]認(rèn)為若繼續(xù)采用分?jǐn)?shù)像素精度的運(yùn)動(dòng)估計(jì)補(bǔ)償可能導(dǎo)致碼字的浪費(fèi),進(jìn)而提出了一種自適應(yīng)確定運(yùn)動(dòng)向量精度的方法.其基本思路是將待編碼圖像分成不重疊的塊,利用Hash方法在參考圖像中為每個(gè)分塊搜索與其匹配的塊,再根據(jù)能夠準(zhǔn)確匹配的分塊比例和多個(gè)閾值選擇合適的運(yùn)動(dòng)向量精度.該方法可比單純采用14像素精度運(yùn)動(dòng)向量的HEVC提高約3.3%的編碼效率,目前已被HEVC-SCC采納.

      屏幕視頻的另一個(gè)特點(diǎn)是存在快速全局運(yùn)動(dòng)[15].在這種情況下,為了獲得較高的幀間預(yù)測效率,需要在較大范圍甚至整幀內(nèi)展開運(yùn)動(dòng)估計(jì)和補(bǔ)償.這既會給編碼器帶來較大的計(jì)算負(fù)擔(dān),又可能使那些源于運(yùn)動(dòng)向量中心偏置假設(shè)的快速運(yùn)動(dòng)估計(jì)算法(如TZ search[61]等)陷入局部最優(yōu).為此,出現(xiàn)了2類研究工作.

      第1類工作側(cè)重在運(yùn)動(dòng)估計(jì)中引進(jìn)低位深度的像素,例如1 b全搜索僅需簡單的位操作即可實(shí)現(xiàn),并且能將多個(gè)像素的匹配誤差并行處理.文獻(xiàn)[62]選取相鄰像素差異最大的位平面將視頻幀量化成2值圖像,然后進(jìn)行帶有中止判別的1 b全搜索,取得了與8 b全搜索相近的時(shí)間域預(yù)測效率.文獻(xiàn)[63]進(jìn)一步通過對比實(shí)驗(yàn)考察了典型的低位深度運(yùn)動(dòng)估計(jì)對屏幕內(nèi)容的適用性,發(fā)現(xiàn)基于加權(quán)異或匹配準(zhǔn)則和最高3~4個(gè)位平面的運(yùn)動(dòng)估計(jì)[64]能夠獲得較高的預(yù)測效率.

      第2類工作的主要思想是借助Hash表提高較大搜索范圍內(nèi)的塊(串)匹配的效率.文獻(xiàn)[41]提出了基于2級Hash的塊匹配方法,其基本思路詳見2.3節(jié).該方法不僅能夠用于幀內(nèi)塊拷貝,也可有效應(yīng)用在幀間預(yù)測中.與HEVC的校驗(yàn)?zāi)P拖啾?,它能夠?qū)焖龠\(yùn)動(dòng)的屏幕視頻的編碼碼率降低59%.類似地,文獻(xiàn)[65]也提出一種基于雙緩存和Hash表的字典編碼方法,其中主緩存相當(dāng)于傳統(tǒng)編碼器的幀緩存,用于存儲編碼端重建的參考像素串,次級緩存用來保存最近或頻繁使用的參考像素串.這樣,前者可發(fā)掘屏幕內(nèi)容的局部和短時(shí)非局部相關(guān)性,而后者則能夠充分利用屏幕內(nèi)容的長時(shí)非局部相關(guān)去除時(shí)間域冗余.故此,文獻(xiàn)[41,65]均是較為有效的時(shí)空域預(yù)測方法.

      值得注意的是,文獻(xiàn)[15]認(rèn)為屏幕內(nèi)容中某些對象的快速運(yùn)動(dòng)很可能是由用戶拖動(dòng)最大化最小化窗口、切換界面等操作所引起的,在這種情況下,編碼算法只需保證視覺上的平滑過渡,而沒必要高保真地壓縮運(yùn)動(dòng)對象的內(nèi)容.于是,文獻(xiàn)[15]采用最大后驗(yàn)概率將屏幕內(nèi)容劃分為高實(shí)用性內(nèi)容塊(high utility content)和低實(shí)用性內(nèi)容塊(low utility content),并進(jìn)一步利用圓對稱高斯濾波器對低實(shí)用性內(nèi)容塊進(jìn)行模糊處理.由于考慮了人眼視覺的時(shí)域掩蔽效應(yīng),該方法可在保持主觀解碼質(zhì)量的前提下,將所需的碼率降低了24%~40%.

      4 屏幕內(nèi)容的色度編碼方法

      針對第3個(gè)方面,典型連續(xù)色調(diào)的圖像和視頻的標(biāo)準(zhǔn)格式普遍采用4∶2∶0顏色空間采樣,對不連續(xù)色調(diào)圖像的采樣則一般采用4∶4∶4的格式,其3個(gè)色彩分量之間存在大量數(shù)據(jù)冗余,例如在YUV空間,若相鄰的若干像素的亮度值相等,那么其色度值也極可能相等.

      一方面,文獻(xiàn)[66]研究發(fā)現(xiàn),通過一定的顏色變換可有效提高色度信息的編碼效率.為了盡量減少顏色空間采樣產(chǎn)生的冗余,HEVC-SCC標(biāo)準(zhǔn)采用一種自適應(yīng)的色彩空間變換將RGB色彩空間的像素線性轉(zhuǎn)換到Y(jié)CoCg色彩空間[14]:

      每個(gè)編碼單元的預(yù)測殘差自適應(yīng)地在RGB和YCoCg中選取合適的顏色空間進(jìn)行編碼.

      另一方面,文獻(xiàn)[16,67]提出一種基于混合色度采樣率的雙編碼器聯(lián)合編碼算法,由1個(gè)全色度信息編碼器和1個(gè)下采樣色度信息的編碼器組成,前者用于編碼不連續(xù)色調(diào)的部分,后者用于編碼連續(xù)色調(diào)的部分.同時(shí),不連續(xù)色調(diào)部分在全色度空間進(jìn)行預(yù)測,其殘差經(jīng)色度下采樣后在YUV 4∶2∶0空間進(jìn)行編碼.在編碼一個(gè)圖像塊時(shí),采用一個(gè)率失真函數(shù)在2個(gè)編碼器中自適應(yīng)選擇,進(jìn)而充分發(fā)掘了不同顏色通道間的相關(guān)性.進(jìn)一步地,文獻(xiàn)[68]認(rèn)為3個(gè)色彩分量之間或者相鄰像素的色彩分量之間存在一定關(guān)系,進(jìn)而提出一種顏色分量間的預(yù)測方法,實(shí)現(xiàn)了用已解碼像素的亮度和色度分量之間的線性關(guān)系和當(dāng)前像素的亮度分量預(yù)測其色度分量.

      總體來看,有關(guān)屏幕內(nèi)容圖像的色度編碼方法的研究還不多,而且缺少對屏幕內(nèi)容色度分量特點(diǎn)的特殊考量.

      5 屏幕內(nèi)容的混合編碼方法

      屏幕內(nèi)容由不連續(xù)色調(diào)部分和連續(xù)色調(diào)部分的組成,一方面,前者包含豐富的高對比度、簡單背景的字符邊緣、細(xì)線條等,人眼視覺系統(tǒng)對其邊緣失真非常敏感;后者則包含大量的復(fù)雜前景和背景、多個(gè)顏色種類、平滑邊緣,而視覺掩蔽效應(yīng)使得人眼對于其信息損失的敏感度降低,這表明2類組成部分的保真度要求不同.另一方面,不連續(xù)色調(diào)部分和連續(xù)色調(diào)部分的數(shù)據(jù)統(tǒng)計(jì)特性存在明顯差異,尚不存在某一種編碼方法能夠同時(shí)實(shí)現(xiàn)2類組成部分的高效率壓縮.故此,研究人員提出采用混合編碼框架,如圖14所示.對屏幕內(nèi)容的圖像視頻進(jìn)行編碼,其主要思路是首先將圖像劃分為不連續(xù)色調(diào)和連續(xù)色調(diào)2種類型的區(qū)域,然后為不同區(qū)域選擇恰當(dāng)?shù)木幋a算法,最后將壓縮碼流進(jìn)行復(fù)合.

      Fig. 14 General procedure of screen content image coding圖14 屏幕內(nèi)容圖像編碼的一般流程

      5.1 屏幕內(nèi)容的區(qū)域劃分模式

      1) 基于對象的區(qū)域劃分

      基于對象的劃分模式將圖像劃分成具有一定語義的區(qū)域,如1個(gè)圖形或字符等.其優(yōu)點(diǎn)是區(qū)域劃分準(zhǔn)確;而缺點(diǎn)在于對分割算法要求高,且區(qū)域形狀不規(guī)則,需借助邊信息將區(qū)域邊界傳輸至解碼端,額外開銷較大,不便于使用現(xiàn)有算法進(jìn)行編碼,故幾乎很少采用.

      2) 基于層的區(qū)域劃分

      該模式將每個(gè)像素劃分到不同的層,而不同的層可采用不同的壓縮算法.例如,MRC方法[69]把圖像劃分為前景層、背景層和遮罩層.前景層包括文本、圖形或線條,背景層包括自然圖像和空白區(qū)域,而遮罩層用來指示某一像素輸出前景層的值還是背景層的值.背景層和前景層使用JPEG,而遮罩層則使用JBIG;DjVu方法[70]則采用基于小波變換的編碼方法(IW44)壓縮前景層和背景層,采用JBIG 2算法壓縮遮罩層.基于層的區(qū)域劃分簡化了基于對象的劃分方法,但是尚不存在一種適用于所有圖像的分層方法[29],并且一部分像素可能同時(shí)屬于不同層,也可能在同一層內(nèi)出現(xiàn)不同類型的圖像區(qū)域,以致影響編碼效率.

      3) 基于塊的區(qū)域劃分

      文獻(xiàn)[17]提出將圖像劃分為一系列不重疊的、大小一致(如8×8像素、16×16像素)的塊,再將其分成文本塊、圖形塊和圖像塊等不同的類型,進(jìn)而采用恰當(dāng)?shù)姆椒ň幋a每種類型的塊.這種區(qū)域劃分方法計(jì)算簡單,無塊間冗余,不需要邊信息實(shí)現(xiàn)編解碼端的同步,且與標(biāo)準(zhǔn)的編碼方法兼容.然而,若當(dāng)某個(gè)像素塊處在不同類型區(qū)域的交界時(shí),則可能由于區(qū)域劃分的不準(zhǔn)確、像素統(tǒng)計(jì)特性的不同而降低編碼效率.

      基于對象的區(qū)域劃分和基于層的區(qū)域劃分過程較為復(fù)雜且技術(shù)尚不成熟,基于塊的區(qū)域劃分模式就逐漸發(fā)展為屏幕內(nèi)容混合編碼框架的首選方法.

      5.2 基于塊的屏幕內(nèi)容典型混合編碼框架

      基于塊的屏幕內(nèi)容混合編碼的主要思路是先將圖像劃分為不連續(xù)色調(diào)塊和連續(xù)色調(diào)塊,再為不同類型的圖像塊選擇合適的編碼算法實(shí)現(xiàn)壓縮.由于本文已經(jīng)在第2~4節(jié)詳細(xì)闡述了不連續(xù)色調(diào)圖像的編碼方法,本節(jié)將重點(diǎn)關(guān)注塊類型的分類方法和各類算法的主要混合框架.

      文獻(xiàn)[17]首先提出了基于塊的復(fù)合圖像編碼方法,通過統(tǒng)計(jì)一個(gè)圖像塊內(nèi)部顏色的數(shù)量來區(qū)分不連續(xù)色調(diào)和連續(xù)色調(diào)圖像塊,并將處于2種類型區(qū)域交界的像素塊定義為邊界塊.隨后,不連續(xù)色調(diào)圖像塊采用無損近無損的JPEG-LS標(biāo)準(zhǔn)算法編碼,連續(xù)色調(diào)圖像塊則采用JPEG標(biāo)準(zhǔn)算法編碼,而邊界塊則需通過設(shè)置不同的量化參數(shù)以便在有損和無損壓縮區(qū)域之間實(shí)現(xiàn)主客觀解碼質(zhì)量的過渡.該方法的計(jì)算復(fù)雜度較低,但由于對不連續(xù)色調(diào)圖像塊采用JPEG-LS無損編碼,其壓縮效率比較有限.文獻(xiàn)[6]利用相鄰像素的最大誤差將像素塊劃分為自然圖像塊和文本邊緣塊,并借助率失真模型和人眼主觀質(zhì)量權(quán)重為不同類型的像素塊計(jì)算合適的量化步長,進(jìn)而采用基線版本的JPEG有損壓縮完成編碼,其編碼效率較之文獻(xiàn)[17]有一定提高.不過,利用調(diào)節(jié)量化因子來控制邊界塊編碼質(zhì)量的手段仍無法有效保持文本內(nèi)容的銳利邊界.

      考慮到多幅連續(xù)的屏幕內(nèi)容圖像之間存在沿著時(shí)間維的強(qiáng)相關(guān)性,文獻(xiàn)[71]設(shè)置了幀內(nèi)和幀間2種編碼模式.若某個(gè)圖像塊在相鄰幀間的變化量低于某個(gè)閾值,則采用傳統(tǒng)的幀間編碼進(jìn)行壓縮;否則,采用幀內(nèi)編碼進(jìn)行處理.在幀內(nèi)模式下,如果圖像塊包含的顏色數(shù)量小于某個(gè)自定義閾值,則將其作為文本圖形塊進(jìn)行無損壓縮;否則,對其采用有損方法編碼.并且,在有損編碼過程中,為了保證不同圖像塊具有相近的解碼質(zhì)量,若連續(xù)色調(diào)圖像塊內(nèi)相鄰像素差值的熵低于某個(gè)閾值,則認(rèn)為該塊包含一定的文本圖形內(nèi)容(類似于文獻(xiàn)[17]中的邊界塊),采用精細(xì)量化矩陣完成有損壓縮,否則采用低質(zhì)量量化矩陣進(jìn)行有損壓縮.由于采用了與文獻(xiàn)[17]相近的控制方法,該算法對部分邊界塊的文本邊緣保持得亦有不足.

      Fig. 15 General framework of SPEC algorithm[9]圖15 SPEC算法的總體框架[9]

      文獻(xiàn)[9]同樣也采用了顏色數(shù)量來區(qū)別連續(xù)色調(diào)圖像塊和不連續(xù)色調(diào)圖像塊.對于不連續(xù)色調(diào)圖像塊,文獻(xiàn)[9]采用了基于形狀表示或基于調(diào)色板-索引圖的編碼+LZW(Lempel-Ziv-Welch)編碼,并通過基于率失真約束的優(yōu)化算法在兩者之間自適應(yīng)選取.對于連續(xù)色調(diào)圖像塊,首先提取出其中的不連續(xù)色調(diào)像素并采用基于形狀表示的方法進(jìn)行編碼,然后用周圍像素的平均值填充這些像素得到較為平滑的圖像塊,再用JPEG進(jìn)行編碼(詳細(xì)流程見圖15).該算法對不連續(xù)色調(diào)圖像塊的壓縮效果較好,但處理包含大量孤立不連續(xù)色調(diào)像素的混合圖像塊時(shí)則會由于邊信息過多影響編碼效率,編碼復(fù)雜度也較高.

      由上述的3種編碼框架可見,將圖像簡單地分為不連續(xù)色調(diào)像素塊和連續(xù)色調(diào)像素塊后,雖然編碼過程較為便捷,可是對那些同時(shí)包含不連續(xù)色調(diào)像素和連續(xù)色調(diào)類型像素的混合塊,其編碼效率則不令人滿意.為解決這一不足,文獻(xiàn)[72]利用梯度-直方圖分布特性對圖像塊進(jìn)行了更加細(xì)致的類型劃分,分別是平滑圖像塊、不連續(xù)色調(diào)圖像塊、混合圖像塊和連續(xù)色調(diào)圖像塊.如圖16所示,首先將待分類塊內(nèi)的每個(gè)像素劃分為低梯度像素、中梯度像素和高梯度像素,然后分析其灰度直方圖,若該塊含有大量中梯度像素,則歸為連續(xù)色調(diào)圖像塊;若該塊含有大量低梯度像素且直方圖僅有1個(gè)主要峰值,則歸為平滑圖像塊;若該塊包含大量高梯度像素并且直方圖有若干主要峰值,則歸為不連續(xù)色調(diào)圖像塊;若該塊包含大量高梯度像素且直方圖無明顯多峰,則歸為混合圖像塊.其中,連續(xù)色調(diào)圖像塊采用JPEG進(jìn)行編碼;平滑圖像塊采用標(biāo)量量化和算術(shù)編碼實(shí)現(xiàn)壓縮;不連續(xù)色調(diào)圖像塊采用調(diào)色板-索引圖方法完成編碼;混合圖像塊則利用1級Haar小波和算術(shù)編碼進(jìn)行處理.較之通過顏色數(shù)量來分類的方法,該算法的分類更加準(zhǔn)確,對混合塊的編碼效率和質(zhì)量更高,編碼復(fù)雜度也較為合理.

      Fig. 16 Flowchart of block classification of BFC algorithm[72]圖16 BFC算法的圖像塊分類流程圖[72]

      文獻(xiàn)[16]也采用了基于像素梯度和顏色直方圖的思路將像素塊劃分為文本塊和連續(xù)色調(diào)塊,不同之處在于,文獻(xiàn)[16]分別采用PNG和JPEG形成2個(gè)獨(dú)立碼流:PNG碼流包含所有文本塊信息,圖像塊用同一顏色填充;而JPEG碼流則包含所有圖像塊數(shù)據(jù),文本塊用同一顏色填充.由于PNG支持透明區(qū)域,在解碼端重構(gòu)出2個(gè)碼流后,只需將PNG圖像覆蓋至JPEG圖像之上,并使PNG中對應(yīng)連續(xù)色調(diào)塊的位置具有透明效果即可構(gòu)成混合圖像.該編碼方法巧妙地利用了PNG算法,使得編碼器能很好地與瀏覽器兼容,而且其復(fù)雜度也低于文獻(xiàn)[72].后來,其作者在文獻(xiàn)[24]中對文獻(xiàn)[18]的文本塊編碼算法進(jìn)行了改進(jìn),提出了一種2級層次預(yù)測的調(diào)色板-索引圖編碼(詳見2.1.3節(jié))部分),不僅計(jì)算復(fù)雜度較之文獻(xiàn)[18]降低了約96%,解碼幀的峰值信噪比也平均提高了1 dB左右.

      與上述算法均不同,文獻(xiàn)[44-45]認(rèn)為采用簡單的塊分類算法并不能保證所有像素塊都能得到最恰當(dāng)?shù)奶幚?,故該文不再對像素塊進(jìn)行分類,而是利用率失真準(zhǔn)則在基于字典的編碼gzip和H.264幀內(nèi)編碼算法中擇優(yōu)選取效率較高的方法完成壓縮.由于能夠取得最優(yōu)的率失真性能,其后出現(xiàn)的大多數(shù)屏幕內(nèi)容編碼器(如文獻(xiàn)[8,14,48]等)均采用了這種辦法動(dòng)態(tài)決定編碼模式.雖然該算法獲得了較好的壓縮性能,但編碼復(fù)雜度較高,尚需進(jìn)一步簡化其編碼模式的選取.

      5.3 HEVC-SCC編碼國際標(biāo)準(zhǔn)進(jìn)展

      基于塊的混合編碼框架已被JCT-VC制定的HEVC-SCC草案所采納,本節(jié)簡要介紹標(biāo)準(zhǔn)的主要進(jìn)展,其詳細(xì)情況可參見文獻(xiàn)[14].

      HEVC-SCC標(biāo)準(zhǔn)的制定開始于2014年,JCT-VC公開征集屏幕內(nèi)容編碼方案[73],并于同年公布了第1版和第2版草案[74],至今已經(jīng)發(fā)布第6版草案[75].該草案在最新一代視頻編碼標(biāo)準(zhǔn)HEVC[76]及其擴(kuò)展標(biāo)準(zhǔn)HEVC-RExt[77]的基礎(chǔ)上,引進(jìn)了幀內(nèi)塊拷貝、調(diào)色板編碼、自適應(yīng)色彩空間變換、自適應(yīng)運(yùn)動(dòng)向量分辨率等多項(xiàng)新技術(shù)(本文第2~4節(jié)已經(jīng)詳細(xì)闡述這些方法的主要思想),并陸續(xù)發(fā)布了SCM-1.0至SCM-8.3等若干版本的校驗(yàn)?zāi)P蛙浖涿總€(gè)版本的改進(jìn)情況可詳見文獻(xiàn)[78].根據(jù)2016年2月公布的一項(xiàng)對比實(shí)驗(yàn)結(jié)果顯示,SCM-6.0針對屏幕內(nèi)容的壓縮效率較之AVC高4∶4∶4類校驗(yàn)?zāi)P蚃M-19.0平均高出81%以上[79],表明HEVC-SCC達(dá)到了較高的編碼性能.2017年,HEVC-SCC已作為擴(kuò)展內(nèi)容正式加入到HEVC標(biāo)準(zhǔn)中,但距離成為國際標(biāo)準(zhǔn)還需進(jìn)一步的工作.

      6 屏幕內(nèi)容編碼研究展望

      目前,屏幕內(nèi)容編碼方興未艾,是圖像和視頻編碼領(lǐng)域的熱點(diǎn)研究領(lǐng)域之一,其基本方法和技術(shù)雖然日臻完善,但尚未完備,許多問題還處于不斷探索中.鑒于此,我們認(rèn)為未來屏幕內(nèi)容編碼將有望在以下3個(gè)方面取得進(jìn)展:

      1) 建立多種編碼方法的標(biāo)準(zhǔn)框架及其快速?zèng)Q策方案

      由于屏幕內(nèi)容的統(tǒng)計(jì)多樣性,混合編碼方案的有效性已經(jīng)為研究人員所認(rèn)可,但是其混合編碼框架尚未統(tǒng)一.基于塊分類的混合編碼受制于分類的精確性,基于率失真決策的編碼方法則又具有較高的復(fù)雜度.而由于屏幕內(nèi)容編碼主要面向?qū)崟r(shí)性要求較高的應(yīng)用場合,編碼模式的快速?zèng)Q策就顯得格外重要.故此,兼顧編碼效率和計(jì)算復(fù)雜度的自適應(yīng)混合編碼統(tǒng)一構(gòu)架需要深入研究和解決.

      2) 建模屏幕內(nèi)容的空頻域統(tǒng)計(jì)規(guī)律

      眾所周知,自然圖像和視頻編碼效率的不斷提高應(yīng)歸功于人們對其空間域和頻率域統(tǒng)計(jì)規(guī)律,尤其是頻率域統(tǒng)計(jì)規(guī)律認(rèn)知程度的逐漸深入.然而,現(xiàn)有文獻(xiàn)(如文獻(xiàn)[8,11-13,80]等)對屏幕內(nèi)容數(shù)據(jù)分布規(guī)律的研究尚不夠深入,相關(guān)報(bào)道也較少.而且,目前幾乎所有編碼算法都僅利用了屏幕內(nèi)容圖像的空間域相關(guān)性,包括局部相關(guān)性、非局部相關(guān)性和局部方向相關(guān)性[81],其編碼效率仍有很大的提升空間.若能找到一種有效的數(shù)學(xué)變換及其可資利用的系數(shù)分布規(guī)律,則有望進(jìn)一步改善屏幕內(nèi)容的壓縮比.

      3) 探索新型圖像質(zhì)量評價(jià)方法和編碼方法

      現(xiàn)有編碼框架的率失真模型大多追求信號意義下的保真度,而峰值信噪比和均方誤差等函數(shù)并不能很好地度量解碼圖像的人眼主觀質(zhì)量.關(guān)于結(jié)構(gòu)相似度(structural similarity, SSIM)指標(biāo)的研究表明[82],人眼視覺系統(tǒng)(human vision system, HVS)對于圖像中的結(jié)構(gòu)差異較之亮度差異更加敏感.故此,合理利用HVS的特點(diǎn),建立符合人眼主觀評價(jià)的屏幕圖像質(zhì)量評價(jià)方法可在保持主觀解碼質(zhì)量的前提下有效提高其編碼效率[83-85].另外,目前所提出的基于調(diào)色板-索引圖的編碼、基于模板匹配的編碼、基于塊匹配的編碼和基于字典的編碼等方法大多是在對屏幕內(nèi)容數(shù)據(jù)特點(diǎn)的初步認(rèn)識基礎(chǔ)上,受啟發(fā)自經(jīng)典的編碼技術(shù).相信新型圖像質(zhì)量評價(jià)方法(如文獻(xiàn)[83-85])和更準(zhǔn)確的空頻域統(tǒng)計(jì)能為屏幕內(nèi)容編碼指明一個(gè)改進(jìn)方向,乃至促進(jìn)屏幕內(nèi)容編碼新思路的涌現(xiàn).

      7 結(jié)束語

      云計(jì)算時(shí)代下,屏幕內(nèi)容的快速編碼和傳輸?shù)玫搅藢W(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.本文重點(diǎn)闡述了屏幕內(nèi)容編碼方法的研究進(jìn)展:首先,從屏幕內(nèi)容圖像的數(shù)據(jù)統(tǒng)計(jì)特性切入,以屏幕內(nèi)容編碼方法的演進(jìn)為主線,將現(xiàn)有方法分為基于調(diào)色板-索引圖的編碼算法、基于模板匹配的編碼算法、基于塊匹配的編碼算法、基于字典的編碼算法、基于形狀表示的編碼算法、時(shí)間域編碼方法和色度分量編碼方法7類.一方面,經(jīng)過對各類方法發(fā)展脈絡(luò)及其基本思想的詳細(xì)梳理和比較,本文討論了不同算法的優(yōu)勢、不足和適用范圍;另一方面,發(fā)現(xiàn)目前屏幕內(nèi)容的混合編碼框架尚不成熟,屏幕內(nèi)容的空頻域統(tǒng)計(jì)規(guī)律需進(jìn)一步明確,而且仍待發(fā)掘新型圖像質(zhì)量評價(jià)方法及其適用的編碼方法.據(jù)此,對屏幕內(nèi)容編碼方法的未來發(fā)展進(jìn)行了展望.

      [1]de Queiroz R L, Buckley R R, Xu Ming. Mixed raster content (MRC) model for compound image compression[C]Proc of SPIE VCIP’99. Bellingham, WA: SPIE, 1999: 1106-1117

      [2]Lu Yan, Li Shipeng, Shen Huifeng. Virtualized screen: A third element for cloud-mobile convergence[J]. IEEE Multimedia, 2011, 18(2): 4-11

      [3]JCT-VC. Use cases and requirements for lossless and screen content coding, JCTVC-M0172[R]. Geneva, Switzerland: ITU-T, 2013

      [4]Konstantinide K, Tretter D. A method for variable quantization in JPEG for improved text quality in compound documents[C]Proc of IEEE ICIP’98. Piscataway, NJ: IEEE, 1998: 565-568

      [5]Konstantinide K, Tretter D. A JPEG variable quantization method for compound documents[J]. IEEE Trans on Image Processing, 2000, 9(7): 1282-1287

      [6]Ramos M, de Queiroz R. Classified JPEG coding of mixed documents[J]. IEEE Trans on Image Processing, 2000, 9(4): 716-720

      [7]Zaghetto A, de Queiroz R L. Segmentation-driven compound document coding based on H. 264AVC-intra[J]. IEEE Trans on Image Processing, 2007, 16(7): 1755-1760

      [8]Lan Cuiling, Shi Guangming, Wu Feng. Compress compound images in H. 264MPGE-4 AVC by exploiting spatial correlation[J]. IEEE Trans on Image Processing, 2010, 19(4): 946-957

      [9]Lin Tao, Hao Pengwei. Compound image compression for real-time computer screen image transmission[J]. IEEE Trans on Image Processing, 2005, 14(8): 993-1005

      [10]Peng W H, Xu Jizheng, Ostermann J, et al. Call for papers: Screen content video coding and applications[EBOL]. [2016-08-15]. http:jetcas.polito.itCFP-Screen_Content_Video_Coding_and_Applications.pdf

      [11]Ding Wenpeng, Lu Yan, Wu Feng. Enable efficient compound image compression in H. 264AVC intra coding[C]Proc of IEEE ICIP’07. Piscataway, NJ: IEEE, 2007: II-337-II-340

      [12]Ma Zhan, Wang Wei, Xu Meng, et al. Advanced screen content coding using color table and index map[J]. IEEE Trans on Image Processing, 2014, 23(10): 4399-4412

      [13]Mrak M, Grgic S, Grgic M. Picture quality measures in compression systems[C]Proc of IEEE EUROCON’03. Piscataway, NJ: IEEE, 2003: 233-236

      [14]Xu Jizheng, Joshi R, Cohen R A. Overview of the emerging HEVC screen content coding extension[J]. IEEE Trans on Circuits Systems for Video Technology, 2016, 26(1): 50-62

      [15]Wang Shiqi, Zhang Xinfeng, Liu Xianming, et al. Utility-driven adaptive preprocessing for screen content video compression[J]. IEEE Trans on Multimedia, 2017, 19(3): 660-667

      [16]Lin Tao, Zhang Peijun, Wang Shuhui, et al. Mixed chroma sampling-rate high efficiency video coding for full-chroma screen content[J]. IEEE Trans on Circuits Systems for Video Technology, 2013, 23(1): 173-185

      [17]Said A, Drukarev A. Simplified segmentation for compound image compression[C]Proc of IEEE ICIP’99. Piscataway, NJ: IEEE, 1999: 229-233

      [18]Pan Zhaotai, Shen Huifeng, Lu Yan, et al. Browser-friendly hybrid codec for compound image compression[C]Proc of IEEE ISCAS’11. Piscataway, NJ: IEEE, 2011: 101-104

      [19]Zhu Weijia, Ding Wenpeng, Xiong Ruiqin. Compound image compression by multi-stage prediction[C]Proc of VCIP’12. Piscataway, NJ: IEEE, 2012: 1-6

      [20]JCT-VC. Screen content coding with multi-stage base color and index map representation, JCTVC-M0330[R]. Geneva, Switzerland: ITU-T, 2013

      [21]JCT-VC. Palette mode for screen content coding, JCTVC-M0323[R]. Geneva, Switzerland: ITU-T, 2013

      [22]JCT-VC. AHG10: Simplification of palette based coding, JCTVC-Q0047[R]. Geneva, Switzerland: ITU-T, 2014

      [23]JCT-VC. Non-RCE3: Modified palette mode for screen content coding, JCTVC-N0249[R]. Geneva, Switzerland: ITU-T, 2013

      [24]Pan Zhaotai, Shen Huifeng, Lu Yan, et al. A low-complexity screen compression scheme for interactive screen sharing[J]. IEEE Trans on Circuits and Systems for Video Technology, 2013, 23(6): 949-960

      [25]Zhu Wenjing, Au O C, Dai Wei, et al. Palette-based compound image compression in HEVC by exploiting non-local spatial correlation[C]Proc of IEEE ICASSP’14. Piscataway, NJ: IEEE, 2014: 7348-7352

      [26]JCT-VC. Screen content coding test model 2 encoder description (SCM 2), JCTVC-R1014[R]. Geneva, Switzerland: ITU-T, 2014

      [27]Zeng Wenjun, Li Jin, Lei Shawmin. An efficient color re-indexing scheme for palette-based compression[C]Proc of IEEE ICIP’00. Piscataway, NJ: IEEE, 2000: 476-479

      [28]Shen Huifeng, Lu Yan, Wu Feng, et al. Low-cost realtime screen sharing to multiple clients[C]Proc of IEEE ICME’10. Piscataway, NJ: IEEE, 2010: 980-985

      [29]Zhu Weijia, Ding Wenpeng, Xu Jizheng, et al. Screen content coding based on HEVC framework[J]. IEEE Trans on Multimedia, 2014, 16(5): 1316-1326

      [30]Xiu Xiaoyu, He Yuwen, Joshi R, et al. Palette-based coding in the screen content coding extension of the HEVC standard[C]Proc of IEEE DCC’15. Piscataway, NJ: IEEE, 2015: 253-262

      [31]Cherigui S, Guillemot C, Thoreau D, et al. Correspondence map-aided neighbor embedding for image intra prediction[J]. IEEE Trans on Image Processing, 2013, 22(3): 1161-1174

      [32]Xu Yiling, Huang Wei, Wang Wei, et al. 2-D index map coding for HEVC screen content compression[C]Proc of IEEE DCC’15. Piscataway, NJ: IEEE, 2015: 263-272

      [33]Shen Huifeng, Lu Yan, Wu Feng, et al. Low-cost realtime screen sharing to multiple clients[C]Proc of IEEE ICME’10. Piscataway, NJ: IEEE, 2010: 980-985

      [34]Tan T K, Boon C S, Suzuki Y. Intra prediction by template matching[C]Proc of IEEE ICIP’06. Piscataway, NJ: IEEE, 2006: 1693-1696

      [35]Tan T K, Boon C S, Suzuki Y. Intra prediction by averaged template matching predictors[C]Proc of IEEE CCNC’07. Piscataway, NJ: IEEE, 2007: 405-409

      [36]Tao Pin, Feng Lixin, Song Sichao, et al. Improvement of re-sample template matching for lossless screen content video[C]Proc of IEEE ICME’05. Piscataway, NJ: IEEE, 2015: 1-6

      [37]Wang Zheng, Tao Pin, Feng Lixin, et al. Palette improvement for template matching intra coding[C]Proc of CCF HHME’15. Beijing: China Machine Press, 2015: 186-192 (in Chinese)(王正, 陶品, 馮立新, 等. 基于模板匹配的調(diào)色板方法[C]第11屆全國和諧人機(jī)環(huán)境聯(lián)合會議論文集. 北京: 機(jī)械工業(yè)出版社, 2015: 186-192)

      [38]Wang Zheng, Tao Pin, Feng Lixin, et al. Palette improvement for template matching intra coding[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(7): 1146-1151 (in Chinese)(王正, 陶品, 馮立新, 等. 基于模板匹配的調(diào)色板方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2016, 28(7): 1146-1151)

      [39]Feng Lixin, Tao Pin, Wen Jiangtao, et al. Lossless intra coding on whole frame for screen content video based on template matching[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(7): 1353-1358 (in Chinese)(馮立新, 陶品, 溫江濤, 等. 基于模板匹配整幀屏幕視頻幀內(nèi)無損編碼方法[J]. 北京航空航天大學(xué)學(xué)報(bào), 2015, 41(7): 1353-1358)

      [40]JCT-VC. New intra prediction using intra-macroblock motion compensation, JVT-C151[R]. Geneva, Switzerland: ITU-T, 2002

      [41]Zhu Weijia, Ding Wenpeng, Xu Jizheng, et al. Hash-based block matching for screen content coding[J]. IEEE Trans on Multimedia, 2015, 17(7): 935-944

      [42]Chen Chunchi, Xu Xiaozhong, Liao Ruling, et al. Screen content coding using non-square intra block copy for HEVC[C]Proc of IEEE ICME’14. Piscataway, NJ: IEEE, 2014: 1-6

      [43]Zhao Liping, Lin Tao, Gong Xunwei, et al. Intra mini-block copy algorithm for screen content coding[J]. Journal of Computer Applications, 2016, 26(7): 1938-1943, 1980 (in Chinese)(趙利平, 林濤, 龔迅煒, 等. 幀內(nèi)微塊復(fù)制的屏幕圖像編碼算法[J]. 計(jì)算機(jī)應(yīng)用, 2016, 26(7): 1938-1943, 1980)

      [44]Wang Shuhui, Lin Tao. A unified LZ and hybrid coding for compound image partial-lossless compression[C]Proc of CISP’09. Piscataway, NJ: IEEE, 2009: 1-5

      [45]Wang Shuhui, Lin Tao. Compound image compression based on unified LZ and hybrid coding[J]. IET Image Processing, 2013, 7(5): 484-499

      [46]JCT-VC. AHG7: Full-chroma (YUV444) dictionary+hybrid dual-coder extension of HEVC, JCTVC-K0133[R]. Geneva, Switzerland: ITU-T, 2012

      [47]JCT-VC. Improvements on 1D dictionary coding, JCTVC-Q0124[R]. Geneva, Switzerland: ITU-T, 2014

      [48]Chen Xianyi, Zhao Liping, Lin Tao. A new HEVC intra mode for screen content coding[J]. Journal of Electronics & Information Technology, 2015, 37(11): 2685-2690 (in Chinese)(陳先義, 趙利平, 林濤. 一種新的用于屏幕圖像編碼的HEVC 幀內(nèi)模式[J]. 電子與信息學(xué)報(bào), 2015, 37(11): 2685-2690)

      [49]Li Bin, Xu Jizheng, Wu Feng. 1-D dictionary mode for screen content coding[C]Proc of IEEE VCIP’14. Piscataway, NJ: IEEE, 2014: 189-192

      [50]Jin Xiaojuan, Zhang Peijun, Lin Tao. Optimization algorithm on hash table based on HEVC screen content coding[J]. Computer Engineering and Applications, 2014, 50(17): 155-159 (in Chinese)(金小娟, 張培君, 林濤. 基于HEVC屏幕圖像編碼的哈希表的優(yōu)化算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2014, 50(17): 155-159)

      [51]Zhang Peijun, Jin Xiaojuan, Wang Shuhui, et al. Screen content coding of combining full-chroma HEVC and lossy matching dictionary coder[J]. Computer Science, 2014, 41(3): 286-292 (in Chinese)(張培君, 金小娟, 王淑慧, 等. 結(jié)合全色度HEVC和有損字典算法的屏幕圖像編碼[J]. 計(jì)算機(jī)科學(xué), 2014, 41(3): 286-292)

      [52]Zhu Weijia, Ding Wenpeng, Xu Jizheng, et al. 2-D dictionary based video coding for screen contents[C]Proc of IEEE DCC’14. Piscataway, NJ: IEEE, 2014: 43-52

      [53]JCT-VC. Screen content coding using 2-D dictionary mode, JCTVC-O0357[R]. Geneva, Switzerland: ITU-T, 2013

      [54]Chen Xianyi, Zhao Liping, Chen Zhizhong, et al. 2D intra string copy for screen content coding[J]. Journal of Computer Applications, 2015, 35(9): 2640-2647, 2677 (in Chinese)(陳先義, 趙利平, 陳治中, 等. 二維幀內(nèi)串匹配屏幕圖像編碼算法[J]. 計(jì)算機(jī)應(yīng)用, 2015, 35(9): 2640-2647, 2677)

      [55]Zou Feng, Chen Ying, Karczewicz M, et al. Hash based intra string copy for HEVC based screen content coding[C]Proc of IEEE ICMEW’15. Piscataway, NJ: IEEE, 2015: 1-4

      [56]Zhao Liping, Lin Tao, Zhou Kailun. An efficient ISC offset parameter coding algorithm in screen content coding[JOL]. Chinese Journal of Computers, 2016 [2016-12-07]. http:www.cnki.netkcmsdetail11.1826.tp.20160328.1604.002.html (in Chinese)(趙利平, 林濤, 周開倫. 屏幕圖像壓縮中串復(fù)制位移參數(shù)的高效編碼算法[JOL]. 計(jì)算機(jī)學(xué)報(bào), 2016 [2016-12-07]. http:www.cnki.netkcmsdetail11.1826.tp.20160328.1604.002.html

      [57]Sanchez V. Sample-based edge prediction based on gradients for lossless screen content coding in HEVC[C]Proc of PCS’15. Piscataway, NJ: IEEE, 2015: 134-138

      [58]Sanchez V. Lossless screen content coding in HEVC based on sample-wise median and edge prediction[C]Proc of IEEE ICIP’15. Piscataway, NJ: IEEE, 2015: 4604-4608

      [59]JCT-VC. Motion vector resolution control for screen content coding, JCTVC-P0277[R]. Geneva, Switzerland: ITU-T, 2014

      [60]JCT-VC. Adaptive motion vector resolution for screen content, JCTVC-S0085_r1[R]. Geneva, Switzerland: ITU-T, 2014

      [61]Purnachand N, Alves L N, Navarro A. Improvements to TZ search motion estimation algorithm for multiview video coding[C]Proc of IEEE IWSSIP’12. Piscataway, NJ: IEEE, 2012: 388-391

      [62]Sun Ting, Wan Pengfei, Au O C, et al. Fast binary motion estimation for screen content video coding[C]Proc of IEEE APSIPA’14. Piscataway, NJ: IEEE, 2014: 1-5

      [63]Duvar R, Urhan O. Performance evaluation of low bit-dept based motion estimation approaches on screen content video[C]Proc of IEEE Signal Processing and Communication Application Conf (SIU). Piscataway, NJ: IEEE, 2016: 2141-2144

      [64]?elebi A, Akbulut O, Urhan O, et al. Truncated gray-coded bit-plane matching based motion estimation and its hardware architecture[J]. IEEE Trans on Consumer Electronics, 2009, 55(3): 1530-1536

      [65]Zhao Liping, Lin Tao, Zhou Kailun, et al. Pseudo 2D string matching technique for high efficiency screen content coding[J]. IEEE Trans on Multimedia, 2016, 18(3): 339-350

      [66]Marpe D, Kirchhoffer H, George V, et al. Macroblock-adaptive residual color space transforms for 4∶4∶4 video coding[C]Proc of IEEE ICIP’06. Piscataway, NJ: IEEE, 2006: 3157-3160

      [67]Zhang Peijun, Wang Shuhui, Zhou Kailun, et al. Screen content coding by combined full-chroma LZMA and subsampled-chroma HEVC[J]. Journal of Electronics & Information Technology, 2013, 35(1): 196-202 (in Chinese)(張培君, 王淑慧, 周開倫, 等. 融合全色度LZMA 與色度子采樣HEVC 的屏幕圖像編碼[J]. 電子與信息學(xué)報(bào), 2013, 35(1): 196-202)

      [68]Zhang Xingyu, Gisquet C, Francois E, et al. Chroma intra prediction based on inter-channel correlation for HEVC[J]. IEEE Trans on Image Processing, 2014, 23(1): 274-286

      [69]ITU-T. Recommendation T.44 Mixed raster content (MRC)[S]. Geneva, Switzerland: ITU-T, 1999

      [70]Haffner P, Bottou L, Howard P G, et al. High quality document image compression with DjVu[J]. Journal of Electronic Imaging, 1998, 7(3): 410-425

      [71]Said A. Compression of compound images and video for enabling rich media in embedded systems[C]Proc of SPIE VCIP’04. Bellingham, WA: SPIE, 2004: 69-82

      [72]Ding Wenpeng, Liu Dong, He Yuwen, et al. Block-based fast compression for compound images[C]Proc of IEEE ICME’06. Piscataway, NJ: IEEE, 2006: 809-812

      [73]JCT-VC. Joint call for proposals for coding of screen content, MPEG2014N14175[R]. Geneva, Switzerland: ITU-T, 2014

      [74]JCT-VC. HEVC screen content coding draft text 2, JCTVC-S1005[R]. Geneva, Switzerland: ITU-T, 2014

      [75]JCT-VC. HEVC screen content coding draft text 6, JCTVC-W1005[R]. Geneva, Switzerland: ITU-T, 2016

      [76]Sullivan G J, Ohm J, Han W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Trans on Circuits Systems for Video Technology, 2012, 22(12): 1649-1668

      [77]JCT-VC. Edition 2 draft text of high efficiency video coding (HEVC), including format range (RExt), scalability (SHVC), and multi-view (MV-HEVC) extensions, JCTVC-R1013[R]. Geneva, Switzerland: ITU-T, 2014

      [78]JCT-VC. HEVC screen content coding test model 7 (SCM 7), JCTVC-W1014[R]. Geneva, Switzerland: ITU-T, 2016

      [79]JCT-VC. JCT-VC AHG report: SCC coding performance analysis (AHG6), JCTVC-W0006[R]. Geneva, Switzerland: ITU-T, 2016

      [80]Chen Cheng, Han Jingning, Xu Yaowu, et al. A staircase transform coding scheme for screen content video coding[C]Proc of IEEE ICIP’16. Piscataway, NJ: IEEE, 2016: 2365-2369

      [81]Chen Guisheng, Song Chuanming, Wang Xianghai, et al. Fast prediction algorithm of index maps for screen image coding[J]. Journal of Image and Graphics, 2016, 21(9): 1127-1137 (in Chinese)(陳規(guī)勝, 宋傳鳴, 王相海, 等. 用于屏幕圖像編碼的索引圖快速預(yù)測算法[J]. 中國圖象圖形學(xué)報(bào), 2016, 21(9): 1127-1137)

      [82]Wang Zhou, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Trans on Image Processing, 2004, 13(4): 600-612

      [83]Gu Ke, Wang Shiqi, Yang Huan, et al. Saliency-guided quality assessment of screen content images[J]. IEEE Trans on Multimedia, 2016, 18(6): 1098-1110

      [84]Wang Shiqi, Ma Lin, Fang Yuming, et al. Just noticeable difference estimation for screen content images[J]. IEEE Trans on Image Processing, 2016, 25(8): 3838-3851

      [85]Ni Zhangkai, Ma Lin, Zeng Huanqiang, et al. Gradient direction for screen content image quality assessment[J]. IEEE Signal Processing Letters, 2016, 23(10): 1394-1398

      Liu Dan, born in 1981. Lecturer of the School of Computer and Information Technology of Liaoning Normal University. PhD candidate in communication engineering at the School of Information and Communi-cation Engineering of Dalian University of Technology. Her main research interests include image & video coding, and computer vision.

      Chen Guisheng, born in 1985. PhD candidate in computer applied technology from Jilin University. His main research interests include screen content video coding (cgs-10@163.com).

      Song Chuanming, born in 1980. Associate professor of the School of Computer and Information Technology of Liaoning Normal University. Received his PhD degree at the Department of Computer Science & Tech-nology of Nanjing University. Member of CCF. His main research interests include image and video coding, and digital watermarking of multimedia.

      He Xing, born in 1990. Master in educational technology of the School of Computer and Information Technology of Liaoning Normal University. His main research interests include educational video coding.

      Wang Xianghai, born 1965. Professor and PhD supervisor of the School of Computer and Information Technology of Liaoning Normal University. Senior member of CCF. His main research interests include computer graphics and multimedia information processing (xhwang@lnnu.edu.cn).

      Research Advances in Screen Content Coding Methods

      Liu Dan1,2, Chen Guisheng1,3, Song Chuanming1,2, He Xing1, and Wang Xianghai1

      1(SchoolofComputerandInformationTechnology,LiaoningNormalUniversity,Dalian,Liaoning116029)2(FacultyofElectronicInformationandElectricalEngineering,DalianUniversityofTechnology,Dalian,Liaoning116024)3(CollegeofComputerScienceandTechnology,JilinUniversity,Changchun130012)

      With the widespread promotion of the applications such as cloud computing, virtual desktop, and so on, screen content image has become an integral part of the new generation of cloud—mobile computing model. It is one of the hot issues of video coding field to investigate the screen content coding methods with high compression efficiency, good real-time performance, and moderate computational complexity. On introducing the statistical characteristics of screen content image presented in the spatial domain, the frequency domain, the temporal domain, as well as the color space respectively, this study focuses on typical coding methods of the discontinuous tone images. The state-of-art methods are classified into seven categories, namely the palette-index map based methods, the template matching based methods, the block matching based methods, the dictionary-based methods, the shape representation based methods, the temporal-domain coding methods, as well as the chroma component coding methods. Then the screen content coding methods using a hybrid framework is further summarized. Meanwhile, the advantages vs. disadvantages of various methods are also compared, analyzed and discussed. Based on the above, the progress of drafting the international HEVC-SCC coding standard is introduced, and the development trend of the screen content coding is forecast in the near future.

      video coding; image coding; screen content; screen image; compound image; survey

      2016-08-22

      2017-02-07

      國家自然科學(xué)基金項(xiàng)目(61402214,41271422);教育部高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金項(xiàng)目(20132136110002);遼寧省教育廳科學(xué)研究一般項(xiàng)目(L201683681);大連市青年科技之星項(xiàng)目支持計(jì)劃項(xiàng)目(2015R069,2016RQ046) This work was supported by the National Natural Science Foundation of China (61402214, 41271422), the Specialized Research Fund for the Doctoral Program of Higher Education of China (20132136110002), the Foundation of Science and Research for Higher Education of Liaoning Province (L201683681), and the Dalian Foundation for Youth Science and Technology Star (2015R069, 2016RQ046).

      宋傳鳴(chmsong@lnnu.edu.cn)

      TN911.73; TP37

      猜你喜歡
      編碼方法調(diào)色板像素
      趙運(yùn)哲作品
      藝術(shù)家(2023年8期)2023-11-02 02:05:28
      大自然的調(diào)色板——張掖七彩丹霞
      中老年保健(2022年3期)2022-08-24 03:00:46
      像素前線之“幻影”2000
      Film review:WALL·E
      可變摩擦力觸感移動(dòng)終端的漢語盲文編碼設(shè)計(jì)
      大地調(diào)色板
      “像素”仙人掌
      毫米波大規(guī)模MIMO系統(tǒng)中低復(fù)雜度混合預(yù)編碼方法
      調(diào)色板
      高像素不是全部
      CHIP新電腦(2016年3期)2016-03-10 14:22:03
      镇赉县| 资中县| 拜城县| 阿荣旗| 那曲县| 营口市| 兴安盟| 兴仁县| 瑞昌市| 长宁县| 新营市| 方城县| 昭平县| 略阳县| 斗六市| 理塘县| 黑水县| 呼伦贝尔市| 洪湖市| 山东省| 若尔盖县| 镇江市| 岚皋县| 西贡区| 阿坝县| 仙游县| 伊金霍洛旗| 张家港市| 铁岭县| 涟源市| 闽侯县| 澳门| 云龙县| 神池县| 大名县| 永仁县| 安平县| 吴堡县| 麻栗坡县| 宁津县| 宁明县|