• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CNN的QTBT劃分模式快速預(yù)測(cè)研究

      2020-06-03 17:21:07吳海燕金智鵬
      科技視界 2020年12期

      吳海燕 金智鵬

      摘 要為了降低編碼復(fù)雜度,提升編碼速度,快速編碼算法成為當(dāng)下研究熱點(diǎn),以此為背景提出基于CNN的編碼單元快速選擇算法框架,將QTBT編碼單元選擇問(wèn)題轉(zhuǎn)化為多分類(lèi)問(wèn)題,直接從編碼單元中學(xué)習(xí)和提取分類(lèi)特征,而不需要手動(dòng)去設(shè)計(jì)和提取特征;也不需要時(shí)域和空域的相關(guān)性信息,有助于提高幀內(nèi)編碼的并行運(yùn)算和獨(dú)立解碼性能。本方法還設(shè)計(jì)了一個(gè)目標(biāo)函數(shù),包括Hingeloss和類(lèi)別懲罰項(xiàng),能有效提高分類(lèi)準(zhǔn)確。

      關(guān)鍵詞快速編碼;分類(lèi)特征;幀內(nèi)編碼;目標(biāo)函數(shù)

      1 研究背景

      視頻編碼技術(shù)是有效存儲(chǔ)和傳輸多媒體信息的關(guān)鍵技術(shù)之一,是現(xiàn)代信息技術(shù)中不可或缺的重要組成部分。視頻編碼技術(shù)已有30多年的發(fā)展歷史,視頻編碼標(biāo)準(zhǔn)的發(fā)展歷程如圖1所示。當(dāng)前,視頻技術(shù)的發(fā)展趨勢(shì)之一是追求更高的分辨率和清晰度[1],以實(shí)現(xiàn)對(duì)自然景物更加真實(shí)、清晰的表征。例如,日本放送協(xié)會(huì)(NHK)一直致力于4K(3840×2160像素)甚至8K(7680×4320像素)超高清視頻節(jié)目的壓縮和傳輸技術(shù)研究。但是,超高分辨率帶來(lái)了視頻數(shù)據(jù)的急劇增加,使得視頻數(shù)據(jù)的儲(chǔ)存和傳輸變得十分困難[2]。當(dāng)前最新的視頻編碼國(guó)際標(biāo)準(zhǔn)HEVC主要面向高清(720P,1080i,1080P)視頻編碼[3],對(duì)于當(dāng)前超高清、高動(dòng)態(tài)范圍、360°VR等新興視頻編碼需求已經(jīng)有些力不從心。因此,下一代超高清視頻編碼技術(shù)的研究與標(biāo)準(zhǔn)制定已顯得十分迫切。

      為此,2015年10月,聯(lián)合視頻探索工作組(Joint Video Exploration Team,JVET)[4]在日內(nèi)瓦召開(kāi)了第一次會(huì)議,確定探索面向超高清視頻的編碼技術(shù)和下一代視頻編碼標(biāo)準(zhǔn)的制作工作;并成立了Ad Hoc小組,分領(lǐng)域搜集和審閱技術(shù)提案。JVET沿用了傳統(tǒng)的預(yù)測(cè)+變換的混合編碼框架[5],同時(shí)又創(chuàng)新性地引入了多項(xiàng)關(guān)鍵技術(shù),如:四叉樹(shù)+二叉樹(shù)(Quadtree plus binary tree,QTBT)編碼單元結(jié)構(gòu)65種幀內(nèi)角度預(yù)測(cè)模式,位置相關(guān)的幀內(nèi)預(yù)測(cè)組合(Position dependent intra prediction combination,PDPC),4抽頭插值濾波,交叉分量線性預(yù)測(cè)(Cross-component linear model,CCLM),改進(jìn)的環(huán)路濾波等,顯著提高了壓縮效率。

      圖2展示了JVET相對(duì)于HEVC的率失真性能和編碼復(fù)雜度對(duì)比情況。但是,當(dāng)前JVET的編碼效率距離BD-Rate降低50%的預(yù)期目標(biāo)還有較大差距,且當(dāng)前JVET編碼效率的提升是以極高的計(jì)算復(fù)雜度為代價(jià)的。因此,JVET工作組當(dāng)前的工作重點(diǎn)在于提高編碼質(zhì)量和降低編碼復(fù)雜度等兩大領(lǐng)域。

      編碼質(zhì)量和計(jì)算復(fù)雜度之間的平衡是視頻編碼領(lǐng)域的核心技術(shù)。本研究將借鑒當(dāng)前在計(jì)算視覺(jué)領(lǐng)域獲得廣泛成功的深度學(xué)習(xí)技術(shù),重點(diǎn)研究提高JVET幀內(nèi)預(yù)測(cè)編碼效率,具有重要的學(xué)術(shù)價(jià)值、應(yīng)用價(jià)值和社會(huì)效益。

      2 國(guó)內(nèi)外研究現(xiàn)狀

      從視頻編碼技術(shù)的發(fā)展歷程來(lái)看,如何在復(fù)雜度和時(shí)延受限的條件下,獲得最優(yōu)率失真性能,是視頻編碼技術(shù)的核心問(wèn)題。傳統(tǒng)的快速編碼研究主要是基于統(tǒng)計(jì)特征建模和基于機(jī)器學(xué)習(xí)特征分析的方法。例如,Shen等人探索了編碼單元的RD Cost與空間相鄰塊的相關(guān)性,據(jù)此跳過(guò)使用概率低的劃分模式的RD Cost計(jì)算。JVET-F0063提出跳過(guò)第二個(gè)BT子塊的RD Cost計(jì)算,如果父塊和第一個(gè)BT子塊的RD Cost符合特定的約束條件。Zhang等人依據(jù)編碼單元尺寸設(shè)計(jì)了三類(lèi)SVM分類(lèi)器,逐層判斷是否需要把編碼單元?jiǎng)澐譃樽訅K。實(shí)驗(yàn)顯示,這些算法都大幅降低了編碼復(fù)雜度且保持了較好的率失真性能。但是這些算法的性能都依賴于手工設(shè)計(jì)的特征,對(duì)于復(fù)雜情況的處理能力相對(duì)較弱。

      目前,基于深度學(xué)習(xí)的快速視頻編碼技術(shù)是快速編碼領(lǐng)域的新興研究方向之一。Liu等人首次將CNN引入到編碼模式快速判決算法中,提出了一種基于深度學(xué)習(xí)的端到端的快速編碼算法框架。該算法把每個(gè)編碼單元下采樣到統(tǒng)一尺寸的8*8矩陣,再送入CNN網(wǎng)絡(luò)進(jìn)行特征提取和分類(lèi)判決,以確定當(dāng)前編碼單元是否需要進(jìn)一步分割為子塊。但是由于下采樣和網(wǎng)絡(luò)較淺等原因,該算法的BD-Rate損失高達(dá)4.79%。Li等人則為各個(gè)尺寸的編碼單元都訓(xùn)練不同的CNN網(wǎng)絡(luò),各個(gè)QP下的網(wǎng)絡(luò)模型也分開(kāi)訓(xùn)練;再加上該算法采用了較深較寬的CNN網(wǎng)絡(luò),分類(lèi)準(zhǔn)確率有了提升,BD-Rate損失平均為2.12%。雖然該類(lèi)基于深度學(xué)習(xí)的算法為視頻快速編碼研究打開(kāi)新的視角,但是現(xiàn)有算法的應(yīng)用靈活性較差,尤其是率失真性能損失太大。

      3 基于CNN多分類(lèi)的幀內(nèi)編碼單元快速選擇方法研究

      JVET采用了許多新技術(shù)用以提高幀內(nèi)編碼質(zhì)量,其中影響最大的技術(shù)就是四叉樹(shù)+二叉樹(shù)(quad-tree plus binary-tree, QTBT)編碼單元?jiǎng)澐址椒?。相比于HEVC的HM16.9,JEM 5.0的幀內(nèi)編碼可以在同等質(zhì)量下降低20%的碼率。另一方面,編碼單元的QTBT結(jié)構(gòu)劃分導(dǎo)致了編碼復(fù)雜度的大幅增加,約增加523%[5]。因此,研究JVET的快速編碼算法,尤其是幀內(nèi)編碼單元快速選擇方法,是當(dāng)前的一個(gè)研究熱點(diǎn)。

      在各種基于學(xué)習(xí)的快速編碼算法中,分類(lèi)器的分類(lèi)準(zhǔn)確率和魯棒性對(duì)于編碼性能有非常大的影響。深度學(xué)習(xí)系統(tǒng)相比于以往的機(jī)器學(xué)習(xí)算法,可以實(shí)現(xiàn)端到端的學(xué)習(xí),無(wú)須再手動(dòng)設(shè)計(jì)和提取分類(lèi)特征。但是,深度學(xué)習(xí)系統(tǒng)的分類(lèi)準(zhǔn)確率受到分類(lèi)類(lèi)別、訓(xùn)練樣本、網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)寬度和深度、訓(xùn)練的目標(biāo)函數(shù)等因素的綜合影響。所以,需要根據(jù)編碼單元QTBT劃分結(jié)構(gòu)特性,從QTBT多分類(lèi)類(lèi)別設(shè)置、訓(xùn)練樣本提取、網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)函數(shù)優(yōu)化等方面,系統(tǒng)地研究基于CNN多分類(lèi)的幀內(nèi)編碼單元快速選擇算法。在基于CNN多分類(lèi)的幀內(nèi)編碼單元快速選擇方法研究中,我們將重點(diǎn)考慮解決以下幾個(gè)問(wèn)題:

      3.1 研究QTBT多分類(lèi)類(lèi)別設(shè)置及其對(duì)分類(lèi)性能的影響

      JVET的編碼單元采用四叉樹(shù)+二叉樹(shù)圖的QTBT劃分結(jié)構(gòu),如圖3所示。編碼單元的QTBT劃分結(jié)構(gòu)具有高度的靈活性和寬闊的尺寸跨度,再加之JVET有67幀內(nèi)預(yù)測(cè)模式,這給快速編碼算法的設(shè)計(jì)帶來(lái)了挑戰(zhàn)。

      本課題將QTBT劃分結(jié)構(gòu)優(yōu)化問(wèn)題建模為多分類(lèi)問(wèn)題,依據(jù)32×32塊中子塊的最大劃分深度設(shè)置分類(lèi)類(lèi)別,如公式(1)。

      鑒于JVET幀內(nèi)編碼中BT最大劃分尺寸為32×32像素[4],因此以32×32塊作為分類(lèi)基礎(chǔ),既可以覆蓋所有的BT劃分范圍,也可以直接擴(kuò)展以適應(yīng)更大尺寸的QT劃分。

      3.2 訓(xùn)練樣本的收集、制作、篩選,及其對(duì)分類(lèi)性能的影響

      本課題將通過(guò)默認(rèn)參數(shù)設(shè)置的JVET幀內(nèi)編碼來(lái)收集訓(xùn)練樣本。但是最佳QTBT劃分結(jié)構(gòu)是根據(jù)RD cost確定的,有些類(lèi)別之間的差異非常小,這給分類(lèi)訓(xùn)練帶了困擾,甚至導(dǎo)致訓(xùn)練失敗。鑒于此,本課題將研究確立分類(lèi)類(lèi)別之間的RD cost間隔及其對(duì)分類(lèi)性能的影響,摒棄RD cost差異非常小的樣本,如公式(2)。

      3.3 深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)探索,網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算復(fù)雜度和分類(lèi)性能、編碼性能的平衡

      視頻編碼領(lǐng)域,編碼單元的劃分結(jié)構(gòu)很大程度上受到量化參數(shù)QP的影響,它們之間呈現(xiàn)一種復(fù)雜的非線性關(guān)系?,F(xiàn)有的基于機(jī)器學(xué)習(xí)的快速分類(lèi)算法都是為不同的QP訓(xùn)練不同分類(lèi)器,這限制了該類(lèi)算法的實(shí)際應(yīng)用。

      本課題將構(gòu)建一種CNN網(wǎng)絡(luò),使其能提取圖像高層特征,并結(jié)合QP進(jìn)行非線性分類(lèi),網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)的前半部分是基于ResNets結(jié)構(gòu),主要功能是提取輸入圖像的高層特征用于后面的分類(lèi)工作。網(wǎng)絡(luò)的后半部分是基于MLP結(jié)構(gòu),主要功能是將QP與圖像高層特征的非線性融合,以實(shí)現(xiàn)多分類(lèi)預(yù)測(cè)。

      3.4 深度學(xué)習(xí)目標(biāo)函數(shù)的設(shè)計(jì),及其對(duì)分類(lèi)性能的影響

      現(xiàn)有的深度學(xué)習(xí)分類(lèi)器大多采用softmax算法結(jié)合cross-entropy損失函數(shù)來(lái)訓(xùn)練和優(yōu)化網(wǎng)絡(luò)參數(shù)。但是不同于Cifar、Imagenet等普通的自然物體分類(lèi),編碼單元QTBT劃分結(jié)構(gòu)的錯(cuò)誤分類(lèi)預(yù)測(cè)將導(dǎo)致嚴(yán)重的編碼率失真性能損失。

      本課題將為QTBT多分類(lèi)問(wèn)題設(shè)計(jì)一個(gè)帶有類(lèi)別懲罰項(xiàng)的目標(biāo)函數(shù),擬采用L2正則化的Hingeloss結(jié)合一個(gè)類(lèi)別懲罰項(xiàng)來(lái)優(yōu)化網(wǎng)絡(luò)訓(xùn)練,提高網(wǎng)絡(luò)分類(lèi)準(zhǔn)確。

      這里,‖H‖表示L2正則化的Hingeloss,用于探索QTBT類(lèi)別之間的最大分類(lèi)間隔;P表示錯(cuò)誤分類(lèi)預(yù)測(cè)的懲罰項(xiàng),它反映了編碼單元?jiǎng)澐纸Y(jié)構(gòu)的率失真性能影響和本課題的類(lèi)別設(shè)置特點(diǎn),有利于提高網(wǎng)絡(luò)的分類(lèi)準(zhǔn)確率。

      4 結(jié)論

      本項(xiàng)目提出基于CNN的編碼單元快速選擇算法框架,將QTBT編碼單元選擇問(wèn)題轉(zhuǎn)化為多分類(lèi)問(wèn)題,直接從編碼單元中學(xué)習(xí)和提取分類(lèi)特征,而不需要手動(dòng)去設(shè)計(jì)和提取特征;也不需要時(shí)域和空域的相關(guān)性信息,有助于提高幀內(nèi)編碼的并行運(yùn)算和獨(dú)立解碼性能。本方法還設(shè)計(jì)了一個(gè)目標(biāo)函數(shù),包括Hingeloss和類(lèi)別懲罰項(xiàng),能有效提高分類(lèi)準(zhǔn)確。針對(duì)4K以上超高清視頻編碼的迫切需求,本項(xiàng)目也可為基于深度學(xué)習(xí)的視頻編碼技術(shù)研究提供新思路和理論依據(jù)。

      參考文獻(xiàn)

      [1]Y. Ye, Y. He, and X. Xiu, "Manipulating Ultra-High Definition Video Traffic," IEEE Multimedia, vol. 22, pp. 1-1, 2015.

      [2]G. J. Sullivan, J. R. Ohm, W. J. Han, and T. Wiegand, "Overview of the High Efficiency Video Coding (HEVC) Standard," IEEE Transactions on Circuits & Systems for Video Technology, vol. 22, pp. 1649-1668, 2013.

      [3]T. K. Tan, R. Weerakkody, M. Mrak, N. Ramzan, V. Baroncini, J. R. Ohm, et al., "Video Quality Evaluation Methodology and Verification Testing of HEVC Compression Performance," IEEE Transactions on Circuits & Systems for Video Technology, vol. 26, pp. 76-90, 2016.

      [4]WG11, "Joint Group on Future Video Coding Technology Exploration (JVET)," MPEG 113th meeting, N15897, Oct. 2015.

      [5]J. Chen, E. Alshina, and G. J. Sullivan, "Algorithm Description of Joint Exploration Test Model 1," JVET-A1001, 2015.

      安徽省| 张家口市| 黔东| 锦州市| 新蔡县| 潮州市| 阳曲县| 城步| 内丘县| 碌曲县| 雅安市| 祁门县| 洛扎县| 吴川市| 镇远县| 商都县| 信宜市| 桐乡市| 资源县| 江北区| 建水县| 无为县| 霞浦县| 子洲县| 黑龙江省| 佳木斯市| 乌鲁木齐县| 四川省| 易门县| 深圳市| 揭东县| 黄冈市| 松阳县| 昌邑市| 麻阳| 抚宁县| 广州市| 宜宾县| 温州市| 铜梁县| 称多县|