• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      構(gòu)建智能實(shí)時(shí)網(wǎng)絡(luò),使能5G視頻業(yè)務(wù)繁榮

      2021-11-28 08:54呂達(dá)鄭清芳
      中興通訊技術(shù) 2021年1期

      呂達(dá) 鄭清芳

      摘要:5G將促進(jìn)視頻業(yè)務(wù)的大繁榮,包括極大地改善現(xiàn)有的視頻業(yè)務(wù)體驗(yàn)和催生新型的視頻服務(wù)形態(tài)。為應(yīng)對(duì)5G視頻業(yè)務(wù)所面臨的超低時(shí)延、高可靠及高體驗(yàn)質(zhì)量等方面的挑戰(zhàn),中興通訊提出構(gòu)建智能實(shí)時(shí)視頻網(wǎng)絡(luò)(SmartRTN)的理念,并圍繞這一理念,創(chuàng)新性地研發(fā)出一系列技術(shù)和方案,包括基于內(nèi)容智能分析的低碼高清視頻編碼技術(shù)、超低時(shí)延的網(wǎng)絡(luò)傳輸、基于深度學(xué)習(xí)的內(nèi)容處理與增強(qiáng)、結(jié)合邊緣計(jì)算以及網(wǎng)絡(luò)切片的組網(wǎng)方案和智能調(diào)度策略等。這些技術(shù)和方案被應(yīng)用于視頻業(yè)務(wù)端到端各個(gè)環(huán)節(jié),有效地解決了困擾5G視頻業(yè)務(wù)發(fā)展的技術(shù)瓶頸問題。

      關(guān)鍵詞:低碼高清;實(shí)時(shí)通信;超分辨率;智能調(diào)度;體驗(yàn)質(zhì)量

      Abstract: 5G is expected to bring prosperity of video applications, including significantly improving existing applications and bringing forth new exciting applications. To meet the challenges of 5G video applications, such as ultra low latency, high reliability and high quality of experience, ZTE proposes the concept of constructing smart real time video network (SmartRTN). Based on this concept, ZTE innovatively develops a series of technologies and solutions, including low bitrate high quality video compression based on content intelligent analysis, ultra low latency video transportation, smart video processing and enhancement based on deep learning, networking solutions and intelligent scheduling strategies combining edge computing and network slicing. These technologies and solutions have been applied in all end-to-end video service processes, effectively solving the technical bottlenecks that beset 5G video service development.

      Keywords: low bitrate high quality; real time communication; super resolution; smart scheduling; quality of experience

      1 5G視頻業(yè)務(wù)概述

      1.1 5G促進(jìn)視頻業(yè)務(wù)持續(xù)發(fā)展

      5G具有大寬帶、低時(shí)延的特點(diǎn),它解決了視頻業(yè)務(wù)發(fā)展的關(guān)鍵瓶頸問題,大大促進(jìn)了視頻業(yè)務(wù)的發(fā)展。5G不僅使傳統(tǒng)視頻業(yè)務(wù),如安防、視頻會(huì)議、點(diǎn)播、直播等,獲得了迅速發(fā)展,還使由視頻業(yè)務(wù)衍生的遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療等遠(yuǎn)程交互業(yè)務(wù)也獲得了巨大發(fā)展。更進(jìn)一步地,面向家庭和娛樂場景的超高清視頻、沉浸式視頻、全景視頻、3D視頻也獲得了高速發(fā)展的機(jī)會(huì)。

      根據(jù)Cisco可視化網(wǎng)絡(luò)指數(shù)(VNI)預(yù)測,到2022年,全球互聯(lián)網(wǎng)協(xié)議(IP)視頻流量將占總流量的82%,如圖1(a)所示。所有形式的IP視頻(包括互聯(lián)網(wǎng)視頻、IP視頻點(diǎn)播、視頻流游戲、視頻會(huì)議和基于文件共享的視頻文件)的總和將繼續(xù)保持在總IP流量的80%~90%。2017—2022年,全球視頻流量的復(fù)合年增長率為26%。 隨著網(wǎng)絡(luò)的廣泛部署以及市場競爭的發(fā)展,移動(dòng)視頻業(yè)務(wù)發(fā)展迅猛,2022年移動(dòng)視頻流量將占據(jù)總移動(dòng)數(shù)據(jù)業(yè)務(wù)的79%,并保持46%的年復(fù)合增量率,如圖1(b)所示。

      1.2 新型視頻業(yè)務(wù)下的端到端技術(shù)指標(biāo)

      視頻業(yè)務(wù)的形態(tài)不斷增加,對(duì)端到端的技術(shù)指標(biāo)提出差異化要求:準(zhǔn)實(shí)時(shí)直播時(shí)延的可接受范圍為1~3 s;實(shí)時(shí)互動(dòng)直播的時(shí)延要控制在500 ms以內(nèi);視頻會(huì)議要求端到端時(shí)延需要在200 ms以內(nèi)、編碼時(shí)延需在100 ms以內(nèi)、操作指令時(shí)延在30 ms以內(nèi);而對(duì)于實(shí)時(shí)性要求較強(qiáng)的增強(qiáng)現(xiàn)實(shí)(AR)/虛擬現(xiàn)實(shí)(VR)業(yè)務(wù)及云游戲業(yè)務(wù),端到端時(shí)延一般需要控制在100 ms以內(nèi)、編碼時(shí)延需要在控制在10 ms以內(nèi)。

      1.3 5G視頻業(yè)務(wù)端到端的質(zhì)量仍需提升

      5G給網(wǎng)絡(luò)狀況帶來的提升只是視頻業(yè)務(wù)繁榮的必要非充分條件,我們還必須從視頻業(yè)務(wù)端到端全流程的角度來設(shè)計(jì)完整的技術(shù)體系。5G只是為視頻的高效傳輸提供底層網(wǎng)絡(luò)支撐。如何協(xié)同利用人工智能(AI)、云計(jì)算、邊緣計(jì)算等新技術(shù),來構(gòu)建端到端的視頻技術(shù)體系,以及如何從智能實(shí)時(shí)網(wǎng)絡(luò)、智能化處理、端云邊協(xié)同高性能計(jì)算及存儲(chǔ)、智能部署等多個(gè)角度、業(yè)務(wù)全流程,來提升視頻業(yè)務(wù)采集、預(yù)處理、編碼、傳輸、解碼、后處理、渲染各個(gè)環(huán)節(jié)的處理效率和業(yè)務(wù)質(zhì)量,以給用戶提供高清晰度、高流暢度、低時(shí)延、強(qiáng)交互感的極致用戶體驗(yàn),是中興通訊正在努力的方向。

      2 中興通訊打造下一代智能實(shí)時(shí)網(wǎng)絡(luò)(SmartRTN)

      中興通訊基于多年技術(shù)積累和產(chǎn)品研發(fā)工作,從信源、信道、用戶體驗(yàn)、業(yè)務(wù)部署及運(yùn)維等多方面綜合考慮,提出通過構(gòu)建智能實(shí)時(shí)視頻網(wǎng)絡(luò)來使能視頻業(yè)務(wù)繁榮的理念。圍繞這一理念,中興通訊創(chuàng)新性地研發(fā)出一系列技術(shù),并將這些技術(shù)成功應(yīng)用于視頻業(yè)務(wù)端到端各環(huán)節(jié),例如:

      (1)在信源方面,中興通訊結(jié)合業(yè)界最新視頻編碼標(biāo)準(zhǔn)的進(jìn)展,通過對(duì)視頻內(nèi)容的智能分析,合理地分配碼率,盡可能在保證較高畫質(zhì)體驗(yàn)的前提下提升數(shù)據(jù)壓縮比;進(jìn)一步地引入基于AI的圖像生成技術(shù),使特定場景內(nèi)容(如人臉等)取得了極致的壓縮比。

      (2)在信道方面,中興通訊自主研發(fā)傳輸協(xié)議,通過控制視頻編碼與傳輸之間的協(xié)同機(jī)制,有效降低了傳輸時(shí)延。精巧設(shè)計(jì)的抗丟包策略,實(shí)現(xiàn)了弱網(wǎng)環(huán)境下的可靠傳輸。

      (3)在用戶體驗(yàn)方面,中興通訊研發(fā)了一系列技術(shù),以對(duì)不同環(huán)節(jié)予以改善。例如,在成像環(huán)節(jié),增強(qiáng)在不同光照條件下的畫面清晰度;在顯示環(huán)節(jié),通過虛擬背景技術(shù)保護(hù)用戶隱私;在會(huì)議場景中,通過對(duì)人臉以及人物動(dòng)作的識(shí)別,使會(huì)場管理更加便利。

      (4)在業(yè)務(wù)部署和運(yùn)維方面,中興通訊借助5G的網(wǎng)絡(luò)切片,實(shí)現(xiàn)了用戶服務(wù)質(zhì)量(QoS)差異化保障;使用邊緣計(jì)算,實(shí)現(xiàn)業(yè)務(wù)的就近接入和媒體的下沉處理;通過智能路由,實(shí)現(xiàn)最優(yōu)路徑的選擇;通過智能用戶體驗(yàn)質(zhì)量(QoE)檢測,及時(shí)發(fā)現(xiàn)故障并無感修復(fù)。

      2.1低碼高清

      視頻低碼高清是指在保證視頻畫面質(zhì)量的前提下,盡可能提升壓縮比、降低視頻碼率,它可以從視頻編碼、視頻前后處理等多個(gè)維度進(jìn)行提升。視頻編碼主要分為基于現(xiàn)有成熟編碼的優(yōu)化和新一代編碼技術(shù)的引入。

      2.1.1挖掘現(xiàn)有視頻編解碼標(biāo)準(zhǔn)的最大

      潛力

      基于目前產(chǎn)品廣泛使用的H.264/ H.265編碼,我們實(shí)現(xiàn)針對(duì)不同場景的內(nèi)容感知編碼(CAE)優(yōu)化:

      (1)基于感興趣區(qū)域(RoI)編碼優(yōu)化

      在典型的視頻通信場景中,人們的主要關(guān)注點(diǎn)在于人臉及周邊區(qū)域,而非背景區(qū)域。如圖2所示,在視頻通信發(fā)送端引入實(shí)時(shí)人臉檢測和基于RoI的編碼算法,并對(duì)不同區(qū)域設(shè)置不同的碼率,可使最終實(shí)現(xiàn)的RoI編碼在保持畫面主觀質(zhì)量不下降的前提下,實(shí)現(xiàn)20%的碼率節(jié)省。

      (2)基于屏幕內(nèi)容特性的壓縮編碼優(yōu)化

      無論是視頻通信還是云電腦的應(yīng)用,視頻的內(nèi)容來源主要包括兩類:屏幕內(nèi)容分享和攝像頭視頻。屏幕內(nèi)容和攝像頭采集生成的視頻內(nèi)容有本質(zhì)差別,H.265已有專門針對(duì)屏幕內(nèi)容的高效視頻壓縮編碼(HEVC)-屏幕圖像編碼(SCC)[3]壓縮標(biāo)準(zhǔn)。如圖3所示,考慮到現(xiàn)有大規(guī)模部署的H.264系統(tǒng),針對(duì)視頻會(huì)議的輔流文檔共享、云電腦的屏幕內(nèi)容分享場景,中興通訊對(duì)屏幕內(nèi)容進(jìn)行分類壓縮,采用調(diào)色板、文字特征提取等壓縮方式,在確保文字區(qū)域無損清晰的前提下,使圖像傳輸帶寬降低10%以上。

      (3)基于動(dòng)態(tài)幀率的編碼優(yōu)化

      在視頻通信或云電腦的實(shí)際使用場景中,經(jīng)常會(huì)出現(xiàn)階段性畫面無變化的情形,比如,在視頻交互通信中播放幻燈片(PPT)文檔內(nèi)容、云電腦用戶操作不太頻繁。動(dòng)態(tài)幀率的編碼優(yōu)化能夠根據(jù)場景的運(yùn)動(dòng)劇烈程度來動(dòng)態(tài)實(shí)時(shí)調(diào)整幀率,比如在PPT分享或屏幕應(yīng)用靜止時(shí),可以通過自動(dòng)降低幀率實(shí)現(xiàn)至少10%的綜合帶寬降低效果。

      2.1.2 研發(fā)新一代編碼技術(shù)

      除了前述基于現(xiàn)有H.264/H.265進(jìn)行碼率、幀率等方面的編碼優(yōu)化外,中興通訊還積極參與研發(fā)新一代視頻編解碼技術(shù)。目前,全球最新視頻Codec標(biāo)準(zhǔn)主要以多功能視頻編碼(VVC,也稱H.266)[4]、開放媒體聯(lián)盟視頻標(biāo)準(zhǔn)(AV1)[5]和第3代數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)(AVS3)[6]為主流,同時(shí)基本視頻編碼(EVC)[7]和低復(fù)雜度增強(qiáng)視頻編碼(LCEVC)[8]針對(duì)特定場景(如降低編碼復(fù)雜度、充分利用現(xiàn)有硬件等)也有一定的應(yīng)用空間。部分最新視頻編碼碼率降低效果對(duì)比結(jié)果具體如圖4所示。

      中興通訊持續(xù)參與 HEVC、VVC標(biāo)準(zhǔn)的制定工作,并在當(dāng)前動(dòng)態(tài)圖像專家組(MPEG)的兩個(gè)特別工作組(AHG)中擔(dān)任領(lǐng)導(dǎo)職位。

      2.1.3 AI進(jìn)一步提升壓縮比

      AI在各個(gè)領(lǐng)域中的應(yīng)用得到了迅猛發(fā)展,并在特定的業(yè)務(wù)場景中,帶來了新的解決方法。關(guān)注用戶真正的場景需求有可能顛覆傳統(tǒng)的視頻編解碼技術(shù),并帶來極致的壓縮比。例如,在SmartRTN網(wǎng)絡(luò)中,針對(duì)個(gè)人視頻通信這種場景,傳輸?shù)囊曨l幀主要由變化很小的背景圖片和運(yùn)動(dòng)的人臉構(gòu)成,用戶的關(guān)注點(diǎn)主要是表情的交流?;谏墒綄?duì)抗網(wǎng)絡(luò)(GAN)的人臉生成技術(shù)可以對(duì)攝像頭獲取的內(nèi)容的關(guān)鍵信息進(jìn)行重構(gòu),以形成新的解決方案,具體如圖5所示。與傳統(tǒng)的基于像素域的信號(hào)處理技術(shù)相比,中興通訊提出基于感興趣目標(biāo)和稀疏關(guān)鍵點(diǎn)檢測的方法,對(duì)視頻信息進(jìn)行編碼。基于運(yùn)動(dòng)驅(qū)動(dòng)感興趣目標(biāo),并結(jié)合該場景下背景信息重構(gòu)壓縮后的視頻幀,該方法使碼率得到了更加有效的壓縮——可以達(dá)到傳統(tǒng)算法碼率的1/10。同時(shí),重構(gòu)后的視頻可以任意切換光照模式和視角,在虛擬會(huì)場中可以實(shí)現(xiàn)統(tǒng)一的光照模式及物體的任意視角,為個(gè)人視頻通信業(yè)務(wù)提供更具沉浸式的臨場感和更加真實(shí)的眼神交流體驗(yàn)。

      2.2 超低時(shí)延傳輸

      2.2.1 不同視頻傳輸協(xié)議

      針對(duì)不同的視頻業(yè)務(wù)場景,常見的視頻傳輸協(xié)議有實(shí)時(shí)消息傳輸協(xié)議(RTMP)、通用媒體應(yīng)用格式(CMAF)、低時(shí)延HTTP實(shí)時(shí)流媒體(LHLS)、Web實(shí)時(shí)通信(WebRTC)等,其技術(shù)特性對(duì)比如表1所示。

      為了滿足實(shí)時(shí)音視頻通信對(duì)低時(shí)延傳輸?shù)男枨?,中興通訊研發(fā)了超低時(shí)延傳輸協(xié)議,在傳輸層參考快速用戶數(shù)據(jù)報(bào)網(wǎng)絡(luò)連接(QUIC)[11]協(xié)議的基礎(chǔ)上做了大量的重新設(shè)計(jì),例如加密機(jī)制、多路徑、前向糾錯(cuò)(FEC)支持、優(yōu)先級(jí)管理、可配置的擁塞控制算法等,以滿足實(shí)時(shí)流傳輸場景的需求。在媒體傳輸?shù)膽?yīng)用層上,中興通訊研發(fā)的協(xié)議與WebRTC、RTMP等協(xié)議兼容,可適配各種不同的實(shí)時(shí)音視頻應(yīng)用場景的需求。

      2.2.2 融合編碼和傳輸技術(shù)

      實(shí)時(shí)通信系統(tǒng)需要考慮視頻編碼器和傳輸協(xié)議的協(xié)同控制。傳輸協(xié)議和編解碼器不同步或網(wǎng)絡(luò)條件不穩(wěn)定,容易引發(fā)延遲現(xiàn)象或故障。

      (1)有兩份視頻編碼時(shí),選擇最合適的一份以避免擁塞。

      斯坦福的Salsify項(xiàng)目[10]創(chuàng)新性地體現(xiàn)了新的組合方式——編解碼器速率控制和傳輸擁塞控制。Salsify的編解碼器可保證發(fā)送者不會(huì)在網(wǎng)絡(luò)擁塞時(shí)發(fā)送幀(必要時(shí)會(huì)丟棄已經(jīng)編碼的幀),且不固定幀的發(fā)送速率。同時(shí),編解碼器還可被允許生成更接近可用網(wǎng)絡(luò)容量的幀,且生成每個(gè)幀的兩個(gè)版本:一個(gè)質(zhì)量略高于先前的成功案例,另一個(gè)則質(zhì)量略低。應(yīng)用程序在查看每個(gè)選項(xiàng)的實(shí)際壓縮大小后,從這些選項(xiàng)中進(jìn)行選擇(或不選)。官方的測試結(jié)果表明[11], Salsify比現(xiàn)有的商用系統(tǒng)(如Skype、FaceTime和WebRTC)在時(shí)延控制和視頻質(zhì)量上更為優(yōu)秀。

      (2)采用編碼與傳輸?shù)墓艿罊C(jī)制,邊編碼邊傳輸

      音視頻采集、編碼、傳輸、解碼、渲染等流程是相互聯(lián)動(dòng)和影響的。采集、編碼與傳輸形成管道,可以有效降低時(shí)延。例如,視頻編碼編完一個(gè)切片后,在編下一個(gè)切片的同時(shí),可傳輸剛編完的切片數(shù)據(jù);若采用SVC或LCEVC編碼,則可以編完一個(gè)層,且在編下一個(gè)層的同時(shí),立刻傳輸已編完的層數(shù)據(jù)。

      2.2.3 擁塞控制技術(shù)

      實(shí)際的網(wǎng)絡(luò)狀態(tài)是復(fù)雜多變的,丟包、延時(shí)和網(wǎng)絡(luò)帶寬都在時(shí)刻變化,這就對(duì)網(wǎng)絡(luò)擁塞控制算法提出了很高的要求。網(wǎng)絡(luò)擁塞是指發(fā)送的數(shù)據(jù)超過了網(wǎng)絡(luò)所能承載的傳輸能力。盡管基礎(chǔ)通信設(shè)施在不斷地完善,網(wǎng)絡(luò)擁塞的情況在5G時(shí)代還是會(huì)有可能出現(xiàn)。

      針對(duì)實(shí)時(shí)音視頻傳輸?shù)膿砣刂?,中興通訊提出適應(yīng)多場景的擁塞控制模塊,包括傳統(tǒng)的基于傳輸控制協(xié)議(TCP)的瓶頸帶寬和往返時(shí)延(BBR)[12]、基于用戶數(shù)據(jù)報(bào)協(xié)議(UDP)的谷歌擁塞控制(GCC)[13]和基于機(jī)器學(xué)習(xí)的擁塞控制功能。這些擁塞控制模塊可以被選擇部署在云端或者集成在發(fā)送端。

      (1)針對(duì)視頻專網(wǎng)等高可靠環(huán)境,通信雙方可以采用TCP方式傳輸實(shí)時(shí)音視頻數(shù)據(jù)。此時(shí)發(fā)送端自動(dòng)采用基于TCP的控制模塊。目前主要采用的擁塞控制算法是BBR系列。

      (2)對(duì)于弱網(wǎng)不可靠環(huán)境,通信雙方采用UDP方式傳輸實(shí)時(shí)音視頻數(shù)據(jù),發(fā)送端則自動(dòng)采用UDP系列的控制算法,如GCC。

      (3)另外,中興通訊提出的擁塞控制模塊還包括支持基于大數(shù)據(jù)驅(qū)動(dòng)的智能擁塞控制決策模塊。該模塊通過收集發(fā)送端、傳輸網(wǎng)絡(luò)、接收端等多方的信息,形成對(duì)網(wǎng)絡(luò)擁塞程度的預(yù)測,從而推動(dòng)發(fā)送端選擇不同的編碼參數(shù)、不同的傳輸協(xié)議、擁塞控制參數(shù)(詳細(xì)技術(shù)原理可參考本文2.4.3節(jié))。

      2.2.4 FEC、自動(dòng)重傳請(qǐng)求(ARQ)等

      弱網(wǎng)對(duì)抗技術(shù)

      FEC也叫前向糾錯(cuò)碼,是視頻業(yè)務(wù)系統(tǒng)網(wǎng)絡(luò)保證可靠傳輸質(zhì)量的重要方法。FEC可以對(duì)n份原始數(shù)據(jù)增加m份數(shù)據(jù),并能通過n+m份中的任意n份數(shù)據(jù),還原原始數(shù)據(jù),即如果有任意小于等于m份的數(shù)據(jù)失效,仍然能通過剩下的數(shù)據(jù)還原出來。當(dāng)前的FEC算法使用范特蒙矩陣或者柯西矩陣,來實(shí)現(xiàn)糾錯(cuò)碼的功能。通過在傳統(tǒng)FEC算法上做自適應(yīng)改進(jìn),中興通訊的視頻FEC方案可根據(jù)網(wǎng)絡(luò)條件,實(shí)現(xiàn)延時(shí)自調(diào)整、網(wǎng)絡(luò)自適應(yīng)、冗余自增減等功能。

      ARQ也是抵抗網(wǎng)絡(luò)丟包的一種重要手段。中興通訊視頻系統(tǒng)使用的是基于否定確認(rèn)包(NACK)的丟包重傳技術(shù)。NACK是一種通知技術(shù),其觸發(fā)通知的條件剛好與確認(rèn)包(ACK)相反。在未收到消息時(shí),NACK通知發(fā)送方“我未收到消息”,即通知未達(dá)。NACK在接收端檢測到數(shù)據(jù)丟包后,發(fā)送NACK報(bào)文到發(fā)送端。發(fā)送端根據(jù)NACK報(bào)文中的序列號(hào),在發(fā)送緩沖區(qū)找到對(duì)應(yīng)的數(shù)據(jù)包,并將其重新發(fā)送到接收端。ARQ和FEC配合使用,可以在不大幅增加網(wǎng)絡(luò)冗余的條件下,實(shí)現(xiàn)較好的抗丟包效果。在實(shí)際應(yīng)用中,中興通訊視頻系統(tǒng)能抵抗80%的網(wǎng)絡(luò)丟包,滿足95%以上的使用場景。

      2.3 視頻智能分析

      2.3.1 暗景增強(qiáng)實(shí)現(xiàn)低光照下的視頻畫質(zhì)提升

      在視頻通信場景中,由于場地變換、光照攝像頭角度變化等因素,通常會(huì)出現(xiàn)由關(guān)鍵人臉部分光照不均勻?qū)е碌陌涤艾F(xiàn)象,這影響了用戶體驗(yàn)。中興通訊通過對(duì)大量3D人臉在不同光照模式下的數(shù)據(jù)進(jìn)行模擬訓(xùn)練,實(shí)現(xiàn)了基于2D圖像對(duì)光照條件的預(yù)測,并通過光照條件的映射實(shí)現(xiàn)了自然光照?qǐng)鼍跋氯四槇D像的非線性變換模擬,使之達(dá)到了光照均勻的效果,提升了暗光場景下的人臉畫質(zhì)。

      2.3.2 人像分割及背景虛化

      視頻通信可以隨時(shí)隨地通過移動(dòng)終端接入。雖然這極大地方便了客戶使用,但同時(shí)也導(dǎo)致客戶個(gè)人私密信息出現(xiàn)在視頻中。因此,基于語義分割的背景和背景虛化功能就成為了視頻通信產(chǎn)品不可或缺的功能。

      中興通訊基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)構(gòu)建了輕量級(jí)模型,在自收集的 Portrait數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)現(xiàn)了端側(cè)的語義分割算法,并通過網(wǎng)絡(luò)模塊輕量化設(shè)計(jì)、模型剪枝及模型蒸餾等提速方案,得到了300 kB大小的輕量級(jí)語義分割模型。通過端側(cè)的部署加速和前后端處理的項(xiàng)目流程優(yōu)化,我們?cè)隍旪?45手機(jī)芯片上實(shí)現(xiàn)了高達(dá)33 幀/秒的實(shí)時(shí)推理過程。

      背景替換和虛化技術(shù)是基于實(shí)時(shí)人像分割技術(shù)的應(yīng)用。在使用輕量化深度神經(jīng)網(wǎng)絡(luò)對(duì)輸入圖完成人像分割任務(wù)之后,所得的人像分割網(wǎng)絡(luò)輸出背景為0、人像為1的圖像,并與輸入圖進(jìn)行相乘可保留人像信息。背景替換的圖片可以首先將網(wǎng)絡(luò)輸出的圖像取反,然后進(jìn)行相乘生成替換的背景圖像,最后將人像信息和背景圖像合成為一張圖片,即可得到所需的背景替換,具體如圖6所示。

      2.3.3人臉識(shí)別

      中興通訊基于大規(guī)模私有人臉數(shù)據(jù)集、深度卷積神經(jīng)網(wǎng)絡(luò)的人臉特征編碼模型以及度量學(xué)習(xí)方法,在人臉識(shí)別領(lǐng)域有著長期的技術(shù)積累。特別地,在視頻人臉識(shí)別處理中,中興通訊提出綜合視頻空域信息的代表幀融合和特征增強(qiáng)方法,相應(yīng)的處理流程如圖7所示。表2給出了中興通訊視頻人臉識(shí)別方案在標(biāo)準(zhǔn)測試集YouTube Faces上的準(zhǔn)確率比較。該方法大大提高了人臉特征的泛化性,同時(shí)提高了對(duì)運(yùn)動(dòng)/失焦模糊、低分辨、視頻編解碼噪聲的耐受力,并在多個(gè)開源測試集上達(dá)到了較高的準(zhǔn)確率。

      2.4 智能部署

      2.4.1融合移動(dòng)邊緣計(jì)算(MEC)和網(wǎng)絡(luò)切片

      基于5G端到端網(wǎng)絡(luò)切片技術(shù),對(duì)專用網(wǎng)絡(luò)進(jìn)行優(yōu)化,可實(shí)現(xiàn)視頻服務(wù)加速、視頻服務(wù)網(wǎng)絡(luò)與其他網(wǎng)絡(luò)業(yè)務(wù)隔離服務(wù),解決網(wǎng)絡(luò)擁塞和時(shí)延問題。支持5G接入側(cè)的MEC視頻服務(wù)下沉,不僅可實(shí)現(xiàn)媒體就近接入、就近處理,為用戶帶來更低時(shí)延的視頻體驗(yàn),還可同時(shí)降低對(duì)骨干網(wǎng)帶寬占用。更進(jìn)一步地,融合5G網(wǎng)絡(luò)切片和MEC可對(duì)基站、頻率專享等組成5G虛擬專網(wǎng),可以滿足高端客戶的高安全、高可控、高性能要求,如圖8所示。

      2.4.2 智能路由調(diào)度

      由于RTN網(wǎng)絡(luò)服務(wù)用戶的網(wǎng)絡(luò)條件和質(zhì)量各異,基于強(qiáng)大的大數(shù)據(jù)分析和AI預(yù)判能力的支持,中興通訊實(shí)現(xiàn)了實(shí)時(shí)的智能路由調(diào)度,具體如圖9所示。針對(duì)統(tǒng)一接入調(diào)度模塊,用戶側(cè)接入調(diào)度除了選擇就近邊緣接入外,核心的網(wǎng)絡(luò)路由可以選擇進(jìn)行如下操作:

      (1)基于大數(shù)據(jù)提取多維度網(wǎng)絡(luò)路由質(zhì)量評(píng)價(jià)指標(biāo),生成當(dāng)前路由優(yōu)劣評(píng)分;

      (2)基于現(xiàn)有的評(píng)價(jià)模型,實(shí)現(xiàn)了未來5~10 min內(nèi)網(wǎng)絡(luò)質(zhì)量的預(yù)判;

      (3)實(shí)時(shí)統(tǒng)計(jì)網(wǎng)絡(luò)各個(gè)節(jié)點(diǎn)、不同粒度的質(zhì)量參數(shù)(如帶寬、往返時(shí)延等),并綜合前兩者的評(píng)分結(jié)果,實(shí)現(xiàn)當(dāng)前路由表的實(shí)時(shí)動(dòng)態(tài)調(diào)整。

      另外,為了保證低時(shí)延,網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)與傳統(tǒng)的內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)分層設(shè)計(jì)稍有差異。其中,核心中繼服務(wù)器采用扁平Mesh組網(wǎng)架構(gòu),內(nèi)部鏈路更短、更靈活,可支持采用動(dòng)態(tài)選路的方式來調(diào)整構(gòu)建的網(wǎng)狀結(jié)構(gòu)。中繼服務(wù)器之間采用優(yōu)化過的QUIC協(xié)議實(shí)現(xiàn)數(shù)據(jù)傳輸,使內(nèi)部鏈路延遲達(dá)到30 ms左右。

      2.4.3 智能QoE監(jiān)測

      實(shí)時(shí)視頻服務(wù)的QoE受到實(shí)時(shí)音視頻采集、前處理、編碼、傳輸、解碼、后處理、渲染各個(gè)環(huán)節(jié)的影響。一旦某一個(gè)環(huán)節(jié)出現(xiàn)問題,如傳輸過程中的網(wǎng)絡(luò)丟包、采集環(huán)節(jié)中的系統(tǒng)不兼容,都會(huì)直接導(dǎo)致實(shí)時(shí)音視頻服務(wù)出現(xiàn)質(zhì)量問題,影響用戶體驗(yàn)。因此,我們需要建立端到端的實(shí)時(shí)音視頻服務(wù)智能QoE監(jiān)測和優(yōu)化系統(tǒng)。

      如圖10所示,實(shí)時(shí)音視頻服務(wù)智能QoE監(jiān)測和優(yōu)化系統(tǒng)分為數(shù)據(jù)收集、健康度評(píng)估和智能優(yōu)化3個(gè)部分。

      (1)數(shù)據(jù)收集。該部分主要收集端到端的全鏈路實(shí)時(shí)音視頻通信數(shù)據(jù),包括終端設(shè)備數(shù)據(jù)、網(wǎng)絡(luò)環(huán)境數(shù)據(jù)等。

      終端設(shè)備數(shù)據(jù):設(shè)備機(jī)型、用戶IP、視頻流的分辨率、幀率,在前處理、編碼、解碼、后處理、渲染等過程中的CPU使用率,圖形處理器(GPU)使用率以及內(nèi)存使用率等;

      網(wǎng)絡(luò)環(huán)境數(shù)據(jù):上下行網(wǎng)絡(luò)丟包、抖動(dòng)、時(shí)延等。

      (2)健康度評(píng)估。該部分的核心思想是對(duì)收集到的監(jiān)控?cái)?shù)據(jù)進(jìn)行過濾、匯聚、實(shí)時(shí)計(jì)算,并進(jìn)行實(shí)時(shí)音視頻通信質(zhì)量評(píng)估,快速識(shí)別和感知實(shí)時(shí)音視頻通信中的問題。中興通訊通過構(gòu)建/更新一組機(jī)器學(xué)習(xí)模型,判斷當(dāng)前全鏈路服務(wù)狀態(tài)的健康程度,并將其作為后續(xù)智能優(yōu)化階段的觸發(fā)條件。具體來說,該部分包括:首先,基于“異常狀態(tài)監(jiān)控指標(biāo)與正常狀態(tài)監(jiān)控指標(biāo)處于不同分布”的假設(shè),選用QoS指標(biāo)(時(shí)延、碼率、CPU等)[20]和無參考視頻質(zhì)量評(píng)估得分,構(gòu)造樣本特征空間;然后,在此基礎(chǔ)上構(gòu)造多個(gè)異構(gòu)自動(dòng)編碼器[21],并利用它們?cè)谟?xùn)練集上的預(yù)測殘差值進(jìn)行正則化模型篩選;最后,通過模型篩選的多個(gè)自動(dòng)編碼器的投票結(jié)果,將被作為當(dāng)前狀態(tài)健康度的評(píng)估值。

      (3)智能優(yōu)化。當(dāng)前狀態(tài)的健康度低于閾值時(shí),就需要進(jìn)行智能優(yōu)化。這里我們將智能優(yōu)化過程視為馬爾科夫決策過程,利用強(qiáng)化學(xué)習(xí)求解當(dāng)前狀態(tài)下的最優(yōu)策略。具體來說,我們將健康度的前后提升比率定義為獎(jiǎng)勵(lì),將網(wǎng)絡(luò)狀態(tài)的可觀測信息(時(shí)延、丟包、阻塞情況)定義為狀態(tài)空間,將網(wǎng)絡(luò)參數(shù)組合的可調(diào)選項(xiàng)(糾錯(cuò)策略、重傳策略、緩沖器的緩沖值和緩沖區(qū)大?。┒x為動(dòng)作空間,利用動(dòng)作探索的獎(jiǎng)勵(lì)反饋實(shí)時(shí)更新深度策略網(wǎng)絡(luò)[22],并逐步實(shí)現(xiàn)當(dāng)前狀態(tài)下的最佳網(wǎng)絡(luò)配置組合。

      3 結(jié)束語

      隨著5G商用落地以及相關(guān)設(shè)施的完善,視頻的使用體驗(yàn)將不斷升級(jí),視頻的業(yè)務(wù)形態(tài)將不斷創(chuàng)新,視頻的應(yīng)用場景也將不斷延展?!叭f物視頻化”的趨勢對(duì)底層技術(shù)支撐體系提出了新的、更高的要求。為了使能視頻業(yè)務(wù)繁榮,中興通訊提出了構(gòu)建智能實(shí)時(shí)視頻網(wǎng)絡(luò)的理念,基于自身長期在網(wǎng)絡(luò)通信、視頻多媒體、AI等領(lǐng)域的持續(xù)耕耘和積累沉淀,創(chuàng)新性地研發(fā)了一系列技術(shù)和產(chǎn)品,并使之應(yīng)用于視頻業(yè)務(wù)端到端流程的各環(huán)節(jié)。中興通訊構(gòu)筑SmartRTN綜合技術(shù)體系,著眼于改善最終用戶的體驗(yàn),有效解決了內(nèi)容增強(qiáng)、高效壓縮、可靠傳輸以及智能運(yùn)維等問題,為5G視頻業(yè)務(wù)的不斷演化和縱深拓展提供了牢固的基礎(chǔ)。

      參考文獻(xiàn)

      [1] Cisco. Cisco visual networking index (VNI) complete forecast update, 2017—2022 [EB/ OL]. (2018-12)[2020-12-05]. https://www. cisco.com/c/dam/m/en_us/network-intelligence/service-provider/digital-transformation/ knowledge-network-webinars/pdfs/1213-business-services-ckn.pdf

      [2] Cisco. Cisco visual networking index (VNI) global and americas/EMEAR mobile data traffic forecast, 2017-2022 [EB/OL]. (2019-03)[2020-12-05]. https://www.cisco.com/c/dam/ m/en_us/network-intelligence/service-provider/digital-transformation/knowledge-network-webinars/pdfs/190320-mobility-ckn.pdf

      [3] ITU. HEVC-SCC [EB/OL]. [2020-12-05]. http:// www.itu.int/rec/T-REC-H.265

      [4] MPEG. VVC [EB/OL]. [2020-12-05]. https:// mpeg.chiariglione.org/standards/mpeg-i/versatile-video-coding

      [5] Alliance for Open Media. AV1 [EB/OL]. [2020-12-05]. http://aomedia.org/

      [6] AVS Work Group. AVS3 [EB/OL]. [2020-12-05]. http://www.avs.org.cn/

      [7] MPEG. MPEG5-EVC [EB/OL]. [2020-12-05]. https://mpeg.chiariglione.org/standards/mpeg-5/essential-video-coding

      [8] MPEG. MPEG5-LCEVC [EB/OL]. [2020-12-05]. https://mpeg.chiariglione.org/standards/ mpeg-5/low-complexity-enhancement-video-coding

      [9] 視頻傳輸延遲分析及解決方案:CMAF,LHLS [EB/ OL]. (2018-09-21)[2020-12-05]. https://cloud. tencent.com/developer/article/1346159

      [10] WebRTC 1.0: Real-Time Communication Between Browsers [EB/OL]. https://www. w3.org/TR/webrtc/

      [11] QUIC, a multiplexed stream transport over UDP [EB/OL]. https://www.chromium.org/quic

      [12] Salsify. Video is better when the codec and transport work together [EB/OL]. [2020-12-05]. https://snr.stanford.edu/salsify/

      [13] Salsify. Salsify測試結(jié)果 [EB/OL]. [2020-12-05]. http://web.mit.edu/6.829/www/currentsemester/materials/slides-salsify-lecture.pdf

      [14] DING Z Z, ZHENG Q F, HOU C H, et al. Improving face recognition in surveillance video with judicious selection and fusion of representative frames [C]//ACM Multimedia Asia(MMAsia20). NY, USA: ACM, 2021. DOI:10.1145/3444685.3446259

      [15] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA. IEEE, 2015: 815-823. DOI:10.1109/cvpr.2015.7298682

      [16] RAO Y M, LU J W, ZHOU J. Learning discriminative aggregation network for video-based face recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 3781-3790

      [17] TAIGMAN Y, YANG M, RANZATO M, et al. DeepFace: closing the gap to human-level performance in face verification [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 1701-1708. DOI:10.1109/cvpr.2014.220

      [18] YANG J L, REN P R, ZHANG D Q, et al. Neural aggregation network for video face recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 4362-4371. DOI:10.1109/cvpr.2017.554

      [19] GONG S X, SHI Y C, KALKA N D, et al. Video face recognition: component-wise feature aggregation network (C-FAN) [C]//2019 International Conference on Biometrics (ICB). Crete, Greece: IEEE, 2019: 1-8. DOI:10.1109/ icb45273.2019.8987385

      [20] InfoQ. 音視頻質(zhì)量評(píng)估綠皮書 [EB/OL]. (2019-08-26)[2021-12-05]. https://www.infoq.cn/ article/xt9vNLcC6dlkSvu9I6M2

      [21] HINTON G, OSINDERO S, YW T. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18(7): 1527-1554. DOI: 10.1162/neco.2006.18.7.1527

      [22] 桑頓, 巴圖. 強(qiáng)化學(xué)習(xí): 第2版 [M]. 俞凱, 譯.北京: 電子工業(yè)出版社, 2019

      作者簡介

      呂達(dá),中興通訊股份有限公司云視頻與能源研究院院長、高級(jí)工程師;研究方向?yàn)橥ㄐ偶夹g(shù)和協(xié)議、互聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)、視頻技術(shù)、數(shù)字家庭網(wǎng)絡(luò)及業(yè)務(wù)等;先后從事數(shù)字程控交換機(jī)、固網(wǎng)軟交換、IPTV、視頻會(huì)議、通信網(wǎng)絡(luò)供電等產(chǎn)品架構(gòu)設(shè)計(jì)與研發(fā)管理工作,曾主持完成數(shù)字程控交換機(jī)、多媒體視訊、視頻會(huì)議等重大產(chǎn)品項(xiàng)目;發(fā)表論文多篇,申請(qǐng)專利8項(xiàng)。

      鄭清芳,中興通訊股份有限公司云視頻首席科學(xué)家;研究方向?yàn)槿斯ぶ悄?、?jì)算機(jī)視覺、視頻編解碼、視頻通信、人機(jī)交互、多媒體芯片與系統(tǒng)等;先后從事視頻智能編目系統(tǒng)、視頻搜索系統(tǒng)、手機(jī)3D成像系統(tǒng)及應(yīng)用、車載成像與識(shí)別系統(tǒng)、人臉識(shí)別、3D立體視覺芯片、視頻會(huì)議等系統(tǒng)及產(chǎn)品的架構(gòu)設(shè)計(jì)與核心技術(shù)研發(fā);發(fā)表論文多篇,申請(qǐng)專利2項(xiàng)。

      平乐县| 保德县| 河西区| 罗平县| 牡丹江市| 蓬安县| 江孜县| 怀安县| 柳林县| 定兴县| 闵行区| 兰溪市| 吉水县| 信阳市| 徐闻县| 民权县| 拉孜县| 巴林左旗| 洛阳市| 淮滨县| 勐海县| 奉新县| 武平县| 长汀县| 确山县| 偏关县| 双牌县| 南昌市| 积石山| 宁远县| 珲春市| 东乡| 晋宁县| 前郭尔| 德州市| 定州市| 商河县| 高阳县| 秦安县| 祁门县| 高台县|