陳 波
(浙江廣播電視集團(tuán),浙江 杭州 310000)
用戶體驗(yàn)質(zhì)量(Quality of Experience,QoE)指終端用戶對(duì)設(shè)備、網(wǎng)絡(luò)和系統(tǒng)、應(yīng)用或業(yè)務(wù)的質(zhì)量和性能的綜合主觀感受。影響這項(xiàng)綜合指標(biāo)的因素主要包括視頻源的節(jié)目質(zhì)量、端到端的網(wǎng)絡(luò)服務(wù)質(zhì)量(Quality of Service,QoS)、中間媒體的透明性和影響用戶期望體驗(yàn)等相關(guān)的主觀因素[1]。
對(duì)于QoE的測(cè)量,實(shí)際上就是對(duì)影響用戶體驗(yàn)的各種環(huán)境變量的測(cè)量,包括但不限于數(shù)據(jù)傳輸QoS中的帶寬(吞吐量)、時(shí)延、抖動(dòng)及丟包率等指標(biāo),映射到最終用戶端就是圖像質(zhì)量、時(shí)延量、聲畫同步等相關(guān)主觀感受。對(duì)網(wǎng)絡(luò)提供商來說,要在資源成本預(yù)算內(nèi)盡可能對(duì)網(wǎng)絡(luò)性能進(jìn)行優(yōu)化,最大程度地提高用戶的滿意度。毫無疑問,良好的網(wǎng)絡(luò)傳輸能力能夠產(chǎn)生更好的用戶體驗(yàn)質(zhì)量[2]。
在傳統(tǒng)的演播室制作中,所有設(shè)備都在中心機(jī)房,基帶信號(hào)和Tally、通話的傳輸都是實(shí)時(shí)且可控的。但在遠(yuǎn)程制作的時(shí)候,前端需要攜帶盡可能少的設(shè)備,以體現(xiàn)遠(yuǎn)程制作輕量化、靈活性、低成本的優(yōu)勢(shì),才能夠解決高并發(fā)、聯(lián)合制作、隨時(shí)隨地等需求問題。
4K遠(yuǎn)程制作的傳輸鏈路如圖1所示,可分為演播室端和遠(yuǎn)端兩個(gè)部分。演播室端就是集中控制或不方便移動(dòng)的部分設(shè)備,主要包括切換臺(tái)、Tally主機(jī)、通話矩陣以及攝像機(jī)遙控控制面板等。遠(yuǎn)端就是需要人員布置的EFP設(shè)備,主要包括攝像機(jī)、攝像機(jī)控制單元、無線通話腰包以及Tally指示燈等。目前的4K編解碼設(shè)備,一組只能傳輸一路4K信號(hào),按照傳輸碼率和介質(zhì)的不同,4K超高清可分為無壓縮(ST 2110-20/30)、淺壓縮(ST 2110-22/JPEGXS)、深壓縮(H.264/H.265)傳輸。其中,無壓縮形式需要使用裸光纖進(jìn)行傳輸,淺壓縮形式可用裸纖或?qū)>€進(jìn)行傳輸,深壓縮用專線即可實(shí)現(xiàn)。
圖1 4K遠(yuǎn)程制作傳輸鏈路
編解碼設(shè)備有硬件編解碼和軟件編解碼兩類。硬件編碼相較FFMpeg等軟件編碼具有更好的穩(wěn)定性和更快的參數(shù)處理性能,不容易發(fā)生并發(fā)量太高造成的系統(tǒng)崩潰等情況。但軟件編解碼的好處是設(shè)置相對(duì)簡(jiǎn)便,更易擴(kuò)展接口和配置參數(shù),缺點(diǎn)是經(jīng)過處理器延時(shí)較大。不同編解碼設(shè)備的參數(shù)對(duì)比如表1所示。由表1可以看出,以M/H/A指代的廠商設(shè)備能夠支持的編解碼格式和參數(shù)比較豐富,特別是軟件編碼器還支持ST 2110的IP流直接輸入。對(duì)于實(shí)際使用場(chǎng)景來說,無論是H.264還是H.265基本都屬于百兆碼流的范疇,五百到千兆基本屬于JPEG-XS(肉眼無損母帶級(jí))的較優(yōu)范疇,再往上就是無壓縮的萬兆碼流。
表1 編解碼設(shè)備參數(shù)對(duì)比
一般實(shí)時(shí)流傳輸摒棄推拉流常用的傳輸控制協(xié)議(Transfer Control Protocol,TCP)連接,采用基于用戶數(shù)據(jù)協(xié)議(User Data Protocol,UDP)的實(shí)時(shí)傳輸協(xié)議,通過誤碼校正和丟包重傳等手段實(shí)現(xiàn)數(shù)據(jù)包的穩(wěn)定傳輸,常用的包括安全可靠協(xié)議(Secure Reliable Transport,SRT)、實(shí) 時(shí) 傳 輸 協(xié) 議(Real Time Streaming Protocol,RTSP)、用戶數(shù)據(jù)報(bào)協(xié)議UDP三種,廣播電視封裝一般均采用傳輸流(Real Time Streaming Protocol,TS)協(xié)議。
SRT協(xié)議由于采用了改進(jìn)后的自動(dòng)重傳請(qǐng)求技術(shù),能夠根據(jù)網(wǎng)絡(luò)波動(dòng)在測(cè)試時(shí)即選取合適的網(wǎng)絡(luò)緩沖區(qū),且丟包重傳的額外網(wǎng)絡(luò)開銷不占用視音頻等數(shù)據(jù)通道,能夠有效減少丟包率,帶來更加精準(zhǔn)的時(shí)間戳和抗抖動(dòng)機(jī)制,哪怕是在地球的對(duì)拓點(diǎn)進(jìn)行遠(yuǎn)程傳輸,通過合理的參數(shù)設(shè)置也能夠在保證高質(zhì)量視音頻的同時(shí)提供極低的網(wǎng)絡(luò)延時(shí)。需要注意的是,由于SRT緩沖區(qū)的設(shè)置,會(huì)比使用UDP等協(xié)議帶來至少1幀的延時(shí),而且SRT使用額外的帶寬來保證錯(cuò)誤數(shù)據(jù)包的重傳,因此需要考慮至少105%的帶寬標(biāo)稱值,上溢的部分只做數(shù)據(jù)包的傳輸通道,不傳輸新的數(shù)據(jù)。
根據(jù)各廠商的設(shè)備可調(diào)參數(shù),本文詳細(xì)對(duì)比了編解碼設(shè)備的底層架構(gòu)、輸入輸出接口、網(wǎng)絡(luò)接口、音視頻編碼、音視頻碼率、幀率、取樣格式、取樣深度、壓縮率、圖像組、參考幀、傳輸協(xié)議、碼率控制、熵編碼、流量整形、帶寬限制、流模式以及SRT緩沖區(qū)等參數(shù),給設(shè)備選型和方案設(shè)計(jì)提供了參考。
由于使用設(shè)備和測(cè)試流程所限,本次使用高清信號(hào)源通過上下變換成為4K信號(hào)進(jìn)行編解碼和傳輸,將上下變換設(shè)備的參數(shù)也進(jìn)行單獨(dú)測(cè)試,使之成為固定數(shù)值偏移,理論上不影響最終結(jié)果的正向參考。結(jié)合百兆帶寬的公網(wǎng)實(shí)際,碼率選取40 Mb·s-1,60 Mb·s-1和80 Mb·s-1,圖像組(Group of Pictures,GOP)長(zhǎng)度選取60或100,參考幀數(shù)量選取IP或IBP。三者通過組合進(jìn)行圖像質(zhì)量、時(shí)延量和聲畫同步的測(cè)試,均分為局域網(wǎng)和公網(wǎng)環(huán)境下分別測(cè)試。
綜合各家廠商建議和默認(rèn)配置,有些參數(shù)無法拉到同一水平線進(jìn)行對(duì)比,實(shí)測(cè)結(jié)果不是圖像質(zhì)量不能接收就是其他指標(biāo)不合格,所以均按各家最優(yōu)組合進(jìn)行配置和測(cè)試。不變的參數(shù)有4K信號(hào)格式3 840×2 160/50p,根據(jù)往返時(shí)延(Round-Trip Time,RTT)為6 ms參考的兩端SRT緩沖區(qū)設(shè)置40 ms(市內(nèi)基本為這個(gè)數(shù)值),SRT帶寬限制為25%(總帶寬為總碼率125%),數(shù)據(jù)包存活時(shí)間TTL根據(jù)實(shí)測(cè)設(shè)置為56(軟編默認(rèn)64),解碼端模式為自適應(yīng)以匹配視音頻包同步輸出(延時(shí)比固定模式稍大),視頻碼率均設(shè)置為固定碼率,音頻固定為48 kHz、256 kb·s-1。
原始4K流中,視頻數(shù)據(jù)碼率為3 840×2 160×50×10×2=8 294.4 Mb·s-1,音頻數(shù)據(jù)碼率為48 kHz×16×2 ch=1.536 Mb·s-1,編碼時(shí)的視頻編碼碼率類比AVS2需要至少不小于36 Mb·s-1,音頻編碼碼率不小于256 kb·s-1,可以看出,壓縮比比肉眼無損的ST 2110-22大了很多,更加適合帶寬受限的公網(wǎng)傳輸[3]。在比特率控制環(huán)節(jié)可以選擇固定或可變等不同的碼率控制,流量整形帶來的額外網(wǎng)絡(luò)帶寬開銷在帶寬的5%~100%,這部分內(nèi)容會(huì)另外進(jìn)行丟包重傳等工作,不占用視音頻網(wǎng)絡(luò)傳輸帶寬。
對(duì)時(shí)延來說,兩端編解碼帶來的固定時(shí)延無法消除,特別是深壓縮帶來的50 ms以上的編碼時(shí)延相比淺壓縮確實(shí)不占優(yōu)。解碼端可以根據(jù)需求增大流到基帶信號(hào)間的轉(zhuǎn)換時(shí)間,可以實(shí)現(xiàn)更好的圖像和聲畫同步效果,也可選擇固定時(shí)延以實(shí)現(xiàn)更低的時(shí)延量[4]。
圖像質(zhì)量分析儀的測(cè)試結(jié)果主要有圖像質(zhì)量比(Picture Quality Ratio,PQR)、平均主觀得分差異(Differential Mean Opinion Score,DMOS)和峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)。圖像質(zhì)量較好時(shí)一般采用PQR來測(cè)量,當(dāng)圖像損傷較大時(shí)(PQR>15以后),采用DMOS來測(cè)量。待測(cè)圖像測(cè)試序列均為國家標(biāo)準(zhǔn),測(cè)試序列要求具有不同類型圖像內(nèi)容,從而使圖像出現(xiàn)亮度和色度、空間和時(shí)間的不同特性的組合。測(cè)試中常采用的國標(biāo)高清測(cè)試圖像序列一般有花壇、轉(zhuǎn)盤、男籃、秋葉、旋轉(zhuǎn)鳥籠等。測(cè)試框架和測(cè)試結(jié)果如圖2所示。
圖2 編解碼圖像質(zhì)量測(cè)試框架及結(jié)果示例
測(cè)試中實(shí)際使用SRT緩沖區(qū)大?。↙atency),由于是局域網(wǎng),象征性地設(shè)置了1幀的長(zhǎng)度,固定參數(shù)包括幀率設(shè)置為50 f·s-1、分辨率設(shè)置為3 840×2 160、熵編碼固定模式等,可修改的參數(shù)指標(biāo)包括碼率大小、GOP長(zhǎng)度和IBP參考幀。常用的GOP按幀倍數(shù)60或100設(shè)定,IBP幀格式一般取IP/IBP,因?yàn)锽幀太多將導(dǎo)致運(yùn)算量顯著上升,且一旦丟失容易造成更多誤碼率,只取P幀是為了追求更小的延時(shí)量。
測(cè)試結(jié)果可以看出并非線性,PQR結(jié)果更貼近人眼主觀感受,PSNR結(jié)果更符合客觀參數(shù)指標(biāo),而且不同廠商設(shè)備間,H.265編碼也并非一定比H.264編碼的圖像質(zhì)量指標(biāo)好。雖然并非所有參數(shù)都在同一指標(biāo)下進(jìn)行比較,但也具有一定的實(shí)際意義,在延時(shí)效果差別不大的情況下,選擇適配網(wǎng)絡(luò)狀況的碼率是決定圖像質(zhì)量的關(guān)鍵。
實(shí)際使用中,可以借助網(wǎng)絡(luò)往返時(shí)間RTT來作為參考,有助于設(shè)置SRT緩沖區(qū)的大小。對(duì)于廣播電視的實(shí)時(shí)流來說,必須將網(wǎng)絡(luò)時(shí)延控制在極低的范圍內(nèi)。類似WebRTC這種端到端實(shí)時(shí)傳輸,時(shí)延需在1 s之內(nèi),才能符合所見即所得的實(shí)時(shí)切換感受,而在實(shí)測(cè)當(dāng)中,硬件編解碼的時(shí)延基本都在幾百毫秒不等。
時(shí)延量的測(cè)試流程和結(jié)果如圖3所示。對(duì)比以上的時(shí)延量可以得出,硬件編解碼的時(shí)延遠(yuǎn)小于軟件編解碼,在碼率允許范圍內(nèi)延時(shí)量增長(zhǎng)有限,較好的圖像質(zhì)量一般會(huì)呈現(xiàn)出更大的延時(shí)。不同處理設(shè)備經(jīng)過公網(wǎng)之后時(shí)延量大小可能并不相同,可能是跟具體設(shè)備內(nèi)部的某些相關(guān)設(shè)置和所選編解碼參數(shù)有關(guān),比如M/H.264/4∶2∶2/10 bit/60 Mb·s-1/GOP60/IP這組參數(shù)在公網(wǎng)中進(jìn)行測(cè)試時(shí),時(shí)延量達(dá)到了268 ms左右,跟局域網(wǎng)連接測(cè)試的時(shí)延差不多;H/H.265/4∶2∶0/10 bit/60 Mb·s-1/GOP100/IP這組參數(shù)在公網(wǎng)中進(jìn)行測(cè)試時(shí),時(shí)延量達(dá)到340 ms,比局域網(wǎng)大了不少。如果解碼端設(shè)置為固定延時(shí),相當(dāng)于設(shè)置了SRT流到SDI輸出的時(shí)間,時(shí)延量會(huì)顯著減少為一半左右,但會(huì)帶來聲畫不同步等影響傳輸質(zhì)量的情況。
圖3 編解碼時(shí)延測(cè)試流程及結(jié)果
聲畫同步(AV Delay)或唇音同步在節(jié)目制作中是一個(gè)重要的質(zhì)量問題,主要是由視頻和音頻各自分開處理造成的。在國家標(biāo)準(zhǔn)中要求比ITU標(biāo)準(zhǔn)-125~+45 ms更加嚴(yán)格,聲畫同步的指標(biāo)為-60~+20 ms,表示音頻相對(duì)滯后60 ms或超前20 ms人眼無察覺[5]。泰克示波器參照基準(zhǔn)為音頻幀,指標(biāo)為-20~+40 ms。
在上下變換器直連過程中進(jìn)行測(cè)試,聲畫同步的初始值是1 ms(聲音滯后),基本可以忽略不計(jì)。后續(xù)在中間連接編解碼器進(jìn)行測(cè)試,分別從局域網(wǎng)和公網(wǎng)進(jìn)行測(cè)試,結(jié)果聲畫同步在不同網(wǎng)絡(luò)間沒有差別,但不同廠商設(shè)備間有差別。造成編解碼器聲畫不同步的原因是視頻和音頻以不同的碼流分開編碼傳輸,到解碼端再通過節(jié)目參考時(shí)鐘(Program Clock Reference,PCR)來定位同步,實(shí)現(xiàn)視音頻的同步輸出。從以上的測(cè)試中可以得出結(jié)論,幾種設(shè)備的聲畫同步基本都合格,數(shù)值可能固定也可能在一定范圍內(nèi)浮動(dòng),相較于國標(biāo)來說都在范圍之內(nèi)。
根據(jù)測(cè)試結(jié)果,幾種主流的編解碼器都能實(shí)現(xiàn)4K超高清信號(hào)的實(shí)時(shí)IP鏈路傳輸,基本的傳輸圖像質(zhì)量客觀化指標(biāo)、時(shí)延、聲畫同步、眼圖等都符合廣播電視制作域的要求。在考慮低時(shí)延的實(shí)時(shí)遠(yuǎn)程制作方案中優(yōu)選硬件編解碼,通過公網(wǎng)固定IP和本身接口或第三方智能路由組網(wǎng),都能夠?qū)崿F(xiàn)導(dǎo)攝的Tally和通話雙向傳輸。對(duì)不同的設(shè)備選項(xiàng)來說,還需考慮實(shí)際使用方向、性價(jià)比、售后支持、遠(yuǎn)程協(xié)助及兼容性等多個(gè)方面,合適的才是最好的。
QoE屬于一個(gè)多屬性融合的問題,基于統(tǒng)計(jì)學(xué)、心理學(xué)、人工智能或隨機(jī)模型的評(píng)價(jià)方法并不一定能夠反映真實(shí)的用戶體驗(yàn)。QoE的影響中包括人的主觀觀測(cè)因素和觀測(cè)環(huán)境等因素,難以被完整測(cè)量和有效量化。對(duì)不同的業(yè)務(wù)和應(yīng)用環(huán)境建立一套通用的評(píng)價(jià)標(biāo)準(zhǔn),還需要進(jìn)一步探討。