劉貴臣
(沂水縣融媒體中心,山東 臨沂 276400)
隨著數(shù)字技術(shù)的發(fā)展,數(shù)字音頻技術(shù)在廣播電視系統(tǒng)中的應(yīng)用日益廣泛。相較于傳統(tǒng)模擬音頻技術(shù),數(shù)字音頻技術(shù)具有抗干擾能力強(qiáng)、質(zhì)量損失小、編解碼方便以及傳輸容量大等顯著優(yōu)勢(shì),能夠提供更高的音質(zhì)和更強(qiáng)大的處理能力。由于廣播電視傳輸系統(tǒng)結(jié)構(gòu)復(fù)雜,數(shù)字音頻信號(hào)在傳輸過(guò)程中容易受到信道失真、時(shí)延誤差等影響,導(dǎo)致音頻質(zhì)量下降,嚴(yán)重時(shí)可能出現(xiàn)音畫(huà)不同步、雜音及失真等問(wèn)題[1]。對(duì)此,本文以數(shù)字音頻在廣播電視工程中的同步傳輸與控制技術(shù)為研究對(duì)象,分析數(shù)字音頻信號(hào)的同步傳輸方法、質(zhì)量控制技術(shù)手段以及系統(tǒng)傳輸控制方式,為數(shù)字音頻技術(shù)在廣播電視工程領(lǐng)域的應(yīng)用與發(fā)展提供理論支撐。
1.1.1 數(shù)字音頻的概念與特征
數(shù)字音頻是指利用數(shù)字信號(hào)處理技術(shù)對(duì)聲音進(jìn)行取樣、量化、編碼、存儲(chǔ)、處理和轉(zhuǎn)換的過(guò)程,使用二進(jìn)制數(shù)字代碼而非模擬電信號(hào)來(lái)表示聲音信息。數(shù)字音頻通過(guò)模數(shù)轉(zhuǎn)換器(Analogto-Digital Converter,ADC)將模擬音頻信號(hào)轉(zhuǎn)換成數(shù)字脈沖編碼,再通過(guò)數(shù)模轉(zhuǎn)換器(Digital-to-Analog Converter,DAC)將數(shù)字信號(hào)轉(zhuǎn)換回模擬信號(hào)。數(shù)字音頻可以通過(guò)提高取樣頻率(48 kHz 或更高)和采用高分辨率量化(16 bits 或24 bits)來(lái)獲取更多的聲音細(xì)節(jié)特征,頻率響應(yīng)范圍更寬(可超過(guò)20 kHz),信噪比高(可達(dá)90 dB 以上)[2],因而可以實(shí)現(xiàn)高保真的音質(zhì),逼真地再現(xiàn)聲音的質(zhì)感,利用數(shù)字信號(hào)處理技術(shù)進(jìn)行各種音頻效果的合成,如回聲、混響、均衡等,實(shí)現(xiàn)傳統(tǒng)模擬音頻難以達(dá)到的強(qiáng)大音頻處理能力。
1.1.2 數(shù)字音頻的編碼標(biāo)準(zhǔn)
數(shù)字音頻在傳輸和存儲(chǔ)過(guò)程中需要進(jìn)行編碼壓縮以減少數(shù)據(jù)量。當(dāng)前應(yīng)用較廣泛的數(shù)字音頻編碼標(biāo)準(zhǔn)主要包括以下幾種。
(1)MP3(MPEG-1 音頻層Ⅲ),使用psychoacoustic 模型進(jìn)行有損壓縮,通過(guò)過(guò)濾人耳難以聽(tīng)見(jiàn)的聲音成分,實(shí)現(xiàn)11 ∶1 的高壓縮率,是互聯(lián)網(wǎng)使用最普遍的編碼格式。
(2)AAC 是在MPEG-2 和MPEG-4 中使用的專業(yè)級(jí)編碼標(biāo)準(zhǔn),其壓縮效率優(yōu)于MP3,支持多聲道、更多比特率選項(xiàng),應(yīng)用在數(shù)字電視和數(shù)字音樂(lè)播放中。
(3)AC-3,也稱Dolby Digital,是杜比實(shí)驗(yàn)室研發(fā)的綜合多聲道數(shù)字音頻格式,包含1 ~6 個(gè)聲道,采樣率為48 kHz,應(yīng)用在DVD、藍(lán)光影碟及數(shù)字電視等產(chǎn)品中。
(4)WMA 是微軟公司的音頻壓縮格式,可在與MP3 相媲美的音質(zhì)下獲得更小的文件體積,是Windows Media Player 軟件默認(rèn)的編碼標(biāo)準(zhǔn)。
(5)FLAC 是一種無(wú)損編碼方式,可減小50%~60%的存儲(chǔ)空間而不損失音質(zhì),適用于對(duì)音質(zhì)要求極高的場(chǎng)合。
1.2.1 數(shù)字電視音頻廣播
數(shù)字電視可以提供CD 級(jí)別的高保真音質(zhì),支持立體聲以及AC-3、Dolby Digital 等多聲道環(huán)繞音效,遠(yuǎn)高于模擬電視的單聲道音質(zhì),針對(duì)不同節(jié)目提供多語(yǔ)言音軌、視障解說(shuō)等音頻服務(wù),還可實(shí)現(xiàn)交互娛樂(lè)節(jié)目中的環(huán)繞音效,觀眾可以自由選擇所需的音頻通道。
1.2.2 數(shù)字有線電視音頻
數(shù)字有線電視通過(guò)有線網(wǎng)絡(luò)采用數(shù)字編碼技術(shù)傳輸視頻與音頻信號(hào),可提供CD 級(jí)別音質(zhì)的數(shù)字立體聲,支持杜比AC-3、DTS 等多聲道環(huán)繞音效,同時(shí)采用正交振幅調(diào)制(Quadrature Amplitude Modulation,QAM)、編碼正交頻分復(fù)用(Coded Orthogonal Frequency Division Multiplexing,COFDM)等數(shù)字調(diào)制技術(shù),可有效抵抗傳輸鏈路中的各種隨機(jī)噪聲和相鄰信道干擾,保證音頻信號(hào)的完整性[3]。
1.2.3 網(wǎng)絡(luò)在線音視頻
網(wǎng)絡(luò)在線音視頻服務(wù)的廣泛應(yīng)用,主要建立在數(shù)字音頻技術(shù)基礎(chǔ)上。網(wǎng)絡(luò)在線音視頻需要使用數(shù)字音頻編碼技術(shù)對(duì)音頻信號(hào)進(jìn)行壓縮,常用的編碼標(biāo)準(zhǔn)有MP3、AAC、WMA 等,可以顯著降低音頻數(shù)據(jù)流量,滿足網(wǎng)絡(luò)傳輸?shù)男枨?。?jīng)過(guò)編碼壓縮后的數(shù)字音頻信號(hào)與視頻信號(hào)多路復(fù)用,打包成流媒體格式,通過(guò)傳輸控制協(xié)議/網(wǎng)際協(xié)議(Transmission Control Protocol/Internet Protocol,TCP/IP)網(wǎng)絡(luò)進(jìn)行傳輸,支持用戶點(diǎn)播需求。
基于時(shí)間戳是數(shù)字音頻同步的一種常用技術(shù)手段,其基本原理是在對(duì)數(shù)字音頻信號(hào)進(jìn)行編碼和封包過(guò)程中,在每個(gè)音頻數(shù)據(jù)包的首部添加表示采樣時(shí)間或發(fā)送時(shí)間的時(shí)間戳信息。解碼端接收到數(shù)據(jù)包后,根據(jù)數(shù)據(jù)包中的時(shí)間戳,設(shè)置定時(shí)器,將音頻數(shù)據(jù)預(yù)存入緩沖區(qū)。當(dāng)定時(shí)器時(shí)間與時(shí)間戳一致,從緩沖區(qū)取出對(duì)應(yīng)音頻數(shù)據(jù)進(jìn)行播放。采用時(shí)間戳同步的優(yōu)點(diǎn)有:直接依賴時(shí)間信息同步,無(wú)須解析音頻內(nèi)容,實(shí)現(xiàn)簡(jiǎn)單;只需要編碼端加入時(shí)間戳,無(wú)須改變網(wǎng)絡(luò)傳輸機(jī)制;同步精度高,誤差可控制在幾毫秒以內(nèi);可適用于各種網(wǎng)絡(luò)條件,抗網(wǎng)絡(luò)抖動(dòng)能力強(qiáng)。
流媒體協(xié)議同步是數(shù)字音頻同步傳輸?shù)牧硪环N重要方式,主要過(guò)程如下:
(1)在對(duì)數(shù)字音頻流進(jìn)行封裝處理時(shí)采用實(shí)時(shí)流媒體協(xié)議,如RTSP、實(shí)時(shí)傳輸協(xié)議(Real-time Transport Protocol,RTP)等,在協(xié)議消息頭中插入表示時(shí)間信息的時(shí)間戳;
(2)在接收端,根據(jù)流媒體協(xié)議中的時(shí)間戳對(duì)音頻數(shù)據(jù)包進(jìn)行重排序和緩存,緩存過(guò)長(zhǎng)的數(shù)據(jù)包可以棄用;
(3)解碼器根據(jù)流媒體消息中的時(shí)間戳,在時(shí)間一致時(shí)從緩存中取出相應(yīng)的音頻數(shù)據(jù)包進(jìn)行解碼和播放。
評(píng)估數(shù)字音頻傳輸質(zhì)量的主要技術(shù)指標(biāo)有:
(1)誤碼率,用于表示數(shù)字傳輸系統(tǒng)在傳輸過(guò)程中發(fā)生比特誤碼的比率,數(shù)字音頻傳輸?shù)恼`碼率越低,傳輸誤差就越少,音質(zhì)的損失也越??;
(2)抖動(dòng)和丟包率,抖動(dòng)是數(shù)據(jù)包到達(dá)間隔時(shí)間的變化,丟包率是傳輸中未能成功到達(dá)的包的比率,音頻傳輸?shù)亩秳?dòng)和丟包率越低,音頻延遲變化和中斷就越少;
(3)客觀的聽(tīng)覺(jué)質(zhì)量模型評(píng)估,通過(guò)仿真信號(hào)傳輸和分析模型,如語(yǔ)音質(zhì)量感知評(píng)估(Perceptual Evaluation of Speech Quality,PESQ)、音頻質(zhì)量感知評(píng)估(Perceptual Evaluation of Audio Quality,PEAQ)等,來(lái)評(píng)估編碼和網(wǎng)絡(luò)傳輸對(duì)音質(zhì)的影響;
(4)主觀聽(tīng)覺(jué)質(zhì)量評(píng)估,需要專業(yè)評(píng)委進(jìn)行耳機(jī)監(jiān)聽(tīng),判斷數(shù)字處理對(duì)音質(zhì)的損害程度。
3.2.1 前饋控制
數(shù)字音頻傳輸?shù)那梆伩刂剖且环N重要的控制策略,主要技術(shù)流程如下:
(1)進(jìn)行數(shù)字音頻編碼和傳輸之前,通過(guò)模型預(yù)測(cè)等方式,實(shí)時(shí)獲取網(wǎng)絡(luò)當(dāng)前的狀態(tài)參數(shù),如帶寬、時(shí)延抖動(dòng)等;
(2)根據(jù)這些預(yù)測(cè)結(jié)果,對(duì)數(shù)字音頻編碼器的控制參數(shù)如編碼比特率、丟包補(bǔ)償能力等進(jìn)行智能優(yōu)化,配置編碼器使用適應(yīng)當(dāng)前網(wǎng)絡(luò)狀態(tài)的編碼參數(shù);
(3)采用經(jīng)優(yōu)化配置的編碼器對(duì)音頻數(shù)據(jù)進(jìn)行編碼后傳輸?shù)浇邮斩耍瑥亩畲笙薅鹊剡m應(yīng)網(wǎng)絡(luò)狀態(tài),提高數(shù)字音頻的傳輸質(zhì)量;
(4)通過(guò)從接收端反饋獲得的實(shí)際網(wǎng)絡(luò)狀態(tài)和服務(wù)質(zhì)量(Quality of Service,QoS)數(shù)據(jù)實(shí)現(xiàn)閉環(huán)控制,持續(xù)校正和優(yōu)化編碼器的參數(shù)。
采用前饋控制策略的優(yōu)點(diǎn)在于可以動(dòng)態(tài)調(diào)整編碼參數(shù)以適應(yīng)網(wǎng)絡(luò)變化。主動(dòng)控制策略可以快速反應(yīng)網(wǎng)絡(luò)狀態(tài),簡(jiǎn)化接收端處理,可以根據(jù)不同指標(biāo)進(jìn)行多目標(biāo)的聯(lián)合控制。
3.2.2 反饋控制
數(shù)字音頻傳輸?shù)姆答伩刂剖腔陂]環(huán)控制理論的另一種重要控制策略,主要技術(shù)流程包括:
(1)在數(shù)字音頻接收端實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)傳輸狀態(tài)和音頻播放質(zhì)量參數(shù),如傳輸延遲、丟包率及抖動(dòng)等,將這些監(jiān)測(cè)結(jié)果即網(wǎng)絡(luò)狀態(tài)反饋傳回發(fā)送端的數(shù)字音頻編碼器控制器;
(2)控制器根據(jù)反饋回來(lái)的實(shí)際網(wǎng)絡(luò)狀態(tài),動(dòng)態(tài)調(diào)整數(shù)字音頻編碼的參數(shù),如編碼比特率、丟包容錯(cuò)能力等,經(jīng)編碼器調(diào)控輸出的數(shù)字音頻數(shù)據(jù),可以更好地適應(yīng)當(dāng)前的網(wǎng)絡(luò)傳輸狀況,保證接收端播放質(zhì)量;
(3)通過(guò)該閉環(huán)反饋的控制方式,持續(xù)優(yōu)化數(shù)字音頻編碼的控制效果[4]。
反饋控制策略的主要優(yōu)點(diǎn)在于可以根據(jù)真實(shí)網(wǎng)絡(luò)來(lái)調(diào)控編碼器,可配合其他控制手段實(shí)現(xiàn)多目標(biāo)控制,對(duì)網(wǎng)絡(luò)動(dòng)態(tài)變化有很強(qiáng)的適應(yīng)能力。通過(guò)反饋環(huán)路可以有效應(yīng)對(duì)網(wǎng)絡(luò)動(dòng)態(tài)變化,但其控制效率還取決于反饋通道的實(shí)時(shí)性能[5]。
數(shù)字音頻技術(shù)的發(fā)展為廣播電視業(yè)提供了實(shí)現(xiàn)高保真音質(zhì)傳輸?shù)目赡苄?。相關(guān)技術(shù)的持續(xù)創(chuàng)新與改進(jìn),將促進(jìn)數(shù)字音頻在抗干擾、精確同步等方面的性能不斷提升,并與視頻和數(shù)據(jù)技術(shù)實(shí)現(xiàn)深度融合,支持廣播電視系統(tǒng)實(shí)現(xiàn)更具互動(dòng)性和智能化的音頻服務(wù),為觀眾提供更優(yōu)質(zhì)的視聽(tīng)體驗(yàn)。數(shù)字音頻技術(shù)具有廣闊的應(yīng)用前景,將在廣播電視工程領(lǐng)域得到進(jìn)一步的應(yīng)用與發(fā)展,在保證音質(zhì)的同時(shí)實(shí)現(xiàn)傳輸?shù)目煽啃?、靈活性與智能化,拓展廣播電視的新功能與應(yīng)用空間。