音頻比對(duì)技術(shù)在安全播出中的發(fā)展與應(yīng)用

2016-12-19 06:10:03李曉輝

新媒體研究 2016年21期

關(guān)鍵詞：特征提取

摘要對(duì)播出前后的音頻信號(hào)進(jìn)行比對(duì)，及時(shí)發(fā)現(xiàn)播出過(guò)程中的異常，是安全播出中的重要工作內(nèi)容?；贏ES67-2013的網(wǎng)絡(luò)音頻傳輸標(biāo)準(zhǔn)和聲音特征抽樣算法，使音頻比對(duì)技術(shù)進(jìn)入智能化時(shí)代。通過(guò)對(duì)算法的不斷改進(jìn)，音頻比對(duì)技術(shù)已進(jìn)入高效實(shí)用階段。

關(guān)鍵詞音頻比對(duì)聲音特征；AoIP；特征提取

中圖分類(lèi)號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360（2016）21-0041-02

播出后的信號(hào)是否正常，如果不正常，是在哪個(gè)環(huán)節(jié)開(kāi)始出現(xiàn)問(wèn)題，如何縮短發(fā)現(xiàn)問(wèn)題的時(shí)間，在第一時(shí)間發(fā)現(xiàn)播出過(guò)程中出現(xiàn)的異常，是播出安全工作中的重要課題。下面就音頻比對(duì)技術(shù)在廣播安全播出工作中的發(fā)展與應(yīng)用情況做簡(jiǎn)單介紹。

1 音頻比對(duì)技術(shù)的發(fā)展情況

在模擬信號(hào)時(shí)代，播出前后的音頻是否一致完全靠人耳判斷，這也是目前為止準(zhǔn)確率最高的方式，但缺點(diǎn)也顯而易見(jiàn)。隨著需要監(jiān)聽(tīng)的信號(hào)源和點(diǎn)不斷增多，會(huì)出現(xiàn)因監(jiān)聽(tīng)主體疲勞或責(zé)任心不強(qiáng)，造成誤判、發(fā)現(xiàn)不及時(shí)等現(xiàn)象，從而引發(fā)播出安全

事故。

進(jìn)入數(shù)字音頻時(shí)代后，音頻比對(duì)技術(shù)發(fā)展經(jīng)歷了三個(gè)階段。

第一階段，自動(dòng)判斷信號(hào)有無(wú)。主要是對(duì)音頻信號(hào)進(jìn)行數(shù)字化處理，然后進(jìn)行抽樣，當(dāng)信號(hào)電平值低于設(shè)定值一定時(shí)長(zhǎng)后，系統(tǒng)判斷為信號(hào)缺失。顯而易見(jiàn)，這種方式的局限性很大，不具備真正意義上的比對(duì)功能。

第二階段，自動(dòng)比對(duì)兩個(gè)音頻信號(hào)的電平值。隨著數(shù)字技術(shù)的發(fā)展，利用DSP強(qiáng)大的處理能力，可以做到同時(shí)對(duì)兩路或多路信號(hào)進(jìn)行處理。與第一階段的原理一樣，主要是通過(guò)對(duì)采樣信號(hào)的電平值進(jìn)行比對(duì)，做到信號(hào)一致性判斷。這一階段雖然可以做到對(duì)多點(diǎn)信號(hào)間進(jìn)行比對(duì)，但準(zhǔn)確率低，缺少準(zhǔn)確的評(píng)判機(jī)制。

第三階段，基于聲音特性算法的智能比對(duì)。前兩個(gè)階段的音頻比對(duì)技術(shù)是基于信號(hào)純凈，沒(méi)有任何其他干擾成分為基礎(chǔ)的。實(shí)際上，音頻信號(hào)通過(guò)傳輸通路過(guò)程中會(huì)引入各種干擾成分，同時(shí)系統(tǒng)中還存在人為的和非可控的因素，造成音頻信號(hào)的相位、幅度和頻譜等特性指標(biāo)發(fā)生改變。因此，想要準(zhǔn)確的對(duì)比出兩個(gè)音頻是否一致，就要對(duì)聲音的物理特征進(jìn)行比對(duì)。新一代的音頻比對(duì)技術(shù)正是以此建立算法模型，從而使音頻比對(duì)技術(shù)上升到自動(dòng)化、智能化層面。

2 廣播音頻比對(duì)技術(shù)的特點(diǎn)

要想有效地實(shí)現(xiàn)廣播音頻信號(hào)的對(duì)比，首先要了解廣播音頻信號(hào)的特點(diǎn)。廣播音頻信號(hào)具有動(dòng)態(tài)范圍大、頻譜范圍廣、存在時(shí)延等特點(diǎn)，并且在不同的通路上存在形態(tài)不一的隨機(jī)串?dāng)_。那么信源、各傳輸節(jié)點(diǎn)和接收端的信號(hào)會(huì)存在內(nèi)容和時(shí)延上的差異性，這些差異性部分是合理的，這就對(duì)音頻的比對(duì)提出了更高的要求。

在日常播出中，最常見(jiàn)的信號(hào)異?，F(xiàn)象有：

1）信號(hào)中斷，主要由設(shè)備和線路故障造成。

2）內(nèi)容不一致，主要由非法插播和節(jié)目路由失誤造成。

3）雜音，一般由傳輸設(shè)備故障和外來(lái)干擾

造成。

4）反相，節(jié)目在制作時(shí)，音頻的左右聲道相位不一致或傳輸通路信號(hào)線極性錯(cuò)誤，都會(huì)造成聲音的反相。

針對(duì)廣播音頻信號(hào)在傳輸過(guò)程上的獨(dú)特性，廣播領(lǐng)域的音頻比對(duì)技術(shù)應(yīng)具有如下特點(diǎn)。

1）具有即時(shí)性，能對(duì)實(shí)時(shí)播出中的信號(hào)進(jìn)行比對(duì)。

2）能解決時(shí)延的影響，做到延時(shí)后的信號(hào)能和源信號(hào)進(jìn)行比對(duì)。

3）能準(zhǔn)確判斷出內(nèi)容的不一致，包括噪音、串播、插播等原因造成的內(nèi)容不一致。

4）能判斷出聲音失真，包括聲調(diào)、峰值等失真現(xiàn)象。

5）能同時(shí)進(jìn)行多路多組信號(hào)間的對(duì)比。

由以上介紹可知廣播播出上的音頻比對(duì)技術(shù)難題在于兩點(diǎn)。一是建立一套符合聲音特征的數(shù)據(jù)分析算法，即從音頻信號(hào)中提取聲音特征參數(shù)，通過(guò)對(duì)這些參數(shù)進(jìn)行分析，比對(duì)出兩個(gè)音頻內(nèi)容的一致程度。二是將延時(shí)后信號(hào)恢復(fù)到原始的時(shí)間點(diǎn)，只有確定兩個(gè)音頻信號(hào)在時(shí)序上一致，為同一信號(hào)，才有比對(duì)的價(jià)值。

3 基于AoIP的音頻比對(duì)技術(shù)

在采用AES/EUB規(guī)范的數(shù)字音頻時(shí)代和模擬音頻時(shí)代，由于音頻數(shù)據(jù)缺少時(shí)鐘同步系統(tǒng)，不同時(shí)延后的同一信號(hào)缺少時(shí)間標(biāo)識(shí)，致使音頻傳輸通路上的不同點(diǎn)信號(hào)沒(méi)有時(shí)序上的參考，音頻的比對(duì)在這種情況下就顯得毫無(wú)意義，而基于TCP/IP協(xié)議的AoIP數(shù)字音頻格式的出現(xiàn)徹底改變了這一困局。

2013年9月，可互通性質(zhì)的高保真AoIP音頻流應(yīng)用標(biāo)準(zhǔn)（AES67-2013）頒布，其主要包括10個(gè)組成部分，涉及到的內(nèi)容有媒體時(shí)鐘同步規(guī)范、編碼、連接管理、數(shù)據(jù)傳輸以及數(shù)據(jù)發(fā)現(xiàn)等。標(biāo)準(zhǔn)采用了IEEE1588作為媒體時(shí)鐘的同步源，使用現(xiàn)有的IP協(xié)議，如傳輸層使用UDP/RTP，QoS使用DiffServ等。AoIP數(shù)據(jù)流完全繼承了IP數(shù)據(jù)流的特性，使得音頻內(nèi)容的時(shí)間管理成為可能。當(dāng)音頻通路全都采用符合AoIP規(guī)范的設(shè)備（尤其是延時(shí)器），那么我們就可以對(duì)源信號(hào)在不同傳輸位置的新的時(shí)間碼得以掌握，使得我們可以對(duì)任意時(shí)延長(zhǎng)度的音頻信號(hào)進(jìn)行精確的配對(duì)，從而廣播信號(hào)的音頻比對(duì)具有現(xiàn)實(shí)意義。那么，要想實(shí)現(xiàn)廣播音頻信號(hào)的比對(duì)，音頻信號(hào)的傳輸必須建立在AES67-2013標(biāo)準(zhǔn)框架之上。

轉(zhuǎn)換成AoIP格式的源信號(hào)進(jìn)入傳輸通路后，要想提取通路中某一環(huán)節(jié)的信號(hào)與源信號(hào)進(jìn)行比對(duì)，首先要確認(rèn)兩者在時(shí)序一致，或者說(shuō)為延時(shí)后的信號(hào)找到“前世”。當(dāng)確認(rèn)兩者為同一信號(hào)后再進(jìn)行聲音特征參數(shù)抽取采集。因所采集到的音頻在具體數(shù)據(jù)信息量上相對(duì)較大，直接獲取音頻特征的相關(guān)參數(shù)往往會(huì)造成參數(shù)量較大，最終影響其實(shí)時(shí)性。所以，在實(shí)際工作中，可以采用專業(yè)化的Haar小波變換非重構(gòu)算法對(duì)音頻信息進(jìn)行有效壓縮。

音頻數(shù)據(jù)經(jīng)壓縮后，需要分析的數(shù)據(jù)量大大減少，這時(shí)再進(jìn)行音頻特征參數(shù)提取。提取音頻特征參數(shù)，通常采用“音頻幀”法。針對(duì)音頻幀，需提取其12個(gè)Mel倒譜系數(shù)、質(zhì)心以及均方根，總共14個(gè)參數(shù)。針對(duì)音頻序列，以20 ms采集到的音頻數(shù)據(jù)量歸納為一個(gè)音頻幀，而且還必須要在音頻幀當(dāng)中等分32子帶，以此準(zhǔn)確計(jì)算幀質(zhì)心以及均方根。12個(gè)Mel倒譜系數(shù)、1個(gè)質(zhì)心以及1個(gè)均方根，能夠共同構(gòu)成1個(gè)音頻幀的14維特征參數(shù)，之后再由特征參數(shù)構(gòu)成了參數(shù)矩陣。

在音頻幀維特征參數(shù)當(dāng)中，需要分別對(duì)質(zhì)心、均方根以及Mel倒譜系數(shù)實(shí)施科學(xué)化歐氏距離計(jì)算，這個(gè)距離越小，則通常情況下表示其相似度就越高，如果距離越大，則相似度會(huì)越低。

通過(guò)大量對(duì)比對(duì)實(shí)驗(yàn)可以發(fā)現(xiàn)，當(dāng)兩個(gè)音頻信號(hào)相似度達(dá)到90%以上時(shí)，基本可以斷定為內(nèi)容一致；相似度低于80%時(shí)，兩個(gè)音頻內(nèi)容就會(huì)存在明顯的差異性，這時(shí)需要引起足夠的重視。

4 結(jié)束語(yǔ)

AoIP技術(shù)的出現(xiàn)，使得音頻比對(duì)技術(shù)取得長(zhǎng)足的發(fā)展，對(duì)噪聲、串?dāng)_、信號(hào)中斷、反相、失真、插播等常見(jiàn)劣播現(xiàn)象的發(fā)現(xiàn)成功率能達(dá)到95%以上，從此廣播音頻比對(duì)實(shí)現(xiàn)了全自動(dòng)化和智能化，對(duì)提高安全播出具有重大意義。

參考文獻(xiàn)

[1]郭興吉.基于特征的音頻比對(duì)技術(shù)[J].河南師范大學(xué)學(xué)報(bào)，2006，34（2）：35-38.

[2]張萬(wàn)里，劉橋.Mel頻率倒譜系數(shù)提取及其在聲紋識(shí)別中的作用[J].貴州大學(xué)學(xué)報(bào)，2005，22（2）：207-210.

[3]姚天認(rèn).數(shù)字語(yǔ)音處理[M].武漢：華中科技大學(xué)出版社，2002.

[4]R.Venkatesha Prasad. Comparison of Voice Activity Detection Algorithms for VoIP[M].Proceedings of the Seventh International Symposium on Computers and Communications （ISCC02）1530-1346/02，2002.

作者簡(jiǎn)介：李曉輝，工程師，研究方向?yàn)閺V播安全播出。