摘 要 對(duì)播出前后的音頻信號(hào)進(jìn)行比對(duì),及時(shí)發(fā)現(xiàn)播出過(guò)程中的異常,是安全播出中的重要工作內(nèi)容?;贏ES67-2013的網(wǎng)絡(luò)音頻傳輸標(biāo)準(zhǔn)和聲音特征抽樣算法,使音頻比對(duì)技術(shù)進(jìn)入智能化時(shí)代。通過(guò)對(duì)算法的不斷改進(jìn),音頻比對(duì)技術(shù)已進(jìn)入高效實(shí)用階段。
關(guān)鍵詞 音頻比對(duì)聲音特征;AoIP;特征提取
中圖分類(lèi)號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2016)21-0041-02
播出后的信號(hào)是否正常,如果不正常,是在哪個(gè)環(huán)節(jié)開(kāi)始出現(xiàn)問(wèn)題,如何縮短發(fā)現(xiàn)問(wèn)題的時(shí)間,在第一時(shí)間發(fā)現(xiàn)播出過(guò)程中出現(xiàn)的異常,是播出安全工作中的重要課題。下面就音頻比對(duì)技術(shù)在廣播安全播出工作中的發(fā)展與應(yīng)用情況做簡(jiǎn)單介紹。
1 音頻比對(duì)技術(shù)的發(fā)展情況
在模擬信號(hào)時(shí)代,播出前后的音頻是否一致完全靠人耳判斷,這也是目前為止準(zhǔn)確率最高的方式,但缺點(diǎn)也顯而易見(jiàn)。隨著需要監(jiān)聽(tīng)的信號(hào)源和點(diǎn)不斷增多,會(huì)出現(xiàn)因監(jiān)聽(tīng)主體疲勞或責(zé)任心不強(qiáng),造成誤判、發(fā)現(xiàn)不及時(shí)等現(xiàn)象,從而引發(fā)播出安全
事故。
進(jìn)入數(shù)字音頻時(shí)代后,音頻比對(duì)技術(shù)發(fā)展經(jīng)歷了三個(gè)階段。
第一階段,自動(dòng)判斷信號(hào)有無(wú)。主要是對(duì)音頻信號(hào)進(jìn)行數(shù)字化處理,然后進(jìn)行抽樣,當(dāng)信號(hào)電平值低于設(shè)定值一定時(shí)長(zhǎng)后,系統(tǒng)判斷為信號(hào)缺失。顯而易見(jiàn),這種方式的局限性很大,不具備真正意義上的比對(duì)功能。
第二階段,自動(dòng)比對(duì)兩個(gè)音頻信號(hào)的電平值。隨著數(shù)字技術(shù)的發(fā)展,利用DSP強(qiáng)大的處理能力,可以做到同時(shí)對(duì)兩路或多路信號(hào)進(jìn)行處理。與第一階段的原理一樣,主要是通過(guò)對(duì)采樣信號(hào)的電平值進(jìn)行比對(duì),做到信號(hào)一致性判斷。這一階段雖然可以做到對(duì)多點(diǎn)信號(hào)間進(jìn)行比對(duì),但準(zhǔn)確率低,缺少準(zhǔn)確的評(píng)判機(jī)制。
第三階段,基于聲音特性算法的智能比對(duì)。前兩個(gè)階段的音頻比對(duì)技術(shù)是基于信號(hào)純凈,沒(méi)有任何其他干擾成分為基礎(chǔ)的。實(shí)際上,音頻信號(hào)通過(guò)傳輸通路過(guò)程中會(huì)引入各種干擾成分,同時(shí)系統(tǒng)中還存在人為的和非可控的因素,造成音頻信號(hào)的相位、幅度和頻譜等特性指標(biāo)發(fā)生改變。因此,想要準(zhǔn)確的對(duì)比出兩個(gè)音頻是否一致,就要對(duì)聲音的物理特征進(jìn)行比對(duì)。新一代的音頻比對(duì)技術(shù)正是以此建立算法模型,從而使音頻比對(duì)技術(shù)上升到自動(dòng)化、智能化層面。
2 廣播音頻比對(duì)技術(shù)的特點(diǎn)
要想有效地實(shí)現(xiàn)廣播音頻信號(hào)的對(duì)比,首先要了解廣播音頻信號(hào)的特點(diǎn)。廣播音頻信號(hào)具有動(dòng)態(tài)范圍大、頻譜范圍廣、存在時(shí)延等特點(diǎn),并且在不同的通路上存在形態(tài)不一的隨機(jī)串?dāng)_。那么信源、各傳輸節(jié)點(diǎn)和接收端的信號(hào)會(huì)存在內(nèi)容和時(shí)延上的差異性,這些差異性部分是合理的,這就對(duì)音頻的比對(duì)提出了更高的要求。
在日常播出中,最常見(jiàn)的信號(hào)異?,F(xiàn)象有:
1)信號(hào)中斷,主要由設(shè)備和線路故障造成。
2)內(nèi)容不一致,主要由非法插播和節(jié)目路由失誤造成。
3)雜音,一般由傳輸設(shè)備故障和外來(lái)干擾
造成。
4)反相,節(jié)目在制作時(shí),音頻的左右聲道相位不一致或傳輸通路信號(hào)線極性錯(cuò)誤,都會(huì)造成聲音的反相。
針對(duì)廣播音頻信號(hào)在傳輸過(guò)程上的獨(dú)特性,廣播領(lǐng)域的音頻比對(duì)技術(shù)應(yīng)具有如下特點(diǎn)。
1)具有即時(shí)性,能對(duì)實(shí)時(shí)播出中的信號(hào)進(jìn)行比對(duì)。
2)能解決時(shí)延的影響,做到延時(shí)后的信號(hào)能和源信號(hào)進(jìn)行比對(duì)。
3)能準(zhǔn)確判斷出內(nèi)容的不一致,包括噪音、串播、插播等原因造成的內(nèi)容不一致。
4)能判斷出聲音失真,包括聲調(diào)、峰值等失真現(xiàn)象。
5)能同時(shí)進(jìn)行多路多組信號(hào)間的對(duì)比。
由以上介紹可知廣播播出上的音頻比對(duì)技術(shù)難題在于兩點(diǎn)。一是建立一套符合聲音特征的數(shù)據(jù)分析算法,即從音頻信號(hào)中提取聲音特征參數(shù),通過(guò)對(duì)這些參數(shù)進(jìn)行分析,比對(duì)出兩個(gè)音頻內(nèi)容的一致程度。二是將延時(shí)后信號(hào)恢復(fù)到原始的時(shí)間點(diǎn),只有確定兩個(gè)音頻信號(hào)在時(shí)序上一致,為同一信號(hào),才有比對(duì)的價(jià)值。
3 基于AoIP的音頻比對(duì)技術(shù)
在采用AES/EUB規(guī)范的數(shù)字音頻時(shí)代和模擬音頻時(shí)代,由于音頻數(shù)據(jù)缺少時(shí)鐘同步系統(tǒng),不同時(shí)延后的同一信號(hào)缺少時(shí)間標(biāo)識(shí),致使音頻傳輸通路上的不同點(diǎn)信號(hào)沒(méi)有時(shí)序上的參考,音頻的比對(duì)在這種情況下就顯得毫無(wú)意義,而基于TCP/IP協(xié)議的AoIP數(shù)字音頻格式的出現(xiàn)徹底改變了這一困局。
2013年9月,可互通性質(zhì)的高保真AoIP音頻流應(yīng)用標(biāo)準(zhǔn)(AES67-2013)頒布,其主要包括10個(gè)組成部分,涉及到的內(nèi)容有媒體時(shí)鐘同步規(guī)范、編碼、連接管理、數(shù)據(jù)傳輸以及數(shù)據(jù)發(fā)現(xiàn)等。標(biāo)準(zhǔn)采用了IEEE1588作為媒體時(shí)鐘的同步源,使用現(xiàn)有的IP協(xié)議,如傳輸層使用UDP/RTP,QoS使用DiffServ等。AoIP數(shù)據(jù)流完全繼承了IP數(shù)據(jù)流的特性,使得音頻內(nèi)容的時(shí)間管理成為可能。當(dāng)音頻通路全都采用符合AoIP規(guī)范的設(shè)備(尤其是延時(shí)器),那么我們就可以對(duì)源信號(hào)在不同傳輸位置的新的時(shí)間碼得以掌握,使得我們可以對(duì)任意時(shí)延長(zhǎng)度的音頻信號(hào)進(jìn)行精確的配對(duì),從而廣播信號(hào)的音頻比對(duì)具有現(xiàn)實(shí)意義。那么,要想實(shí)現(xiàn)廣播音頻信號(hào)的比對(duì),音頻信號(hào)的傳輸必須建立在AES67-2013標(biāo)準(zhǔn)框架之上。
轉(zhuǎn)換成AoIP格式的源信號(hào)進(jìn)入傳輸通路后,要想提取通路中某一環(huán)節(jié)的信號(hào)與源信號(hào)進(jìn)行比對(duì),首先要確認(rèn)兩者在時(shí)序一致,或者說(shuō)為延時(shí)后的信號(hào)找到“前世”。當(dāng)確認(rèn)兩者為同一信號(hào)后再進(jìn)行聲音特征參數(shù)抽取采集。因所采集到的音頻在具體數(shù)據(jù)信息量上相對(duì)較大,直接獲取音頻特征的相關(guān)參數(shù)往往會(huì)造成參數(shù)量較大,最終影響其實(shí)時(shí)性。所以,在實(shí)際工作中,可以采用專業(yè)化的Haar小波變換非重構(gòu)算法對(duì)音頻信息進(jìn)行有效壓縮。
音頻數(shù)據(jù)經(jīng)壓縮后,需要分析的數(shù)據(jù)量大大減少,這時(shí)再進(jìn)行音頻特征參數(shù)提取。提取音頻特征參數(shù),通常采用“音頻幀”法。針對(duì)音頻幀,需提取其12個(gè)Mel倒譜系數(shù)、質(zhì)心以及均方根,總共14個(gè)參數(shù)。針對(duì)音頻序列,以20 ms采集到的音頻數(shù)據(jù)量歸納為一個(gè)音頻幀,而且還必須要在音頻幀當(dāng)中等分32子帶,以此準(zhǔn)確計(jì)算幀質(zhì)心以及均方根。12個(gè)Mel倒譜系數(shù)、1個(gè)質(zhì)心以及1個(gè)均方根,能夠共同構(gòu)成1個(gè)音頻幀的14維特征參數(shù),之后再由特征參數(shù)構(gòu)成了參數(shù)矩陣。
在音頻幀維特征參數(shù)當(dāng)中,需要分別對(duì)質(zhì)心、均方根以及Mel倒譜系數(shù)實(shí)施科學(xué)化歐氏距離計(jì)算,這個(gè)距離越小,則通常情況下表示其相似度就越高,如果距離越大,則相似度會(huì)越低。
通過(guò)大量對(duì)比對(duì)實(shí)驗(yàn)可以發(fā)現(xiàn),當(dāng)兩個(gè)音頻信號(hào)相似度達(dá)到90%以上時(shí),基本可以斷定為內(nèi)容一致;相似度低于80%時(shí),兩個(gè)音頻內(nèi)容就會(huì)存在明顯的差異性,這時(shí)需要引起足夠的重視。
4 結(jié)束語(yǔ)
AoIP技術(shù)的出現(xiàn),使得音頻比對(duì)技術(shù)取得長(zhǎng)足的發(fā)展,對(duì)噪聲、串?dāng)_、信號(hào)中斷、反相、失真、插播等常見(jiàn)劣播現(xiàn)象的發(fā)現(xiàn)成功率能達(dá)到95%以上,從此廣播音頻比對(duì)實(shí)現(xiàn)了全自動(dòng)化和智能化,對(duì)提高安全播出具有重大意義。
參考文獻(xiàn)
[1]郭興吉.基于特征的音頻比對(duì)技術(shù)[J].河南師范大學(xué)學(xué)報(bào),2006,34(2):35-38.
[2]張萬(wàn)里,劉橋.Mel頻率倒譜系數(shù)提取及其在聲紋識(shí)別中的作用[J].貴州大學(xué)學(xué)報(bào),2005,22(2):207-210.
[3]姚天認(rèn).數(shù)字語(yǔ)音處理[M].武漢:華中科技大學(xué)出版社,2002.
[4]R.Venkatesha Prasad. Comparison of Voice Activity Detection Algorithms for VoIP[M].Proceedings of the Seventh International Symposium on Computers and Communications (ISCC02)1530-1346/02,2002.
作者簡(jiǎn)介:李曉輝,工程師,研究方向?yàn)閺V播安全播出。