• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于MFCC 均值特征的電臺(tái)語言類節(jié)目相似度比對(duì)算法研究

      2022-06-15 02:33:00聶晨淅
      電聲技術(shù) 2022年4期
      關(guān)鍵詞:梅爾特征參數(shù)類節(jié)目

      聶晨淅

      (中央廣播電視總臺(tái),北京 100866)

      0 引言

      對(duì)于廣播電臺(tái)來說,廣播節(jié)目的安全播出是十分重要的。播出監(jiān)測(cè)系統(tǒng)隨著技術(shù)的不斷發(fā)展,逐漸智能化、自動(dòng)化?,F(xiàn)在的播出系統(tǒng)往往是由龐大的播出鏈路組成的,其中一些設(shè)備可能因?yàn)楣收显蛟斐刹コ鲆纛l信號(hào)的內(nèi)容不一致,混入雜音。另外,黑客等不法分子通過技術(shù)手段非法入侵播出系統(tǒng),播出有害信息,特別是廣播電臺(tái)會(huì)播出大量的外語節(jié)目或者少數(shù)民族語言類節(jié)目,播控人員在非母語環(huán)境中無法有效識(shí)別這些錯(cuò)誤和非法有害信息,特別是語言類節(jié)目,會(huì)造成惡劣影響。為了解決這樣的問題,電臺(tái)技術(shù)人員需要對(duì)播出的音頻各個(gè)節(jié)點(diǎn)進(jìn)行智能監(jiān)控對(duì)比,及時(shí)發(fā)現(xiàn)異常并報(bào)警提醒。

      1 音頻對(duì)比

      廣播音頻總體可以分為音樂音頻和語言音頻兩大類。語言音頻占比非常大,重大直播轉(zhuǎn)播節(jié)目通常使用此類音頻,因此防止此類音頻被惡意混入和篡改是檢測(cè)對(duì)比這類音頻的關(guān)鍵,也是確保播出安全的重中之重,因此本文討論的重點(diǎn)集中在語言音頻。一般來說,現(xiàn)代播出電臺(tái)的播出系統(tǒng)主要分為主、備雙播出鏈路結(jié)構(gòu),可以對(duì)兩個(gè)鏈路上的關(guān)鍵節(jié)點(diǎn)進(jìn)行音頻信號(hào)比對(duì)來發(fā)現(xiàn)問題,此外,也可以對(duì)播出通路的末級(jí)信號(hào)和接收的開路信號(hào)相比較,來發(fā)現(xiàn)原始信號(hào)和接收信號(hào)的不一致問題。兩種方式的對(duì)比如圖1 所示。

      圖1 主備通路和末級(jí)開路信號(hào)對(duì)比

      1.1 音頻的特點(diǎn)

      聲音的本質(zhì)是一種在介質(zhì)中振動(dòng)的帶有能量的波。而音頻是個(gè)專業(yè)術(shù)語,音頻一詞用作一般性描述音頻范圍內(nèi)與聲音有關(guān)的設(shè)備及其作用,一般可以理解為儲(chǔ)存在計(jì)算機(jī)里的聲音。它有很多具體的特征,比如頻率、幅度、節(jié)拍等。

      在廣播節(jié)目中,在播出源音頻信號(hào)已知或者是主備其中一路能認(rèn)定正常的情況下,音頻對(duì)比可以不考慮其高級(jí)語義和情感,對(duì)音頻信號(hào)的一些物理特征進(jìn)行提取和判定即可。人們對(duì)音頻信號(hào)對(duì)比技術(shù)已經(jīng)進(jìn)行了相當(dāng)多的研究,目前常用的音頻對(duì)比技術(shù)多數(shù)是以音頻的某一物理特征作為參數(shù)進(jìn)行對(duì)比。

      1.2 常用的對(duì)比方法

      通常,大多數(shù)音頻對(duì)比方法將兩段對(duì)比的音頻信號(hào)放在時(shí)間域上,利用波形等特征,通過傳統(tǒng)的圖形技術(shù)識(shí)別技術(shù)進(jìn)行對(duì)比[1],或者利用一些時(shí)域物理特征如短時(shí)平均能量、包絡(luò)特征及過零率[2]等。在頻域方面,可以利用子帶能量比、頻譜質(zhì)心[3]、帶寬特性、信息熵、線性預(yù)測(cè)系數(shù)和梅爾頻率倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficients,MFCC)[4],提取其特征參數(shù),然后計(jì)算其特征參數(shù)之間的相似度來進(jìn)行對(duì)比。

      2 音頻特征提取

      2.1 梅爾倒譜系數(shù)

      采樣的廣播節(jié)目音頻不僅包括一些時(shí)域和頻域的特征,同時(shí)也包含大量的冗余信息。對(duì)于語音音頻信號(hào)來說,這些冗余信息可能是人耳聽覺范圍之外的聲音以及被掩蔽掉的音頻信號(hào)。特征提取的本質(zhì)就是對(duì)這些大量冗余信息加以過濾。

      根據(jù)聲學(xué)知識(shí)可知[5],人類語音的大部分信息包含在低頻分量中。人們聽到的聲音高低與該聲音頻率的對(duì)數(shù)近似呈線性正比關(guān)系?;谝陨咸卣鳎疚倪x用一種基于梅爾頻率倒譜系數(shù)(MFCC)的方法對(duì)語音信號(hào)進(jìn)行特征提取。梅爾倒譜系數(shù)與頻率的關(guān)系可用下式近似表示:

      式中:fmel指的是感知頻率,f代表實(shí)際頻率。

      2.2 提取流程

      對(duì)音頻的幀信號(hào)進(jìn)行頻域的特征提取,經(jīng)過一系列操作后,這些特征值形成一系列的倒譜系數(shù),稱為MFCC 系數(shù)。具體的提取流程是:先對(duì)原始音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗以及快速離散傅里葉變換(Fast Fourier Transform,F(xiàn)FT),再計(jì)算能量譜,將得到的能量譜通過三角帶通濾波器,濾波輸出的結(jié)果,利用梅爾域與線性頻率的關(guān)系式轉(zhuǎn)為對(duì)數(shù)形式,最后進(jìn)行離散余弦變換(Discrete Cosine Transform,DCT),得到MFCC 系數(shù)。整個(gè)提取流程如圖2 所示。

      圖2 MFCC 提取流程

      2.3 音頻預(yù)處理

      語音信號(hào)具有短時(shí)平穩(wěn)性,特征提取計(jì)算需要在短時(shí)長的音頻信號(hào)上采樣。特征提取之前,要對(duì)音頻預(yù)處理。預(yù)處理一般分為預(yù)加重、分幀處理及加窗操作三步。

      預(yù)加重的目的是提高音頻信號(hào)中的高頻分量,使高低頻分量之間的能量落差減小,還增加了部分語音能量,在一定程度上抑制隨機(jī)噪聲。實(shí)質(zhì)是將音頻信號(hào)通過一個(gè)高通濾波器。濾波器的傳遞函數(shù)H(z)為:

      式中:μ接近于1。

      分幀和加窗操作就是利用音頻信號(hào)的短時(shí)平穩(wěn)性,將音頻分割成幀,作為特征提取的輸入。總體來說,就是給音頻信號(hào)乘以一個(gè)窗函數(shù),一般選用Hamming 窗,因?yàn)樗耐◣Ц鼘?,通帶外衰減更為迅速。同時(shí),加窗只是對(duì)窗內(nèi)的信號(hào)進(jìn)行提取,以便后續(xù)操作。

      式中:N為窗長。

      預(yù)處理完成后,對(duì)每一幀信號(hào)進(jìn)行FFT 變換,將時(shí)域信號(hào)轉(zhuǎn)換為頻域信號(hào)進(jìn)行后續(xù)頻率分析。假設(shè)分幀加窗后的音頻信號(hào)函數(shù)為x(n),快速離散傅里葉變換后幀頻譜x(k)為:

      式中:k代表頻域中FFT 的第k條譜線,N為譜線數(shù)。丟棄相位譜保留信號(hào)的能量譜E(k),通過計(jì)算可得E(k)=|x(k)|2。

      2.4 梅爾濾波器

      濾波器是基于人耳的特性幵發(fā)出來的,是一種三角型濾波器組。三角形濾波本質(zhì)是三角形的函數(shù),具有上下限和中心頻率。梅爾濾波器組的主要作用就是突出頻譜內(nèi)語音的波峰,并消除諧波,如圖3 所示。梅爾濾波器組是一個(gè)含有M個(gè)三角帶通濾波器的集合,其中每一個(gè)濾波器組對(duì)應(yīng)著不同的中心頻率f(m),這里M一般取24。

      圖3 梅爾濾波器組

      用三角濾波器的中心頻率f(m)來計(jì)算三角濾波器的頻率響應(yīng)Hm(k),梅爾濾波器的設(shè)計(jì)就是f(m)之間的間隔隨著m的增大而增大,保證其面積不變。據(jù)此可以算出頻率響應(yīng)公式如下:

      2.5 求MFCC 系數(shù)

      音頻幀信號(hào)梅爾濾波后,對(duì)濾波器組的輸出進(jìn)行對(duì)數(shù)運(yùn)算來模擬人耳感受,求卷積后得對(duì)數(shù)能量S(m)。

      式中:Hm(k)為第m個(gè)濾波器第k條譜線對(duì)應(yīng)的幅度。

      為了使得各維特征向量值之間相互獨(dú)立,需要進(jìn)行離散余弦變換DCT,這樣能較大程度地去除語音特征參數(shù)之間的相關(guān)性。離散余弦變換可以減少特征的維數(shù),在實(shí)際的語音識(shí)別過程中,特征參數(shù)不取所有參數(shù),一般取前12 個(gè)最有效的特征聚集。

      式中:C(l)為第l階MFCC,l為MFCC 的階數(shù)。

      上述12 個(gè)梅爾倒譜系數(shù)構(gòu)成了1 個(gè)音頻幀的12 維特征參數(shù)。實(shí)際應(yīng)用中會(huì)引入其一階差分和二階差分,與MFCC 系數(shù)共同構(gòu)成音頻特征參數(shù)矩陣。

      2.6 一、二階差分系數(shù)的提取

      通常由上述步驟求得的MFCC 倒譜參數(shù)只反映了被測(cè)音頻片段的靜態(tài)特性,而其動(dòng)態(tài)特性可以用這些靜態(tài)特征的差分譜來描述。為了提高音頻對(duì)比系統(tǒng)的識(shí)別準(zhǔn)確率,通過大量實(shí)驗(yàn)得出結(jié)論:將動(dòng)、靜態(tài)特征參數(shù)結(jié)合起來進(jìn)行判定比較可靠。差分參數(shù)的計(jì)算可以采用下面的公式:

      式中:Dt為第t個(gè)一階差分,Ct為第t個(gè)倒譜系數(shù),Q為倒譜系數(shù)的階數(shù),K是一階導(dǎo)數(shù)的時(shí)間差,可取1 或2。式(8)的運(yùn)算的結(jié)果再代入即可得到二階差分的參數(shù)。MFCC 和其特征均值的系數(shù)分布如圖4 所示。

      圖4 MFCC 和其特征均值的系數(shù)圖

      本文在實(shí)際應(yīng)用中通常不對(duì)所得的MFCC 系數(shù)做統(tǒng)一的平均化處理,主要是因?yàn)橥ㄟ^大量的實(shí)驗(yàn)數(shù)據(jù)分析發(fā)現(xiàn),不同的MFCC 特征值所表現(xiàn)的特性不同??紤]到各階系數(shù)的權(quán)重并綜合實(shí)驗(yàn)效果,本文將計(jì)算得到的各幀MFCC 系數(shù)及一階差分序列和二階差分序列系數(shù),通過以下公式運(yùn)算:

      3 音頻相似度判定

      3.1 計(jì)算特征距離

      上述12 個(gè)MFCC 特征均值系數(shù)構(gòu)成了12 維的音頻特征參數(shù)矩陣。本文選取主路信號(hào)和末級(jí)信號(hào)為樣本音頻,備路和開路信號(hào)為被測(cè)音頻。計(jì)算出兩者的歐氏距離,根據(jù)平均歐氏距離值來判定樣本音頻與被測(cè)音頻之間的相似度。該距離越小,表示相似度越高;反之,相似度越低。兩段音頻信號(hào)特征矩陣的歐式距離Disti(d)為:

      式中:CiA(d)為樣本音頻A的特征矩陣,CiB(d)為被測(cè)音頻B的特征矩陣,i為取得音頻幀數(shù)。將樣本音頻幀與被測(cè)音頻幀的兩個(gè)12 維均值倒譜系數(shù)矩陣的每一維特征向量,分別計(jì)算其間的歐氏距離,再根據(jù)計(jì)算出的歐氏距離值計(jì)算整個(gè)矩陣的平均歐氏距離,根據(jù)平均歐氏距離值A(chǔ)V(i)來判定樣本音頻與被測(cè)音頻幀之間的相似度。

      通常情況下,對(duì)所得相似度求倒數(shù),將結(jié)果控制在[0,1]。最后以實(shí)際歐式距離計(jì)算兩個(gè)矩陣間相似度Wi的公式為:

      3.2 實(shí)驗(yàn)結(jié)果

      本文實(shí)驗(yàn)數(shù)據(jù)的樣本音頻和被測(cè)音頻取自中央廣播電視總臺(tái)廣播節(jié)目中國之聲的《新聞和報(bào)紙摘要》、經(jīng)濟(jì)之聲《財(cái)經(jīng)夜讀》、大灣區(qū)之聲《韻味嶺南》以及維語廣播《知書達(dá)理》這4 檔節(jié)目的主備路、主控末級(jí)及衛(wèi)星信號(hào)。其中,經(jīng)濟(jì)之聲《財(cái)經(jīng)夜讀》和中國之聲的《新聞和報(bào)紙摘要》為普通話播出,大灣區(qū)之聲《韻味嶺南》和維語廣播《知書達(dá)理》為方言播出;《財(cái)經(jīng)夜讀》和《韻味嶺南》為含有背景樂的語言類節(jié)目,《新聞和報(bào)紙摘要》和《知書達(dá)理》為純語音播出。將以上音頻截取5 s 時(shí)長,保存為“.wav”文件,以Python 為實(shí)現(xiàn)平臺(tái),同時(shí)以單純波形圖對(duì)比為參照實(shí)驗(yàn),測(cè)試在不同采樣率得到的實(shí)驗(yàn)數(shù)據(jù)如表1 所示,進(jìn)行對(duì)比。

      表1 結(jié)果對(duì)照表

      實(shí)驗(yàn)采用4 個(gè)典型廣播節(jié)目的主備路提取信號(hào)對(duì)比,當(dāng)樣本組合采用測(cè)試組的相似度W值大小來判定兩者的相似度,W值越接近1,則認(rèn)為兩個(gè)音頻越相似。實(shí)驗(yàn)選取的參照組為傳統(tǒng)的波形圖形比對(duì)技術(shù)。通過實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),在采樣率相同的情況下,純語言類節(jié)目使用傳統(tǒng)的波形波對(duì)技術(shù),對(duì)比結(jié)果與MFCC 均值算法幾乎無異;而在含有背景音樂的語言類節(jié)目中,MFCC 均值算法的對(duì)比效果要優(yōu)于傳統(tǒng)算法。另外,采樣頻率和采樣位數(shù)的提升,對(duì)于相似率比較結(jié)果的影響有限,但同時(shí)增加了系統(tǒng)的運(yùn)算量。

      4 結(jié)語

      應(yīng)用音頻比對(duì)技術(shù)后,廣播播控系統(tǒng)可以對(duì)播出節(jié)目的內(nèi)容做到全面的監(jiān)控,保障廣播播出內(nèi)容的安全性。本文實(shí)現(xiàn)了基于MFCC 均值特征的音頻比對(duì)技術(shù)方案,能夠有效提高音頻比對(duì)效率,特別是對(duì)含有背景音樂的語言類節(jié)目。該方法特別適用于語言類節(jié)目的音頻對(duì)比,具有較高的準(zhǔn)確性。

      猜你喜歡
      梅爾特征參數(shù)類節(jié)目
      基于梅爾頻譜分離和LSCNet的聲學(xué)場(chǎng)景分類方法
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      女詩人梅爾詩集《十二背后》三人談
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      電視訪談?lì)惞?jié)目的提問藝術(shù)
      新聞傳播(2016年12期)2016-07-10 08:19:50
      芻議電視訪談?lì)惞?jié)目的主持技巧
      新聞傳播(2015年21期)2015-07-18 11:14:21
      電視社教類節(jié)目編輯的幾點(diǎn)思考
      新聞傳播(2015年8期)2015-07-18 11:08:24
      如何主持好廣播談話類節(jié)目
      新聞傳播(2015年15期)2015-07-18 11:03:42
      統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
      睢宁县| 林西县| 长顺县| 安陆市| 依安县| 广灵县| 醴陵市| 雅安市| 赤水市| 安图县| 威海市| 永州市| 蒙城县| 庆安县| 汨罗市| 郯城县| 灵璧县| 东海县| 安福县| 乌兰浩特市| 翁源县| 昂仁县| 和硕县| 青冈县| 龙游县| 佛山市| 清远市| 上高县| 荣成市| 太湖县| 南投县| 格尔木市| 宁晋县| 通辽市| 肥乡县| 台中市| 宁强县| 大化| 金塔县| 通海县| 高州市|