• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      佤語語音語料端點檢測算法

      2019-03-27 03:13:56和麗華潘文林楊建香解雪琴余彩裙
      關(guān)鍵詞:比法譜估計端點

      和麗華,江 濤,潘文林,楊建香,解雪琴,王 璐,余彩裙

      (云南民族大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,云南 昆明 650500)

      佤語是跨邊境少數(shù)民族語言,沒有通用的文字,目前國內(nèi)的佤族主要分布在中國云南省西南部的滄源縣、西盟縣、孟連縣、耿馬縣、瀾滄縣等地區(qū),國外的佤族主要分布在緬甸的東北部山區(qū),例如佤邦、撣邦等地區(qū).佤族是一個跨國界居住的少數(shù)民族[1],且佤語是佤族主要的交流工具,所以佤語的研究對國家安全和文化傳承有重要的意義.

      在這個網(wǎng)絡(luò)信息化飛速發(fā)展的時代,語音是人們信息交流最直接、最快捷的方式,因此語音信號處理扮演著越來越重要的角色.20世紀(jì)50年代最早開始了對語音信號處理的研究,當(dāng)時主要是為了解決檢測語音段和非語音段問題,所提出的算法名稱為VAD(voice activity detection)[2].在語音信號處理的過程中,端點檢測是一項特別重要的語音處理技術(shù).常見的端點檢測方法主要基于以下特征:短時能量[3]和短時過零率[4]、熵[5]、倒譜[4]等,這些方法通常只注重特征參數(shù)的提取,卻忽略了語音增強方面的工作,這對于語音端點檢測的準(zhǔn)確率產(chǎn)生一定的影響,并且這些方法在高信噪比的環(huán)境下進行端點檢測可以取得較好的效果,但在自然帶噪的語音環(huán)境中,因信噪比較低,此時的檢測效果就大不如前.

      基于上述考慮,結(jié)合之前的研究工作[6-7],本文使用了一種基于多窗譜估計譜減法和能熵比的語音端點檢測復(fù)合算法對佤語語音進行端點檢測.多窗譜估計譜減法可以在一定程度上對含噪語音進行減噪,從而獲得較高的信噪比,其次對去噪后的語音使用能熵比算法進行語音端點檢測.通過仿真實驗證明:同常規(guī)能熵比算法相比較,本文使用基于多窗譜估計譜減法和能熵比的語音端點檢測復(fù)合算法可以提高對佤語語音端點檢測的正確率.

      1 佤語的語音特征

      佤語屬南亞語系孟高棉語族佤德語支,沒有聲調(diào),以下分別從元音,輔音,音節(jié)結(jié)構(gòu)3個方面來分析其特征[8]:

      1) 佤語的元音分為單元音與復(fù)合元音,單元音共有18個,復(fù)合元音又有二合元音和三合元音之分,二合元音有28個,三合元音有4個.

      2) 佤語的輔音分為單輔音與復(fù)輔音,單輔音共有38個,復(fù)輔音則是由雙唇和舌根塞音p、ph、b、bh、k、kh、g、gh等與邊音l、擦顫音r組成的,共有16個.

      3) 佤語的音節(jié)結(jié)構(gòu)數(shù)目較多,但是結(jié)合形式較為整齊規(guī)律,主要可以歸納為12種基本形式(C代表輔音、V代表元音,其音節(jié)結(jié)構(gòu)為V、VV等不計算在內(nèi)).

      表1 佤語的音節(jié)結(jié)構(gòu)

      2 研究方法

      2.1 多窗譜估計譜減法去除背景噪音

      Thomson在1982年提出了多窗譜估計[9],它是一種非參數(shù)直接譜估計法,首先該方法對同一數(shù)據(jù)序列加上多個正交的數(shù)據(jù)窗,其次分別求直接譜,最后求平均得出譜估計.相較于傳統(tǒng)的周期圖法[10]只用一個數(shù)據(jù)窗而言,多窗譜可以的得到較小的估計方差,是一個更加準(zhǔn)確的譜估計法.

      多窗譜定義:

      (1)

      式(1)中,L為數(shù)據(jù)窗個數(shù);Smt為第k個數(shù)據(jù)窗的譜:

      (2)

      式(2)中,x(n)為數(shù)據(jù)序列;N為序列長度;ak(n)為第k個數(shù)據(jù)窗,它滿足多個數(shù)據(jù)窗之間的相互正交:

      (3)

      數(shù)據(jù)窗是一組相互正交的離散橢球序列 DPSS (discrete prolate spheroidal sequences).

      多窗譜估計譜減法[11]具體步驟如下:

      Step 1 對帶噪語音信號為x(n)進行加窗和分幀處理之后記為xi(m);

      Step 2 對xi(m)做FFT后計算其幅度譜|Xi(k)|和相位譜θi(k);

      Step 3 使用多窗譜估計并計算xi(m)平滑功率譜密度Py(k,i),并由已知的NIS幀的噪聲段計算出噪聲的平均功率譜密度值Pn(k);

      因為被檢測語音段一般都含有噪聲干擾,傳統(tǒng)的語音端點檢測算法不能有效地檢測出語音的起始點,所以使用多窗譜估計譜減法去除背景噪音,以提高被檢測語音的信噪比.

      2.2 能熵比法檢測語音端點

      2.2.1 對數(shù)能量[12]關(guān)系

      設(shè)帶噪語音信號為x(n),進行加窗、分幀后得到的第i幀語音信號為xi(m),幀長為N.則每一幀的能量為

      (4)

      引入一種新的對數(shù)能量

      LEi=lg(AMPi+a)+lga.

      (5)

      式(5)中AMPi是計算出的每幀短時線性能量,a是一個常數(shù).

      2.2.2 譜熵[13]

      設(shè)帶噪語音信號為x(n),進行加窗、分幀后得到的第i幀語音信號為xi(m),通過FFT變換后,設(shè)第k條譜線頻率分量fk的能量譜為Yi(k),則每個頻率分量的歸一化譜概率密度函數(shù)為

      (6)

      式(6)中,Pi(k)為第i幀第k個頻率分量fk對應(yīng)的概率密度;N為FFT長度.

      每個語音幀的短時譜熵定義為

      (7)

      2.2.3 能熵比

      能熵比指的是對數(shù)能量與譜熵的比值,其定義為

      (8)

      對于能量來說,有話段語音的能量數(shù)值較大,噪聲段語音的能量數(shù)值較?。欢鴮τ谧V熵而言,有話段內(nèi)的譜熵數(shù)值要小于噪聲段的譜熵數(shù)值,所以用能量比上譜熵可以突出有話段的數(shù)值,減小噪聲段的數(shù)值,有效地拉開了有話段語音與噪聲段之間的差距,更容易檢測出語音的端點.

      2.3 端點檢測算法的實現(xiàn)

      具體實現(xiàn)過程如下:

      1) 帶噪語音信號為x(n),在進行加窗和分幀處理之后的第幀i語音信號為xi(m),相鄰幀之間有重疊.

      (9)

      式(9)中以i幀為中心前后各取M幀,共有2M+1幀進行平均.

      3) 對加窗分幀處理后語音信號xi(m)進行多窗譜估計,計算出多窗譜功率譜密度P(k,i)(其中i表示第i幀,k表示第k條譜線):

      P(k,i)=PMTM[xi(m)].

      (10)

      式(10)中PMTM表示進行多窗譜功率譜密度估計.

      并且對P(k,i)也做相鄰幀的平滑處理和計算其平滑功率譜密度Py(k,i):

      (11)

      式(11)中以i幀為中心前后各取M幀,共有 2M+1 幀進行平均.

      4) 由已知的NIS幀的噪聲段,能夠計算出噪聲的平均功率譜密度值Pn(k):

      (12)

      5) 通過譜減關(guān)系來計算出增益因子

      (13)

      式(13)中α為過減因子(α>1,α的值越大,同時剩余的噪聲衰減越大,語音的失真也會越大),β為補償增益因子(0<β<1,β的值越大,同時剩余的噪聲越小,語音的背景噪聲也會變得越大).

      (14)

      (15)

      8) 由式(5)和式(7)計算減噪后的語音信號的對數(shù)能量LEi和譜熵Hi,再通過式(8)得出能熵比EEFi并且進行平滑處理.

      9) 設(shè)置高閾值T2,若當(dāng)前幀的能熵比高于T2時確定為語音段的起始點,若當(dāng)前幀的能熵比不高于T2時,則取下一幀的能熵比與T2比較,重復(fù)步驟9),直到檢測到語音起始點.

      10) 檢測到語音的起始點后,設(shè)置低閾值T1,若當(dāng)前幀的能熵比低于T1時確定是為語音段的終止點,若當(dāng)前幀的能熵比不低于T1時,則取下一幀的能熵比與T1比較,重復(fù)步驟10),直到檢測到語音終止點.

      11) 重復(fù)步驟9)、10)直至語音段結(jié)束.

      3 實驗

      3.1 實驗環(huán)境

      實驗環(huán)境:Windows10操作系統(tǒng),CPU為Inteli3,內(nèi)存為8GB,運行軟件為Matalab2018.

      3.2 實驗數(shù)據(jù)

      實驗選用50個佤語孤立詞音頻文件進行測試,均在錄音棚內(nèi)錄制.一共是由2位不同發(fā)音人(1男1女)共同錄制,每人25個詞.

      3.3 實驗結(jié)果與分析

      為了驗證本文算法對于佤語語音端點檢測的準(zhǔn)確率,使用Matalab工具對50個佤語孤立詞音頻文件進行仿真實驗.實驗分別采用常規(guī)能熵比法和基于多窗譜估計譜減法及能熵比法的復(fù)合算法對50個佤語孤立詞的音頻文件進行端點檢測,通過比較其準(zhǔn)確率可以看出兩個算法在低信噪比環(huán)境下端點檢測的性能.

      下面以佤語“今天”的錄音文本為例.(橫坐標(biāo)表示幅值,縱坐標(biāo)表示時間,實線表示語音段的起始點,虛線表示語音段的終止點)

      圖2為佤語語音“今天”的原始語音波形圖,從圖2中可以清楚看到佤語語音“今天”的起始點(實線標(biāo)注)和終止點(虛線標(biāo)注),不難看出起始點和終止點前后都有一段噪音的波形,同時這段噪音音波形也覆蓋在待檢測的語音波形上,這會使端點檢測算法將噪聲檢測為有效語音段,導(dǎo)致算法對語音起始點與終止點的誤判.

      圖3為佤語“今天”的短時能熵比的端點檢測圖,圖中橫著的實線表示高閾值T2,橫著的虛線表示低閾值T1.從圖3中可以明顯看出佤語“今天”的前半段語音完全被漏檢,造成漏檢的主要原因是實驗所使用的語音是含有一定噪聲的且佤語“今天”前半段語音的對數(shù)能量值較小,導(dǎo)致其短時能熵比(能量與譜熵的比值)的值沒有高于高閾值T2,所以端點檢測算法沒有將其檢測為有效語音段.這樣得到的佤語語音端點檢測結(jié)果會導(dǎo)致語音切分的不完整,對后續(xù)佤語語音識別工作存在較大的影響.

      圖4、圖5分別為佤語語音“今天”多窗譜減后語音波形圖和短時能熵比的端點檢測圖,圖中橫著的實線表示高閾值T2,橫著的虛線表示低閾值T1.對比圖2原始語音波形圖與圖4中的譜減后語音波形圖,可以明顯看出使用多窗譜估計譜減法對原始語音減噪后,能有效避免端點檢測算法將噪聲段檢測為有效語音段。再使用能熵比算法進行端點檢測時,對于佤語“今天”前半段語音的漏檢的問題得到了明顯的改善,檢測結(jié)果的準(zhǔn)確率明顯提高。

      從圖3和圖5中可以看出,在低信噪比環(huán)境下,常規(guī)能熵比端點檢測算法并沒有完整地檢測到語音中所有的有效語音段,但是由于語音的完整性對于后續(xù)的語音識別工作尤為重要,所以本文采用多窗譜估計譜減法對語音進行減噪以提升信噪比,再結(jié)合能熵比法進行端點檢測,能將每一個音都完整地檢測到.

      通過對50個佤語音頻文件進行多次仿真實驗,可以得到采用能熵比法和本文算法對佤語語音端點檢測的準(zhǔn)確率如表2所示

      表2 采用不同算法的準(zhǔn)確率

      通過表2看出,常規(guī)能熵比算法對50個佤語音頻文件檢測正確的個數(shù)有24個,準(zhǔn)確率僅為48%,而本文算法檢測正確的個數(shù)有41個,準(zhǔn)確率為82%.本文算法與常規(guī)能熵比算法相比,準(zhǔn)確率提高了34%.由此可見,采用多窗譜估計譜減法對語音進行減噪后,再結(jié)合能熵比法進行佤語語音的端點檢測,能有效避免噪音對佤語語音檢測的干擾,較大程度上提高算法的準(zhǔn)確率,為后續(xù)語音識別工作奠定了基礎(chǔ).

      4 結(jié)語

      目前的語音端點檢測算法在無噪環(huán)境下的準(zhǔn)確率已經(jīng)達到令人滿意的效果,但在實際應(yīng)用中由于噪聲和環(huán)境的影響會使其性能顯著下降.為了提高在低信噪比環(huán)境下佤語語音端點檢測的準(zhǔn)確率,本文算法將多窗譜估計譜減法降噪以提升信噪比和能熵比端點檢測相結(jié)合,綜合了多窗譜估計譜減法保留了降噪后的清音、摩擦音和能熵比法突出語音段與噪聲段區(qū)別的優(yōu)點,改善了常規(guī)能熵比算法在低信噪比環(huán)境下準(zhǔn)確率低的情況.通過理論分析和借助Matlab工具對佤語語音進行仿真實驗,實驗結(jié)果表明:同常規(guī)的能熵比法相比,準(zhǔn)確率提高了34%,驗證了其可行性和有效性,有利于后續(xù)語音識別工作的準(zhǔn)確性.后續(xù)的工作是對于語音中兩個基元粘連的情況進行有效的端點檢測并進行切分,為以后的語音識別工作做前期準(zhǔn)備.

      猜你喜歡
      比法譜估計端點
      化虛為實 觸摸物理——物理方法之類比法
      加權(quán)譜比法Q值估計
      非特征端點條件下PM函數(shù)的迭代根
      物理方法之類比法
      最好的比較
      不等式求解過程中端點的確定
      基于MATLAB實現(xiàn)的AR模型功率譜估計
      參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點估計
      基丁能雖匹配延拓法LMD端點效應(yīng)處理
      經(jīng)典功率譜估計方法的研究
      互助| 闻喜县| 赞皇县| 榕江县| 新竹市| 三原县| 崇明县| 闽侯县| 镇安县| 罗定市| 台前县| 游戏| 慈溪市| 外汇| 德惠市| 巩义市| 梧州市| 浦北县| 白城市| 百色市| 肃北| 平乡县| 德阳市| 顺平县| 乌苏市| 永城市| 苍梧县| 牙克石市| 遂平县| 昭平县| 涞源县| 应城市| 如东县| 两当县| 宣汉县| 湘乡市| 兴山县| 南召县| 漾濞| 固安县| 邻水|