• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      骨導(dǎo)語(yǔ)音庫(kù)的建立與骨氣導(dǎo)語(yǔ)音的互信息分析

      2019-07-19 09:39:40邢益搏張雄偉鄭昌艷曹鐵勇
      聲學(xué)技術(shù) 2019年3期
      關(guān)鍵詞:骨導(dǎo)氣導(dǎo)信息量

      邢益搏,張雄偉,鄭昌艷,曹鐵勇

      ?

      骨導(dǎo)語(yǔ)音庫(kù)的建立與骨氣導(dǎo)語(yǔ)音的互信息分析

      邢益搏,張雄偉,鄭昌艷,曹鐵勇

      (陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇南京 210007)

      首先設(shè)計(jì)了適用于骨導(dǎo)語(yǔ)音增強(qiáng)的語(yǔ)料采集方案,采集了1 320句涵蓋音節(jié)全面的語(yǔ)料,并制定了相應(yīng)的錄音規(guī)范;其次介紹了骨導(dǎo)語(yǔ)音庫(kù)建立的意義,說(shuō)明了語(yǔ)音庫(kù)建立的實(shí)施方案,建成了由40個(gè)說(shuō)話人錄制的包括氣導(dǎo)語(yǔ)音和骨導(dǎo)語(yǔ)音各8 000句的語(yǔ)音庫(kù);然后在對(duì)比骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音聲學(xué)特性的基礎(chǔ)上,分析了骨氣導(dǎo)語(yǔ)音在高頻和低頻的互信息量,為骨導(dǎo)語(yǔ)音的增強(qiáng)提供了理論依據(jù);最后基于現(xiàn)階段的研究及文中構(gòu)建的語(yǔ)音庫(kù)對(duì)今后的研究做出展望。

      骨導(dǎo)語(yǔ)音;語(yǔ)音庫(kù);互信息分析;語(yǔ)音增強(qiáng)

      0 引言

      語(yǔ)音是人與人之間最方便自然的交流方式,如何確保在強(qiáng)噪聲等復(fù)雜環(huán)境下進(jìn)行有效的通信是一個(gè)十分重要的研究課題。骨導(dǎo)語(yǔ)音是通過(guò)在人的發(fā)聲部位采集發(fā)聲器官的振動(dòng)而得到,對(duì)噪聲具有很強(qiáng)的魯棒性[1-5]。在背景噪聲格外強(qiáng)烈等極端復(fù)雜的環(huán)境下可以采集到信噪比較高的語(yǔ)音。

      骨導(dǎo)語(yǔ)音的這一特性使得其在公安、消防以及軍事等方面有著重要的應(yīng)用。但是,與氣導(dǎo)語(yǔ)音相比,骨導(dǎo)語(yǔ)音存在著低頻成分厚重、高頻成分衰減嚴(yán)重、聲音沉悶等缺陷,導(dǎo)致語(yǔ)音的可懂度較低。針對(duì)這一問(wèn)題,國(guó)內(nèi)外很多專家學(xué)者開展了廣泛的研究。

      語(yǔ)音庫(kù)的建立在語(yǔ)音處理技術(shù)的研究和發(fā)展過(guò)程中起著基礎(chǔ)性的作用,是進(jìn)行研究的數(shù)據(jù)支撐。目前,已經(jīng)有大量數(shù)據(jù)庫(kù)廣泛應(yīng)用于語(yǔ)音識(shí)別、語(yǔ)噪分離和語(yǔ)音增強(qiáng)等方面的研究,如Timit語(yǔ)音數(shù)據(jù)庫(kù)[6]、Noise92噪聲數(shù)據(jù)庫(kù)[7]以及南京大學(xué)、東南大學(xué)構(gòu)建的耳語(yǔ)音數(shù)據(jù)庫(kù)[8-9]等。但是目前仍未發(fā)現(xiàn)公開的骨導(dǎo)語(yǔ)音數(shù)據(jù)庫(kù)。

      本文建立了一個(gè)由漢語(yǔ)常用語(yǔ)構(gòu)成的包含氣導(dǎo)語(yǔ)音和骨導(dǎo)語(yǔ)音的語(yǔ)音庫(kù),為研究骨導(dǎo)語(yǔ)音的聲學(xué)特性及其增強(qiáng)技術(shù)提供了數(shù)據(jù)支撐。

      1 研究背景及現(xiàn)狀

      目前,國(guó)內(nèi)外對(duì)骨導(dǎo)語(yǔ)音的研究已取得一定的成果,并基于各自的研究?jī)?nèi)容建成了小規(guī)模骨導(dǎo)語(yǔ)音庫(kù)。文獻(xiàn)[2]中建立了一個(gè)包含100個(gè)日語(yǔ)單詞和45個(gè)日語(yǔ)常用短語(yǔ)的語(yǔ)音庫(kù),由2名女性和8名男性在無(wú)噪聲環(huán)境下錄制完成;文獻(xiàn)[10]錄制了2個(gè)長(zhǎng)句、3個(gè)短句和5個(gè)元音構(gòu)成的實(shí)驗(yàn)數(shù)據(jù),由2名男性和2名女性錄制完成;文獻(xiàn)[11]使用的語(yǔ)音庫(kù)包括日語(yǔ)、英語(yǔ)以及越南語(yǔ)等3個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集都有5~10名說(shuō)話人參與錄制,采集到的數(shù)據(jù)具有多樣性,但是數(shù)據(jù)集涉及的語(yǔ)料內(nèi)容較少;文獻(xiàn)[12]采集6名說(shuō)話人的骨導(dǎo)語(yǔ)音和氣導(dǎo)語(yǔ)音進(jìn)行研究,每名說(shuō)話人進(jìn)行50個(gè)日語(yǔ)詞組的錄制,語(yǔ)料考慮了音節(jié)的多樣性與發(fā)音的均衡性。上述數(shù)據(jù)庫(kù)較好地滿足了研究需要,但尚存在規(guī)模較小、涵蓋的音節(jié)不夠全面等不足,且到目前為止,國(guó)內(nèi)外未發(fā)現(xiàn)公開的漢語(yǔ)骨導(dǎo)語(yǔ)音庫(kù)。

      為了漢語(yǔ)骨導(dǎo)語(yǔ)音研究的需要,本文建立了一個(gè)由20名男性和20名女性,共40名說(shuō)話人同步錄制的骨導(dǎo)語(yǔ)音和氣導(dǎo)語(yǔ)音構(gòu)成的漢語(yǔ)語(yǔ)音庫(kù),每名說(shuō)話人對(duì)分配到的200句語(yǔ)料進(jìn)行錄制。最終得到的語(yǔ)音庫(kù)語(yǔ)料涵蓋音節(jié)全面,說(shuō)話人樣本廣泛,可滿足骨導(dǎo)語(yǔ)音相關(guān)研究的基本需求。

      2 骨導(dǎo)語(yǔ)音庫(kù)的建立

      基于現(xiàn)有的語(yǔ)音庫(kù)建庫(kù)規(guī)范,參考文獻(xiàn)[8]中耳語(yǔ)音情感數(shù)據(jù)庫(kù)的制作過(guò)程,本文設(shè)計(jì)了語(yǔ)音庫(kù)的制作流程,如圖1所示。

      圖1 語(yǔ)音庫(kù)建立過(guò)程的流程圖

      2.1 語(yǔ)音庫(kù)制作規(guī)范

      語(yǔ)音庫(kù)的制作規(guī)范包括發(fā)音人規(guī)范、語(yǔ)料規(guī)范、錄音規(guī)范、數(shù)據(jù)存儲(chǔ)規(guī)范、標(biāo)注規(guī)范以及法律聲明等。具體規(guī)范要求如表1所示。

      2.2 語(yǔ)音庫(kù)的整體規(guī)劃

      考慮到骨導(dǎo)麥克風(fēng)主要應(yīng)用于公安、消防、軍事以及極限運(yùn)動(dòng)等場(chǎng)合,在語(yǔ)音庫(kù)建立時(shí),選擇年齡分布在20~40歲的說(shuō)話人進(jìn)行錄音。

      考慮到語(yǔ)音庫(kù)中語(yǔ)料對(duì)于音節(jié)覆蓋的全面性、多樣性、語(yǔ)料的重復(fù)以及訓(xùn)練和測(cè)試數(shù)據(jù)的劃分等有較高的要求,以確保最終的語(yǔ)音庫(kù)能夠包含每個(gè)音素以及不同韻律的語(yǔ)句并能合適地劃分,因此,我們主要從日常生活用語(yǔ)、新聞以及報(bào)刊雜志中精選了1 320句語(yǔ)料并對(duì)其進(jìn)行編號(hào),針對(duì)“特定說(shuō)話人”和“特定說(shuō)話內(nèi)容”兩個(gè)方面進(jìn)行語(yǔ)料的分配和數(shù)據(jù)集的設(shè)計(jì)。最終建成的語(yǔ)音庫(kù)分為兩個(gè)數(shù)據(jù)集,語(yǔ)料的具體分配原則如表2及表3所示。

      表1 骨導(dǎo)語(yǔ)音庫(kù)建立規(guī)范

      表2 數(shù)據(jù)集1分配方式

      表3 數(shù)據(jù)集2分配方式

      表2和表3中的測(cè)試集1和測(cè)試集2的語(yǔ)料內(nèi)容及分配方式完全相同。利用數(shù)據(jù)集1中的語(yǔ)音數(shù)據(jù),可以對(duì)特定說(shuō)話人的骨導(dǎo)語(yǔ)音進(jìn)行研究;利用數(shù)據(jù)集2中的數(shù)據(jù),可以對(duì)語(yǔ)料涉及到的特定說(shuō)話內(nèi)容骨導(dǎo)語(yǔ)音進(jìn)行研究。

      2.3 語(yǔ)音錄制

      為保證骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音錄制標(biāo)準(zhǔn)相同并且能夠同步采集,避免引入不必要的干擾因素,采用同一臺(tái)電腦進(jìn)行錄制。采用以下錄制設(shè)備:筆記本電腦1臺(tái)、骨導(dǎo)麥克風(fēng)1個(gè)、高保真麥克風(fēng)1個(gè)以及一分二音頻轉(zhuǎn)換頭等。錄音軟件采用Cool Edit pro 2.0軟件,錄音時(shí)采用雙聲道(左聲道為骨導(dǎo)語(yǔ)音、右聲道為氣導(dǎo)語(yǔ)音)錄制、16位存儲(chǔ)格式、32 kHz采樣頻率,左右聲道同步采集,錄制的語(yǔ)音保存為wav格式。

      參考?xì)鈱?dǎo)語(yǔ)音庫(kù)建立的錄制環(huán)境和注意事項(xiàng),考慮到骨導(dǎo)語(yǔ)音設(shè)備的特殊聲學(xué)特性,骨導(dǎo)語(yǔ)音錄制時(shí)需注意以下幾點(diǎn):

      (1) 每次錄音前,為避免錄制的語(yǔ)音出現(xiàn)聲音過(guò)大或聲音過(guò)小的問(wèn)題,需要根據(jù)不同說(shuō)話人的發(fā)音習(xí)慣對(duì)麥克風(fēng)采集的聲音大小進(jìn)行調(diào)整;

      (2) 需要消聲室進(jìn)行錄制以保持較高的信噪比;

      (3) 骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音同步采集;

      (4) 在錄音過(guò)程中,說(shuō)話人盡量避免移動(dòng),以免混入由麥克風(fēng)摩擦產(chǎn)生的噪聲;

      (5) 說(shuō)話人朗讀語(yǔ)句時(shí),盡量保持聲音高低一致,聲音大小不能有明顯起伏;

      (6) 錄制時(shí),骨導(dǎo)傳感器需按要求佩戴,與皮膚緊密接觸,保證傳感器佩戴在震動(dòng)最大部位,確保聲音被正確采集。

      錄制的具體方式如圖2所示。

      圖2 語(yǔ)音采集示意圖

      Fig.2 Schematic diagram of speech acquisition

      2.4 語(yǔ)音切分及標(biāo)注

      在對(duì)語(yǔ)音進(jìn)行標(biāo)注之前需要對(duì)采集的語(yǔ)音進(jìn)行切分,使得語(yǔ)音庫(kù)中的最小單位是一個(gè)完整的句子。由于骨導(dǎo)語(yǔ)音的輔音、氣音以及摩擦音等成分的丟失,不能夠?qū)⑿枰恼Z(yǔ)音準(zhǔn)確切分出來(lái),因此,切分語(yǔ)音時(shí),以氣導(dǎo)語(yǔ)音為參照,將骨導(dǎo)語(yǔ)音按照氣導(dǎo)語(yǔ)音切分的時(shí)間點(diǎn)進(jìn)行切分,以得到較為精確的切分結(jié)果。

      語(yǔ)音切分完畢后進(jìn)行錄制語(yǔ)句的標(biāo)注,即對(duì)每句語(yǔ)音給出采集方式、說(shuō)話人編號(hào)和句子編號(hào)。如編號(hào)為1的男性對(duì)編號(hào)為10的語(yǔ)料錄制得到的語(yǔ)音分別標(biāo)注為AC-M1-10和BC-M1-10,其中AC和BC分別代表氣導(dǎo)語(yǔ)音和骨導(dǎo)語(yǔ)音。。

      2.5 語(yǔ)音庫(kù)建成

      最終建成的語(yǔ)音庫(kù)包含骨導(dǎo)語(yǔ)音和氣導(dǎo)語(yǔ)音各8 000句,由20名男性和20名女性按照表2和表3的語(yǔ)料分配方式進(jìn)行錄制。語(yǔ)音庫(kù)中語(yǔ)句的具體分布如表4所示。

      3 骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音的比較

      3.1 聲學(xué)特性比較

      本節(jié)利用建立的語(yǔ)音庫(kù),對(duì)同一句語(yǔ)料的骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音進(jìn)行分析對(duì)比。

      表4 最終語(yǔ)音數(shù)據(jù)庫(kù)

      圖3是同一語(yǔ)料的骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音的語(yǔ)譜圖,語(yǔ)料內(nèi)容為“人人擁護(hù)安全措施”,其中,圖3(a)為氣導(dǎo)語(yǔ)音,圖3(b)為骨導(dǎo)語(yǔ)音。從頻率軸觀察可知,在中頻以及低頻部分,骨導(dǎo)語(yǔ)音頻率成分厚重,在高頻部分骨導(dǎo)語(yǔ)音的衰減較為嚴(yán)重;從時(shí)間軸觀測(cè)可以看出,在摩擦音以及輔音等聲帶震動(dòng)較小的部分,骨導(dǎo)語(yǔ)音存在明顯的缺失。

      圖3 氣導(dǎo)語(yǔ)音與骨導(dǎo)語(yǔ)音的語(yǔ)譜圖對(duì)比

      圖4所示的是兩者的時(shí)域波形、短時(shí)能量和短時(shí)過(guò)零率。從圖4中可以看出,骨導(dǎo)語(yǔ)音的短時(shí)能量在喉部振動(dòng)強(qiáng)烈的音節(jié)(“擁護(hù)”)能量較高,在震動(dòng)較弱的音節(jié)(“人”“施”)能量較低;骨導(dǎo)語(yǔ)音的短時(shí)過(guò)零率整體較低,氣導(dǎo)語(yǔ)音中清音部分(“措施”)過(guò)零率較高。

      3.2 互信息分析

      骨導(dǎo)語(yǔ)音的低頻成分厚重且高頻成分衰減嚴(yán)重,這導(dǎo)致骨導(dǎo)語(yǔ)音的可懂度較低且聲音沉悶,但仍可以聽懂語(yǔ)音包含的字詞信息。本文分別分析純凈氣導(dǎo)語(yǔ)音與骨導(dǎo)語(yǔ)音以及純凈氣導(dǎo)語(yǔ)音與帶噪氣導(dǎo)語(yǔ)音的低頻成份之間和低頻與高頻成份之間的互信息量,其中帶噪聲的氣導(dǎo)(簡(jiǎn)稱:帶噪氣導(dǎo))語(yǔ)音由錄制的純凈氣導(dǎo)語(yǔ)音與噪聲混合得到,通過(guò)對(duì)比可對(duì)骨導(dǎo)語(yǔ)音的質(zhì)量相較于帶噪氣導(dǎo)語(yǔ)音的質(zhì)量有更為直觀的理解,為低信噪比下利用骨導(dǎo)語(yǔ)音實(shí)現(xiàn)語(yǔ)音增強(qiáng)提供理論依。

      圖4 氣導(dǎo)語(yǔ)音與骨導(dǎo)語(yǔ)音的特征比較

      結(jié)合信息論等相關(guān)知識(shí),下面我們選取6名說(shuō)話人(3名男性和3名女性)的語(yǔ)音數(shù)據(jù),對(duì)其骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音各個(gè)頻率分量所包含的互信息量進(jìn)行分析。

      3.2.1 互信息量計(jì)算

      文獻(xiàn)[13-14]給出了一種估計(jì)語(yǔ)音互信息量的方法。梅爾頻率倒譜系數(shù)(Mel-Frequency Ceptral Coefficients, MFCC)[15]經(jīng)常用來(lái)進(jìn)行語(yǔ)音識(shí)別相關(guān)的研究,通常用其表示與語(yǔ)音內(nèi)容相關(guān)的信息,因此,計(jì)算互信息量時(shí)以MFCC的概率分布為基礎(chǔ)。

      實(shí)驗(yàn)將語(yǔ)音信號(hào)的高頻部分和低頻部分看作獨(dú)立的兩段語(yǔ)音,并提取出骨導(dǎo)與氣導(dǎo)的低頻語(yǔ)音(0~2 kHz)和高頻語(yǔ)音(2~4 kHz)的MFCC,利用高斯混合模型對(duì)其建模,分別得到高頻、低頻的概率密度函數(shù)以及兩者的聯(lián)合概率密度函數(shù),表示為

      通過(guò)式(1)、(2)可以分別計(jì)算骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音的各個(gè)頻率成分之間包含的信息量。

      3.2.2 仿真及結(jié)果

      對(duì)骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音的互信息量進(jìn)行計(jì)算可以對(duì)錄制的骨導(dǎo)語(yǔ)音質(zhì)量有較為直觀的了解,同時(shí)也可以為骨導(dǎo)語(yǔ)音的增強(qiáng)提供理論上的支撐。

      實(shí)驗(yàn)選取了4名男聲和4名女聲共8名說(shuō)話人的數(shù)據(jù),對(duì)骨導(dǎo)語(yǔ)音與純凈的氣導(dǎo)語(yǔ)音以及帶噪的氣導(dǎo)語(yǔ)音與純凈氣導(dǎo)語(yǔ)音包含的互信息量進(jìn)行對(duì)比分析。隨機(jī)抽取每名說(shuō)話人訓(xùn)練集和測(cè)試集的各一半數(shù)據(jù)共100句話,并將噪聲按照不同的信噪比與氣導(dǎo)語(yǔ)音混合得到帶噪的氣導(dǎo)語(yǔ)音進(jìn)行實(shí)驗(yàn),信噪比從-5 dB增加到30 dB,以5 dB遞增。由于白噪聲覆蓋整個(gè)頻帶,對(duì)于信息量的估計(jì)不具有偏好,實(shí)驗(yàn)選用白噪聲進(jìn)行混合。

      圖5給出了0、5、10 dB和15 dB四種信噪比下骨導(dǎo)語(yǔ)音與純凈的氣導(dǎo)語(yǔ)音、帶噪氣導(dǎo)語(yǔ)音與純凈的氣導(dǎo)語(yǔ)音在低頻部分之間的互信息量。從圖5中可以看出,在高信噪比條件下(15 dB),帶噪的氣導(dǎo)語(yǔ)音與純凈語(yǔ)音有較高的互信息;在信噪比較低的情況下(信噪比低于10 dB),骨導(dǎo)語(yǔ)音由于未被噪聲所干擾,與純凈的氣導(dǎo)語(yǔ)音互信息較高。從圖 5在不同信噪比下的互信息量趨勢(shì)可以預(yù)測(cè)到,信噪比更低時(shí),帶噪的氣導(dǎo)語(yǔ)音與純凈氣導(dǎo)語(yǔ)音包含的互信息量會(huì)更低。

      圖5 低頻骨導(dǎo)和氣導(dǎo)語(yǔ)音之間的互信息量

      圖6所示的是帶噪氣導(dǎo)語(yǔ)音的低頻成分和純凈的氣導(dǎo)語(yǔ)音的高頻成分以及骨導(dǎo)語(yǔ)音的低頻成分和純凈氣導(dǎo)語(yǔ)音的高頻成分之間的互信息,信噪比分別為10、15、20 dB和25 dB。從圖6中可以看出,在20 dB時(shí),骨導(dǎo)語(yǔ)音的低頻與純凈氣導(dǎo)語(yǔ)音高頻的互信息量就超過(guò)了帶噪的氣導(dǎo)語(yǔ)音;在信噪比更低時(shí),氣導(dǎo)語(yǔ)音混入了更多的噪聲,導(dǎo)致互信息量更低,而骨導(dǎo)語(yǔ)音不受影響。

      圖6 高低頻骨導(dǎo)和氣導(dǎo)語(yǔ)音之間的互信息量

      Fig.6 Mutual information contents between high frequency pure air-conducted speech and low frequency noisy air-conducted speech(blue) and between low frequency bone-conducted speech and high frequency noisy air-conducted speech (brown)

      4 結(jié)束語(yǔ)

      基于骨導(dǎo)語(yǔ)音處理研究的需要,本文精選了1 320句音節(jié)均衡的漢語(yǔ)語(yǔ)料,并以此為基礎(chǔ)構(gòu)建了包含骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音各8 000句的語(yǔ)音數(shù)據(jù)庫(kù)。在對(duì)骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音的聲學(xué)特性和互信息量進(jìn)行分析后,得出骨導(dǎo)語(yǔ)音與氣導(dǎo)語(yǔ)音包含較高的互信息量這一結(jié)論,為骨導(dǎo)語(yǔ)音增強(qiáng)提供了理論依據(jù)。

      [1] SHIN H S, KANG H G, FINGSCHEIDT T. Survey of speech enhancement supported by a bone conduction microphone[C]// Speech Communication; 10. ITG Symposium; Proceedings of. VDE, 2012: 1-4.

      [2] YU J N, ZHANG L Y, ZHOU Z. A novel voice collection scheme based on bone-conduction[C]//IEEE International Symposium on Communications and Information Technology. 2005: 1164-1168.

      [3] OKAMOTO Y, NAKAGAWA S, FUJIMOTO K, et al. Intelligibility of bone-conducted ultrasonic speech[J]. Hearing Research, 2005, 208(1-2): 107-113.

      [4] SHIN H S, FINGSCHEIDT T, KANG H G. A priori snr estimation using air-and bone-conduction microphones[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2015, 23(11): 2015-2025.

      [5] RAHMAN M S, SHIMAMURA T. Pitch characteristics of bone-conducted speech[C]// IEEE, Signal Processing Conference, 2010, European. 2010: 795-799.

      [6] ZUE V, SENEFF S, GLASS J. Speech database development at MIT: TIMIT and beyond[J]. Speech communication, 1990, 9(4): 351-356.

      [7] VARGA, STEENEKEN H J. Assessment for automatic speech recognition II: NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition sys-tems[J]. Speech Communication, 1993, 12(3): 247–251.

      [8] 金赟, 趙艷, 黃程韋, 等. 耳語(yǔ)音情感數(shù)據(jù)庫(kù)的設(shè)計(jì)與建立[J]. 聲學(xué)技術(shù), 2010, 29(1): 63-68.

      JIN Yun, ZHAO Yan, HUANG Chengwei, et al. The design and establishment of a Chinese whispered speech emotion database[J]. Technical Acoustics, 2010, 29(1): 63-68.

      [9] 楊偉. 漢語(yǔ)與漢語(yǔ)耳語(yǔ)的平均頻譜的測(cè)量與計(jì)算[D]. 南京: 南京大學(xué), 2012.

      [10] SHIMAMURA T, TAMIYA T. A reconstruction filter for bone-conducted speech[C]//48th Midwest Symposium on Circuits and Systems, 2005. IEEE, 2005: 1847-1850.

      [11] VU T T, UNOKI M, AKAGI M. An LP-based blind model for restoring bone-conducted speech[C]//IEEE, Second Interna-tional Conference on Communications and Electronics, 2008: 212-217.

      [12] KONDO K, FUJITA T, NAKAGAWA K. On equalization of bone-conducted speech for improved speech quality[C]//IEEE International Symposium on Signal Processing and Information Technology. NJ: IEEE, 2007: 426-431.

      [13] BOUSERHAL R E, FALK T H, VOIX J. On the potential for artificial bandwidth extension of bone and tissue conducted speech: a mutual information study[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. NJ: IEEE, 2015: 5108-5112.

      [14] BOUSERHAL R E, FALK T H, VOIX J. In-ear microphone speech quality enhancement via adaptive filtering and artificial bandwidth extension[J]. J. Acoust. Soc. Am., 2017, 141(3): 1321- 1331.

      [15] 林瑋, 楊莉莉, 徐柏齡. 基于修正MFCC 參數(shù)漢語(yǔ)耳語(yǔ)音的話者識(shí)別[J]. 南京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2006, 42(1): 54-62.

      LIN Wei, YANG Lili, XU Boling. Speaker identification in Chinese whispered speech based on modified-MFCC[J]. Journal of Nanjing University (Natural Science), 2006, 42(1): 54-62.

      Establishment of bone-conducted speech database and mutual information analysis between bone and airconducted speeches

      XING Yi-bo, ZHANG Xiong-wei, ZHENG Chang-yan, CAO Tie-yong

      (The Army Engineering University of PLA, Institute of Command and Control Engineering, Nanjing 210007, Jiangsu, China)

      In this paper, a corpus acquisition scheme suitable for bone-conducted speech enhancement is designed, total 1 320 syllabic balanced sentences of covering comprehensive syllables are collected and a corresponding recording specification is developed. The significance of establishing bone-conducted speech database and the implementation scheme of the database are introduced, and a database containing 8 000 air-conducted and bone-conduced speeches spoken by 40 speakers is constructed. Based on the comparison of acoustic characteristics between air-conducted and bone-conducted speeches, the mutual information contents between bone and air conducted speeches at high and low frequencies are analyzed, which provides a theoretical basis for the enhancement of bone-conducted speech. Finally, based on the current stage of research and combining the database constructed in this paper, the future research direction is prospected.

      bone-conducted speech; speech database; mutual information analysis; speech enhancement

      TN912

      A

      1000-3630(2019)-03-0312-05

      10.16300/j.cnki.1000-3630.2019.03.013

      2018-01-08;

      2018-02-20

      國(guó)家自然科學(xué)基金資助項(xiàng)目(61471394、61402519)

      邢益搏(1994-), 男, 山西臨汾人, 碩士研究生, 研究方向?yàn)檎Z(yǔ)音信號(hào)處理。

      邢益搏,E-mail: 18252059100@163.com

      猜你喜歡
      骨導(dǎo)氣導(dǎo)信息量
      老年慢性化膿性中耳炎和中耳膽脂瘤的臨床特點(diǎn)
      鐙骨小窗技術(shù)對(duì)耳硬化癥患者頻率特異性骨導(dǎo)超閉合的影響
      骨導(dǎo)聽覺裝置在Treacher Collins綜合征中的應(yīng)用進(jìn)展
      中耳手術(shù)術(shù)中聽力監(jiān)測(cè)和術(shù)后聽力恢復(fù)相關(guān)性研究*
      骨導(dǎo)給聲掩蔽在雙耳中度慢性中耳炎患者純音測(cè)聽中的應(yīng)用
      基于信息理論的交通信息量度量
      骨導(dǎo)聽覺技術(shù)—方滋未艾
      如何增加地方電視臺(tái)時(shí)政新聞的信息量
      新聞傳播(2016年11期)2016-07-10 12:04:01
      正常青年人氣骨導(dǎo)短純音聽性腦干反應(yīng)的特性分析
      基于多尺度互信息量的數(shù)字視頻幀篡改檢測(cè)
      施甸县| 三穗县| 鸡泽县| 广昌县| 叶城县| 卢湾区| 云阳县| 广汉市| 吉首市| 乐都县| 湛江市| 布尔津县| 霍州市| 上高县| 成安县| 五华县| 大连市| 理塘县| 鸡东县| 湖口县| 来宾市| 名山县| 衡东县| 浦东新区| 陵川县| 黔东| 平南县| 泸定县| 阿瓦提县| 盐池县| 定日县| 阆中市| 嫩江县| 察哈| 师宗县| 宜昌市| 乐昌市| 宜川县| 阿勒泰市| 永登县| 龙州县|