• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于目標(biāo)逼近特征和雙向聯(lián)想貯存器的情感語音基頻轉(zhuǎn)換

      2015-06-05 15:30:51凌震華戴禮榮
      關(guān)鍵詞:基頻音節(jié)中性

      凌震華,高 麗,戴禮榮

      (中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,合肥 230027)

      基于目標(biāo)逼近特征和雙向聯(lián)想貯存器的情感語音基頻轉(zhuǎn)換

      凌震華,高 麗,戴禮榮

      (中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,合肥 230027)

      提出了一種用于情感語音合成的基頻轉(zhuǎn)換方法.該方法使用定量目標(biāo)逼近(qTA)特征作為語音音節(jié)層的基頻描述,并用高斯雙向聯(lián)想貯存器(GBAM)實(shí)現(xiàn)中性合成語音音節(jié)層qTA參數(shù)向目標(biāo)情感語音音節(jié)層qTA參數(shù)的轉(zhuǎn)換.在模型訓(xùn)練階段,首先基于中性語料庫和統(tǒng)計(jì)參數(shù)語音合成方法構(gòu)建中性語音合成系統(tǒng);然后利用少量情感錄音數(shù)據(jù),將從情感語音文本對(duì)應(yīng)的中性合成語音中提取的qTA參數(shù)作為源數(shù)據(jù),將情感錄音中提取的qTA參數(shù)作為目標(biāo)數(shù)據(jù),進(jìn)行GBAM轉(zhuǎn)換模型的訓(xùn)練.在情感語音合成階段,利用訓(xùn)練得到的GABM模型,實(shí)現(xiàn)中性合成語音基頻特征向目標(biāo)情感的轉(zhuǎn)換.實(shí)驗(yàn)結(jié)果表明,該方法在目標(biāo)情感數(shù)據(jù)較少的情況下可以取得比最大似然線性回歸(MLLR)模型自適應(yīng)方法更好的情感表現(xiàn)力.

      情感語音合成;定量目標(biāo)逼近;高斯雙向聯(lián)想貯存器;基頻轉(zhuǎn)換

      語音是人類溝通交流的重要方式之一.語音信號(hào)除了攜帶語言學(xué)信息外,還包含說話風(fēng)格、情緒變化、情感表達(dá)等超語言學(xué)信息.因此,合成能夠體現(xiàn)這些超語言學(xué)信息的高表現(xiàn)力語音,使得合成語音能夠模擬自然人來表達(dá)豐富情感,也成為語音合成技術(shù)發(fā)展的一個(gè)重要方向.近年來隨著互聯(lián)網(wǎng)技術(shù)和人工智能的發(fā)展,情感等高表現(xiàn)力的語音合成在人機(jī)交互、休閑娛樂等方面的應(yīng)用日益廣泛,對(duì)情感語音合成的研究也有許多新的嘗試.

      目前,基于隱馬爾科夫模型(hidden Markovmodel,HMM)的統(tǒng)計(jì)參數(shù)語音合成方法(HTS)已經(jīng)可以合成出具有高可懂度的高品質(zhì)語音,因此對(duì)于情感語音合成來說,最直接的方法是利用錄制的情感語料庫,基于HTS方法訓(xùn)練目標(biāo)情感的聲學(xué)模型[1].但是這種方法存在數(shù)據(jù)依賴性,即每構(gòu)建一種目標(biāo)情感的合成系統(tǒng),便需要錄制較大規(guī)模的相應(yīng)情感的語音數(shù)據(jù).情感語料庫相對(duì)中性語料庫在腳本設(shè)計(jì)、發(fā)音人選擇、錄音控制等方面都存在更大難度,這也造成直接訓(xùn)練目標(biāo)情感的聲學(xué)模型較為困難. Masuko等[2]和Tamura等[3]提出了基于模型自適應(yīng)的情感語音合成方法,該方法先基于中性語料庫和HTS方法得到中性語音的聲學(xué)模型,然后在少量情感語料的基礎(chǔ)上,基于最大后驗(yàn)概率(maximum a posterior,MAP)準(zhǔn)則或者最大似然線性回歸(maximum likelihood linear regression,MLLR)對(duì)中性訓(xùn)練模型進(jìn)行模型參數(shù)調(diào)整,然后得到體現(xiàn)目標(biāo)情感的聲學(xué)模型. 2004年,Junichi等[4]提出了基于情感類型控制的聲學(xué)建模方法,該方法利用多回歸隱馬爾科夫模型,在少量情感數(shù)據(jù)基礎(chǔ)上利用情感參數(shù)對(duì)情感的類型、強(qiáng)弱進(jìn)行靈活控制.此外近年來基于轉(zhuǎn)換的情感語音合成方法也受到研究關(guān)注[5-6].它是一種類似于語音轉(zhuǎn)換的后處理方法,把中性語音作為源數(shù)據(jù),情感語音作為目標(biāo)數(shù)據(jù),通過尋找兩者之間的映射模型,完成從中性語音到情感語音的轉(zhuǎn)換.因?yàn)榛l是與情感表現(xiàn)最為相關(guān)的聲學(xué)特征,因此現(xiàn)階段基于轉(zhuǎn)換的情感合成方法研究主要針對(duì)基頻特征開展,而高斯混合模型(Gaussian mixture model,GMM)是最為常用的基頻轉(zhuǎn)換模型[5-6].

      為了更好地體現(xiàn)基頻的長時(shí)性,筆者首先利用目標(biāo)逼近(target approximation,TA)模型[7]在音節(jié)層對(duì)基頻進(jìn)行參數(shù)化處理,獲得其音節(jié)層的量化模型參數(shù)(qTA參數(shù)[8]),然后對(duì)qTA參數(shù)進(jìn)行模型映射.高斯雙向聯(lián)想貯存器(Gaussian bidirectional associative memories,GBAM)是一種兩層的隨機(jī)反饋神經(jīng)網(wǎng)絡(luò),對(duì)所觀測(cè)向量的維間相關(guān)性具有很強(qiáng)的建模能力,已經(jīng)被成功地用于基頻后處理來提高HTS合成語音自然度[9]和語音轉(zhuǎn)換[10]問題.本文將采用GBAM模型,實(shí)現(xiàn)中性合成語音音節(jié)層qTA參數(shù)向目標(biāo)情感語音音節(jié)層qTA參數(shù)的映射.在模型訓(xùn)練階段,基于中性語料庫和HTS方法構(gòu)建中性語音合成系統(tǒng),利用少量的情感錄音數(shù)據(jù),將從情感語音文本對(duì)應(yīng)的中性合成語音中提取的qTA參數(shù)作為源數(shù)據(jù),將情感錄音中提取的qTA參數(shù)作為目標(biāo)數(shù)據(jù),進(jìn)行GBAM轉(zhuǎn)換模型的訓(xùn)練;在情感語音合成階段,利用中性語音合成系統(tǒng)預(yù)測(cè)輸入文本對(duì)應(yīng)的基頻軌跡,從中提取qTA特征并進(jìn)行基于GBAM模型的特征轉(zhuǎn)換,再利用轉(zhuǎn)換后的qTA特征恢復(fù)出基頻軌跡用于情感語音合成.

      1 音節(jié)層基頻參數(shù)提取

      1.1 基頻模型

      qTA參數(shù)的提取依據(jù)目標(biāo)逼近(TA)模型和定量目標(biāo)逼近(quantitative target approximation,qTA)模型.目標(biāo)逼近(TA)模型(見圖1)模擬基頻產(chǎn)生的內(nèi)在物理機(jī)制,假設(shè)基頻曲線的運(yùn)動(dòng)與音節(jié)同步,并且在每個(gè)音節(jié)的結(jié)尾處,基頻曲線會(huì)逐漸逼近潛在的音高目標(biāo).圖1中點(diǎn)線表示基頻曲線,長劃線表示音高目標(biāo),豎實(shí)線表示音節(jié)邊界.TA模型假設(shè)有靜態(tài)和動(dòng)態(tài)兩種音高目標(biāo),針對(duì)中文等代表性的聲調(diào)(陰平、陽平、上聲和去聲)語言,TA模型存在很大的優(yōu)勢(shì):其動(dòng)態(tài)音高目標(biāo)對(duì)應(yīng)陽平和去聲兩種聲調(diào),其靜態(tài)音高目標(biāo)則對(duì)應(yīng)陰平和上聲兩種聲調(diào).上述特性使得TA模型被成功地應(yīng)用于從中性語音到情感語音的韻律轉(zhuǎn)換[6].

      圖1 目標(biāo)逼近(TA)模型圖例Fig.1 Illustration of TA model

      定量目標(biāo)逼近模型(qTA)是TA模型一種具體的物理和數(shù)學(xué)上的實(shí)現(xiàn)模型.它用一個(gè)三界臨界阻尼線性系統(tǒng)來模擬基頻的運(yùn)動(dòng)過程,具體形式為

      式中:()f t表示完整的基頻曲線;()T t表示潛在的音高目標(biāo);剩余部分則表示瞬態(tài)響應(yīng).在()T t中,m和b分別表示音高目標(biāo)的斜率和高度.瞬態(tài)響應(yīng)多項(xiàng)式中,λ表示基頻曲線逼近音高目標(biāo)的速度,3個(gè)瞬態(tài)系數(shù)可由式(3)計(jì)算獲得,其中0f、0f′和0f′′表示基頻曲線每個(gè)音節(jié)的起始點(diǎn)狀態(tài),0f為起始點(diǎn)基頻值,0f′為起始點(diǎn)基頻的一階動(dòng)態(tài),0f′′為起始點(diǎn)基頻的二階動(dòng)態(tài).原始的qTA模型假設(shè)基頻曲線連續(xù),因此除每句話的首音節(jié)外,0f、0f′和0f′′均可從上一個(gè)音節(jié)繼承獲得.在具體實(shí)現(xiàn)中,采用清音段線性插值的方法來獲得連續(xù)的基頻曲線.

      在研究中筆者發(fā)現(xiàn):對(duì)于中文的連續(xù)語流,音節(jié)之間基頻的協(xié)同發(fā)音現(xiàn)象非常嚴(yán)重,因此采用在清音段用線性內(nèi)插來形成連續(xù)的基頻曲線并不可靠.文中取消了qTA模型的基頻連續(xù)性假設(shè),并對(duì)原始的qTA模型進(jìn)行了簡化.筆者把每個(gè)音節(jié)的濁音段作為qTA模型的基本單元,對(duì)于非連續(xù)濁音單元來說,每個(gè)濁音段的起始0f′和0f′′被設(shè)為零,而對(duì)于濁濁拼接的連續(xù)濁音單元,濁音段起始的0f、0f′和0f′′仍然從前一個(gè)音節(jié)的結(jié)束狀態(tài)繼承,3個(gè)瞬態(tài)系數(shù)的計(jì)算式依然為式(3).因此在改進(jìn)的qTA模型中,為了重構(gòu)基頻曲線,需要m、b、λ和0f 4個(gè)參數(shù),稱這4個(gè)參數(shù)為qTA參數(shù).此外,為去除時(shí)長對(duì)提取qTA參數(shù)的影響,用長度規(guī)整的F0向量來提取qTA參數(shù).

      1.2 音節(jié)層基頻參數(shù)提取流程

      qTA參數(shù)的提取流程如圖2所示.首先要基于音節(jié)邊界對(duì)F0曲線進(jìn)行濁音段的檢測(cè),然后把每個(gè)音節(jié)的濁音段規(guī)整到相同的點(diǎn)數(shù)M,最后再對(duì)規(guī)整后的基頻提取qTA參數(shù).

      圖2 qTA參數(shù)提取流程Fig.2 Framework of extracting qTA parameters

      2 基于GBAM的基頻轉(zhuǎn)換

      2.1 高斯雙向聯(lián)想貯存器

      BAM是一種雙層的隨機(jī)反饋神經(jīng)網(wǎng)絡(luò),已經(jīng)被成功地用于模式識(shí)別和語音轉(zhuǎn)換領(lǐng)域.一個(gè)BAM網(wǎng)絡(luò)存在兩種模式,分別被稱作源特征和目標(biāo)特征.BAM網(wǎng)絡(luò)一旦被激活,便會(huì)快速到達(dá)穩(wěn)定狀態(tài),此時(shí)兩種模式處于混響狀態(tài).該狀態(tài)下兩種模式之間的相互關(guān)系可以用權(quán)重矩陣W表示,并且此時(shí)的系統(tǒng)能量達(dá)到局部最小值.當(dāng)BAM的神經(jīng)元是零均值的高斯隨機(jī)變量時(shí),該模型被叫作高斯BAM(GBAM)[10],其能量函數(shù)記作

      式中C為精度矩陣,表示為

      2.2 基于GBAM模型的情感語音基頻轉(zhuǎn)換

      GBAM已經(jīng)被成功地用于基頻后處理來提高傳統(tǒng)HTS系統(tǒng)合成語音的自然度問題[9].在文獻(xiàn)[9]中,經(jīng)過GBAM后處理的基頻在動(dòng)態(tài)范圍上明顯增大,而對(duì)于高亢的情感語音來說,其基頻的動(dòng)態(tài)范圍相對(duì)于中性語音來說要大很多[11].因此如果想要合成高興、生氣等高亢的情感語音,可以考慮利用GBAM對(duì)合成的中性語音進(jìn)行基頻轉(zhuǎn)換來完成.

      基于GBAM的從中性到情感語音的基頻轉(zhuǎn)換流程如圖3所示.在訓(xùn)練端,首先要構(gòu)建一個(gè)傳統(tǒng)的基于HMM的統(tǒng)計(jì)參數(shù)語音合成系統(tǒng),并且把中性語音作為語料庫,得到合成的中性語音;然后把合成的中性語音所提取的qTA參數(shù)作為GBAM網(wǎng)絡(luò)的源特征,把自然的情感語音基頻所提取的qTA參數(shù)作為目標(biāo)特征,進(jìn)行GBAM訓(xùn)練.GBAM的訓(xùn)練可以看作是最優(yōu)化權(quán)重矩陣W的過程,這里采用CD算法,基于最大似然準(zhǔn)則進(jìn)行GBAM訓(xùn)練[10].

      在轉(zhuǎn)換端,已知最優(yōu)的權(quán)重矩陣optW后,可以得到在給定源特征x,即合成中性語音的qTA參數(shù)條件下,目標(biāo)特征y的條件分布,記作

      然后通過最大化條件分布()p y|x,即可得到轉(zhuǎn)換的目標(biāo)特征y,也即目標(biāo)情感的qTA參數(shù).

      需要強(qiáng)調(diào)的是在qTA模型中,λ并不完全等價(jià)于F0的速度,因?yàn)槿绻鹠和b不相同,即使相同的λ也會(huì)導(dǎo)致不同的基頻運(yùn)動(dòng)速度[8].筆者初步的實(shí)驗(yàn)結(jié)果也表明同時(shí)轉(zhuǎn)換m、b、0f和λ,其結(jié)果沒有僅轉(zhuǎn)換m、b和0f的效果好,并且對(duì)λ的不恰當(dāng)轉(zhuǎn)換也可能造成不合理的基頻運(yùn)動(dòng)速度,所以在最后的實(shí)現(xiàn)中,筆者僅轉(zhuǎn)換了m、b和0f 3個(gè)參數(shù).

      圖3 基于GBAM的從中性語音到情感語音的基頻轉(zhuǎn)換Fig.3 Framework of GBAM based F0 transformation from neutral speech to emotional speech

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)配置

      筆者以840句中性語音的中文女聲數(shù)據(jù)庫作為訓(xùn)練數(shù)據(jù),然后基于HMM的參數(shù)語音合成系統(tǒng)得到中性的合成語音,并把其作為GBAM轉(zhuǎn)換的源數(shù)據(jù).情感數(shù)據(jù)分別是210句的高興情感語料庫和210句的生氣情感語料庫.對(duì)于每種情感來說,隨機(jī)選擇100句作為MLLR的自適應(yīng)數(shù)據(jù),剩余的110句作為HTS系統(tǒng)和MLLR系統(tǒng)的測(cè)試集,然后再從這110中隨機(jī)選擇100句作為GBAM轉(zhuǎn)換的訓(xùn)練集,剩余10句則作為GBAM轉(zhuǎn)換的測(cè)試集.

      對(duì)于HTS系統(tǒng),HMM選用的是5狀態(tài)從左到右無跳轉(zhuǎn)的拓?fù)浣Y(jié)構(gòu).聲學(xué)參數(shù)是lg F0和41階的LSP參數(shù)以及它們的一階二階動(dòng)態(tài)參數(shù).在訓(xùn)練端,聲學(xué)模型的訓(xùn)練基于最小描述長度準(zhǔn)則(MDL),且譜參數(shù)和基頻參數(shù)基于多空間概率模型同時(shí)建模.在生成端,通過最大化靜態(tài)和動(dòng)態(tài)聲學(xué)特性的輸出概率來預(yù)測(cè)最優(yōu)的聲學(xué)參數(shù).

      對(duì)于qTA參數(shù)的提取,每個(gè)音節(jié)的濁音段基頻規(guī)整為30個(gè)點(diǎn),qTA參數(shù)提取基于開源工具PENTAtrainer1(http://www.phon.ucl.ac.uk/home/yi/ PENTAtrainer1),并結(jié)合第1.1節(jié)做了相應(yīng)修改.

      3.2 實(shí)驗(yàn)和結(jié)果分析

      本文把基于中性語料庫的HTS系統(tǒng)作為基線系統(tǒng),系統(tǒng)名稱記為Baseline;把基于MLLR[3]的自適應(yīng)方法作為對(duì)比系統(tǒng),系統(tǒng)名稱記為MLLR;使用本文提出的基于目標(biāo)逼近特征和GBAM模型的情感語音基頻轉(zhuǎn)換方法的系統(tǒng)名稱記為GBAM.在實(shí)驗(yàn)中為了重點(diǎn)關(guān)注基頻預(yù)測(cè)性能的差異,GBAM系統(tǒng)使用了與MLLR系統(tǒng)相同的時(shí)長和頻譜特征的預(yù)測(cè)結(jié)果.

      在本文的對(duì)比實(shí)驗(yàn)中,首先對(duì)Baseline、MLLR和GBAM 3個(gè)系統(tǒng)的自然度和情感表現(xiàn)力分別進(jìn)行了MOS分的打分,其中關(guān)于情感表現(xiàn)力的MOS分打分規(guī)則如表1所示.一共8個(gè)以中文為母語的說話人參與了測(cè)聽,并且在測(cè)聽之前他們均被告知了每組測(cè)聽句子的目標(biāo)情感類別.

      表1 情感表現(xiàn)力MOS分打分規(guī)則Tab.1Scoring principle for MOS score of emotional expressivity

      兩種情感自然度和情感表現(xiàn)力的MOS分測(cè)聽結(jié)果分別如表2和表3所示,其中p值由顯著性檢驗(yàn)(t-test)計(jì)算得到.

      表2 自然度的MOS分Tab.2 MOS score of naturalness

      表3 情感表現(xiàn)力的MOS分Tab.3 MOS score of emotional expressivity

      由表2和表3可以看出,相比于Baseline,雖然MLLR和GBAM兩個(gè)系統(tǒng)在合成語音的自然度上有一定程度的下降,但是從情感表現(xiàn)力方面來說,MLLR和GBAM兩個(gè)系統(tǒng)均獲得了更高的表現(xiàn)力得分,且GBAM的情感表現(xiàn)力得分最高.并且對(duì)于高興和生氣兩種情感來說,MLLR與GBAM系統(tǒng)MOS分的p值均遠(yuǎn)小于0.05,因此兩個(gè)系統(tǒng)的差距顯著,GBAM系統(tǒng)更優(yōu)于MLLR系統(tǒng).

      為了直觀地對(duì)比GBAM和MLLR兩個(gè)系統(tǒng),還進(jìn)行了GBAM和MLLR兩個(gè)系統(tǒng)情感表現(xiàn)力的傾向性測(cè)聽實(shí)驗(yàn),其結(jié)果如表4所示.從傾向性測(cè)聽的結(jié)果可以看出,GBAM系統(tǒng)的傾向性得分遠(yuǎn)高于MLLR系統(tǒng),因此GBAM系統(tǒng)在合成情感表現(xiàn)力語音方面的性能更優(yōu),該結(jié)果與MOS分的結(jié)果一致(http://home.ustc.edu.cn/~gaoliz8/NCMMSC20151).

      圖4是中文語句“我多么希望能在這里勞動(dòng)”的基頻曲線樣例.由圖4可以看出,相對(duì)于Baseline和MLLR系統(tǒng),GBAM系統(tǒng)的基頻動(dòng)態(tài)范圍更大,且更接近于自然情感錄音的基頻.

      4 結(jié) 語

      本文提出了一種基于GBAM和音節(jié)層基頻目標(biāo)逼近特征的從中立語音到情感語音的基頻轉(zhuǎn)換方法.首先構(gòu)建一個(gè)傳統(tǒng)的基于HMM的統(tǒng)計(jì)參數(shù)語音合成系統(tǒng),利用中性語料庫得到中性的合成語音,并將其音節(jié)層基頻特征作為GBAM的輸入源特征.GBAM的目標(biāo)特征則是自然的情感語音的音節(jié)層基頻特征.本文中,GBAM通過描述中性合成語音的音節(jié)層基頻特征和情感自然錄音的音節(jié)層基頻特征之間的聯(lián)合分布,來建立兩者之間的映射模型.對(duì)于音節(jié)層的基頻特征,本文采用的是基于基頻產(chǎn)生的物理機(jī)制的定量目標(biāo)逼近模型參數(shù)qTA.主觀的實(shí)驗(yàn)結(jié)果表明,本文提出的基于GBAM的基頻轉(zhuǎn)換方法可以有效地完成從中性語音到情感語音的基頻轉(zhuǎn)換,并且與MLLR的自適應(yīng)方法相比,該方法可以獲得更高的情感表現(xiàn)力MOS分和傾向性得分,因此性能更優(yōu).

      [1] Yamagishi J,Onishi K,Masuko T,et al. Acoustic modeling of speaking styles and emotional expressions in HMM-based speech synthesis[J]. IEICE Transactions on Information and Systems,2005,88(3):502-509.

      [2] Masuko T,Tokuda K,Kobayashi T,et al. Voice characteristics conver sion for HMM-based speech synthesis system[C]//Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. 1997:1611-1614.

      [3] Tamura M,Masuko T,Tokuda K,et al. Adaptation of pitch and spectrum for HMM-based speech synthesis using MLLR[C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. 2001:805-808.

      [4] Junichi Y,Tachibana M,Masuko T,et al. Speaking style adaptation using context clustering decision tree for HMM-based speech synthesis[C]// Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing. 2004:5-8.

      [5] Veaux C,Rodet X. Intonation conversion from neutral to expressive speech[C]//INTERSPEECH. Florence,Italy,2011:2765-2768.

      [6] Tao J,Kang Y,Li A. Prosody conversion from neutral speech to emtional speech[J]. IEEE Transactions on Audio,Speech,and Language Processing,2006,14(4):1145-1154.

      [7] Xu Y,Wang E Q. Pitch targets and their realization:Evidence from Mandarin Chinese[J]. Speech Communication,2001,33:319-337.

      [8] Prom-On S,Xu Y,Thipakorn B. Modeling tone and intonation in Mandarin and English as a process of target approximation[J]. The Journal of the Acoustical Society of America,2009,125(1):405-424.

      [9] Gao L,Ling Z H,Chen L H,et al. Improving F0 prediction using bidirectional associative memories and syllable-level F0 features for HMM-based Mandarin speech synthesis[C]//ISCSLP. Singapore,2014:275-279.

      [10] Liu L J,Chen L H,Ling Z H,et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion[C]// IEEE International Conference on Acoustics,Speech,and Signal Processing. Florence,Italy,2014:7884-7888.

      [11] Pereira C,Watson C I. Some acoustic characteristics of emotion [C]//ICSLP. Sydney,Australia,1998:1-3.

      (責(zé)任編輯:孫立華)

      F0 Transformation for Emotional Speech Synthesis Using Target Approximation Features and Bidirectional Associative Memories

      Ling Zhenhua,Gao Li,Dai Lirong
      (School of Information Science and Technology,University of Science and Technology of China,Hefei 230027,China)

      In this paper,an F0 transformation method for emotional speech synthesis was proposed.Quantitative target approximation(qTA)features were used to represent F0 contour in syllable level.And Gaussian directional associative memories(GBAM)was used to complete the transformation of syllable-level qTA parameters from synthesized neutral speech to target emotional recordings.In the training stage,firstly HMM-based statistical parametric speech synthesis was used to construct a neutral speech synthesis system with neutral corpus as training set.And then,with a small amount of emotional recording data,GBAM-based transformation model was trained by using the qTA parameters extracted from synthesized neutral speech corresponding to the emotional text as the source feature and the qTA parameters extracted from target emotional recordings as the target patterns of GBAM,respectively.In the generation of emotional speech,the trained GBAM model was utilized to complete the transformation of syllablelevel F0 features from synthesized neutral speech to target emotional recordings.The experiment results indicate that,in the case of little emotional recording data,the proposed method performs better in emotional expressivity than the adaptation method using maximum likelihood linear regression(MLLR).

      emotional speech synthesis;qTA;GBAM;F0 transformation

      TN912.33

      A

      0493-2137(2015)08-0670-05

      10.11784/tdxbz201507028

      2015-03-15;

      2015-07-09.

      國家自然科學(xué)基金資助項(xiàng)目(61273032).

      凌震華(1979— ),男,副教授,zhling @ustc.edu.cn.

      高 麗,gaoli128@mail.ustc.edu.cn.

      時(shí)間:2015-07-13.

      http://www.cnki.net/kcms/detail/12.1127.N.20150713.0857.001.html.

      猜你喜歡
      基頻音節(jié)中性
      語音同一認(rèn)定中音段長度對(duì)基頻分析的影響
      基于時(shí)域的基頻感知語音分離方法?
      橋面鋪裝層對(duì)中小跨徑橋梁基頻影響分析
      英文的中性TA
      拼拼 讀讀 寫寫
      45000kHz基頻晶體濾波器
      電子制作(2017年20期)2017-04-26 06:57:35
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      高橋愛中性風(fēng)格小配飾讓自然相連
      FREAKISH WATCH極簡中性腕表設(shè)計(jì)
      快樂拼音
      陇西县| 伽师县| 东宁县| 叶城县| 和政县| 凉城县| 玉环县| 多伦县| 文昌市| 娄底市| 多伦县| 周口市| 临桂县| 丁青县| 安阳县| 桐庐县| 浦江县| 潍坊市| 大洼县| 锡林郭勒盟| 平安县| 天台县| 上思县| 盐亭县| 蒙阴县| 双鸭山市| 绥化市| 泽州县| 固镇县| 清新县| 云阳县| 庆安县| 通榆县| 松溪县| 体育| 普宁市| 合江县| 闽清县| 凌海市| 沧源| 江孜县|