任鵬輝,張雪英,孫 穎
(太原理工大學(xué)信息工程學(xué)院,山西 太原 030024)
隨著人機交互技術(shù)的發(fā)展,語音技術(shù)已在科學(xué)研究與應(yīng)用等領(lǐng)域中起到了很重要的作用[1]。其中,語音情感計算是一項研究如何模擬或識別說話人語音信號中的喜怒哀樂等情緒和情感因素的研究課題,具有很大的研究意義[2-3]。語音情感計算主要包括語音情感識別與情感語音合成。其情感識別率與合成的語音質(zhì)量、情感表達都與語音庫原音選擇有直接關(guān)系,因此越來越多的研究人員開始致力于情感語音庫的構(gòu)建與研究[4]。
目前,國外已有多家機構(gòu)組織建立了情感語音數(shù)據(jù)庫[5],如 Belfast Database,Belfast Natural,Albelin,Banse and Schere,Mozziconacci,Reading-Leeds Database 等,這些數(shù)據(jù)庫涉及到英語、德語、瑞典語、荷蘭語等多個語種,國內(nèi)情感語音庫有中科院情感語音庫、CESD,一些高校如清華大學(xué)、浙江大學(xué)、江蘇大學(xué)等也都建立了自己的情感語音庫。上述語音庫的情感誘發(fā)方式,數(shù)據(jù)收集,收錄情感狀態(tài)、規(guī)模以及發(fā)音人數(shù)量都不盡相同,以滿足不同需求的情感語音研究。
語音庫的構(gòu)建為情感計算的應(yīng)用提供了重要的應(yīng)用基礎(chǔ)。在情感識別中,語音庫經(jīng)訓(xùn)練形成供輸入語音匹配的情感模板庫。在情感語音合成中,語音庫經(jīng)參數(shù)提取形成情感語音模板,輸入文本利用模板來合成出相應(yīng)情感的語音。一般來說,可滿足語音合成需求的語音庫也可滿足情感識別。本語音庫的特點有:數(shù)據(jù)規(guī)模要求比較大、特定人發(fā)音、語音標注準確、以句子為收錄單位、情感表達準確等?,F(xiàn)有數(shù)據(jù)庫由于版權(quán)、規(guī)模、費用、功能用途等方面原因很難滿足現(xiàn)有的語音合成系統(tǒng)要求。因此,本文設(shè)計了一種利用錄音截取與韻律特征修改這種創(chuàng)新方法,建立了既可滿足情感語音合成又可滿足情感識別需求的多用途情感語音庫。
語音庫的建立流程可分為3個階段:1)文本篩選及錄音截取階段。首先運用貪婪算法對文本源語料進行篩選,然后對文本所對應(yīng)的語音文件進行截取。2)韻律調(diào)整階段。對截取出的語音韻律特征進行調(diào)整,得到高興、憤怒、悲傷等不同情感的語音。3)數(shù)據(jù)篩選階段。運用本文所提出的一種改進的模糊綜合評價方法對情感語音數(shù)據(jù)的聽辨與評選。下文將對每個階段作詳細說明。其制作流程如圖1所示。
圖1 情感語音庫制作流程
構(gòu)建語料庫要求文本覆蓋語言中的各種語言單元,同時又要求語料庫的規(guī)模不能過大。與語音識別語料庫不同的是語音合成語料庫要求語料遵循語音單元的自然平衡規(guī)律,音素在語料中出現(xiàn)的概率貼近于自然,讓稀少的音素出現(xiàn)頻率小,讓常用的音素出現(xiàn)頻率大。所以,需要篩選出最有利用價值的句子來組成文本語料庫。
本文選擇了美國之音VOA新聞稿作為文本源,該語音由Steve Ember播音,其特點是資源開放、發(fā)音標準、語音純凈、朗讀風格,涵蓋涉及文化、軍事、農(nóng)業(yè)等廣泛內(nèi)容,其語義不包含某一方面的情感傾向,有較高的情感自由度。選取了3500句播音文本作為語料集,每句朗讀時長5 s以上。參考HTS demo,從中選出1000句作為最終的語料庫。語料篩選采用一種改進的貪婪算法(S={所有句子的集合},U={要覆蓋的音素集合},C=空集)[6]:
1)將文本轉(zhuǎn)化成音素,統(tǒng)計每種音素在文本中所出現(xiàn)的概率P。
2)逐一統(tǒng)計S中句子i的分值
式中:K為句子中所有音素分值之和;將1/P作為該音素的權(quán)值;n為句子中語音單元的個數(shù)。
3)刪除S中分值最高的1000個句子,并將其歸入集合C,并從U中刪除這1000個句子中所包含的單元。
4)若U不為空集,則將S中包含U中剩余音素得分最高的句子替換C中分數(shù)最低的句子。
5)C即為語料庫集合。
按照已篩選出的語料文本用Cool Edit Pro軟件截取出其對應(yīng)的1000句語音文件,由于原始新聞朗讀語音不帶有其他情感色彩,所以可以直接作為中立情感語句。再通過調(diào)整其韻律特征,修改成高興、憤怒、悲傷等其他情感語句。
2.2.1 情感語句韻律分析
參考Russell采用4個象限的概念來定義情感種類[7],本文采用了4種主要情感:憤怒、高興、中立和悲傷。這4種情感模型的好處是情感粒度大,容易區(qū)分辨別[8]。說話者在不同的情感狀態(tài)下說出的語音對應(yīng)著不同的韻律特征,韻律特征主要有基音頻率、幅度和時長等[9]。所以對語音信號中的情感信息研究首先需要對韻律特征進行研究。表1所示為語句“生活是這樣的”分別在中立、高興、悲傷、憤怒4種情感下的韻律特征的具體數(shù)值。
表1 各種情感語句韻律特征的具體數(shù)值
通過大量情感語句的比對,可以總結(jié)出:“高興”的基頻最高、語速最快;“憤怒”次之,但能量略高于“高興”;“悲傷”的各項韻律特征數(shù)值均低于其他3種情感。另外,各種情感狀態(tài)的波形在重音部分是否加強,頭尾部形狀也不盡相同,運用以上規(guī)律,可以很清楚地把“高興”、“憤怒”與“悲傷”情感語音區(qū)分開來。
2.2.2 情感韻律修改
根據(jù)已統(tǒng)計的韻律參數(shù)規(guī)律對截取的中立語音進行相關(guān)韻律參數(shù)的修改,可以得到其他帶有情感的語音[10]。其修改方法為:通過調(diào)整基頻曲線,提高或者減小整體基頻數(shù)值,再對重音、頭尾部形狀做相應(yīng)修改。通過調(diào)整語音時長,改變不同情感狀態(tài)下的語速快慢。通過調(diào)整語音音量,控制其能量大小。
本文中將Steve Ember的1000句中立語音通過Cool Edit Pro與praat軟件修改成為高興、憤怒、悲傷3種情感語音各1000句,其修改數(shù)值經(jīng)大量主觀辯聽實驗驗證及相關(guān)文獻的參考[11],可基本滿足其他3種情感表達的需求。另外,修改數(shù)值還跟發(fā)音人的音質(zhì)有直接的關(guān)系,所以除了遵循韻律參數(shù)的大致規(guī)律外,還需依靠人工主觀辯聽修改語音細節(jié),以求得到更加真實、情感表達更加準確的語音。修改規(guī)則如表2所示(以中立語音為參考值)。
表2 特征修改規(guī)則
修改過程中主要以人的主觀辯聽為參考因素,以語音通順、自然流暢為前提。
為了保證所采集的情感語料的可靠性,對語音情感數(shù)據(jù)進行了主觀聽辨與評選[12]。由于本數(shù)據(jù)庫不同于傳統(tǒng)數(shù)據(jù)庫,需考慮語音情感表達準確度、清晰度、自然度等多方面因素來綜合驗證數(shù)據(jù)的可靠性,因此本文運用了一種改進的模糊綜合評價方法對語音數(shù)據(jù)進行評測。其步驟如下:
1)確定綜合因素評價集 V={V1,V2,…,V6}。其中,V1,V2,…,V6分別代表情感表達、情景感、清晰度、自然度、流暢度、噪音影響等6個子集。
2)根據(jù)各子集對整體的影響大小,約定各子集的權(quán)重,得權(quán)重集 A={a1,a2,…,a6}={0.30,0.20,0.10,0.10,0.10,0.20}。
3)10位評測人對某條語句打分,打分細則如表3所示。
表3 語句打分表
4)歸一化后的數(shù)據(jù)構(gòu)成一個V的模糊評價矩陣
式中:?為模糊矩陣乘法符號。歸一化得
5)求得此條語句的總得分,可以對5個級別分別賦以分值,如約定好為100分,較好為85分,中為65分,較差為35分,差為0分,則總得分
6)如果語句得分大于等于60分,則保留;否則,認為此條語句不合格,剔除之后重新修改。
將語音情感識別系統(tǒng)與情感語音合成系統(tǒng)有機地結(jié)合在一起,使計算機能夠與人進行情感語音交流是人機交互應(yīng)用研究的熱點之一。目前,此類技術(shù)已經(jīng)在語音搜索、人工智能、交通醫(yī)療等領(lǐng)域都有了相當規(guī)模的應(yīng)用,如谷歌Voice Search、蘋果的Siri通過人類語音信號即可實現(xiàn)人機互動。此類技術(shù)的前端方面,即面向用戶和用戶交互(User Interface,UI)的技術(shù),主要就是語音識別以及語音合成技術(shù),在其中加入情感信息可使人機交流變得更加人性化。語音識別技術(shù)是把用戶的口語轉(zhuǎn)化成文字,其中需要強大的語音知識庫,需要用到“云計算”技術(shù)。而語音合成則是把返回的文字結(jié)果轉(zhuǎn)化成語音輸出,這個技術(shù)理論上本地就能完成。這里主要介紹情感語音庫在語音情感識別與情感語音合成兩方面的應(yīng)用。
語音情感識別是利用計算機識別發(fā)音人情感狀態(tài)的技術(shù)。其流程包括預(yù)處理、特征提取和模式匹配3個部分,如圖2所示。
圖2 語音情感識別系統(tǒng)框圖
語音情感識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng),語音庫中的情感語音信號經(jīng)過預(yù)處理后進行特征參數(shù)提取,然后將不同情感的特征參數(shù)訓(xùn)練成不同的模板庫。待識別的語音信號特征參數(shù)與模板庫進行模式匹配即可得到情感識別結(jié)果。因此識別結(jié)果與語音庫質(zhì)量好壞、模板是否準確都有直接的關(guān)系。語音庫的建立為整個語音情感識別過程提供了重要的前提工作與基礎(chǔ)。
情感語音合成就是利用語音合成技術(shù)實現(xiàn)文本到帶有人類情感語音的轉(zhuǎn)換,使機器也能發(fā)出帶模擬人類情感的語音。本文主要介紹語音庫在基于HMM情感語音合成法中的應(yīng)用,如圖3所示。
圖3 基于HMM語音合成訓(xùn)練部分流程圖
基于HMM的語音合成系統(tǒng)包括訓(xùn)練和合成兩個部分。在訓(xùn)練部分中需從情感語音庫中提取激勵參數(shù)與譜參數(shù),利用上下文相關(guān)因素,對聲道譜、基頻和時長進行建模[13]。在之后的合成部分中,輸入的文本利用這些模型通過參數(shù)合成器合成出情感語音。所合成出的情感語音同樣與語音庫的情感表達準確度、語音質(zhì)量等因素有直接的關(guān)系。
本文首先利用貪婪算法對數(shù)據(jù)進行篩選,然后通過錄音截取與韻律特征修改這種創(chuàng)新方法設(shè)計并建立了一種面向語音合成的情感語音庫。包括中立、悲傷、高興、憤怒4種情感,每種1000句,共4000句情感語音。最后利用模糊綜合評價方法對情感語音數(shù)據(jù)的聽辨與評選來確保語料的可靠性。同時簡要論述了本語音庫在語音情感識別與情感語音合成方面的應(yīng)用。
本文總結(jié)了各種情感狀態(tài)下韻律特征規(guī)律。按照此規(guī)律,通過主觀辯聽調(diào)整中立語音得到情感的語音,這也是本文中的難點。其語音質(zhì)量受到發(fā)音人與主觀辯聽調(diào)整的較大影響,每句語音的具體修改數(shù)值也不盡相同。所以總結(jié)出一套更加具體、完善的韻律特征修改方案是今后工作的研究重心。建立一個發(fā)音自然度高、情感表達準確的語音庫才是語音情感計算進入實際應(yīng)用的一個重要基礎(chǔ)和前提工作。
[1]GUDNASON J,THOMAS M R P,ELLIS D P W,et al.Data-driven voice source waveform analysis and synthesis[J].Speech Communication,2012,54(2):199-211.
[2]周沽,趙力,鄒采榮.情感語音合成的研究[J].電聲技術(shù),2005,29(10):57-73.
[3]陳潔,張雪英,孫穎.基于HMM的可訓(xùn)練情感語音合成研究[J].電聲技術(shù),2012,36(3):43-46.
[4]ELLEN D C,NICK C,RODDY C,et al.Emotional speech:towards a new generation of databases[J].Speech Communication,2003,40(1):33-60.
[5]徐露,徐明星,楊大利.面向情感變化檢測的漢語情感語音數(shù)據(jù)庫[J].清華大學(xué)學(xué)報:自然科學(xué)版,2009,49(S1):1413-1418.
[6]龐敏輝.語音庫自動構(gòu)建技術(shù)的研究[D].青島:中國海洋大學(xué),2010.
[7]LIEBERMAN P,MICHAELS S B.Some aspects of fundamental frequency and envelop amplitude as related to the emotional content of speech[J].Journal of the Acoustical Society of Ametica,1962,34(7):922-927.
[8]SCHERER K R,BANZIGER T.Emotional expression in prosody:a review and an agenda for future researeh[C]//Proc.Speech Prosody,2004.Nava,Japan:ISCA Speech,2004:359-366.
[9]蔣丹寧,蔡蓮紅.基于語音聲學(xué)特征的情感信息識別[J].清華大學(xué)學(xué)報:自然科學(xué)版,2006,46(l):56-89.
[10]ELLIOT M II,MARK C,JOHN P,et al.Comparing objective feature statistics of speech for classifying clinical depression[J].IEEE Engineering in Medicine and Biology Society,2004,26(1):17-20.
[11]黨培霞.基于情感基音模板的情感語音合成[D].長沙:中南大學(xué),2010.
[12]黃程韋,金赟,趙艷,等.實用語音情感數(shù)據(jù)庫的設(shè)計與研究[J].聲學(xué)技術(shù),2010,29(4):396-399.
[13]張雪英,陳潔,孫穎.改進的HMM合成系統(tǒng)在英語合成中的研究[J].太原理工大學(xué)學(xué)報,2012,43(1):16-19.