陳穎,肖仲喆
?
離散標(biāo)簽與維度空間結(jié)合的語音數(shù)據(jù)庫設(shè)計
陳穎,肖仲喆
(蘇州大學(xué)光電信息科學(xué)與工程學(xué)院,江蘇蘇州 215006)
建立了一個將離散情感標(biāo)簽與維度情感空間結(jié)合起來的漢語情感語音數(shù)據(jù)庫。該數(shù)據(jù)庫由16名母語為漢語的說話人對情感語音進行表演型錄制。語音樣本是根據(jù)中性、愉悅、高興、沮喪、憤怒、哀傷,以及悲傷等七種離散的情感標(biāo)簽采集而得,每名說話人有336條語音樣本。隨后由三名標(biāo)注人在維度空間上對每條語音樣本進行標(biāo)注。最后,根據(jù)標(biāo)注所得的數(shù)據(jù)來研究這七種情感在維度空間的分布情況,并分析了情感在一致性、集中性和差異性方面的性能。除此以外,還計算了這七種情感的情感識別率。結(jié)果顯示,三名標(biāo)注人對該數(shù)據(jù)庫標(biāo)注的一致性都達到了80%以上,情感之間的可區(qū)分度較高,并且七種情感的情感識別率均高于基線水平。因此,該數(shù)據(jù)庫具有較好的情感質(zhì)量,能夠為離散情感標(biāo)簽到維度情感空間的轉(zhuǎn)化提供重要的研究依據(jù)。
離散情感標(biāo)簽;維度情感空間;漢語;情感識別
語言是人類交換信息最方便、最快捷的一種方式。人類之所以能夠通過聆聽語音,捕捉到對方的情感狀態(tài),是因為語音不僅包含有語義信息,還攜帶了人類所要傳達的情感信息[1]。情感語音數(shù)據(jù)庫是實現(xiàn)情感語音識別和合成的重要基石,因此,越來越多的研究者們開始致力于對情感語音數(shù)據(jù)庫的研究。如何建立一個情感自然、表達流暢的情感語音數(shù)據(jù)庫逐漸成為了國內(nèi)外的研究熱點。在國外,已經(jīng)有很多機構(gòu)建立了相關(guān)的情感語音數(shù)據(jù)庫[2],如:德語電視談話節(jié)目“Vera am Mittag”現(xiàn)場錄制保存的語料庫(The Vera am Mittag Corpus, VAM)[3],面向自然人機交互和人工智能研究的Semaine 數(shù)據(jù)庫[4],柏林工業(yè)大學(xué)錄制的德語情感語音庫 (The Berlin Emotional Speech Database, Emo-DB)[5],以及由Queen大學(xué)Cowie R和Cowie E錄制的Belfast情感數(shù)據(jù)庫[6]等。近些年,國內(nèi)的眾多高校也建成了大規(guī)模的情感語料庫。例如北京航空航天大學(xué)建立的雙模情感語音數(shù)據(jù)庫[7]、東南大學(xué)建立的實用情感語料庫[8]、清華大學(xué)的面向情感變化檢測的漢語情感語音數(shù)據(jù)庫(Chinese Emotional Speech Database, CESD)數(shù)據(jù)庫[9]以及中國科學(xué)院自動化研究所所錄制的漢語情感語音數(shù)據(jù)庫(The Chinese Academy of Sciences’ Institute of Automation Corpus, CASIA)[10]等。上述語料庫的情感收集、誘發(fā)方式、規(guī)模大小以及情感狀態(tài)各不相同,以滿足不同的情感研究。
依據(jù)情感描述模型的差異,情感描述方式被大致分為離散和維度兩種形式。前者是用離散的情感標(biāo)簽(如高興、悲傷、生氣等)來描述情感,目前的離散情感語料庫較多,如Emo-DB,Belfast,CESD,CASIA等;而后者以連續(xù)的實數(shù)坐標(biāo)值來表示情感,它認為不同情感之間的轉(zhuǎn)換是平滑的、逐漸的,可以使用不同的情感在維度空間的距離來表示其相似性和差異性[11],目前維度情感數(shù)據(jù)庫只占少數(shù),如VAM,Semaine等。
不同的語料庫采用的情感標(biāo)簽也各有不同。例如宋靜等[12]建立的情感語料庫包含了高興、驚奇、悲傷、生氣這四種不同的情感;陳浩等[13]建立的情感語料庫包含正常、喜悅、憂傷、憤怒等情感;黃程韋等[8]設(shè)計了包含煩躁、緊張、喜悅、平靜這四種情感的語料庫。上述的離散情感數(shù)據(jù)庫包括的情感類型都具有單一、易辨識的特點。而生活中的自然情感往往是多樣、復(fù)雜且模糊的,人們對某一情感的表達可以有若干程度的體現(xiàn),例如對于悲傷情感,人們可以表現(xiàn)為郁郁寡歡、愁眉不展甚至是痛哭流涕。維度情感空間更能對自然狀態(tài)下模糊、復(fù)雜的情感進行描述和區(qū)分,可以更加直觀、精確地展現(xiàn)出語音所包含的情感信息以及各情感間的聯(lián)系與區(qū)別[14]。
為探索離散情感標(biāo)簽與維度空間模型之間的聯(lián)系,本文建立了一個將離散情感標(biāo)簽與維度情感空間結(jié)合起來的漢語情感語音數(shù)據(jù)庫。該語料庫將除中性情感以外的三種情感(憤怒、高興、悲傷)分別設(shè)定了強弱兩類,共包含七種情感的語音樣本。其錄制過程是采用離散情感標(biāo)簽進行表演型錄制,但情感的標(biāo)注工作是標(biāo)注人將其對語音樣本的聽覺感知轉(zhuǎn)化為效價度/喚醒度(Valence/Arousal, VA)空間中某個具體的坐標(biāo)值。因此,本文設(shè)計的語料庫不僅從離散的角度描述了情感類型,還從維度情感的角度來分析了語音庫中的情感內(nèi)容,為以后的研究提供了重要的參考依據(jù)。
在人們的日常交流過程中,語音包含了豐富的情感信息。但有些情感狀態(tài)應(yīng)用得更加廣泛、更具有研究價值,這樣的情感被歸結(jié)為基本情感類別[2]。
在情感語音早期研究中,Ververidis D等[15]對早期的32個情感語音數(shù)據(jù)庫進行了回顧,這32個數(shù)據(jù)庫涉及的語言類型廣泛,包括英語、德語、日語、荷蘭語、西班牙語、丹麥語、希伯來語、瑞典語、漢語,以及俄語等,并且每個語音庫包含的情感類別以及數(shù)量各有差異。對這32個情感數(shù)據(jù)庫中的情感使用情況總結(jié)如表1所示。
表1 數(shù)據(jù)庫中的情感使用情況
Table 1 The usage of the emotions in these databases
并且此后出現(xiàn)的數(shù)據(jù)庫[16-18]包含的情感類型都與其類似。因此本文選擇了中性情感以及使用數(shù)量最高的三種情感狀態(tài),分別為生氣(Anger)、悲傷(Sadness)、高興(Happiness),并將這三種情感分為強弱兩類,以分析強弱不同的情感在連續(xù)維度空間上的聯(lián)系。表2所示為所使用的七種情感類型。
表2 情感狀態(tài)
Table 2 Emotional states
語音的錄制由 16 名在校大學(xué)生(8 名男性,8名女性)參與完成。這些學(xué)生的年齡在20~24歲之間,并且都是非表演專業(yè)的人士。參與錄制的說話人均以漢語為母語,普通話流利,發(fā)音清晰,沒有咽喉疾病,且錄音當(dāng)天沒有患感冒等影響發(fā)音的疾病。說話人根據(jù)所給定的情感標(biāo)簽,用相應(yīng)的情感朗讀指定的文本語料從而獲得語音樣本,因此該數(shù)據(jù)庫屬于表演型情感語音數(shù)據(jù)庫。這種方法錄音的好處在于:一是操作的可行性,該實驗不需要在專業(yè)的錄音棚進行操作,在安靜的環(huán)境下,說話人便可參與語音的錄制;其二是情感易于分類,因為語音樣本是由說話人根據(jù)給定的情感標(biāo)簽,對固定的語料文本進行朗讀采集而得,所以情感區(qū)分度更高。
對于文本語料的選擇,應(yīng)遵循以下幾點原則:
(1) 選擇的錄音語句不帶有情感傾向,說話人能對其施加不同的情感進行朗讀;
(2) 錄音語句采用口語化的陳述句,并且語句統(tǒng)一采用普通話,不能帶有方言[19];
(3) 錄音語句的長度要選擇適當(dāng),每個句子的時長,按正常的語速讀,要大于1 s,小于5 s;
(4) 所有的句子集中起來,基本涵蓋漢語拼音中的所有聲母和所有韻母,四聲經(jīng)常出現(xiàn),輕聲也在一部分句子中出現(xiàn)。
我們選擇的16句文本語料如表3所示。
表3 文本語料
Table 3 Text corpus
錄音地點是在一間空曠的教室里。為了使外界的干擾達到最小,錄音時間基本選擇在周末,以減少人員走動及喧嘩產(chǎn)生的雜音。錄音使用的設(shè)備包括:戴爾Inspiration N4110筆記本電腦一臺、鐵三角AHT-SR5頭戴式耳機一副、鐵三角AT2020麥克風(fēng)一個[20]。
錄音程序采用Matlab軟件編寫。錄音采用44.1 kHz的采樣頻率、16 bits的量化精度、單聲道采樣的音頻格式。錄制的語料保存為.WAV格式。
情感錄音實驗容易受到設(shè)備狀態(tài)、說話人心理變化的干擾。為了采集到表達流暢、情感自然的語音樣本,說話人需要熟悉錄音的文本內(nèi)容以及整個錄制的流程。在正式錄音前,說話人需要對所朗讀的文本內(nèi)容進行了解,并進行模擬錄音實驗。說話人根據(jù)模擬實驗所得到的錄音來調(diào)整自己的情感狀態(tài)、音量大小,以獲得最佳的發(fā)音狀態(tài),隨后開始正式的錄音。
說話人根據(jù)圖1錄音界面上的情感標(biāo)簽對文本進行朗讀,即完成該條語音的錄制。每錄完一條語音樣本,說話人都需要對該條語音進行回放,以檢查語音是否有噪聲,是否為所期望表達的情感,以實現(xiàn)對語音的及時補錄。每位說話人需要錄制的語音樣本由表3中16句文本內(nèi)容所組成,每句文本需要以7種不同的目標(biāo)情感狀態(tài)進行表演錄制,一共錄制三遍,共計16×7×3=336條語音樣本。因此整個數(shù)據(jù)庫共包括16×336=5 376條語音樣本,并且每種情感有16×16×3=768條語音。考慮到在不同的錄音順序下,說話人情感表達會受到影響。因此將這三遍設(shè)為不同的錄音順序,它們的區(qū)別為:
第一遍:每句文本依次錄制7種情感狀態(tài),錄完后進行下一句;
第二遍:每種情感狀態(tài)依次錄制16句文本,錄完后進行下一句;
第三遍:隨機順序。
圖1 錄音界面
維度論認為多維情感空間基本能夠描述生活中存在的、任意的情感狀態(tài),也就是說,任一情感狀態(tài)都對應(yīng)于情感空間中的某一點,并且該點的坐標(biāo)值大小能反映該情感在各維度上的強弱程度[1]。目前使用得較為廣泛的情感空間包括效價度/喚醒度(Valence/Arousal, VA)空間與效價度/喚醒度/控制度(Valence/Arousal/Dominance, VAD)空間。
本文的標(biāo)注工作是在VA空間上進行操作的,如圖2所示。其中,水平軸是效價度,又稱為愉悅度,體現(xiàn)主體的情感正負面程度,“Positive”表示愉悅,如高興,“Negative”表示厭惡,如憤怒;垂直軸是喚醒度,也稱為激活度或能量度,它是用來度量情感激烈程度的,“Active”表示激活度高,如憤怒,“Passive”表示激活度低,如低沉[21]。標(biāo)注在Valence和Arousal兩個情感維度上進行,實現(xiàn)了離散情感標(biāo)簽到維度情感坐標(biāo)的轉(zhuǎn)變。這樣,標(biāo)注者標(biāo)注的VA空間坐標(biāo)與說話人錄制的情感所在的目標(biāo)象限的差異情況將被用于情感發(fā)出者的情感表達愿望與聽者感知差異方面的研究。
圖2 VA空間
由于不同的人對同一情感語句的認知可能不同,因此本實驗選擇三名未參與錄音的人員對語音進行標(biāo)注,標(biāo)注界面如圖3所示。
圖3 標(biāo)注界面
標(biāo)注者通過聆聽隨機播放的情感語料,再根據(jù)自身的主觀判斷評價所聽到的語音樣本,將自己對情感的判斷數(shù)值化,即標(biāo)注為VA空間中某個具體的坐標(biāo)點。在標(biāo)注完成后,每個標(biāo)注人所得的標(biāo)注結(jié)果中都包含了5 376個情感標(biāo)注文件。情感標(biāo)注文件指的是每個語音樣本對應(yīng)的二維坐標(biāo)值。我們將標(biāo)注人對第種情感樣本的標(biāo)注結(jié)果表示為
為了分析這七種目標(biāo)情感在VA空間的分布情況以及評估該語音庫的情感質(zhì)量,對2.1節(jié)得到的標(biāo)注結(jié)果,分別進行了三個方面的研究:(1) 情感分布;(2) 標(biāo)注人之間的一致性;(3) 情感的集中性與差異性。
2.2.1 情感分布
標(biāo)注完成后,可得到每種情感樣本的坐標(biāo)點在VA空間中所處的范圍,對于距離大面積分布區(qū)域較遠的散點,將忽略不計。如圖4所示,使用閉合的橢圓曲線來包圍每種情感的坐標(biāo)值,每個橢圓的長半軸表示該情感數(shù)據(jù)的分布方向。
圖4 情感分布
觀察圖4得到,高興與愉悅基本都處于VA空間的第一象限,因為它們的愉悅度高,激活度高;此外,與高興成縱坐標(biāo)對稱的是憤怒,憤怒的喚醒值與高興相近,但在效價維度上離高興較遠;哀傷在VA空間中基本處于第三象限,但比哀傷情感較強的悲傷卻跨越了第二和第三象限,這是因為表達悲傷情感時,有的人情緒會比較激動,而有的人會處于低沉的狀態(tài),從而導(dǎo)致悲傷在喚醒度上有較大的浮動范圍;沮喪的情感分布與悲傷相似,同樣跨越了二、三象限,但其愉悅度比悲傷高;中性情感的坐標(biāo)值基本都處于原點附近。研究發(fā)現(xiàn),相對于強烈情感而言,微弱情感的坐標(biāo)更靠近于原點。除此以外,不同情感的分布范圍存在著相互交疊的部分,如高興與愉悅,哀傷與沮喪等。這是由于存在交疊的兩種情感在表達上具有一定的相似性,因此在情感識別的應(yīng)用中,容易對存在交疊的這兩種情感產(chǎn)生誤判。
2.2.2 標(biāo)注人之間的一致性
若三名標(biāo)注人的標(biāo)注結(jié)果具有一定的正相關(guān)性,則說明三名標(biāo)注人對同一條語音的理解具有一致性。因此,兩名標(biāo)注人之間的相關(guān)系數(shù)越接近于1,則這兩個標(biāo)注人之間的相關(guān)程度越高,該語音庫的一致性越好;反之,則說明該語音庫的一致性越差。本文計算了這三名標(biāo)注人標(biāo)注結(jié)果之間的相關(guān)系數(shù),計算公式如下:
三名標(biāo)注人之間的相關(guān)系數(shù)如表4所示。
表4 標(biāo)注人之間的一致性(相關(guān)系數(shù))
Table 4 Consistencies between the three annotators (correlation coefficients)
無論在效價維還是在喚醒維,任意兩名標(biāo)注人之間的相關(guān)系數(shù)都在0.80以上,甚至標(biāo)注人1和標(biāo)注人 3 之間的相關(guān)系數(shù)在效價維度上達到了0.955 6。綜合來看,三名標(biāo)注人之間的相關(guān)性都較好,即聽者感知的一致性較好。這表明三名標(biāo)注人在標(biāo)注同一條語音時理解較為一致,因此該語音庫的情感質(zhì)量較高。同時,效價度上的相關(guān)系數(shù)均高于喚醒度上的相關(guān)系數(shù),表明情感在效價度上的一致性更好。
2.2.3 情感的集中性與差異性
通過選擇類內(nèi)標(biāo)準(zhǔn)差來描述這七種情感的集中性。類內(nèi)標(biāo)準(zhǔn)差反映的是一個數(shù)據(jù)集的離散程度,它是各數(shù)據(jù)偏離平均數(shù)的距離的平均數(shù)。類內(nèi)標(biāo)準(zhǔn)差越大,代表大部分數(shù)值和其平均值之間的差異越大;類內(nèi)標(biāo)準(zhǔn)差越小,代表這些數(shù)值越接近平均值,集中性越好。
同類情感坐標(biāo)分布的標(biāo)準(zhǔn)差反映了該情感的離散程度,計算公式為
由于語音樣本的坐標(biāo)是二維的,因此計算得到的標(biāo)準(zhǔn)差也是二維的,分別屬于效價維和喚醒維。得到這七種目標(biāo)情感的標(biāo)準(zhǔn)差如圖5所示。各種情感的標(biāo)準(zhǔn)差都處于0到1之間,相比較而言,標(biāo)準(zhǔn)差越接近于0,表明該情感在相應(yīng)維度上的離散程度越小,如中性情感在效價度上的標(biāo)準(zhǔn)差最小,則中性情感在效價度上的離散程度最?。环粗?,標(biāo)準(zhǔn)差越接近于1,則該情感在相應(yīng)維度上的離散程度就越大,如悲傷情感在喚醒度上的標(biāo)準(zhǔn)差最大,則其在喚醒度上的離散程度就最大。并且除高興情感以外,其余六種情感在效價度上的標(biāo)準(zhǔn)差均比在喚醒度上的標(biāo)準(zhǔn)差小,說明情感在效價維度上的離散程度更小,集中性更好。這與2.2.2節(jié)中情感在效價度上一致性更好的結(jié)論一致。李嘉等[23]針對生氣、高興、悲傷和平靜這四種情感,提取了其喚醒度和效價度上對應(yīng)的情感特征,發(fā)現(xiàn)效價度上的情感特征對語音識別具有重要作用,這也與本文結(jié)論一致。
圖5 情感標(biāo)準(zhǔn)差
圖6 每種情感的橢圓面積
由于情感表達的集中性不同,因此得到的橢圓面積大小也不同。面積越小,說明該情感的集中性越高;反之則說明該情感的集中性越差。計算得到每種情感的橢圓面積結(jié)果如圖7所示。
圖7 情感對應(yīng)的橢圓面積值
研究發(fā)現(xiàn)中性情感的橢圓面積最小,為0.214 9;其次是愉悅情感,其面積值為0.380 2;而情感橢圓面積最大的是悲傷,面積達到了1.122 9。這說明中性情感的集中性最高,其具有明顯的情感特征;其次是愉悅;而悲傷在這七種目標(biāo)情感中集中性最差。東南大學(xué)的羅武駿等[24]對高興、傷心、害怕、驚訝、生氣和中性六種情感狀態(tài)進行了聽辨性實驗。實驗得出悲傷的識別錯誤率最高,中性情感的識別錯誤率最低,原因在于中性情感的情感特征較為鮮明,這與本文的結(jié)論一致。
另外,為了分析不同情感樣本標(biāo)注結(jié)果的差異性,采用單因素方差分析方法來評判情感因素對標(biāo)注結(jié)果的影響程度。單因素方差分析方法能夠分析多組數(shù)據(jù)樣本之間是否具有共同的均值,即確定多組數(shù)據(jù)之間是否具有顯著的差異性[22]。不同列的數(shù)據(jù)表示某一因素的變化情況。本文將同一情感樣本的標(biāo)注結(jié)果表示為一列數(shù)據(jù),即不同列的數(shù)據(jù)代表為情感因素E的變化情況,如矩陣:
單因素方差分析中計算了每一列數(shù)據(jù)均值相等時的概率,從而判斷這一因素是否對結(jié)果有顯著的影響。的值越小,表示這個因素對觀測結(jié)果的影響越顯著[25]。
由于標(biāo)注人對語音的主觀辨聽以及對語音在VA空間中情感表現(xiàn)力的評價,一定程度上會受到主觀情感的干擾,因此主觀標(biāo)注并不能真實、客觀地反映該數(shù)據(jù)庫中語音質(zhì)量的高低。因此,本文還進行了客觀分析,通過分析這七種情感語音的基頻、短時能量、前三個共振峰以及前12個梅爾倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)及其一階差分的相關(guān)統(tǒng)計值,包括均值、標(biāo)準(zhǔn)差、最大值、最小值以及中位值,用這145維特征參數(shù)來對情感進行分類。特征參數(shù)的具體內(nèi)容如表5所示。
表5 特征統(tǒng)計值
Table 5 Characteristic statistics
圖8 情感識別率
本文錄制了一個漢語情感語音數(shù)據(jù)庫。該數(shù)據(jù)庫由16名說話人對文本語料進行表演錄制而得,共包含5 376條語音樣本。通過從離散情感標(biāo)簽到維度情感坐標(biāo)的轉(zhuǎn)變,介紹七種情感在二維坐標(biāo)空間上的變化。然后從情感的一致性、集中性、差異性以及情感識別率這四個方面來分析該數(shù)據(jù)庫的情感質(zhì)量。研究表明,該數(shù)據(jù)庫的情感一致性較高,并且情感之間具有較明顯的可區(qū)分性。
雖然這個語音情感數(shù)據(jù)庫能滿足基本的情感研究,但仍有些不足之處,后期將會利用與該數(shù)據(jù)庫相同的說話人來建立一個自然情感語料庫,與該表演情感語料庫進行比對。
[1] 韓文靜, 李海峰, 阮華斌, 等. 語音情感識別研究進展綜述[J]. 軟件學(xué)報, 2014, 25(1) : 37-50.HAN Wenjing, LI Haifeng, RUAN Huabin, et al. A summary of the progress of recognition of emotional speech[J]. Journal of Software, 2014, 25(1): 37-50.
[2] 韓文靜, 李海峰. 情感語音數(shù)據(jù)庫綜述[J]. 智能計算機與應(yīng)用, 2013, 3(1): 5-7.HAN Wenjing, LI Haifeng. Overview of emotional speech databases[J]. Intelligent Computer and Application, 2013, 3(1): 5-7.
[3] GRIMM M, KROSCHEL K, NARAYANAN S. The Vera am Mittag German audio-visual emotional speech database[C]//IEEE International Conference on Multimedia and Expo. IEEE, 2008: 865-868.
[4] MCKEOWN G, VALSTAR M F, COWIE R, et al. The SEMAINE corpus of emotionally coloured character interactions[C]//IEEE International Conference on Multimedia and Expo. IEEE, 2010: 1079-1084.
[5] BURKHARDT F, PAESCHKE A, ROLFES M, et al. A database of German emotional speech[C]//INTERSPEECH 2005-Eu- rospeech, European Conference on Speech Communication and Technology, Lisbon, Portugal, September. DBLP, 2005: 1517-1520.
[6] DOUGLAS-COWIE E, COWIE R, SCHR?DER M. A new emotion database: considerations, sources and scope[C]//ISCA Workshop on Speech and Emotion. 2000: 39-44.
[7] 景少玲, 毛峽, 陳立江, 等. 漢語雙模情感語音數(shù)據(jù)庫標(biāo)注及一致性檢測[J]. 北京航空航天大學(xué)學(xué)報, 2015, 41(10): 1925-1934.JING Shaoling, MAO Xia, CHEN Lijiang, et al. Marking and consistency detection of chinese dual-mode emotional voice database[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(10): 1925-1934.
[8] 黃程韋, 金赟, 趙艷, 等. 實用語音情感數(shù)據(jù)庫的設(shè)計與研究[J]. 聲學(xué)技術(shù), 2010, 29(4) : 396-399.HUANG Chengwei, JIN Yun, ZHAO Yan, et al. Design and establishment of practical speech emotional database[J]. Acoustic Technology, 2010. 29(4): 396-399.
[9] 徐露, 徐明星, 楊大利. 面向情感變化檢測的漢語情感語音數(shù)據(jù)庫[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2009, 49(s1) : 1413-1418.XU Lu, XU Mingxing, YANG Dali. Chinese emotional speech database for emotional change detection[J]. Journal of Tsinghua University (Science and Technology), 2009, 49(s1): 1413-1418.
[10] CASIA. Database of Chinese emotional speech[DB/OL]. Beijing. Chinese Linguistic Data Consortium, 2008. http://www. chi-neseldc.org/ resource_info.php Rid=76.
[11] 王志良. 人工心理[M]. 北京: 機械工業(yè)出版社, 2007.WAN Zhiliang. Artificial psychology[M]. Beijing: Machinery Industry Press, 2007.
[12] 宋靜, 張雪英, 孫穎, 等. 基于模糊綜合評價法的情感語音數(shù)據(jù)庫的建立[J]. 現(xiàn)代電子技術(shù), 2016, 39(13): 51-54.SONG Jing, ZHANG Xueying, SUN Ying, et al. Establishment of emotional speech database based on fuzz comprehensive evaluation method[J]. Modern Electronic Technology, 2016. 39(13): 51-54.
[13] 陳浩, 師雪姣, 肖智議, 等. 高表現(xiàn)力情感語料庫的設(shè)計[J]. 計算機與數(shù)字工程, 2014, 42(8): 1383-1385.CHEN Hao, SHI Xuejiao, XIAO Zhiyi, et al. High Performance Emotional Corpus[J]. Computer and Digital Engineering, 2014, 42(8): 1383-1385.
[14] 宋靜. PAD情緒模型在情感語音識別中的應(yīng)用研究[D]. 太原: 太原理工大學(xué), 2016. SONG Jing. Application of PAD Emotional Model in Emotional Speech Recognition[D]. Taiyuan: Taiyuan University of Technology, 2016.
[15] VERVERIDIS D, KOTROPOULOS C. A state of the art review on emotional speech databases[C]//Proc 1stRich media Conference Lausanne, Switzerland, 2003: 10-119.
[16] 宣守盼. 多模態(tài)情感數(shù)據(jù)庫的研究與建立[D]. 上海: 華東理工大學(xué), 2013. XUAN Shoupan. Research and establishment of multi - modal emotion database[D]. Shanghai: East China University of Science and Technology, 2013.
[17] 王寶軍, 薛雨麗, 于適寧, 等. 多模情感數(shù)據(jù)庫的設(shè)計與評價[J]. 中國科技論文, 2016, 11(2): 214-218.WANG Baojun, XUE Yuli, YU Shining, et al. Design and evaluation of Multi-mode Emotion Database[J]. Chinese Scientific Papers, 2016, 11(2): 214-218.
[18] 曾光菊. 普通話語音情感聲學(xué)特征數(shù)據(jù)庫的建立[D]. 成都: 電子科技大學(xué), 2012. ZENG Guangju. The Establishment of Mandarin Speech and Emotional Characteristic Database[D]. Chengdu: University of Electronic Science and Technology, 2012.
[19] 陳雁翔. 漢語情感語音數(shù)據(jù)庫的設(shè)計與測試[C]//全國人機語音通訊學(xué)術(shù)會議. 2011.CHEN Yanxiang. Design and testing of Mandarin emotional speech database[C]//National Conference on Human-Computer Phonetics. 2011.
[20] 德訊鐵三角有限公司. Audio-Technical AT2020錄音室心形指向電容話筒[J]. 世界專業(yè)音響與燈光, 2005, 3(4): 76-76. DEXUN Triangle Limited Company. Audio-Technical AT2020 Studio heart pointing condenser microphone[J]. International Professional Audio and Lighting, 2005, 3(4): 76-76.
[21] 安秀紅. 基于特征參數(shù)的語音情感識別[D]. 太原: 太原理工大學(xué), 2011.AN Xiuhong. Speech emotion recognition based on characteristic parameters[D]. Taiyuan: Taiyuan University of Technology, 2011.
[22] 何仁斌. MATLAB 6工程計算及其運用[M]. 重慶: 重慶大學(xué)出版社, 2002. HE Renbin. MATLAB 6 engineering calculation and its application[M]. Chongqing: Chongqing University Press, 2002.
[23] 李嘉, 黃程韋, 余華. 語音情感的維度特征提取與識別[J]. 數(shù)據(jù)采集與處理, 2012, 27(3): 389-393.LI Jia, HUANG Chengwei, YU Hua. Dimensional features extraction and recognition of speech emotions[J]. Data collection and processing, 2012, 27(3): 389-393.
[24] 羅武駿, 黃程韋, 查誠, 等. 越南語語音情感特征分析與識別[C]. 全國信號處理學(xué)術(shù)年會及產(chǎn)業(yè)發(fā)展大會. 2013.LUO Wujun, HUANG Chengwei, ZHA Cheng, et al. Analysis and recognition of Vietnamese speech emotional characteristics[C]. National Conference on signal processing and industrial development. 2013.
[25] 石博強, 趙金. MATLAB數(shù)學(xué)計算與工程分析范例教程[M]. 北京: 中國鐵道出版社, 2005. SHI Boqiang, ZHAO Jin. MATLAB mathematical computation and engineering analysis[M]. Beijing: China Railway Press, 2005.
Design of discrete tags and dimensional space combined emotional speech database
CHEN Ying, XIAO Zhong-zhe
(School of Optoelectronic Information Science and Engineering, Soochow University, Suzhou 215006,Jiangsu, China)
This paper establishes a Mandarin emotional speech database thatcombines discrete emotion tags with dimensional emotion space. The database is recorded for 16 Chinese native speakers in performing Chinese emotional speech. The speech samples are acquired from seven discrete emotion tags, such as neutrality, pleasure, happyness, frustration, anger, sorrow, and sadness. Each speaker receives 336 utterances. Then, each of the speech samples is annotated by three annotators in dimensional space. Finally, according to the obtained data, the distributions of these seven emotions in the emotion space are studied, and the performances in consistency, concentration and difference of these emotions are analyzed. Besides, we calculate the emotion recognition rates of these seven emotional speech. The analyses show that the consistencies of the three annotators for the database are more than 80%, and these emotions can be distinguished, in addition, the recognition rates of these seven emotions are all higher than baseline level. Therefore, the database has a good emotional quality, and can provide important research basis for the transformation of discrete emotion tags to dimensional emotion space.
discrete emotion tags; dimensional emotion space;Mandarin; emotion recognition
TP392
A
1000-3630(2018)-04-0380-08
10.16300/j.cnki.1000-3630.2018.04.015
2017-05-11;
2017-09-24
江蘇省基礎(chǔ)研究計劃(自然科學(xué)基金)青年基金項目(BK20140354)
陳穎(1994-), 女, 貴州安順人, 碩士研究生, 研究方向為情感語音的分析與處理。
肖仲喆, E-mail: xiaozhongzhe@suda.edu.cn