張會(huì)云,黃鶴鳴*,李 偉
(1.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810008;2.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室 青海 西寧 810008;3.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)
隨著語音識(shí)別技術(shù)的迅速發(fā)展,以計(jì)算機(jī)、手機(jī)、平板等為載體的人工智能研究日新月異。各種人機(jī)交互不再局限于識(shí)別特定說話人語音中的單一音素或語句,如何識(shí)別語音中的情感已成為ASR領(lǐng)域的新興研究方向。語音不僅包含說話人所要表達(dá)的語義信息,也包含說話人蘊(yùn)含的情感狀態(tài),對(duì)語音情感的有效識(shí)別能夠提升語音可懂度,使各種智能設(shè)備最大限度理解用戶意圖,達(dá)到人性化水平,從而更好地為人類服務(wù)。
語音情感識(shí)別(Speech Emotion Recognition, SER)指利用計(jì)算機(jī)分析情感,提取出情感特征值,并用這些參數(shù)進(jìn)行相應(yīng)建模和識(shí)別,建立特征值與情感的映射關(guān)系,最終對(duì)情感進(jìn)行分類。語音情感數(shù)據(jù)庫是進(jìn)行SER研究的基礎(chǔ)。優(yōu)質(zhì)的語音情感數(shù)據(jù)庫對(duì)SER系統(tǒng)性能的提升具有重要作用,所謂優(yōu)質(zhì)是指數(shù)據(jù)庫中的每條語句都能真實(shí)確切地表達(dá)出說話人的情感狀態(tài)。因此,多樣化、大規(guī)模、高質(zhì)量的語音情感數(shù)據(jù)庫是保證SER順利進(jìn)行的第一步。
SER系統(tǒng)包括語音情感數(shù)據(jù)的獲取和預(yù)處理、語音情感特征提取與選擇、聲學(xué)模型訓(xùn)練以及分類決策4個(gè)階段[1]。語音情感數(shù)據(jù)庫相關(guān)內(nèi)容第3部分會(huì)詳細(xì)介紹,下面著重介紹語音情感特征提取與分類算法。
特征提?。篠ER是一項(xiàng)有挑戰(zhàn)性的任務(wù),對(duì)情感的識(shí)別依賴于語音情感特征分類的有效性。語音情感特征可分為語言特征和聲學(xué)特征[2,3]。語言特征即語音所要表達(dá)的言語信息,聲學(xué)特征則包含了說話人語氣、語調(diào),蘊(yùn)含感情色彩。提取關(guān)聯(lián)度高的聲學(xué)特征有助于確定說話人情感狀態(tài)。通常以幀為單位提取聲學(xué)特征,并以全局統(tǒng)計(jì)方式作為模型輸入?yún)⑴c情感識(shí)別[3]。全局統(tǒng)計(jì)指聽覺上獨(dú)立的語句或單詞,如極值、方差、均值、最小值、最大值、峰度等。常用的聲學(xué)特征包括韻律特征[4]、譜特征[5]和音質(zhì)特征[6]。為了進(jìn)一步提升識(shí)別性能,研究者也將基于人耳聽覺特性的特征[7]、非線性動(dòng)力特征[8]引入SER,見表1。
表1 基于語音情感的聲學(xué)特征分類
表1給出了語音情感特征分類及其所包含的成分。通常來說,單一特征不能完全包含語音情感的所有有用信息,為了使SER系統(tǒng)性能達(dá)到最優(yōu),研究者通常將不同特征融合來提高系統(tǒng)性能。
分類算法:要對(duì)情感狀態(tài)進(jìn)行判斷,首先要建立SER模型。識(shí)別模型是SER系統(tǒng)的核心。在識(shí)別過程中,情感特征輸入到識(shí)別網(wǎng)絡(luò),計(jì)算機(jī)通過相應(yīng)算法獲取識(shí)別結(jié)果。常用SER分類方法有:極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)[9]、動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)[10]、高斯混合模型(Gaussian Mixture Model, GMM)[11]、支持向量機(jī)(Support Vertor Machine, SVM)[12,13]、隱馬爾科夫模型(Hidden Markor Model, HMM)[14]及人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)[15]等。
人的情感是通過面部表情、身體姿態(tài)、聲音及生理信號(hào)等多種模態(tài)表現(xiàn)出來的[16]。情感判斷可基于這些模態(tài)中的一個(gè)或多個(gè)進(jìn)行,但單模態(tài)信息不全面、易受干擾,而多模態(tài)信息能夠互相印證、互相補(bǔ)充,從而為情感判斷提供更全面、準(zhǔn)確的信息,最終提高情感識(shí)別性能。隨著SER的發(fā)展,各種單模態(tài)、多模態(tài)語音情感數(shù)據(jù)庫應(yīng)用而生,根據(jù)語音屬性將數(shù)據(jù)庫歸類,見表2。
表2根據(jù)語種差異、語音自然度、情感獲取方式及情感描述模型將語音情感數(shù)據(jù)庫歸類,通常研究者立足于情感描述模型,即將情感劃分為離散型情感和維度型情感進(jìn)行研究。為了更直觀地區(qū)分兩類情感,表3進(jìn)行了詳細(xì)總結(jié)。
表2 語音情感數(shù)據(jù)庫歸類
表3 兩種情感描述模型的區(qū)別
由表3可知,離散型情感[17,18]指使用形容詞標(biāo)簽將不同情感表示為相對(duì)獨(dú)立的情感類別,多屬于表演型或引導(dǎo)型,每類情感演繹逼真,能達(dá)到單一、易辨識(shí)的程度。維度型情感[18,19]通過喚醒維(Arousal)、效價(jià)維(Valence)、支配維(Dominance)等取值連續(xù)的維度將情感描述為一個(gè)多維信號(hào),要求標(biāo)注者將主觀情感直接量化為客觀實(shí)數(shù)值,如圖1所示。其中,Arousal是對(duì)人生理活動(dòng)/心理警覺水平的度量;效價(jià)維度量人的愉悅程度,情感從極度苦惱到極度開心互相轉(zhuǎn)化;支配維指影響周圍環(huán)境或反過來受其影響的一種感受。為了更完整地描述情感,研究者也將期望維(Expectation)、強(qiáng)度維(Intensity)加入維度描述模型[16,20]。期望維是對(duì)說話人情感出現(xiàn)的突然性度量,即說話人缺乏預(yù)料和準(zhǔn)備程度的度量;強(qiáng)度維指說話人偏離冷靜的程度[18]。
圖1 愉悅-喚醒模型[8]
近年來,隨著SER研究的順利開展,研究者根據(jù)情感描述模型錄制了相應(yīng)的離散型語音情感數(shù)據(jù)庫(見表4)和維度型語音情感數(shù)據(jù)庫(見表5),所列的各類情感數(shù)據(jù)庫大都公開或可以通過許可證授權(quán)得到。
由表4可見,大部分?jǐn)?shù)據(jù)庫都是通過表演方式采集。事實(shí)上采用自發(fā)語音情感更合理,但使用表演型情感數(shù)據(jù)庫也有一定好處,可避免數(shù)據(jù)庫包含過多無效標(biāo)簽數(shù)據(jù)。由表5可知,常用的維度型情感語料庫主要有:VAM、DEAP、RECOLA、SEMAINE、IEMOCAP及CreativeIT,對(duì)于維度型情感庫通常采用PAD量表進(jìn)行情感信息標(biāo)注。
表4 常用的離散型語音情感數(shù)據(jù)庫
表5 常用的維度型語音情感數(shù)據(jù)庫
1)Belfast英語情感數(shù)據(jù)庫
Belfast數(shù)據(jù)庫[21,22]由Queen大學(xué)錄制,包含40位說話人使用5類情感(生氣/anger、悲傷/sadness、高興/happiness、恐懼/fear和中性/neutral)演繹5個(gè)段落得到的語音。
2)EMO-DB德語情感數(shù)據(jù)庫
EMO-DB數(shù)據(jù)庫[23]是由柏林工業(yè)大學(xué)在專業(yè)錄音室錄制的,采樣率為48kHz,壓縮后16kHz,16bit量化。錄制時(shí)從40個(gè)說話人中選取10位對(duì)10個(gè)德語語句進(jìn)行情感演繹,包含中性/neutral、生氣/anger、恐懼/fear、高興/joy、悲傷/sadness、厭惡/disgust和困倦/boredom等7種情感,共800句語料,考慮到說話人語音自然度,最終選取535個(gè)樣本,對(duì)應(yīng)樣本數(shù)量分別為79、127、69、71、62、46、81。部分文獻(xiàn)中,研究者從535條語句中選出了494條,用于SER[24]。
3)AIBO自然語音情感數(shù)據(jù)庫
AIBO數(shù)據(jù)庫[25]包含了英語和德語兩類語音。德語數(shù)據(jù)庫[26]是由“MONT”、“OHM”兩所學(xué)校錄制的,對(duì)應(yīng)樣本數(shù)為:8258、9959。該庫通過無線耳麥采集了51名(MONT 25,OHM 26)10-13歲的兒童與索尼公司電子寵物狗Aibo進(jìn)行游戲交互時(shí)的語音,采樣率為48kHz,壓縮后16kHz,16bit量化。每條語音都有明顯的情感傾向,共48401個(gè)單詞,時(shí)長(zhǎng)9.2h,數(shù)據(jù)庫總樣本18216條,由5位語言學(xué)專業(yè)學(xué)生通過投票方式標(biāo)注情感,當(dāng)3個(gè)及以上的標(biāo)注者判定為同一種情感時(shí)投票通過。該庫涵蓋高興/joyful、強(qiáng)調(diào)/emphatic、中性/neutral、溺愛/motherese、無聊/bored、驚訝/surprised、無助/helpless、易怒/touchy、憤怒/angry、譴責(zé)/reprimanding和含糊/rest等11類情感。目前關(guān)于情感標(biāo)簽仍無定論,最常用的標(biāo)簽方法有2種:5類情感,2類情感。5類情感包括:Anger(記作A,包含angry, touchy, reprimanding)、Emphatic(記作E)、Neutral(記作N)、Positive(記作P,包含motherese, joyful)、Rest(記作R),對(duì)應(yīng)樣本數(shù)分別為1492、3601、10967、889、1267;對(duì)于2類問題,類別為Negative(記作NEG,包含angry, touchy, reprimanding, emphatic)和Idle(記作IDL),樣本數(shù)分別為5823和12393。該庫33%的單詞被INTERSPEECH 2009進(jìn)行SER競(jìng)賽所用[27]。
英文庫由30個(gè)兒童(4~14歲)錄制而成,語音總共8.5個(gè)小時(shí)。
4)CASIA中文語音情感數(shù)據(jù)庫
CASIA數(shù)據(jù)庫[28]是由中科院自動(dòng)化研究所在干凈環(huán)境下錄制的,包含4位專業(yè)發(fā)音人在6類情感(高興/happiness、害怕/fear、悲哀/sadness、生氣/anger、驚嚇/scare和中性/neural)下演繹的9600條情感語音。采樣率為16kHz,16bit量化。目前公開的CASIA庫中,包含1200條語音,每類情感各200條語音。
5)丹麥DES情感語料庫
DES數(shù)據(jù)庫[29]包含兩個(gè)單詞(是,否),9句話和2個(gè)短句。情感類型有:高興/happiness、傷心/sadness、中性/neutral、生氣/anger和驚奇/surprise。通過20個(gè)年齡在18~58歲的本地人鑒定,識(shí)別率可達(dá)67%。
6)老人語音情感庫EESDB
EESDB數(shù)據(jù)庫[30]語音數(shù)據(jù)來自《老人的故事》。該庫錄制了11位說話人(6男5女)演繹的7類情感(高興/happy、傷心/sad、中性/neutral、生氣/angry、害怕/fear、驚奇/surprise、厭惡/digust),共992條語音,采樣率44kHz,16bit量化。選取8位評(píng)估者對(duì)語音情感進(jìn)行判定,若75%的評(píng)估者同時(shí)判定為相同情感則對(duì)其保留,最終保留了427條情感語音。
7)北京航空航天大學(xué)情感語料庫
北京航空航天大學(xué)情感語料庫是一個(gè)中文數(shù)據(jù)庫[31],錄制了7位說話人(4男3女)在20個(gè)文本下演繹的5類情感(憤怒/anger、高興/happiness、悲傷/sadness、厭惡/disgust、驚訝/surprise),每個(gè)文本在相同情感下重復(fù)3次,經(jīng)評(píng)估后,最終保留1140條情感語音。
8)Semaine數(shù)據(jù)庫
Semaine[32]是一個(gè)面向AI與人機(jī)交互的數(shù)據(jù)庫,可免費(fèi)用于科學(xué)研究。該庫是在專業(yè)錄音室環(huán)境下進(jìn)行人機(jī)交互錄制的,錄制時(shí),20位說話人被要求與4位個(gè)性不同的(溫和而智慧的/Prudence、快樂而外向的/Poppy、悲傷而抑郁的/Obadiah和怒氣沖沖的/Spike)虛擬人物(由工作人員扮演)進(jìn)行語音對(duì)話,該虛擬人物不僅能理解說話人表達(dá)的語義信息,與用戶也有情感交流,錄音長(zhǎng)達(dá)7小時(shí)。由5個(gè)高幀頻、高分辨率攝像機(jī)和4個(gè)麥克風(fēng)共同釆集數(shù)據(jù),采樣率為48kHz,24bit量化。最后,在valence、activation、power、intensity和expectation等5個(gè)維度上進(jìn)行標(biāo)注。
9)TYUT2.0中文情感語音數(shù)據(jù)庫
TYUT2.0數(shù)據(jù)庫[33]是通過截取廣播劇的方式獲得的一種摘引型情感數(shù)據(jù)庫,使用PAD(Pleasure-Arousal-Domaniance)情感量表對(duì)語音情感進(jìn)行維度標(biāo)注。在標(biāo)注試驗(yàn)中,招募100名在校學(xué)生(44男56女)對(duì)3類情感(高興/pleasure、悲傷/sadness、憤怒/anger)共161個(gè)語音樣本按照范圍為1~5的PAD量表進(jìn)行維度標(biāo)注,得到161×100維的數(shù)據(jù)樣本,每個(gè)語音樣本維度值取所有標(biāo)注值的平均。
10)SUSAS英語情感數(shù)據(jù)庫
SUSAS數(shù)據(jù)庫[34,35]錄制了7位說話人(4男3女)的3593條情感語音,主要用于分析壓力級(jí)別,壓力類別包括高壓/high stress(hist)、中壓/medium stress(meds)、中性/neutral(neut)、強(qiáng)壓/screaming(scre),對(duì)應(yīng)類別樣本數(shù)分別為1202、1276、701和414。在Arousal維上neut為正,其它為負(fù);在Valence上neut、scre為正,其它為負(fù)。
1)IEMOCAP英語情感數(shù)據(jù)庫
IEMOCAP數(shù)據(jù)庫[36]是由美國(guó)南加州大學(xué)錄制的,由10名演員(5男5女)在有劇本或即興場(chǎng)景下誘發(fā)特定情感,包含音頻、文本、面部表情以及視頻。整個(gè)數(shù)據(jù)集劃分為5部分,每部分均由1男1女表演組成。離散型和維度型情感標(biāo)注都被應(yīng)用于該數(shù)據(jù)庫。離散型情感標(biāo)簽分為中性/neural、高興/happiness、生氣/anger和悲傷/sadness等,每類對(duì)應(yīng)樣本數(shù)量為:1708、1636、1103和1084,總計(jì)5531句(其中即興表演包含2280句),時(shí)長(zhǎng)約12小時(shí)。此外,IEMOCAP數(shù)據(jù)庫也采用了valence、activation和dominance維度空間模型進(jìn)行標(biāo)注,維度幅值范圍為[1, 5]。
2)RECOLA數(shù)據(jù)庫
RECOLA數(shù)據(jù)庫[37]錄制了46位說話人(兩人1組被分成23組,每組通過遠(yuǎn)程視頻會(huì)議討論某個(gè)災(zāi)難場(chǎng)景下逃生方案)的語音情感數(shù)據(jù)。數(shù)據(jù)中包含所有說話人在討論過程中的面部視頻和音頻以及其中35個(gè)說話人的ECG、EDA數(shù)據(jù)。標(biāo)注人員按照視頻幀率逐幀給出了說話人前5分鐘討論過程中情感狀態(tài)在valence和Arousal的值。
3)eNTERFACE’05英語情感數(shù)據(jù)庫
eNTERFACE’05數(shù)據(jù)庫[38]是基于面部表情和語音的雙模態(tài)情感數(shù)據(jù)庫,錄制條件為辦公室環(huán)境,帶有一定回聲,錄制文本來自于故事,所有錄制人員通過聽取6個(gè)短片小故事,得到一種情感,通過兩名專家最終確定語音是否符合要求。數(shù)據(jù)庫采集了來自14個(gè)國(guó)家42位說話人(34男8女)的6類基本情感(生氣/anger、厭惡/disgust、害怕/fear、開心/happy、傷心/sadness、驚訝/surprise),每類情感對(duì)應(yīng)樣本數(shù)量為:200、189、187、205、195和190。樣本采用分辨率為80萬像素的微型DV數(shù)字?jǐn)z像機(jī)以25幀/秒的速度攝制,利用專用的高質(zhì)量麥克風(fēng)以16bit格式記錄48kHz的未壓縮立體音頻信號(hào),每個(gè)圖片幀大小為720*576。
4)RML數(shù)據(jù)庫
RML數(shù)據(jù)庫[39]是基于面部表情和語音的雙模態(tài)公開情感數(shù)據(jù)庫,由加拿大Ryerson多媒體實(shí)驗(yàn)室錄制,錄制環(huán)境較為明亮,無嘈雜的背景音。采樣率為44kHz,16bit量化。視頻樣本包含8位說話人表達(dá)的6類基本情感(生氣/anger、厭惡/disgust、害怕/fear、開心/happy、傷心/sadness、驚訝/surprise),共720個(gè)語音和人臉情感。視頻幀率為30幀/s,尺寸為720*480。每個(gè)視頻持續(xù)時(shí)間為3~6s。
5)AFEW6.0數(shù)據(jù)庫
AFEW6.0[40]并非是在實(shí)驗(yàn)室環(huán)境下建立的傳統(tǒng)數(shù)據(jù)庫,它是Emotion Recognition in the Wild(EmotiW)2016 challenge比賽提供的官方數(shù)據(jù)庫,庫中所有樣本均為電影或電視劇剪輯片段且混有復(fù)雜的背景信息。該庫中的視頻樣本包含7類情感,被劃分為訓(xùn)練集(773個(gè))、驗(yàn)證集(383個(gè))和測(cè)試集(593個(gè)),訓(xùn)練集和驗(yàn)證集公開,測(cè)試集用于比賽評(píng)定,非公開。
6)GEMEP數(shù)據(jù)庫
GEMEP數(shù)據(jù)庫[41]包含語音樣本集及其對(duì)應(yīng)的視頻樣本集GEMEP-FERA[42],應(yīng)用于INTERSPEECH 2013 Challenge[43]。數(shù)據(jù)庫包含10位說話人(5男5女)的1260個(gè)樣本,共18個(gè)情感類別(羨慕/admiration、愉悅/amusement、焦慮/anxiety、冷漠/cold anger、蔑視/contempt、絕望/despair、厭惡/disgust、興高采烈/elation、暴怒/hot anger、興趣/interest、恐慌/panic、恐懼/fear、樂意/easure、驕傲/pride、寬慰/relief、悲傷/sadness、羞愧/shame、驚訝/surprise、溫柔/tenderness)。常用的情感有12類,平均每類約90個(gè)樣本,共1080個(gè)樣本。
7)ABC德語情感數(shù)據(jù)庫
ABC雙模態(tài)數(shù)據(jù)庫[44]模擬了不同情境下公共交通中說話人的情感,是一個(gè)誘發(fā)數(shù)據(jù)庫,含8位說話人(4男4女,25~48歲)的430條視頻情感語音,時(shí)長(zhǎng)11.5個(gè)小時(shí),由3名專家對(duì)數(shù)據(jù)進(jìn)行剪切,標(biāo)定情感。其情感類別為:挑釁/aggressive、愉快/cheerful、陶醉/intoxicated、緊張/nervous、中性/neutral、疲倦/tired),對(duì)應(yīng)樣本數(shù)為95、105、33、93、79、25。
8)ACCorpus系列中文情感數(shù)據(jù)庫
ACCorpus數(shù)據(jù)庫[18]是由清華大學(xué)和中科院心理研究所合作錄制,錄音人數(shù)較多,是一個(gè)很全面、很系統(tǒng)、有代表性的數(shù)據(jù)庫,采樣率16kHz,16bit量化。包含5個(gè)子庫,分別是:ACCorpus_MM多模態(tài)、多通道情感數(shù)據(jù)庫、ACCorpus_SA漢語普通話情感分析數(shù)據(jù)庫、ACCorpus_FV人臉表情視頻數(shù)據(jù)庫、ACCorpus_FI人臉表情圖像數(shù)據(jù)庫、ACCorpus_SR情感語音識(shí)別數(shù)據(jù)庫。其中,ACCorpus_SR庫錄制了50位(25男25女)說話人在5類情感狀態(tài)(中性/neural、高興/happiness、生氣/anger、恐懼/fear和悲傷/sadness)下的語音。
9)AVEC 2012數(shù)據(jù)庫
AVEC 2012[45]是包含語音和視頻的多模態(tài)情感數(shù)據(jù)庫,來源于Semaine數(shù)據(jù)庫中Solid-SAL的24條情感記錄文件。曾用于2012年音/視頻情感識(shí)別挑戰(zhàn)大賽,被分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)時(shí)長(zhǎng)在7小時(shí)左右,標(biāo)注工作由3~8個(gè)評(píng)估者借助標(biāo)注工具FEELTRACE在Valence、Activation、Power和Expectation四個(gè)情感維度上標(biāo)注。
10)VAM德語情感數(shù)據(jù)庫
VAM數(shù)據(jù)庫[46]是對(duì)德語電視談話節(jié)目“Vera am Mittag”進(jìn)行現(xiàn)場(chǎng)錄制而成的,包括表情庫、視頻庫、語音庫3部分。語音庫包含47位嘉賓947句語音,采樣率為16kHz,16bit量化。在valence、activation和dominance維度上標(biāo)注,標(biāo)注值在[-1, 1]。
11)AVIC英語情感數(shù)據(jù)庫
AVIC數(shù)據(jù)庫[47]是一種雙模態(tài)情感庫,錄制了21位(男11女10)產(chǎn)品推銷員使用英語進(jìn)行商業(yè)推廣的語音和面部表情。樣本情感類別為:無聊/boredom、中性/neutral、高興/joyful,每類情感對(duì)應(yīng)樣本數(shù)量為553、2279、170,共3002個(gè)樣本。
12)MOUD西班牙語情感數(shù)據(jù)庫
MOUD模態(tài)數(shù)據(jù)庫[48]采集了80位說話人(65男15女)的文本、語音和視頻信息,共498個(gè)樣本。其中樣本情感標(biāo)注分為3類:積極/positive、中立/neutral和消極/negative,每類樣本對(duì)應(yīng)數(shù)量為:182、85、231。
13)MOSI英語數(shù)據(jù)庫
MOSI是2016年Zadeh團(tuán)隊(duì)開發(fā)出來的較大的一個(gè)多模態(tài)情感數(shù)據(jù)庫[49],共采集了89位說話人(48男41女)的文本、語音和視頻3個(gè)模態(tài)的信息,共2199個(gè)樣本,說話人年齡主要集中在20~30歲。
14)SAVEE語音情感數(shù)據(jù)庫
SAVEE模態(tài)數(shù)據(jù)庫[50]是由4名演員在7種情感狀態(tài)(生氣/anger、厭惡/disgust、害怕/fear、高興/happiness、中性/neutral、傷心/sadness以及驚訝/surprise)下演繹得到的表演型數(shù)據(jù)庫,共480條情感,語音情感數(shù)量分布相對(duì)平衡,除中性(120條)外,其余6類情感均有60條。
15)CHEVAD中文自然情感數(shù)據(jù)庫
CHEVAD數(shù)據(jù)庫[51]是由中科院自動(dòng)化研究所錄制的,也是中科院自動(dòng)化所舉辦的2017多模態(tài)情感識(shí)別競(jìng)賽的官方數(shù)據(jù)集,數(shù)據(jù)來自中文電影、電視劇及脫口秀節(jié)目,時(shí)長(zhǎng)140分鐘,說話人數(shù)達(dá)到238人,年齡范圍從兒童到老人。由4名中國(guó)人標(biāo)注數(shù)據(jù),總共26個(gè)非原型情感狀態(tài),包含了常用的6類情感狀態(tài)(憤怒/anger、恐懼/fear、高興/happy、中性/neutral、悲傷/sad和驚訝/surprise),訓(xùn)練集、驗(yàn)證集和測(cè)試集中情感語音數(shù)量分別為:4917、707和1406。
16)DEAP數(shù)據(jù)庫
DEAP數(shù)據(jù)庫[52]錄制了32位說話人觀看音樂視頻時(shí)的EEG信號(hào)、外圍生理信號(hào)及其中22位說話人的正面視頻。每個(gè)說話人都觀看了40段音樂視頻,并將自己在觀看過程中所感受到的情感在喚醒維、效價(jià)維和支配維上給出了[1, 9]的連續(xù)自我評(píng)估。
下面以SAVEE、RML、eNTERFACE05模態(tài)數(shù)據(jù)庫為例,分析在不同數(shù)據(jù)庫上使用不同分類方法所取得的最佳性能。
表6展示了2015~2019年在SAVEE數(shù)據(jù)庫上使用不同分類方法所取得的性能。由表6可知,在SAVEE數(shù)據(jù)庫上,目前結(jié)合多模態(tài)信息的SER系統(tǒng)最優(yōu)性能可達(dá)到98.33%,這是一個(gè)非??陀^的結(jié)果。
表6 SAVEE多模態(tài)庫上不同方法性能比較
表7展示了2012~2019年不同研究者在RML模態(tài)數(shù)據(jù)庫上的研究結(jié)果。由表7可知,目前RML數(shù)據(jù)庫上各分類方法整體性能不是很好,2015年取得的最優(yōu)性能為83%。
表7 RML多模態(tài)庫上不同方法的性能比較
表8展示了2009~2019年部分研究者在eNTERFACE05模態(tài)數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果。由表8可知,文獻(xiàn)[58]取得了最優(yōu)的性能,其它各類方法的性能均較低??v觀表6、表7、表8,可以得出:在SAVEE數(shù)據(jù)庫上目前各分類方法取得了最優(yōu)性能,RML次之,eNTERFACE05數(shù)據(jù)庫上性能最差。歸因于eNTERFACE05庫帶有一定噪音,而RML模態(tài)數(shù)據(jù)庫中的語料較為干凈,SAVEE數(shù)據(jù)庫是由專業(yè)演員錄制的,對(duì)于每種情感的表達(dá)到位,數(shù)據(jù)庫質(zhì)量較好。
表8 eNTERFACE05多模態(tài)庫上不同方法的性能比較
目前SER使用的數(shù)據(jù)庫逐漸從表演型情感語料庫向自然型情感語料庫過渡,為了進(jìn)一步提升SER的性能,研究者開始將多模態(tài)信息引入SER,通過將面部表情、文本信息、手語、生理信號(hào)等多模態(tài)信息與語音信息相結(jié)合以進(jìn)一步提升性能。目前研究者聚焦在多模態(tài)數(shù)據(jù)庫上進(jìn)行研究,SAVEE、RML、eNTERFACE05是研究者常用的模態(tài)數(shù)據(jù)庫。作者目前立足于藏語SER,為了確保其性能良好,應(yīng)在干凈環(huán)境下錄制高質(zhì)量、大規(guī)模的模態(tài)藏語情感庫。