趙 力 黃程韋
(東南大學(xué)信息科學(xué)與工程學(xué)院,南京,210096)
信息技術(shù)正在越來(lái)越緊密地融入到人們的日常生活當(dāng)中,人們需要便捷的獲取信息,就需要同各類計(jì)算機(jī)進(jìn)行交互。情感計(jì)算技術(shù)可以改進(jìn)人們與高科技的交互方式,從傳統(tǒng)的被動(dòng)地使用機(jī)器,轉(zhuǎn)變到自然地人機(jī)交互。情感是人類一種重要的本能,它同理性思維和邏輯推理能力一樣,在我們的日常生活、工作、交流、處理事務(wù)和決策中扮演著重要的角色。隨著計(jì)算機(jī)技術(shù)的發(fā)展,和諧的人機(jī)交互日益受到研究者的重視,它不僅要求計(jì)算機(jī)理解用戶的情緒和意圖,而且需要對(duì)不同用戶、不同環(huán)境、不同任務(wù)給予不同的反饋和支持。人們?cè)噲D創(chuàng)建一種能感知、識(shí)別和理解人的情感,并針對(duì)人的情感做出智能、靈敏、友好反應(yīng)的計(jì)算系統(tǒng),即賦予計(jì)算機(jī)像人一樣地觀察、理解和生成各種情感特征的能力,使計(jì)算機(jī)能夠更加自動(dòng)適應(yīng)操作者。實(shí)現(xiàn)這些功能,首先必須要求能夠識(shí)別操作者的情感,而后根據(jù)情感的判斷來(lái)調(diào)整交互對(duì)話的方式。
美國(guó)MIT媒體實(shí)驗(yàn)室情感計(jì)算研究小組的領(lǐng)導(dǎo)人Rosalind Picard教授在1997年首次提出“情感計(jì)算”這個(gè)概念[1],情感計(jì)算是一個(gè)高度綜合化的技術(shù)領(lǐng)域,其研究?jī)?nèi)容包括:情感機(jī)理的理論研究、情感信號(hào)的采集、情感信號(hào)的分類、建模與識(shí)別、情感理解、情感表達(dá)及情感生成等幾部分,主要從生理模式,面部表情及語(yǔ)音這3個(gè)切入點(diǎn)展開(kāi)研究。目前,已有多個(gè)國(guó)家展開(kāi)相關(guān)研究并取得了部分成果,研究機(jī)構(gòu)不僅局限于各國(guó)科研院所,而且也得到了該國(guó)有關(guān)部門的關(guān)注。例如,美國(guó)的MIT媒體實(shí)驗(yàn)室的情感計(jì)算研究小組就在專門研究機(jī)器如何通過(guò)對(duì)外界信號(hào)的采樣,如人體的生理信號(hào)(血壓、脈搏、皮膚電阻等)、面部快照、語(yǔ)音信號(hào)來(lái)識(shí)別人的各種情感,并讓機(jī)器對(duì)這些情感做出適當(dāng)?shù)姆磻?yīng)。日本文部省將“情感信息處理的信息學(xué)、心理學(xué)研究”作為重點(diǎn)研究領(lǐng)域。我國(guó)中國(guó)科學(xué)院和國(guó)內(nèi)眾多高校在情感信息處理的研究上也取得了一定的進(jìn)展[2]。
情感識(shí)別應(yīng)用的一個(gè)著名的例子是Rosalind Picard教授提出來(lái)的“情感鏡子”,情感鏡子是一個(gè)與人交互的Agent,可以幫助用戶看到自己在不同的場(chǎng)合中的表現(xiàn),如在準(zhǔn)備面試或演講中可以起到重要的作用。情感計(jì)算在人機(jī)交互中的應(yīng)用具有廣泛的應(yīng)用前景。例如,在視頻游戲領(lǐng)域,用戶可以站在屏幕前進(jìn)行虛擬的網(wǎng)球比賽。采用了情感識(shí)別技術(shù)后,用戶的比賽體驗(yàn)可以獲得極大的豐富。情感信息可以成為當(dāng)前的多媒體內(nèi)容識(shí)別與分析中的一個(gè)新的維度。電影或電視廣播可以根據(jù)不同的情感內(nèi)容來(lái)進(jìn)行檢索。在計(jì)算機(jī)輔助的教學(xué)中,情感計(jì)算技術(shù)可以幫助提高學(xué)生的學(xué)習(xí)興趣。例如,當(dāng)學(xué)生在學(xué)習(xí)過(guò)程中出現(xiàn)煩躁情緒時(shí),通過(guò)情感識(shí)別技術(shù),系統(tǒng)可以給予學(xué)生適當(dāng)?shù)墓膭?lì)或者是減慢學(xué)習(xí)進(jìn)度。當(dāng)學(xué)生感到枯燥乏味時(shí),系統(tǒng)可以給出更具有挑戰(zhàn)性的題目。在決策支持系統(tǒng)中情感識(shí)別技術(shù)同樣能夠起到重要的作用。例如,當(dāng)操作人員表現(xiàn)出緊張或者煩躁等負(fù)面情緒時(shí),系統(tǒng)可以給其分配較輕的任務(wù)。在人機(jī)交互中,引入語(yǔ)音情感技術(shù)后機(jī)器人或口語(yǔ)對(duì)話系統(tǒng)能夠更加自然地與人進(jìn)行對(duì)話[3]。在機(jī)器人研究領(lǐng)域,某些研究者正致力于開(kāi)發(fā)具有類似人類能力的機(jī)器人,其中情感的理解與表達(dá)是一個(gè)關(guān)鍵的研究領(lǐng)域[4]。語(yǔ)音情感識(shí)別技術(shù)還可以應(yīng)用于電話服務(wù)中心,系統(tǒng)可以檢測(cè)談話的語(yǔ)氣和情感,從而提高服務(wù)質(zhì)量。在信息查詢系統(tǒng)中加入情感識(shí)別分析功能,可以根據(jù)用戶情緒調(diào)整任務(wù)優(yōu)先級(jí),從而提高智能信息檢索的效率;在教學(xué)實(shí)踐環(huán)節(jié),情感分析可以使得在教學(xué)的同時(shí)注重學(xué)生對(duì)信息的接收理解程度,從而及時(shí)調(diào)整教學(xué)節(jié)奏和進(jìn)度,使得學(xué)生能更好地吸收知識(shí);在工業(yè)生產(chǎn)領(lǐng)域,如電話通訊中,加入語(yǔ)音情感分析服務(wù)平臺(tái),可以進(jìn)一步提高通信質(zhì)量,使通話雙方交流更通暢;在醫(yī)學(xué)研究中,煩躁、焦慮、抑郁等不良情緒對(duì)治療有很大的阻礙作用,如果能夠更早發(fā)現(xiàn)病人情緒波動(dòng)并及時(shí)穩(wěn)定,對(duì)病人的康復(fù)也有著積極作用;在家居環(huán)境中,老年人面臨“空巢”問(wèn)題時(shí),孤獨(dú)和不被理解等問(wèn)題都是影響他們安度晚年的重要因素,上班族沒(méi)有足夠的時(shí)間耐心與父母交流,如果能在家電系統(tǒng)中增加情感分析功能,使之在日常交互中能與老人形成一定情感交流,可以在一定程度上緩解老年人的精神空虛,上班族在一天的煩勞工作結(jié)束后,也可以從家庭環(huán)境中獲得一定心理釋放。
除了以上這些應(yīng)用場(chǎng)合外,情感識(shí)別技術(shù)的研究本身能夠?qū)斫馊祟惽楦械漠a(chǎn)生、表達(dá)和感知具有重要的價(jià)值。隨著計(jì)算機(jī)技術(shù)的日益進(jìn)步,高技術(shù)越來(lái)越深入的融入到人們的日常生活中,自然、高效和人性化的交互技術(shù)已成為了一個(gè)極為重要的研究領(lǐng)域。
語(yǔ)音作為人們交流的主要方式,語(yǔ)音信息在傳遞過(guò)程中由于說(shuō)話人情感的介入而更加豐富。情感不僅可以強(qiáng)化語(yǔ)義信息,甚至可以改變語(yǔ)義信息。語(yǔ)音信號(hào)是語(yǔ)言的聲音表現(xiàn)形式,情感是說(shuō)話人所處環(huán)境和心理狀態(tài)的反映,語(yǔ)音情感識(shí)別就是讓計(jì)算機(jī)能夠通過(guò)語(yǔ)音信號(hào)識(shí)別說(shuō)話者的情感狀態(tài),是情感計(jì)算的重要組成部分[5-9]。由于語(yǔ)言包含了強(qiáng)烈的社會(huì)和文化背景,人們可以在非面對(duì)面的情況下表達(dá)出自己的心理狀態(tài),即使是不同膚色、不同語(yǔ)種的人在存在語(yǔ)言隔閡時(shí),無(wú)法通過(guò)語(yǔ)義來(lái)溝通,但是仍然可以通過(guò)語(yǔ)音表達(dá)傳遞出情感信息并達(dá)到一些基本的理解。正是由于語(yǔ)言的這一社會(huì)文化特性,對(duì)語(yǔ)音信號(hào)中的情感進(jìn)行分析判別時(shí),不同語(yǔ)種之間所用的方法和判別標(biāo)準(zhǔn)既有共性又有異性,既具有一定參考性又不能完全照搬。這使得語(yǔ)音情感識(shí)別面臨許多挑戰(zhàn)性的難題,不僅存在于針對(duì)某種單一語(yǔ)言交流時(shí)的情感分析,也存在于不同文明背景下不同語(yǔ)種人們交流時(shí)的情感分析。
語(yǔ)音情感、面部表情、手勢(shì)、姿態(tài)以及生理信號(hào)等是情感表達(dá)與識(shí)別的途徑。以上各種情感表達(dá)方式之間是如何相互影響的,至今還沒(méi)有一個(gè)清楚的認(rèn)識(shí)。Mehrabian曾對(duì)情感和態(tài)度的表達(dá)中,非言語(yǔ)的表達(dá)方式的重要性做了研究。Mehrabian的研究結(jié)果顯示,在面對(duì)面的交互中,情感的表達(dá)具有3個(gè)基本的要素:語(yǔ)義、語(yǔ)氣和身體語(yǔ)言。說(shuō)話人給對(duì)方的好感程度與以上3個(gè)要素的關(guān)系可以粗略表示為:好感程度=7%語(yǔ)義+38%語(yǔ)氣+55%表情。
這一研究結(jié)果僅適用于語(yǔ)義與語(yǔ)氣不相互沖突的情況,也就是說(shuō)在說(shuō)話人說(shuō)反話諷刺時(shí)不適用。根據(jù)Mehrabian的這一研究結(jié)果,可以看到在語(yǔ)音交談中,通常說(shuō)話人的說(shuō)話方式比說(shuō)話內(nèi)容具有更重要的情感交流的作用。雖然情感可以通過(guò)很多種途徑表達(dá),通過(guò)生理信號(hào)的測(cè)量來(lái)識(shí)別情感,如心電、腦電等,通常需要被試佩戴復(fù)雜的儀器設(shè)備,而語(yǔ)音作為情感的交流方式仍然是最便捷最自然的手段之一。語(yǔ)音作為日常生活中最常用的交流手段之一,特別是在同時(shí)處理多個(gè)事務(wù)的過(guò)程中,人機(jī)自然語(yǔ)音交互將發(fā)揮越來(lái)越重要的作用。
在研究情感識(shí)別之前,需要做的第一件事就是定義所要研究的對(duì)象,從而明確研究的范圍。然而“情感是什么?”這一個(gè)由來(lái)已久的問(wèn)題,一直沒(méi)有一個(gè)統(tǒng)一的答案。Scherer曾指出:情感研究中的一個(gè)主要的問(wèn)題是,缺乏對(duì)情感的一個(gè)一致的定義以及對(duì)不同情感類型的一個(gè)定性的劃分。雖然在文學(xué)上對(duì)情感的描述,存在一些廣泛接受的可能的分類,然而由于沒(méi)有一個(gè)對(duì)情感描述的公認(rèn)的方法,對(duì)情感的分類學(xué)研究也一直沒(méi)有統(tǒng)一的意見(jiàn)[10-17]。
從日常表達(dá)上來(lái)說(shuō),人們常將情緒、情感、態(tài)度混淆起來(lái),但是從研究的角度,研究者還是對(duì)此有不同看法。有研究者認(rèn)為情感理解為一種因所處環(huán)境和心理狀態(tài)而由主觀沖動(dòng)引起的強(qiáng)烈的感情狀態(tài),可以引起語(yǔ)音,表情以及行為上的表現(xiàn)。如Klaus對(duì)情感(Emotion)、情緒(Moods)、立場(chǎng)(Interpersonal stances),態(tài)度(Atitude)和性情(Afect dispositions)這些近義詞進(jìn)行了研究,認(rèn)為他們之間既有區(qū)別又不是絕對(duì)的獨(dú)立,其中以情感和態(tài)度最容易混淆。Ohala則認(rèn)為態(tài)度更多是一種主動(dòng)的感情色彩,而情感是被動(dòng)的,兩者之間有本質(zhì)區(qū)別。然而到目前為止,研究者對(duì)情感的定義仍然沒(méi)有達(dá)成一致的觀點(diǎn),Kleinginna列舉了近百名學(xué)者對(duì)情感的理解。對(duì)情感定義的不統(tǒng)一在一定程度上影響了情感計(jì)算的研究進(jìn)展,這主要是由于情感隨人類進(jìn)化而不斷發(fā)展的,人們對(duì)情感的認(rèn)識(shí)在不同階段不同切入點(diǎn)就呈現(xiàn)出不同的理解,不同的情緒機(jī)理學(xué)說(shuō)應(yīng)運(yùn)而生。
早期的情緒研究主要是由哲學(xué)家、神經(jīng)病學(xué)家、神經(jīng)生理學(xué)家和心理學(xué)家分別進(jìn)行的。早在公元前5世紀(jì),古希臘學(xué)者就從生理心理角度,試圖對(duì)情緒進(jìn)行分析。赫拉克利特認(rèn)為情緒狀態(tài)是用身體溫度、出汗量等一些生理參數(shù)來(lái)體現(xiàn)的,如對(duì)于一個(gè)正常狀態(tài)下的人,他的身體溫度偏冷,汗液的分泌偏干的。柏拉圖將情感分作中性、高興和痛苦3種狀態(tài),他認(rèn)為高興和痛苦兩種狀態(tài)是由中性狀態(tài)分離而來(lái);在中性狀態(tài)時(shí),人體的各個(gè)器官是和諧的,當(dāng)這種和諧遭到破壞的時(shí)候,便產(chǎn)生了痛苦,而被破壞的和諧開(kāi)始恢復(fù)時(shí),便產(chǎn)生了高興。亞里士多德則將高興和痛苦看成是所有感情的基礎(chǔ),高興是一種相對(duì)獨(dú)立的情感,來(lái)源于中性的情感,而痛苦則是來(lái)源于高興的反方向。如果沒(méi)有感官和精神上的刺激,就不會(huì)有高興和痛苦的存在。我國(guó)古代把情緒理解為人性的波動(dòng)和擾亂,有“情,波也;心,流也;性,水也”《關(guān)尹子》;“性之有動(dòng)者謂之情,性之有喜怒猶如水之有波浪”(程頤),以及“性是未動(dòng),情是己動(dòng),心包括己,未動(dòng)”(朱熹)之說(shuō)。隨著文明的發(fā)展,道德、宗教、生活等因素也被人們納入情緒機(jī)理的考慮范圍內(nèi),如斯多葛派(Stoic)禁欲主義者認(rèn)為多數(shù)情緒是有害的,原因是人們有不正確的信念和不恰當(dāng)?shù)哪繕?biāo)。佛教中對(duì)情也有論述,分別指的是“喜、怒、憂、懼、愛(ài)、憎、欲”七種情愫。中醫(yī)中總結(jié)了“喜、怒、憂、思、悲、恐、驚”七種情緒狀態(tài),并指出這七種情態(tài)應(yīng)該掌握適當(dāng)。如果掌握不當(dāng),例如大喜大悲、過(guò)分驚恐等等,就會(huì)使陰陽(yáng)失調(diào)、氣血不周,從而這種精神上的錯(cuò)亂會(huì)演變到身體上,形成各種疾病。
總的來(lái)說(shuō),在情緒機(jī)理的研究發(fā)展中,比較有影響的情緒理論有以下幾種:
(1)詹姆斯-朗格情緒學(xué)說(shuō):美國(guó)心理學(xué)家詹姆斯和丹麥生理學(xué)家蘭格分別提出內(nèi)容相同的一種情緒理論。他們強(qiáng)調(diào)情緒的產(chǎn)生是植物性神經(jīng)活動(dòng)的產(chǎn)物。后人稱它為情緒的外周理論。即情緒刺激引起身體的生理反應(yīng),而生理反應(yīng)進(jìn)一步導(dǎo)致情緒體驗(yàn)的產(chǎn)生。詹姆斯提出情緒是對(duì)身體變化的知覺(jué)。在他看來(lái),是先有機(jī)體的生理變化,而后才有情緒。所以悲傷由哭泣引起,恐懼由戰(zhàn)栗引起;蘭格認(rèn)為情緒是內(nèi)臟活動(dòng)的結(jié)果。他特別強(qiáng)調(diào)情緒與血管變化的關(guān)系。詹姆斯-蘭格理論看到了情緒與機(jī)體變化的直接關(guān)系,強(qiáng)調(diào)了植物性神經(jīng)系統(tǒng)在情緒產(chǎn)生中的作用;但是,他們片面強(qiáng)調(diào)植物性神經(jīng)系統(tǒng)的作用,忽視了中樞神經(jīng)系統(tǒng)的調(diào)節(jié)、控制作用,因而引起了很多的爭(zhēng)議。
(2)丘腦情緒學(xué)說(shuō):又稱為坎農(nóng)-巴德學(xué)說(shuō),它反駁了詹姆斯-朗格情緒學(xué)說(shuō),丘腦情緒學(xué)說(shuō)認(rèn)為情緒的產(chǎn)生是大腦皮層解除丘腦抑制的綜合功能,即激發(fā)情緒的刺激由丘腦進(jìn)行加工,同時(shí)把信息輸送到大腦及機(jī)體的其他部分。輸送到大腦皮層的信息產(chǎn)生情緒體驗(yàn);輸送到內(nèi)臟和骨骼肌的信息激活生理反應(yīng)。身體變化和情緒經(jīng)驗(yàn)是同時(shí)發(fā)生的,而情緒感覺(jué)則是由大腦皮層和自主神經(jīng)系統(tǒng)共同激起的結(jié)果。情緒發(fā)生的中心不是外周神經(jīng)系統(tǒng),而是丘腦。此后的一些實(shí)驗(yàn)也證明,情緒的復(fù)雜生理機(jī)制在很大程度上取決于下丘腦、邊緣系統(tǒng)、腦干網(wǎng)狀結(jié)構(gòu)的功能,大腦皮層調(diào)節(jié)情緒的進(jìn)行,控制皮層下中樞的活動(dòng)。
(3)認(rèn)知-評(píng)價(jià)學(xué)說(shuō):Arnold等人認(rèn)為情緒是驅(qū)利避害的一種體驗(yàn)傾向,任何評(píng)價(jià)都帶有情緒的性質(zhì),評(píng)價(jià)是由知覺(jué)而產(chǎn)生的活動(dòng)傾向,當(dāng)傾向強(qiáng)烈時(shí)就可稱為情緒。對(duì)情境事件的評(píng)價(jià)而引起的情緒會(huì)誘導(dǎo)人選擇適合于情境的反應(yīng)行動(dòng)。該學(xué)說(shuō)又被擴(kuò)展為評(píng)價(jià)、再評(píng)價(jià)過(guò)程,包括篩選信息、評(píng)價(jià)、以及應(yīng)付沖動(dòng)、交替活動(dòng)、身體反應(yīng)的反饋、對(duì)活動(dòng)后果的知覺(jué)等成分。他認(rèn)為情緒是一種綜合性的行為反應(yīng),每種情緒都包括生理、行為和認(rèn)知3種成分反應(yīng)。這3種成分在每種特定的情緒中各自起著不同的作用,相互作用、互為因果。它們的不同組合是構(gòu)成各種具體情緒模式的特定標(biāo)志。
(4)動(dòng)因-分化學(xué)說(shuō):Tomkins等人認(rèn)為情緒是以身體為基礎(chǔ),對(duì)某些動(dòng)因體系(Motivational system)所做的放大。動(dòng)因-分化學(xué)說(shuō)比認(rèn)知學(xué)說(shuō)更注重情緒的作用,情緒是認(rèn)知發(fā)展的契機(jī),人完全可以由各種情緒激動(dòng)起來(lái),以激起人去認(rèn)知和行動(dòng)。
(5)認(rèn)知-生理學(xué)說(shuō):是詹姆斯-朗格情緒學(xué)說(shuō)和認(rèn)知學(xué)說(shuō)的結(jié)合,認(rèn)為個(gè)人對(duì)自己情緒狀態(tài)的認(rèn)知性解釋是構(gòu)成情緒的主要因素,經(jīng)刺激所激活的生理變化是構(gòu)成情緒的次要因素,泛化的生理反應(yīng)決定情緒經(jīng)驗(yàn)的強(qiáng)度,而情緒的性質(zhì)則由對(duì)情境的知覺(jué)所決定。
對(duì)情感定義的不唯一性,使得在情感的分類問(wèn)題上也存在分歧。前期研究者認(rèn)為對(duì)語(yǔ)音情感的研究就是找出一個(gè)基本的情感類型列表,然后再研究表中的情感是如何在人類語(yǔ)言交流時(shí)表現(xiàn)出來(lái)。由此發(fā)展出兩種情感分類觀點(diǎn):基本情緒論(Basic emotion theory)和調(diào)色板情緒論(Palette theory of emtion)。前者認(rèn)為存在一些情緒狀態(tài)是基本的純粹的,剩余情感則是次要的不單純的,這種觀點(diǎn)比較符合現(xiàn)代心理學(xué)認(rèn)知,它將情感看成是由分立的基本情感組成,每種類型各有其獨(dú)特的體驗(yàn)特性、生理喚醒模式和外顯模式;后者認(rèn)為除去那些基本純粹的情緒狀態(tài)外,其他情感是在單純情感的基礎(chǔ)上衍變而來(lái),就像調(diào)色板調(diào)色一樣。不同研究者提出的情感類型從2種到近百種不等,中國(guó)古代就對(duì)情感分成了7類,就是常說(shuō)的七情六欲中的七情,在《禮記·禮運(yùn)》中解釋為:“喜、怒、哀、懼、愛(ài)、惡、欲七者弗學(xué)而能”。而中醫(yī)沒(méi)有把“欲”列在七情之中,換為了“喜、怒、憂、思、悲、恐、驚”。西方一些研究者的情感類型情感類型列表如表1所示。
表1 基本情感分類列表Table 1 List of the basic emotion categories
近20年,在坐標(biāo)空間中對(duì)情感定位成為另一個(gè)情感分類研究熱點(diǎn),稱之為維度空間論,主要是集中在二維論和三維論中。二維論是指效價(jià)維/快樂(lè)維(Valence/hedonic tone)和激活維/喚醒維(Activation/arousal);三維論主要是在二維論的基礎(chǔ)上增加一個(gè)控制維/姿態(tài)維(Control/stance)。其中效價(jià)維主要體現(xiàn)為情感主體的情緒感受,表示情感的積極或消極程度,喜歡或不喜歡程度,正面或負(fù)面程度,話者借助情感要表達(dá)的就是他對(duì)人或事物的喜歡程度和積極或消極的態(tài)度;激活維是指與情感狀態(tài)相聯(lián)系的機(jī)體能量激活的程度,是對(duì)情緒的內(nèi)在能量的一種度量,表征個(gè)體對(duì)于各種活動(dòng)的參與性,是活躍的還是呆板的,是興奮的還是冷淡的;控制維體現(xiàn)的是主體對(duì)情感狀態(tài)的主觀控制程度,用以區(qū)分情感狀態(tài)是由主體主觀發(fā)出的還是受客觀環(huán)境影響產(chǎn)生的,比如輕蔑和恐懼,就處于控制維度不同的兩端。
Russel等人通過(guò)激活效價(jià)空間上用一個(gè)情感輪(Emotion wheel)對(duì)情感進(jìn)行分類[18],圖1所示的是情緒的二維模型。情感分布在一個(gè)圓形的結(jié)構(gòu)上,結(jié)構(gòu)的自然原點(diǎn)認(rèn)為是一種具有各種情感因素的狀態(tài),但是由于這些情感因素在該點(diǎn)的強(qiáng)度太弱而得不到體現(xiàn)。通過(guò)向周圍不同方向擴(kuò)展,表現(xiàn)為不同情感。情感點(diǎn)同原點(diǎn)的距離體現(xiàn)了情感強(qiáng)度。相似的情感相互靠近,相反的情感則在二維空間中相距180度。在這個(gè)二維空間中加入了強(qiáng)度做為第三個(gè)維度后,可以得到一個(gè)三維的情感空間模型。如圖2所示。以強(qiáng)度、相似性和兩極性劃分情緒,模型上方的圓形結(jié)構(gòu)劃分為8種基本情緒:狂喜、警惕、悲痛、驚奇、狂怒、恐懼、接受和憎恨,越鄰近的情緒性質(zhì)上越相似,距離越遠(yuǎn),差異越大,互為對(duì)頂角的兩個(gè)扇形中的情緒則是相互對(duì)立的。圓形結(jié)構(gòu)的中心為自然原點(diǎn)。在強(qiáng)度上延伸為三維椎體,強(qiáng)度越弱,情緒的興奮度越低,越消極,反之則興奮度越高越積極。
圖1 情緒的二維模型Fig.1 Two-dimensional emotion model
圖2 Plutchik三維情緒模型Fig.2 Plutchik′s three-dimensional emotion model
情感語(yǔ)音數(shù)據(jù)庫(kù)是進(jìn)行語(yǔ)音情感分析的前提條件。根據(jù)數(shù)據(jù)獲取途徑,目前國(guó)際上語(yǔ)音情感研究人員所用的數(shù)據(jù)按照獲取途徑大致可分為4類:表演數(shù)據(jù)、激勵(lì)數(shù)據(jù)、啟發(fā)數(shù)據(jù)和摘引數(shù)據(jù)。按照語(yǔ)料自然度,數(shù)據(jù)可分為模仿數(shù)據(jù)、誘發(fā)數(shù)據(jù)和自然數(shù)據(jù)[19-30]。
表演數(shù)據(jù)主要是說(shuō)話人用表演方式朗讀某條有情感要求的給定語(yǔ)句,同時(shí)進(jìn)行錄音獲得數(shù)據(jù)。一般要求說(shuō)話人是受過(guò)專業(yè)訓(xùn)練的演員、播音員。這類數(shù)據(jù)的優(yōu)點(diǎn)是,在錄制的時(shí)候可以根據(jù)研究需求隨時(shí)調(diào)整數(shù)據(jù)的錄制,滿足性別、文字和情感等要求;而且錄音人員大多為受過(guò)表演訓(xùn)練的演員,所錄語(yǔ)音具有明顯的情感表現(xiàn)力,在其后的數(shù)據(jù)有效性交叉測(cè)聽(tīng)驗(yàn)證時(shí),具有較高的可識(shí)別性。同時(shí),此類數(shù)據(jù)的缺點(diǎn)也是很明顯的,由于是由專業(yè)人士表演獲得的,數(shù)據(jù)的情感表現(xiàn)具有一定的夸張度,不同演員對(duì)度的把握也不盡相同,人們?cè)谌粘=涣髦星楦械恼A髀杜c表演出的情感還是有一定距離的,當(dāng)把根據(jù)表演數(shù)據(jù)得到的情感分析方法在用于日常交流的語(yǔ)音時(shí),會(huì)出現(xiàn)一定偏差,不利于日后研究。
由于表演數(shù)據(jù)的真實(shí)度不高,情感的表達(dá)不受心理活動(dòng)刺激,研究人員在進(jìn)行錄制前,先設(shè)定一個(gè)有情感傾向的場(chǎng)景文本讓說(shuō)話人朗讀,用文本的內(nèi)容來(lái)激勵(lì)說(shuō)話人情感,通常情況下場(chǎng)景文本較長(zhǎng),說(shuō)話人在朗讀的過(guò)程中,心理發(fā)上變化而使語(yǔ)音逐漸帶有情感。這種數(shù)據(jù)就稱之為激勵(lì)數(shù)據(jù)。有時(shí)場(chǎng)景文本也可由圖片影像等其他方式激勵(lì)說(shuō)話人。其優(yōu)點(diǎn)是符合人類情緒產(chǎn)生的過(guò)程,能夠體現(xiàn)出情感的漸變性,真實(shí)度較高。其缺點(diǎn)是場(chǎng)景文本內(nèi)容的情感傾向可能會(huì)影響說(shuō)話人對(duì)語(yǔ)音的判斷,而這些影響無(wú)法通過(guò)分析語(yǔ)音特征剔除。
啟發(fā)數(shù)據(jù)是通過(guò)多人之間的交流獲得的,通常是在一個(gè)自由的環(huán)境下,由一個(gè)或多個(gè)啟發(fā)者人員與被錄音人員進(jìn)行交流,交流時(shí)間較長(zhǎng),談話過(guò)程中啟發(fā)人員通過(guò)對(duì)被錄音者的了解,隨時(shí)調(diào)整話題和控制交流速度,啟發(fā)出后者的情感。啟發(fā)過(guò)程中也可借助其他非語(yǔ)言類工具啟發(fā)被錄音人情感。較之前兩類數(shù)據(jù),啟發(fā)數(shù)據(jù)真實(shí)度較高,由于錄音時(shí)間較長(zhǎng),按照人類情緒發(fā)生過(guò)程,數(shù)據(jù)前期較為平穩(wěn),進(jìn)入中期,話者逐步進(jìn)入某種情緒狀態(tài)并最終到達(dá)情緒高潮,后期又逐漸歸于平靜狀態(tài)。但是此類數(shù)據(jù)也是對(duì)啟發(fā)人員要求較高,不僅要對(duì)被錄音人有一定程度的了解,能夠把握說(shuō)話人的心理變化,而且需要很強(qiáng)的現(xiàn)場(chǎng)調(diào)控能力。啟發(fā)數(shù)據(jù)的另一個(gè)缺點(diǎn)就是由于被錄音人的個(gè)體差異性,實(shí)際錄音過(guò)程中,可能不會(huì)出現(xiàn)一些極端的情感,如暴怒、狂喜等。
摘引數(shù)據(jù)主要是指從廣播電視日常生活中截取我們感興趣的包含情感的語(yǔ)音片斷。這種方法的優(yōu)點(diǎn)是情感的真實(shí)度較之表演數(shù)據(jù)更高,情感表達(dá)直接由心理狀態(tài)觸發(fā)而成,有上下文內(nèi)容關(guān)聯(lián)信息;數(shù)據(jù)來(lái)源豐富,并且截取的多媒體素材中不僅僅是音頻信息,這對(duì)日后發(fā)展多模態(tài)情感識(shí)別研究提供幫助。但是由于數(shù)據(jù)的海量,尋找合適的數(shù)據(jù)需要花費(fèi)大量的時(shí)間和人力,對(duì)存在背景音的語(yǔ)音材料還需進(jìn)行分離預(yù)處理等步驟才能得到干凈的情感語(yǔ)句。另外,對(duì)某些數(shù)據(jù)來(lái)源可能還存在版權(quán)等法律問(wèn)題,這些都是摘引數(shù)據(jù)的劣勢(shì)所在。
模仿數(shù)據(jù)是用專業(yè)的、蓄意的方式產(chǎn)生情緒的語(yǔ)音,一般由專業(yè)演員表演產(chǎn)生。而誘發(fā)數(shù)據(jù)是由于勸誘產(chǎn)生情緒的語(yǔ)音。誘發(fā)數(shù)據(jù)的自然度介于模仿數(shù)據(jù)和自然語(yǔ)音數(shù)據(jù)之間,一般是由非專業(yè)的普通人在文字,圖片等方式的誘導(dǎo)下獲得的。自然語(yǔ)音數(shù)據(jù)則直接取材于人們?nèi)粘=涣髦小?/p>
總的來(lái)說(shuō)表演數(shù)據(jù)和部分激勵(lì)數(shù)據(jù)都是通過(guò)表演者模仿獲得的。真實(shí)性不高,但是在實(shí)驗(yàn)室環(huán)境下,易于研究,有較高識(shí)別率。也是用的最多的建庫(kù)途徑。啟發(fā)數(shù)據(jù)的真實(shí)度較高,對(duì)啟發(fā)者要求較高,存在一定不可預(yù)知性,但是仍然獲得了部分研究者的認(rèn)可。啟發(fā)數(shù)據(jù)和部分激勵(lì)數(shù)據(jù)屬于誘發(fā)獲得。摘引數(shù)據(jù)既有從影視劇中獲得的,也有從訪談日常談話中獲得的,因此,數(shù)據(jù)的自然度涵蓋范圍最大,但較之單純的表演數(shù)據(jù),由于有上下文的關(guān)聯(lián),情感表達(dá)上還是有一定優(yōu)勢(shì)。
不論是通過(guò)哪種途徑獲得情感語(yǔ)音數(shù)據(jù),建立一個(gè)完備的語(yǔ)音數(shù)據(jù)庫(kù)都是可持續(xù)研究的關(guān)鍵所在。完備性要求是指,要符合語(yǔ)言的概率模型,在保證文本真實(shí)性和話語(yǔ)自然度的前提下,用盡可能少的語(yǔ)句來(lái)覆蓋所有的漢語(yǔ)發(fā)音現(xiàn)象,即包含所有合理的音聯(lián)關(guān)系,包含各種音節(jié)內(nèi)和音節(jié)間的元輔音搭配關(guān)系,能體現(xiàn)協(xié)同發(fā)音現(xiàn)象及發(fā)音的韻律特征,能體現(xiàn)漢語(yǔ)語(yǔ)音學(xué)、聲學(xué)的各種特征。情感語(yǔ)音庫(kù)的完備性要求比較特殊,與其他的語(yǔ)音庫(kù)的完備性要求不盡相同。情感語(yǔ)音庫(kù)采集的是情感,要求每種情緒類別的語(yǔ)音數(shù)據(jù),包含該情緒的各種可能的情感表達(dá)方式。由于情感的表達(dá)受主觀因素影響較大,不同的談話人有不同的情感表達(dá)習(xí)慣。因此,保證說(shuō)話人的數(shù)量達(dá)到一定的規(guī)模,選擇表演、激勵(lì)等各種不同的采集方式,設(shè)計(jì)充足的語(yǔ)句文本等,都有助于建立完備的情感語(yǔ)音庫(kù)。
情感語(yǔ)音當(dāng)中可以提取多種聲學(xué)特征,用以反映說(shuō)話人的情感行為的特點(diǎn)。情感特征的優(yōu)劣對(duì)情感最終識(shí)別效果的好壞有非常重要的影響,如何提取和選擇能有效反映情感變化的語(yǔ)音特征,是目前語(yǔ)音情感識(shí)別領(lǐng)域最重要的問(wèn)題之一。在過(guò)去的幾十年里,針對(duì)語(yǔ)音信號(hào)中的何種特征能有效的體現(xiàn)情感,研究者從心理學(xué)、語(yǔ)音語(yǔ)言學(xué)等角度出發(fā),作了大量的研究。許多常見(jiàn)的語(yǔ)音參數(shù)都可以用來(lái)研究,這些語(yǔ)音參數(shù)也常用于自動(dòng)語(yǔ)音識(shí)別和說(shuō)話人識(shí)別當(dāng)中。例如:短時(shí)能量、過(guò)零率、有聲段和無(wú)聲段之比、發(fā)音持續(xù)時(shí)間、語(yǔ)速、基音頻率、共振峰頻率和帶寬、鎂爾倒譜參數(shù)(Mel-frequency cepstral coefficients,MFCC)等等。
近年來(lái),在情感特征的分析過(guò)程中,研究者們開(kāi)始關(guān)注到語(yǔ)料的真實(shí)度問(wèn)題,以前的表演語(yǔ)料具有一定的夸張成分,在此類語(yǔ)料上獲得的情感特征與實(shí)際情況可能存在一定的偏差。
在過(guò)去的情感特征分析中,存在的最大的問(wèn)題是不同研究者之間的實(shí)驗(yàn)結(jié)果具有較大的差別,由于語(yǔ)料庫(kù)的不統(tǒng)一,研究成果之間的可比性較差。往往在一個(gè)數(shù)據(jù)庫(kù)上行之有效的特征,遷移到另一組語(yǔ)料上就不能獲得同樣的性能。因此,在今后的研究中,應(yīng)該關(guān)注跨數(shù)據(jù)庫(kù)的擴(kuò)展性能的研究,對(duì)不同民族之間和不同語(yǔ)種之間的情感表達(dá)的差異應(yīng)該受到研究者的重視。
此外,對(duì)于特殊人群和特殊工作環(huán)境中的情感特征的分析,具有較高的實(shí)際意義,應(yīng)當(dāng)受到重視。例如,高壓環(huán)境下人員的情感和心理狀態(tài)變化,狹小密閉環(huán)境引發(fā)的負(fù)面情緒,這些都是值得研究的課題。可以預(yù)期,在實(shí)際環(huán)境中引發(fā)的情感狀態(tài),其特征應(yīng)該與標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)當(dāng)中的基本情感類別的特征有所不同。因此對(duì)實(shí)用語(yǔ)音情感特征的研究具有較高的實(shí)際意義。
用于識(shí)別和建模的特征向量一般有兩種構(gòu)造方法,靜態(tài)統(tǒng)計(jì)特征和短時(shí)動(dòng)態(tài)特征。動(dòng)態(tài)特征對(duì)音位信息的依賴性較強(qiáng),為了建立與文本無(wú)關(guān)的情感識(shí)別系統(tǒng),本文中選用了靜態(tài)統(tǒng)計(jì)特征,如表2,3所示。
表2 情感語(yǔ)音的基本聲學(xué)特征構(gòu)造(上)Table 2 Construction of the basic acoustic features of speech emotion(A)
表3 情感語(yǔ)音的基本聲學(xué)特征構(gòu)造(下)Table 3 Construction of the basic acoustic features of speech emotion(B)
文本的變化會(huì)對(duì)情感特征有較大的影響。情感語(yǔ)音當(dāng)中大致包含3種信息來(lái)源:說(shuō)話人信息、語(yǔ)義信息和情感信息。在構(gòu)造情感特征和選擇特征時(shí),不僅需要使得特征盡可能多地反映出情感信息,也就是隨著情感的變化而發(fā)生明顯的變化,而且還需要盡量保持特征不受到語(yǔ)義變化的影響。
上文提取了大量的基本聲學(xué)特征,由于受到訓(xùn)練樣本規(guī)模的限制,特征空間維度不能過(guò)高。特征降維,在一個(gè)模式識(shí)別系統(tǒng)中具有重要的作用。原始的基本特征或多或少地能夠提供可利用的信息,來(lái)增加類別之間的可區(qū)分度。從信息的增加的角度來(lái)說(shuō),原始特征的數(shù)量應(yīng)該是越多越好,似乎不存在一個(gè)上限。然而,在具體的算法訓(xùn)練當(dāng)中,幾乎所有的算法都會(huì)受到計(jì)算能力的限制,特征數(shù)量的增加,最終會(huì)導(dǎo)致“維度災(zāi)難”的問(wèn)題。以高斯混合模型為例,它的概率模型的成功訓(xùn)練依賴于訓(xùn)練樣本數(shù)量、高斯模型混合度、特征空間維數(shù)三者之間的平衡。如果訓(xùn)練樣本不足,而特征空間維數(shù)過(guò)高的話,高斯混合模型的參數(shù)就不能準(zhǔn)確地獲得。
本文對(duì)上文中列出的所有基本聲學(xué)特征進(jìn)行特征降維,既能夠反映出這些特征在區(qū)分情感類別上的能力,又是后續(xù)的識(shí)別算法研究的需要??偨Y(jié)語(yǔ)音情感識(shí)別領(lǐng)域近年來(lái)的一些文獻(xiàn),研究者們主要采用了以下的一些特征降維的方法:線性鑒別分析(Linear discriminant analysis,LDA)、主成分分析(Principal components analysis,PCA)、Fisher鑒別率(Fisher discriminant ratio,F(xiàn)DR)、序列前向選擇(Sequential forward selection,SFS)等。其中,SFS是一種封裝器方法(Wrapper),它對(duì)具體的識(shí)別算法依賴程度比較高,當(dāng)使用不同的識(shí)別算法時(shí),可能會(huì)得到差異很大的結(jié)果。
在特征維數(shù)較高時(shí),LDA的壓縮性能是非常明顯的。然而在實(shí)際中LDA的應(yīng)用會(huì)受到訓(xùn)練數(shù)據(jù)量的限制,當(dāng)原始特征維數(shù)非常高,而訓(xùn)練數(shù)據(jù)量不足時(shí),會(huì)導(dǎo)致矩陣出現(xiàn)奇異值,LDA無(wú)法正常使用。因此,在本文中處理高維數(shù)據(jù)時(shí),可以采用PCA進(jìn)行第一步降維,然后再使用LDA降維。
語(yǔ)音情感識(shí)別在人機(jī)自然交互領(lǐng)域中有著重要的應(yīng)用前景。在不久的將來(lái),智能家用電器、智能服務(wù)型機(jī)器人等智能工具要進(jìn)入到人們的日常生活中,必然要面臨的問(wèn)題是人與機(jī)器如何交互的問(wèn)題。在以個(gè)人為中心的服務(wù)中,包括個(gè)人電腦等消費(fèi)電子,普通大眾并不習(xí)慣于鍵盤、鼠標(biāo)等生硬的操作方式,而語(yǔ)音是人類最自然、最便捷的交流方式之一,以語(yǔ)音、表情、手勢(shì)等自然的方式與機(jī)器溝通已成為了人機(jī)交互研究領(lǐng)域的一個(gè)趨勢(shì)。使智能機(jī)器具有理解人類情感的能力,識(shí)別用戶的喜悅、煩躁、滿意、憤怒、急切等情感,具有重要的實(shí)際意義。通過(guò)語(yǔ)音情感識(shí)別,在人機(jī)語(yǔ)音通信中獲取情感等非語(yǔ)義信息,能夠使得智能機(jī)器具備“察言觀色”的能力,能夠適應(yīng)各種實(shí)際的社會(huì)場(chǎng)合,準(zhǔn)確地理解用戶的意圖,自然地與用戶進(jìn)行溝通。
語(yǔ)音情感識(shí)別是以情感機(jī)理研究為基礎(chǔ)、在獲取了有效的情感語(yǔ)音信號(hào)后,將情感信號(hào)與情感機(jī)理相應(yīng)方面的內(nèi)容對(duì)應(yīng)起來(lái),對(duì)所獲得的信號(hào)進(jìn)行建模和識(shí)別。情感機(jī)理研究主要指對(duì)情感狀態(tài)判定及其與生理和行為之間的關(guān)系。涉及到心理學(xué)、生理學(xué)、認(rèn)知科學(xué)等方面學(xué)科。情感信號(hào)的獲取研究主要是指各類有效傳感器的研制,它是情感計(jì)算中極為重要的環(huán)節(jié),這里主要是各類高性能的錄音儀器。通過(guò)對(duì)錄得的語(yǔ)音信號(hào)進(jìn)行交叉驗(yàn)證其有效性后,對(duì)信號(hào)進(jìn)行建模和識(shí)別。例如,隱馬爾可夫模型(Hidden Markov models,HMM)、貝葉斯等模型就被廣泛采用并加以改進(jìn),取得了一定的識(shí)別效果[31-41]。
這里簡(jiǎn)要總結(jié)了各種現(xiàn)有的語(yǔ)音情感信息的統(tǒng)計(jì)模型與識(shí)別算法,如表4所示。模式識(shí)別領(lǐng)域中的諸多算法都曾用于語(yǔ)音情感識(shí)別的研究,典型的有 HMM、高斯混合模型(Gaussian mixture model,GMM)、支持向量機(jī)(Support vector machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)等,表4中初步比較了它們各自的優(yōu)缺點(diǎn)以及在部分?jǐn)?shù)據(jù)庫(kù)上的識(shí)別性能。
GMM是一種擬合能力很強(qiáng)的統(tǒng)計(jì)建模工具。GMM的主要優(yōu)勢(shì)在于對(duì)數(shù)據(jù)的建模能力強(qiáng),理論上來(lái)說(shuō),它可以擬合任何一種概率分布函數(shù)。而GMM的主要缺點(diǎn),也正是對(duì)數(shù)據(jù)的依賴性過(guò)高。因此在采用GMM建立的語(yǔ)音情感識(shí)別系統(tǒng)中,訓(xùn)練數(shù)據(jù)的特性會(huì)對(duì)系統(tǒng)性能產(chǎn)生很大的影響。
GMM在說(shuō)話人識(shí)別和語(yǔ)種識(shí)別中獲得了成功的應(yīng)用。就目前來(lái)說(shuō),很多研究的結(jié)果顯示,GMM在語(yǔ)音情感識(shí)別中是一種較合適的建模算法。近年來(lái)的研究文獻(xiàn)中,報(bào)道了不少采用GMM建立的語(yǔ)音情感識(shí)別系統(tǒng)。這些基于GMM的識(shí)別系統(tǒng),相對(duì)于其他識(shí)別算法來(lái)說(shuō)獲得了較好的識(shí)別率。在2009年,語(yǔ)音領(lǐng)域的著名的國(guó)際會(huì)議(Interspeech)上,舉行語(yǔ)音情感識(shí)別的評(píng)比?;贕MM的識(shí)別系統(tǒng)在總體性能上獲得了該次比賽的第一。
表4 各種識(shí)別算法在語(yǔ)音情感識(shí)別應(yīng)用中的特性比較Table 4 Comparison of the characters of various recognition algorithms in speech emotion recognition
采用何種建模算法最適合語(yǔ)音情感識(shí)別,一直是研究者們非常關(guān)注的問(wèn)題。本文認(rèn)為,在不同的情感數(shù)據(jù)庫(kù)上、不同的測(cè)試環(huán)境中,不同的識(shí)別算法各有優(yōu)劣,對(duì)此不能一概而論。然而,目前研究者們對(duì)自然語(yǔ)料非常重視,在自然語(yǔ)料中的情感模式較為復(fù)雜,不同的說(shuō)話人、不同的性格特點(diǎn)、不同的上下文環(huán)境等等因素都會(huì)增加數(shù)據(jù)的復(fù)雜度。高斯混合模型對(duì)這些數(shù)據(jù)的適應(yīng)能力較強(qiáng),可能是多數(shù)應(yīng)用場(chǎng)合的一種合理選擇。
在模式識(shí)別方面,各國(guó)研究人員在語(yǔ)音情感信息處理領(lǐng)域幾乎利用了所有的模式識(shí)別手段,新方法的應(yīng)用和對(duì)比層出不窮。模式識(shí)別方法大致可分為3大類:模板匹配法、概率統(tǒng)計(jì)法、辨別分類器法。其中模板匹配法代表性的有動(dòng)態(tài)時(shí)間規(guī)整法(Dynamic time warping,DTW)和矢量量化方法兩種;概率統(tǒng)計(jì)法代表性的有HMM方法和GMM方法兩種;辨別分類器法如ANN方法和SVM方法。此外,把以上方法與不同特征進(jìn)行有機(jī)組合,即混合方法也是情感識(shí)別中常見(jiàn)的,如GMM/SVM混合模型方法、SVM/HMM混合模型方法等等[36-40]。
Yamada等[42]對(duì)將神經(jīng)網(wǎng)絡(luò)應(yīng)用于提取語(yǔ)音中的情感進(jìn)行了研究,這些情感包括悲傷、興奮、歡樂(lè)和憤怒。對(duì)于這些基本的人類情感,運(yùn)用神經(jīng)網(wǎng)絡(luò)可以達(dá)到70%的識(shí)別率。Nicholson所研究的系統(tǒng)的整個(gè)神經(jīng)網(wǎng)絡(luò)由8個(gè)子網(wǎng)構(gòu)成,每個(gè)子網(wǎng)處理一種特定的情感。測(cè)試發(fā)現(xiàn),負(fù)面的情感,比如憤怒和悲傷容易識(shí)別,但正面的情感,比如喜悅,不易識(shí)別。Tato[33]等人使用SVM作為分類器對(duì)四類(喜、怒、悲、平常)情感進(jìn)行識(shí)別研究,最后實(shí)現(xiàn)了73%的平均識(shí)別率。Tin Lay Nwe等[43]采用了Mel頻率(Mel-frequency)語(yǔ)音能量系數(shù)和HMM分類方法,這種方法能夠比較有效地識(shí)別出語(yǔ)音所包含的情感,但還不足以反映情感的細(xì)節(jié),對(duì)情感進(jìn)行精確的區(qū)分。趙力等[44-47]分別采用PCA,HMM,GMM,QDF等方法進(jìn)行識(shí)別,也取得了70%~90%的識(shí)別率。
目前基于語(yǔ)音的情感識(shí)別系統(tǒng)中還存在不少困難,離實(shí)際應(yīng)用的要求還有一定的距離。用于識(shí)別語(yǔ)音情感的機(jī)器學(xué)習(xí)算法通常需要大量的訓(xùn)練數(shù)據(jù)。在相對(duì)成熟的語(yǔ)種識(shí)別或說(shuō)話人識(shí)別領(lǐng)域內(nèi),訓(xùn)練一個(gè)正常工作的系統(tǒng)通常需要幾百個(gè)小時(shí)的語(yǔ)音數(shù)據(jù)。標(biāo)注后的語(yǔ)音情感訓(xùn)練數(shù)據(jù)是稀疏的,這對(duì)情感識(shí)別研究帶來(lái)了難題。目前的情感識(shí)別研究缺乏足夠的標(biāo)注好的自然情感語(yǔ)音數(shù)據(jù)。另一方面,表演語(yǔ)音相對(duì)容易獲取,但是用表演語(yǔ)音數(shù)據(jù)代替自然語(yǔ)音數(shù)據(jù)會(huì)帶來(lái)系統(tǒng)性能的下降,研究表明表演情感數(shù)據(jù)與真實(shí)的情感數(shù)據(jù)之間有著較大的差異。然而現(xiàn)實(shí)世界中的情感在某種程度上也是在各種因素的影響下表達(dá)的,在不同的社會(huì)環(huán)境下都會(huì)帶有一定程度的掩飾和表演的成分。采集充分多的自然情感語(yǔ)音數(shù)據(jù)具有一定的困難,大部分的真實(shí)情感出現(xiàn)在特定的社交場(chǎng)合,在自然對(duì)話中出現(xiàn)的情感會(huì)受到觀察者的影響,在實(shí)驗(yàn)室里很難進(jìn)行完全真實(shí)的重現(xiàn)。當(dāng)人們獲知他們的對(duì)話在被采集和錄制時(shí),情感的表達(dá)會(huì)受到一定程度的抑制。例如,在Ekman的研究中,日本人會(huì)在參與實(shí)驗(yàn)中用微笑來(lái)掩蓋負(fù)面的情緒。對(duì)語(yǔ)音情感來(lái)說(shuō),說(shuō)話本身是一個(gè)受到高度控制和約束的過(guò)程,不少受控較少的情感表達(dá)需要一些極端的事件來(lái)激發(fā),在進(jìn)行情感語(yǔ)音的采集過(guò)程中倫理道德也是不可忽視的因素,被試往往出于隱私的考慮而不會(huì)給出最真實(shí)的情感表達(dá)。
當(dāng)獲得了自然的語(yǔ)音情感數(shù)據(jù)后,下一步就需要來(lái)描述語(yǔ)音中出現(xiàn)的這些情感。對(duì)自然情感的標(biāo)注是一件困難的工作,特別是在上下文場(chǎng)景未知的情況下要準(zhǔn)確地判斷出說(shuō)話人的情感更加困難。而且對(duì)情感的表達(dá)和感知某種程度上是因人而異的,不同的人對(duì)情感的表達(dá)能力不同,對(duì)同一段情感語(yǔ)料也存在不同的感受。因此不得不采用大多數(shù)人投票的方案來(lái)進(jìn)行情感的標(biāo)注,當(dāng)多人對(duì)一段語(yǔ)料有相同的標(biāo)注時(shí)將其作為基準(zhǔn)。對(duì)于同一個(gè)標(biāo)注人,還需要考慮其給出的判斷的可靠程度。對(duì)語(yǔ)音情感數(shù)據(jù)的預(yù)處理是一個(gè)需要大量人力和時(shí)間的過(guò)程。
以往的研究表明,聲學(xué)特征對(duì)區(qū)分不同的情感類別有重要的作用。激活維上差異較大的情感,如憤怒(高激活度)和悲傷(低激活度),通過(guò)聲學(xué)特征能夠得到較好的區(qū)分。然而在愉悅維度上對(duì)喜悅和憤怒的區(qū)分則較為困難。雖然近年來(lái)大量的音質(zhì)特征被用來(lái)區(qū)分正面和負(fù)面的情感,然而離實(shí)際應(yīng)用的要求還有一定的距離。因此,在語(yǔ)音情感特征分析中,盡可能多地提取聲學(xué)特征,用特征選擇算法來(lái)選取區(qū)分性最高的特征。與自動(dòng)語(yǔ)音識(shí)別和人臉表情識(shí)別領(lǐng)域不同,尋找一套有效的聲學(xué)特征以及配套的識(shí)別算法的研究還沒(méi)有得到一個(gè)統(tǒng)一的結(jié)論,目前廣泛使用的語(yǔ)音情感特征和識(shí)別算法,還不能很好地捕獲自然語(yǔ)音中的不明顯的情感表達(dá)。而對(duì)于表演語(yǔ)音的情感區(qū)分性能較高,是由于表演語(yǔ)音情感較為強(qiáng)烈,在激活度上的差異較大。
雖然世界各國(guó)的研究人員在語(yǔ)音情感研究的領(lǐng)域取得了許多研究成果,但是整個(gè)語(yǔ)音情感信息處理領(lǐng)域還處在一個(gè)較低的水平。特征提取的手段極其局限,對(duì)于模式識(shí)別的手段,雖然有不同的應(yīng)用方法,但是由于研究項(xiàng)目中使用的數(shù)據(jù)各異,而使得這些文獻(xiàn)間類比的可能性不大。縱觀近幾年語(yǔ)音情感文獻(xiàn)的研究結(jié)果,不僅它們的語(yǔ)音數(shù)據(jù)庫(kù)不同,而且不同識(shí)別算法的應(yīng)用也造成了高低不等的識(shí)別率。
在語(yǔ)音情感信息處理領(lǐng)域,無(wú)論是特征的提取,還是模式的識(shí)別,都存在相當(dāng)多的問(wèn)題??偨Y(jié)起來(lái)有如下幾類:
(1)目前國(guó)內(nèi)外對(duì)情感識(shí)別的研究,主要集中在幾類基本情感的識(shí)別上,尚不能滿足實(shí)際應(yīng)用中的需求,缺乏實(shí)用語(yǔ)音情感的數(shù)據(jù)庫(kù)以及在此基礎(chǔ)上的特征分析與識(shí)別的研究。
(2)沒(méi)有一個(gè)統(tǒng)一的共享的情感數(shù)據(jù)庫(kù)用于語(yǔ)音情感識(shí)別,由于研究項(xiàng)目中使用的數(shù)據(jù)各異,而使得各類研究文獻(xiàn)間類比的可能性不大。而且由于語(yǔ)種的關(guān)系,不同語(yǔ)種之間的研究成果的交流也存在一定障礙。
(3)在情感特征參數(shù)的提取和選擇上,特征提取的手段極其局限,幾乎所有的研究人員都是采用韻律特征或者這些韻律特征的線性組合和變換作為研究對(duì)象。雖然少數(shù)研究人員也提出了一些新的特征參數(shù),但是所有這些成果目前還停留在研究階段,對(duì)其的廣泛認(rèn)可仍需時(shí)間。
(4)情感識(shí)別算法的使用上,縱觀近幾年語(yǔ)音情感文獻(xiàn)的研究結(jié)果,由于語(yǔ)音數(shù)據(jù)庫(kù)不同,使得不同識(shí)別算法的應(yīng)用造成了高低不等的識(shí)別率。對(duì)某些算法的有效性上仍存在驗(yàn)證問(wèn)題。
語(yǔ)音情感識(shí)別是實(shí)現(xiàn)以人為中心的自然人機(jī)交互的關(guān)鍵技術(shù)之一,近年來(lái)受到了來(lái)自計(jì)算機(jī)科學(xué)、心理學(xué)、認(rèn)知科學(xué)與行為科學(xué)等各個(gè)領(lǐng)域的研究者們?cè)絹?lái)越高的關(guān)注。情感狀態(tài)的識(shí)別與在此基礎(chǔ)上的心理評(píng)估具有很高的實(shí)際應(yīng)用價(jià)值,特別是在載人航天等軍事領(lǐng)域中,長(zhǎng)時(shí)間的、單調(diào)的、高強(qiáng)度的任務(wù),會(huì)使得相關(guān)人員面臨嚴(yán)酷的生理以及心理考驗(yàn),引發(fā)某些負(fù)面的情緒。探討這些情緒對(duì)工作能力的作用及其機(jī)制和影響因素,具有非常重要的應(yīng)用價(jià)值,可以研究提高個(gè)體認(rèn)知和工作效率的方法、避免影響認(rèn)知和工作能力的因素。然而以往的語(yǔ)音情感識(shí)別,集中在對(duì)幾種基本情感的研究上,實(shí)驗(yàn)手段上往往采取表演的方式來(lái)模仿實(shí)際環(huán)境中的真實(shí)情感。通過(guò)對(duì)基本的幾類語(yǔ)音情感的分類研究,雖然能夠在理論上驗(yàn)證各種識(shí)別算法的優(yōu)劣性能,能夠用于尋找對(duì)識(shí)別基本情感類別有效的聲學(xué)特征,但是僅停留在對(duì)基本情感類別的研究上,遠(yuǎn)遠(yuǎn)不能滿足實(shí)際應(yīng)用中的要求。
人員的心理素質(zhì)(如情緒穩(wěn)定等)是實(shí)際任務(wù)中儀器和裝備所無(wú)法替代的關(guān)鍵因素,直接關(guān)系到航空航天等任務(wù)的順利完成。要保持良好的情緒狀態(tài),除了進(jìn)行專業(yè)的心理訓(xùn)練、任務(wù)執(zhí)行過(guò)程中的心理干預(yù)以外,配套的情緒檢測(cè)儀器的研制是必要的硬件基礎(chǔ),是對(duì)情緒評(píng)價(jià)提供客觀指標(biāo)的依據(jù)。因此實(shí)時(shí)地在線情緒狀態(tài)評(píng)估,以及在此基礎(chǔ)上的情緒能力的考核,具有非常重要的實(shí)用意義。然而目前國(guó)內(nèi)外對(duì)情感識(shí)別的研究,主要集中在幾類基本情感的識(shí)別上,尚不能滿足實(shí)際應(yīng)用中的需求。由于實(shí)際應(yīng)用中的需求,語(yǔ)音通話中“煩躁”情感具有重要的研究?jī)r(jià)值。因此,對(duì)煩躁情感的識(shí)別是語(yǔ)音情感識(shí)別中非常重要的一項(xiàng)研究?jī)?nèi)容,具有重大的實(shí)際意義。
在實(shí)際的語(yǔ)音情感識(shí)別應(yīng)用中,還面臨著情感語(yǔ)料真實(shí)度的問(wèn)題。根據(jù)Scherer的觀點(diǎn),人類聲音中蘊(yùn)含的情感信息,受到無(wú)意識(shí)的心理狀態(tài)變化的影響,以及社會(huì)文化導(dǎo)致的有意識(shí)的說(shuō)話習(xí)慣的控制。語(yǔ)音情感中的這種無(wú)意識(shí)和有意識(shí)控制對(duì)情感識(shí)別在實(shí)際中的應(yīng)用至關(guān)重要。然而在目前的語(yǔ)音情感數(shù)據(jù)的采集中,廣泛使用的是表演的方式,在實(shí)際的語(yǔ)音通話和自然交談中,說(shuō)話人的情感對(duì)語(yǔ)音產(chǎn)生的影響,常常不受說(shuō)話人控制,通常也不服務(wù)于有意識(shí)的交流目的,而是反映了說(shuō)話人潛在的心理狀態(tài)的變化。相反,演員能通過(guò)刻意地控制聲音的變化來(lái)表演所需要的情感,這樣采集的情感數(shù)據(jù)對(duì)于情感語(yǔ)音的合成研究沒(méi)有問(wèn)題,但是對(duì)自然情感語(yǔ)音的識(shí)別研究不合適,因?yàn)楸硌輸?shù)據(jù)不能提供一個(gè)準(zhǔn)確的情感模型。為了能更好地研究實(shí)際環(huán)境中的情感語(yǔ)音,有必要采集除表演語(yǔ)音以外的、較高自然度的情感數(shù)據(jù)。根據(jù)自然程度和采集方法,情感語(yǔ)料可以分為自然語(yǔ)音、誘發(fā)語(yǔ)音和表演語(yǔ)音3類。表演語(yǔ)料的優(yōu)點(diǎn)是容易采集,缺點(diǎn)是情感表現(xiàn)夸張,與實(shí)際的自然語(yǔ)音有一定的差別,因此導(dǎo)致表演數(shù)據(jù)的可靠性較差?;诒硌萸楦姓Z(yǔ)料建立情感識(shí)別系統(tǒng),會(huì)帶入一些先天的缺陷,這是由于用于識(shí)別模型訓(xùn)練的數(shù)據(jù)與實(shí)際的數(shù)據(jù)有一定的差別,導(dǎo)致了提取的情感特征上的差別。因此,以往基于表演語(yǔ)料的識(shí)別系統(tǒng),它的情感模型在實(shí)驗(yàn)室條件下符合樣本數(shù)據(jù),在實(shí)驗(yàn)測(cè)試中也能獲得較高的識(shí)別率;但是在實(shí)際條件下,系統(tǒng)的情感模型與真實(shí)的情感數(shù)據(jù)不能符合得很好,導(dǎo)致了識(shí)別正確率的顯著下降。因此需要通過(guò)心理學(xué)實(shí)驗(yàn)的方法來(lái)采集實(shí)用語(yǔ)音情感的誘發(fā)數(shù)據(jù),盡可能地使訓(xùn)練數(shù)據(jù)接近真實(shí)的情感數(shù)據(jù)。
實(shí)用語(yǔ)音情感數(shù)據(jù)庫(kù)的建立,是實(shí)用語(yǔ)音情感的研究基礎(chǔ),具有極為重要的意義。目前國(guó)際上流行的語(yǔ)音情感數(shù)據(jù)庫(kù)有丹麥語(yǔ)數(shù)據(jù)庫(kù)、柏林?jǐn)?shù)據(jù)庫(kù)、Groningen ELRA數(shù)據(jù)庫(kù)、Reading-leeds數(shù)據(jù)庫(kù)、ESP數(shù)據(jù)庫(kù)和Amir數(shù)據(jù)庫(kù)等,中文語(yǔ)音情感數(shù)據(jù)庫(kù)有中國(guó)科學(xué)院自動(dòng)化所的CASIA語(yǔ)料庫(kù)、中國(guó)社會(huì)科學(xué)院錄制的CASS-ESC等數(shù)據(jù)庫(kù)。然而現(xiàn)有的這些語(yǔ)音情感數(shù)據(jù)庫(kù)主要通過(guò)表演的方式采集幾類基本情感類別的語(yǔ)音數(shù)據(jù),不能滿足實(shí)用語(yǔ)音情感研究需要。在語(yǔ)音情感識(shí)別的實(shí)際應(yīng)用中,對(duì)建立情感模型所用的情感數(shù)據(jù)的真實(shí)性要求特別高,以往基于表演數(shù)據(jù)訓(xùn)練得到的模型,雖然在實(shí)驗(yàn)室條件下能夠通過(guò)識(shí)別測(cè)試,但是在實(shí)際環(huán)境中對(duì)真實(shí)情感數(shù)據(jù)的識(shí)別性能較差。面向?qū)嶋H應(yīng)用的這一特點(diǎn),決定了實(shí)用語(yǔ)音情感數(shù)據(jù)庫(kù)必須要保證語(yǔ)料的真實(shí)性,而不能采用傳統(tǒng)的表演方式采集數(shù)據(jù)。針對(duì)這一問(wèn)題,通過(guò)實(shí)驗(yàn)心理學(xué)的手段,在計(jì)算機(jī)游戲創(chuàng)造出的虛擬的情景中誘發(fā)被試說(shuō)出帶有特定情感的話語(yǔ),能夠采集較高自然度的情感數(shù)據(jù)。
在實(shí)用語(yǔ)音情感的特征分析中關(guān)注最多的是韻律特征和音質(zhì)特征。心理學(xué)和語(yǔ)言心理學(xué)的研究人員提供了大量的關(guān)于語(yǔ)音學(xué)和韻律學(xué)的研究結(jié)果,可以用來(lái)提取特征。一般情況下,語(yǔ)音的情感相關(guān)性的表示形式可以通過(guò)說(shuō)話人模型或者聲學(xué)模型來(lái)實(shí)現(xiàn)。有研究者認(rèn)為語(yǔ)音情感識(shí)別的重點(diǎn)在韻律特征;而隨著研究的深入,另外一些研究者認(rèn)為,語(yǔ)音特征和韻律特征相互結(jié)合才能表達(dá)情感,僅有韻律特征是不可能表達(dá)情感的。到目前為止,已有的研究成果表明,針對(duì)情感識(shí)別所采用的特征大多是韻律特征,也就是超音段特征,如基音、強(qiáng)度、持續(xù)時(shí)間、以及它們的衍生參數(shù),主要是統(tǒng)計(jì)參數(shù),如均值、方差、中值、最大最小值、輪廓變化等。語(yǔ)音音質(zhì)聽(tīng)覺(jué)方面的信息也是常常需要考慮的因素。一些特定元音在結(jié)構(gòu)上的變化直接依賴于情感,而另一些元音則依賴于句子中的位置及話者是否用錯(cuò)了重讀模式。音質(zhì)類特征中代表性的有:共振峰,MFCC,LPCC,PLP等。韻律特征和音質(zhì)特征并不是相互孤立的,它們與前文中所提到的情感維度空間定義是密切相連的。通過(guò)Pereira等人的研究表明語(yǔ)音信號(hào)的韻律特征與3個(gè)情感維度(效價(jià)維、激活維和控制維)之間具有一定關(guān)聯(lián)性,其中激活維和韻律特征之間具有明顯關(guān)聯(lián),激活維相近的情感狀態(tài)具有相似的韻律特征且易混淆。
到目前為止,對(duì)情感特征參數(shù)的有效提取主要集中在韻律和音質(zhì)方面,其中以韻律特征為主,而隨著研究的深入,越來(lái)越多的音質(zhì)參數(shù)也被納入考慮范圍內(nèi)。前面所提到的特征大多是線性特征,而近幾年來(lái)各種非線性特征逐漸引起人們重視,其代表性的如TEO能量算子。而針對(duì)不同民族不同語(yǔ)種對(duì)情感表達(dá)影響的研究則鮮少見(jiàn)到。此外,由于工作環(huán)境的變化,而造成人們不同以往的情緒表達(dá)特征的變化也是值得關(guān)注的地方。
今后的研究工作可能在情感模型和情感特征方面有較大的發(fā)展空間。首先,情感維度空間模型在語(yǔ)音情感識(shí)別中的應(yīng)用還剛剛開(kāi)始,諸多算法可以與之結(jié)合,出現(xiàn)更為合理的情感識(shí)別方法。雖然心理學(xué)中的“喚醒度-效價(jià)度-控制度”三維模型比較流行,但是可以從語(yǔ)音信號(hào)的實(shí)際特點(diǎn)出發(fā)研究更加合適的情感模型。其次,情感特征還有待進(jìn)一步研究,從聲學(xué)特征到心理狀態(tài)的映射是非常困難的,如何構(gòu)造可靠的情感特征一直是本領(lǐng)域的一個(gè)主題。特別是結(jié)合跨語(yǔ)言和跨數(shù)據(jù)庫(kù)的研究,有利于發(fā)掘情感特征中的通用性。
雖然情感計(jì)算的研究已經(jīng)進(jìn)行了多年,然而情感的科學(xué)定義還并不明確。情感可以從進(jìn)化論得到解釋,認(rèn)為情感是動(dòng)物在生存斗爭(zhēng)中獲得的能力,使得動(dòng)物能夠趨利避害。情感還可以從社會(huì)心理學(xué)的角度得到解釋,人類作為群居動(dòng)物,成員個(gè)體之間需要進(jìn)行有效的溝通,為勞動(dòng)協(xié)作建立關(guān)系,而情感則是一種有效的交流手段,體現(xiàn)出個(gè)體的意圖和心理狀態(tài)。從這個(gè)角度來(lái)看,人工智能是不可缺少的情感識(shí)別技術(shù),它能夠進(jìn)行復(fù)雜意圖信息的直接表達(dá)和有效傳遞。
人類語(yǔ)音當(dāng)中包含的豐富多彩的情感信息,計(jì)算機(jī)能夠理解到何種程度?語(yǔ)音情感識(shí)別技術(shù)是僅能夠模仿一部分的人類情感感知能力,還是有可能超越人類的能力,捕獲到人耳亦所無(wú)法感知的信息?這些問(wèn)題值得深思。
從情感的含義上看,既然只有人類和動(dòng)物才具有情感,那么人類的情感也就通過(guò)人類自身得到了界定,人耳所不能感知到的信息,似乎不在語(yǔ)音情感的范疇內(nèi)。然而,情感的感知通道,并不僅限于人耳聽(tīng)覺(jué)。通過(guò)內(nèi)省知覺(jué)的方式,說(shuō)話人自身能夠體驗(yàn)到的情感是“體驗(yàn)情感”(Felt emotion),通過(guò)人耳聽(tīng)覺(jué)感知到的他人的情感,是“聽(tīng)辨情感”(Perceived emotion)。從這個(gè)角度考慮,語(yǔ)音情感識(shí)別技術(shù),有可能超過(guò)人耳的聽(tīng)辨能力,獲取到更多的說(shuō)話人的體驗(yàn)情感的信息。人們?cè)谌粘I詈凸ぷ髦袩o(wú)意識(shí)地流露出的情感心理狀態(tài),能夠通過(guò)情感計(jì)算技術(shù)得到準(zhǔn)確的測(cè)量和分析,在此基礎(chǔ)上發(fā)展出的技術(shù)應(yīng)用有著廣闊的前景。
煩躁情感具有特殊的應(yīng)用背景,在某些嚴(yán)酷的工作環(huán)境中,煩躁是較為常見(jiàn)的、威脅性較大的一種負(fù)面情感。保障工作人員的心理狀態(tài)健康是非常重要的環(huán)節(jié)。本文中設(shè)想在未來(lái)可能的長(zhǎng)期的載人任務(wù)中,對(duì)航天員情感和心理狀態(tài)的監(jiān)控與干預(yù)是一個(gè)重要的研究課題。在某些特殊的實(shí)際應(yīng)用項(xiàng)目中,工作人員的心理素質(zhì)是選拔和訓(xùn)練的一個(gè)關(guān)鍵環(huán)節(jié),這是由于特殊的環(huán)境中會(huì)出現(xiàn)諸多的刺激因素,引發(fā)負(fù)面的心理狀態(tài)。例如,狹小隔絕的艙體內(nèi)環(huán)境、嚴(yán)重的環(huán)境噪聲、長(zhǎng)時(shí)間的睡眠剝奪等因素,都會(huì)增加工作人員的心理壓力,進(jìn)而影響任務(wù)的順利完成。因此,本文設(shè)想在天地的通信過(guò)程中,有必要對(duì)航天員的心理健康狀況進(jìn)行檢測(cè),在發(fā)現(xiàn)潛在的負(fù)面情緒威脅的情況下,應(yīng)該及時(shí)地進(jìn)行心理干預(yù)和疏導(dǎo)。在心理學(xué)領(lǐng)域,進(jìn)行心理狀態(tài)評(píng)估的方法,主要是依靠專業(yè)心理醫(yī)師的觀察和診斷,而近年來(lái)的情感計(jì)算技術(shù),則為這個(gè)領(lǐng)域提供了客觀測(cè)量的可能。本文設(shè)想,語(yǔ)音情感識(shí)別技術(shù)可以用于分析載人航天任務(wù)中的語(yǔ)音通話,對(duì)說(shuō)話人的情感狀態(tài)進(jìn)行自動(dòng)的、實(shí)時(shí)的監(jiān)測(cè)。一旦發(fā)現(xiàn)煩躁?duì)顟B(tài)出現(xiàn)的跡象,可以及時(shí)地進(jìn)行心理疏導(dǎo)。
[1] Picard R W.Affective computing[M].Cambridge:MIT Press,1997.
[2] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
Zhao Li.Speech signal processing[M].Beijing:Machinery Industry Press,2003.
[3] Picard R W.Toward computers that recognize and respond to user emotion[J].IBM Technical Journal,2000,38(2):705-719.
[4] Scherer K R,Banziger T.Emotional expression in prosody:A review and an agenda for future research[C]∥SP2004(Speech Prosody 2004).Nara,Japan:International Speech Communication Association,2004:355-369.
[5] 趙力,王治平,盧韋,等.全局和時(shí)序結(jié)構(gòu)特征并用的語(yǔ)音信號(hào)情感特征識(shí)別方法[J].自動(dòng)化學(xué)報(bào),2004,30(3):423-429.
Zhao Li,Wang Zhiping,Lu Wei,et al.Speech emotional recognition using global and time sequence structure feature[J].Acta Automatica Sinica,2004,30(3):423-429.
[6] 王治平,趙力,鄒采榮.基于基音參數(shù)規(guī)整及統(tǒng)計(jì)分布模型距離的語(yǔ)音情感識(shí)別[J].聲學(xué)學(xué)報(bào),2006,31(1):28-34.
Wang Zhiping,Zhao Li,Zou Cairong.Emotional speech recognition based on modified parameter and distance of statistical model of pitch [J].Acta Acustica,2006,31(1):28-34.
[7] Arnold M.Emotion and personality[J].Psychological Aspects,1960,1:11-116.
[8] Tomkins A S S.The negative affects[J].Affect,Imagery,Consciousness,1962,2:111-116.
[9] Murray I,Amott J L.Towards the simulation of emotion in synthetic speech:A review of the literature on human vocal emotion[J].Journal of the Acoustic Society of America,1993,93(2):1097-1108.
[10]Ortony A,Turner T J.What′s basic about basic emotions[J].Psychological Review,1990,97(3):315-331.
[11]Stibbard R M.Vocal expression of emotions in monlaboratory speech:An investigation of the reading/leeds emotion in speech porject annotation data[D].UK:University of Reading,2001.
[12]Cowie R,Cornelius R R.Describing the emotional states that are expressed in speech[J].Speech Communication,2003,40:5-32.
[13]Taylor G,F(xiàn)ellenz W A,Cowie R,et al.Towards a neural-based theory of emotional dispositions[C]∥IMACS/IEEE CSCC.Athens,Greece:IEEE Computer Society,1999:1-6.
[14]Plutchik R.The multifactor-analytic theory of emotion[J].Journal of Psychology,1960,50(1):153-171.
[15]Ververidis D,Kotropoulos C.A state of the artreview one motional speech databases[C]∥Proc 1st Richmedia Conference. Lausanne, Switzerland:IEEE Computer Society,2003:109-119.
[16]Douglas-Cowie E,Campbell N,Cowie R,et al.E-motional speech:Towards a new generation of databases[J].Speech Communication,2003,40:33-60.
[17]Ververidis D,Kotropoulos C.Emotional speech recognition:Resources,features,and methods[J].Speech Communication,2006,48:1162-1181.
[18]Russell J A.Measures of emotion[M].San Diego,CA,US:Academic Press,1989.
[19]Cowie R,Douglas-Cowie E.Automatic statistical analysis of the signal and prosodic signs of emotion in speech[C]∥Proc ICSLP.Philadelphia,PA,USA:IEEE Signal Processing Society,1996:1989-1992.
[20]Edgington M.Investigating the limitations of concatenative synthesis[C]∥Proc Eurospeech Rhodes.Greece:IEEE Signal Processing Society,1997:593-596.
[21]Fernandez R,Picard R W.Modeling drivers′speech under stress[J].Speech Communication,2003,40(1):145-159.
[22]Fischer K.Annotating emotional language data[R].Tech.Rep.236.Germany:University of Hamburg,1999:111-116.
[23]Yu F,Chang E,Xu Y-Q,et al.Emotion detection from speech to enrich multimedia content[C]∥Proc 2nd IEEE Pacific-Rim Conference on Multimedia.Shanghai,China:IEEE Signal Processing Society,2001:1-6.
[24]Nakatsu R,Solomides A,Tosa N.Emotion recognition and its application to computer agents with spontaneous interactive capabilities[C]∥Proc IEEE Int Conf Multimedia Computing and Systems.Floernce,Italy:IEEE Signal Processing Society,1999:804-808.
[25]Iida A,Campbell N,Iga S,et al.A speech synthesis system with emotion for assisting communication[C]∥Proc ISCA Workshop(ITRW)on Speech and E-motion.Belfast:IEEE Signal Processing Society,2000:167-172.
[26]Rosenberg A E,Lee C-H,Soong F K.Sub-word unit talker verification using hidden markov models[C]∥Proc ICASSP90.New Mexico,USA:IEEE Signal Processing Society,1990:269-272.
[27]Chasaide A N,Gobl C.Voice quality and the synthesis of affect[J].Improvements in Speech Synthesis,2002,25(8):252-263.
[28]Gobl C,Chasaide A N.Testing affeetive correlates of voice quality through analysis and resynthesis[C]∥ISCA Workshop on Speech & Emotion.Northern Ireland:IEEE Signal Processing Society,2000:1-6.
[29]Kwon O W,Chan K,Hao J,et al.Emotion recognition by speech signals[C]∥Proc of Eurospeech.Geneva,Switzerland:IEEE Signal Processing Society,2003:125-128.
[30]Jianxia C.A summary about emotional speech recognition[C]∥The 1st Chinese Conference on Affective Computing and Intelligent Interaction.Beijing:IEEE Signal Processing Society,2003:11-116.
[31]Tank A E,Kotz S.Accentuation and emotions-two different systems[C]∥ISCA Workshop(ITRW)on Speech and Emotion.Newcastle,Northern Ireland:IEEE Signal Processing Society,2000:1-6.
[32]Gobl C,Chasaide A N.The role of voice quality in communicating emotion, mood and attitude[J].Speech Communication,2003,40(1):189-212.
[33]Tato R,Santos R,Kompe R,et al.Emotion space improves emotion recognition[C]∥Proc ICSLP 2002.Denver,Colorado:IEEE Signal Processing Society,2002:2029-2032.
[34]Pao Tsang-Long,Chen Yu-Te,Yeh Jun-Heng,et al.Detecting emotions in mandarin speech[J].Computational Linguistics and Chinese Language Processing,2005,10(3):347-362.
[35]Ververidis D,Kotropoulos C,Pass J.Automatic emotional speech classification[C]∥Proceedings of ICASSP.Montreal,Quebec,Canada:IEEE Signal Processing Society,2004:593-596.
[36]Jiang Dan-Ning,Cat Lian-Hong.Speech emotion classificaiton with the combination of statistic features and temporal features[C]∥IEEE Intenraitonal Conference on Multimedia and Expo.Taiwan,China:IEEE Computer Society,2004:1967-1970.
[37]Audibert N,Auberg V,Rilliard A.Acted vs.spontaneous expressive speech:Perception with inter-individual variability[C]∥Proc LREC.Marrakech,Morocco:IEEE Computer Society,2008:111-116.
[38]Batliner A,Steidl S,Nth E.Releasing a thoroughly annotated and processed spontaneous emotional database:The FAU aibo emotion corpus[C]∥Proc of a Satellite Workshop of LREC.Berlin,Germany:IEEE Computer Society,2008:28-31.
[39]Brummer N.Discriminative acoustic language recognition via channel-compensated GMM statistics[C]∥ISCA Proc Interspeech.Denver,USA:ISCA,2009:1-6.
[40]Busso C,Narayanan S S.Recording audiovisual emotional databases from actors:A closer look[C]∥Second International Workshop on Emotion:Corpora for Research on Emotion and Affect,International Conference on Language Resources and Evaluation.Amsterdam, Netherland:IEEE Computer Society,2008:17-22.
[41]Krajewski J,Kroger B.Using prosodic and spectral characteristics for sleepiness detection[C]∥10th European Conference on Speech Communication and Technology.Geneva,Switzerland:IEEE Computer Society,2007:1841-1844.
[42]Yamada T,Hashimoto H,Tosa N.Pattern recognition of emotion with neural network[C]∥Industrial Electronics,Control,and Instrumentation,Proceedings of the 1995IEEE IECON 21st International Conference on.New York,USA:IEEE,1995,1:183-187.
[43]Nwe T L,F(xiàn)oo S W,De Silva L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.
[44]趙力,錢向民,鄒采榮,等.語(yǔ)音信號(hào)中的情感識(shí)別研究[J].軟件學(xué)報(bào),2001,12(7):1050-1055.
Zhao Li,Qian Xiangmin,Zou Cairong.A study on emotional recognition in speech signal[J].Journal of Software,2001,12(7):1050-1055.
[45]趙力,將春輝,鄒采榮,等.語(yǔ)音信號(hào)中的情感特征分析和識(shí)別的研究[J].電子學(xué)報(bào),2004,32(4):606-609.
Zhao Li,Jiang Chunhui,Zou Cairong.A study on emotional feature analysis and recognition in speech[J].Acta Electronica Sinica,2004,32(4):606-609.
[46]王治平,趙力,鄒采榮.利用模糊熵進(jìn)行參數(shù)有效性分析的語(yǔ)音情感識(shí)別[J].電路與系統(tǒng)學(xué)報(bào),2003,3(8):109-112.
Wang Zhiping,Zhao Li,Zou Cairong.Emotion recognition of speech using fuzzy entropy effectiveness analysis[J].Journal of Circuits and Systems,2003,3(8):109-112.
[47]黃程韋,金赟,趙艷,等.實(shí)用語(yǔ)音情感數(shù)據(jù)庫(kù)的設(shè)計(jì)與研究[J].聲學(xué)技術(shù),2010,29(4):396-399.
Huang Chengwei,Jin Yun,Zhao Yan,et al.Design and establishment of practical speech emotion database[J].Technical Acoustics,2010,29(4):396-399.