• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語音情感識別綜述

      2020-06-09 07:17:50孫曉虎李洪均
      計算機(jī)工程與應(yīng)用 2020年11期
      關(guān)鍵詞:語音特征情感

      孫曉虎,李洪均,2,3,4

      1.南通大學(xué) 信息科學(xué)技術(shù)學(xué)院,江蘇 南通226019

      2.計算機(jī)軟件新技術(shù)國家重點(diǎn)實驗室(南京大學(xué)),南京210093

      3.南通大學(xué) 智能信息技術(shù)研究中心,江蘇 南通226019

      4.南通大學(xué) 通科微電子學(xué)院,江蘇 南通226019

      1 引言

      語音作為語言符號系統(tǒng)的載體,是由人的生理發(fā)聲器官發(fā)出的。語音作為語言的第一屬性,在語言中起決定性的支撐作用,不僅包含說話人所要表達(dá)的文本內(nèi)容,也包含說話人所要表達(dá)的情感信息。情感與人態(tài)度中的內(nèi)向感受、意向具有協(xié)調(diào)一致性,是態(tài)度在生理上一種較復(fù)雜而又穩(wěn)定的評價和體驗。心理學(xué)把情感定義為人對客觀現(xiàn)實的一種特殊反映,是人對于客觀事物是否符合人的需要而產(chǎn)生的態(tài)度體驗,其本質(zhì)就是人腦對于客觀事物價值的主觀反映。

      語音情感識別是指通過計算機(jī)處理,以幀為單位對情感信號進(jìn)行特征提取,模擬人類感知并理解人類的情感,進(jìn)而推斷出語音情感類型的一種技術(shù)。其任務(wù)是從說話人的語音中提取出與情感有關(guān)的相關(guān)特征,并找出這些特征與人類情感的映射關(guān)系。1972年,Williams和Stevens發(fā)現(xiàn)人的情感變化對語音的基音輪廓有很大影響[1];1987 年,美國麻省理工學(xué)院的人工智能創(chuàng)始人Minsky 教授在The Society of Mind 一書中提出“計算機(jī)的情感能力”這一概念[2];20世紀(jì)90年代初,美國的麻省理工學(xué)院多媒體實驗室構(gòu)造了一個“情感編輯器”對外界各種情感信號進(jìn)行采集,用人體的生理信號、面部表情信號、語音信號等來識別各種情感,并讓機(jī)器對各種情感做出適當(dāng)?shù)姆从砙3];1995 年,美國MIT 媒體實驗室的Picard教授提出了情感計算的概念,并于1997年正式出版專著Affective Computing;1999 年,Moriyama 提出語音情感的線性關(guān)聯(lián)模型并將其初步應(yīng)用到電子商務(wù)中[4];2003 年,Hozjan V 等研究了基于多種語言的具體情感特征的語音情感識別[5]。

      國內(nèi)語音情感識別研究起步相對較晚,2003 年,北京科技大學(xué)、微軟亞洲研究院以及部分大學(xué)和研究所進(jìn)行了機(jī)器人的語音情感識別技術(shù)的研究;2004年以來,東南大學(xué)、江蘇大學(xué)也都啟動了語音情感方面的研究。近年來,在人工智能飛速發(fā)展的背景下[6-7],語音情感識別正逐漸成為一個新的研究熱點(diǎn),Zheng 等人[8]基于有效語音的特征集和模型對情感識別的影響,提出一種多級語音情感識別的集成模型且從三方面驗證了該方法的有效性;Chen等人[9]提出一種人機(jī)交互中的兩層模糊多隨機(jī)森林算法,融合個性化和非個性化特征,對情緒社交機(jī)器人系統(tǒng)進(jìn)行了初步的應(yīng)用實驗。

      本文在回顧國內(nèi)外語音情感識別發(fā)展的基礎(chǔ)上,分別從語音情感特征、語音情感數(shù)據(jù)庫、語音情感識別算法、語音情感識別的應(yīng)用以及語音情感識別的挑戰(zhàn)這幾個方面對其進(jìn)行了總結(jié)分析,最后基于研究現(xiàn)狀對語音情感技術(shù)的未來發(fā)展方向進(jìn)行了展望。

      2 語音情感特征

      根據(jù)語音情感特征具有普遍性和差異性,可將語音情感特征分為個性化情感特征和非個性化情感特征。其中,非個性化情感特征不易受說話者個人特征的影響,具有普遍性。個性化情感特征攜帶了大量的個人情感信息,具有差異性。目前,國內(nèi)外對于語音情感特征種類還沒有一個統(tǒng)一的劃分,比較典型并且受歡迎的劃分方法是將情感特征分為基于聲學(xué)的情感特征和基于語義的情感特征。其中,基于聲學(xué)的情感特征又劃分為韻律學(xué)特征、基于譜的相關(guān)特征和音質(zhì)特征。下面對這幾種常見的語言情感特征進(jìn)行詳細(xì)分析。

      2.1 韻律學(xué)特征

      韻律特征又稱超音段特征[10],在語音學(xué)中表現(xiàn)為語調(diào)、音高、音長和節(jié)奏等可以被人類感知的特征。在聲學(xué)信號中,韻律特征對不同語言的語音情感識別具有較好的泛化性能,其中使用最廣泛的韻律特征是基頻、語音能量和持續(xù)時間。

      基頻即基音的頻率,決定整段語音的音高,它的生理學(xué)定義是一段復(fù)雜語音中最低且通常情況下最強(qiáng)的頻率?;l是由聲帶的振動產(chǎn)生的,其在語音變化過程中產(chǎn)生的基頻等值線的統(tǒng)計特征可作為情感特征。除此之外,基頻中還包含了大量表征語音情感的特征,在語音情感識別中起著至關(guān)重要的作用。其中自相關(guān)函數(shù)法、平均幅度差法和小波法為常用的基頻特征提取方法。語音能量又稱音強(qiáng),反映了語音信號的振幅隨時間的變化強(qiáng)弱。振幅能量是一種重要的韻律特征,包括短時能量和平均幅度。研究表明,不同情感的聲音信號的振幅能量不盡相同,驚訝、高興等情緒會導(dǎo)致能量增加,而悲傷、厭惡等情緒會導(dǎo)致能量減少。語音持續(xù)時間是表征語音信號時間的物理量,使用最廣泛的持續(xù)時間特征有語音速率、清濁音持續(xù)時間等。文獻(xiàn)[11]提出了一種基于韻律特征參數(shù)的語音情感合成算法,通過對情感數(shù)據(jù)庫中生氣、無聊、悲傷和高興4 種情感的韻律參數(shù)分析,取得了78%的正確識別率;文獻(xiàn)[12]通過構(gòu)造基于韻律段特征的多重Elman網(wǎng)絡(luò)模型,比使用定長語段特征相比有了較大的提高,取得了67.9%的識別率;文獻(xiàn)[13]將柏林情感數(shù)據(jù)庫的韻律特征和音質(zhì)特征進(jìn)行混合并通過多層感知器進(jìn)行情感分類,取得了75.51%的識別率;文獻(xiàn)[14]通過識別語音/非語音區(qū)間后提取韻律特征,再進(jìn)行音節(jié)分割,利用深度神經(jīng)網(wǎng)絡(luò)對德語的Emo-DB 情感數(shù)據(jù)庫進(jìn)行情感分類。雖然基于韻律學(xué)特征對語音情感識別的作用不可忽視,但其僅從時域或頻域?qū)φZ音情感信息的變化進(jìn)行描述,利用情感參數(shù)和區(qū)分情感的能力有限。

      2.2 基于譜的相關(guān)特征

      基于譜的相關(guān)特征描述了聲道形狀變化和發(fā)聲運(yùn)動之間的相關(guān)性,能夠反映出信號的短時譜特性。它主要包括線性譜[15-16]和倒譜[17-18],其中線性譜包括線性預(yù)測系數(shù)、對數(shù)頻率功率系數(shù)和單邊自相關(guān)線性預(yù)測系數(shù)等;倒譜包括線性預(yù)測倒譜系數(shù)、單邊自相關(guān)線性預(yù)測倒譜系數(shù)、感知線性預(yù)測和梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)等,在倒譜中MFCC最為經(jīng)典。

      MFCC是Davis和Mermelstein于1980年提出來的,它基于人耳耳蝸和基底膜的特性,與實際頻率成非線性對應(yīng)關(guān)系。

      其中,f 為語音信號的實際頻率,單位為Hz。

      近年來,基于譜的相關(guān)特征被廣泛地用于語音情感識別方法,文獻(xiàn)[19]提出了一種基于Mel 尺度濾波器并加以改進(jìn)的語音情感識別方法,在用徑向基網(wǎng)絡(luò)作為分類器的基礎(chǔ)上,與傳統(tǒng)的MFCC 濾波器組比較,該方法的分類精度提高了6.3%。文獻(xiàn)[20]從心電圖中提取基于Mel-頻率倒譜系數(shù)對心臟類疾病進(jìn)行自動分類,利用具有徑向核的支持向量機(jī)對時間和頻率倒譜系數(shù)特征進(jìn)行分析,得到了最佳的結(jié)果。文獻(xiàn)[21]利用MFCC技術(shù)對說話者的快樂、悲傷和憤怒這三種情緒進(jìn)行測試,測試效率為80%。語譜圖充分利用了語音信號中的低頻信息,但存在高頻信息泄露,不能充分利用上下文幀間動態(tài)信息的問題。

      2.3 音質(zhì)特征

      音質(zhì)特征用于衡量語音的純凈度、清晰度和辨識度。主要包括帶寬[22]、共振峰頻率[23]、振幅擾動[24]等。文獻(xiàn)[25]為提高情感識別率,提取了18 個韻律參數(shù)和59個音質(zhì)參數(shù)對5男5女的4種情感進(jìn)行訓(xùn)練和測試。音質(zhì)參數(shù)對情感識別起著有效的補(bǔ)充作用,文獻(xiàn)[26]基于最小語音質(zhì)量特征,采用ANN分類器分別對2 765份英語和2 240 份印地語中的7 種不同的情緒進(jìn)行分類,得到了64.8%和83.3%的識別率,表明語音的音質(zhì)特征是一種有效的情感特征參數(shù)。音質(zhì)特征作為一種有效的情感特征參數(shù),聲音質(zhì)量的變化與語音情感的表達(dá)有著密切的聯(lián)系,但因特征參數(shù)維度較大而導(dǎo)致冗余信息干擾,無法準(zhǔn)確獲取其聲門參數(shù),仍需進(jìn)一步估算。

      除上述特征外,比較典型的還有基于Teager Enger算子(TEO)的特征和多模態(tài)融合特征等。TEO 能量算子是一個非線性算子,能夠跟蹤信號的瞬時能量,可以與基頻、共振峰特征相結(jié)合形成新的語音特征。文獻(xiàn)[27]將EMD 分解與Teager 能量算子相結(jié)合用于語音情感識別,采用SVM 分類器對不同語音語種的語音情感進(jìn)行識別,取得了很好的識別結(jié)果。文獻(xiàn)[28]利用Teager-MFCC(T-MFCC)特征提取技術(shù)從語音信號中識別出被強(qiáng)調(diào)的情緒,使用高斯混合模型對這些不同的強(qiáng)調(diào)情緒進(jìn)行分類,與MFCC 特征提取技術(shù)相比,該方法具有更好的性能。目前,單模態(tài)情感識別具有識別率低、穩(wěn)定性差等局限性?;诖藛栴},“多模態(tài)”這一概念于1997年被Bigün等人提出[29],并被成功地運(yùn)用到情感識別領(lǐng)域。多模態(tài)融合的目的是通過對多種特征進(jìn)行聚合,提高語音情感的識別率和魯棒性。文獻(xiàn)[30]為區(qū)分憤怒和開心這兩種語音情感,結(jié)合文本信息對這兩種情感進(jìn)行識別,有效地解決了情感的誤判情況,提高了情感識別率。為提高傳統(tǒng)語音識別系統(tǒng)在噪聲環(huán)境下的準(zhǔn)確性和性能,文獻(xiàn)[31]提出了一種新的、非傳統(tǒng)的多模態(tài)語音識別系統(tǒng)。多模態(tài)情感識別已經(jīng)成為研究的熱點(diǎn)。

      3 語音情感數(shù)據(jù)庫

      語音情感數(shù)據(jù)庫作為情感特征提取與情感識別之間的關(guān)鍵環(huán)節(jié),是實現(xiàn)情感識別的前提。語音情感數(shù)據(jù)庫有按照獲取途徑、應(yīng)用目的、語種差異、描述模型和語音的自然度等多種劃分標(biāo)準(zhǔn),但至今國內(nèi)外還未將標(biāo)準(zhǔn)進(jìn)行統(tǒng)一。目前,比較受歡迎的劃分方法是按照情感描述模型將其劃分為離散情感模型和維度情感模型。

      3.1 離散情感模型

      離散情感模型將情感定義為人們?nèi)粘=换ブ谐R姷?、離散的、特定的幾種基本情感。離散情感模型通過判斷相鄰兩幀數(shù)據(jù)或兩個不同時刻的情感變化來衡量情感的屬性。目前,離散情感數(shù)據(jù)庫主要有德語的Emo-DB[32]、英語的Belfast[33]、瑞士的RECOLA、漢語的CASIA等,如表1所示。

      3.2 維度情感模型

      維度情感模型將情感定義為連續(xù)情感空間中的不同坐標(biāo)點(diǎn),每一個空間維度都代表了不同的心理學(xué)屬性且其數(shù)值大小與其在相應(yīng)維度上表現(xiàn)出的強(qiáng)度呈映射關(guān)系。維度情感模型根據(jù)維度的多少可以分別用向量和張量來表示,且不同情感狀態(tài)彼此間的相似度和差異性可以根據(jù)它們在空間中的距離來衡量。維度情感數(shù)據(jù)庫相對離散情感數(shù)據(jù)庫來說只占少數(shù),目前存在的主要有VAM[34]、Semaine[35]等,如表1所示。

      維度情感模型的代表性維度理論有一維情感模型、二維情感模型、三維情感模型和其他多維度情感模型。一維情感模型用一根實數(shù)軸來量化情感,正半軸表示快樂,負(fù)半軸表示不快樂。二維情感模型從極性和強(qiáng)度兩個維度區(qū)分情感,這種情感描述比較符合人們對客觀世界的基本看法。三維情感模型主要有PAD[36],其中PAD三維情感模型是當(dāng)前受歡迎度較高的一種三維情感模型,能夠描述絕大多數(shù)的情感,其中P代表愉悅度,A代表喚醒度,D代表優(yōu)勢度。對于多維情感模型主要有Izard四維模型、Krech四維模型和Frijda六維情感模型等。

      表1 語音情感數(shù)據(jù)庫

      3.3 離散-維度情感模型

      離散情感模型和維度情感模型各有優(yōu)劣,前者簡潔明確、容易上手,但描述能力有限;后者有更強(qiáng)的描述能力,但模型轉(zhuǎn)換的復(fù)雜度較高。基于此問題,為了探索離散情感模型與維度情感模型之間的聯(lián)系,文獻(xiàn)[37]建立了一種離散標(biāo)簽與維度空間結(jié)合的漢語情感語音數(shù)據(jù)庫。該數(shù)據(jù)庫由16名說話人對文本語料進(jìn)行表演錄制而得,5 376條語音樣本共包含7種情感。通過從情感的一致性、集中性、差異性以及情感識別率這四個方面來分析數(shù)據(jù)庫的情感質(zhì)量。該數(shù)據(jù)庫的情感一致性較高,且情感之間具有較明顯的可區(qū)分性。

      4 語音情感識別算法

      語音情感識別一直是一個備受關(guān)注的研究領(lǐng)域。人類情感的表達(dá)是通過多種形式同時進(jìn)行的,如通過脈搏、心率等難以觀測到的內(nèi)在信息和語音、面部表情等易于自然觀測到的外在信息。情感計算理論的提出就是賦予計算機(jī)感知理解和表達(dá)情感的能力,以推動人機(jī)交互技術(shù)的進(jìn)一步發(fā)展。情感識別算法作為語音情感識別系統(tǒng)中的關(guān)鍵一環(huán),在整個系統(tǒng)中起著舉足輕重的作用。為提高語音情感識別的準(zhǔn)確率和效率,科研人員在神經(jīng)網(wǎng)絡(luò)發(fā)展(如圖1 所示)的基礎(chǔ)上提出了諸多優(yōu)秀的算法并對其中的一些算法進(jìn)行了改進(jìn)。

      目前,語音情感識別算法根據(jù)模式識別分為模板匹配法、概率統(tǒng)計法和辨別分類器;還可劃分為以隱馬爾可夫模型[38](Hidden Markov Model,HMM)、高斯混合模型[39](Gaussian Mixed Model,GMM)和K 近鄰法[40](K-Nearst Neighbors,KNN)為代表的基于統(tǒng)計的分類器和以人工神經(jīng)網(wǎng)絡(luò)[41]、決策樹[42]和支持向量機(jī)[43](Support Vector Machine,SVM)為代表的基于判別的分類器。本文將分別從基于傳統(tǒng)機(jī)器學(xué)習(xí)算法和基于深度學(xué)習(xí)算法兩個方面對語音情感識別算法進(jìn)行闡述,并且對不同類型的情感識別方法綜合性能進(jìn)行了總結(jié)分析,如表2所示。

      圖1 神經(jīng)網(wǎng)絡(luò)的發(fā)展示意圖

      表2 不同類型的情感識別方法綜合性能分析

      HMM是用來描述一個含有未知參數(shù)的馬爾可夫過程的統(tǒng)計模型,創(chuàng)立于20 世紀(jì)70 年代,并在20 世紀(jì)80年代得到了傳播和發(fā)展,目前已成功地用于語音情感識別。HMM 適合于時序序列的識別且系統(tǒng)的擴(kuò)展性好,只需對新樣本進(jìn)行訓(xùn)練,但HMM對語音情感數(shù)據(jù)的擬合功能一般,受音位信息的影響較大且對鄰近情感的區(qū)分性差。針對HMM 識別語音情感的缺陷,文獻(xiàn)[44]提出了一種改進(jìn)的HMM/RBF混合模型識別方法,將神經(jīng)預(yù)測器引入HMM 計算狀態(tài)觀察概率,使得HMM 能夠有效利用幀間信息。

      GMM是一種將一個事物分解為若干的基于高斯概率密度函數(shù)來描述語音特征矢量的模型,該模型已經(jīng)在語音識別等領(lǐng)域取得了巨大的成功。GMM的優(yōu)點(diǎn)是對語音情感數(shù)據(jù)的擬合能力較高且其魯棒性高于HMM,缺點(diǎn)是模型的價數(shù)過高、對訓(xùn)練數(shù)據(jù)的依賴性強(qiáng)。基于此缺點(diǎn),文獻(xiàn)[45]提出一種基于改進(jìn)GMM 模型的語音情感識別方法,通過用矢量量化誤差值取代傳統(tǒng)的輸出概率值來計算模型的得分,使得建模時所需訓(xùn)練數(shù)據(jù)量減少,并且識別速度有所提高。

      KNN是數(shù)據(jù)挖掘分類技術(shù)中最簡單的機(jī)器學(xué)習(xí)算法之一,其核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別且具有這個類別上樣本的特性。文獻(xiàn)[46]基于KNN 比較了四種不同加權(quán)函數(shù)對情感識別率的影響,最高識別率達(dá)到81.4%。KNN 算法易于實現(xiàn),較符合語音情感數(shù)據(jù)的分布特性,對語音情感數(shù)據(jù)的擬合能力較高,但其計算量較大。

      SVM于1964年被提出,在20世紀(jì)90年代后得到了迅速發(fā)展并衍生出一系列改進(jìn)和擴(kuò)展的算法。SVM是建立在結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則的基礎(chǔ)上對數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對學(xué)習(xí)樣本求解的最大邊距超平面。SVM 適合于小樣本訓(xùn)練集,對語音情感數(shù)據(jù)的擬合能力較高,能較好地解決局部值問題以實現(xiàn)全局最優(yōu),但SVM 在多分類問題中存在不足。文獻(xiàn)[47]提出一種自適應(yīng)的SVM增量算法,有效解決了增量數(shù)據(jù)和大規(guī)模數(shù)據(jù)問題;文獻(xiàn)[48]提出的基于決策樹和改進(jìn)SVM 混合模型有效地避免了無界泛化誤差、分類器數(shù)目多、受限優(yōu)化等問題;文獻(xiàn)[49]提出一種基于典型相關(guān)性分析的改進(jìn)模糊支持向量機(jī)算法,解決了語音特征參數(shù)對某類情感具有不確定性的問題。

      隨著深度學(xué)習(xí)的發(fā)展,科研人員將更多的注意力轉(zhuǎn)移到直接從原始數(shù)據(jù)中自動學(xué)習(xí)最佳特征的研究中。深度學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。大多數(shù)情感識別算法都是基于監(jiān)督學(xué)習(xí),且其典型代表算法有深度神經(jīng)網(wǎng)絡(luò)[50](Deep Neural Network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)[51](Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)[52](Recurrent Neural Network,RNN)等。

      DNN 由機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)發(fā)展而來,模仿人腦的機(jī)制來解釋數(shù)據(jù),結(jié)構(gòu)是含多隱層的多層感知器,是深度學(xué)習(xí)的基礎(chǔ)。深度神經(jīng)網(wǎng)絡(luò)最早被應(yīng)用在語音識別領(lǐng)域,近年來,隨著模式識別的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在語音情感識別方面取得了巨大的突破,并且在情感識別領(lǐng)域衍生出許多新的DNN框架。

      CNN 是一類包含卷積計算且具有稀疏連接、參數(shù)共享和相等表示特性的前饋神經(jīng)網(wǎng)絡(luò),能夠按其階層結(jié)構(gòu)對輸入信息進(jìn)行平移不變分類,是模式識別中應(yīng)用最多、最成功的一種前饋神經(jīng)網(wǎng)絡(luò)。CNN 的研究始于20世紀(jì)80 年代,最早被廣泛應(yīng)用于圖像識別領(lǐng)域且取得了巨大的成功。21世紀(jì)后,隨著深度學(xué)習(xí)的迅速發(fā)展以及GPU 計算能力的提升,CNN 被廣泛應(yīng)用于計算機(jī)視覺、模式識別等領(lǐng)域,現(xiàn)已延伸到語音識別領(lǐng)域?qū)η楦羞M(jìn)行判別。CNN有很強(qiáng)的泛化能力、特征分類效果好,但其容易出現(xiàn)梯度消散問題。文獻(xiàn)[53]提出一種改進(jìn)的CNN的語音情感識別方法,改進(jìn)了CNN訓(xùn)練過程中卷積核權(quán)值的更新算法,使卷積核權(quán)值的更新算法與迭代次數(shù)相關(guān)聯(lián),提高了卷積神經(jīng)網(wǎng)絡(luò)的表達(dá)能力。

      RNN 的研究始于20 世紀(jì)80 到90 年代,并在21 世紀(jì)發(fā)展為深度學(xué)習(xí)算法之一,具有良好的記憶性和參數(shù)共享性。除此之外,RNN 對非線性特征學(xué)習(xí)時具有一定的優(yōu)勢,在處理時序數(shù)據(jù)時比CNN 有更好的表達(dá)能力,但普通的RNN 隨著時間的延長可能會出現(xiàn)梯度消失問題。文獻(xiàn)[54]采用代價敏感交叉熵?fù)p失訓(xùn)練的多任務(wù)深雙向長短期記憶RNN 對這些標(biāo)簽進(jìn)行聯(lián)合建模,證明了提出的方法在RECOLA 數(shù)據(jù)集上實現(xiàn)了有競爭力的純音頻性能,并為持續(xù)的情緒識別提供了一種替代方法。

      5 語音情感識別的應(yīng)用

      語音情感識別是一門涉及數(shù)字信號處理、數(shù)理統(tǒng)計、計算機(jī)學(xué)科、神經(jīng)科學(xué)、心理學(xué)以及情感學(xué)等多種學(xué)科融合交叉的新興領(lǐng)域。隨著人工智能的興起,語音情感識別技術(shù)取得了巨大的突破且被應(yīng)用到多種領(lǐng)域,已經(jīng)走進(jìn)了人們的生活。

      在教育領(lǐng)域[55],可以通過語音情感識別系統(tǒng)實時掌握學(xué)生的情感狀態(tài),利用其對情感特有的分析辨別能力,實時分析系統(tǒng)接收到的學(xué)生回復(fù),及時地了解和把握學(xué)生的真實情感狀態(tài),從而迅速做出反饋并進(jìn)行調(diào)整,大大增強(qiáng)了課堂效果和提高了學(xué)生的學(xué)習(xí)效率。例如,傳統(tǒng)的授課方式無法讓教師時刻了解學(xué)生的課堂狀態(tài),而語音情感識別系統(tǒng)可以通過學(xué)生在課堂回答問題時的語音情感推斷出其處于積極、自信、消極或者緊張等情感狀態(tài)并將其進(jìn)行情感分類,然后教師可針對其情感狀態(tài)進(jìn)行一對一的情感互動,鼓勵并促進(jìn)學(xué)生進(jìn)行高效的學(xué)習(xí)。文獻(xiàn)[56]面向本科教育進(jìn)行了一次語音情感識別實驗,結(jié)果表明語音情感識別有助于激發(fā)學(xué)生的學(xué)習(xí)興趣,加深學(xué)生對知識的理解并有助于開拓學(xué)生和科研工作者的思路。目前,騰訊、百度和科大訊飛等公司都將基于情感識別的智能化教育作為其未來發(fā)展方向之一。

      在醫(yī)學(xué)領(lǐng)域[57],面對諸多醫(yī)患之間無法溝通交流的現(xiàn)象,語音情感識別系統(tǒng)發(fā)揮了極其重要的作用。當(dāng)遇到情緒波動、抗拒交談或是精神受創(chuàng)、難以溝通的患者,語音情感識別系統(tǒng)將會迅速做出反應(yīng)并分析患者此刻的心理狀態(tài),與患者進(jìn)行情感的互動,平復(fù)患者的情緒;對于獨(dú)自居家的老人,語音情感系統(tǒng)同樣會自動識別老人的情緒波動,與其進(jìn)行有效地溝通,通過精神的慰藉和力所能及的幫助,盡量為老人們營造健康的生活環(huán)境。南通市腫瘤醫(yī)院[58]設(shè)計了一種基于語音分析的腫瘤病人心理情感的判斷系統(tǒng),針對不同病人的不同心理特點(diǎn)進(jìn)行不同的護(hù)理干預(yù)以促進(jìn)腫瘤病人的身心健康恢復(fù),同時也減輕了護(hù)理人員的工作負(fù)擔(dān)。文獻(xiàn)[59]針對心理咨詢和性格分析進(jìn)行了語音情感研究,有助于專家及時給出性格分析結(jié)果和心理咨詢建議。由此可見,無論是病患還是老人,亦或是精神障礙患者等,語音情感識別的存在,在很大程度上改善了這些問題。

      在服務(wù)領(lǐng)域[60],許多企業(yè)、平臺、商家等,為節(jié)約成本,很早便采用了人工客服的方式。普通的人工客服只會機(jī)械性、重復(fù)性地回答客戶的問題和需求,不能做到靈活變通,從而致使部分客戶產(chǎn)生抵觸的情緒,導(dǎo)致客源的損失。而語音情感識別將會對此采取針對性的分析,當(dāng)監(jiān)測出客戶情緒有負(fù)面波動時,則及時切換人工客服進(jìn)行協(xié)調(diào),有效地減少了客源損失量。同樣的,語音情感識別會在適當(dāng)情況下提醒服務(wù)人員,幫助其調(diào)節(jié)情緒,諸如人工客服、出租車司機(jī)、導(dǎo)游等,在面對蠻橫無禮的服務(wù)對象時,情緒易產(chǎn)生較大的波動,語音情感識別的提醒和幫助會讓其在工作減少許多沖突,從而使服務(wù)人員盡快調(diào)整恢復(fù)情緒。例如通過問卷調(diào)查或者訪談的方式不僅耗費(fèi)大量的人力物力而且不一定能恢復(fù)顧客的滿意度,文獻(xiàn)[61]設(shè)計了一種情感服務(wù)交互系統(tǒng),通過與顧客的交談及時判斷出顧客的情感狀態(tài)并及時作出適當(dāng)?shù)亩嘣姆?wù)補(bǔ)救措施以提高客戶對服務(wù)的滿意度。除上述領(lǐng)域外,語音情感識別在智能娛樂[62]、電子商務(wù)[63]、汽車駕駛[64]、輔助測謊[65]和人機(jī)交互[66]等應(yīng)用程序非常重要。

      6 語音情感識別的挑戰(zhàn)

      語音情感識別技術(shù)在社會發(fā)展的浪潮中不斷前行,人工智能的發(fā)展帶動著語音情感識別逐步達(dá)到更高的水平,然而同其他高端科技一樣,在到達(dá)一定階段后,語音情感識別終究是迎來了技術(shù)的“瓶頸期”。從語音情感識別的預(yù)處理階段到特征提取階段,再到情感識別階段,每個階段都面臨著一些全新的挑戰(zhàn)。

      在預(yù)處理階段,語音情感識別系統(tǒng)的數(shù)據(jù)采集系統(tǒng)還不夠完善,帶有噪聲的語音信號會極大地改變聲學(xué)特征的分布規(guī)律且無法長期精準(zhǔn)地對情緒狀態(tài)進(jìn)行追蹤,不同性別、不同年齡的說話者以及不同的采集方式帶來的聲學(xué)變異均會對特征選擇的結(jié)果造成一定的影響。人類的情感是通過多種形式同時進(jìn)行的,單模態(tài)的數(shù)據(jù)采集會影響最終的情感識別率,而多模態(tài)的數(shù)據(jù)采集又會造成維度的“爆炸式”增長,對下一步的特征提取帶來麻煩。

      在特征提取階段,語音信號中含有豐富的情感信息,目前還不清楚什么種類的特征對情感的差異性最具有區(qū)分性且特征提取手段極其局限;其次,無法找到與識別目標(biāo)有明確相關(guān)的、深層次的情感特征;此外,由于不同國家的文化和語言特色的差異等,情感的表達(dá)特征也不盡相同,對于樣本較少的數(shù)據(jù)集,其提取到的特征數(shù)量有限,最終導(dǎo)致無法達(dá)到滿意的識別效果。

      在情感識別階段,同樣無法明確地找到有效的情感識別方法。除了缺乏統(tǒng)一規(guī)范的漢語情感語料庫,如何有效地對語言障礙、方言障礙以及遠(yuǎn)程通話中的語音情感進(jìn)行識別也是情感識別領(lǐng)域面臨的一大挑戰(zhàn),當(dāng)被觀察者意識到自己正在接受語音情感識別的實驗時,往往會因為各種因素或隱私問題,刻意調(diào)整或試圖抑制自己的真實情緒,從而在一定程度上影響識別的真實有效性。除此之外,隨著深度學(xué)習(xí)的廣泛應(yīng)用,如何利用該方法對語音情感進(jìn)行更加精準(zhǔn)、系統(tǒng)的識別,將成為研究人員又一大關(guān)注要點(diǎn)和需要攻克的難題。除上面所述,缺乏一個統(tǒng)一、權(quán)威的語音情感數(shù)據(jù)庫的建設(shè)標(biāo)準(zhǔn)也是人機(jī)交互領(lǐng)域面臨的一大難題。

      7 研究展望

      語音情感識別經(jīng)過幾十年的發(fā)展已經(jīng)取得了長足的發(fā)展,但距離真正的自然人機(jī)交互還有很長的路要走。首先是高質(zhì)量情感語料庫的缺乏。截止目前雖有不少語料庫被建立,但它們往往局限于某種單一語言且數(shù)量較少,并且由于情感本身的復(fù)雜性,這些語料往往質(zhì)量不高。但眾所周知,一個質(zhì)量和數(shù)量兼?zhèn)涞恼Z料庫是語言情感識別技術(shù)研究必不可少的基礎(chǔ)。由此可見,無論語言情感識別技術(shù)向何處發(fā)展,建立一個經(jīng)過系統(tǒng)整合、內(nèi)容豐富且高質(zhì)量的語料庫是必然要求。其次是情感識別建模的問題。由于語言符號和語言思維之間具有一種天然的不對稱性,建立一個高效合理的語言情感識別模型是研究的重點(diǎn)。這個模型以語料庫為基礎(chǔ)進(jìn)行大數(shù)據(jù)式的訓(xùn)練,建立一種聯(lián)通聲學(xué)特征和情感狀態(tài)的映射通路,進(jìn)而實現(xiàn)對語料情感狀態(tài)的判斷和識別。但是由于情感的復(fù)雜性,人類對大腦的情感處理機(jī)制認(rèn)識有限,尚未有一種高效可靠的情感識別模型被建立[67-69]。因而,腦學(xué)科和計算機(jī)的交融研究也就成為一種必然趨勢,沒有對人腦的高度認(rèn)識就不可能有高效的情感識別建模??傊?,建立系統(tǒng)高質(zhì)量的語料庫和可靠的情感識別模式是未來語音情感識別發(fā)展的必然方向。

      猜你喜歡
      語音特征情感
      如何在情感中自我成長,保持獨(dú)立
      失落的情感
      北極光(2019年12期)2020-01-18 06:22:10
      如何表達(dá)“特征”
      情感
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      不忠誠的四個特征
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      如何在情感中自我成長,保持獨(dú)立
      大渡口区| 汨罗市| 上犹县| 汝阳县| 长阳| 体育| 资兴市| 古交市| 信丰县| 武强县| 沽源县| 抚顺市| 巴彦淖尔市| 含山县| 芜湖县| 桦川县| 卢湾区| 怀仁县| 本溪| 道孚县| 顺昌县| 荔浦县| 靖安县| 呼伦贝尔市| 荔波县| 新余市| 巴林左旗| 循化| 玛沁县| 大姚县| 刚察县| 寿光市| 襄汾县| 夹江县| 定州市| 沅江市| 杨浦区| 蓬安县| 仙游县| 西充县| 邓州市|