• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于一致性圖卷積模型的多模態(tài)對(duì)話情緒識(shí)別

      2023-10-17 12:07:01譚曉聰郭軍軍線巖團(tuán)相艷
      計(jì)算機(jī)應(yīng)用研究 2023年10期
      關(guān)鍵詞:情感分析多模態(tài)

      譚曉聰 郭軍軍 線巖團(tuán) 相艷

      摘 要:多模態(tài)對(duì)話情緒識(shí)別是一項(xiàng)根據(jù)對(duì)話中話語(yǔ)的文本、語(yǔ)音、圖像模態(tài)預(yù)測(cè)其情緒類別的任務(wù)。針對(duì)現(xiàn)有研究主要關(guān)注話語(yǔ)上下文的多模態(tài)特征提取和融合,而沒有充分考慮每個(gè)說話人情緒特征利用的問題,提出一種基于一致性圖卷積網(wǎng)絡(luò)的多模態(tài)對(duì)話情緒識(shí)別模型。該模型首先構(gòu)建了多模態(tài)特征學(xué)習(xí)和融合的圖卷積網(wǎng)絡(luò),獲得每條話語(yǔ)的上下文特征;在此基礎(chǔ)上,以說話人在完整對(duì)話中的平均特征為一致性約束,使模型學(xué)習(xí)到更合理的話語(yǔ)特征,從而提高預(yù)測(cè)情緒類別的性能。在兩個(gè)基準(zhǔn)數(shù)據(jù)集IEMOCAP和MELD上與其他基線模型進(jìn)行了比較,結(jié)果表明所提模型優(yōu)于其他模型。此外,還通過消融實(shí)驗(yàn)驗(yàn)證了一致性約束和模型其他組成部分的有效性。

      關(guān)鍵詞:多模態(tài);情緒識(shí)別;一致性約束;圖卷積網(wǎng)絡(luò);情感分析

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-033-3100-07

      doi:10.19734/j.issn.1001-3695.2023.02.0064

      Consistency based graph convolution network for multimodal emotion recognition in conversation

      Tan Xiaoconga,Guo Junjuna,b,Xian Yantuana,b,Xiang Yana,b

      (a.Faculty of Information Engineering & Automation,b.Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science & Technology,Kunming 650500,China)

      Abstract:Multimodal emotion recognition in conversations (MERC) is a task to predict the emotional category of the discourse in a dialogue based on its textual,audio,and visual modality.Existing studies focus on multimodal feature extraction and fusion of discourse context without fully considering the utilization of emotional features of different speakers.Therefore,this paper proposed a model of multimodal dialogue emotion recognition based on a consistent graph convolutional network.The model first constructed a graph convolutional network of multimodal feature learning and fusion,and obtained the context features of each discourse.On this basis,the average features of the speaker in the complete dialogue as the constraint to make the model learn more reasonable discourse features,so as to improve the performance of predicting emotion class.The paper compared with other baseline models on two benchmark datasets IEMOCAP and MELD.And the results show that the proposed model is superior to the other models.In addition,the paper verifies the consistency constraints and other components of the model through ablation experiments.

      Key words:multimodal;emotion recognition;consistency constraint;graph convolution network;sentiment analysis

      0 引言

      隨著社交媒體的快速發(fā)展,對(duì)話中的多模態(tài)情緒識(shí)別(multimodal emotion recognition in conversation,MERC)受到學(xué)術(shù)界越來越多的關(guān)注,該任務(wù)旨在根據(jù)對(duì)話中話語(yǔ)的文本、語(yǔ)音、圖像、模態(tài)信息預(yù)測(cè)其情緒類別。由于對(duì)話本身具有多種要素,多模態(tài)對(duì)話情緒識(shí)別需要綜合考慮多種模態(tài)信息的提取和交互,以及對(duì)話中的上下文、說話人等信息的利用。在多模態(tài)信息的利用方面,研究者常常關(guān)注不同模態(tài)特征的表征和融合策略。例如Tsai等人[1]采用基于Transformer的框架對(duì)不同模態(tài)的特征進(jìn)行抽?。晃墨I(xiàn)[2,3]提出基于張量融合網(wǎng)絡(luò)對(duì)不同的模態(tài)信息進(jìn)行融合。在對(duì)話情緒識(shí)別(emotion recognition in conversation,ERC)方面,現(xiàn)有工作主要考慮對(duì)話中不同話語(yǔ)和模態(tài)表征的關(guān)系。例如文獻(xiàn)[4,5]提出基于圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)的模型,通過圖卷積網(wǎng)絡(luò)的節(jié)點(diǎn)特征傳遞和學(xué)習(xí)機(jī)制可以解決不同話語(yǔ)的長(zhǎng)距離依賴和話語(yǔ)模態(tài)特征融合問題,協(xié)助完成情緒分類。但該模型對(duì)模態(tài)進(jìn)行平等的融合,會(huì)產(chǎn)生一定的信息冗余。此外,與傳統(tǒng)的獨(dú)白演講等情感識(shí)別不同,對(duì)話中個(gè)體的話語(yǔ)關(guān)系和語(yǔ)境建模有助于情緒識(shí)別。對(duì)話中的語(yǔ)境可歸納為歷史話語(yǔ)、會(huì)話中的時(shí)間性或說話人相關(guān)信息等。Li等人[6]提出可以從說話人的音頻信息中提取個(gè)性化信息。Hu等人[5]構(gòu)建了一種說話人編碼器來區(qū)分不同的說話人。然而,這些模型在上下文信息提取方面的處理成本較高,或者具有說話人特征學(xué)習(xí)的局限性。

      Wang等人[7]指出,對(duì)話中每個(gè)說話人具有自我依賴關(guān)系,即在情感慣性的影響下,說話人傾向于保持一種相對(duì)穩(wěn)定的情緒狀態(tài)。在表1所示的一段節(jié)選對(duì)話中有兩個(gè)說話人,說話人B提出了一個(gè)針對(duì)說話人A丟失行李箱的補(bǔ)償方案。雖然說話人B的話語(yǔ)中有“bad”“frustrating”等負(fù)面情感詞,但他在整個(gè)談話過程中基本保持中性的情緒。本文統(tǒng)計(jì)了兩個(gè)多模態(tài)數(shù)據(jù)集中,說話人在對(duì)話中穩(wěn)定情緒的比例(說話者穩(wěn)定情緒比例的計(jì)算過程為:a)計(jì)算某段對(duì)話中說話者出現(xiàn)次數(shù)最多的情緒類別的話語(yǔ)數(shù)目,除以他在整個(gè)對(duì)話中總的話語(yǔ)數(shù)量;b)計(jì)算整個(gè)數(shù)據(jù)集中所有說話人所有對(duì)話中這個(gè)比例的平均值),數(shù)據(jù)集IEMOCAP[8]比值為68%,MELD[9]比值為72%??梢钥闯?,在一段對(duì)話中,同一個(gè)說話人的情緒特征呈現(xiàn)一定的整體一致性,即同一個(gè)說話人的情緒特征在特征空間中應(yīng)該具有一定的相似性。

      基于以上分析可以看出,利用同一個(gè)說話人的情緒特征相似性作為指導(dǎo)將有助于情緒判別?,F(xiàn)有研究雖然注意到說話人個(gè)性信息對(duì)于MERC的作用,但沒有充分考慮說話人情緒特征的整體一致性。為此,本文提出了一種基于一致性的多模態(tài)圖卷積網(wǎng)絡(luò)(consistency based multimodal graph convolution network,CMGCN)模型。CMGCN根據(jù)兩個(gè)話語(yǔ)是否屬于同一對(duì)話,以及是否具有模態(tài)特征相似性來構(gòu)建多關(guān)系圖,采用圖卷積網(wǎng)絡(luò)對(duì)不同模態(tài)的信息進(jìn)行信息傳遞和融合;同時(shí),將話語(yǔ)情緒特征和對(duì)應(yīng)說話人平均情緒特征的相似度作為一致性損失加入模型,以約束模型調(diào)整話語(yǔ)的特征學(xué)習(xí);最后,利用調(diào)整后的情緒特征進(jìn)行分類。通過大量的實(shí)驗(yàn)表明,CMGCN在兩個(gè)公共數(shù)據(jù)集上優(yōu)于基線模型,并且一致性有益于MERC。

      1 相關(guān)工作

      1.1 多模態(tài)情緒識(shí)別

      在多模態(tài)情緒分析中,研究的重點(diǎn)是如何提取和融合不同的模態(tài)信息。非對(duì)齊多模態(tài)語(yǔ)言序列模型的多模態(tài)Transformer(multimodal transformer for unaligned multimodal language sequences model,MulT)[1]通過端到端方式處理數(shù)據(jù)對(duì)齊、跨模態(tài)元素之間的長(zhǎng)期依賴關(guān)系?;诙嗄B(tài)Transformer的seq2seq模型(multi-modal seq2seq model,MMS2S)[10]使用三個(gè)單峰編碼器來捕獲文本、視覺和聲學(xué)模態(tài)的單模態(tài)特性,并使用多頭軟模態(tài)注意來控制不同模態(tài)的貢獻(xiàn)。張量融合網(wǎng)絡(luò)(tensor fusion network,TFN)[3]通過矩陣運(yùn)算來融合特征。對(duì)每個(gè)模態(tài)進(jìn)行維數(shù)展開,然后用不同模態(tài)的張量笛卡爾積來計(jì)算不同模態(tài)之間的相關(guān)性。記憶融合網(wǎng)絡(luò)(memory fusion network,MFN)[11]利用LSTM分別對(duì)模態(tài)內(nèi)部進(jìn)行建模,然后利用delta記憶注意網(wǎng)絡(luò)和多視圖門控記憶對(duì)不同模態(tài)之間的信息進(jìn)行建模,可以保存多模態(tài)交互信息,得到更好的預(yù)測(cè)效果。

      在模態(tài)信息融合方面,可以分為模型無關(guān)的融合方法和基于模型的融合方法[12]。其中模型無關(guān)的方法較簡(jiǎn)單但實(shí)用性低,可以分為早期融合(特征級(jí)融合[13])、晚期融合(決策級(jí)融合)、混合融合;其中基于模型的融合方法較多,例如宋云峰等人[14]利用跨模態(tài)注意力機(jī)制融合兩兩模態(tài)。深度特征融合模型(deep feature fusion-audio and text modality fusion,DFF-ATMF)[15]通過多特征向量和多模態(tài)注意機(jī)制融合語(yǔ)音模態(tài)和文本模態(tài)。層次特征融合網(wǎng)絡(luò)(hierarchical feature fusion network,HFFN)[2]通過雙向跳躍連接的LSTM直接連接局部交互,并整合了兩層注意機(jī)制,以獲得多模態(tài)的整體視圖。此外,對(duì)話圖卷積模型DialogueGCN[4]使用圖卷積網(wǎng)絡(luò)來獲取遠(yuǎn)距離上下文信息;深度圖卷積多模態(tài)融合模型(multimodal fusion via deep graph convolution,MMGCN)[5]同樣構(gòu)造了一個(gè)圖網(wǎng)絡(luò)來建模不同的模態(tài)數(shù)據(jù)。利用圖卷積網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)信息傳輸?shù)奶卣?,可以很好地解決長(zhǎng)距離依賴性和模態(tài)融合問題。

      1.2 對(duì)話情緒識(shí)別

      隨著ERC的應(yīng)用越來越廣泛,出現(xiàn)了較多基于對(duì)話形式的情緒識(shí)別模型,包括會(huì)話記憶網(wǎng)絡(luò)(conversational memory network,CMN)模型[16]、交互式對(duì)話記憶網(wǎng)絡(luò)(interactive conversational memory network,ICON)模型[17]、對(duì)話循環(huán)神經(jīng)網(wǎng)絡(luò)模型DialogueRNN[18]、以及基于常識(shí)知識(shí)的對(duì)話情緒識(shí)別(commonsense knowledge for emotion identification in conversations,COSMIC)模型[19]等。這些方法的主要思路是在文本模態(tài)情境下對(duì)上下文對(duì)話信息進(jìn)行建模。

      研究人員指出,不同說話人的話語(yǔ)應(yīng)該被區(qū)別對(duì)待。會(huì)話記憶網(wǎng)絡(luò)CMN[16]通過注意機(jī)制對(duì)每個(gè)說話人的歷史話語(yǔ)和當(dāng)前話語(yǔ)的表征進(jìn)行整合,進(jìn)行話語(yǔ)情感分類,從而模擬了說話人個(gè)體的狀態(tài)以及不同說話人狀態(tài)對(duì)當(dāng)前話語(yǔ)的影響。與CMN類似,交互式會(huì)話記憶網(wǎng)絡(luò)ICON[17]利用兩個(gè)依賴于說話人的GRU和一個(gè)全局GRU來跟蹤整個(gè)對(duì)話過程中情緒狀態(tài)的變化,并利用一個(gè)多層記憶網(wǎng)絡(luò)來模擬全局情緒狀態(tài)。DialogueRNN[18]則通過一個(gè)具有注意機(jī)制的RNN來模擬說話人之間的情緒影響,并使用三個(gè)GRU來分別捕獲說話人之前的話語(yǔ)信息、上下文和情感信息。此外,深度圖卷積多模態(tài)融合模型MMGCN[5]增加了說話人身份嵌入,在一定程度上增強(qiáng)了情感表征,但這種嵌入只能區(qū)分不同的說話人,而不能區(qū)分同一說話人的不同話語(yǔ)之間的關(guān)系。

      1.3 圖卷積網(wǎng)絡(luò)

      圖卷積網(wǎng)絡(luò)由于其具有處理非歐幾里德數(shù)據(jù)的能力,在過去的幾年中得到了廣泛應(yīng)用。主流GCN方法可分為譜域法和非譜域法[20]。譜域GCN方法[21]是基于拉普拉斯譜分解理論,只能處理無向圖。非譜域GCN方法[22]可以應(yīng)用于有向圖和無向圖,但消耗更大的計(jì)算資源。近來研究人員提出了在不過度平滑的情況下加深譜域GCN的方法[23]。GCN在MERC任務(wù)上也有所應(yīng)用,例如MMGCN模型使用具有深層的譜域GCN對(duì)多模態(tài)圖進(jìn)行編碼,取得了較好的結(jié)果。但是該模型在對(duì)上下文進(jìn)行建模時(shí),僅考慮相同模態(tài)下相同對(duì)話、不同模態(tài)下相同話語(yǔ)的關(guān)系,而忽略了相同模態(tài)下不同對(duì)話、不同模態(tài)下不同話語(yǔ)之間的關(guān)系。

      根據(jù)上述分析可以看出,多模態(tài)情緒識(shí)別側(cè)重于不同模態(tài)特征的提取與模態(tài)特征融合,而對(duì)話情緒識(shí)別需要考慮話語(yǔ)上下文的信息。因此,本文模型同時(shí)考慮了不同模態(tài)特征的學(xué)習(xí)和交互,以及話語(yǔ)上下文特征的提取,以更好地完成MERC任務(wù)。

      2 本文模型

      2.1 問題定義

      給定多模態(tài)對(duì)話數(shù)據(jù)集,每個(gè)數(shù)據(jù)集中有若干個(gè)對(duì)話(dialogue),每個(gè)對(duì)話包含若干個(gè)話語(yǔ)(utterance),則整個(gè)數(shù)據(jù)集有N個(gè)話語(yǔ),每個(gè)話語(yǔ)均有語(yǔ)音(a)、文本(t)、圖像(v)三種模態(tài)信息。ERC的任務(wù)是識(shí)別出第i個(gè)話語(yǔ)ui的情緒類別標(biāo)簽i。

      2.2 模型整體結(jié)構(gòu)

      本文模型分為三個(gè)主要模塊,圖1所示為模型的總體框架。

      a)基于圖的特征學(xué)習(xí)模塊。在這個(gè)模塊中,將數(shù)據(jù)集中的所有話語(yǔ)作為節(jié)點(diǎn),并根據(jù)節(jié)點(diǎn)之間的不同關(guān)系構(gòu)建圖鄰接矩陣,使用圖卷積機(jī)制來傳遞每個(gè)節(jié)點(diǎn)的單模態(tài)特征,以對(duì)上下文依賴關(guān)系進(jìn)行編碼。將一個(gè)節(jié)點(diǎn)的三個(gè)單模態(tài)特征相結(jié)合,得到其綜合的特征。

      b)說話人一致性約束模塊。在該模塊中,計(jì)算對(duì)話中屬于同一說話人的話語(yǔ)的平均特征,令屬于說話人的每個(gè)話語(yǔ)的特征在特征空間中盡可能接近平均特征。

      c)情緒分類模塊。在該模塊中,利用每個(gè)話語(yǔ)的特征來獲得情緒類別預(yù)測(cè)結(jié)果。

      2.3 圖節(jié)點(diǎn)的初始特征

      對(duì)于某個(gè)話語(yǔ)節(jié)點(diǎn)ui,分別提取其語(yǔ)音、文本、圖像三種模態(tài)的初始節(jié)點(diǎn)特征。對(duì)于語(yǔ)音模態(tài),本文使用帶有IS10配置的OpenSmile工具包[24]對(duì)原始語(yǔ)音數(shù)據(jù)進(jìn)行特征提取,再經(jīng)過全連接網(wǎng)絡(luò)進(jìn)行編碼得到初始的音頻特征向量xa(0)i∈Euclid Math TwoRApd0;對(duì)文本模態(tài),采用RoBERTa模型進(jìn)行提取特征,然后應(yīng)用BiLSTM對(duì)文本中的上下文信息進(jìn)行編碼,得到初始的文本特征向量xt(0)i∈Euclid Math TwoRApd0;對(duì)圖像模態(tài),采用DenseNet提取人物的面部表情特征,再經(jīng)過全連接網(wǎng)絡(luò)進(jìn)行編碼得到初始圖像特征向量xv(0)i∈Euclid Math TwoRApd0;這三個(gè)初始特征包含了一個(gè)話語(yǔ)的內(nèi)部信息。對(duì)于有N個(gè)話語(yǔ)的數(shù)據(jù)集,有初始特征矩陣Χa(0),Χv(0),Χt(0)∈Euclid Math TwoRApN×d0。

      2.4 基于圖的特征學(xué)習(xí)

      將數(shù)據(jù)集中每個(gè)話語(yǔ)作為一個(gè)圖節(jié)點(diǎn),構(gòu)建圖G=(υ,ε),其中υ(|υ|=N)表示話語(yǔ)節(jié)點(diǎn),ευ×υ是節(jié)點(diǎn)之間的邊。

      2.4.1 圖鄰接矩陣的構(gòu)建

      兩個(gè)節(jié)點(diǎn)可以通過不同的邊來連接,代表三個(gè)模態(tài)特征的多重關(guān)系。本文根據(jù)以下情況計(jì)算節(jié)點(diǎn)ui、uj之間邊的權(quán)重:

      a)考慮兩個(gè)節(jié)點(diǎn)之間同種模態(tài)的特征傳遞。由于兩個(gè)節(jié)點(diǎn)的同一模態(tài)特征在同一個(gè)語(yǔ)義空間下,所以無論節(jié)點(diǎn)是否來自于同一對(duì)話,都可以進(jìn)行特征傳遞。兩個(gè)節(jié)點(diǎn)之間邊的權(quán)重用角相似度衡量。

      其中:sim(·)是余弦相似度函數(shù);xmod(0)i,xmod(0)j∈Euclid Math TwoRApd0分別表示第i和j個(gè)話語(yǔ)某種相同模態(tài)的初始特征,mod{a,t,v}。

      b)考慮兩個(gè)節(jié)點(diǎn)之間不同模態(tài)的特征傳遞,可以根據(jù)兩個(gè)節(jié)點(diǎn)是否來自于一個(gè)對(duì)話,分為兩種情況:

      (a)如果兩個(gè)節(jié)點(diǎn)來自于不同的對(duì)話,則不同模態(tài)特征不進(jìn)行傳遞,這種情況下邊的權(quán)重為0。這是因?yàn)槿N模態(tài)的初始特征抽取過程中雖然都進(jìn)行了線性變換,不同模態(tài)特征在語(yǔ)義空間中可以認(rèn)為基本對(duì)齊,但不同對(duì)話的場(chǎng)景和對(duì)話內(nèi)容差異較大,加大了不同模態(tài)之間的鴻溝,因此本文認(rèn)為這種情況下不應(yīng)該進(jìn)行特征傳遞。

      (b)如果兩個(gè)節(jié)點(diǎn)來自于相同的對(duì)話,則由于對(duì)話的主題和內(nèi)容一致,不同模態(tài)特征也是具有相關(guān)性的,需要進(jìn)行特征傳遞。兩個(gè)節(jié)點(diǎn)之間邊的權(quán)重同樣用角相似度衡量:

      其中:xmod′(0)i,xmod″(0)j∈Euclid Math TwoRApd0分別表示第i和j個(gè)話語(yǔ)不同模態(tài)的初始特征;mod′,mod″{a,t,v},mod′≠mod″。

      根據(jù)上述節(jié)點(diǎn)之間邊的權(quán)重計(jì)算方法構(gòu)建鄰接矩陣。對(duì)于某個(gè)節(jié)點(diǎn)的某種模態(tài)特征,可以構(gòu)建三種鄰接矩陣來進(jìn)行特征傳遞和學(xué)習(xí)。以節(jié)點(diǎn)的語(yǔ)音模態(tài)a的特征學(xué)習(xí)為例,如圖2所示,分別考慮語(yǔ)音模態(tài)a與自身語(yǔ)音模態(tài)a、文本模態(tài)t和圖像模態(tài)v的關(guān)系,可以構(gòu)建三種圖鄰接矩陣,始特征矩陣Χa(0)進(jìn)行更新。

      此外,對(duì)于節(jié)點(diǎn)的文本模態(tài)t的特征學(xué)習(xí),構(gòu)建了三種圖鄰接矩陣Αtt、Αta、Αtv;對(duì)于節(jié)點(diǎn)的圖像模態(tài)v的特征學(xué)習(xí),構(gòu)建了三種圖鄰接矩陣Αvv、Αva、Αvt。

      2.4.2 圖節(jié)點(diǎn)特征的學(xué)習(xí)

      本文以節(jié)點(diǎn)的語(yǔ)音模態(tài)a的特征學(xué)習(xí)為例,說明不同模態(tài)的特征學(xué)習(xí)過程。如圖2所示,將三種圖鄰接矩陣Aaa、Aat、Aav,分別與節(jié)點(diǎn)的初始語(yǔ)音特征Xa(0)進(jìn)行多層的GCN卷積,這里使用四層的GCN進(jìn)行編碼,得到更新后的三種語(yǔ)音特征Xaa(l)、Xat(l)、Xav(l)。具體過程為

      2.5 說話人一致性約束

      3 實(shí)驗(yàn)與分析

      3.1 數(shù)據(jù)集

      在IEMOCAP[8]和MELD[9]兩個(gè)多模態(tài)對(duì)話數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),兩個(gè)數(shù)據(jù)集都包含文本、圖像、音頻三種模態(tài)。如表2所示,本文將數(shù)據(jù)集大致以8:1:1的比例分為訓(xùn)練集、驗(yàn)證集與測(cè)試集。

      a)IEMOCAP。該數(shù)據(jù)集包含12 h的二元對(duì)話視頻,每個(gè)視頻都包含一個(gè)的二元對(duì)話,共有7 433條話語(yǔ)和151個(gè)對(duì)話。對(duì)話中的每一條話語(yǔ)都有六個(gè)類別的情感標(biāo)簽,包括快樂、悲傷、中性、憤怒、興奮和沮喪。

      b)MELD。該數(shù)據(jù)集同樣是一個(gè)多模態(tài)對(duì)話數(shù)據(jù)集,但MELD是一個(gè)多元的對(duì)話數(shù)據(jù)集。MELD包含了《老友記》電視劇中1 400多個(gè)對(duì)話和13 000條話語(yǔ)的文本、語(yǔ)音和圖像信息。每個(gè)對(duì)話中的每一個(gè)話語(yǔ)都被標(biāo)注為憤怒、厭惡、悲傷、快樂、驚訝、恐懼或中性七個(gè)情緒類別之一。

      3.2 實(shí)驗(yàn)設(shè)置

      本文所有實(shí)驗(yàn)在CPU為Intel I9-10900K,顯卡為NVIDIA GeForce GTX 3090的實(shí)驗(yàn)環(huán)境中進(jìn)行,深度學(xué)習(xí)框架為PyTorch。本文將初始特征維度d0設(shè)置為200,d1設(shè)置為100。通過實(shí)驗(yàn)比較,將GCN層數(shù)設(shè)置為4,dropout率設(shè)置為0.32。batchsize設(shè)置為58,epoch設(shè)置為120。使用Adam優(yōu)化器[25]優(yōu)化模型參數(shù),學(xué)習(xí)率設(shè)置為0.000 221。超參數(shù)α和η分別設(shè)置為0.1和0.5;λ1設(shè)置為0.000 03,λ2設(shè)置為0.01。

      3.3 基模型

      為了驗(yàn)證模型的有效性,本文模型與以下基線模型進(jìn)行了比較。其中文本模態(tài)的初始特征采用GloVe和RoBERTa兩種。

      a)DialogueRNN-{GloVe,RoBERTa}[18]。該模型使用了三個(gè)GRU來對(duì)說話者、來自前面話語(yǔ)的上下文和前面話語(yǔ)的情緒進(jìn)行建模,三種不同類型的GRU都是以遞歸的方式連接的。

      b)DialogueGCN-{GloVe,RoBERTa}[4]。該模型通過構(gòu)建圖卷積網(wǎng)絡(luò)對(duì)會(huì)話進(jìn)行建模,通過圖網(wǎng)絡(luò)解決了基于RNN的方法中存在的上下文傳播問題。

      c)MMGCN-{GloVe,RoBERTa}[5]。該模型提出了一種多模態(tài)的圖卷積神經(jīng)網(wǎng)絡(luò),將對(duì)話中一句話對(duì)應(yīng)三個(gè)模態(tài)的特征和說話嵌入分別進(jìn)行拼接來構(gòu)建多模態(tài)圖,之后通過多層GCN來進(jìn)行編碼,最后拼接GCN編碼后的特征和圖的節(jié)點(diǎn)初始化特征,送入一個(gè)全連接層,完成情感分類。

      d)COSMIC[19]。該模型以常識(shí)知識(shí)為基礎(chǔ)來進(jìn)行建模,從而解決對(duì)話中話語(yǔ)級(jí)別的情感識(shí)別問題,其中常識(shí)要素包括心理狀態(tài)、事件、因果關(guān)系等。模型由三部分組成:從預(yù)訓(xùn)練的Transformer語(yǔ)言模型中提取獨(dú)立于上下文的特征;從常識(shí)知識(shí)圖中提取常識(shí)特征;整合常識(shí)知識(shí)以設(shè)計(jì)更好的上下文表示并將其用于最終的情感分類。

      e)TUCORE-GCN[26]。該模型提出將對(duì)話中的情緒識(shí)別視為基于對(duì)話的關(guān)系提取任務(wù),即提取對(duì)話中出現(xiàn)的兩個(gè)參數(shù)之間的關(guān)系。通過構(gòu)建對(duì)話圖并應(yīng)用GCN機(jī)制結(jié)合BiLSTM,結(jié)合先前節(jié)點(diǎn)信息來預(yù)測(cè)結(jié)果。

      4 實(shí)驗(yàn)與討論

      4.1 與基模型的比較

      本文模型與其他基模型的實(shí)驗(yàn)結(jié)果如表3所示??梢钥闯?,本文模型在IEMOCAP和MELD數(shù)據(jù)集上都優(yōu)于其他模型。對(duì)于IEMOCAP數(shù)據(jù)集,在本文模型結(jié)合GloVe預(yù)訓(xùn)練向量的條件下,micro-F1達(dá)到67.32%,比性能第二的MMGCN提高了1.1%。本文模型結(jié)合RoBERTa的micro-F1達(dá)到67.92%,比性能第二的MMGCN-RoBERTa增加了0.66%。對(duì)于MELD數(shù)據(jù)集,在GloVe與RoBERTa預(yù)處理模型下本文模型的micro-F1分別比性能次優(yōu)的模型提高了0.74%、0.44%。

      本文進(jìn)一步比較了不同模型的表現(xiàn)。DialogueGCN-{GloVe,RoBERTa}比DialogueRNN-{GloVe,RoBERTa}有更好的性能。分析原因是,DialogueRNN-{GloVe,RoBERTa}只對(duì)單個(gè)話語(yǔ)序列進(jìn)行特征學(xué)習(xí),而DialogueGCN-{GloVe,RoBERTa}使用GCN框架獲取每個(gè)話語(yǔ)的上下文信息,從而提高了性能。MMGCN-{GloVe,RoBERTa}在DialogueGCN-{GloVe,RoBERTa}上引入了不同的模態(tài)特性,進(jìn)一步改善了模型。此外,在模型中使用RoBERTa的文本初始向量比GloVe更有效。在使用RoBERTa后,DialogueRNN、DialogueGCN和其他模型的micro-F1在IEMOCAP數(shù)據(jù)集上增加了約2%,在MELD數(shù)據(jù)集上增加了約7%。

      4.2 一致性約束的實(shí)驗(yàn)分析

      4.2.1 約束條件的消融分析

      為了研究CMGCN中一致性約束的貢獻(xiàn),將模型中的一致性損失去掉,即只用分類損失來指導(dǎo)模型進(jìn)行參數(shù)優(yōu)化。消融結(jié)果如表4所示。

      可以看出,一致性約束對(duì)于模型性能的影響較大。在去除一致性約束后,模型在兩個(gè)數(shù)據(jù)集的性能分別下降了近1%。這證明了一致性約束對(duì)于MERC作用較大。本文模型在一致性約束下能更好地捕捉每個(gè)說話人的情緒狀態(tài),提升模型預(yù)測(cè)每條話語(yǔ)情緒的能力。

      4.2.2 一致性約束中的特征分析

      本文進(jìn)一步分析了使用不同特征計(jì)算一致性約束損失對(duì)模型的影響。CMGCN使用的是GCN學(xué)習(xí)更新的特征向量來計(jì)算一致性約束損失。而CMGCNitl則使用三個(gè)模態(tài)的初始特征向量拼接來計(jì)算一致性約束損失。表5展示了實(shí)驗(yàn)結(jié)果,與CMGCNitl相比,CMGCN的micro-F1在兩個(gè)數(shù)據(jù)集上分別提高了1.38%和1.49%。分析原因可能是,經(jīng)過圖卷積學(xué)習(xí)后的節(jié)點(diǎn)特征具有更強(qiáng)的表征能力,模型使用這些節(jié)點(diǎn)特征作為一致性約束能獲得更好的情緒分類。

      4.3 鄰接矩陣的消融分析

      為了證明CMGCN中鄰接矩陣的合理性,本文使用以下方法來計(jì)算邊權(quán)重,構(gòu)造新的鄰接矩陣來進(jìn)行比較:

      a)CMGCNadj_A。在該模型的鄰接矩陣Aaa、Att、Avv中,如果兩個(gè)節(jié)點(diǎn)來自不同的對(duì)話,則將它們的邊權(quán)重置為0。其他鄰接矩陣的構(gòu)建方式保持不變。

      b)CMGCNadj_B。對(duì)于鄰接矩陣Amod′mod″,mod′≠mod″,即使兩個(gè)節(jié)點(diǎn)來自不同的對(duì)話,也使用角相似度來計(jì)算邊的權(quán)重。

      本文在兩個(gè)數(shù)據(jù)集上用新的鄰接矩陣來測(cè)試模型的性能,比較結(jié)果如表6所示。與CMGCNadj_A相比,本文模型的micro-F1得分在兩個(gè)數(shù)據(jù)集上分別增加了1.11%和1.52%。結(jié)果表明,即使兩個(gè)話語(yǔ)來自不同的對(duì)話,它們相同的模態(tài)之間也會(huì)存在相關(guān)性。因此,在這些節(jié)點(diǎn)之間傳輸相同的模態(tài)特征是有益的。同時(shí),CMGCNadj_B的micro-F1比CMGCN分別降低了1.07%和2.22%。原因可能是:如果兩個(gè)節(jié)點(diǎn)來自不同的對(duì)話,它們不同的模態(tài)之間存在語(yǔ)義差距,這種情況下不應(yīng)該進(jìn)行特征傳遞,否則過度的模態(tài)特征傳播會(huì)干擾節(jié)點(diǎn)的特征學(xué)習(xí)。

      4.4 不同模態(tài)設(shè)置對(duì)比

      為了驗(yàn)證多種模態(tài)組合下的實(shí)驗(yàn)結(jié)果,本文做了單一模態(tài)與任意兩種模態(tài)組合設(shè)置下的實(shí)驗(yàn),結(jié)果如表7所示。對(duì)基于單一模態(tài)的情緒識(shí)別模型而言,選擇某一種模態(tài)的初始特征進(jìn)行DeepGCN特征學(xué)習(xí),并用更新后的單一模態(tài)特征進(jìn)行情緒預(yù)測(cè);對(duì)基于兩種模態(tài)的情緒識(shí)別模型而言,選擇其中兩種模態(tài)的初始特征構(gòu)建鄰接矩陣,從而對(duì)兩種模態(tài)特征進(jìn)行特征學(xué)習(xí)。

      從表7的結(jié)果可以看出,當(dāng)同時(shí)使用三種模態(tài)進(jìn)行情緒預(yù)測(cè)時(shí),能獲得最優(yōu)的性能,證明了多模態(tài)設(shè)置的優(yōu)越性。在單一模態(tài)下,圖像模態(tài)表現(xiàn)最差,原因可能是圖像模態(tài)中的手勢(shì)動(dòng)作或者臉部表情并不能很好地表征當(dāng)前話語(yǔ)的情緒狀態(tài);相較于視覺模態(tài),語(yǔ)音語(yǔ)調(diào)的特征提取更能表征情緒狀態(tài),所以性能優(yōu)于基于單一圖像模態(tài)的模型;三種單一模態(tài)中,文本模態(tài)表現(xiàn)最好,而在文本模態(tài)基礎(chǔ)上添加語(yǔ)音和圖像模態(tài)后,可以比單一的文本模態(tài)帶來額外的性能改進(jìn)。

      4.5 實(shí)例分析

      本文對(duì)IEMOCAP數(shù)據(jù)集中兩個(gè)不同對(duì)話進(jìn)行了實(shí)例分析,如表8所示,其中“√”表示分類正確,“×”表示分類錯(cuò)誤。DialogueGCN和MMGCN錯(cuò)誤地將實(shí)例1的第3句話預(yù)測(cè)為“sad”的情緒類別,原因可能是該話語(yǔ)中含有負(fù)向的情緒詞。同樣地,由于受到“amusing”一詞的干擾,DialogueGCN和MMGCN未能正確預(yù)測(cè)實(shí)例2的第3句話語(yǔ)的“angry”情緒。由于本文方法能夠感知多模態(tài)的語(yǔ)境信息和說話者的整體一致性,從而能正確捕捉到潛在的情緒類別。

      5 結(jié)束語(yǔ)

      本文提出了一種基于一致性約束的MERC圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)將話語(yǔ)作為圖網(wǎng)絡(luò)的節(jié)點(diǎn),通過GCN的特征傳遞和交互機(jī)制使模型能學(xué)習(xí)到話語(yǔ)的不同模態(tài)上下文特征;同時(shí),利用說話人一致性約束引導(dǎo)模型學(xué)習(xí)到更符合對(duì)話情感邏輯的話語(yǔ)情緒特征,從而提高識(shí)別準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文模型在公共數(shù)據(jù)集上的性能優(yōu)于其他對(duì)比模型。通過消融實(shí)驗(yàn)驗(yàn)證了一致性約束的有效性和重要性。本文方法皆在模態(tài)信息完整的情況下進(jìn)行,未來工作將對(duì)模態(tài)信息受損下的模態(tài)模糊問題的魯棒性融合問題進(jìn)行探討。

      參考文獻(xiàn):

      [1]Tsai Y H H,Bai Shaojie,Liang P P,et al.Multimodal transformer for unaligned multimodal language sequences[EB/OL].(2019-06-01).https://arxiv.org/abs/1906.00295.

      [2]Mai Sijie,Hu Haifeng,Xing Songlong.Divide,conquer and combine:hierarchical feature fusion network with local and global perspectives for multimodal affective computing[C]//Proc of the 57th Annual Meeting of Association for Computational Linguistics.2019:481-492.

      [3]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis [EB/OL].(2017).https://arxiv.org/abs/1707.07250.

      [4]Ghosal D,Majumder N,Poria S,et al.DialogueGCN:a graph convolutional neural network for emotion recognition in conversation[EB/OL].(2019).https://arxiv.org/abs/1908.11540.

      [5]Hu Jingwen,Liu Yuchen,Zhao Jinming,et al.MMGCN:multimodal fusion via deep graph convolution network for emotion recognition in conversation[EB/OL].(2021-07-14).https://arxiv.org/abs/ 2107.06779.

      [6]Li Jiwei,Galley M,Brockett C,et al.A persona-based neural conversation model[EB/OL].(2016).https://arxiv.org/abs/ 1603.06155.

      [7]Wang Yan,Zhang Jiayu,Ma Jun,et al.Contextualized emotion recognition in conversation as sequence tagging [C]// Proc of the 21st Annual Meeting of the Special Interest Group on Iscourse and Dialogue.2020:186-195.

      [8]Busso C,Bulut M,Lee C C,et al.IEMOCAP:interactive emotional dyadic motion capture database [J].Language Resources and Evaluation,2008,42(4):335-359.

      [9]Poria S,Hazarika D,Majumder N,et al.MELD:a multimodal multi-party dataset for emotion recognition in conversations [EB/OL].(2018).https://arxiv.org/abs/1810.02508.

      [10]Zhang Dong,Ju Xingchen,Li Junhui,et al.Multi-modal multi-label emotion detection with modality and label dependence[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2020:3584-3593.

      [11]Zadeh A,Liang P P,Mazumder N,et al.Memory fusion network for multi-view sequential learning[C]//Proc of the 32nd AAAI Confe-rence on Artificial Intelligence.2018:5634-5641.

      [12]任澤裕,王振超,柯尊旺,等.多模態(tài)數(shù)據(jù)融合綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2021,57(18):49-64.(Ren Zeyu,Wang Zhenchao,Ke Zunwang,et al.Review of multimodal data fusion[J].Computer Engineering and Applications,2021,57(18):49-64.)

      [13]劉繼明,張培翔,劉穎,等.多模態(tài)的情感分析技術(shù)綜述 [J].計(jì)算機(jī)科學(xué)與探索,2021,15(7):1165-1182.(Liu Jiming,Zhang Pei-xiang,Liu Ying, et al.Review of multimodal sentiment analysis techniques[J].Journal of Frontiers of Computer Science & Techno-logy,2021,15(7):1165-1182.)

      [14]宋云峰,任鴿,楊勇,等.基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析 [J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):716-720.(Song Yunfeng,Ren Ge,Yang Yong,et al.Multi-task multimodal sentiment analysis based on multi-level mixed fusion based on attention[J].Application Research of Computers,2022,39(3):716-720.)

      [15]Chen Feiyang,Luo Ziqian,Xu Yanyan,et al.Complementary fusion of multi-features and multi-modalities in sentiment analysis[EB/OL].(2019).https://arxiv.org/abs/1904.08138.

      [16]Hazarika D,Poria S,Zadeh A,et al.Conversational memory network for emotion recognition in dyadic dialogue videos[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2018:2122-2132.

      [17]Hazarika D,Poria S,Mihalcea R,et al.ICON:interactive conversational memory network for multimodal emotion detection[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2018:2594-2604.

      [18]Majumder N,Poria S,Hazarika D,et al.DialogueRNN:an attentive RNN for emotion detection in conversations[C]//Proc of AAAI Confe-rence on Artificial Intelligence.2019:6818-6825.

      [19]Ghosal D,Majumder N,Gelbukh A,et al.COSMIC:commonsense knowledge for emotion identification in conversations [EB/OL].(2020).https://arxiv.org/abs/2010.02795.

      [20]Velic′kovic′ P,Cucurull G,Casanova A,et al.Graph attention networks [EB/OL].(2017).https://arxiv.org/abs/ 1710.10903.

      [21]Zhang Dong,Wu Liangqing,Sun Changlong,et al.Modeling both context-and speaker-sensitive dependence for emotion detection in multi-speaker conversations[C]//Proc of the 28th International Joint Conference on Artificial Intelligence.2019:5415-5421.

      [22]Schlichtkrull M,Kipf T N,Bloem P,et al.Modeling relational data with graph convolutional networks [C]//Proc of European Semantic Web Conference.Cham:Springer,2018:593-607.

      [23]Li Guohao,Muller M,Thabet A,et al.DeepGCNs:can GCNs go as deep as CNNs? [C]//Proc of IEEE/CVF International Conference on Computer Vision.2019:9267-9276.

      [24]Schuller B,Batliner A,Steidl S,et al.Recognising realistic emotions and affect in speech:state of the art and lessons learnt from the first challenge[J].Speech Communication,2011,53(9-10):1062-1087.

      [25]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2014).https://arxiv.org/abs/ 1412.6980.

      [26]Lee B,Choi Y S.Graph based network with contextualized representations of turns in dialogue[EB/OL].(2021).https://arxiv.org/abs/ 2109.04008.

      [27]Li Yujia,Tarlow D,Brockschmidt M,et al.Gated graph sequence neural networks[EB/OL].(2015).https://arxiv.org/abs/1511.05493.

      [28]Chen Ming,Wei Zhewei,Huang Zengfeng,et al.Simple and deep graph convolutional networks [C]//Proc of International Conference on Machine Learning.2020:1725-1735.

      收稿日期:2023-02-14;修回日期:2023-04-19基金項(xiàng)目:國(guó)家自然科學(xué)基金地區(qū)項(xiàng)目(62162037);云南省科技廳面上項(xiàng)目(202001AT070047,202001AT070046)

      作者簡(jiǎn)介:譚曉聰(1998-),男,廣東茂名人,碩士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、多模態(tài)情感分析;郭軍軍(1987-),男,山西呂梁人,副教授,博士,CCF會(huì)員,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、神經(jīng)機(jī)器翻譯、多模態(tài)情感分析;線巖團(tuán)(1981-),男,云南芒市人,副教授,博士,CCF會(huì)員,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、信息檢索;相艷(1979-),女(通信作者),云南大理人,副教授,博士,CCF會(huì)員,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、情感計(jì)算(sharonxiang@126.com).

      猜你喜歡
      情感分析多模態(tài)
      基于語(yǔ)義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
      基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      多模態(tài)話語(yǔ)中的詹姆斯·卡梅隆電影
      英語(yǔ)閱讀教學(xué)中多模態(tài)識(shí)讀能力的培養(yǎng)
      網(wǎng)絡(luò)環(huán)境下大學(xué)英語(yǔ)多模態(tài)交互式閱讀教學(xué)模式研究
      戲劇之家(2016年22期)2016-11-30 18:20:43
      多模態(tài)理論視角下大學(xué)英語(yǔ)課堂的構(gòu)建
      新媒體環(huán)境下多模態(tài)商務(wù)英語(yǔ)課堂教師角色定位
      盐边县| 贵溪市| 青州市| 望奎县| 河北区| 沛县| 佛坪县| 济南市| 常州市| 和龙市| 阳泉市| 资源县| 正镶白旗| 比如县| 顺昌县| 梁河县| 大庆市| 天门市| 海晏县| 乌审旗| 林州市| 申扎县| 商水县| 商洛市| 招远市| 哈密市| 克东县| 临朐县| 双峰县| 理塘县| 耿马| 探索| 西乡县| 南康市| 清涧县| 惠安县| 泰安市| 祁阳县| 灵宝市| 栾川县| 南汇区|