• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向多方對話的中文多模態(tài)情感語料庫構(gòu)建

      2022-09-24 10:29:06徐洋蔣玉茹梁矗黃丁韞趙凱楊超宇張明嘉
      關(guān)鍵詞:語料庫音頻話語

      徐洋,蔣玉茹,梁矗,黃丁韞,趙凱,楊超宇,張明嘉

      (北京信息科技大學(xué) 智能信息處理實驗室,北京 100192)

      1 引言

      具有智能的機器正成為現(xiàn)代生活不可或缺的一部分,而如何使聊天機器人等智能機器具備共情能力則是當(dāng)前研究中面臨的挑戰(zhàn)。構(gòu)建供機器自動學(xué)習(xí)識別情感、表達情感的語料庫是基于有監(jiān)督機器學(xué)習(xí)方法的情感分析研究得以展開的前提。

      目前學(xué)術(shù)界中對于情感的分類沒有統(tǒng)一的標(biāo)準(zhǔn),不同的數(shù)據(jù)集都有著不同的情感/情緒分類標(biāo)簽。其中非常著名的當(dāng)屬1982年美國心理學(xué)家Ekman[1]提出的6大基本情緒:生氣、快樂、驚訝、厭惡、傷心和害怕。除了情緒表達以外,在對話中發(fā)言人所說話語的情感極性(積極、中立、消極)也是衡量情感的方式之一。

      話語是人與人之間表達情感最普遍的方式。但僅僅從話語文本中難以準(zhǔn)確識別出說話者的真實情感。將文本、語音、圖像3種模態(tài)蘊含的信息加以融合,能對其做出更準(zhǔn)確的識別。Zadeh等[2]構(gòu)建了CMU-MOSI語料庫,收集了YouTube上關(guān)于電影評論的視頻,標(biāo)注了從-3到+3的7類情感傾向,但其數(shù)據(jù)集規(guī)模較小。2018年Zadeh等[3]又構(gòu)建了CMU-MOSEI語料庫,從YouTube收集了長達約66 h的獨白視頻,標(biāo)注了情感標(biāo)簽和情緒標(biāo)簽。Soujanya等[4]構(gòu)建了MELD語料庫,數(shù)據(jù)來源于經(jīng)典的電視劇《老友記》。Yu等[5]構(gòu)建了CH-SIMS語料庫,包含2 281個經(jīng)過精煉的中文視頻片段。徐琳宏等[6]構(gòu)建了一個俄語多模態(tài)情感語料庫,將情感分為喜、怒、悲、恐和愧5大類別和15個小類,共標(biāo)注了181個場景。可以看出,目前公開的面向中文的多模態(tài)情感分析語料庫資源不足。同時由于地域文化的差別,不同國家、不同母語的說話者的情感表達方式不盡相同,所以,將英文的多模態(tài)情感分析語料庫翻譯成中文,用于漢語母語說話者的情感分析也是不恰當(dāng)?shù)?。因此,本文將?gòu)建一個面向中文劇集的多模態(tài)語料庫,制定情感/情緒標(biāo)注方案,并開展多模態(tài)情感識別研究。

      情感分析模型大致分為兩類,一類是基于傳統(tǒng)的情感詞典(lexicon-based)的方法,另一類是基于現(xiàn)代深度學(xué)習(xí)(deeplearning-based)的方法,前者主要依賴于情感詞典構(gòu)造的完善程度,后者更多依賴于標(biāo)注語料。Matsumoto等[7]使用傳統(tǒng)情感詞典的方法,將情感詞進行加權(quán)以達到優(yōu)化模型性能的目的。Herzig等[8]使用支持向量機(support vector machines,SVM)模型,結(jié)合對話的單輪和整體的特征,對對話信息進行情感分類。Poira等[9]提出了BC-LSTM模型,這是首個基于長短時記憶網(wǎng)絡(luò)的一種對話情感識別方法,它的關(guān)鍵在于對對話之間的時序關(guān)系進行建模,充分學(xué)習(xí)到對話上下文情感特征,不足之處是沒有用到對話中的發(fā)言人特征。CMN[10]很好地解決了這一不足,它提出了一種對話記憶網(wǎng)絡(luò),將發(fā)言人信息與對話信息同時建模,顯著提升了對話情感識別的性能。DialogueRNN[11]增強了對話和發(fā)言人的建模方式,采用了3個門控循環(huán)單元分別對發(fā)言人、上下文和情感進行建模,并利用注意力機制更新不同范圍的上下文狀態(tài),增強了對話中的情感表達。

      以上都是基于序列建模的情感識別方法。由于對話具有天然的圖結(jié)構(gòu),DialogueGCN[12]基于圖的神經(jīng)網(wǎng)絡(luò)構(gòu)建了新的建模方式,用對話中的句子作為節(jié)點,以發(fā)言人和對話時序關(guān)系構(gòu)建邊,取得了當(dāng)時的最好結(jié)果。DAG-ERC[13]是一個有向無環(huán)圖神經(jīng)網(wǎng)絡(luò),與先前的圖結(jié)構(gòu)相比,構(gòu)建邊時僅考慮了過去的信息,而不是簡單地將每個話語與固定數(shù)量的周圍話語連接起來,有效地提升了模型的性能。

      3 中文語料庫的構(gòu)建

      本文基于中文情景喜劇《天真派武林外傳》構(gòu)建了一個中文語料庫。首先進行前期準(zhǔn)備,制定待標(biāo)注數(shù)據(jù)標(biāo)準(zhǔn)并對語料庫進行合理切分,接著制定標(biāo)注模板,并按照客觀性、一致性和常識性的標(biāo)注規(guī)范,多位標(biāo)注人員遵循所制定好的標(biāo)注流程進行標(biāo)注,完成語料庫的構(gòu)建。

      3.1 前期準(zhǔn)備

      3.1.1 待標(biāo)注數(shù)據(jù)標(biāo)準(zhǔn)

      本文所用的原始數(shù)據(jù)來源于情景喜劇《天真派武林外傳》,為了便于標(biāo)注人員進行標(biāo)注,需要對原始數(shù)據(jù)進行轉(zhuǎn)換,使其轉(zhuǎn)換為易于提取相關(guān)信息的待標(biāo)注數(shù)據(jù)。本文依照的待標(biāo)注數(shù)據(jù)標(biāo)準(zhǔn)為:1)一致性原則,即在同一條待標(biāo)注數(shù)據(jù)里只允許有一個說話者發(fā)言且中途情感不會發(fā)生任何變化;2)待標(biāo)注數(shù)據(jù)若出現(xiàn)同一說話者發(fā)言過短或過長的情況,對其進行適當(dāng)?shù)暮喜⒒蚍指睿?)音畫同源,即畫面上出現(xiàn)的人物必須包含說話者,否則過濾掉該數(shù)據(jù)。待標(biāo)注數(shù)據(jù)一定要指向清晰、目標(biāo)明確,這樣才便于標(biāo)注人員進行標(biāo)注,同時也有利于后續(xù)的人物性格特點分析。

      3.1.2 數(shù)據(jù)預(yù)處理

      從網(wǎng)絡(luò)上下載《天真派武林外傳》劇后,根據(jù)前文所述的數(shù)據(jù)處理標(biāo)準(zhǔn),利用剪輯軟件對原始數(shù)據(jù)進行逐句剪輯。最后將剪輯完成的片段按照劇集次序分模塊導(dǎo)出,并標(biāo)記為待標(biāo)注數(shù)據(jù)交給標(biāo)注人員。

      3.2 標(biāo)注規(guī)范

      本文所設(shè)計的標(biāo)注模板包括場景信息、發(fā)言人信息、話語文本、話語對應(yīng)的語音和視頻片段、情感和情緒標(biāo)簽。

      一個劇集包含多個場景,將一個場景視作一個對話單元,其中包含多條話語。

      發(fā)言人即臺詞文本對應(yīng)的劇本角色,主要為佟湘玉、白展堂、郭芙蓉、呂秀才、李大嘴、邢捕頭、莫小貝這7位主角。其他配角所占比例較小。

      話語文本表示待標(biāo)注數(shù)據(jù)里當(dāng)前發(fā)言人所敘述的內(nèi)容對應(yīng)的文本。情感和情緒信息是標(biāo)注的重點,其中情感信息是發(fā)言人的內(nèi)在情感表達,分為積極、消極和中性3類;情緒信息是發(fā)言人呈現(xiàn)出來的外在情緒表達,參照Ekman提出的6大基本情緒類型加上中立情緒共7類進行標(biāo)注。

      標(biāo)注過程中每個標(biāo)注人員可同時看到一條已經(jīng)切分好的數(shù)據(jù)的文字、聲音和視頻信息,同時標(biāo)注該條數(shù)據(jù)的情感標(biāo)簽和情緒標(biāo)簽。

      3.3 標(biāo)注流程及質(zhì)量監(jiān)控

      經(jīng)過預(yù)處理的數(shù)據(jù),按照標(biāo)注模板進行組織之后,按照集編號進行分組。標(biāo)注同一組數(shù)據(jù)的兩名標(biāo)注人員在標(biāo)注期間不能互相討論,必須獨立完成標(biāo)注。標(biāo)注后,將結(jié)果交給第三人進行一致性統(tǒng)計計算和校驗。如果二人標(biāo)注不一樣,交由第三人進行裁決。標(biāo)注流程如圖1所示。

      圖1 多人協(xié)作標(biāo)注流程

      為了能夠更方便地進行管理,數(shù)據(jù)被分為待標(biāo)注、待審查、沖突、已審查4個類別。通過對不同組的狀態(tài)進行監(jiān)控,可以清晰地了解每組的標(biāo)注進程,以便對語料庫標(biāo)注的總體完成情況進行調(diào)度。數(shù)據(jù)在各個狀態(tài)之間的轉(zhuǎn)換如圖2所示。

      圖2 數(shù)據(jù)標(biāo)注狀態(tài)遷移情況

      由于情感和情緒標(biāo)注屬于主觀性較強的標(biāo)注任務(wù),本文沿用此類語料庫的評價方法,采用Kappa系數(shù)[14]計算背對背標(biāo)注的一致性。本文統(tǒng)計了兩名標(biāo)注人員對情感和情緒標(biāo)注的一致性情況。二人情感標(biāo)注的一致性為0.504,情緒標(biāo)注的一致性為0.484。該指標(biāo)略優(yōu)于現(xiàn)有的英文多模態(tài)語料庫標(biāo)注的一致性。

      3.4 語料庫數(shù)據(jù)統(tǒng)計

      語料庫中的部分數(shù)據(jù)如表1所示。

      表1 語料庫中的典型數(shù)據(jù)示例

      這是客棧掌柜被威脅時發(fā)生的對話,掌柜既不得不滿足侯三無理的要求,同時又只能強裝出高興的表情,但實際上內(nèi)心氣憤不已,是一種消極的情感。這部分內(nèi)容側(cè)面印證了講話者表現(xiàn)出來的情緒和其內(nèi)心的真實情感有時會出現(xiàn)巨大差異,甚至可能完全相反。這在一定程度體現(xiàn)了本文所提出語料庫的特點。

      語料庫及其中對話的相關(guān)信息統(tǒng)計如表2、表3所示。由表可知,語料庫總體規(guī)模達到5 541條語句,330個場景,25個角色。其中平均每輪對話包含16~17個句子和3~4個發(fā)言人,平均每句話長度為10~11個字,比較符合日常對話特點。

      表2 語料庫信息統(tǒng)計

      表3 對話信息統(tǒng)計

      每種情感類型和每種情緒類型所占的比例如圖3、圖4所示。從圖3可以看出,中性和消極是占比最大的兩種情感,分別占比39.57%和38.84%。從圖4可以看出,中性和開心是出現(xiàn)頻率最高的兩種情緒,分別占到了整體的34.50%和19.19%。

      圖3 情感占比分布

      圖4 情緒占比分布

      7位主要發(fā)言人的情感和情緒分布情況如圖5、圖6所示,可以看出不同發(fā)言人的情感和情緒占比情況不同,這說明在對話中,不同發(fā)言人的性格特征也是影響話語情感或情緒的關(guān)鍵因素。同時也可以看出,不同角色的發(fā)言數(shù)量差異較大。經(jīng)統(tǒng)計,佟湘玉、郭芙蓉和白展堂的發(fā)言頻率最高,分別占到了22.78%、18.03%和16.96%,這與情景喜劇中的角色地位相符合,主角發(fā)言較為頻繁。

      圖5 發(fā)言人情感分布

      圖6 發(fā)言人情緒分布

      4 情感分析模型

      在權(quán)衡比較了現(xiàn)有多模態(tài)情感分析工作之后,選擇先進的特征抽取方法和多模態(tài)對話情感分析模型,設(shè)計了一個情感分析模型,整體架構(gòu)如圖7所示,分兩個階段:第一階段搭建單模態(tài)情感特征抽取模塊,用于抽取話語級的情感特征;第二階段搭建多模態(tài)情感分析模型,用于抽取多模態(tài)的話語表示和對話表示,最后經(jīng)過對話情感分類器獲得話語情感標(biāo)簽。

      圖7 情感分析模型整體架構(gòu)

      4.1 話語級特征抽取

      4.1.1 文本特征抽取

      采用預(yù)訓(xùn)練語言模型基于transformer的雙向編碼器表示(bidirectional encoder representations from transformers,BERT)進行文本特征提取。話語級數(shù)據(jù)經(jīng)過BERT進行深度編碼后,取[CLS]位置的向量視為話語級別的特征表示,最后使用全連接的方式對文本特征進行降維,獲得300維的文本情感特征向量。

      4.1.2 音頻特征抽取

      采用Opensmile自動化工具進行語音特征提取。首先抽取出384維的話語級語音情感特征,其中包括韻律特征、頻譜特征等,隨后使用標(biāo)準(zhǔn)歸一化(Z-Score)方法對音頻特征進行歸一化。并使用全連接的方式對音頻特征進行降維,獲得300維的語音情感特征向量。

      4.1.3 視頻特征抽取

      采用人臉識別卷積神經(jīng)網(wǎng)絡(luò)FaceCNN結(jié)合雙向長短時記憶(bi-directional long short-term memory,BiLSTM)模型對視頻情感特征進行提取。首先對話語級視頻進行等幀切分,然后抽取每一幀圖片中的人臉部分。利用FaceCNN結(jié)合多層卷積和池化的模塊抽取單個人臉圖片中蘊含的情感特征之后,利用BiLSTM對每段視頻中的多張人臉圖片進行時序編碼,獲取視頻中蘊含的情感特征,最后使用全連接的方式進行降維,獲得300維的視頻情感特征向量。

      4.2 對話情感編碼器

      經(jīng)過話語級特征抽取編碼器抽取后,得到單個話語的不同模態(tài)的情感特征。將不同模態(tài)的特征向量進行拼接得到當(dāng)前話語的多模態(tài)特征向量,然后輸入對話情感編碼器。

      對話情感編碼器采用DialogueRNN。在當(dāng)前處理多方對話情感識別模型中,DialogueRNN模型是性能出眾的模型之一。該模型綜合考慮了發(fā)言人、對話上下文和情感3方面因素。采用3個門控循環(huán)單元(gate recurrent unit,GRU)分別對這3個因素進行建模,并通過注意力機制來建模話語上下文的權(quán)重分布,最終獲得了較好的融合了上下文特征的話語情感特征表示。

      4.3 對話情感分類器

      對話情感分類器層采用全連接層+Softmax的方式構(gòu)建,將對話情感編碼器的輸出結(jié)果直接作為輸入,最終得到當(dāng)前話語的情感分布進而預(yù)測出當(dāng)前話語的情感標(biāo)簽。

      5 實驗結(jié)果分析

      采用上述模型,利用本文所構(gòu)建語料庫開展實驗,結(jié)果使用F1值進行評估。不同模態(tài)數(shù)據(jù)作為模型輸入的情況下,單一情感類別的識別結(jié)果和所有情感類別的綜合識別結(jié)果F1值如表4所示。

      表4 實驗結(jié)果 %

      從綜合識別結(jié)果上看:1)依據(jù)文本、音頻、視頻單一模態(tài)數(shù)據(jù)進行情感識別的F1值,文本模態(tài)>音頻模態(tài)>視頻模態(tài);2)在雙模態(tài)組合實驗中,“文本+音頻”模態(tài)>“文本+視頻”模態(tài)>“音頻+視頻”模態(tài);3)“文本+音頻+視頻”的綜合識別結(jié)果F1值為50.83%,說明就本文所構(gòu)建模型而言,文本模態(tài)對情感識別結(jié)果起到了關(guān)鍵作用,音頻和視頻的特征沒有起到輔助作用。

      從雙模態(tài)融合的實驗結(jié)果上看,當(dāng)音頻和文本融合時,對消極情感的識別起到了積極作用;視頻和文本融合時,對積極情感的識別起到了正向作用;視頻和音頻融合時,對中立和消極情感起到了正向作用。而當(dāng)文本、音頻和視頻三模態(tài)融合時,對中立情感識別起到了正向作用。本文所設(shè)計模型主體是DialogueRNN模型,其在英文數(shù)據(jù)集上的F1值達到62.75%,比本文結(jié)果高了接近10個百分點。這反映出下一步面向中文多模態(tài)多方對話情感分析語料庫進行情感分析研究的必要性。具體而言,語音和視頻兩個模態(tài)在和文本模態(tài)配合進行情感分析時,僅在特定情感類別中提高了識別性能,這說明模型中的音頻和視頻情感特征抽取方法還不能滿足中文多模態(tài)情感分析的需求。進一步,3個模態(tài)的信息如何進行交互和有效地互相支撐,也是后續(xù)構(gòu)建模型中需要重點研究的內(nèi)容。

      6 結(jié)束語

      本文構(gòu)建了基于電視劇《天真派武林外傳》的中文語料庫,其中包含330段對話與5 541條語句。每條語句都標(biāo)注了發(fā)言人、發(fā)言人的內(nèi)在情感、外在情緒。該語料庫可用于面向中文多方對話的多模態(tài)情感/情緒識別任務(wù),以及中文對話發(fā)言人特征對情感分析影響的相關(guān)研究,推動共情對話技術(shù)的發(fā)展。同時,構(gòu)建了一個情感分析模型,利用所構(gòu)建的語料庫進行了實驗,實驗結(jié)果表明:單模態(tài)情感分析的效果中,文本模態(tài)好于聲音模態(tài)和視頻模態(tài);多模態(tài)情感分析的綜合效果比單模態(tài)文本分析的效果差,但好于聲音和視頻分析的效果。

      猜你喜歡
      語料庫音頻話語
      現(xiàn)代美術(shù)批評及其話語表達
      河北畫報(2021年2期)2021-05-25 02:07:18
      《語料庫翻譯文體學(xué)》評介
      必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      把課文的優(yōu)美表達存進語料庫
      音頻分析儀中低失真音頻信號的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      話語新聞
      浙江人大(2014年6期)2014-03-20 16:20:34
      話語新聞
      浙江人大(2014年5期)2014-03-20 16:20:20
      高雄县| 林州市| 商丘市| 三亚市| 秦安县| 嘉义市| 乐东| 望谟县| 兴义市| 木里| 敖汉旗| 桓台县| 毕节市| 普兰店市| 鹰潭市| 无棣县| 马边| 桑植县| 蒙自县| 车致| 石屏县| 马公市| 霞浦县| 华池县| 舞钢市| 司法| 龙口市| 杭锦旗| 汝阳县| 邢台市| 获嘉县| 漯河市| 萝北县| 大庆市| 隆子县| 冀州市| 镇江市| 文登市| 讷河市| 时尚| 遂宁市|