• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      復合層次融合的多模態(tài)情感分析

      2023-01-17 09:32:02王旭陽
      計算機與生活 2023年1期
      關鍵詞:注意力卷積模態(tài)

      王旭陽,董 帥,石 杰

      蘭州理工大學計算機與通信學院,蘭州730050

      情感分析,又稱為意向挖掘或者情感傾向分析,其在人機交互方面發(fā)揮著重大的作用[1]。隨著工業(yè)和互聯網的發(fā)展,越來越多的用戶傾向于在社交媒體(Tik Tok、Facebook、Twitter、YouTube 等)上分享、展示自己的生活狀況,并且發(fā)表自己對社會各類事物的看法。有關情感分析的研究已經被廣泛地應用到了各種領域,比如:通過對網民的情緒分析可以幫助政府掌握社會的輿論走向,優(yōu)化對消費者的商品推薦,以及對輿情的監(jiān)測與引導等。

      情感分析是傳統自然語言處理(natural language processing,NLP)中非常重要的一個研究領域。然而傳統的情感分析主要是針對用戶在網上的評論、留言等純文本內容進行分析、處理、歸納和推理的過程。僅使用文本不足以確定說話者的情感狀態(tài),而且文本可能會產生誤導。隨著短視頻應用的蓬勃發(fā)展,非語言行為(視覺和聽覺)被引入來解決上述缺點[2-3]。與純文本相比,視頻中的人物蘊含豐富有關人物情感傾向的模態(tài)信息,其中包括文本、視頻、音頻。

      多模態(tài)情感分析(multimodal sentiment analysis)是對文本、視頻、音頻的多模態(tài)數據進行綜合挖掘,發(fā)現其隱藏信息,并最終預測出其情感狀態(tài)[4]。社交媒體是多模態(tài)數據的海量來源,以視頻為例,視頻中包含了文本、音頻和圖像這三種信息載體,文本能攜帶語義信息,音頻能攜帶語氣、音調等信息,圖像能攜帶表情、手勢等信息。三種模態(tài)的關系是相互補充、相互解釋的,單從一種模態(tài)上來分析其情感色彩是不全面的。如圖1 顯示為一個視頻片段中人物進行對話的時候說的一句話:“what's wrong with you?”,這句對話是個疑問句而且沒有明顯體現情感取向的詞語,因此僅僅依據這句話所傳達的信息很難判斷出說話人的情感狀態(tài),但如果結合說話人的面部表情(皺眉)和語音語調(低聲),則可以反映出說話人目前的情感狀態(tài)是消極的。這種不同模態(tài)之間的情感信息相互解釋、相互補充稱之為模態(tài)之間的交互性。

      圖1 多模態(tài)表達實例Fig.1 Example of multimodal data

      與單模態(tài)情感分析相比,多模態(tài)情感分析不僅要充分提取其單獨模態(tài)的特征,還要考慮不同模態(tài)之間的融合和信息的交互,傳統的多模態(tài)信息融合主要分為早期融合和晚期融合,又稱決策層融合。早期融合是在模態(tài)信息輸入到模型訓練之前把各個模態(tài)的信息進行拼接,然后進行訓練。一般的做法是在信息輸入的時候直接將多模態(tài)特征向量進行整合,但是這種融合方法并沒有關注到不同模態(tài)特征之間的語義差異。假設三個模態(tài)信息單獨表達的情感是不完全相同的,那么就有可能其中的一種或兩種模態(tài)信息是真正結果情感狀態(tài)的噪聲干擾。晚期融合[5-6]是先把模態(tài)信息進行單獨訓練然后在決策層進行投票最后得出預測結果。這種方法雖然能充分挖掘出各自模態(tài)中所蘊含的情感信息,但是明顯缺失模態(tài)之間的交互性。

      為了解決上述問題,本文提出了一種基于時域卷積網絡和軟注意力機制結合復合層次融合的多模態(tài)情感分析的模型。首先,該模型將每個話語的單模態(tài)特征信息進行復合層次融合,融合過程中使用TCN(temporal convolutional network)提取其序列特征,最后使用軟注意力機制減少噪聲和冗余信息的干擾,最終得到一個關于多模態(tài)融合的特征向量用于情感分類(詳細介紹見第3 章)。實驗測試表明,該模型在多模態(tài)情感分析上的準確率和F1 值均表現出良好效果。

      1 相關工作

      情感分析作為文本信息挖掘的主要內容,近年來深度學習模型的引入在情感分析領域取得巨大成就。單模態(tài)信息提取通常使用的深度學習模型一般有卷積神經網絡(convolutional neural networks,CNN)[7]、門控循環(huán)單元(gated recurrent unit,GRU)[8]、長短期記憶網絡(long short-term memory,LSTM)[9]。

      針對不同模態(tài)信息之間的相互融合,Cambria 等人[10]提出了一個通用的多模態(tài)情感分析框架,該框架由模態(tài)內的表示學習和模態(tài)間的特征連接組成?;谶@個框架,許多研究集中在設計一個新的融合網絡來捕獲更好的多模態(tài)表示并獲得更好的性能。對于多模態(tài)間融合,Williams 等人[11]提出一種基于EFLSTM(early fusion-long short-term memory)的融合方式,先將三個模態(tài)的初始輸入連在一起,然后使用LSTM來捕捉序列中的長距離依賴關系。與EF-LSTM相比,后期融合LF-DNN(late fusion-deep neural network)先學習單模態(tài)特征,然后在分類前將這些特征進行串聯。雖然上述方法在一定程度上能夠解決相關問題,但是仍存在不足之處,都忽略了各模態(tài)內部信息與模態(tài)之間交互作用的結合。如何提高模態(tài)之間的交互信息并進行建模是一個值得關注的問題。Zadeh 等人[12]提出了一種記憶融合網絡(memory fusion network,MFN),對特定視圖和跨視圖的交互進行核算,通過特殊的注意力機制對其進行持續(xù)建模,并利用多視圖門控記憶進行時間總結。MFN 需要在三個模態(tài)中進行詞級對齊。Zadeh 等人[13]提出一種基于張量融合的特征融合網絡(tensor fusion network,TFN),TFN 屬于early fusion,是一個典型的通過矩陣運算進行特征融合的多模態(tài)網絡,同時考慮到模態(tài)內部信息以及模態(tài)之間的交互作用,但是TFN 通過模態(tài)之間的張量外積(outer product)計算不同模態(tài)的元素之間的相關性,這會極大地增加特征向量的維度,造成模型過大,難以訓練。因此,Liu 等人[14]采用低階多模態(tài)融合方法對權重張量進行分解,降低了基于張量方法的計算復雜性,模型通過與模態(tài)特定的低階因子進行高效的多模態(tài)融合來學習模態(tài)特定和跨模態(tài)的相互作用。Tsai 等人[15]提出一種多模態(tài)變換器(multimodal transformer),該模型利用跨模態(tài)注意力,實現多模態(tài)序列之間跨不同時間步長的交互。Shenoy 等人[16]提出的基于上下文感知的RNN(recurrent neural network)模型能夠有效地利用和捕獲所有模態(tài)對話的上下文用于多模態(tài)情緒識別和情感分析。Hazarika等人[17]提出一種MISA(modalityinvariant and-specific representations for multimodal sentiment analysis)的多模態(tài)情感分析框架,把每個模態(tài)劃分為不同的子空間用來學習相關的情感表示,以幫助融合過程。雖然上述方法在精度上有一定提升,但是在多模態(tài)數據融合過程中如何有效地利用整合多模態(tài)信息進行情感分析依舊是一項艱巨的任務。

      綜上所述,隨著人工智能研究的不斷深入,多模態(tài)情感分析也得到了巨大的發(fā)展。但是如何有效地利用單模態(tài)特征和多模態(tài)特征之間的交互進行建模依舊是多模態(tài)情感分析所面臨的主要問題。大多數關于多模態(tài)數據融合的工作都使用串聯或早期融合作為它們的融合策略。這種簡單化方法的問題在于不能過濾從不同模態(tài)獲得的沖突或冗余信息。本文在早期模態(tài)特征信息融合的基礎上[11-15]和文獻[18]啟發(fā)下,結合時域卷積網絡和軟注意力機制設計了一種復合層次融合的多模態(tài)情感分析模型(TCN-multimodal sentiment analysis with composite hierarchical fusion,TCN-CHF)。采用復合層次融合方法,能夠最大程度地挖掘和保留不同模態(tài)內部的情感信息,并且通過復合層次融合不斷加強模態(tài)之間信息交互的表達。利用TCN 網絡和注意力機制更好地提取模態(tài)信息中的序列特征,以及文本、視頻、音頻不同模態(tài)信息之間的交互性,并在融合過程中為其分配更合理的權重,減少多模態(tài)信息中的噪聲以及過濾冗余信息,實現多模態(tài)特征信息的有效融合。

      2 TCN 和Attention 結合復合層次融合模型

      2.1 時域卷積網絡

      時域卷積網絡是一種新型的可以用來解決時間序列的算法。TCN 相比傳統的RNN 網絡有諸多優(yōu)點。例如,TCN 網絡可以根據層數、卷積核大小、擴張系數靈活控制感受野,同時梯度也更加穩(wěn)定,并且可以并行處理時序特征信息,所需要的內存要求也更低。

      2.1.1 TCN 網絡結構

      TCN 不同于傳統的卷積神經網絡CNN,其主要采用兩種結構:因果卷積(causal convolution)和膨脹卷積(dilated convolution)。

      (1)因果卷積:可以用圖2 直觀表示,因果卷積不能看到未來的數據,它是單向的結構,不是雙向的。也就是說只有有了前面的因才有后面的果,假如要預測當前時刻的信息,只能依靠當前時刻之前的信息進行預測,即只能通過當前的時刻輸入xt和之前的輸入x1,x2,…,xt-1進行計算,是一種嚴格的時間約束模型,因此被稱為因果卷積。

      圖2 因果卷積Fig.2 Causal convolution

      (2)膨脹卷積:單純的因果卷積存在傳統卷積神經網絡的問題,即對時間的建模長度受限于卷積核大小,如果要獲取更長的依賴關系,就需要堆疊很多線性層。為了解決這個問題,TCN 網絡結構采用膨脹卷積,其結構如圖3 所示(圖中,xt為原始時序的輸入,yt為TCN 網絡預測值,d為膨脹卷積的空洞大?。Ec傳統卷積不同的是,膨脹卷積允許卷積時的輸入存在間隔采樣。其中d控制圖中的采樣率。最下面一層的d=1,表示輸入時每個點都采樣,中間層d=2,表示輸入時每2 個點采樣一個作為輸入。越高的層級使用的d的大小越大。膨脹卷積使得有效窗口的大小隨著層數呈指數型增長。這樣卷積網絡用比較少的層,就可以獲得很大的感受野。

      圖3 膨脹卷積Fig.3 Dilated convolution

      2.1.2 殘差連接

      當模型中的網絡層數過深時,很容易出現梯度消失或梯度爆炸的現象,TCN 網絡結構通過簡單的殘差連接可以在一定程度上消除這一現象。具體做法是通過對輸入x和其經過非線性映射得到的G(x) 求和,避免由于網絡層數不斷增加而對梯度造成影響。

      本文所采取的膨脹和因果卷積模塊是在每一次進行膨脹卷積計算Conv()之后將參數層級歸一化Hinorm(),然后使用ReLU 作為激活函數進行非線性計算,并將其結果與輸入進行求和,實現殘參連接。計算過程如下:

      其中,Ti是i時刻卷積計算得到的狀態(tài)值;Wi為i時刻卷積計算的詞的矩陣;Fj為第j層的卷積核;bi為偏置矩陣;{T0,T1,…,Tn}是序列經過一次完整的卷積計算后的編碼。

      TCN 網絡層通過堆疊多個擴張因果卷積層,擴大卷積的感受野。較大的感受野可以獲取到更完整的序列特征,使得融合之后的特征提取到更深層次的語義信息。并且在逐步融合提取過程中增強不同模態(tài)之間的信息交互性,最終提升模型的整體性能。

      2.2 注意力機制

      注意力機制類似于人類的視覺注意力,人類的注意力是人類視覺所特有的大腦信號處理機制。深度學習中的注意力機制從本質上來講,它和人類的選擇性視覺注意力機制類似,目的也是從眾多信息中選擇出對當前任務目標更關鍵的信息。

      注意力機制模型最初應用于機器翻譯和文本摘要[19],現在已成為神經網絡領域的一個重要概念。本文所采用的是軟注意力機制,軟注意力機制是指在選擇信息的時候,不是從N個信息中只選擇1 個,而是計算N個輸入信息的加權平均,再輸入到神經網絡中計算。

      2.3 多模態(tài)融合方法

      對于本文所使用的CMU-MOSI 和CMU-MOSEI數據集的單模態(tài)特征提取的方法在文中的3.1 節(jié)實驗部分有詳細介紹。

      雙模態(tài)融合:對于不同模態(tài)信息間的融合,首先對單模態(tài)信息進行兩兩融合,過程如圖4 所示,對單模態(tài)信息進行兩兩融合以后得到三個雙模態(tài)信息,即T+V(文本+視頻)、T+A(文本+音頻)和A+V(音頻+視頻)。這一步驟在圖4 中描述,并在第2.4 節(jié)中詳細討論。最后使用圖4 的倒數第二層作為雙模態(tài)特征。

      三模態(tài)融合:將上一步得到的三個雙模態(tài)特征向量再進行三融合得到一個三模態(tài)特征向量T+V+A,如圖5 所示。這一步驟在2.4 節(jié)進行詳細的描述。

      圖5 三模態(tài)信息融合Fig.5 Trimodal information fusion

      復合融合:在融合三模態(tài)的基礎上,使用類似殘差網絡的結構做復合層次的融合,其結構如圖6 所示,實驗表明使用復合層次模型的融合方式最終得到情感分類的結果更佳。

      圖6 復合模態(tài)信息融合Fig.6 Composite modal information fusion

      2.4 模型整體結構

      本文針對現有多模態(tài)情感分析方法中存在情感分類準確率不高、難以有效融合多模態(tài)特征等問題,提出了一種時域卷積網絡和軟注意力機制結合復合層次融合的多模態(tài)情感分析模型。

      本文提出的多模態(tài)數據融合整體結構如圖7 所示。使用以下條目代表單模態(tài)情感特征向量:

      圖7 模型整體結構圖Fig.7 Overall structure diagram of model

      其中,fA、fT、fV分別代表視覺、文本、音頻單模態(tài)特征信息,N為視頻中話語的最大長度。對于較短的視頻,使用相應長度的空向量對其進行虛擬話語填充;對于較長的視頻,做相應的裁剪操作。本文中N=50。dA、dT、dV分別代表其對應模態(tài)的特征維度,具體數值在本文的3.1 節(jié)有詳細的介紹。

      單模態(tài)特征fA、fT、fV具有不同的維度特征dA≠dT≠dV,在進行特征信息融合前,需要將它們映射到相同的維度。在該模型中均將其映射到DA=DT=DV=D,DA、DT、DV分別為映射后的視頻、文本、音頻等單模態(tài)特征向量的維度,在經過多次實驗后得到當D=350 時模型的性能表現最好。

      將上述得到的三個單模態(tài)特征信息FA、FT、FV作為TCN 網絡層的輸入進行單模態(tài)序列特征的提取,有關TCN 網絡層在3.1 節(jié)已有詳細介紹。

      將得到的3 個雙模態(tài)特征矩陣再次作為輸入傳入TCN 網絡層,進行雙模態(tài)的序列特征提?。?/p>

      然后用同樣的方法做三模態(tài)特征融合,融合過程與雙模態(tài)融合類似:

      最后進行復合層次融合,將得到的三模態(tài)情感特征FTAV和單模態(tài)情感特征GA、GT、GV進行融合得到多模態(tài)情感特征向量:

      模型的輸出層結構如圖8 所示,在該模型中使用軟注意力機制,在進行最后的情感分類之前,將得到的多模態(tài)情感特征向量傳入軟注意力機制層,使用Softmax 函數計算注意力分布矩陣,再將得到的注意力分布矩陣和多模態(tài)特征融合的矩陣相乘,得到最終加權的多模態(tài)特征矩陣用于最后情感分類結果的輸出,其具體計算過程如下:

      圖8 輸出層結構圖Fig.8 Output layer structure diagram

      本文提出的模型采用復合融合方法結合TCN以及Soft-attention 機制。從單模態(tài)到雙模態(tài)再到最終的復合模態(tài)的融合過程中,經過多次的融合提取,每次融合后經過同一個TCN 網絡,使得三個模態(tài)信息緊密結合在一起,在這個過程中不斷提升不同模態(tài)信息之間的交互性。將得到的多模態(tài)特征向量全部傳入Soft-attention 機制中對其進行最后的過濾冗余以及噪音,注意力機制處理的過程中可以弱化弱相關,強化強相關,從而提升模態(tài)信息之間的交互性。

      3 實驗

      3.1 實驗設置

      (1)數據集

      本文的模型實驗基于CMU-MOSI[20]數據集和CMU-MOSEI[21]數據集完成。下面對這兩個公共的多模態(tài)情感分析數據集進行簡要介紹。

      MOSI:CMU-MOSI 數據集是最受歡迎的多模態(tài)情感分析數據集之一。MOSI數據集中包含YouTube電影評論視頻的93 個獨白片段,被劃分為2 199 個標注了情感標簽的視頻段。其中每個標簽情感得分從-3(強消極)到3(強積極)。在本實驗中,對于二分類問題,把情感值大于或等于0 的視頻段標記為1,即正面情感類,情感值小于0 的視頻段標記為0,即負面情感類;對于三分類問題,把情感值等于0 的視頻段標記為中性情感,小于0 和大于0 的視頻片段分別標記為負面情感和正面情感。

      MOSEI:CMU-MOSEI 數據集擴展了數據量,在CMU-MOSI 的基礎上增加了話語數量、樣本、說話者和話題的多樣性。該數據集包含22 856 個帶注釋的視頻片段(話語),來自5 000 個視頻、1 000 個不同的說話者和250 個不同的主題,兩個數據集的具體統計數據如表1 所示。

      表1 兩個數據集的統計Table 1 Statistics of two datasets

      (2)單模態(tài)信息抽取

      為使模型的性能達到最佳,需要使不同模態(tài)之間的信息必須嚴格對齊。

      對于本文中的視頻文本特征(Text),首先進行轉錄,在這里只使用中文轉錄。轉錄時為每篇轉錄稿添加兩個唯一的標記來表示開始和結束。而后,使用預先訓練好的中文BERTbase 詞嵌入來從轉錄本中獲得詞向量[22]。值得注意的是,由于BERT 的特性,本文并沒有使用單詞分割工具。最終,每個詞都被表示為768 維的詞向量dt=768。

      對于視頻中的聲學特征(audio),使用LibROSA[23]語音工具包,以默認參數提取22 050 Hz 的聲學特征。在MOSEI 數據集中得到74 維的聲學特征da=74。

      對于視頻中的視覺特征以30 Hz 的頻率從視頻片段中提取幀。本文使用MTCNN(multi-task convolutional neural network)人臉檢測算法[24]來提取對齊的人臉,使用MultiComp OpenFace2.0 工具包[25]提取68個面部地標、17 個面部動作單元、頭部姿勢、頭部方向和眼睛注視的集合。最終在MOSEI 數據集中得到35 維的視覺特征dv=35。

      3.2 實驗環(huán)境

      為了全面評估模型性能,實驗中使用準確率(Accuracy)和F1 值(F1-score)作為評價指標來對模型進行評估。計算公式如下:

      其中,TP是真正例,即實際為正樣本,被預測為正樣本的數量;FP是假正例,即實際為負樣本,被預測為正樣本的數量;TN是真負例,即實際為負樣本,被預測為負樣本的數量;FN假負例,即實際為正樣本,被預測為負樣本的數量。

      3.3 優(yōu)化策略

      在訓練過程中,采用交叉熵作為損失函數,公式如下:

      本模型基于Pytorch 深度學習框架實現,在Google colab 服務器上進行訓練和測試。參數的合理設置對于模型的訓練有著至關重要的作用,在大數據集CMU-MOSEI 上進行情感二分類任務測試。實驗證明,當模型參數設置如表2 所示時,模型的表現效果最佳。

      表2 實驗參數設置Table 2 Setting of experimental parameters

      3.4 對比實驗

      在本節(jié)中,Acc_2、F1_score_2 分別代表模型在情感二分類中準確率和F1 得分,Acc_3、F1_score_3 分別代表三分類情況下的準確率和F1 得分。不同模型的實驗對比結果如表3 和表4 所示。

      通過表3、表4 的實驗結果說明,本文提出的TCN-CHF 模型在MOSEI 數據集上的情感二分類準確率和F1 分數這兩個評價指標的表現都要優(yōu)于其他對比模型,準確率和F1 分數分別提升了6.28 個百分點和6.12 個百分點,尤其是對比現有先進的MISA 模型,準確率提升了1.45 個百分點,F1 提升了2.34 個百分點。這充分地說明TCN-CHF 模型在多模態(tài)情感分類任務上的有效性和先進性。此外,根據上述實驗結果可以看出,TCN-CHF 模型的F1 值與其他模型相比具有較大提升,這可能是因為不同層次不同組合的模態(tài)融合方法以及結合TCN 和注意力構建模型的方法,關注到了模態(tài)的內部信息和更高層次的模態(tài)交互信息,使得模型的精確率達到84.12%,從而增大了模型的F1 值,提高了模型的分類性能。但是TCN-CHF 模型的參數過多,在面對小的數據集時容易產生過擬合的現象,使得模型的效率降低。而在MOSEI 數據集上三分類的準確率不明顯,原因為:一方面,分類數目更多,粒度更細;另一方面,隨著數據量的增大,干擾因素也隨之上升,導致面對大規(guī)模的數據集時其準確率不像小數據集的效果那樣突出。

      表3 不同模型在MOSI數據集上的結果Table 3 Results of different models on MOSI dataset 單位:%

      表4 不同模型在MOSEI 數據集上的結果Table 4 Results of different models on MOSEI dataset 單位:%

      TCN-CHF 模型所需內存較小,同時因為TCN 網絡可以并行處理數據,所以平均訓練耗時較短。在Google colab 服務器,顯卡為NVIDIA Tesla V100,內存為32 GB 的實驗環(huán)境下,處理MOSI 數據集中的每個話語的平均預測耗時為2.352 ms,MOSEI 數據集下的每個話語平均處理速度為1.282 ms。綜上,模型的時間復雜度和空間復雜度較低。同時利用TCN 網絡來構建模型,因為TCN 網絡本身的因果卷積是一種單向的結構,并不能依據上下文信息進行分析預測,只能根據當前時刻的信息及之前的信息進行預測分析,但是對于用來進行情感分析的模型而言,上下文信息對情感的預測也尤為重要。

      3.5 消融實驗

      (1)模態(tài)信息消融

      為了驗證多模態(tài)信息融合對于情感分析準確性的重要影響,對單模態(tài)(T,A,V)、雙模態(tài)(V+T,T+A,V+A)、三模態(tài)(T+V+A)以及復合層次融合(TVA+T+V+A),一共8 種不同組合的模態(tài)特征進行輸入,分別對其進行情感分析實驗并對實驗結果進行比較。對于單模態(tài)信息特征,只讓其經過TCN 層進行處理,然后直接用于情感傾向分析。類似地,對于雙模態(tài),先對不同模態(tài)信息之間先進行兩兩融合,再經過相同的處理后用于情感傾向分析。對于三模態(tài)信息特征,把得到的雙模態(tài)特征T+A、T+V、V+T 融合以后得到三模態(tài)融合T+A+V,采用相同的處理方法最后用于情感分析。最后采用的是本文所提出來的融合處理方法,將得到的三模態(tài)信息再與單模態(tài)信息進行融合處理得到最終的三模態(tài)特征(TVA+T+V+A)用于最終的情感分析。詳細的情感分類結果如表5 和表6 所示。

      表5 和表6 所示為模態(tài)消融實驗結果,通過表中的數據可以發(fā)現復合層次的情感分類模型表現最好,三模態(tài)特征輸入表現次之。證明了多模態(tài)信息的必要性,以及復合層次融合的方式可以進一步補充不同模態(tài)信息之間的交互信息表達,從而提高了模型的準確率。在單模態(tài)的實驗中,文本情感分析的準確率及F1 值最高,雙模態(tài)實驗中使用了文本模態(tài)信息的模型性能也更優(yōu)異,表明文本模態(tài)特征的情感特性最顯著。那是因為在人們表達自身觀點的時候文本通常包含更豐富的信息。結合分類結果的兩個評價指標,雙模態(tài)情感分析的效果普遍優(yōu)于單模態(tài)情感分析,利用三模態(tài)融合特征進行分類時的效果最好。因此,將文本、語音和圖像這三種特征進行有效融合有助于提高情感分類的性能。

      表5 不同模態(tài)組合在MOSI數據集上的情感分類結果Table 5 Sentiment classification results of different modal combinations on MOSI dataset 單位:%

      表6 不同模態(tài)組合在MOSEI數據集上的情感分類結果Table 6 Sentiment classification results of different modal combinations on MOSEI dataset 單位:%

      (2)模型消融

      為了進一步分析復合層次融合結合TCN 及Softattention 機制對模型性能的貢獻,本文設計了三組對比實驗,比較不同模塊對于模型整體性能的影響。在MOSI 和MOSEI 數據集上的對比實驗結果如圖9、圖10 所示。

      圖9 MOSI數據集上的消融實驗結果Fig.9 Model ablation results on MOSI dataset

      圖10 MOSEI數據集上的消融實驗結果Fig.10 Model ablation results on MOSEI dataset

      ①TCN-CHF(more)在使用TCN 網絡進行信息處理的時候,分別對其使用單獨的TCN 網絡,構建多個TCN 網絡,不再使用同一個TCN 網絡。

      ②TCN-CHF(trimodal)舍棄最后復合特征信息融合機制,直接使用三模態(tài)信息進行輸出分類。

      ③TCN-CHF(only)在最后輸出時不再使用軟注意力機制,對其直接進行分類輸出得到情感分析結果。

      ④Bi-GRU-CHF 使用Bi-GRU(bidirectional-gated recurrent unit)替換本文提出模型中的TCN 網絡。

      圖9、圖10 的實驗結果表明,對于MOSI 和MOSEI 數據集,舍棄或者替換TCN-CHF 模型中的任一重要模塊,都會使得模型的分類性能下降。首先,相比多個TCN 網絡建模,使用單個TCN 網絡的模型準確率提升了6 個百分點左右。原因可能是使用多個TCN 網絡在訓練時內部的參數相互獨立,導致不同模態(tài)信息之間的交互性減弱,從而使模型的準確率下降。其次,丟棄最后的軟注意力機制層或更換TCN 網絡結構為Bi-GRU 都會導致模型準確率的下降。軟注意力機制層和TCN 網絡對情感類的準確率貢獻了2%和1.3%(在大數據集二分類中)。這主要是因為舍棄注意力機制層以后,雖然得到的特征融合信息更為豐富,由于不同層次不同組合的模態(tài)融合信息存在大量冗余和噪聲干擾,對最終分類的結果產生較大的影響。使用Bi-GRU 網絡代替TCN,模型的性能有所下降,證明了TCN 相較于傳統的RNN網絡有更好的處理時間序列特征的能力,兩者共同提升模型最終的分類性能。

      4 結束語

      為了有效地提升視頻中的人物情感分析的結果,本文提出了一種基于TCN 與Soft-attention 機制復合層次融合的多模態(tài)情感分析方法。先將提取到的模態(tài)特征信息進行復合層次融合。在融合過程中使用TCN 網絡提取信息中的序列特征,最后通過篩選注意力機制進行信息過濾和特征降維,最終得到情感分類的預測結果。在數據集CMU-MOSI 和CMU-MOSEI 上的實驗表明本文方法可以提高多模態(tài)情感分類性能。整體上,本文方法在準確率以及F1 值上均優(yōu)于其他方法。

      多模態(tài)情感分析主要的研究集中在兩方面:一個是單模態(tài)信息的提取,另一個是不同模態(tài)信息的融合。單模態(tài)信息提取需要依靠其他技術,但是模態(tài)數據融合有很多種方法。下一階段將在最新的單模態(tài)技術為前提的條件下,嘗試各種融合方式,包括早期融合和晚期融合。

      猜你喜歡
      注意力卷積模態(tài)
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設計及FPGA實現
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標跟蹤算法
      “揚眼”APP:讓注意力“變現”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      國內多模態(tài)教學研究回顧與展望
      基于HHT和Prony算法的電力系統低頻振蕩模態(tài)識別
      由單個模態(tài)構造對稱簡支梁的抗彎剛度
      計算物理(2014年2期)2014-03-11 17:01:39
      一種基于卷積神經網絡的性別識別方法
      電視技術(2014年19期)2014-03-11 15:38:20
      临泉县| 金阳县| 梅州市| 吉首市| 利津县| 含山县| 齐河县| 乌兰浩特市| 芮城县| 香格里拉县| 屯昌县| 香河县| 东莞市| 晋中市| 汕尾市| 洞头县| 平塘县| 乐陵市| 寿阳县| 嘉峪关市| 河北区| 南平市| 紫金县| 金坛市| 普格县| 东莞市| 肃宁县| 开原市| 新郑市| 田林县| 兴仁县| 大姚县| 甘南县| 通化县| 依兰县| 宁安市| 南昌市| 新沂市| 牙克石市| 宝坻区| 六枝特区|