• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于語(yǔ)音、文本和表情的多模態(tài)情感識(shí)別算法

      2024-05-03 09:43:14吳曉牟璇劉銀華劉曉瑞
      關(guān)鍵詞:多模態(tài)

      吳曉 牟璇 劉銀華 劉曉瑞

      摘要 針對(duì)當(dāng)前多模態(tài)情感識(shí)別算法在模態(tài)特征提取、模態(tài)間信息融合等方面存在識(shí)別準(zhǔn)確率偏低、泛化能力較差的問(wèn)題,提出了一種基于語(yǔ)音、文本和表情的多模態(tài)情感識(shí)別算法。首先,設(shè)計(jì)了一種淺層特征提取網(wǎng)絡(luò)(Sfen)和并行卷積模塊(Pconv)提取語(yǔ)音和文本中的情感特征,通過(guò)改進(jìn)的Inception-ResnetV2模型提取視頻序列中的表情情感特征;其次,為強(qiáng)化模態(tài)間的關(guān)聯(lián)性,設(shè)計(jì)了一種用于優(yōu)化語(yǔ)音和文本特征融合的交叉注意力模塊;最后,利用基于注意力的雙向長(zhǎng)短期記憶(BiLSTM based on attention mechanism,BiLSTM-Attention)模塊關(guān)注重點(diǎn)信息,保持模態(tài)信息之間的時(shí)序相關(guān)性。實(shí)驗(yàn)通過(guò)對(duì)比3種模態(tài)不同的組合方式,發(fā)現(xiàn)預(yù)先對(duì)語(yǔ)音和文本進(jìn)行特征融合可以顯著提高識(shí)別精度。在公開(kāi)情感數(shù)據(jù)集CH-SIMS和CMU-MOSI上的實(shí)驗(yàn)結(jié)果表明,所提出的模型取得了比基線模型更高的識(shí)別準(zhǔn)確率,三分類和二分類準(zhǔn)確率分別達(dá)到97.82%和98.18%,證明了該模型的有效性。

      關(guān)鍵詞 多模態(tài);情感識(shí)別;并行卷積;交叉注意力

      A multimodal emotion recognition algorithm basedon speech, text and facial expression

      Abstract Aiming at the problems of low recognition accuracy and poor generalization ability of current multimodal emotion recognition algorithms in modal feature extraction and information fusion between modalities, a multimodal emotion recognition algorithm based on speech, text and expression is proposed. Firstly, a shallow feature extraction network (Sfen) combined with parallel convolution module (Pconv) is designed to extract the emotional features in speech and text. A modified Inception-ResnetV2 model is adopted to capture the emotional features of expression in video stream. Secondly, in order to strengthen the correlation among modalities, a cross attention module is designed to optimize the fusion between speech and text modalities. Finally, a bidirectional long and short-term memory module based on attention mechanism (BiLSTM-Attention) is used to focus on key information and maintain the temporal correlation between modalities. By comparing the different combinations of the three modalities, it is found that the hierarchical fusion strategy that processes speech and text in advance can obviously improve the accuracy of the model. Experimental results on the public emotion datasets CH-SIMS and CMU-MOSI show that the proposed model achieves higher recognition accuracy than the baseline model, with three-class and two-class accuracy reaching 97.82% and 98.18% respectively, which proves the effectiveness of the model.

      Keywords multimodal; emotion recognition; parallel convolution; cross attention

      近年來(lái),隨著人工智能技術(shù)的快速發(fā)展,人機(jī)交互逐漸成為了當(dāng)前科研人員研究的熱點(diǎn)。情感分析作為人機(jī)交互的重要組成部分,也呈現(xiàn)出了模態(tài)多元化的趨勢(shì)[1],比如使用語(yǔ)音、文本、表情,甚至腦電等生理信號(hào)來(lái)進(jìn)行情感分析。因此,如何處理和融合這些異構(gòu)信息,實(shí)現(xiàn)對(duì)其準(zhǔn)確的分析與判斷,成為了當(dāng)前需要解決的重點(diǎn)問(wèn)題。

      在情感識(shí)別領(lǐng)域中,傳統(tǒng)的機(jī)器學(xué)習(xí)方法如樸素貝葉斯(naive Bayes,NB)、支持向量機(jī)(support vector machine,SVM)等[2-3]被廣泛應(yīng)用。但隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)[4-6]為代表的數(shù)據(jù)驅(qū)動(dòng)方法逐漸成為情感分析的主流。目前,研究人員已經(jīng)在單模態(tài)情感識(shí)別領(lǐng)域取得了一定進(jìn)展。在文本情感識(shí)別方面,Xu等人提出一種基于CNN的微博情緒分類模型CNN-Text-Word2vec,使模型的整體準(zhǔn)確率比主流方法提高了7.0%[7];在圖像情感識(shí)別方面,鄭劍等人提出了一種基于DCNN的FLF-TAWL網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠自適應(yīng)捕捉人臉重要區(qū)域,提高人臉識(shí)別的有效性[8];在語(yǔ)音情感識(shí)別方面,部分研究將聲學(xué)特征和RNN進(jìn)行結(jié)合,如Dutta等人提出一種語(yǔ)音識(shí)別模型,利用RNN提取線性預(yù)測(cè)編碼(linear predictive coding,LPC)和Mel頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)特征,并在識(shí)別阿薩姆語(yǔ)上取得了一定效果[9]。

      近期的研究表明,多模態(tài)情感模型能夠?qū)?lái)自不同感知模態(tài)的信息有效融合。由于充分利用了數(shù)據(jù)的多樣性,多模態(tài)模型表現(xiàn)出比單模態(tài)模型更大的優(yōu)勢(shì)。針對(duì)多模態(tài)情感識(shí)別,國(guó)內(nèi)外學(xué)者已經(jīng)開(kāi)展了深入的研究工作。如HOU等人提出一種早期融合模型EF-LSTM,通過(guò)拼接語(yǔ)音、文本和表情3種模態(tài)的特征并利用LSTM進(jìn)行編碼,有效提取了模態(tài)間的交互信息[10]。Zadeh等人設(shè)計(jì)一種張量融合網(wǎng)絡(luò)(TFN),通過(guò)采用多維張量的外積操作,較好地捕獲了不同模態(tài)間的交互信息[11]。Liu等人設(shè)計(jì)一種低秩多模態(tài)融合算法(LMF),在TFN的基礎(chǔ)上進(jìn)行低秩多模態(tài)張量融合,使網(wǎng)絡(luò)效果得到一定的提升[12]。Zadeh等人提出一種記憶融合網(wǎng)絡(luò)(MFN),通過(guò)利用注意力機(jī)制和多視圖門(mén)控網(wǎng)絡(luò),同步捕捉了時(shí)序序列和模態(tài)間的交互信息[13]。Tsai等人提出一種跨模態(tài)網(wǎng)絡(luò)Transformer(MulT),通過(guò)擴(kuò)展多式Transformer結(jié)構(gòu),成功解決了不同模態(tài)數(shù)據(jù)的長(zhǎng)期依賴性問(wèn)題,進(jìn)一步提高了模型性能[14]。Yu等人提出一種自監(jiān)督多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)Self-MM,通過(guò)設(shè)計(jì)基于自監(jiān)督學(xué)習(xí)策略的標(biāo)簽生成模塊,并引入權(quán)重自調(diào)整策略,較好地實(shí)現(xiàn)了對(duì)情感的預(yù)測(cè)分類[15]。雖然研究者不斷探索新的情感識(shí)別模型以提升多模態(tài)情感識(shí)別的準(zhǔn)確率,但仍存在一些不足。在情感特征提取方面,上述多模態(tài)情感模型主要通過(guò)預(yù)訓(xùn)練模型實(shí)現(xiàn)對(duì)情感特征提取。但預(yù)訓(xùn)練模型往往需要進(jìn)行微調(diào)或遷移學(xué)習(xí)來(lái)達(dá)到適應(yīng)特定任務(wù)的目的,可能會(huì)導(dǎo)致在小樣本數(shù)據(jù)集或特定應(yīng)用中出現(xiàn)泛化性能力不足的問(wèn)題。在特征融合方面,上述多模態(tài)模型雖然采用了一些改進(jìn)型的融合方法,但在融合過(guò)程中沒(méi)有很好地考慮模態(tài)特征間的相關(guān)性及模態(tài)的選擇性問(wèn)題,導(dǎo)致最終的識(shí)別準(zhǔn)確率偏低。

      針對(duì)上述問(wèn)題,本文在現(xiàn)有研究的基礎(chǔ)上提出了一種基于語(yǔ)音、文本和表情的多模態(tài)情感識(shí)別算法。該算法利用Sfen網(wǎng)絡(luò)和Pconv模塊充分提取語(yǔ)音和文本情感特征;采用改進(jìn)的Inception-ResnetV2網(wǎng)絡(luò)[16]提取表情情感特征;通過(guò)交叉注意力融合(cross attention fusion,CAF)模塊強(qiáng)化語(yǔ)音和文本特征的相關(guān)性;最后,利用BiLSTM-Attention模塊獲取關(guān)鍵信息,保持信息在時(shí)間上的連續(xù)性。

      1 多模態(tài)情感識(shí)別模型

      構(gòu)建多模態(tài)情感識(shí)別模型通常包括以下幾個(gè)方面:多模態(tài)信息預(yù)處理、情感特征提取、情感識(shí)別模型的設(shè)計(jì)與選擇、特征融合方案[17]。如何確定有效的模態(tài)組合方案,并實(shí)現(xiàn)有效的特征融合是本文需要研究的重點(diǎn)問(wèn)題。本文利用語(yǔ)音(A)、文本(T)與表情(V)3種模態(tài)構(gòu)建多模態(tài)情感識(shí)別模型,該模型主要是由Sfen網(wǎng)絡(luò)、Pconv模塊、BiLSTM-Attention模塊和交叉注意力融合(CAF)模塊組成,整體框架如圖1所示。

      在圖1所示的模型框架中,首先利用Sfen網(wǎng)絡(luò)和Pconv模塊提取語(yǔ)音和文本的情感特征,并通過(guò)CAF模塊實(shí)現(xiàn)2個(gè)模態(tài)間的信息互補(bǔ),優(yōu)化模態(tài)間的信息融合。對(duì)于基于視頻的表情信息,該情感識(shí)別方法以圖片識(shí)別分類常用的Inception-ResnetV2模型為基礎(chǔ)進(jìn)行改進(jìn),以提高在多種環(huán)境背景下的魯棒性。在融合策略上,本文將語(yǔ)音-文本特征與表情特征進(jìn)行特征級(jí)[18]融合,并通過(guò)BiLSTM-Attention模塊后,利用Softmax實(shí)現(xiàn)對(duì)情感的識(shí)別分類。

      1.1 數(shù)據(jù)預(yù)處理

      目前語(yǔ)音信號(hào)預(yù)處理的方法主要有傅里葉變換、 神經(jīng)網(wǎng)絡(luò)、 動(dòng)態(tài)時(shí)間規(guī)劃和梅爾頻率倒譜系數(shù)(MFCC)[19]等, 其中, 梅爾頻率倒譜系數(shù)提取到的特征參數(shù)更接近人耳感知的特點(diǎn)。 本文利用MFCC對(duì)視頻中的原始語(yǔ)音信號(hào)進(jìn)行預(yù)處理,通過(guò)對(duì)提取到的語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)加重、分幀和加窗等操作,將原始語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)音特征參數(shù)。針對(duì)原始文本數(shù)據(jù),首先,采用文本分類中常用的jieba分詞工具[20]對(duì)文本中的分詞進(jìn)行分類;然后,利用停止詞數(shù)據(jù)庫(kù)去除文本信息中的停止詞,避免無(wú)用信息的干擾;最后,通過(guò)word2vec[7]模型將文本轉(zhuǎn)換成詞向量形式,構(gòu)建詞向量字典。針對(duì)研究中使用的文本數(shù)據(jù)量,使用了word2vec中的CBOW[21]作為本文的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。

      數(shù)據(jù)集中原始視頻片段的背景、 光線和環(huán)境等因素[22]可能會(huì)導(dǎo)致從視頻中提取到的連續(xù)幀無(wú)法被準(zhǔn)確地識(shí)別為人臉。 因此, 本文首先將每個(gè)視頻片段逐幀處理成連續(xù)的圖片, 利用MTCNN[23]模型和OpenCV庫(kù)中的CascadeClassifier[24]人臉級(jí)聯(lián)檢測(cè)器實(shí)現(xiàn)對(duì)人臉的檢測(cè),提高對(duì)人臉的檢測(cè)精度;然后,將檢測(cè)到的人臉圖像裁剪成149×149的統(tǒng)一尺寸大小;最后,經(jīng)過(guò)歸一化、灰度化后,輸出處理后的圖片序列。

      1.2 語(yǔ)音文本特征提取

      在情感識(shí)別的過(guò)程中,淺層特征提取主要從輸入的文本、語(yǔ)音或圖像中提取有關(guān)情感的表層信息,是數(shù)據(jù)預(yù)處理后的一項(xiàng)關(guān)鍵步驟。針對(duì)語(yǔ)音和文本模態(tài),本文設(shè)計(jì)了一種Sfen網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)2種模態(tài)淺層特征的提取,Sfen網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

      對(duì)于音頻輸入,語(yǔ)音特征參數(shù)經(jīng)過(guò)Sfen1網(wǎng)絡(luò)中一維卷積層和池化層的處理后得到語(yǔ)音淺層特征(卷積核大小為3×3)。類似地,對(duì)于文本輸入,詞向量字典通過(guò)Sfen2網(wǎng)絡(luò)中的Embedding和BiLSTM層后得到文本淺層特征。其中,Embedding層增強(qiáng)了文本特征之間的相關(guān)性,在Embedding層之后引入BiLSTM能夠捕獲更豐富的上下文信息,同時(shí)保持文本間的序列關(guān)系。語(yǔ)音特征參數(shù)和詞向量字典經(jīng)過(guò)各自的Sfen網(wǎng)絡(luò)處理后,其輸出特征維度保持相同,確保了后續(xù)語(yǔ)音和文本特征融合的可行性。

      為獲取深層次的情感特征,本文利用殘差網(wǎng)絡(luò)[25](residual network,ResNet)的思想將最大池化層與卷積層進(jìn)行拼接,針對(duì)語(yǔ)音和文本2個(gè)模態(tài)設(shè)計(jì)了一種Pconv模塊,其結(jié)構(gòu)如圖3所示。

      在圖3中,Pconv模塊由最大池化層、Bconv單元和Sconv單元3部分組成。其中,Bconv單元由3層組成:傳統(tǒng)卷積層、LeakyReLU激活函數(shù)、批標(biāo)準(zhǔn)化(Batch Normalization)。Sconv單元與Bconv單元類似,但在輸入環(huán)節(jié)使用了卷積核大小為3×3的深度可分離卷積層[26](Depth Separable Convolution),進(jìn)一步減少運(yùn)算參數(shù)的數(shù)量,提高運(yùn)算效率。在次級(jí)輸出環(huán)節(jié),本文將最大池化層的輸出和Bconv單元的輸出進(jìn)行拼接,其輸出再與Sconv單元的輸出特征進(jìn)行疊加。上述設(shè)計(jì)中的拼接環(huán)節(jié)可以增加最終輸出特征的多樣性,而疊加環(huán)節(jié)又可以在輸出前對(duì)每個(gè)維度的特征進(jìn)行增強(qiáng)和補(bǔ)充。該P(yáng)conv模塊采用的殘差連接的方法,避免了神經(jīng)網(wǎng)絡(luò)中的信息冗余和梯度爆炸[27]問(wèn)題,使得網(wǎng)絡(luò)能夠更有效地學(xué)習(xí)到數(shù)據(jù)的特征表示,保證了特征提取的充分性。

      1.3 表情特征提取

      目前處理視頻序列中面部表情信息的方法主要是3D卷積和2D卷積,其中,3D卷積能夠在時(shí)間維度上捕捉連續(xù)視頻幀之間的動(dòng)態(tài)信息,2D卷積能夠在每個(gè)視頻幀中提取空間特征。本文將3D卷積與2D卷積相結(jié)合,先利用2D卷積提取圖像幀的空間特征,再使用3D卷積捕捉時(shí)間維度的特征,不僅可以形成更深層次的特征表示,還能夠有效地提高面部表情的識(shí)別效率。

      Inception-ResnetV2神經(jīng)網(wǎng)絡(luò)模型具有良好的特征提取能力和泛化性能,常用于圖像分類、目標(biāo)檢測(cè)等任務(wù)。本研究采用的表情情感識(shí)別模型是在Inception-ResnetV2模型的基礎(chǔ)上進(jìn)行的改進(jìn),利用3D卷積與2D卷積相結(jié)合的多尺度卷積核[28]處理表情數(shù)據(jù)信息。改進(jìn)后的模型結(jié)構(gòu)如圖4所示。在傳統(tǒng)的Inception-ResnetV2模型的基礎(chǔ)上,將其前半部分的特征提取層由2D轉(zhuǎn)換為3D,利用三維卷積核滑動(dòng)提取相應(yīng)特征。由于時(shí)間維度較小,當(dāng)時(shí)間維度卷積為1時(shí),再次通過(guò)壓縮方式(squeeze)將3D卷積轉(zhuǎn)換為2D卷積,減少訓(xùn)練參數(shù)的產(chǎn)生,降低運(yùn)算難度。

      1.4 交叉注意力融合模塊

      模態(tài)特征的融合需要考慮不同模態(tài)間的耦合關(guān)系。目前的研究表明T(文本)和A(語(yǔ)言)2種模態(tài)之間存在緊密的時(shí)序與特征耦合關(guān)系[29]。本文改變了傳統(tǒng)的特征融合方式,設(shè)計(jì)了一種基于交叉注意力的融合模塊,在保留模態(tài)內(nèi)特征的同時(shí),有效地編碼T和A模態(tài)間的信息。該融合模塊結(jié)構(gòu)如圖5所示。

      在圖5所示的交叉注意力融合模塊中, Xt和Xa分別代表數(shù)據(jù)集中的視頻序列X經(jīng)過(guò)Pconv模塊后提取出的T和A的深層特征。 為使模態(tài)間的異質(zhì)性最小化, 設(shè)置了一個(gè)可學(xué)習(xí)的權(quán)重矩陣W∈Rk×k,相互計(jì)算的關(guān)系如式(1)所示,

      Y=XTa WXt(1)

      式中:Y∈Rl×l;W代表文本和語(yǔ)音的相互關(guān)系權(quán)重;k代表文本和語(yǔ)音的特征維度。相關(guān)矩陣Y給出了T和A特征之間的相關(guān)性度量,較高的相關(guān)系數(shù)說(shuō)明子序列對(duì)應(yīng)的T和A特征之間具有較強(qiáng)的相關(guān)性。基于以上思路,分別利用YT和Y的softmax函數(shù)進(jìn)一步計(jì)算T和A特征的交叉注意力權(quán)重Zt和Za。計(jì)算如式(2)和(3)所示。

      式中:i和j表示矩陣Y的第i行和第j列元素;Ts表示softmax系數(shù)。

      式中:Zt和Za分別代表T和A特征的交叉注意力權(quán)重。通過(guò)將重加權(quán)的注意力圖添加到相應(yīng)的特征上,可獲得2種模態(tài)的深層特征表征Xatt,t與Xatt,a,如式(6)和(7)所示。

      Xatt,t=tanh(Xt+t)(6)

      Xatt,a=tanh(Xa+a)(7)

      將Xatt,t和Xatt,a拼接起來(lái),得到T和A的特征表示,即[AKX]=[Xatt,t,Xatt,a]。經(jīng)過(guò)交叉注意力模塊融合后的特征將再次輸入到下一級(jí)Pconv模塊中,通過(guò)其并行結(jié)構(gòu)充分提取融合后的信息。

      1.5 BiLSTM-Attention模塊

      長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[30](long short term memory,LSTM)利用3個(gè)不同門(mén)結(jié)構(gòu),有效解決了序列數(shù)據(jù)的依賴性和語(yǔ)序問(wèn)題,其結(jié)構(gòu)如圖6所示。

      在t時(shí)刻,將當(dāng)前隱層狀態(tài)記為ht,各門(mén)狀態(tài)更新如下:

      ft=σ(Wf·[ht-1,xt]+bf)(8)

      Ct=ft*Ct-1+it*tanh(Wc·[ht-1,xt]+bc)(9)

      it=σ(Wi·[ht-1,xt]+bi)(10)

      ot=σ(Wo·[ht-1,xt]+bo)(11)

      ht=ot*tanh(Ct)(12)

      式中:xt表示當(dāng)前輸入單元狀態(tài);ft、Ct、it、ot分別表示當(dāng)前遺忘門(mén)、存儲(chǔ)單元、輸入門(mén)、輸出門(mén);b*表示偏置項(xiàng);W*表示權(quán)重矩陣;σ是激活函數(shù)。

      LSTM只能獲取輸出時(shí)刻前的信息, 不能利用反向信息, 本文利用了2個(gè)單向LSTM構(gòu)成雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM), 同時(shí)處理前向與后向信息。 此外, 注意力機(jī)制[31](attention)能夠在訓(xùn)練過(guò)程中根據(jù)特征序列信息的重要程度賦予權(quán)重值, 選擇性忽略非重要信息,最大化相關(guān)向量的貢獻(xiàn)。 為使模型更好獲取輸入序列中不同位置的重要性, 在BiLSTM層的基礎(chǔ)上添加注意力層提高網(wǎng)絡(luò)對(duì)關(guān)鍵信息的感知和利用能力。BiLSTM-Attention模塊結(jié)構(gòu)如圖7所示。

      2 多模態(tài)情感識(shí)別實(shí)驗(yàn)

      2.1 數(shù)據(jù)集

      實(shí)驗(yàn)數(shù)據(jù)集選用公開(kāi)的多模態(tài)情感數(shù)據(jù)集CH-SIMS[32]和CMU-MOSI[33]。CH-SIMS數(shù)據(jù)集取材自60部電影、電視劇與綜藝節(jié)目,包括2 281個(gè)視頻片段。每個(gè)視頻片段中的情感狀態(tài)由5個(gè)人給予標(biāo)注,以平均標(biāo)注結(jié)果作為該片段的情緒狀態(tài)。CMU-MOSI數(shù)據(jù)集包含YouTube上收集的90個(gè)視頻,并將其人工劃分為2 199個(gè)視頻片段。其中,CH-SIMS數(shù)據(jù)集的情緒狀態(tài)分為消極、中性和積極3種(對(duì)應(yīng)標(biāo)簽0、1、2),CMU-MOSI數(shù)據(jù)集的情緒狀態(tài)分為消極和積極2種(對(duì)應(yīng)標(biāo)簽0、1)。同時(shí),將數(shù)據(jù)集劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)集信息如表1所示。

      2.2 參數(shù)設(shè)置與評(píng)估指標(biāo)

      實(shí)驗(yàn)基于TensorFlow深度學(xué)習(xí)框架進(jìn)行模型搭建,在NF5468型24*GPU服務(wù)器上進(jìn)行模型訓(xùn)練。訓(xùn)練中采用SGD作為網(wǎng)絡(luò)優(yōu)化函數(shù),LeakRelu作為激活函數(shù)。訓(xùn)練時(shí)的Batch size設(shè)置為32,Epoch=1 000,學(xué)習(xí)率為1e-4,LSTM層的隱藏層單元數(shù)量為128。為防止網(wǎng)絡(luò)在訓(xùn)練中出現(xiàn)過(guò)擬合現(xiàn)象,在BiLSTM-Attention層后使用P=0.5的Dropout作為補(bǔ)償。

      本文采用了準(zhǔn)確率(Accuracy,式中簡(jiǎn)記RAcc)和F1值(F1-score,式中簡(jiǎn)記F1)作為模型整體性能的評(píng)估指標(biāo)。具體計(jì)算如式(13)和(14)所示。

      式中:NTP表示實(shí)際與預(yù)測(cè)均為正的樣本數(shù);NFP表示實(shí)際為負(fù)但預(yù)測(cè)為正的樣本數(shù);NTN表示實(shí)際與預(yù)測(cè)均為負(fù)的樣本數(shù);NFN表示實(shí)際為正但預(yù)測(cè)為負(fù)的樣本數(shù)。

      2.3 組合方案討論

      為驗(yàn)證提出的多模態(tài)情感框架中采用的模態(tài)組合方式的有效性,本文共討論了4種(AT-V、AV-T、TV-A、A-T-V)模態(tài)組合方案,如圖8所示。

      為保證實(shí)驗(yàn)的可靠度,4組實(shí)驗(yàn)均在CH-SIMS和CMU-MOSI數(shù)據(jù)集上進(jìn)行驗(yàn)證且訓(xùn)練超參數(shù)保持一致,實(shí)驗(yàn)結(jié)果如表2所示。其中,Acc-2和Acc-3分別表示二分類和三分類的準(zhǔn)確率。通過(guò)表2可以看出,方案1中的模態(tài)組合AT-V在2類數(shù)據(jù)集上都取得比另外3種方案更好的識(shí)別效果。其中,方案1在CH-SIMS上的Acc-3、F1分別達(dá)到了96.94%、96.67%;在CMU-MOSI上分別達(dá)到97.73%和97.52%。表明本文采用的語(yǔ)音和文本先進(jìn)行特征融合是最優(yōu)的三模態(tài)組合方式。

      2.4 消融實(shí)驗(yàn)

      2.4.1 融合方式消融實(shí)驗(yàn)

      在確定2.3節(jié)中方案1為最優(yōu)的三模態(tài)組合(AT-V)后,為驗(yàn)證本文提出的交叉注意力融合模塊(CAF)的優(yōu)勢(shì),進(jìn)一步將方案1中的語(yǔ)音和文本特征融合的方式由Concat分別替換為Self-Attention[34]和CAF并進(jìn)行消融實(shí)驗(yàn)。其中,Concat表示不添加注意力的簡(jiǎn)單特征拼接,Self-Attention表示自注意力融合方式,其強(qiáng)調(diào)相關(guān)特征的組成部分。實(shí)驗(yàn)結(jié)果如表3所示。

      通過(guò)表3可以看出,在引入了交叉注意力后,該模型在2類數(shù)據(jù)集上的評(píng)估指標(biāo)均得到了顯著的提升。在CH-SIMS數(shù)據(jù)集上,Acc-3和F1值分別達(dá)到97.82%和97.33%;在CMU-MOSI數(shù)據(jù)集上,Acc-2和F1值分別達(dá)到98.18%和97.87%。相對(duì)于簡(jiǎn)單的特征拼接(Concat)的融合方式,自注意力(Self-Attention)融合方法雖在一定程度提高了系統(tǒng)的性能,凸顯了相關(guān)的特征組成部分,但是其計(jì)算方式較為復(fù)雜,增加了模型的復(fù)雜性。相對(duì)于自注意力融合,由于交叉注意力融合(CAF)機(jī)制通過(guò)利用A-T特征之間的相互關(guān)聯(lián)性,且計(jì)算方式更為簡(jiǎn)便,有效地捕獲了2種模態(tài)的互補(bǔ)性,進(jìn)一步提高了模型性能。以上結(jié)果符合本文的預(yù)期設(shè)想,證明了提出的交叉注意力能夠更好地利用語(yǔ)音和文本間的特征互補(bǔ)關(guān)系,進(jìn)一步提高特征融合的效果。

      2.4.2 BiLSTM-Attention模塊消融實(shí)驗(yàn)

      為驗(yàn)證本文利用的BiLSTM-Attention模塊的作用,做了3組對(duì)比實(shí)驗(yàn)。①FC:語(yǔ)音、文本與表情3種模態(tài)進(jìn)行特征融合后輸入到全連接層輸出;②LSTM:在特征融合后通過(guò)LSTM網(wǎng)絡(luò)輸出;③BiLSTM:特征融合后通過(guò)雙向LSTM輸出。實(shí)驗(yàn)結(jié)果如表4所示。

      從表4可以看出,在以上4種模型對(duì)比實(shí)驗(yàn)結(jié)果中,本文的BiLSTM-Attention模塊在Acc和F1值上均取得了最優(yōu)。在CH-SIMS數(shù)據(jù)集上較其他3種模型至少高出了0.004 5和0.001 5;在CMU-MOSI數(shù)據(jù)集上至少高出了0.004 5和0.002 2。通過(guò)以上不同模型的對(duì)比實(shí)驗(yàn)結(jié)果可知,本文采用的BiLSTM與Attention相結(jié)合的方法有助于更好地實(shí)現(xiàn)對(duì)多模態(tài)情感的分析和預(yù)測(cè),進(jìn)一步表明了該網(wǎng)絡(luò)模塊對(duì)多模態(tài)情感模型的重要性。

      2.4.3 模態(tài)消融實(shí)驗(yàn)

      為驗(yàn)證本文提出的網(wǎng)絡(luò)模型的適用性,在CH-SIMS數(shù)據(jù)集分別進(jìn)行了單模態(tài)、雙模態(tài)及三模態(tài)7種組合的消融實(shí)驗(yàn)。具體的消融實(shí)驗(yàn)結(jié)果如表5所示。

      通過(guò)表5可以觀察到三模態(tài)的Acc-3和F1指標(biāo)均優(yōu)于單模態(tài)和雙模態(tài),效果最好。在單模態(tài)情感識(shí)別實(shí)驗(yàn)中,表情模態(tài)信息預(yù)測(cè)真實(shí)情感能力最強(qiáng),Acc-3達(dá)到87.81%,F(xiàn)1達(dá)到87.26%。在雙模態(tài)情感識(shí)別實(shí)驗(yàn)中,A+V組合效果最好,Acc-3、F1分別達(dá)到95.20%、94.64%,T+V和T+A次之。心理學(xué)家Mehrabian的研究發(fā)現(xiàn),人們?cè)谌粘I钪械那楦行畔⒅饕峭ㄟ^(guò)表情與語(yǔ)言傳達(dá)的[35],這也與消融實(shí)驗(yàn)中A+V模態(tài)組合的實(shí)驗(yàn)結(jié)果相符。以上的消融實(shí)驗(yàn)不僅驗(yàn)證了利用語(yǔ)音、文本和表情進(jìn)行多模態(tài)情感識(shí)別的必要性,也證明了本文提出的引入CAF思想的多模態(tài)情感融合方法的可行性和有效性。

      2.5 對(duì)比實(shí)驗(yàn)

      本節(jié)將提出的多模態(tài)模型與目前多種經(jīng)典的情感模型進(jìn)行對(duì)比,基線模型介紹如下。

      EF-LSTM[10]:早期融合的LSTM模型。首先拼接3種模態(tài)的特征向量,然后利用LSTM對(duì)拼接后的特征進(jìn)行編碼。

      LF-LSTM[10]:晚期融合的LSTM模型。首先LSTM編碼3個(gè)模態(tài)特征向量,然后結(jié)合LSTM最后一層的隱層向量構(gòu)成多模態(tài)的特征表示。

      MAG-BERT[36]:多模態(tài)自適應(yīng)門(mén)模型。通過(guò)提出一種多模態(tài)自適應(yīng)門(mén)機(jī)制(MAG),使BERT和XLNet能夠在微調(diào)過(guò)程中接受多模態(tài)數(shù)據(jù)的輸入。

      MuIT[14]:多模態(tài)Transformer模型。通過(guò)考慮不同模態(tài)之間的時(shí)序依賴關(guān)系,實(shí)現(xiàn)在非對(duì)齊數(shù)據(jù)集上的跨模態(tài)交互。

      MMIM[37]:多模態(tài)分層互信息最大化框架。在多模態(tài)分析任務(wù)中引入互信息理論,最大化輸入級(jí)和融合級(jí)特征表征的互信息。

      MISA[38]:模態(tài)不變和模態(tài)特定表征框架。針對(duì)不同模態(tài)學(xué)習(xí)模態(tài)不變和模態(tài)特定的特征表示,對(duì)不同種類的表示向量提出分布相似性損失、重建損失、正交損失及任務(wù)預(yù)測(cè)損失。

      Self-MM[15]:自監(jiān)督多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)。通過(guò)一種基于自監(jiān)督策略的標(biāo)簽生成模塊獲取單模態(tài)表征,并在訓(xùn)練階段設(shè)計(jì)一種平衡不同任務(wù)損失的權(quán)重調(diào)整策略。

      CMFIB[39]:跨模態(tài)融合與信息瓶頸模型。利用互信息估計(jì)模塊優(yōu)化多模態(tài)表示向量與真實(shí)標(biāo)簽之間的互信息下限,最小化輸入數(shù)據(jù)與多模態(tài)表示向量間的互信息。

      經(jīng)過(guò)多次對(duì)比實(shí)驗(yàn),在2類數(shù)據(jù)集上和其他基線模型的評(píng)估指標(biāo)對(duì)比結(jié)果如表6所示。

      由表6可知,本文提出的模型在Acc和F1值2類評(píng)估指標(biāo)上要優(yōu)于對(duì)比的基線模型,尤其在CMU-MOSI數(shù)據(jù)集上表現(xiàn)更好,Acc-2和F1指標(biāo)比最優(yōu)基線模型分別提升了0.116 2和0.113 7;在CH-SIMS數(shù)據(jù)集上,Acc-3和F1值比最優(yōu)基線模型分別提升了0.175 4和0.170 6。該結(jié)果表明,本文設(shè)計(jì)的特征提取網(wǎng)絡(luò)以及交叉注意力機(jī)制等組件能夠有效地挖掘模態(tài)間的特征關(guān)系,增強(qiáng)模態(tài)間的相互依賴性。這對(duì)于多模態(tài)數(shù)據(jù)的融合和各項(xiàng)評(píng)估指標(biāo)的提升產(chǎn)生了顯著效果。

      在上述基線模型中,EF-LSTM和LF-LSTM效果表現(xiàn)最差。這是因?yàn)?種模型直接拼接3種特征,保留了大量噪聲,無(wú)法篩選出重要信息。本文的注意力機(jī)制能夠?qū)﹃P(guān)鍵信息進(jìn)行加權(quán)處理,增強(qiáng)其顯著性,進(jìn)而提升模型的性能。與MuIT和MAG-BERT相比,本文的模型的Acc指標(biāo)在CH-SIMS上至少提升了約21個(gè)百分點(diǎn),在CMU-MOSI上至少提升了約14個(gè)百分點(diǎn)。MuIT在計(jì)算模態(tài)間的依賴關(guān)系時(shí),未考慮上下文信息,且網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜。MAG-BERT雖較MuIT有一定的提升,但在預(yù)訓(xùn)練或微調(diào)過(guò)程中需要大量的多模態(tài)數(shù)據(jù),可能會(huì)導(dǎo)致模型計(jì)算困難。本文模型在情感計(jì)算時(shí)通過(guò)利用多尺度卷積核和BiLSTM網(wǎng)絡(luò),降低了計(jì)算量并保持了上下文時(shí)序相關(guān)性,提高了計(jì)算效率。

      與MMIM和MISA相比,本文模型采用的交叉注意力融合機(jī)制更加適用于多模態(tài)識(shí)別任務(wù),在有效利用不同模態(tài)互補(bǔ)特性的同時(shí)增強(qiáng)了模態(tài)間的相關(guān)性。與Self-MM和CMFIB相比,所提出的方法在2類數(shù)據(jù)集的評(píng)估指標(biāo)上表現(xiàn)出色,取得了較好的效果。Self-MM在任務(wù)間特征共享方面容易過(guò)擬合某些任務(wù),可能導(dǎo)致其性能的下降。CMFIB在情感分析時(shí)只能捕捉到變量之間的關(guān)聯(lián)性,難以充分捕捉模態(tài)的深層情感特征。本文設(shè)計(jì)的Pconv模塊利用并行架構(gòu)和特定網(wǎng)絡(luò)層降低了過(guò)擬合的風(fēng)險(xiǎn),并有效提取了深層次的特征。

      3 結(jié)語(yǔ)

      針對(duì)當(dāng)前多模態(tài)情感模型存在識(shí)別精度低等問(wèn)題,本文提出了一種基于語(yǔ)音、文本和表情的多模態(tài)情感識(shí)別算法。該模型由Sfen網(wǎng)絡(luò)、Pconv模塊和改進(jìn)的Inception-ResnetV2網(wǎng)絡(luò)提取多模態(tài)特征,利用交叉注意力融合機(jī)制強(qiáng)化語(yǔ)音-文本雙模態(tài)的關(guān)聯(lián)性,并通過(guò)BiLSTM-Attention模塊實(shí)現(xiàn)對(duì)情感的預(yù)測(cè)和分類。在CH-SIMS和CMU-MOSI數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型可以更好地提取模態(tài)特征并進(jìn)行特征融合,顯著提高情感識(shí)別的精度。接下來(lái)本研究將進(jìn)一步細(xì)化情感類別,并探討在細(xì)粒度識(shí)別任務(wù)下的多模態(tài)融合算法的架構(gòu)設(shè)計(jì)。

      參考文獻(xiàn)

      [1] 李霞, 盧官明, 閆靜杰, 等. 多模態(tài)維度情感預(yù)測(cè)綜述[J]. 自動(dòng)化學(xué)報(bào), 2018, 44(12): 2142-2159.

      LI X, LU G M, YAN J J, et al. A review of multimodal dime-nsional sentiment prediction[J]. Journal of Auctomatica Sinica, 2018, 44(12): 2142-2159.

      [2] RISH I. An empirical study of the naive Bayes classifier [J].Journal of Universal Computer Science, 2001, 1(2):127.

      [3] 趙健, 周莉蕓, 武孟青, 等. 基于人工智能的抑郁癥輔助診斷方法[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023, 53(3): 325-335.

      ZHAO J, ZHOU L Y, WU M Q, et al. Assistant diagnosis method of depression based on artificial intelligence [J]. Journal of Northwest University (Natural Science Edition), 2023, 53(3): 325-335.

      [4] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

      [5] ELMAN J L. Finding structure in time[J]. Cognitive Science, 1990, 14(2): 179-211.

      [6] MAJUMDER N, HAZARIKA D, GELBUKH A, et al. Multimodal sentiment analysis using hierarchical fusion with context modeling[J]. Knowledge-Based Systems, 2018, 161: 124-133.

      [7] XU D L, TIAN Z H, LAI R F, et al. Deep learning based emotion analysis of microblog texts[J]. Information Fusion, 2020, 64: 1-11.

      [8] 鄭劍, 鄭熾, 劉豪, 等. 融合局部特征與兩階段注意力權(quán)重學(xué)習(xí)的面部表情識(shí)別[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(3): 889-894.

      ZHENG J, ZHENG C, LIU H, et al. Deep convolutional neural network fusing local feature and two-stage attention weight learning for facial expression recognition[J]. Application Research of Computers, 2022, 39(3): 889-894.

      [9] DUTTA K, SARMA K K. Multiple feature extraction for RNN-based Assamese speech recognition for speech to text conversion application[C]∥2012 International Conference on Communications, Devices and Intelligent Systems. Kolkata: IEEE, 2012: 600-603.

      [10]HOU M, TANG J J, ZHANG J H, et al. Deep multimodal multilinear fusion with high-order polynomial pooling[C]∥Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc.,2019:12156-12166.

      [11]ZADEH A, CHEN M, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis[C]∥Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: Association for Computational Linguistics, 2017: 1103-1114.

      [12]LIU Z, SHEN Y, LAKSHMINARASIMHAN V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[C]∥Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne: Association for Computational Linguistics, 2018: 2247-2256.

      [13]ZADEH A, LIANG P P, MAZUMDER N, et al. Memory fusion network for multi-view sequential learning[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1): 5634-5641.

      [14]TSAI Y H H, BAI S J, LIANG P P, et al. Multimodal transformer for unaligned multimodal language sequences[J].Proceedings of the? Conference? Association for Computational Linguistics Meeting, 2019, 2019: 6558-6569.

      [15]YU W M, XU H, YUAN Z Q, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis[J].Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(12): 10790-10797.

      [16]ZHAO J, ZHANG M, HE C, et al. A novel facial attractiveness evaluation system based on face shape, facial structure features and skin[J]. Cognitive Neurodynamics, 2020, 14(5): 643-656.

      [17]賈寧, 鄭純軍. 融合音頻、文本、表情動(dòng)作的多模態(tài)情感識(shí)別[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2023, 41(1): 55-70.

      JIA N, ZHENG C J. Multimodal emotion recognition by fusing audio, text, and expression-action[J]. Journal of Applied Sciences, 2023, 41(1): 55-70.

      [18]WANG Y Y, GU Y, YIN Y F, et al. Multimodal transformer augmented fusion for speech emotion recognition[J]. Frontiers in Neurorobotics, 2023, 17: 1181598.

      [19]焦亞萌, 周成智, 李文萍, 等. 融合多頭注意力的VGGNet語(yǔ)音情感識(shí)別研究[J]. 國(guó)外電子測(cè)量技術(shù), 2022, 41(1): 63-69.

      JIAO Y M, ZHOU C Z, LI W P, et al. Research on speech emotion recognition with VGGNet incorporating multi-headed attention [J]. Foreign Electronic Measurement Technology, 2022, 41(1): 63-69.

      [20]ZHANG Y M, SUN M H, REN Y, et al. Sentiment analysis of sina weibo users under the impact of super typhoon lekima using natural language processing tools: A multi-tags case study[J]. Procedia Computer Science, 2020, 174: 478-490.

      [21]劉亞姝, 侯躍然, 嚴(yán)寒冰. 基于異質(zhì)信息網(wǎng)絡(luò)的惡意代碼檢測(cè)[J]. 北京航空航天大學(xué)學(xué)報(bào), 2022, 48(2): 258-265.

      LIU Y S, HOU Y R, YAN H B. Malicious code detection based on heterogeneous information networks[J]. Journal of Beijing University of Aeronautics and Astronautics, 2022, 48(2): 258-265.

      [22]邱世振, 白靖文, 張晉行, 等. 基于六軸機(jī)械臂驅(qū)動(dòng)的微波球面掃描成像系統(tǒng)[J]. 電子測(cè)量與儀器學(xué)報(bào), 2023, 37(4): 98-106.

      QIU S Z, BAI J W, ZHANG J X, et al. Microwave spherical scanning imaging system driven by six-axis manipulator [J]. Journal of Electronic Measurement and Instrumentation, 2023, 37(4): 98-106.

      [23]KU H C, DONG W. Face recognition based on MTCNN and convolutional neural network[J]. Frontiers in Signal Processing, 2020, 4(1): 37-42.

      [24]付而康, 周佳玟, 姚智, 等. 基于機(jī)器視覺(jué)識(shí)別的戶外環(huán)境情緒感受測(cè)度研究[J]. 景觀設(shè)計(jì)學(xué)(中英文), 2021, 9(5): 46-59.

      FU E K, ZHOU J C, YAO Z, et al. A study on the measurement of emotional feelings in outdoor environments based on machine vision recognition[J]. Landscape Architecture Frontiers, 2021, 9(5): 46-59.

      [25]ZHANG K, SUN M, HAN T X, et al. Residual networks of residual networks: Multilevel residual networks[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(6): 1303-1314.

      [26]DING W, HUANG Z Y, HUANG Z K, et al. Designing efficient accelerator of depthwise separable convolutional neural network on FPGA[J]. Journal of Systems Architecture, 2019, 97(C): 278-286.

      [27]梁宏濤, 劉碩, 杜軍威, 等. 深度學(xué)習(xí)應(yīng)用于時(shí)序預(yù)測(cè)研究綜述[J]. 計(jì)算機(jī)科學(xué)與探索, 2023, 17(6): 1285-1300.

      LIANG H T, LIU S, DU J W, et al. Research review on application of deep learning to time series prediction [J].Journal of Frontiers of Computer Science and Technology, 2023, 17(6): 1285-1300.

      [28]焦義, 徐華興, 毛曉波, 等. 融合多尺度特征的腦電情感識(shí)別研究[J]. 計(jì)算機(jī)工程, 2023, 49(5): 81-89.

      JIAO Y, XU H X, MAO X B, et al. Research on EEG emotion recognition by fusing multi-scale features[J]. Computer Engineering, 2023, 49(5): 81-89.

      [29]XU Y R, SU H, MA G J, et al. A novel dual-modal emotion recognition algorithm with fusing hybrid features of audio signal and speech context[J]. Complex & Intelligent Systems, 2023, 9(1): 951-963.

      [30]王蘭馨, 王衛(wèi)亞, 程鑫. 結(jié)合Bi-LSTM-CNN的語(yǔ)音文本雙模態(tài)情感識(shí)別模型[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(4): 192-197.

      WANG L X, WANG W Y, CHENG X. Combined Bi-LSTM-CNN for speech-text bimodal emotion recognition model[J]. Computer Engineering and Applications, 2022, 58(4): 192-197.

      [31]祁宣豪, 智敏. 圖像處理中注意力機(jī)制綜述[J].計(jì)算機(jī)科學(xué)與探索,2024,18(2):345-362.

      QI X H, ZHI M. A review of attention mechanisms in image processing [J].Journal of Frontiers of Computer Science and Technology, 2024,18(2):345-362.

      [32]YU W M, XU H, MENG F P, et al. CH-SIMS: A Chinese multimodal sentiment analysis dataset with fine-grained annotation of modality[C]∥Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics, 2020: 3718-3727.

      [33]ZADEH A, ZELLERS R, PINCUS E, et al. MOSI: Multimodal corpus of sentiment intensity and subjectivity analysis in online opinion videos[EB/OL].(2016-08-12)[2023-09-25].http:∥arxiv.org/abs/1606.06259.

      [34]ZHANG X C, QIU X P, PANG J M, et al. Dual-axial self-attention network for text classification[J]. Science China Information Sciences, 2021, 64(12): 80-90.

      [35]WANG Y, SONG W, TAO W, et al. A systematic review on affective computing: Emotion models, databases, and recent advances[J]. Information Fusion, 2022, 83/84: 19-52.

      [36]RAHMAN W, HASAN M K, LEE S W, et al. Integrating multimodal information in large pretrained transformers[J].Proceedings of the Conference Association for Computational Linguistics? Meeting,? 2020, 2020: 2359-2369.

      [37]HAN W, CHEN H, PORIA S. Improving multimodal fusion with hierarchical mutual information maximization for multimodal sentiment analysis[EB/OL].(2021-09-16)[2023-09-25].http:∥arxiv.org/abs/2109.00412.

      [38]HAZARIKA D, ZIMMERMANN R, PORIA S. MISA: Modality-invariant and-specific representations for multimodal sentiment analysis[C]∥Proceedings of the 28th ACM International Conference on Multimedia. Seattle: ACM, 2020: 1122-1131.

      [39]程子晨, 李彥, 葛江煒, 等. 利用信息瓶頸的多模態(tài)情感分析[J]. 計(jì)算機(jī)工程與應(yīng)用, 2024, 60(2):137-146.

      CHENG Z C, LI Y, GE J W, et al. Multi-modal sentiment analysis using information bottleneck [J].Computer Engineering and Applications, 2024, 60(2):137-146.

      猜你喜歡
      多模態(tài)
      多模態(tài)視角下《星際穿越》的存在哲學(xué)隱喻解讀
      基于多模態(tài)視角的多元化大學(xué)英語(yǔ)課程體系設(shè)計(jì)
      多模態(tài)語(yǔ)境下大學(xué)英語(yǔ)詞匯教學(xué)模式探討
      多模態(tài)話語(yǔ)中的詹姆斯·卡梅隆電影
      英語(yǔ)閱讀教學(xué)中多模態(tài)識(shí)讀能力的培養(yǎng)
      網(wǎng)絡(luò)環(huán)境下大學(xué)英語(yǔ)多模態(tài)交互式閱讀教學(xué)模式研究
      戲劇之家(2016年22期)2016-11-30 18:20:43
      多模態(tài)理論視角下大學(xué)英語(yǔ)課堂的構(gòu)建
      新媒體環(huán)境下多模態(tài)商務(wù)英語(yǔ)課堂教師角色定位
      多模態(tài)大學(xué)英語(yǔ)寫(xiě)作教學(xué)模式研究
      考試周刊(2016年61期)2016-08-16 06:21:31
      探析多模態(tài)環(huán)境對(duì)提高大學(xué)生閱讀能力的影響
      考試周刊(2016年19期)2016-04-14 01:53:50
      旬阳县| 湘阴县| 仲巴县| 武陟县| 峨边| 英吉沙县| 株洲市| 永寿县| 东阳市| 墨竹工卡县| 丹巴县| 大连市| 池州市| 凤翔县| 仪陇县| 新河县| 苏州市| 黎川县| 新兴县| 台东县| 闸北区| 华容县| 田阳县| 梓潼县| 手游| 澄江县| 丘北县| 临潭县| 民勤县| 尼勒克县| 盐亭县| 宁武县| 博野县| 库尔勒市| 灵宝市| 惠州市| 安顺市| 信宜市| 连江县| 凤阳县| 平乡县|