丁 健,楊 亮,林鴻飛,王 健
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
對(duì)人類的情緒進(jìn)行科學(xué)的分析,一直以來都是一個(gè)頗具難度的任務(wù)。因?yàn)槿祟惖那榫w表現(xiàn)方式具有多元化的特點(diǎn),不同的人對(duì)于自己的意見的表達(dá)形式和特點(diǎn)并不相同。[1]例如人們的表情、神態(tài)、動(dòng)作、聲音的表現(xiàn)形式對(duì)于每一個(gè)個(gè)體而言都不是遵循著同一套規(guī)律的。隨著人工智能技術(shù)的發(fā)展,使得利用人工智能算法進(jìn)行情緒分析成為了一個(gè)熱門的研究方向。以往出現(xiàn)了很多利用單一模態(tài)數(shù)據(jù)的情緒分析工作,但是現(xiàn)實(shí)情況中的人們并非僅通過單一的形式表達(dá)自己的情緒,人們?cè)诮涣鬟^程中也是通過多種不同角度的信息對(duì)他人的情緒、情感進(jìn)行推斷的。所以,單一模態(tài)的情緒分析是不夠完備的,而且單一模態(tài)的數(shù)據(jù)更容易受到噪聲的影響,從而影響模型的魯棒性。
多模態(tài)的情緒分析工作,需要適宜的多模態(tài)情緒分類的訓(xùn)練數(shù)據(jù)。隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的高速發(fā)展,各種社交媒體平臺(tái)也呈現(xiàn)出了蓬勃發(fā)展的態(tài)勢(shì)。其中以Youtube等視頻網(wǎng)站的社交媒體平臺(tái)在世界范圍內(nèi)最為突出。而我國的抖音、快手等新興的短視頻平臺(tái)也在迅速發(fā)展的同時(shí)得到了廣泛的認(rèn)可。這些社交媒體呈現(xiàn)出越來越蓬勃的生命力,社交媒體平臺(tái)的用戶們?cè)谄渲蟹窒碜约旱挠^點(diǎn)和生活的意愿也大幅度提升,人們可以更容易地獲得包含著情緒、情感觀點(diǎn)信息的不同模態(tài)的數(shù)據(jù)。這使得多模態(tài)情緒分析在近幾年成為一個(gè)富有潛力的研究方向。不同于單模態(tài)情緒分析,如何利用好額外模態(tài)的信息是多模態(tài)情緒分析中的一個(gè)富有挑戰(zhàn)性的工作。在人們講話的過程中,其語言的表達(dá)形式、語音語調(diào)、神態(tài)動(dòng)作、表情等特征是動(dòng)態(tài)變化的,這使得多模態(tài)情緒分析過程會(huì)受到更多噪聲的干擾,這也是多模態(tài)分析的一個(gè)挑戰(zhàn)。
雖然近些年,多模態(tài)情緒分析任務(wù)有很多工作都取得了不錯(cuò)的結(jié)果,但是其依舊是一個(gè)具有挑戰(zhàn)性的任務(wù)。Poria S等人[2]認(rèn)為: 多模態(tài)情緒分析任務(wù)面臨四大挑戰(zhàn):
特征空間維度高: 多模態(tài)情緒分析的特征空間由多個(gè)模態(tài)的特征向量組成,通常會(huì)有非常高的維度。以往為了解決這個(gè)問題,采用早期融合或決策級(jí)融合技術(shù),但是表現(xiàn)并不理想。
數(shù)據(jù)通道的噪聲: 每個(gè)模態(tài)數(shù)據(jù)中的噪聲或錯(cuò)誤的數(shù)據(jù),會(huì)在多模態(tài)框架下造成更大的干擾。如何識(shí)別及丟棄這些干擾,是一個(gè)一直以來都很重要的研究方向。
多模態(tài)信息的組合: 從各模態(tài)提取到的特征,都需要以一種方式進(jìn)行融合,融合過程中的挑戰(zhàn)包括: 確定各模態(tài)在融合中的貢獻(xiàn)、過濾其中的噪聲,以及處理特征級(jí)別融合中的高維特征空間。
個(gè)體表達(dá)方式的差異: 個(gè)體之間對(duì)于意見的表達(dá)方式是存在差異的。當(dāng)一個(gè)人采用高聲調(diào)來表達(dá)自己的意見時(shí),那么他的音頻特征中可能會(huì)包含大量的情緒分析和意見挖掘的線索,但這只適用于這個(gè)個(gè)體。有些人的情緒特征可能更多地表現(xiàn)在面部表情上,那么這就為模型的泛化能力提出了要求。
應(yīng)對(duì)這些挑戰(zhàn),是基于一個(gè)基本的事實(shí): 多模態(tài)數(shù)據(jù)融合增加了模型對(duì)結(jié)果預(yù)測(cè)的準(zhǔn)確性和可靠性[3]。在如何對(duì)多模態(tài)數(shù)據(jù)進(jìn)行恰當(dāng)?shù)娜诤戏矫?,產(chǎn)生了很多具有代表性的工作。由于研究者們收集數(shù)據(jù)的方式多種多樣,數(shù)據(jù)的形式也有很多種類,所以應(yīng)該考慮不同層次的多模態(tài)融合。按多模態(tài)融合與各模態(tài)建模的先后關(guān)系不同,多模態(tài)融合分為早期融合、晚期融合和混合融合。此外還有一種“模型級(jí)融合”,由研究者自己設(shè)計(jì)融合的過程。其實(shí)早在1971年Kettenring[4]就已經(jīng)采用典型關(guān)聯(lián)分析的方法對(duì)具有相關(guān)性的多模態(tài)數(shù)據(jù)進(jìn)行分析。但目前,研究人員最傾向使用的融合方法依舊是單一的晚期(決策級(jí))融合[2]。這雖然行之有效,但這些工作大多不會(huì)兼顧模態(tài)的自身內(nèi)部以及模態(tài)之間的相互作用。之前的多模態(tài)工作普遍基于一個(gè)假設(shè): 多模態(tài)數(shù)據(jù)的信息是均勻的,而現(xiàn)實(shí)世界中的各模態(tài)的數(shù)據(jù)往往是混亂的,每條數(shù)據(jù)中各模態(tài)的信息量也存在很大的差異。人們?cè)诒磉_(dá)自己的觀點(diǎn)和意見的時(shí)候,可能會(huì)采用反語、隱喻等方式。此時(shí)的文本信息可能反而對(duì)于情緒預(yù)測(cè)起到反作用,而音頻中的語音語調(diào)、視覺信號(hào)中的表情神態(tài)等信息的融合則對(duì)于預(yù)測(cè)更有幫助。在情感情緒分析任務(wù)中,對(duì)于每一條多模態(tài)的數(shù)據(jù)而言,各模態(tài)對(duì)于結(jié)果預(yù)測(cè)所起的作用是隨數(shù)據(jù)的不同而動(dòng)態(tài)變化的。這就使得以往的單一的模態(tài)融合方式無法起到理想的作用。
本文設(shè)計(jì)了一種動(dòng)態(tài)的異質(zhì)融合方式,同時(shí)具備多種不同的特征融合方式。并且為各個(gè)異質(zhì)融合模塊設(shè)計(jì)了一種動(dòng)態(tài)權(quán)重因子,挖掘各模態(tài)融合中特征對(duì)于預(yù)測(cè)結(jié)果的重要程度,自適應(yīng)地調(diào)整適合當(dāng)前數(shù)據(jù)集的模態(tài)交互方式。從而在多模態(tài)融合過程中獲取到更加魯棒的模態(tài)間的一致性特征,并且使得各模態(tài)的融合過程更加具有可解釋性。與此同時(shí),本文受到Y(jié)u等人工作[5]的啟發(fā),又采用自監(jiān)督學(xué)習(xí)對(duì)每個(gè)模態(tài)進(jìn)行自監(jiān)督訓(xùn)練以獲得各模態(tài)的自身的差異化特征。最后,將以上的模型作為子任務(wù),基于多任務(wù)學(xué)習(xí)的框架,聯(lián)合訓(xùn)練各個(gè)子任務(wù)從而使得模型學(xué)習(xí)到模態(tài)之間的一致性特征和差異化特征。本文在CMU-MOSI[12]及CMU-MOSEI[13]數(shù)據(jù)集上對(duì)模型進(jìn)行了測(cè)試,得到了較為理想的實(shí)驗(yàn)結(jié)果,其性能指標(biāo)超過了大多數(shù)基線模型。
在這一節(jié)中,主要介紹基于多模態(tài)融合的情緒分析、自監(jiān)督學(xué)習(xí)、多任務(wù)學(xué)習(xí)這三個(gè)領(lǐng)域的相關(guān)工作,并闡述我們從中受到的啟發(fā)。
利用計(jì)算機(jī)手段進(jìn)行情緒情感分析的工作,可以追溯到Picard等人[6]于1995年的研究。Picard首次在此工作中提出了“情感計(jì)算”的概念,旨在使得計(jì)算機(jī)擁有類似于人類的觀察、理解、生成情感特征的能力,并最終實(shí)現(xiàn)真正意義上的人機(jī)交互。而情緒分析又是情感計(jì)算中的一個(gè)子任務(wù),在當(dāng)今社會(huì)背景下有著廣泛的應(yīng)用。而隨著人工智能技術(shù)、大數(shù)據(jù)技術(shù)等的高速發(fā)展,結(jié)合這些技術(shù)的情緒分析工作,無論從技術(shù)進(jìn)步還是實(shí)際應(yīng)用角度都是當(dāng)前計(jì)算機(jī)科學(xué)研究中的一個(gè)熱門方向。
Poria等人[7]于2017的工作中,通過對(duì)單個(gè)模態(tài)的情緒識(shí)別方法進(jìn)行大量討論之后,又在相同的數(shù)據(jù)集上進(jìn)行了多模態(tài)融合方法的研究,并將單模態(tài)方法與之進(jìn)行了充分的對(duì)比。由此驗(yàn)證了恰當(dāng)?shù)哪B(tài)融合,大幅度地提升了情緒識(shí)別系統(tǒng)的性能。
早期的多模態(tài)融合工作多數(shù)以早期融合的方式為主,早期融合是特征級(jí)的模態(tài)融合策略,對(duì)多個(gè)模態(tài)的數(shù)據(jù)進(jìn)行一系列的特征提取及構(gòu)造之后進(jìn)行融合。其融合方式較為直觀,而且可以最大程度地保留模態(tài)自身的信息,所以至今也依舊有廣泛的應(yīng)用。早期的融合工作,例如Emerich于2009年發(fā)表的工作[8]中將語音與面部表情的特征在歸一化之后進(jìn)行拼接,從而構(gòu)造出一個(gè)新的特征向量。實(shí)驗(yàn)表明,兩種模態(tài)融合使得系統(tǒng)的性能和魯棒性得到了提高,但由于這種簡(jiǎn)單的融合方式易使特征空間維度隨著模態(tài)增多而過度提高,導(dǎo)致性能下降。之后也存在一些通過降維手段來試圖解決特征空間維度過高的工作,但是效果并不十分的理想。2014年Google 公司的Mnih等人設(shè)計(jì)了注意力機(jī)制[10],這為本文的多模態(tài)融合提供了新思路。Tsai等人[9]結(jié)合Transformer提出了一種跨模態(tài)的Transformer,使得模型可以學(xué)習(xí)到模態(tài)間的注意力,以此調(diào)整模態(tài)融合的過程,并且使得這個(gè)過程更具有可解釋性。
而另一種常見的融合方式為晚期融合,其思想是: 學(xué)習(xí)到各模態(tài)的權(quán)重、可信度,從而進(jìn)行決策和協(xié)調(diào)。在保證性能優(yōu)于單模態(tài)方法的前提下,晚期融合的過程更容易進(jìn)行,且比起早期融合可以更好地保留模態(tài)之間的差異性,但也因此比早期融合更容易丟失模態(tài)之間的相關(guān)性。例如,Zadeh等人于2017年提出的TFN(Tensor Fusion Network)[11]模型可以從各模態(tài)學(xué)習(xí)到模態(tài)之間的相互聯(lián)系,從而進(jìn)行模態(tài)的晚期融合決策。
美國卡內(nèi)基梅隆大學(xué)的Zadeh團(tuán)隊(duì)發(fā)布了CMU-MOSI[12]和CMU-MOSEI[13]情緒分析數(shù)據(jù)集,并且在此之上進(jìn)行了大量的工作。
受到Zadeh等人提出的TFN模型的啟發(fā),我們認(rèn)為這種多層次的模態(tài)融合方式可以更加完整地捕捉到模態(tài)間的相互作用。但是,對(duì)于不同的任務(wù)來說,各模態(tài)的信息對(duì)于結(jié)果預(yù)測(cè)的重要程度是不同的,模態(tài)的信息有強(qiáng)弱之分[27],弱模態(tài)在擁有少量關(guān)鍵特征的同時(shí),還可能存在大量無用的噪聲。而且,數(shù)據(jù)中各模態(tài)信息的重要性也是動(dòng)態(tài)變化的。以往的多層次融合方式并不具備這種動(dòng)態(tài)的調(diào)整能力?;谶@樣的想法,本文設(shè)計(jì)了一種動(dòng)態(tài)的異質(zhì)融合網(wǎng)絡(luò)。通過可訓(xùn)練的權(quán)重因子單元,調(diào)節(jié)各種層次的融合過程的權(quán)重,從而實(shí)現(xiàn)更加有效的模態(tài)融合,同時(shí)還可以使得模型的融合過程更加具有可解釋性。
傳統(tǒng)的分類方法,都需要大量的標(biāo)注數(shù)據(jù)來進(jìn)行訓(xùn)練,但是帶有標(biāo)注的數(shù)據(jù)通常難以獲取[14]。訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的過程中也需要大量的標(biāo)注數(shù)據(jù)[15]。如果標(biāo)注數(shù)據(jù)的數(shù)量過少,模型就容易在訓(xùn)練數(shù)據(jù)上過擬合,嚴(yán)重影響預(yù)測(cè)結(jié)果的準(zhǔn)確性。在這種前提下,通常會(huì)嘗試采用半監(jiān)督或者弱監(jiān)督的方法。自監(jiān)督方法是半監(jiān)督方法的一個(gè)子集,自監(jiān)督方法通常應(yīng)用于: 在不使用任何人標(biāo)注數(shù)據(jù)的情況下,從大規(guī)模未標(biāo)注數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)的特征。在Qiu L等人2009年發(fā)表的工作中[17],基于情緒詞典并結(jié)合簡(jiǎn)單的自監(jiān)督學(xué)習(xí)方法,進(jìn)行了情緒分類工作,對(duì)比基線模型取得了顯著的性能提升。預(yù)訓(xùn)練模型也是自監(jiān)督學(xué)習(xí)的應(yīng)用之一,自2018起,Devlin等人基于Transformer提出了BERT[16]這種強(qiáng)大的NLP預(yù)訓(xùn)練模型,在多種NLP任務(wù)上取得了顯著的效果。BERT的出現(xiàn)也使得基于文本的情緒分析工作取得了新的進(jìn)展,Lan等人[18]在BERT的基礎(chǔ)上,利用自監(jiān)督學(xué)習(xí)的損失優(yōu)化了針對(duì)文本的連續(xù)性的建模能力,并在Stanford Sentiment Treebank數(shù)據(jù)集上進(jìn)行了驗(yàn)證,取得了較好的效果。
以往的自監(jiān)督學(xué)習(xí)的情緒分析方法,通常僅僅利用了單個(gè)文本模態(tài)的信息。但是現(xiàn)實(shí)世界中,對(duì)于情緒的預(yù)測(cè),會(huì)利用多種來源的信息,包括不限于: 人物的神態(tài)、表情、動(dòng)作、說話的音調(diào)等。雖然在機(jī)器人控制領(lǐng)域已經(jīng)有一些多模態(tài)的自監(jiān)督學(xué)習(xí)方法,但是在情緒分析領(lǐng)域還較少出現(xiàn)。本文利用Yu等人[5]設(shè)計(jì)的自監(jiān)督學(xué)習(xí)方法學(xué)習(xí)每個(gè)模態(tài)的表示,再結(jié)合本文提出的動(dòng)態(tài)異質(zhì)融合網(wǎng)絡(luò),從多模態(tài)數(shù)據(jù)中捕捉到了更多的關(guān)鍵特征,從而加強(qiáng)了模型的性能。
人類可以在學(xué)習(xí)過程中同時(shí)學(xué)習(xí)多個(gè)任務(wù),并且能夠使用在特定任務(wù)中學(xué)到的知識(shí)來幫助學(xué)習(xí)其他任務(wù)。受到這種人類學(xué)習(xí)能力的啟發(fā),多任務(wù)學(xué)習(xí)(MTL)旨在: 通過利用不同任務(wù)中學(xué)習(xí)到的知識(shí)來改善整體的泛化性能[20]。相比于學(xué)習(xí)單個(gè)任務(wù),多任務(wù)學(xué)習(xí)在訓(xùn)練過程中存在兩個(gè)重要的問題: 首先,研究者應(yīng)該如何共享不同任務(wù)的神經(jīng)網(wǎng)絡(luò)的參數(shù),目前主要有軟共享和硬共享這兩種方法。其次是采用怎樣的策略來平衡多個(gè)任務(wù)的學(xué)習(xí)過程。國內(nèi)在多任務(wù)的情緒分析領(lǐng)域,尤其是結(jié)合了多模態(tài)的研究工作,在近幾年也呈現(xiàn)出發(fā)展態(tài)勢(shì)。吳良慶等人[21]提出了一種多模態(tài)的多任務(wù)融合學(xué)習(xí)網(wǎng)絡(luò),將每個(gè)模態(tài)看作是一個(gè)子任務(wù),再通過共享子任務(wù)參數(shù)的方式進(jìn)行融合。林子杰等人[22]將多任務(wù)學(xué)習(xí)方法應(yīng)用到預(yù)訓(xùn)練模型中,并采用硬共享策略訓(xùn)練多種模態(tài)的分類任務(wù),有效避免過擬合的風(fēng)險(xiǎn)。
當(dāng)前大部分的基于多任務(wù)學(xué)習(xí)的多模態(tài)方法,普遍只建立了單個(gè)模態(tài)的任務(wù),然后用多任務(wù)學(xué)習(xí)策略共享每個(gè)子任務(wù)的參數(shù)而實(shí)現(xiàn)。這種單一的架構(gòu),難以兼顧多模態(tài)信息中的一致性和差異性信息。本文采用多任務(wù)學(xué)習(xí)策略,連接了一個(gè)動(dòng)態(tài)的異質(zhì)融合網(wǎng)絡(luò)的子任務(wù)與三個(gè)單模態(tài)自監(jiān)督子任務(wù),通過異質(zhì)融合方式學(xué)習(xí)模態(tài)間的一致性特征,再利用三個(gè)單模態(tài)子任務(wù)學(xué)習(xí)模態(tài)自身的獨(dú)特特征,更好地實(shí)現(xiàn)了模態(tài)間的相互作用,使得模型在情緒預(yù)測(cè)任務(wù)中獲得了更高的性能。
多模態(tài)學(xué)習(xí)不可避免地要進(jìn)行多個(gè)模態(tài)的融合,以此建立模態(tài)之間的相互作用,從而使得增加模態(tài)之后,達(dá)到提高模型性能的目的。以往大多數(shù)的多模態(tài)融合工作,雖然取得了很多進(jìn)展,但是對(duì)于不同的數(shù)據(jù)最適宜的模態(tài)融合方式也很可能是不同的。受到Zadeh等人的TFN(Tensor Fusion Network)模型[11]中層次化模態(tài)融合的啟發(fā),本文提出了一種異質(zhì)動(dòng)態(tài)融合網(wǎng)絡(luò)(Heterogeneous Dynamic Fusion Network,HDFN)結(jié)構(gòu)。在對(duì)多個(gè)模態(tài)進(jìn)行層次化融合的基礎(chǔ)上,還加入了可訓(xùn)練的動(dòng)態(tài)權(quán)重調(diào)節(jié)因子。本文在多任務(wù)學(xué)習(xí)的框架中加入了HDFN后,不僅整體性能得到了提高,而且能更透明地實(shí)現(xiàn)模態(tài)的融合過程,便于了解模態(tài)之間如何進(jìn)行相互作用,從而更清晰地了解到模態(tài)間相互作用的強(qiáng)弱關(guān)系。
在本節(jié)中,主要介紹本文所提出的模型,稱之為多任務(wù)多模態(tài)自監(jiān)督異質(zhì)動(dòng)態(tài)融合網(wǎng)絡(luò)(Multi-task Multimodal Self-Supervised Heterogeneous Dynamic Fusion Network,MM-SS-HDFN)。受到Y(jié)u等人的工作[5]的啟發(fā),本文也采用了三個(gè)單模態(tài)的子任務(wù)聯(lián)合一個(gè)采用HDFN結(jié)構(gòu)的多模態(tài)子任務(wù)的多任務(wù)學(xué)習(xí)架構(gòu),不僅實(shí)現(xiàn)了多模態(tài)融合過程的動(dòng)態(tài)自適應(yīng)及自我調(diào)整,而且還通過多任務(wù)學(xué)習(xí)的方法,兼顧模態(tài)的差異性特征和一致性特征。在2.3節(jié)將介紹該模型的整體結(jié)構(gòu)。
對(duì)于不同模態(tài)的數(shù)據(jù),應(yīng)該使用不同類型的特征提取方法。本文為三個(gè)模態(tài)(文本、聲音、圖像)的輸入數(shù)據(jù)(Xt,Xa,Xv)選擇了不同的特征提取方法,從而從數(shù)據(jù)中獲得相對(duì)最恰當(dāng)?shù)谋硎尽?/p>
文本模態(tài): 對(duì)于文本模態(tài)的數(shù)據(jù)(Xt),本文采用當(dāng)今應(yīng)用最為廣泛的文本預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representation from Transformers)來進(jìn)行編碼,從而獲得對(duì)應(yīng)的嵌入表示作為文本特征Ft,以此作為模型的文本模態(tài)的輸入。
音頻、視頻模態(tài): 對(duì)于音頻和視頻模態(tài)的數(shù)據(jù),采用多模態(tài)開發(fā)工具包(CMU Multimodal SDK)[23]提供的特征作為輸入數(shù)據(jù)(Xa,Xv)。然后,利用長(zhǎng)時(shí)期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)提取其中的時(shí)序特征,從而獲得輸入到模型網(wǎng)絡(luò)中的特征向量Fa,F(xiàn)v。
從各模態(tài)提取特征的過程如下:
數(shù)據(jù)經(jīng)過特征提取過程之后,獲得了來自了三個(gè)模態(tài)的表示:Ft,F(xiàn)a,F(xiàn)v。
本文所提出的MM-SS-HDFN模型的整體結(jié)構(gòu)如圖1所示,其組成共分為以下兩個(gè)部分:
圖1 多任務(wù)多模態(tài)自監(jiān)督異質(zhì)動(dòng)態(tài)融合網(wǎng)絡(luò)整體架構(gòu)圖
多模態(tài)異質(zhì)動(dòng)態(tài)融合子任務(wù)模塊(HDFN):將各模態(tài)的特征同時(shí)作為輸入,進(jìn)行動(dòng)態(tài)的異質(zhì)融合,從而使得模型可以學(xué)習(xí)到相對(duì)理想的多模態(tài)表示,然后通過分類器輸出該網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果。本文將在2.3.1節(jié)詳細(xì)介紹這一模塊。
單模態(tài)自監(jiān)督子任務(wù)模塊:每個(gè)模態(tài)的輸入都對(duì)應(yīng)一個(gè)獨(dú)立的自監(jiān)督學(xué)習(xí)模塊。它們彼此的結(jié)構(gòu)完全一致,僅僅是輸入的數(shù)據(jù)的模態(tài)不同。每個(gè)子任務(wù)模塊都會(huì)采用自監(jiān)督學(xué)習(xí)的策略生成一個(gè)預(yù)測(cè)結(jié)果。此部分的算法主要基于Yu等人設(shè)計(jì)的單模態(tài)標(biāo)簽生成模塊(ULGM, Unimodal Label Generation Module)[5],公式詳見2.3.2節(jié)。
最后,本文利用多任務(wù)學(xué)習(xí)的方法,將這些子任務(wù)聯(lián)結(jié)起來。利用硬共享(hard-sharing)的策略共享模型的參數(shù),并且采用了一種權(quán)重調(diào)整的算法平衡子任務(wù)的輸出。本文將在2.3.3節(jié)給出多任務(wù)學(xué)習(xí)的目標(biāo)函數(shù)。
接下來本文將從多模態(tài)異質(zhì)動(dòng)態(tài)融合網(wǎng)絡(luò)、單模態(tài)自監(jiān)督網(wǎng)絡(luò)、多任務(wù)學(xué)習(xí)目標(biāo)函數(shù)這三個(gè)方面進(jìn)行具體的介紹。
2.3.1 多模態(tài)異質(zhì)動(dòng)態(tài)融合網(wǎng)絡(luò)
多模態(tài)異質(zhì)動(dòng)態(tài)融合網(wǎng)絡(luò)用于進(jìn)行多模態(tài)子任務(wù)的訓(xùn)練。該多模態(tài)情緒分析模型受到了TFN模型[11]、吳良慶等人[21]的多模態(tài)情緒識(shí)別方法的啟發(fā),采用層次化的結(jié)構(gòu)進(jìn)行多模態(tài)的融合,分別學(xué)習(xí)單模態(tài)、雙模態(tài)、三模態(tài)的表示。這是一種異質(zhì)的融合方式,本文采用這種差異化的異質(zhì)融合方式的原因在于: 不同模態(tài)的信息對(duì)于本任務(wù)預(yù)測(cè)結(jié)果的幫助是不一致的,甚至有些時(shí)候某個(gè)模態(tài)的信息對(duì)于當(dāng)前任務(wù)的結(jié)果預(yù)測(cè)甚至是噪聲和干擾,故而采用了這種異質(zhì)的模態(tài)融合方法,這使得HDFN模型在充分結(jié)合三種模態(tài)之間聯(lián)系的前提下,更加充分地差異化地利用模態(tài)內(nèi)部的信息。此模塊分為以下幾個(gè)結(jié)構(gòu): 多模態(tài)特征輸入層、HDFN模塊、特征(融合后)表示層、分類器層。下面將依次進(jìn)行詳細(xì)介紹。
多模態(tài)特征輸入層:原始數(shù)據(jù)通過特征提取網(wǎng)絡(luò)之后,已經(jīng)提取到了三個(gè)模態(tài)的表示(Ft,F(xiàn)a,F(xiàn)v),無須進(jìn)行進(jìn)一步的處理,可直接輸入到HDFN模塊,用于特征融合。
HDFN模塊:從各模態(tài)學(xué)習(xí)到的表示,首先在此處需要進(jìn)行層次化的異質(zhì)重組,模型的結(jié)構(gòu)如圖2所示。對(duì)于M種模態(tài)的數(shù)據(jù),就一共需要進(jìn)行M個(gè)層次的異質(zhì)融合。
圖2 多模態(tài)異質(zhì)動(dòng)態(tài)融合網(wǎng)絡(luò)(HDFN)架構(gòu)圖
本文采用的數(shù)據(jù)有三種模態(tài),所以一共有三個(gè)級(jí)別的融合: 單模態(tài)級(jí)、雙模態(tài)級(jí)、三模態(tài)級(jí),其公式分別如式(1)~式(3)所示:
單模態(tài):
(1)
雙模態(tài):
(2)
三模態(tài):
(3)
由此,分別得到了三種層次的模態(tài)融合表示,其中單模態(tài)因?yàn)椴恍枰诤?,所以直接用作單模態(tài)級(jí)的表示(Funi)。雙模態(tài)級(jí)的表示(Fbi)是單個(gè)模態(tài)的表示的兩兩組合,而三模態(tài)級(jí)的表示(Ftri)是三個(gè)模態(tài)的表示的組合。按照多模態(tài)表示學(xué)習(xí)的理論,每一種模態(tài)的特征表示Fm,都屬于其自身的語義空間Sm。從數(shù)學(xué)意義上講,多模態(tài)的特征空間可以映射到一個(gè)包含全部模態(tài)特征的空間SM中,且多模態(tài)的特征空間必然會(huì)存在共享語義空間Sshare。為了更好地學(xué)習(xí)到多模態(tài)表示的聯(lián)合分布,可以采用任意一種神經(jīng)網(wǎng)絡(luò)f(·)(本文此處選擇了多層感知機(jī))將多模態(tài)表示從高維空間映射到一個(gè)低維空間,從而獲得模態(tài)間的互信息。按照常規(guī)的多模態(tài)融合,只需要對(duì)[Ft;Fa;Fv]進(jìn)行降維,從而學(xué)習(xí)到多模態(tài)融合特征在低維空間的表示。譬如:hf=ReLU(f([Ft;Fa;Fv]))。但由于對(duì)最終的輸出起著決定性作用的特征表示并非只有三個(gè)模態(tài)的共享語義特征,我們也應(yīng)注意到每個(gè)模態(tài)的差異性特征對(duì)于結(jié)果預(yù)測(cè)的作用。而且從Zadeh等人的實(shí)驗(yàn)[11]中可以看出,在融合的過程中,可能出現(xiàn)某些模態(tài)的特征對(duì)最終預(yù)測(cè)的影響很大,而其他模態(tài)對(duì)于預(yù)測(cè)的影響很小,甚至是噪聲的情況。所以本文采用了分層次的模態(tài)融合方式,如式(4)~式(6)所示。
理想狀態(tài)下,可以通過這種多重的融合方式學(xué)習(xí)到最佳的融合方式,使得所獲得的融合特征的表示更符合當(dāng)前數(shù)據(jù)的特點(diǎn)。實(shí)際上,即使是對(duì)于同一來源的多模態(tài)的數(shù)據(jù)集,其最適宜的模態(tài)融合方式也是動(dòng)態(tài)變化的。為了應(yīng)對(duì)這樣的情況,本文設(shè)計(jì)了一種動(dòng)態(tài)調(diào)整結(jié)構(gòu),命名為Γ-單元,用來動(dòng)態(tài)地調(diào)整各融合方式的權(quán)重,從而使得融合的性能更佳。本文為HDFN中的每一層級(jí)的每種異質(zhì)融合子模塊設(shè)計(jì)了一個(gè)可訓(xùn)練的Γ-單元。每個(gè)Γ-單元由一個(gè)MLP構(gòu)成,最后通過一個(gè)ReLU激活函數(shù)對(duì)其進(jìn)行歸一化,將輸出的權(quán)值范圍限定到0~1的值域區(qū)間。通過Γ-單元生成的γ-因子就可以使得模型捕捉到每一種異質(zhì)融合方式對(duì)于最終結(jié)果預(yù)測(cè)的重要程度,以此作為各種異質(zhì)融合方式的權(quán)重,從而動(dòng)態(tài)地調(diào)整融合過程。這就是本文設(shè)計(jì)的Γ-單元的基本原理,計(jì)算如式(7)~式(8)所示。
其中fh表示任意一種的異質(zhì)融合形式,而Ffh表示每一種異質(zhì)融合的特征表示,即:
綜上所述,由于式(4)~式(6)不具備自我調(diào)節(jié)的能力,且過程不可見。這使得模型無法根據(jù)實(shí)際需要有所側(cè)重地去捕捉模態(tài)融合后的特征。所以,我們采用Γ-單元對(duì)其進(jìn)行了改進(jìn),如式(9)~式(11)所示。
(12)
特征表示層: 將獲得的多模態(tài)融合特征的表示hf通過一個(gè)線性層將異質(zhì)融合表示投影到低維空間,如(13)所示。
(13)
(14)
2.3.2 單模態(tài)自監(jiān)督網(wǎng)絡(luò)
單模態(tài)自監(jiān)督網(wǎng)絡(luò)用于處理三個(gè)單模態(tài)的子任務(wù),它們將在訓(xùn)練的過程中與多模態(tài)融合網(wǎng)絡(luò)共享模態(tài)特征的表示,其基本架構(gòu)如圖1中的上半框所示。由于不同的模態(tài)之間存在著維度的差異,不利于計(jì)算,所以將輸入的模態(tài)表示Fm投影到一個(gè)新的特征空間中,如(15)所示。
(15)
其中,m∈{t,a,v},也就是說Fm代表{Ft,Fa,Fv}與多模態(tài)融合網(wǎng)絡(luò)的輸入是一樣的。
2.3.3 多任務(wù)學(xué)習(xí)目標(biāo)函數(shù)
(18)
本節(jié)包括以下四個(gè)部分: 實(shí)驗(yàn)使用的數(shù)據(jù)集、對(duì)比實(shí)驗(yàn)的基線模型、實(shí)驗(yàn)設(shè)置、各模型的實(shí)驗(yàn)結(jié)果并分析MM-SS-HDFN模型與基線模型在性能上的差異、消融實(shí)驗(yàn)及分析。
本文采用的實(shí)驗(yàn)數(shù)據(jù)是美國卡內(nèi)基梅隆大學(xué)的Zadeh等人發(fā)布的CMU-MOSI數(shù)據(jù)集[12],及CMU-MOSEI數(shù)據(jù)集[13]。MOSI數(shù)據(jù)集發(fā)布于2016年,MOSEI數(shù)據(jù)集發(fā)布于2018年。它們都是利用社交媒體數(shù)據(jù)得到的多模態(tài)情緒情感分析數(shù)據(jù)集。MOSI包括了從93個(gè)Youtube的視頻中獲取的2 199個(gè)獨(dú)白類型的短視頻片段。MOSEI則包括了來自5 000個(gè)視頻的23 453個(gè)視頻片段。數(shù)據(jù)的標(biāo)注由人工完成,視頻的標(biāo)注即為情緒的評(píng)分,分?jǐn)?shù)的值為從-3到+3的七個(gè)等級(jí),其中負(fù)值代表消極情緒,正值代表積極情緒,0分代表無情緒。在實(shí)驗(yàn)過程中,為保證結(jié)果的公平性,本文對(duì)MOSI按照6:1:3的比例劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集,對(duì)MOSEI按7:1:2的比例進(jìn)行劃分,具體的統(tǒng)計(jì)信息如表1所示。
表1 數(shù)據(jù)集的統(tǒng)計(jì)信息
為了驗(yàn)證MM-SS-HDFN模型的性能,本文將其與主流的多模態(tài)情緒分析的基線模型進(jìn)行了對(duì)比。下面將對(duì)本文采用的基線模型進(jìn)行簡(jiǎn)單的介紹。
EF-LSTM(Early-Fusion LSTM): 采用了早期融合的LSTM模型。在對(duì)模態(tài)特征進(jìn)行編碼之前,對(duì)各模態(tài)的特征向量進(jìn)行拼接,將拼接后的特征向量作為L(zhǎng)STM的輸入。
LF-LSTM(Late-Fusion LSTM): 晚期融合的LSTM模型。分別為每個(gè)模態(tài)設(shè)計(jì)一個(gè)LSTM網(wǎng)絡(luò),以此對(duì)各模態(tài)的特征進(jìn)行編碼,并對(duì)這幾個(gè)LSTM的最后一個(gè)隱藏層所輸出的隱向量進(jìn)行拼接,作為多模態(tài)的特征表示,再通過分類器進(jìn)行輸出。
MTL(Multi-Task Learning)[22]: 這是一種基于多任務(wù)學(xué)習(xí)的情緒識(shí)別模型。引入了單模態(tài)的情緒識(shí)別子任務(wù)與多模態(tài)任務(wù)進(jìn)行共同訓(xùn)練,通過共享層連接各個(gè)子任務(wù)的模型結(jié)構(gòu),可以更好地捕捉模態(tài)中的情緒傾向的特征。根據(jù)文中的實(shí)驗(yàn)結(jié)果,采用MM-BERT-Linear的共享層策略時(shí)取得的效果最佳,本文也將采用這個(gè)結(jié)果與MM-SS-HDFN模型進(jìn)行對(duì)比。
MFN(Memory Fusion Network)[24]: 該模型由Zadeh等人于2018年提出,用于存在時(shí)序關(guān)系的多模態(tài)任務(wù)。利用門控結(jié)構(gòu)隨時(shí)間的順序存儲(chǔ)匯總跨模態(tài)的模態(tài)交互信息,從而對(duì)各模態(tài)的融合進(jìn)行持續(xù)的建模并實(shí)現(xiàn)跨模態(tài)的交互。
TFN(Tensor Fusion Network)[11]: 該模型由Zadeh等人于2017年提出。TFN模型通過建立多維的張量,并通過擴(kuò)展各模態(tài)的特征向量的維度后,相互之間進(jìn)行外積運(yùn)算,從而使得模型整體捕獲了單模態(tài)、雙模態(tài)、三模態(tài)的相互作用。
RAVEN(Recurrent Attended Variation Embedding Network)[25]: 這是一種基于注意力機(jī)制的模型,利用文本模態(tài)之外的模態(tài)特征調(diào)整文本模態(tài)的特征表示。該文指出了文本模態(tài)之外的信息對(duì)理解語義具有重要的作用。
MulT(Multimodal Transformer)[26]: 這是一種多模態(tài)的Transformer模型,是一種對(duì)于傳統(tǒng)的Transformer的拓展。通過采用雙模態(tài)的跨模態(tài)注意力機(jī)制,它實(shí)現(xiàn)了跨模態(tài)的特征對(duì)齊。
SS-MM(Self-Supervised Multi-task Multimodal)[5]: 該模型通過多任務(wù)學(xué)習(xí)策略,連接了多模態(tài)融合任務(wù)及三個(gè)單模態(tài)的自監(jiān)督任務(wù),使得模型可以同時(shí)兼顧模態(tài)間的一致性及差異性信息。
本文的MM-SS-HDFN模型是在Yu等人的Self-MM模型[5]的基礎(chǔ)上改進(jìn)而來,在多模態(tài)融合的模型部分進(jìn)行了改進(jìn)和細(xì)化,增強(qiáng)了模型的整體性能和可解釋性。部分參數(shù)細(xì)節(jié)與Self-MM模型類似,由于多個(gè)模態(tài)融合后的特征空間維度非常高,所以本文采用了Adam優(yōu)化算法進(jìn)行優(yōu)化。BERT采用了5e-5的初始學(xué)習(xí)率,其他部分采用1e-3的學(xué)習(xí)率。
我們?cè)贑MU-MOSI和CMU-MOSEI數(shù)據(jù)集上對(duì)本文所提出的模型及各基線模型進(jìn)行了情緒分析實(shí)驗(yàn)。由于情緒標(biāo)簽有-3~+3共七個(gè)值,本文的實(shí)驗(yàn)以區(qū)分消極情緒和積極情緒(即情緒極性預(yù)測(cè))為主要任務(wù)。對(duì)于情緒分類任務(wù),將y<0的數(shù)據(jù)標(biāo)記為消極情緒,將y>0的數(shù)據(jù)標(biāo)記為積極情緒,不對(duì)0值的數(shù)據(jù)進(jìn)行評(píng)價(jià)。對(duì)于情緒回歸任務(wù)選用MAE(平均絕對(duì)誤差,Mean Absolute Error)和皮爾遜相關(guān)系數(shù)(Pearson Correlation,Corr)作為評(píng)價(jià)指標(biāo),并利用二分類準(zhǔn)確率(Acc-2)和F1值作為分類性能的評(píng)價(jià)指標(biāo)。
在這一節(jié),先將本文的模型與基線模型的性能進(jìn)行了對(duì)比和分析,之后進(jìn)行了消融試驗(yàn),以驗(yàn)證本文所提出的模型設(shè)計(jì)的合理性。
3.4.1 與基線模型的對(duì)比及分析
在表2上,分別展示了各模型在CMU-MOSI和CMU-MOSEI數(shù)據(jù)集上的情緒分析性能。可以看到,本文的MM-SS-HDFN模型在兩個(gè)數(shù)據(jù)集上的分類性能均領(lǐng)先于當(dāng)前的模型,且在MOSEI上的回歸性能表現(xiàn)也領(lǐng)先其他模型,但MOSI數(shù)據(jù)集上的回歸表現(xiàn)卻并非最佳。我們認(rèn)為,這是由于MOSEI的數(shù)據(jù)數(shù)目遠(yuǎn)超MOSI,使得測(cè)試實(shí)驗(yàn)更加穩(wěn)定造成的,也就是說模型在MOSEI上的表現(xiàn)可能更具有代表性和普適性。
表2 在各數(shù)據(jù)集上各模型的實(shí)驗(yàn)結(jié)果
首先,通過TFN及MFN這兩種經(jīng)典的多模態(tài)情緒預(yù)測(cè)模型的實(shí)驗(yàn)結(jié)果,可以觀察到對(duì)文本模態(tài)采用BERT對(duì)文本模態(tài)進(jìn)行處理可以顯著地提升各性能指標(biāo)。這說明,即便是在多模態(tài)的研究工作中,使用單個(gè)模態(tài)的預(yù)訓(xùn)練模型也對(duì)提升多模態(tài)模型的整體性能是很有幫助的。將BERT加入到多模態(tài)融合模型后,模型的性能提升,意味著預(yù)訓(xùn)練的過程有利于模態(tài)之間的融合,使得模型更容易捕捉到關(guān)鍵特征。而TFN模型屬于與本文的HDFN類似的層次化融合模型,受BERT提升較為明顯啟發(fā),本文也對(duì)文本模態(tài)進(jìn)行了BERT的預(yù)訓(xùn)練。
通過與EF-LSTM、LF-LSTM、TFN、RAVEN等模型的對(duì)比可以顯而易見地看出: 由于本文的模型采取了混合融合的策略,相比于單純的早期融合或者晚期融合,混合融合的策略可以從數(shù)據(jù)中學(xué)習(xí)到更豐富的信息,從而使得整體的性能遠(yuǎn)高于傳統(tǒng)的單一融合策略的方法。而相比于MTL這種純粹的多任務(wù)多模態(tài)的模型,本文的方法在回歸性能上存在一定劣勢(shì),但分類的性能明顯優(yōu)于MTL。這說明MTL模型雖然針對(duì)情緒強(qiáng)弱的區(qū)分任務(wù)誤差較小,但是捕捉情緒的極性特征的能力弱于MM-SS-HDFN。本文的MM-SS-HDFN模型在回歸性能上略高于SELF-MM模型,兩個(gè)模型在回歸性能上的表現(xiàn)基本一致,而在分類性能上MM-SS-HDFN表現(xiàn)得更有優(yōu)勢(shì)。總體來看,MM-SS-HDFN在所有的模型中具有最好的分類性能,擁有較為可靠的捕捉情緒的極性特征的能力,在回歸指標(biāo)上也僅次于MTL模型,但情緒分類是本文的主要目標(biāo),且MM-SS-HDFN的分類性能明顯優(yōu)于MTL模型,在很大程度上具有較大的優(yōu)勢(shì)。
值得注意的是,通常而言對(duì)多個(gè)模態(tài)的信息進(jìn)行對(duì)齊(align)是有利于模型性能的提升的。但本文沒有采用對(duì)齊的數(shù)據(jù),我們將在后續(xù)的工作中結(jié)合模態(tài)對(duì)齊的工作對(duì)模型做進(jìn)一步改進(jìn)。
綜上所述,可以看到,MM-SS-HDFN在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均較為突出。這說明,結(jié)合了多任務(wù)和自監(jiān)督方法的多模態(tài)融合,比傳統(tǒng)的多模態(tài)融合擁有更大優(yōu)勢(shì)。通過多任務(wù)學(xué)習(xí)的策略引入的自監(jiān)督模型捕捉到了更多的特征,從而提升了模型整體的性能。
3.4.2 消融實(shí)驗(yàn)
為了探索本文提出的HDFN(異質(zhì)動(dòng)態(tài)融合網(wǎng)絡(luò))在模型整體中的貢獻(xiàn),以及每個(gè)異質(zhì)融合結(jié)構(gòu)對(duì)訓(xùn)練結(jié)果的影響,在兩種數(shù)據(jù)集上進(jìn)行了兩組不同的消融實(shí)驗(yàn),分別為:
模型整體消融試驗(yàn): 本組實(shí)驗(yàn)中分別設(shè)置了無Γ-單元的異質(zhì)融合網(wǎng)絡(luò)、帶有Γ-單元的三模態(tài)動(dòng)態(tài)融合網(wǎng)絡(luò)(去掉了異質(zhì)融合)來取代原模型中的HDFN網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn)。同時(shí),還設(shè)計(jì)了一個(gè)不包含HDFN的多模態(tài)多任務(wù)模型,來檢驗(yàn)HDFN對(duì)于整體性能的提升。實(shí)驗(yàn)結(jié)果如表3所示。其中減號(hào)“-”表示在這組實(shí)驗(yàn)中刪掉的模型結(jié)構(gòu)。
表3 模型整體消融實(shí)驗(yàn)的結(jié)果
異質(zhì)融合消融實(shí)驗(yàn): 分別將HDFN中的各層次(單模態(tài)級(jí)-Uni,雙模態(tài)級(jí)-Bi,三模態(tài)級(jí)-Tri)的異質(zhì)融合結(jié)構(gòu)進(jìn)行了不同程度的刪減,以此來探索各級(jí)的異質(zhì)融合結(jié)構(gòu)在多模態(tài)情緒預(yù)測(cè)中所起的作用,實(shí)驗(yàn)結(jié)果如表4所示。其中,減號(hào)“-”表示在這組實(shí)驗(yàn)中刪去的異質(zhì)融合結(jié)構(gòu)。
表4 異質(zhì)融合消融實(shí)驗(yàn)的結(jié)果
續(xù)表
由模型整體的消融實(shí)驗(yàn)結(jié)果可以看出: 在去掉了模態(tài)動(dòng)態(tài)異質(zhì)融合結(jié)構(gòu)之后,整體模型的性能出現(xiàn)了顯著下降。這說明本文設(shè)計(jì)的HDFN在情緒預(yù)測(cè)過程中,比單純的多任務(wù)自監(jiān)督學(xué)習(xí)方法捕捉到了更多有用的特征。而“-異質(zhì)融合”和“-Γ-單元”的模型在分類性能上比原模型在MOSI數(shù)據(jù)集上的性能下降程度較少,但失去了異質(zhì)融合方式的模型性能下降更加明顯。而失去了異質(zhì)融合方式的模型,在MOSEI數(shù)據(jù)集上性能下降更為明顯,但從基本規(guī)律上來看,與MOSI上的表現(xiàn)類似。這兩組實(shí)驗(yàn)印證了: 異質(zhì)的融合方式對(duì)于情緒分類的性能影響更大。
值得注意的是,將本文提出的MM-SS-HDFN模塊中各單元的γ因子去除之后,HDFN中僅保留了特征擴(kuò)展的部分,失去了動(dòng)態(tài)的自適應(yīng)調(diào)節(jié)能力。雖然此時(shí)的模型性能產(chǎn)生了一定程度的下降,但也并沒有超過SS-MM(自監(jiān)督的多任務(wù)多模態(tài))模型。而SS-MM模型與本文的工作在架構(gòu)上是相似的,差異主要體現(xiàn)在本文提出的HDFN模塊之中。這說明,僅依靠特征擴(kuò)展并不能使模型性能提高,γ因子的調(diào)節(jié)作用與層次化的特征擴(kuò)展共同作用才是提高模型性能的關(guān)鍵。我們還可以看出,它們?cè)诨貧w性能上的差距不明顯。本文采用的動(dòng)態(tài)異質(zhì)融合方式,更側(cè)重于加強(qiáng)模型捕捉情緒分類的極性特征的能力。
本文進(jìn)行的異質(zhì)融合結(jié)構(gòu)的消融實(shí)驗(yàn)結(jié)果表明: 每一層級(jí)的異質(zhì)融合方式對(duì)于模型整體的重要性存在著一定差別,而且其中存在著較為復(fù)雜的相互作用。從消融實(shí)驗(yàn)結(jié)果可以看出,模型在兩組不同的數(shù)據(jù)集上表現(xiàn)出了一些相似的特性(詳見表4)。在僅保留一種融合形式的情況下,根據(jù)“-UNI&TRI后的模型”在兩組不同的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果都可以看出: 只使用雙模態(tài)的融合方式,可以使得模型的性能得到最大程度的保留,與原模型性能差距不大。而從“-UNI&BI后的模型”在兩個(gè)數(shù)據(jù)集上的表現(xiàn)又可以注意到: 僅使用三模態(tài)拼接的簡(jiǎn)單融合,是會(huì)導(dǎo)致性能明顯下降的,這是因?yàn)楸疚牟捎玫摩?單元對(duì)融合方式進(jìn)行動(dòng)態(tài)的權(quán)重調(diào)節(jié),受到權(quán)重因子的影響,必然使得特征信息衰減,使得模型性能大幅下降,此時(shí)權(quán)重因子產(chǎn)生了負(fù)面的效果,這也與實(shí)際情況是相符的。
結(jié)合“-UNI”、“-BI”、“-TRI”這三組實(shí)驗(yàn)結(jié)果還可以看出: 雙模態(tài)融合與三模態(tài)融合這二者缺少一方時(shí),模型性能下降較大,這說明雙模態(tài)和三模態(tài)這兩種不同層次的融合方式之間,對(duì)于特征的捕捉存在著較強(qiáng)的互補(bǔ)作用。這也驗(yàn)證了本文所提出的三種不同層次的異質(zhì)融合方式共存的必要性。
而模型在兩個(gè)不同的數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果存在一些共性的同時(shí),也存在著一定的差異,這更加印證了: 不同數(shù)據(jù)的各模態(tài)信息對(duì)結(jié)果預(yù)測(cè)的權(quán)重是動(dòng)態(tài)變化的。值得注意的是: HDFN結(jié)構(gòu)在刪減兩個(gè)結(jié)構(gòu)后(即: “-UNI&BI”、“-BI&TRI”、“-UNI&TRI”),比刪減一個(gè)結(jié)構(gòu)(即: “-UNI”、“-BI”、“-TRI”)的模型性能在MOSEI上的下降更明顯。而MOSEI的數(shù)據(jù)數(shù)目大概是MOSI的10倍,數(shù)據(jù)的各模態(tài)信息質(zhì)量存在差異的可能性更大。這意味著本文提出的HDFN模塊的各組成部分不是冗余的,其中的一些結(jié)構(gòu)在數(shù)據(jù)量足夠大的時(shí)候起著重要的作用。結(jié)合兩組“-Γ-單元”的消融實(shí)驗(yàn)結(jié)果,更表明了本文利用權(quán)重調(diào)節(jié)因子對(duì)不同層次的融合單元起到了調(diào)節(jié)作用體現(xiàn)了本文提出的這種層次化的動(dòng)態(tài)自適應(yīng)融合方式的存在價(jià)值。
本文提出了一種層次化的異質(zhì)動(dòng)態(tài)模態(tài)融合方法,該方法對(duì)多個(gè)模態(tài)進(jìn)行層次化的異質(zhì)融合,并通過可訓(xùn)練的動(dòng)態(tài)權(quán)重因子,根據(jù)具體的任務(wù)和數(shù)據(jù),動(dòng)態(tài)地調(diào)節(jié)各種異質(zhì)融合方式的權(quán)重。這使得模型能夠從多種模態(tài)的信息中捕捉到最關(guān)鍵的特征信息,減少弱模態(tài)中與任務(wù)無關(guān)的特征信息對(duì)結(jié)果預(yù)測(cè)的干擾,通過調(diào)整權(quán)重的方式自動(dòng)地為模型選擇出最佳的融合方式。實(shí)驗(yàn)表明,將本文提出的方法加入到多任務(wù)學(xué)習(xí)的框架中之后,提高了模型整體的性能,在測(cè)試集上性能優(yōu)于主流基線模型。在消融實(shí)驗(yàn)中,可以看到模態(tài)之間確實(shí)存在復(fù)雜的相互作用,不同的融合方式對(duì)于結(jié)果預(yù)測(cè)的重要程度也存在一定的差異。本文的模型使得各模態(tài)的融合過程更加具有可解釋性。
在未來的工作中,我們將在捕捉各模態(tài)的差異性信息上做出改進(jìn),嘗試加入正則項(xiàng)及半監(jiān)督的方法,更好的處理弱模態(tài)的差異性信息,從而正確地區(qū)分弱模態(tài)中的有價(jià)值的信息及無用的噪聲,進(jìn)一步提高模型的魯棒性和性能。