何 俊,張彩慶,李小珍,張德海
(1.昆明學(xué)院 信息工程學(xué)院,昆明 650214; 2.云南大學(xué) a.外國語學(xué)院; b.軟件學(xué)院,昆明 650206)
近年來,深度學(xué)習(xí)(Deep Learning,DL)在圖像識別、機(jī)器翻譯、情感分析、自然語言處理(Natural Language Processing,NLP)等領(lǐng)域得到廣泛應(yīng)用并取得較多研究成果,為使機(jī)器能更全面高效地感知周圍的世界,需要賦予其理解、推理及融合多模態(tài)信息的能力,并且由于人們生活在一個多領(lǐng)域相互交融的環(huán)境中,聽到的聲音、看到的實(shí)物、聞到的味道都是一種模態(tài),因此研究人員開始關(guān)注如何將多領(lǐng)域數(shù)據(jù)進(jìn)行融合實(shí)現(xiàn)異質(zhì)互補(bǔ),例如語音識別的研究表明,視覺模態(tài)提供了嘴的唇部運(yùn)動和發(fā)音信息,包括張開和關(guān)閉,有助于提高語音識別性能。可見,利用多種模式的綜合語義對深度學(xué)習(xí)研究具有重要意義。深度學(xué)習(xí)中的多模態(tài)融合技術(shù)(Multimodality Fusion Technology,MFT)[1]是模型在分析和識別任務(wù)時處理不同形式數(shù)據(jù)的過程。多模態(tài)數(shù)據(jù)的融合可為模型決策提供更多信息,從而提高決策總體結(jié)果的準(zhǔn)確率,其目標(biāo)是建立能夠處理和關(guān)聯(lián)來自多種模態(tài)信息的模型。
MFT主要包括模態(tài)表示、融合、轉(zhuǎn)換、對齊技術(shù)[2]。由于不同模態(tài)的特征向量最初位于不同的子空間中,即具有異質(zhì)性,因此將影響多模態(tài)數(shù)據(jù)在深度學(xué)習(xí)領(lǐng)域的應(yīng)用[3]。為解決該問題,可將異構(gòu)特征投影到公共子空間,由相似向量表示具有相似語義的多模態(tài)數(shù)據(jù)[4]。因此,多模態(tài)融合技術(shù)的主要目標(biāo)是縮小語義子空間中的分布差距,同時保持模態(tài)特定語義的完整性,例如利用多模態(tài)融合特征,提高視頻分類[5]、事件檢測[6-7]、情感分析[8-9]、跨模態(tài)翻譯[10]等跨媒體分析性能。特別是多模態(tài)融合近期在計(jì)算機(jī)視覺、NLP和語音識別等應(yīng)用中取得的突出性成果[11],已引起學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。本文根據(jù)多模態(tài)融合架構(gòu)、融合方法、模態(tài)對齊方式和公開數(shù)據(jù)資源等,對面向深度學(xué)習(xí)的多模態(tài)融合技術(shù)進(jìn)行分析與研究。
多模態(tài)融合的主要目標(biāo)是縮小模態(tài)間的異質(zhì)性差異,同時保持各模態(tài)特定語義的完整性,并在深度學(xué)習(xí)模型中取得較優(yōu)的性能。多模態(tài)融合架構(gòu)分為[2]:聯(lián)合架構(gòu),協(xié)同架構(gòu)和編解碼器架構(gòu)。聯(lián)合架構(gòu)是將單模態(tài)表示投影到一個共享語義子空間中,以便能夠融合多模態(tài)特征。協(xié)同架構(gòu)包括跨模態(tài)相似模型和典型相關(guān)分析,其目標(biāo)是尋找協(xié)調(diào)子空間中模態(tài)間的關(guān)聯(lián)關(guān)系。編解碼器架構(gòu)是將一個模態(tài)映射到另一個模態(tài)的多模態(tài)轉(zhuǎn)換任務(wù)中。3種融合架構(gòu)在視頻分類、情感分析、語音識別等領(lǐng)域得到廣泛應(yīng)用,且涉及圖像、視頻、語音、文本等融合內(nèi)容,具體應(yīng)用情況如表1所示。
表1 3種多模態(tài)融合架構(gòu)的應(yīng)用情況
Table 1 Application situation of three architectures for multimodal fusion
架構(gòu)應(yīng)用領(lǐng)域融合內(nèi)容參考文獻(xiàn)聯(lián)合架構(gòu)視頻分類語音、視頻、文本文獻(xiàn)[5,12]事件檢測語音、視頻、文本文獻(xiàn)[7]情緒分析語音、視頻、文本文獻(xiàn)[13-14]視覺問答圖像、文本文獻(xiàn)[15-16]情感分析語音、視頻、文本文獻(xiàn)[17]語音識別語音、視頻文獻(xiàn)[18]協(xié)同架構(gòu)跨模態(tài)搜索圖像、文本文獻(xiàn)[19-20]圖像標(biāo)注圖像、文本文獻(xiàn)[21]跨模態(tài)嵌入圖像、視頻、文本文獻(xiàn)[22-23]轉(zhuǎn)移學(xué)習(xí)圖像、文本文獻(xiàn)[24]編解碼器架構(gòu)圖像標(biāo)注圖像、文本文獻(xiàn)[25]視頻解碼視頻、文本文獻(xiàn)[26-27]圖像合成圖像、文本文獻(xiàn)[28]
多模態(tài)融合策略是集成不同類型的特征來提高機(jī)器學(xué)習(xí)模型性能,消除不同模態(tài)的異質(zhì)性差異。聯(lián)合架構(gòu)是將多模態(tài)空間映射到共享語義子空間中,從而融合多個模態(tài)特征[2],如圖1所示。每個單一模態(tài)通過單獨(dú)編碼后,將被映射到共享子空間中,遵循該策略,其在視頻分類[12]、事件檢測[7]、情感分析[13-14]、視覺問答[15-16]和語音識別[17-18]等多模態(tài)分類或回歸任務(wù)中都表現(xiàn)出較優(yōu)的性能。
圖1 聯(lián)合融合架構(gòu)示意圖
多模態(tài)聯(lián)合架構(gòu)的關(guān)鍵是實(shí)現(xiàn)特征“聯(lián)合”,一種較簡單的方法是直接連接,即“加”聯(lián)合方法。該方法在不同的隱藏層實(shí)現(xiàn)共享語義子空間,將轉(zhuǎn)換后的各個單模態(tài)特征向量語義組合在一起,從而實(shí)現(xiàn)多模態(tài)融合,如式(1)所示:
(1)
其中,z是共享語義子空間中的輸出結(jié)果,v是各單模態(tài)的輸入,w是權(quán)重,下標(biāo)表示不同的模態(tài),通過映射f將所有子模態(tài)語義轉(zhuǎn)換到共享子空間。
另一種常用方法是“乘”聯(lián)合方法,如文獻(xiàn)[29]將語言、視頻和音頻等模態(tài)融合在統(tǒng)一的張量中,而張量是由所有單模態(tài)特征向量的輸出乘積構(gòu)成,如式(2)所示:
(2)
其中,z表示融合張量后的結(jié)果輸出,v表示不同的模態(tài),?表示外積算子。
盡管“加”聯(lián)合方法簡單且容易實(shí)現(xiàn),但其特征向量語義組合容易造成后期語義丟失,使模型性能降低,而“乘”聯(lián)合方法彌補(bǔ)了這一不足,通過張量計(jì)算使特征語義得到充分融合,例如文獻(xiàn)[17]的多模態(tài)情感預(yù)測模型由包括許多內(nèi)部乘積的連續(xù)神經(jīng)層組成,其充分利用深度神經(jīng)網(wǎng)絡(luò)的多層性質(zhì),將不同模態(tài)有序分布在不同層中,并在模型訓(xùn)練過程中動態(tài)實(shí)現(xiàn)向量語義組合。
此外,聯(lián)合架構(gòu)對每個單模態(tài)的語義完整性有較高要求,數(shù)據(jù)不完整或錯誤問題在后期融合中會被放大,一些研究人員通過聯(lián)合訓(xùn)練或模態(tài)相關(guān)性來解決這一問題。文獻(xiàn)[30-31]通過多模態(tài)聯(lián)合處理某些單模態(tài)中的部分?jǐn)?shù)據(jù)缺失問題,以便可以利用更多且更完整的訓(xùn)練數(shù)據(jù),或者在一種或多種模態(tài)數(shù)據(jù)缺失的情況下,盡量減少對后續(xù)訓(xùn)練任務(wù)的影響。文獻(xiàn)[12]利用各單模態(tài)特征之間的相關(guān)性(如權(quán)重相似性)來發(fā)現(xiàn)模態(tài)之間的關(guān)系,從而對這些特征進(jìn)行分類使用,該方法在視頻分類任務(wù)中的實(shí)驗(yàn)結(jié)果表明其有助于提高機(jī)器學(xué)習(xí)模型性能。
多模態(tài)聯(lián)合架構(gòu)的優(yōu)點(diǎn)是融合方式簡單,且共享子空間通常具備語義不變性,有助于在機(jī)器學(xué)習(xí)模型中將知識從一種模態(tài)轉(zhuǎn)換到另一種模態(tài)。其缺點(diǎn)是各單模態(tài)語義完整性不易在早期發(fā)現(xiàn)和處理。
多模態(tài)協(xié)同架構(gòu)是將各種單模態(tài)在一些約束的作用下實(shí)現(xiàn)相互協(xié)同[2]。由于不同模態(tài)包含的信息不同,因此協(xié)同架構(gòu)有利于保持各單模態(tài)獨(dú)有的特征和排它性,如圖2所示。
圖2 協(xié)同融合架構(gòu)示意圖
協(xié)同架構(gòu)在跨模態(tài)學(xué)習(xí)中已經(jīng)得到廣泛應(yīng)用,主流的協(xié)同方法是基于交叉模態(tài)相似性方法,該方法旨在通過直接測量向量與不同模態(tài)的距離來學(xué)習(xí)公共子空間[32]?;诮徊婺B(tài)相關(guān)性的方法旨在學(xué)習(xí)一個共享子空間,從而使不同模態(tài)表示集的相關(guān)性最大化[4]。
交叉模態(tài)相似性方法在相似性度量的約束下保持模態(tài)間和模態(tài)內(nèi)的相似性結(jié)構(gòu),使得相同語義或相關(guān)對象的跨模態(tài)相似距離盡可能小,不同語義的距離盡可能大,例如文獻(xiàn)[23]提出的模態(tài)間排名方法用于完成視覺和文本融合任務(wù),將視覺和文本的匹配嵌入向量表示為(v,t)∈D,融合目標(biāo)函數(shù)用一個損失函數(shù)f表示,如式(3)所示:
(3)
其中,α是邊緣,S是相似性度量函數(shù),t-是與v不匹配的嵌入向量,v-是與t不匹配的嵌入向量,且t-和v-是隨機(jī)選擇的樣本。該方法保持了模態(tài)間和模態(tài)內(nèi)的相似性結(jié)構(gòu),同時實(shí)現(xiàn)模態(tài)之間相互協(xié)同。此外,文獻(xiàn)[22,33-34]采用其他方法來度量距離,如歐式距離,其目的都是使配對樣本距離最小化。除了學(xué)習(xí)模態(tài)間相似性的度量外,跨模態(tài)應(yīng)用的另一個關(guān)鍵問題是保持模態(tài)間相似性結(jié)構(gòu),此類方法通常對模態(tài)特征的類別進(jìn)行分類,使它們在每種模態(tài)下具有一定的區(qū)分度[19],同時兼顧模態(tài)協(xié)同和特征融合。由于協(xié)同架構(gòu)的這一靈活特點(diǎn),使其在語音識別、遷移學(xué)習(xí)和圖像標(biāo)注等領(lǐng)域都有廣泛應(yīng)用。
協(xié)同架構(gòu)的優(yōu)點(diǎn)是每個單模態(tài)都可以獨(dú)立運(yùn)行,這一特性有利于跨模式遷移學(xué)習(xí),其目的是在不同模態(tài)或領(lǐng)域之間傳遞知識。其缺點(diǎn)是模態(tài)融合難度較大,使跨模態(tài)學(xué)習(xí)模型不容易實(shí)現(xiàn),同時模型很難在兩種以上的模態(tài)之間實(shí)現(xiàn)遷移學(xué)習(xí)。
編解碼器架構(gòu)通常用于將一種模態(tài)映射到另一種模態(tài)的多模態(tài)轉(zhuǎn)換任務(wù)中,主要由編碼器和解碼器兩部分組成。編碼器將源模態(tài)映射到向量v中,解碼器基于向量v生成一個新的目標(biāo)模態(tài)樣本。該架構(gòu)在圖像標(biāo)注、圖像合成、視頻解碼等領(lǐng)域有廣泛應(yīng)用,如圖3所示。
圖3 編解碼器融合架構(gòu)示意圖
目前,編解碼器架構(gòu)重點(diǎn)關(guān)注共享語義捕獲和多模序列的編解碼問題。為有效捕獲源模態(tài)和目標(biāo)模態(tài)兩種模態(tài)的共享語義,主流的解決方案是通過一些正則化術(shù)語保持模態(tài)之間的語義一致性,需確保編碼器能正確檢測和編碼信息,而解碼器能推理高級語義和生成語法,以保證源模態(tài)中語義的正確理解和目標(biāo)模態(tài)中新樣本的生成。為解決多模序列的編碼和解碼問題,需訓(xùn)練一個靈活的特征選擇模塊,而訓(xùn)練序列的編碼或解碼可以看作順序決策問題,因此通常需采用決策能力強(qiáng)的模型和方法處理該問題,例如深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL),其是一種常用的多模序列編解碼工具[35]。
盡管多數(shù)編解碼器架構(gòu)只包含編碼器和解碼器,但也有一些架構(gòu)是由多個編碼器或解碼器組成。例如:文獻(xiàn)[36]提出一種跨樂器翻譯音樂的模型,其中涉及一個編碼器和多個解碼器;文獻(xiàn)[37]是一種圖像到圖像的翻譯模型,由多個內(nèi)容編碼器和樣式編碼器組成,每個編碼器都負(fù)責(zé)一部分工作。
編解碼器架構(gòu)的優(yōu)點(diǎn)是能夠在源模態(tài)基礎(chǔ)上生成新的目標(biāo)模態(tài)樣本。其缺點(diǎn)是每個編碼器和解碼器只能編碼其中一種模態(tài),并且決策模塊設(shè)計(jì)復(fù)雜。
多模態(tài)融合方法是多模態(tài)深度學(xué)習(xí)技術(shù)的核心內(nèi)容,本文將從融合技術(shù)的角度出發(fā)對早期、晚期和混合融合方法[38-39]進(jìn)行分析。多模態(tài)融合方法如表2所示。
表2 多模態(tài)融合方法
將多模態(tài)融合方法分為模型無關(guān)的方法和基于模型的方法,前者不直接依賴于特定的深度學(xué)習(xí)方法,后者利用深度學(xué)習(xí)模型顯式地解決多模態(tài)融合問題,例如多核學(xué)習(xí)(Multiple Kernel Learning,MKL)方法、圖像模型(Graphical Model,GM)方法和神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)方法等。
模型無關(guān)的融合方法可以分為早期融合(基于特征)、晚期融合(基于決策)和混合融合[11]。如圖4所示,早期融合在提取特征后立即集成特征(通常只需連接各模態(tài)特征的表示),晚期融合在每種模式輸出結(jié)果(例如輸出分類或回歸結(jié)果)后才執(zhí)行集成,混合融合結(jié)合早期融合方法和單模態(tài)預(yù)測器的輸出。
圖4 3種模型無關(guān)的多模態(tài)融合方法
2.1.1 早期融合方法
為緩解各模態(tài)中原始數(shù)據(jù)間的不一致性問題,可以先從每種模態(tài)中分別提取特征的表示,然后在特征級別進(jìn)行融合,即特征融合。由于深度學(xué)習(xí)本質(zhì)上會涉及從原始數(shù)據(jù)中學(xué)習(xí)特征的具體表示,從而導(dǎo)致有時需在未抽取特征之前就進(jìn)行數(shù)據(jù)融合,因此特征層面和數(shù)據(jù)層面的融合均稱為早期融合。
模態(tài)之間通常是高度相關(guān)的,但這種相關(guān)性在特征層和數(shù)據(jù)層提取難度很大。文獻(xiàn)[52]認(rèn)為,不同的數(shù)據(jù)流所包含的信息之間在較高層次才能具有相關(guān)性。文獻(xiàn)[53]提出多模態(tài)數(shù)據(jù)的早期融合不能充分展示模態(tài)之間的互補(bǔ)性,但可能導(dǎo)致冗余向量的輸入。因此,研究人員通常采用降維技術(shù)來消除輸入空間中的冗余問題,例如文獻(xiàn)[54]中的主成分分析(Principal Component Analysis,PCA)方法被廣泛應(yīng)用于多模態(tài)深度學(xué)習(xí)的降維處理中。此外,多模態(tài)早期融合方法還需解決不同數(shù)據(jù)源之間的時間同步問題,文獻(xiàn)[55]提出多種解決同步問題的方法,如卷積、訓(xùn)練和池融合等,能較好地將離散事件序列與連續(xù)信號進(jìn)行整合,實(shí)現(xiàn)模態(tài)間的時間同步。
2.1.2 晚期融合方法
晚期融合方法也稱為決策級融合方法,深度學(xué)習(xí)模型先對不同模態(tài)進(jìn)行訓(xùn)練,再融合多個模型輸出的結(jié)果。因?yàn)樵摲椒ǖ娜诤线^程與特征無關(guān),且來自多個模型的錯誤通常是不相關(guān)的,因此該融合方法普遍受到關(guān)注。目前,晚期融合方法主要采用規(guī)則來確定不同模型輸出結(jié)果的組合,即規(guī)則融合,例如最大值融合、平均值融合、貝葉斯規(guī)則融合以及集成學(xué)習(xí)等規(guī)則融合方法[56]。文獻(xiàn)[55]嘗試將早期和晚期融合方法進(jìn)行比較,發(fā)現(xiàn)當(dāng)模態(tài)之間相關(guān)性比較大時晚期融合優(yōu)于早期融合,當(dāng)各個模態(tài)在很大程度上不相關(guān)時,例如維數(shù)和采樣率極不相關(guān),采用晚期融合方法則更適合。因此,兩種方法各有優(yōu)缺點(diǎn),需要在實(shí)際應(yīng)用中根據(jù)需求選擇。
2.1.3 混合融合方法
混合融合方法結(jié)合了早期和晚期融合方法,在綜合兩者優(yōu)點(diǎn)的同時,也增加了模型的結(jié)構(gòu)復(fù)雜度和訓(xùn)練難度。由于深度學(xué)習(xí)模型結(jié)構(gòu)的多樣性和靈活性,比較適合使用混合融合方法,因此在多媒體、視覺問答、手勢識別[57]等領(lǐng)域應(yīng)用廣泛。文獻(xiàn)[58]在視頻和聲音信號融合過程中,先進(jìn)行僅基于視頻信號和聲音信號的視聽深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,分別產(chǎn)生模型預(yù)測結(jié)果,再將視頻信號和聲音信號的集成特征輸入視聽深度神經(jīng)網(wǎng)絡(luò)模型中產(chǎn)生模型預(yù)測結(jié)果,最后采用加權(quán)方式整合各模型的預(yù)測結(jié)果,獲得最終識別結(jié)果?;旌先诤戏椒ǖ慕M合策略的合理性問題是提高模型性能的關(guān)鍵因素。文獻(xiàn)[42]利用混合融合方法實(shí)現(xiàn)多媒體事件檢測的典型應(yīng)用,通過早期融合與晚期融合來捕捉特征關(guān)系和處理過擬合問題,設(shè)計(jì)雙融合的混合融合方案,達(dá)到88.1%的準(zhǔn)確率,是目前該領(lǐng)域取得的最優(yōu)結(jié)果。
綜上,3種融合方法各有優(yōu)缺點(diǎn),早期融合能較好地捕捉特征之間的關(guān)系,但容易過度擬合訓(xùn)練數(shù)據(jù)。晚期融合能較好地處理過擬合問題,但不允許分類器同時訓(xùn)練所有數(shù)據(jù)。盡管混合多模態(tài)融合方法使用靈活,但研究人員針對當(dāng)前多數(shù)的體系結(jié)構(gòu)需根據(jù)具體應(yīng)用問題和研究內(nèi)容選擇合適的融合方法。
基于模型的融合方法是從實(shí)現(xiàn)技術(shù)和模型的角度解決多模態(tài)融合問題,常用方法包括MKL、GM、NN方法等。
2.2.1 多核學(xué)習(xí)方法
MKL是內(nèi)核支持向量機(jī)(Support Vector Machine,SVM)方法的擴(kuò)展,其允許使用不同的核對應(yīng)數(shù)據(jù)的不同視圖[59]。由于核可以看作各數(shù)據(jù)點(diǎn)之間的相似函數(shù),因此該方法能更好地融合異構(gòu)數(shù)據(jù)且使用靈活,在多目標(biāo)檢測[43]、多模態(tài)情感識別[44]和多模態(tài)情感分析[45]等領(lǐng)域均具有非常廣泛的應(yīng)用。文獻(xiàn)[60]使用MKL從聲學(xué)、語義和社會學(xué)等數(shù)據(jù)中進(jìn)行音樂藝術(shù)家相似性排序,將異構(gòu)數(shù)據(jù)集成到一個單一、統(tǒng)一的相似空間中,該方法較符合人類的感知。文獻(xiàn)[61]在阿爾茨海默病分類中使用MKL進(jìn)行多模態(tài)融合,通過在高斯核上進(jìn)行傅里葉變換,顯式計(jì)算映射函數(shù),從而得到一個更簡單的解決方案,其是一種較新的多核學(xué)習(xí)框架。這兩個研究成果都具有可擴(kuò)展性和易于實(shí)現(xiàn)的特點(diǎn),并取得了非常出色的學(xué)習(xí)性能。
除了核選擇的靈活性外,MKL的另一個優(yōu)勢是損失函數(shù)為凸,允許使用標(biāo)準(zhǔn)優(yōu)化包和全局最優(yōu)解進(jìn)行模型訓(xùn)練,可大幅提升深度神經(jīng)網(wǎng)絡(luò)模型性能。MKL的主要缺點(diǎn)是在測試期間需要依賴訓(xùn)練數(shù)據(jù),且占用大量內(nèi)存資源。
2.2.2 圖像模型方法
GM是一種常用的多模態(tài)融合方法,主要通過圖像分割、拼接和預(yù)測對淺層或深度圖形進(jìn)行融合,從而生成模態(tài)融合結(jié)果。常見圖像模型有聯(lián)合概率生成模型和條件概率判別模型[62]等。早期人們多數(shù)使用生成模型進(jìn)行多模態(tài)融合,如耦合和階乘隱馬爾可夫模型、動態(tài)貝葉斯網(wǎng)絡(luò)等,這些模型充分利用聯(lián)合概率的預(yù)測能力進(jìn)行建模,但不利于實(shí)現(xiàn)數(shù)據(jù)的空間和時間結(jié)構(gòu)。近期提出的條件隨機(jī)場(Conditional Random Fields,CRF)方法通過結(jié)合圖像描述的視覺和文本信息,可以更好地分割圖像[63],并在多模態(tài)會議分割[64]、多視點(diǎn)隱藏[65]、潛在變量模型[66]、多媒體分類任務(wù)、連續(xù)版本的數(shù)據(jù)擬合等方面都有較好的融合效果。GM方法利用回歸模型對多個連續(xù)版本的數(shù)據(jù)進(jìn)行擬合,預(yù)測后續(xù)版本數(shù)據(jù)的趨勢,從而提高多媒體分類任務(wù)的性能。
GM融合方法的優(yōu)點(diǎn)是能夠有效利用數(shù)據(jù)空間和時間結(jié)構(gòu),適用于與時間相關(guān)的建模任務(wù),還可將人類專家知識嵌入到模型中,增強(qiáng)了模型的可解釋性,但是模型的泛化能力有限。
2.2.3 神經(jīng)網(wǎng)絡(luò)方法
NN是目前應(yīng)用最廣泛的方法之一,已用于各種多模態(tài)融合任務(wù)中[30]。視覺和聽覺雙模語音識別(Audio-Visual Speech Recognition,AVSR)是最早使用神經(jīng)網(wǎng)絡(luò)方法進(jìn)行多模態(tài)融合的技術(shù),目前神經(jīng)網(wǎng)絡(luò)方法已在很多領(lǐng)域得到了應(yīng)用,例如視覺和媒體問答[67]、手勢識別[68]和視頻描述生成[69]等,這些應(yīng)用充分利用了神經(jīng)網(wǎng)絡(luò)方法較強(qiáng)的學(xué)習(xí)能力和分類性能。近期神經(jīng)網(wǎng)絡(luò)方法通過使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)來融合時間多模態(tài)信息,例如文獻(xiàn)[50]使用LSTM模型進(jìn)行連續(xù)多模態(tài)情感識別,相對于MKL和GM方法表現(xiàn)出更優(yōu)的性能。此外,神經(jīng)網(wǎng)絡(luò)多模態(tài)融合方法在圖像字幕處理任務(wù)中表現(xiàn)良好,主要模型包括神經(jīng)圖像字幕模型[70]、多視圖模型[71]等。神經(jīng)網(wǎng)絡(luò)方法在多模態(tài)融合中的優(yōu)勢是具備大數(shù)據(jù)學(xué)習(xí)能力,其分層方式有利于不同模態(tài)的嵌入,具有較好的可擴(kuò)展性,但缺點(diǎn)是隨著模態(tài)的增多,模型可解釋性變差。
多模態(tài)對齊是多模態(tài)融合的關(guān)鍵技術(shù)之一,指從兩個或多個模態(tài)中查找實(shí)例子組件之間的對應(yīng)關(guān)系。例如,給定一個圖像和一個標(biāo)題,需找到圖像區(qū)域與標(biāo)題單詞或短語的對應(yīng)關(guān)系[72]。多模態(tài)對齊方法分為顯式對齊和隱式對齊。顯式對齊關(guān)注模態(tài)之間子組件的對齊問題,而隱式對齊則是在深度學(xué)習(xí)模型訓(xùn)練期間對數(shù)據(jù)進(jìn)行潛在對齊,如表3所示。
表3 多模態(tài)對齊方法
無監(jiān)督方法在不同模態(tài)的實(shí)例之間沒有用于直接對齊的監(jiān)督標(biāo)簽,例如:文獻(xiàn)[73]提出的動態(tài)時間扭曲(Dynamic Time Warping,DTW)方法是一種動態(tài)規(guī)劃的無監(jiān)督學(xué)習(xí)對齊方法,已被廣泛用于對齊多視圖時間序列;文獻(xiàn)[74]根據(jù)相同物體的外貌特征來定義視覺場景和句子之間的相似性,從而對齊電視節(jié)目和情節(jié)概要。上述兩個研究成果都在沒有監(jiān)督信息的前提下,通過度量兩個序列之間的相似性,在找到它們之間的最佳匹配后按時間對齊(或插入幀),實(shí)現(xiàn)字符標(biāo)識和關(guān)鍵字與情節(jié)提要和字幕之間的對齊。還有類似DTW的方法用于文本、語音和視頻的多模態(tài)對齊任務(wù),例如文獻(xiàn)[75]使用動態(tài)貝葉斯網(wǎng)絡(luò)將揚(yáng)聲器輸出語音與視頻進(jìn)行對齊。盡管無監(jiān)督對齊方法無需標(biāo)注數(shù)據(jù),可以節(jié)省數(shù)據(jù)標(biāo)注成本,但對實(shí)例的規(guī)范性要求較高,需具備時間一致性且時間上沒有較大的跳躍和單調(diào)性,否則對齊性能會急劇下降。
監(jiān)督方法是從無監(jiān)督的序列對齊技術(shù)中得到啟發(fā),并通過增強(qiáng)模型的監(jiān)督信息來獲得更好的性能,通常可以將上述無監(jiān)督方法進(jìn)行適當(dāng)優(yōu)化后直接用于模態(tài)對齊。該方法旨在不降低性能的前提下,盡量減少監(jiān)督信息,即弱監(jiān)督對齊。例如:文獻(xiàn)[76]提出一種類似于規(guī)范時間扭曲的方法,主要利用現(xiàn)有(弱)監(jiān)督對齊數(shù)據(jù)完成模型訓(xùn)練,從而提升深度學(xué)習(xí)模型性能;文獻(xiàn)[77]利用少量監(jiān)督信息在圖像區(qū)域和短語之間尋找協(xié)調(diào)空間進(jìn)行對齊;文獻(xiàn)[78]訓(xùn)練高斯混合模型,并與無監(jiān)督的潛變量圖像模型同時進(jìn)行弱監(jiān)督聚類學(xué)習(xí),使音頻信道中的語音與視頻中的位置及時對齊。因此,監(jiān)督方法的對齊性能總體上優(yōu)于無監(jiān)督方法,但需要以標(biāo)注數(shù)據(jù)為基礎(chǔ),而準(zhǔn)確把握監(jiān)督信息的參與程度是一項(xiàng)極具挑戰(zhàn)的工作。
圖像模型方法最早用于對齊多種語言之間的語言機(jī)器翻譯及語音音素的轉(zhuǎn)錄[79],即將音素映射到聲學(xué)特征生成語音模型,并在模型訓(xùn)練期間對語音和音素?cái)?shù)據(jù)進(jìn)行潛在對齊。構(gòu)建圖像模型需要大量訓(xùn)練數(shù)據(jù)或手工運(yùn)行,因此隨著深度學(xué)習(xí)研究的深入及訓(xùn)練數(shù)據(jù)的有限,該方法已不適用。
神經(jīng)網(wǎng)絡(luò)方法是目前解決機(jī)器翻譯問題的主流方法,無論是使用編解碼器模型還是通過跨模態(tài)檢索都表現(xiàn)出較好的性能。利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行模態(tài)隱式對齊,主要是在模型訓(xùn)練期間引入對齊機(jī)制,通常會考慮注意力機(jī)制。例如,圖像自動標(biāo)注應(yīng)用中在生成連續(xù)單詞時[80],注意力機(jī)制允許解碼器(通常是RNN)集中在圖像的特定部分,該注意力模塊為一個淺層神經(jīng)網(wǎng)絡(luò),其與目標(biāo)任務(wù)一起完成端到端訓(xùn)練。該方法目前已被廣泛應(yīng)用于語音數(shù)據(jù)標(biāo)注、視頻文本對齊和視頻轉(zhuǎn)錄等領(lǐng)域[81],但由于深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,因此設(shè)計(jì)注意力模塊具有一定的難度。
多模態(tài)融合技術(shù)作為一個具有極大發(fā)展?jié)摿Φ难芯糠较?大量研究人員一直對現(xiàn)有模型進(jìn)行不斷創(chuàng)新和探索以完善數(shù)據(jù)集,提升多模態(tài)深度學(xué)習(xí)模型性能,提高預(yù)測準(zhǔn)確率。表4列舉了常見用于多模態(tài)融合技術(shù)研究和應(yīng)用的公開數(shù)據(jù)集,并給出各數(shù)據(jù)集目前的最優(yōu)學(xué)習(xí)結(jié)果,其中包括準(zhǔn)確率(Accurary,ACC)、正確分類率(Correct Classification Rate,CCR)、等錯誤率(Equal Error Rate,EER)和平均精度均值(Mean Average Precision,MAP)。
表4 多模態(tài)融合公開數(shù)據(jù)集
現(xiàn)有多模態(tài)融合技術(shù)可有效提升深度學(xué)習(xí)模型性能,但仍有一些問題亟待解決,例如跨模態(tài)遷移學(xué)習(xí)、特征間語義鴻溝、模態(tài)泛化能力等。
1)多模態(tài)融合技術(shù)在深度學(xué)習(xí)等新興研究領(lǐng)域的進(jìn)一步應(yīng)用探索。隨著深度學(xué)習(xí)應(yīng)用的不斷深入,多模態(tài)融合技術(shù)的優(yōu)勢凸顯,如基于傳感器數(shù)據(jù)、人類活動識別、醫(yī)學(xué)研究等多模態(tài)融合方面,這些領(lǐng)域會在未來幾年獲得更多的關(guān)注。特別是自主機(jī)器人和多媒體兩個應(yīng)用領(lǐng)域中的多模態(tài)融合問題正在引起深度學(xué)習(xí)研究人員的極大關(guān)注,例如視頻轉(zhuǎn)錄、圖像字幕、在線聊天機(jī)器人等。
2)多模態(tài)融合技術(shù)為多數(shù)據(jù)集之間的跨模態(tài)遷移學(xué)習(xí)提供了橋梁,盡管遷移學(xué)習(xí)已廣泛應(yīng)用于多模態(tài)深度學(xué)習(xí)領(lǐng)域,但由于長期以來人工數(shù)據(jù)標(biāo)注成本高和許多領(lǐng)域的標(biāo)注數(shù)據(jù)資源稀缺問題,因此基于多模態(tài)融合的遷移學(xué)習(xí)仍是下一步將重點(diǎn)關(guān)注的方向。
3)目前深度學(xué)習(xí)多模態(tài)融合中的語義沖突、重復(fù)和噪聲等問題仍未得到較好解決。雖然注意力機(jī)制可以部分處理這些問題,但其主要為隱式運(yùn)行,不易受到主動控制。解決該問題的一種有效方法為將邏輯推理能力集成到多模態(tài)融合技術(shù)中,深度學(xué)習(xí)與邏輯推理的結(jié)合將賦予機(jī)器智能更多的認(rèn)知能力。
4)多模態(tài)融合技術(shù)將在情感識別與分析領(lǐng)域發(fā)揮更大作用。目前利用多模態(tài)融合進(jìn)行情感識別研究仍處于部分融合階段,尚未建立一個情感分析的綜合數(shù)據(jù)庫,下一步可將人體的所有特征包括面部表情、瞳孔擴(kuò)張、語言、身體運(yùn)動、體溫等進(jìn)行多模態(tài)融合,以獲得更全面、詳細(xì)的情感識別結(jié)果。
5)多模態(tài)融合中的特征間語義鴻溝、模態(tài)泛化能力、多模態(tài)組合評價標(biāo)準(zhǔn)等關(guān)鍵問題仍將得到持續(xù)關(guān)注。為解決多模態(tài)特征的語義鴻溝,實(shí)現(xiàn)各模態(tài)信息的無障礙交流互通,需要探索更有效的語義嵌入方法。模態(tài)泛化能力是將已有模態(tài)上學(xué)習(xí)的多模態(tài)表示和模型推廣到未知模態(tài)上,使機(jī)器具備高效、準(zhǔn)確學(xué)習(xí)數(shù)據(jù)庫外數(shù)據(jù)的能力。如何高效、規(guī)范地組合模態(tài)是一個從理論到具體算法都亟待解決的問題,并且還需設(shè)計(jì)一個更具普適性的評價標(biāo)準(zhǔn)來判定組合形式的優(yōu)劣。
6)多模態(tài)深度學(xué)習(xí)的目標(biāo)函數(shù)通常為非凸優(yōu)化函數(shù),目前的深度學(xué)習(xí)訓(xùn)練算法不能有效避開鞍點(diǎn),導(dǎo)致尋優(yōu)過程失敗,使得研究人員無法獲知是優(yōu)化過程未找到最優(yōu)解導(dǎo)致預(yù)測結(jié)果較差,還是其他模態(tài)融合和模態(tài)對齊中存在問題。針對該情況,需設(shè)計(jì)求解非凸優(yōu)化問題的求解算法。
本文總結(jié)了深度學(xué)習(xí)領(lǐng)域多模態(tài)融合技術(shù)的研究現(xiàn)狀,對融合架構(gòu)、融合方法、模態(tài)對齊等進(jìn)行重點(diǎn)分析。融合架構(gòu)按照特征融合方式的不同,分為聯(lián)合架構(gòu)、協(xié)同架構(gòu)和編解碼器架構(gòu)。融合方法包括早期、晚期、混合這3種與模型無關(guān)的方法以及多核學(xué)習(xí)、圖像模型這2種基于模型的方法。模態(tài)對齊是多模態(tài)融合技術(shù)的難點(diǎn),其常用處理方式為顯示對齊和隱式對齊。近期在模態(tài)融合技術(shù)上的研究促進(jìn)了大量新型多模態(tài)算法的提出,并且拓展了多模態(tài)學(xué)習(xí)的應(yīng)用范圍。這些模型和算法各有優(yōu)缺點(diǎn),可在不同領(lǐng)域應(yīng)用中發(fā)揮優(yōu)勢和作用。多模態(tài)深度學(xué)習(xí)作為一種能使機(jī)器具有更多人類智能特性的技術(shù),有望在今后獲得長足發(fā)展。后續(xù)將針對模態(tài)語義沖突消解、多模態(tài)組合評價、跨模態(tài)轉(zhuǎn)移學(xué)習(xí)等問題進(jìn)行深入研究,促進(jìn)多模態(tài)融合技術(shù)在深度學(xué)習(xí)等新興領(lǐng)域的應(yīng)用與發(fā)展。