擁抱融合的多模態(tài)災(zāi)害分析算法

2022-10-18 07:12:58繆梓敬

計算機(jī)與現(xiàn)代化 2022年10期

梅欣，繆梓敬

(華南師范大學(xué)計算機(jī)學(xué)院，廣東廣州 510631)

0 引言

近年來，世界各地遭受一系列重大災(zāi)害，包括地震、颶風(fēng)、火災(zāi)和洪水。這些災(zāi)害給全世界的人民帶來極大的損失，不僅是對個人的生命財產(chǎn)，也給國家?guī)砭薮蟮慕?jīng)濟(jì)損失。這些災(zāi)害信息以文本、圖像等多模態(tài)在各個社交媒體平臺進(jìn)行傳播[1]。相比傳統(tǒng)對于單文本[2]和單圖像[3]模態(tài)信息進(jìn)行分析，多模態(tài)有以下優(yōu)勢：1)數(shù)據(jù)量相對不多時，多模態(tài)可以聚合多源數(shù)據(jù)的信息，讓模型學(xué)習(xí)到的特征更完整。2)數(shù)據(jù)量達(dá)到一定規(guī)模時，模態(tài)種類越完整，模型的內(nèi)在復(fù)雜度會降低，從而提高模型的學(xué)習(xí)效果[4]。因此對這些平臺中的災(zāi)害信息進(jìn)行融合[5]就勢在必行。

多模態(tài)的融合方法，主要分為早期融合(數(shù)量級融合)、中期融合(特征融合)、晚期融合(決策融合)3個層次[6]。早期融合是將原始的多模態(tài)信息進(jìn)行融合，然后作為輸入求解下游問題，缺點(diǎn)是過早融合，導(dǎo)致不能找出不同數(shù)據(jù)流之間的相關(guān)性，且存在數(shù)據(jù)冗余的問題[7]。晚期融合是先對不同模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練求得相應(yīng)的決策結(jié)果，再融合多個結(jié)果得到最終的結(jié)果，其優(yōu)點(diǎn)是各個模型相對獨(dú)立，具有良好的容錯性，缺點(diǎn)是需要根據(jù)不同場景調(diào)整決策融合方式[8]。中期融合是將不同模態(tài)數(shù)據(jù)的特征提取出來，在統(tǒng)一的特征空間進(jìn)行融合，再將融合的特征用于求解下游問題，其優(yōu)點(diǎn)是結(jié)果精度更高、前景更廣，缺點(diǎn)是特征的抽取存在難度。目前多模態(tài)融合主要集中在中期融合方法研究中。融合方式主要有以下3種：

1)特征線性融合[9]。線性融合是直接將文本和圖像的特征向量進(jìn)行拼接或者加權(quán)求和，其優(yōu)點(diǎn)是操作簡單，缺點(diǎn)是難以應(yīng)對復(fù)雜情況。文獻(xiàn)[10]中提出的文本和圖像聯(lián)合共享算法，將提取的文本特征和圖像特征連接成一個表示層，方法可移植性強(qiáng)，但存在重復(fù)相同特征，容易因特征冗余而導(dǎo)致準(zhǔn)確率不高的問題。文獻(xiàn)[11]提出特征權(quán)重加權(quán)求和，但是要求預(yù)訓(xùn)練模型產(chǎn)生確定的維度以及要按一定的順序來排列，需要讓全連接層控制維度和順序，因此操作復(fù)雜。

2)基于注意力機(jī)制[12]?；谧⒁饬C(jī)制融合是將更多的“注意”關(guān)注更重要的特征，針對文本和圖像的不同特征訓(xùn)練出不同權(quán)重，并建立2個模態(tài)之間的聯(lián)系，得到帶有注意力的融合向量。文獻(xiàn)[13]中引入一個交叉注意模塊，可以從較弱的模態(tài)過濾出無信息和誤導(dǎo)性成分特征。但不同模態(tài)信息缺少明顯的交互，無法充分發(fā)揮模態(tài)信息之間的互補(bǔ)關(guān)系。

3)基于雙線性池化[14]。基于雙線性池化融合是獲得文本和圖像特征向量聯(lián)合表示空間，計算它們的外積，產(chǎn)生n2維度的表征，再線性化為一個向量表示，從而得到一個更好的表現(xiàn)力。文獻(xiàn)[15]提出基于雙線性池化的特征級融合方法，允許特征向量以一種有效的交互方式相互作用，從而表達(dá)出特征之間的內(nèi)在關(guān)系，但該方法需要對張量進(jìn)行分解，維數(shù)通常達(dá)到幾萬到幾百萬的數(shù)量級，才能有效訓(xùn)練相關(guān)模型。

經(jīng)過以上分析，考慮特征線性融合和基于注意力機(jī)制融合的優(yōu)劣勢，本文提出一種新的擁抱融合算法，在注意力機(jī)制中加入線性融合操作。該結(jié)構(gòu)的主要組成部分是對接層和擁抱層。首先對接層基于注意力融合將特定的輸入特征和其他特征進(jìn)行對比，賦予不一樣的特征權(quán)重。然后擁抱層基于多項(xiàng)抽樣[16]，選擇文本和圖像的特征向量進(jìn)行融合，消除特征冗余，保留多個模態(tài)之間特征的相關(guān)性。最后將特征融合送到終端網(wǎng)絡(luò)。本文通過與當(dāng)前最新算法進(jìn)行對比實(shí)驗(yàn)來驗(yàn)證該算法的優(yōu)勢，同時還驗(yàn)證了該算法對于不同文本和圖像深度學(xué)習(xí)模型的適應(yīng)性。

1 單模態(tài)模型

1.1 文本模型

對于文本預(yù)訓(xùn)練，本文使用Merity等人[17]提出的AWD-LSTM(ASGD Weight-Dropped LSTM)模型對文本進(jìn)行特征提取。

首先遺忘門將2個輸入，當(dāng)前時間步的輸入xt以及上一層輸出的隱藏狀態(tài)ht-1，訓(xùn)練出一個門函數(shù)，并輸出一個0到1之間的數(shù)值給每個細(xì)胞狀態(tài)Ct-1中的數(shù)字，其中0表示完全舍棄，1表示完全保留。這一步是決定丟棄什么信息。計算公式如式(1)所示。

ft=σ(Wf.[ht-1,xt]+bf)

(1)

其中，W為權(quán)值，b為偏移量，σ為sigmoid函數(shù)，下同。

it=σ(Wi.[ht-1,xt]+bi)

(2)

(3)

(4)

最后通過輸出門將新的Ct通過簡單的tanh函數(shù)后，與門函數(shù)的輸出相乘，得到新的隱藏狀態(tài)ht，這一步?jīng)Q定輸出什么。計算公式如式(5)與式(6)所示。

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ottanh(Ct)

(6)

AWD-LSTM引入了正則化技術(shù)，在處理過擬合的問題中，AWD-LSTM模型使用DropConnect在神經(jīng)網(wǎng)絡(luò)中對全連接層進(jìn)行正則化[18]處理，相對于Dropout[19]在計算ht時刻的某個神經(jīng)元時，DropConnect[20]只會使用ht-1中部分神經(jīng)元，從而緩解過擬合。將文本送入到AWD-LSTM模型進(jìn)行特征提取，得到向量表示。其中DropConnect神經(jīng)網(wǎng)絡(luò)如圖1所示。

1.2 圖像模型

對于圖像預(yù)訓(xùn)練，本文利用卷積神經(jīng)網(wǎng)絡(luò)[21](Convolutional Neural Network, CNN)，將圖像表示為高維特征向量，通過特征向量來表示圖像的語義特征。先在卷積層將圖片中的不同特征提取出來，然后經(jīng)過池化層的切分，得到新的、維度較小特征，最后將所有局部特征結(jié)合變成全局特征，用于計算最后分類的得分。其中激活函數(shù)貫穿整個卷積全過程。卷積運(yùn)算如公式(7)所示。

s(t)=f((X*W)(t))

(7)

其中W為卷積核，X為圖像。

ResNet50[22]網(wǎng)絡(luò)結(jié)構(gòu)在連接多層卷積網(wǎng)絡(luò)之后，網(wǎng)絡(luò)訓(xùn)練會變得困難。此時構(gòu)建殘差學(xué)習(xí)塊，通過直連進(jìn)行恒等映射，內(nèi)部的殘差塊之間的連接方式使用了跳躍連接。這樣誤差逆?zhèn)鞑サ臅r候只需要傳播殘差部分，從而解決了梯度消失問題。利用多個殘差塊構(gòu)建的深層次網(wǎng)絡(luò)，能夠提取到更豐富的信息，同時更完好保留圖像的特征信息，使接下來的特征向量融合方式變得更加靈活。跳躍連接公式如式(8)所示，殘差塊結(jié)構(gòu)如圖2所示。

H(x)=F(x)+x

(8)

其中F(x)為卷積函數(shù)，H(x)為跳躍連接后的輸出。

2 擁抱融合模型

2.1 算法主要思想

對于多模態(tài)融合，本文希望能夠得到高準(zhǔn)確率，且操作盡可能簡單。結(jié)合特征線性融合和注意力機(jī)制的優(yōu)勢和不足，本文提出擁抱融合策略，先分別從文本和圖像獲取特征向量，并進(jìn)一步通過注意力權(quán)重突出更重要的特征，然后，考慮每個模態(tài)特征之間的相關(guān)性。本文并不直接連接文本和圖像模型的特征向量，而是將處理后的特征去除特征冗余，挑選有效特征連接到擁抱層結(jié)構(gòu)中，并最終傳遞到終端網(wǎng)絡(luò)得到分類結(jié)果。同時模型在每一個模態(tài)引入多項(xiàng)抽樣的概率p，所有模態(tài)就相當(dāng)于多項(xiàng)式分布。在擁抱層通過調(diào)整概率p，可以健壯地處理丟失的數(shù)據(jù)，防止正則化時過擬合。然后采用多項(xiàng)抽樣融合特征，有效地防止訓(xùn)練階段對特定模態(tài)數(shù)據(jù)的過度學(xué)習(xí)，剔除冗余特征。擁抱融合如圖3所示。

2.2 對接層

首先對接層將文本和圖像提取的所有特征xi進(jìn)行對比，由softmax層來學(xué)習(xí)每個特征維度的注意權(quán)重αi，讓更重要的特征賦予更多的權(quán)重。最后將注意權(quán)重與輸入特征相乘，得到添加注意之后的特征βi。計算公式如式(9)與式(10)。

(9)

βi=αixi

(10)

其中i,j∈{1,2,…,n+m},n+m是多模態(tài)連接的特征向量總維數(shù)，W是模型學(xué)習(xí)到的權(quán)值矩陣。

然后考慮融合之前不同模態(tài)有不同維度的特征，因此在融合之前需要將它們轉(zhuǎn)換成相同大小的向量。假設(shè)β(1)和β(2)分別表示為圖像和文本特征的輸出向量。對接層的第k(k=1,2)個輸入向量的表示為：

z(k)=w(k)·β(k)+b(k)

(11)

其中w(k)和b(k)分別是權(quán)重向量和偏差。然后將激活函數(shù)fa(線性整流函數(shù)ReLU)應(yīng)用于z(k)，從而獲得第k個對接層輸出，如式(12)。

d(k)=fa(z(k))

(12)

2.3 擁抱層

ri～Multinomial(1,p)

(13)

當(dāng)每個模態(tài)的對接層產(chǎn)生了它自己的表示d(k)，在擁抱層中使用哈達(dá)瑪積(Hadamard product)只對向量的某些部分進(jìn)行進(jìn)一步處理，如式(14)。

d′(k)=r(k)·d(k)

(14)

最后一步是融合2個模態(tài)的向量，得到融合向量ei，如式(15)。

e=∑kd′(k)

(15)

最后將融合向量輸入到全連接層中，第1個全連接層長度為256個節(jié)點(diǎn)，第2個全連接層長度根據(jù)任務(wù)的分類數(shù)不同而作調(diào)整。任務(wù)1為2個節(jié)點(diǎn)，任務(wù)2為5個節(jié)點(diǎn)。然后作為終端網(wǎng)絡(luò)的輸入向量，輸出給定分類任務(wù)的最終結(jié)果?；贏WD-LSTM和ResNet50網(wǎng)絡(luò)構(gòu)造的擁抱融合模型如圖4所示。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

CrisisMMD2.0[23]多模態(tài)推特數(shù)據(jù)集包含了2017年發(fā)生在全世界不同地區(qū)的地震、颶風(fēng)、野火和洪水等7次自然災(zāi)害期間收集的數(shù)千條人工注釋推文和圖片數(shù)據(jù)。數(shù)據(jù)集包括2個類型的標(biāo)簽：

1)是否為災(zāi)害救援相關(guān)信息，包括信息性標(biāo)簽與非信息性標(biāo)簽。任務(wù)1的目的是確定在災(zāi)難事件中收集給定的推特文本和圖像是否有助于災(zāi)害救援。

2)災(zāi)害救援事件的各種信息類型，包括人員傷亡信息、基礎(chǔ)設(shè)施和公共設(shè)施損壞信息、救援和捐贈信息、其他災(zāi)害相關(guān)信息、非災(zāi)害相關(guān)信息。任務(wù)2的目的是確定推特文本和圖像中災(zāi)害信息的類型。CrisisMMD2.0數(shù)據(jù)集數(shù)量如表1所示。

表1 災(zāi)害名稱及數(shù)量

3.2 實(shí)驗(yàn)設(shè)置

本文使用Fastai[24]和集成了Transformers的PyTorch框架來實(shí)現(xiàn)多模態(tài)模型。首先對每一個模態(tài)，在凍結(jié)除了最后一層的所有層后，使用Fastai工具確定學(xué)習(xí)率，然后逐步解凍。這樣操作的原因是把模型的全部層一起訓(xùn)練，容易造成通用信息丟失，從而增加信息遺忘的風(fēng)險。最后解凍所有組后，再次通過Fastai工具確定學(xué)習(xí)率，并使用這個新的學(xué)習(xí)速率訓(xùn)練模型。其中實(shí)驗(yàn)權(quán)重衰減值取0.1, Dropout值取0.8，其余的超參數(shù)值為Fastai庫中的默認(rèn)值。本文使用CrossEntropyLoss和Adam[25]分別作為損失函數(shù)和優(yōu)化器。

3.3 實(shí)驗(yàn)1結(jié)果與分析

為了驗(yàn)證提出的擁抱融合模型的效果，本文在CrisisMMD2.0數(shù)據(jù)集上進(jìn)行了任務(wù)1和任務(wù)2的實(shí)驗(yàn)，同時將擁抱融合模型的實(shí)驗(yàn)結(jié)果與目前的一些主流多模態(tài)融合進(jìn)行對比，分別包括特征線性融合、基于注意力、基于雙線性池化。多模態(tài)擁抱融合選取的核心指標(biāo)分別是所有類別的準(zhǔn)確率、精確率、召回率和F1值。實(shí)驗(yàn)分別計算了精確率、召回率、F1值三者的算術(shù)平均數(shù)和加權(quán)平均數(shù)2種實(shí)驗(yàn)結(jié)果，填寫到表中為加權(quán)平均數(shù)。所有實(shí)驗(yàn)的對比結(jié)果如表2與表3所示。

表2 任務(wù)1實(shí)驗(yàn)1結(jié)果對比

表3 任務(wù)2實(shí)驗(yàn)1結(jié)果對比

由準(zhǔn)確率、精確率、召回率和F1值的實(shí)驗(yàn)數(shù)據(jù)對比結(jié)果表明，相較于特征線性融合、基于注意力機(jī)制和雙線性池化融合算法，本文方法的準(zhǔn)確率更高，在融合模態(tài)方面展示了更好的性能。具體分析，特征線性融合只是將文本特征和圖像特征融合成一個共享特征表示，特征冗余且重復(fù)，所以它的效果相對來說是最差的。基于注意力機(jī)制和基于雙線性池化的效果偏好一點(diǎn)，然而它們沒有考慮特征之間的相關(guān)性，因此相比特征線性融合好一點(diǎn)，但相比本文算法略差。擁抱模型相比特征線性、基于注意力機(jī)制、基于雙線性池化在準(zhǔn)確率方面，任務(wù)1分別提高3.8個百分點(diǎn)、2.2個百分點(diǎn)、3.2個百分點(diǎn)，任務(wù)2分別提升6.7個百分點(diǎn)、3.1個百分點(diǎn)、4.1個百分點(diǎn)。

本文進(jìn)一步分析幾個模型的混淆矩陣，觀察模型在各個類別的表現(xiàn)，查看哪個類別具有區(qū)分性。其中任務(wù)1為二分類問題，任務(wù)2為多分類問題。任務(wù)1和任務(wù)2的混淆矩陣如表4～表11所示。

表4 任務(wù)1特征線性融合混淆矩陣

表5 任務(wù)1基于注意力機(jī)制混淆矩陣

表6 任務(wù)1基于雙線性池化混淆矩陣

表7 任務(wù)1擁抱融合混淆矩陣

表8 任務(wù)2特征線性融合混淆矩陣

表9 任務(wù)2基于注意力機(jī)制混淆矩陣

表10 任務(wù)2基于雙線性池化混淆矩陣

表11 任務(wù)2擁抱融合混淆矩陣

從表4～表7結(jié)果得出，本文和其他算法模型相比，在TN、TP、FN、FP都全面提升。具體分析，當(dāng)模型預(yù)測為災(zāi)害相關(guān)的信息(即信息性)，但真實(shí)標(biāo)簽為沒有災(zāi)害相關(guān)的信息(即非信息性)。本文模型相較于特征線性融合的實(shí)驗(yàn)數(shù)據(jù)實(shí)例分別從139、124、135下降到97，說明擁抱融合準(zhǔn)確率更高。相同實(shí)驗(yàn)結(jié)論也可從其他實(shí)例得出。

從表8～表11結(jié)果得出，當(dāng)模型預(yù)測為非災(zāi)害救援相關(guān)信息(即非災(zāi)害)，但真實(shí)標(biāo)簽為基礎(chǔ)設(shè)施和公共設(shè)施(即設(shè)施)，在特征線性融合模型中有10個假陰性實(shí)例，基于注意力機(jī)制有7個，基于雙線性池化有7個，而在擁抱融合模型中只有4個。這表明擁抱融合在多分類實(shí)驗(yàn)中也展示出比其他模型的優(yōu)越性。同樣的結(jié)論也可從表中多次得出。

3.4 實(shí)驗(yàn)2結(jié)果與分析

為了進(jìn)一步驗(yàn)證擁抱融合在不同文本、圖像特征提取模型具有同樣的優(yōu)勢，本文選取現(xiàn)在流行的文本和圖像深度學(xué)習(xí)模型，例如BERT、AWD-LSTM、XML和ResNet50、DenseNet161、VGG19，繼續(xù)在CrisisMMD2.0數(shù)據(jù)集進(jìn)行任務(wù)1和任務(wù)2的實(shí)驗(yàn)。不同深度學(xué)習(xí)模型實(shí)驗(yàn)結(jié)果如表12與表13所示。

表12 任務(wù)1實(shí)驗(yàn)2結(jié)果對比

表13 任務(wù)2實(shí)驗(yàn)2結(jié)果對比

由表12與表13可知在不同文本和圖像融合基礎(chǔ)上添加擁抱融合算法，在準(zhǔn)確率方面會有不同程度的提高，說明擁抱模型可以適用不同的文本和圖像深度學(xué)習(xí)模型。同時也驗(yàn)證了擁抱模型更適用于ResNet50+AWD-LSTM，因?yàn)樵诖巳诤夏Ｐ蜏?zhǔn)確率的提高最大。

通過以上實(shí)驗(yàn)數(shù)據(jù)對比，擁抱模型相對于其他融合模型有更高的準(zhǔn)確率，且適用于不同的文本、圖像深度學(xué)習(xí)算法，是一種有效的災(zāi)害事件分析算法。

4 結(jié)束語

針對災(zāi)害事件中多模態(tài)融合識別問題，本文提出擁抱融合的多模態(tài)算法，在基于注意力機(jī)制和特征線性融合的基礎(chǔ)上，通過對文本和圖像特征進(jìn)行挑選與融合，去除特征冗余的同時，保留特征之間的相關(guān)性，來提高擁抱融合的性能。最后在CrisisMMD2.0多模態(tài)數(shù)據(jù)集上驗(yàn)證對比表明，擁抱融合模型相對于其他融合具有更高的準(zhǔn)確率和適用性。

由于本文只使用CrisisMMD2.0單一災(zāi)害事件數(shù)據(jù)集，對于不同多模態(tài)災(zāi)害事件的數(shù)據(jù)集的適用性，還需要進(jìn)一步驗(yàn)證。因此在接下來的研究中，可以針對不同災(zāi)害事件場景構(gòu)建模型。這是未來繼續(xù)研究下去的方向。