• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      擁抱融合的多模態(tài)災(zāi)害分析算法

      2022-10-18 07:12:58繆梓敬
      計算機(jī)與現(xiàn)代化 2022年10期
      關(guān)鍵詞:線性災(zāi)害模態(tài)

      梅 欣,繆梓敬

      (華南師范大學(xué)計算機(jī)學(xué)院,廣東 廣州 510631)

      0 引 言

      近年來,世界各地遭受一系列重大災(zāi)害,包括地震、颶風(fēng)、火災(zāi)和洪水。這些災(zāi)害給全世界的人民帶來極大的損失,不僅是對個人的生命財產(chǎn),也給國家?guī)砭薮蟮慕?jīng)濟(jì)損失。這些災(zāi)害信息以文本、圖像等多模態(tài)在各個社交媒體平臺進(jìn)行傳播[1]。相比傳統(tǒng)對于單文本[2]和單圖像[3]模態(tài)信息進(jìn)行分析,多模態(tài)有以下優(yōu)勢:1)數(shù)據(jù)量相對不多時,多模態(tài)可以聚合多源數(shù)據(jù)的信息,讓模型學(xué)習(xí)到的特征更完整。2)數(shù)據(jù)量達(dá)到一定規(guī)模時,模態(tài)種類越完整,模型的內(nèi)在復(fù)雜度會降低,從而提高模型的學(xué)習(xí)效果[4]。因此對這些平臺中的災(zāi)害信息進(jìn)行融合[5]就勢在必行。

      多模態(tài)的融合方法,主要分為早期融合(數(shù)量級融合)、中期融合(特征融合)、晚期融合(決策融合)3個層次[6]。早期融合是將原始的多模態(tài)信息進(jìn)行融合,然后作為輸入求解下游問題,缺點(diǎn)是過早融合,導(dǎo)致不能找出不同數(shù)據(jù)流之間的相關(guān)性,且存在數(shù)據(jù)冗余的問題[7]。晚期融合是先對不同模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練求得相應(yīng)的決策結(jié)果,再融合多個結(jié)果得到最終的結(jié)果,其優(yōu)點(diǎn)是各個模型相對獨(dú)立,具有良好的容錯性,缺點(diǎn)是需要根據(jù)不同場景調(diào)整決策融合方式[8]。中期融合是將不同模態(tài)數(shù)據(jù)的特征提取出來,在統(tǒng)一的特征空間進(jìn)行融合,再將融合的特征用于求解下游問題,其優(yōu)點(diǎn)是結(jié)果精度更高、前景更廣,缺點(diǎn)是特征的抽取存在難度。目前多模態(tài)融合主要集中在中期融合方法研究中。融合方式主要有以下3種:

      1)特征線性融合[9]。線性融合是直接將文本和圖像的特征向量進(jìn)行拼接或者加權(quán)求和,其優(yōu)點(diǎn)是操作簡單,缺點(diǎn)是難以應(yīng)對復(fù)雜情況。文獻(xiàn)[10]中提出的文本和圖像聯(lián)合共享算法,將提取的文本特征和圖像特征連接成一個表示層,方法可移植性強(qiáng),但存在重復(fù)相同特征,容易因特征冗余而導(dǎo)致準(zhǔn)確率不高的問題。文獻(xiàn)[11]提出特征權(quán)重加權(quán)求和,但是要求預(yù)訓(xùn)練模型產(chǎn)生確定的維度以及要按一定的順序來排列,需要讓全連接層控制維度和順序,因此操作復(fù)雜。

      2)基于注意力機(jī)制[12]?;谧⒁饬C(jī)制融合是將更多的“注意”關(guān)注更重要的特征,針對文本和圖像的不同特征訓(xùn)練出不同權(quán)重,并建立2個模態(tài)之間的聯(lián)系,得到帶有注意力的融合向量。文獻(xiàn)[13]中引入一個交叉注意模塊,可以從較弱的模態(tài)過濾出無信息和誤導(dǎo)性成分特征。但不同模態(tài)信息缺少明顯的交互,無法充分發(fā)揮模態(tài)信息之間的互補(bǔ)關(guān)系。

      3)基于雙線性池化[14]。基于雙線性池化融合是獲得文本和圖像特征向量聯(lián)合表示空間,計算它們的外積,產(chǎn)生n2維度的表征,再線性化為一個向量表示,從而得到一個更好的表現(xiàn)力。文獻(xiàn)[15]提出基于雙線性池化的特征級融合方法,允許特征向量以一種有效的交互方式相互作用,從而表達(dá)出特征之間的內(nèi)在關(guān)系,但該方法需要對張量進(jìn)行分解,維數(shù)通常達(dá)到幾萬到幾百萬的數(shù)量級,才能有效訓(xùn)練相關(guān)模型。

      經(jīng)過以上分析,考慮特征線性融合和基于注意力機(jī)制融合的優(yōu)劣勢,本文提出一種新的擁抱融合算法,在注意力機(jī)制中加入線性融合操作。該結(jié)構(gòu)的主要組成部分是對接層和擁抱層。首先對接層基于注意力融合將特定的輸入特征和其他特征進(jìn)行對比,賦予不一樣的特征權(quán)重。然后擁抱層基于多項(xiàng)抽樣[16],選擇文本和圖像的特征向量進(jìn)行融合,消除特征冗余,保留多個模態(tài)之間特征的相關(guān)性。最后將特征融合送到終端網(wǎng)絡(luò)。本文通過與當(dāng)前最新算法進(jìn)行對比實(shí)驗(yàn)來驗(yàn)證該算法的優(yōu)勢,同時還驗(yàn)證了該算法對于不同文本和圖像深度學(xué)習(xí)模型的適應(yīng)性。

      1 單模態(tài)模型

      1.1 文本模型

      對于文本預(yù)訓(xùn)練,本文使用Merity等人[17]提出的AWD-LSTM(ASGD Weight-Dropped LSTM)模型對文本進(jìn)行特征提取。

      首先遺忘門將2個輸入,當(dāng)前時間步的輸入xt以及上一層輸出的隱藏狀態(tài)ht-1,訓(xùn)練出一個門函數(shù),并輸出一個0到1之間的數(shù)值給每個細(xì)胞狀態(tài)Ct-1中的數(shù)字,其中0表示完全舍棄,1表示完全保留。這一步是決定丟棄什么信息。計算公式如式(1)所示。

      ft=σ(Wf.[ht-1,xt]+bf)

      (1)

      其中,W為權(quán)值,b為偏移量,σ為sigmoid函數(shù),下同。

      it=σ(Wi.[ht-1,xt]+bi)

      (2)

      (3)

      (4)

      最后通過輸出門將新的Ct通過簡單的tanh函數(shù)后,與門函數(shù)的輸出相乘,得到新的隱藏狀態(tài)ht,這一步?jīng)Q定輸出什么。計算公式如式(5)與式(6)所示。

      ot=σ(Wo[ht-1,xt]+bo)

      (5)

      ht=ottanh(Ct)

      (6)

      AWD-LSTM引入了正則化技術(shù),在處理過擬合的問題中,AWD-LSTM模型使用DropConnect在神經(jīng)網(wǎng)絡(luò)中對全連接層進(jìn)行正則化[18]處理,相對于Dropout[19]在計算ht時刻的某個神經(jīng)元時,DropConnect[20]只會使用ht-1中部分神經(jīng)元,從而緩解過擬合。將文本送入到AWD-LSTM模型進(jìn)行特征提取,得到向量表示。其中DropConnect神經(jīng)網(wǎng)絡(luò)如圖1所示。

      1.2 圖像模型

      對于圖像預(yù)訓(xùn)練,本文利用卷積神經(jīng)網(wǎng)絡(luò)[21](Convolutional Neural Network, CNN),將圖像表示為高維特征向量,通過特征向量來表示圖像的語義特征。先在卷積層將圖片中的不同特征提取出來,然后經(jīng)過池化層的切分,得到新的、維度較小特征,最后將所有局部特征結(jié)合變成全局特征,用于計算最后分類的得分。其中激活函數(shù)貫穿整個卷積全過程。卷積運(yùn)算如公式(7)所示。

      s(t)=f((X*W)(t))

      (7)

      其中W為卷積核,X為圖像。

      ResNet50[22]網(wǎng)絡(luò)結(jié)構(gòu)在連接多層卷積網(wǎng)絡(luò)之后,網(wǎng)絡(luò)訓(xùn)練會變得困難。此時構(gòu)建殘差學(xué)習(xí)塊,通過直連進(jìn)行恒等映射,內(nèi)部的殘差塊之間的連接方式使用了跳躍連接。這樣誤差逆?zhèn)鞑サ臅r候只需要傳播殘差部分,從而解決了梯度消失問題。利用多個殘差塊構(gòu)建的深層次網(wǎng)絡(luò),能夠提取到更豐富的信息,同時更完好保留圖像的特征信息,使接下來的特征向量融合方式變得更加靈活。跳躍連接公式如式(8)所示,殘差塊結(jié)構(gòu)如圖2所示。

      H(x)=F(x)+x

      (8)

      其中F(x)為卷積函數(shù),H(x)為跳躍連接后的輸出。

      2 擁抱融合模型

      2.1 算法主要思想

      對于多模態(tài)融合,本文希望能夠得到高準(zhǔn)確率,且操作盡可能簡單。結(jié)合特征線性融合和注意力機(jī)制的優(yōu)勢和不足,本文提出擁抱融合策略,先分別從文本和圖像獲取特征向量,并進(jìn)一步通過注意力權(quán)重突出更重要的特征,然后,考慮每個模態(tài)特征之間的相關(guān)性。本文并不直接連接文本和圖像模型的特征向量,而是將處理后的特征去除特征冗余,挑選有效特征連接到擁抱層結(jié)構(gòu)中,并最終傳遞到終端網(wǎng)絡(luò)得到分類結(jié)果。同時模型在每一個模態(tài)引入多項(xiàng)抽樣的概率p,所有模態(tài)就相當(dāng)于多項(xiàng)式分布。在擁抱層通過調(diào)整概率p,可以健壯地處理丟失的數(shù)據(jù),防止正則化時過擬合。然后采用多項(xiàng)抽樣融合特征,有效地防止訓(xùn)練階段對特定模態(tài)數(shù)據(jù)的過度學(xué)習(xí),剔除冗余特征。擁抱融合如圖3所示。

      2.2 對接層

      首先對接層將文本和圖像提取的所有特征xi進(jìn)行對比,由softmax層來學(xué)習(xí)每個特征維度的注意權(quán)重αi,讓更重要的特征賦予更多的權(quán)重。最后將注意權(quán)重與輸入特征相乘,得到添加注意之后的特征βi。計算公式如式(9)與式(10)。

      (9)

      βi=αixi

      (10)

      其中i,j∈{1,2,…,n+m},n+m是多模態(tài)連接的特征向量總維數(shù),W是模型學(xué)習(xí)到的權(quán)值矩陣。

      然后考慮融合之前不同模態(tài)有不同維度的特征,因此在融合之前需要將它們轉(zhuǎn)換成相同大小的向量。假設(shè)β(1)和β(2)分別表示為圖像和文本特征的輸出向量。對接層的第k(k=1,2)個輸入向量的表示為:

      z(k)=w(k)·β(k)+b(k)

      (11)

      其中w(k)和b(k)分別是權(quán)重向量和偏差。然后將激活函數(shù)fa(線性整流函數(shù)ReLU)應(yīng)用于z(k),從而獲得第k個對接層輸出,如式(12)。

      d(k)=fa(z(k))

      (12)

      2.3 擁抱層

      ri~Multinomial(1,p)

      (13)

      當(dāng)每個模態(tài)的對接層產(chǎn)生了它自己的表示d(k),在擁抱層中使用哈達(dá)瑪積(Hadamard product)只對向量的某些部分進(jìn)行進(jìn)一步處理,如式(14)。

      d′(k)=r(k)·d(k)

      (14)

      最后一步是融合2個模態(tài)的向量,得到融合向量ei,如式(15)。

      e=∑kd′(k)

      (15)

      最后將融合向量輸入到全連接層中,第1個全連接層長度為256個節(jié)點(diǎn),第2個全連接層長度根據(jù)任務(wù)的分類數(shù)不同而作調(diào)整。任務(wù)1為2個節(jié)點(diǎn),任務(wù)2為5個節(jié)點(diǎn)。然后作為終端網(wǎng)絡(luò)的輸入向量,輸出給定分類任務(wù)的最終結(jié)果?;贏WD-LSTM和ResNet50網(wǎng)絡(luò)構(gòu)造的擁抱融合模型如圖4所示。

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      CrisisMMD2.0[23]多模態(tài)推特數(shù)據(jù)集包含了2017年發(fā)生在全世界不同地區(qū)的地震、颶風(fēng)、野火和洪水等7次自然災(zāi)害期間收集的數(shù)千條人工注釋推文和圖片數(shù)據(jù)。數(shù)據(jù)集包括2個類型的標(biāo)簽:

      1)是否為災(zāi)害救援相關(guān)信息,包括信息性標(biāo)簽與非信息性標(biāo)簽。任務(wù)1的目的是確定在災(zāi)難事件中收集給定的推特文本和圖像是否有助于災(zāi)害救援。

      2)災(zāi)害救援事件的各種信息類型,包括人員傷亡信息、基礎(chǔ)設(shè)施和公共設(shè)施損壞信息、救援和捐贈信息、其他災(zāi)害相關(guān)信息、非災(zāi)害相關(guān)信息。任務(wù)2的目的是確定推特文本和圖像中災(zāi)害信息的類型。CrisisMMD2.0數(shù)據(jù)集數(shù)量如表1所示。

      表1 災(zāi)害名稱及數(shù)量

      3.2 實(shí)驗(yàn)設(shè)置

      本文使用Fastai[24]和集成了Transformers的PyTorch框架來實(shí)現(xiàn)多模態(tài)模型。首先對每一個模態(tài),在凍結(jié)除了最后一層的所有層后,使用Fastai工具確定學(xué)習(xí)率,然后逐步解凍。這樣操作的原因是把模型的全部層一起訓(xùn)練,容易造成通用信息丟失,從而增加信息遺忘的風(fēng)險。最后解凍所有組后,再次通過Fastai工具確定學(xué)習(xí)率,并使用這個新的學(xué)習(xí)速率訓(xùn)練模型。其中實(shí)驗(yàn)權(quán)重衰減值取0.1, Dropout值取0.8,其余的超參數(shù)值為Fastai庫中的默認(rèn)值。本文使用CrossEntropyLoss和Adam[25]分別作為損失函數(shù)和優(yōu)化器。

      3.3 實(shí)驗(yàn)1結(jié)果與分析

      為了驗(yàn)證提出的擁抱融合模型的效果,本文在CrisisMMD2.0數(shù)據(jù)集上進(jìn)行了任務(wù)1和任務(wù)2的實(shí)驗(yàn),同時將擁抱融合模型的實(shí)驗(yàn)結(jié)果與目前的一些主流多模態(tài)融合進(jìn)行對比,分別包括特征線性融合、基于注意力、基于雙線性池化。多模態(tài)擁抱融合選取的核心指標(biāo)分別是所有類別的準(zhǔn)確率、精確率、召回率和F1值。實(shí)驗(yàn)分別計算了精確率、召回率、F1值三者的算術(shù)平均數(shù)和加權(quán)平均數(shù)2種實(shí)驗(yàn)結(jié)果,填寫到表中為加權(quán)平均數(shù)。所有實(shí)驗(yàn)的對比結(jié)果如表2與表3所示。

      表2 任務(wù)1實(shí)驗(yàn)1結(jié)果對比

      表3 任務(wù)2實(shí)驗(yàn)1結(jié)果對比

      由準(zhǔn)確率、精確率、召回率和F1值的實(shí)驗(yàn)數(shù)據(jù)對比結(jié)果表明,相較于特征線性融合、基于注意力機(jī)制和雙線性池化融合算法,本文方法的準(zhǔn)確率更高,在融合模態(tài)方面展示了更好的性能。具體分析,特征線性融合只是將文本特征和圖像特征融合成一個共享特征表示,特征冗余且重復(fù),所以它的效果相對來說是最差的。基于注意力機(jī)制和基于雙線性池化的效果偏好一點(diǎn),然而它們沒有考慮特征之間的相關(guān)性,因此相比特征線性融合好一點(diǎn),但相比本文算法略差。擁抱模型相比特征線性、基于注意力機(jī)制、基于雙線性池化在準(zhǔn)確率方面,任務(wù)1分別提高3.8個百分點(diǎn)、2.2個百分點(diǎn)、3.2個百分點(diǎn),任務(wù)2分別提升6.7個百分點(diǎn)、3.1個百分點(diǎn)、4.1個百分點(diǎn)。

      本文進(jìn)一步分析幾個模型的混淆矩陣,觀察模型在各個類別的表現(xiàn),查看哪個類別具有區(qū)分性。其中任務(wù)1為二分類問題,任務(wù)2為多分類問題。任務(wù)1和任務(wù)2的混淆矩陣如表4~表11所示。

      表4 任務(wù)1特征線性融合混淆矩陣

      表5 任務(wù)1基于注意力機(jī)制混淆矩陣

      表6 任務(wù)1基于雙線性池化混淆矩陣

      表7 任務(wù)1擁抱融合混淆矩陣

      表8 任務(wù)2特征線性融合混淆矩陣

      表9 任務(wù)2基于注意力機(jī)制混淆矩陣

      表10 任務(wù)2基于雙線性池化混淆矩陣

      表11 任務(wù)2擁抱融合混淆矩陣

      從表4~表7結(jié)果得出,本文和其他算法模型相比,在TN、TP、FN、FP都全面提升。具體分析,當(dāng)模型預(yù)測為災(zāi)害相關(guān)的信息(即信息性),但真實(shí)標(biāo)簽為沒有災(zāi)害相關(guān)的信息(即非信息性)。本文模型相較于特征線性融合的實(shí)驗(yàn)數(shù)據(jù)實(shí)例分別從139、124、135下降到97,說明擁抱融合準(zhǔn)確率更高。相同實(shí)驗(yàn)結(jié)論也可從其他實(shí)例得出。

      從表8~表11結(jié)果得出,當(dāng)模型預(yù)測為非災(zāi)害救援相關(guān)信息(即非災(zāi)害),但真實(shí)標(biāo)簽為基礎(chǔ)設(shè)施和公共設(shè)施(即設(shè)施),在特征線性融合模型中有10個假陰性實(shí)例,基于注意力機(jī)制有7個,基于雙線性池化有7個,而在擁抱融合模型中只有4個。這表明擁抱融合在多分類實(shí)驗(yàn)中也展示出比其他模型的優(yōu)越性。同樣的結(jié)論也可從表中多次得出。

      3.4 實(shí)驗(yàn)2結(jié)果與分析

      為了進(jìn)一步驗(yàn)證擁抱融合在不同文本、圖像特征提取模型具有同樣的優(yōu)勢,本文選取現(xiàn)在流行的文本和圖像深度學(xué)習(xí)模型,例如BERT、AWD-LSTM、XML和ResNet50、DenseNet161、VGG19,繼續(xù)在CrisisMMD2.0數(shù)據(jù)集進(jìn)行任務(wù)1和任務(wù)2的實(shí)驗(yàn)。不同深度學(xué)習(xí)模型實(shí)驗(yàn)結(jié)果如表12與表13所示。

      表12 任務(wù)1實(shí)驗(yàn)2結(jié)果對比

      表13 任務(wù)2實(shí)驗(yàn)2結(jié)果對比

      由表12與表13可知在不同文本和圖像融合基礎(chǔ)上添加擁抱融合算法,在準(zhǔn)確率方面會有不同程度的提高,說明擁抱模型可以適用不同的文本和圖像深度學(xué)習(xí)模型。同時也驗(yàn)證了擁抱模型更適用于ResNet50+AWD-LSTM,因?yàn)樵诖巳诤夏P蜏?zhǔn)確率的提高最大。

      通過以上實(shí)驗(yàn)數(shù)據(jù)對比,擁抱模型相對于其他融合模型有更高的準(zhǔn)確率,且適用于不同的文本、圖像深度學(xué)習(xí)算法,是一種有效的災(zāi)害事件分析算法。

      4 結(jié)束語

      針對災(zāi)害事件中多模態(tài)融合識別問題,本文提出擁抱融合的多模態(tài)算法,在基于注意力機(jī)制和特征線性融合的基礎(chǔ)上,通過對文本和圖像特征進(jìn)行挑選與融合,去除特征冗余的同時,保留特征之間的相關(guān)性,來提高擁抱融合的性能。最后在CrisisMMD2.0多模態(tài)數(shù)據(jù)集上驗(yàn)證對比表明,擁抱融合模型相對于其他融合具有更高的準(zhǔn)確率和適用性。

      由于本文只使用CrisisMMD2.0單一災(zāi)害事件數(shù)據(jù)集,對于不同多模態(tài)災(zāi)害事件的數(shù)據(jù)集的適用性,還需要進(jìn)一步驗(yàn)證。因此在接下來的研究中,可以針對不同災(zāi)害事件場景構(gòu)建模型。這是未來繼續(xù)研究下去的方向。

      猜你喜歡
      線性災(zāi)害模態(tài)
      河南鄭州“7·20”特大暴雨災(zāi)害的警示及應(yīng)對
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      我省汛期常見氣象災(zāi)害及防御
      線性回歸方程的求解與應(yīng)用
      推動災(zāi)害防治工作實(shí)現(xiàn)新跨越
      二階線性微分方程的解法
      國內(nèi)多模態(tài)教學(xué)研究回顧與展望
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
      由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
      計算物理(2014年2期)2014-03-11 17:01:39
      《災(zāi)害來臨怎么辦?》
      房山区| 延安市| 芜湖县| 合水县| 绥江县| 米林县| 得荣县| 龙胜| 绩溪县| 泾源县| 永吉县| 舞阳县| 屏山县| 汉中市| 阿荣旗| 尤溪县| 十堰市| 长宁县| 康马县| 水富县| 许昌县| 娄底市| 丰顺县| 绿春县| 吉安市| 罗江县| 东乡族自治县| 望奎县| 北安市| 汨罗市| 大新县| 石泉县| 临城县| 江山市| 开封市| 康定县| 开原市| 牡丹江市| 洛宁县| 登封市| 白玉县|