張浩宇,王天保,李孟擇,趙洲,浦世亮,吳飛*
1. 浙江大學(xué)計算機與科學(xué)技術(shù)學(xué)院,杭州 310013; 2. 杭州??低晹?shù)字技術(shù)股份有限公司,杭州 310051
深度學(xué)習(xí)(deep learning, DL)方法在計算機視覺(computer vision, CV)、自然語言處理(nature language processing, NLP)以及多模態(tài)機器學(xué)習(xí)(multimodal machine learning, MMML)的各個具體任務(wù)上取得了令人矚目的進展,但不同任務(wù)之間需要使用專有的數(shù)據(jù)進行訓(xùn)練,大量的重新訓(xùn)練使得時間和經(jīng)濟成本顯著增加。預(yù)訓(xùn)練模型(pre-trained model, PTM)與微調(diào)(fine-tuning)相結(jié)合的范式旨在緩解這一困難,預(yù)訓(xùn)練模型首先在大規(guī)模通用數(shù)據(jù)集上利用自監(jiān)督為代表的方式進行預(yù)訓(xùn)練,使得模型在遷移至下游任務(wù)之前學(xué)習(xí)到通用的表征,然后在小型專有數(shù)據(jù)集中進行微調(diào)得以獲取特定任務(wù)知識(Yosinski等,2014)。這一方法在很大程度上打破了各具體任務(wù)之間的壁壘,在避免重新訓(xùn)練所造成的資源浪費的同時,對下游任務(wù)的性能起到促進作用。
Transformer(Vaswani等,2017)是當(dāng)前預(yù)訓(xùn)練模型使用最廣泛的基礎(chǔ)結(jié)構(gòu),其因為在處理長距離依賴關(guān)系方面的優(yōu)勢,最初在機器翻譯方面取得了成功,隨后廣泛用于NLP領(lǐng)域。GPT(generative pre-training)(Radford等,2018)采用Transformer作為模型預(yù)訓(xùn)練的基礎(chǔ)結(jié)構(gòu)在大規(guī)模語料庫中進行預(yù)訓(xùn)練,將學(xué)習(xí)到語言知識的參數(shù)模型用于具體任務(wù),實驗中12個下游的NLP任務(wù)性能取得了顯著提升。BERT(bidirectional encoder representations from transformers)(Devlin等,2019)采用了雙向語言模型進行預(yù)訓(xùn)練,在語料中隨機對15%的單詞令牌(token)進行掩碼,要求模型可以預(yù)測出原有單詞令牌,此外還進行了句子預(yù)測任務(wù),實驗中11個下游的NLP任務(wù)性能取得了提升。隨后的若干工作(Dong等,2019;Liu等,2019a;Radford等,2019;Shoeybi等,2020;Zellers等,2019b;Yang等,2019;Brown等,2020;Lewis等,2020;Raffel等,2020;Zhang等,2020b,2021b;Fedus等,2022;琚生根 等,2022;強繼朋 等,2022)證明預(yù)訓(xùn)練的語言模型能夠普適地對下游任務(wù)性能起到促進作用。受到NLP領(lǐng)域的啟發(fā),CV方面的研究者也相繼開展基于Transformer的視覺預(yù)訓(xùn)練工作。ViT(vision transformer)(Dosovitskiy等,2021)將圖像的補丁塊(patch)作為序列輸入Transformer進行預(yù)訓(xùn)練,克服Transformer結(jié)構(gòu)難以處理圖像輸入這一困難。CLIP(contrastive language-image pre-training)(Radford等,2021)將自然語言作為監(jiān)督以提升圖像分類效果,使用對比學(xué)習(xí)(contrastive learning, CL)方法促進圖像和文本的匹配能力。MAE(masked autoencoders)(He等,2021a)將NLP中常用的自監(jiān)督方法用于CV預(yù)訓(xùn)練,其通過訓(xùn)練自編碼器,預(yù)測經(jīng)過隨機掩碼而缺失的圖像patch,從而高效、準(zhǔn)確地進行圖像分類任務(wù)。
人類最具有抽象知識表達(dá)能力的信息為語言信息,而人類獲取的最豐富的信息為視覺信息,上述工作分別在這兩種模態(tài)上開展預(yù)訓(xùn)練并取得成功。視覺語言任務(wù)(vision-and-language task)(Pan等,2016a;Tapaswi等,2016;Yu等,2016a;Pan,2016b;Jang 等,2017;Maharaj等,2017)是典型的多模態(tài)機器學(xué)習(xí)任務(wù),其中視覺和語言兩種模態(tài)的信息互相作為指引,需讓不同模態(tài)的信息對齊和交互,進行視覺語言預(yù)訓(xùn)練(visual-language pre-training, VLP)工作并提升模型在下游的視覺問題回答(visual question answering, VQA)(Johnson等,2017)、視頻描述(video captioning)(Zhou等,2018a,b,2019)和文本—視頻檢索(image-text retrieval)(Wang等,2016,2019;Song和Soleymani,2019)等任務(wù)上的效果。視覺語言任務(wù)存在著很大的挑戰(zhàn)。其中一個難點是,使用何種易于大規(guī)模獲得并且含有大量通用知識的多模態(tài)數(shù)據(jù)來源,以構(gòu)建訓(xùn)練數(shù)據(jù)集;另一個難點是,如何通過有效的機制,將屬性相差巨大的不同模態(tài)的信息進行統(tǒng)一訓(xùn)練。
對于以上問題,一方面,當(dāng)前的主要方法通過獲取來自互聯(lián)網(wǎng)的圖文對、包含語言描述的教學(xué)視頻、附帶字幕的影視劇以及其他各類視頻等視覺語言多模態(tài)數(shù)據(jù),制作涵蓋廣泛常識信息的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集;另一方面,設(shè)計能夠處理多種模態(tài)信息的神經(jīng)網(wǎng)絡(luò)模型,通過以自監(jiān)督為代表的方式進行大規(guī)模數(shù)據(jù)訓(xùn)練,對數(shù)據(jù)集中不同模態(tài)的信息進行提取和融合,以學(xué)習(xí)其中蘊涵的通用知識表征,從而服務(wù)于廣泛的相關(guān)下游視覺語言多模態(tài)任務(wù)。
當(dāng)前對預(yù)訓(xùn)練模型的綜述工作主要集中在單模態(tài)(Qiu等,2021;Kalyan等,2021;Min等,2021;陳德光 等,2021;韓毅 等,2022),部分工作梳理視頻—文本多模態(tài)類型(Ruan和Jin,2021),但較為全面的VLP綜述工作(Chen等,2022)相對較少。本文梳理最新視覺語言多模態(tài)預(yù)訓(xùn)練模型的相關(guān)研究成果,首先對VLP模型常用的預(yù)訓(xùn)練數(shù)據(jù)集和預(yù)訓(xùn)練方法進行簡要介紹,然后在介紹基礎(chǔ)結(jié)構(gòu)之后對VLP模型按視覺輸入來源進一步分類,介紹目前具有代表性的圖像—文本預(yù)訓(xùn)練模型和視頻—文本預(yù)訓(xùn)練模型,并根據(jù)模型結(jié)構(gòu)不同分為單流和雙流類型,重點闡述各研究特點,對不同VLP預(yù)訓(xùn)練模型在主要下游任務(wù)上的性能表現(xiàn)也進行了匯總。最后對目前研究面臨的問題進行探討。
在各類預(yù)訓(xùn)練任務(wù)中,模型性能受預(yù)訓(xùn)練數(shù)據(jù)集質(zhì)量的影響顯著。為了獲取通用的多模態(tài)知識,視覺—語言預(yù)訓(xùn)練任務(wù)主要使用帶有弱標(biāo)簽的視覺—語言對進行模型訓(xùn)練。圖像—文本任務(wù)主要為圖像及標(biāo)題、內(nèi)容描述和人物的動作描述等。類似地,視頻—語言預(yù)訓(xùn)練數(shù)據(jù)集包含大量的視頻—文本對,其標(biāo)簽來源包括視頻中的文字描述以及由自動語音識別(automatic speech recognition, ASR)技術(shù)獲得的文本信息等。部分模型為針對性提升某一模態(tài)的表征提取能力,在多模態(tài)預(yù)訓(xùn)練之外還進行單模態(tài)數(shù)據(jù)集進行預(yù)訓(xùn)練,使用圖片數(shù)據(jù)集與純文本數(shù)據(jù)集。
預(yù)訓(xùn)練中常用的公開數(shù)據(jù)集有,圖文數(shù)據(jù)集SBU(Ordonez等,2011),F(xiàn)lickr30k(Young等,2014),COCO(common objects in context) Captions(Chen等,2015),Visual Genome(VG)(Krishna等,2017b),Conceptual Captions(CC, CC3M)(Sharma等,2018)和Conceptual 12M(CC12M)(Changpinyo等,2021),VQA(visual question answering)(Antol等,2015),VQA v2.0(Goyal等,2019),Visual7 W(Zhu等,2016),GQA(Hudson和Manning,2019);視頻數(shù)據(jù)集TVQA(question-answering dataset based on TV shows)(Lei等,2018),HowTo100M(Miech等,2019),Kinetics(Kay等,2017),Kinetics-600(Carreira等,2018),Kinetics-700(Carreira等,2019),YT-Temporal-180M(Zellers等,2021),WebVid-2M(Bain等,2021);單模態(tài)圖片數(shù)據(jù)集COCO(Lin等,2014),OpenImages(Kuznetsova等,2020),文本數(shù)據(jù)集BooksCorpus(Zhu等,2015)以及English Wikipedia。數(shù)據(jù)集信息匯總?cè)绫?所示,以下對代表性的數(shù)據(jù)集做進一步介紹。
表1 視覺—語言多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集Table 1 Multimodal pre-training datasets
SBU(Ordonez等,2011)數(shù)據(jù)集:SBU是較為早期的大規(guī)模圖像描述數(shù)據(jù)集。收集數(shù)據(jù)時,先使用對象、屬性、動作、物品和場景查詢詞對圖片分享網(wǎng)站Flickr進行查詢,得到大量攜帶相關(guān)文本的照片,然后根據(jù)描述相關(guān)性和視覺描述性進行過濾,并保留包含至少兩個擬定術(shù)語作為描述。
COCO(Lin等,2014)數(shù)據(jù)集:COCO是一個大型、豐富的物體檢測、分割和描述數(shù)據(jù)集。數(shù)據(jù)集以場景理解為目標(biāo),主要從復(fù)雜的日常場景中截取,圖像中的目標(biāo)通過精確的分割進行位置標(biāo)定,含91個常見對象類別,其中82類有超過5 000個標(biāo)簽實例,共含32.8萬幅圖像和250萬個標(biāo)簽實例。COCO Captions(Chen等,2015)在COCO圖片數(shù)據(jù)的基礎(chǔ)上由人工標(biāo)注圖片描述得到。
Conceptual Captions(Sharma等,2018)數(shù)據(jù)集:Conceptual Captions為從互聯(lián)網(wǎng)獲取的圖文數(shù)據(jù)集。首先按格式、大小、內(nèi)容和條件篩選圖像和文本,根據(jù)文字內(nèi)容能否較好地匹配圖像內(nèi)容過濾圖文對,對文本中使用外部信息源的部分利用谷歌知識圖譜進行轉(zhuǎn)換處理,最后進行人工抽樣檢驗和清理,獲得最終數(shù)據(jù)集。Changpinyo等人(2021)基于Conceptual Captions將數(shù)據(jù)集的規(guī)模從330萬增加到了1 200萬,提出了Conceptual 12M。
HowTo100M(Miech等,2019)數(shù)據(jù)集:HowTo100M的內(nèi)容為面向復(fù)雜任務(wù)的教學(xué)視頻,其大多數(shù)敘述能夠描述所觀察到的視覺內(nèi)容,并且把主要動詞限制在與真實世界有互動的視覺任務(wù)上。字幕主要由ASR生成,以每一行字幕作為描述,并將其與該行對應(yīng)的時間間隔中的視頻剪輯配對。HowTo100M比此前的視頻預(yù)訓(xùn)練數(shù)據(jù)集大幾個數(shù)量級,包含視頻總時長15年,平均時長6.5 min,平均一段視頻產(chǎn)生110對剪輯—標(biāo)題,其中剪輯平均時長4 s,標(biāo)題平均長4個單詞。
YT-Temporal-180M(Zellers等,2021)數(shù)據(jù)集:YT-Temporal-180M覆蓋的視頻類型豐富,包括來自 HowTo100M (Miech等,2019)的教學(xué)視頻,來自VLOG(Fouhey等,2018)的日常生活記錄短視頻,以及Youtube上自動生成的熱門話題推薦視頻,如“科學(xué)”、“家裝”等。對共計2 700萬候選數(shù)據(jù)按如下條件刪除視頻:1)不含英文ASR文字描述內(nèi)容;2)時長超過20 min;3)視覺上內(nèi)容類別無法找到根據(jù),如視頻游戲評論等;4)利用圖像分類器檢測視頻縮略圖剔除不太可能包含目標(biāo)對象的視頻。最后,還會應(yīng)用序列到序列的模型為ASR生成的文本添加標(biāo)點符號。
由于ASR生成的句子通常不完整,且沒有標(biāo)點符號,更重要的是不一定與圖像內(nèi)容完全對齊,所以Bain等人(2021)針對這一問題對抓取的網(wǎng)絡(luò)視頻進行人工標(biāo)注,使得描述文本詞匯豐富、格式良好且與視頻視覺內(nèi)容對齊,提出了WebVid-2M(Bain等,2021)數(shù)據(jù)集。
VQA(Antol等,2015),VQA v2.0(Goyal等,2019),GQA(Hudson和Manning,2019)數(shù)據(jù)集:一些研究(Tan和Bansal,2019;Cho等,2021;Zhang等,2021a)從VQA,VQA v2.0,GQA這類問答數(shù)據(jù)集獲取預(yù)訓(xùn)練數(shù)據(jù)。使用時不包含測試數(shù)據(jù),一般將問題描述與答案句子作為文本輸入,與圖像構(gòu)成圖文對,從而進行模態(tài)間的預(yù)訓(xùn)練。
表2列舉了部分典型預(yù)訓(xùn)練任務(wù),并在后文進行具體介紹。
表2 預(yù)訓(xùn)練任務(wù)舉例Table 2 Examples of unsupervised pre-training tasks
掩蔽語言預(yù)測(mask language modeling, MLM)(Devlin等,2019):此任務(wù)最早由BERT引入,并在之后的預(yù)訓(xùn)練研究中廣泛使用。在BERT中MLM是一個雙向文本預(yù)測任務(wù),對輸入文本w中的每個單詞進行隨機屏蔽得到wm,讓模型通過對上下文信息wwm的關(guān)聯(lián)預(yù)測被遮蓋的詞語,D表示預(yù)訓(xùn)練數(shù)據(jù)集全集,w表示文本特征,v表示視覺特征,下標(biāo)m表示掩蔽(mask)。在視覺語言多模態(tài)任務(wù)中(Li等,2019),使用文本對應(yīng)的視覺特征v作為輔助線索,從而不僅驅(qū)動網(wǎng)絡(luò)學(xué)習(xí)文本中單詞間依賴關(guān)系,而且將視覺和語言內(nèi)容對(w,v)對齊。損失函數(shù)為
LMLM=-E(w,v)~D(logP(wm|wwm,v))
(1)
式中,P()為概率函數(shù)。
掩蔽區(qū)域預(yù)測(mask region modeling, MRM): MLM任務(wù)泛化到視覺模態(tài),即選取視覺單元進行掩蔽,利用多模態(tài)信息預(yù)測該視覺單元。在圖像中,選取區(qū)域特征(region feature)作為視覺單元,與以離散標(biāo)簽表示的文本標(biāo)記不同,視覺特征是高維的、連續(xù)的,不同于文本分類任務(wù)有多種不同實現(xiàn),具體實現(xiàn)方式如下兩類所示。
掩蔽區(qū)域特征回歸(mask region feature regression, MRFR)(Tan和Bansal,2019):對圖像處理得到的感興趣區(qū)域(region of interest, RoI)進行隨機掩蔽,再將圖像特征送入Transformer,對輸出特征相應(yīng)位置區(qū)域的特征向量后添加一個全連接層(fully connected layers, FC),得到變量f(vm)以將其投影到與原始RoI特征變量r(vm)相同的維度上,應(yīng)用L2損失進行回歸。損失函數(shù)計算為
(2)
掩蔽區(qū)域類別預(yù)測(mask region classification, MRC)(Tan和Bansal,2019):MRC利用圖像提取得到RoI特征及對應(yīng)區(qū)域類別標(biāo)簽變量c(vm),對RoI特征進行隨機屏蔽,將對應(yīng)的最終輸出特征經(jīng)Softmax后得到變量s(vm),應(yīng)用交叉熵(cross-entropy, CE)損失或相對熵(Kullback-Leibler divergence, KL)分類器進行對象分類,優(yōu)化損失函數(shù)計算為
LMRCCE=E(w,v)~D(fCE(c(vm),s(vm)))
(3)
LMRCKL=E(w,v)~D(fKL(c(vm)|s(vm)))
(4)
掩蔽幀預(yù)測(mask frame modeling, MFM)(Luo等,2020):在視頻中,一般與選取視頻幀作為掩蔽預(yù)測的視覺單元。具體實現(xiàn)類似MLM與MRM可利用對比學(xué)習(xí)或應(yīng)用L2損失進行回歸(regression, R),損失函數(shù)計算為
LMFMCL=-E(w,v)~D(log P(vm|vvm,w))
(5)
(6)
視覺語言匹配(vision-language matching, VLM):任務(wù)的目標(biāo)是對齊兩個模態(tài)的信息,有助于在解決具體任務(wù)時利用模態(tài)間信息的交互,常引入對比學(xué)習(xí)構(gòu)造正負(fù)例提升模型學(xué)習(xí)能力。具體實現(xiàn)方式如下兩類所示。
圖像—文本匹配(image-text matching, ITM)(Lu等,2019):構(gòu)造圖文關(guān)系對(w,v),標(biāo)簽y∈{0,1},負(fù)例通過將圖文對中圖像或文本替換為其他樣本中隨機選擇的圖像或文本來創(chuàng)建。將圖文聯(lián)合特征送入FC和Sigmoid函數(shù)構(gòu)成的評分函數(shù)e(),判斷文本是否為對應(yīng)圖片的描述表示,應(yīng)用二元交叉熵?fù)p失進行優(yōu)化,損失函數(shù)計算為
(7)
視頻—文本匹配(video-text matching, VTM)(Sun等,2019b):與ITM類似,此任務(wù)先構(gòu)造視頻文本正例對集合(w,v)∈P和負(fù)例對集合(w,v)∈N,與ITM不同,除隨機選擇構(gòu)造負(fù)例,還可使用同一視頻其他片段,同一視頻中的幀的相似性更高,可增強模型學(xué)習(xí)能力。然后對聯(lián)合特征利用評分函數(shù)得到變量e(w,v)進行二值分類,但一般使用噪聲估計(noise contrastive estimation, NCE)損失進行優(yōu)化,損失函數(shù)計算為
P=E(w,v)~Pexp(e(w,v))
(8)
N=E(w,v)~Nexp(e(w,v))
(9)
(10)
除了以上使用較為普遍的預(yù)訓(xùn)練任務(wù),部分工作針對模型需求設(shè)計新的任務(wù)。
文本—區(qū)域匹配(word region alignment, WRA)(Chen等,2020b):此任務(wù)通過最優(yōu)傳輸(optimal transport, OT)(Chen等,2020a)最小化圖像區(qū)域和句子中單詞間的對齊成本,優(yōu)化跨模態(tài)對齊,激勵單詞和圖像區(qū)域間的細(xì)粒度匹配。
幀序預(yù)測(frame order modeling, FOM)(Li等,2020b):此任務(wù)的目的是學(xué)習(xí)利用視頻的序列性,任務(wù)會隨機打亂部分輸入幀的順序,然后將所有幀的最終編碼特征送入FC再經(jīng)Softmax后進行分類任務(wù),預(yù)測每一幀對應(yīng)的實際位置。
前綴語言預(yù)測(prefix language modeling, PrefixLM)(Wang等,2022):基于單向語言預(yù)測(unidirectional language modeling, LM)(Radford等,2018)任務(wù)引入零樣本(zero-shot)能力的啟發(fā),對于輸入的圖文對,將圖像視為文本描述的前綴。具體實施時,將圖像特征序列置于文本序列之前,對前綴序列進行雙向注意,對剩余序列進行單向注意。強制模型對前綴圖像特征進行采樣,來計算文本數(shù)據(jù)的LM損失。這一訓(xùn)練不僅能達(dá)到MLM學(xué)習(xí)雙向上下文表示的目標(biāo),還能達(dá)到類似LM提升文本生成能力的目標(biāo)。
掩蔽視覺令牌預(yù)測(masked visual-token modeling, MVM)(Fu等,2022):使用預(yù)訓(xùn)練好的離散VAE(variational autoencoders)(van den Oord等,2017),將視頻幀“標(biāo)記”為離散的視覺標(biāo)記,預(yù)訓(xùn)練期時在空間和時間維度上屏蔽部分視頻輸入,讓模型學(xué)習(xí)恢復(fù)這些被屏蔽的離散視覺標(biāo)記。與MRM和MFM 相比有兩個優(yōu)勢:一是MVM 在離散空間上進行預(yù)測,能避免特征維度過高的問題;二是MVM 通過自監(jiān)督訓(xùn)練獲得潛在視覺標(biāo)簽,避免了使用特定視覺模塊時提取視覺特征時存在的局限性。
除上述預(yù)訓(xùn)練任務(wù)之外,部分模型將視覺問答(Cho等,2021)、圖像描述(image caption, IC)(Xia等,2021)等任務(wù)視為文本生成任務(wù),直接利用多模態(tài)輸入對答案進行文本預(yù)測,從而進行模型的預(yù)訓(xùn)練。
2.1.1 基礎(chǔ)結(jié)構(gòu)
本文根據(jù)特征在進行視覺和語言模態(tài)融合處理之前是否進行處理,將VLP模型按結(jié)構(gòu)分為單流式(single-stream)和雙流式(cross-stream),如圖1所示。
圖1 單流結(jié)構(gòu)和雙流結(jié)構(gòu)示意圖Fig.1 Schematic diagram of single-stream structure and crosss-stream structure((a)single-stream structure; (b) cross-stream structure Ⅰ; (c) cross-stream structure Ⅱ; (d) cross-stream structure Ⅲ)
單流模型將視覺特征和語言特征直接輸入融合模塊,進行模型訓(xùn)練,其典型方式如圖1(a)所示;雙流模型將視覺特征和語言特征分別進行處理,然后進行模態(tài)間的融合,典型類型包括但不限于圖中3類:圖1(b)中,模型首先對兩路特征分別進行處理,然后進行跨模態(tài)融合;圖1(c)中,視覺特征經(jīng)過視覺處理模塊后,與文本特征一同送入多模態(tài)融合模塊進行交互;圖1(d)中,兩路特征送入各自處理模塊后進行交互式的參數(shù)訓(xùn)練。
2.1.2 基礎(chǔ)方法
對于視覺輸入特征,在處理2維圖像或處理幀級別的視頻時常采用Faster RCNN(region convolutional neural network)(Ren等,2015)、ResNet(residual neural network)(He等,2016)等模型,3維視頻片段常使用S3D(separable 3D CNN)(Xie等,2018)和Slow-Fast(Feichtenhofer等,2019)等處理。ViT(Dosovitskiy等,2021)方法因處理方式簡易且效果較好,所以在2維和3維視覺處理中均有使用。對于語言輸入的處理通常采用BERT或類似的多層雙向Transformer編碼器。
多模態(tài)融合常采用Transformer結(jié)構(gòu),如圖2所示,其由多層編碼器—解碼器(encoder-decoder)結(jié)構(gòu)組成,N為層數(shù),編碼器中含有兩個多頭注意力機制模塊(multi-head attention, MHA),其由多個自注意力層組成。編解碼器均通過殘差連接相加并進行正則化,并通過前饋神經(jīng)網(wǎng)絡(luò)層(feed forward layer)進行激活。
圖2 Transformer結(jié)構(gòu)示意圖Fig.2 An illustration of the Transformer structure
Transformer的核心是位于MHA之中的自注意力層(self-attention layer)。自注意力層的輸入來自添加位置編碼(position encodin)的文本或視覺特征詞向量F={f0,f1,…,fn},將輸入線性轉(zhuǎn)換為3個不同向量:查詢(query):Q∈Rn×dQ、鍵(key):K∈Rn×dK和值(value):V∈Rn×dV,自注意操作Att()通過式(11)來學(xué)習(xí)詞與詞間的關(guān)系
將多個自注意力層的輸出進行拼接,然后通過線性層輸出即為MHA的輸出,其與輸入特征的維度相同。在解碼器的第2個MHA中,鍵和值來自本層編碼器,查詢來自上層解碼器。MHA的輸出結(jié)合上下文信息,再通過一個前饋網(wǎng)絡(luò)經(jīng)過非線性變化,輸出綜合了上下文特征的各個詞的向量表示。
該類模型信息如表3。
表3 圖像—文本多模態(tài)預(yù)訓(xùn)練模型信息Table 3 Information summary of image-text multimodal pre-training models
2.2.1 單流模型
單流模型相對雙流模型結(jié)構(gòu)較簡單,一般將圖像與文本兩種模態(tài)信息置于等同重要位置,對圖像和文本編碼后共同輸入跨模態(tài)融合模塊進行預(yù)訓(xùn)練。對于輸入圖像是否采用目標(biāo)檢測算法,可對研究進行更細(xì)致的分類。
1)采用目標(biāo)檢測算法。Li等人(2019)提出的VisualBERT為較早進行圖像—文本預(yù)訓(xùn)練的工作,模型結(jié)構(gòu)如圖3所示。對于文本輸入,采用類似BERT的方式進行處理,首先將文本分割成一個單詞序列,然后使用WordPiece(Wu等,2016)對每個單詞進行標(biāo)記,最后采用一個編碼矩陣處理得到原詞編碼(token embedding)序列,其中添加[CLS]作為文本開端,[SEP]作為圖文分隔。將原詞編碼、區(qū)分輸入不同模態(tài)的片段編碼(segment embedding)和序列位置編碼(sequence position embedding)映射到同一維度組合成文本的最終編碼。對于圖像輸入,采用目標(biāo)檢測算法,如Faster-RCNN提取區(qū)域特征編碼,與片段編碼和位置編碼組合映射到文本編碼相同維度得到最終編碼。對于序列位置編碼,語言部分一般采取升序來表示文本描述中詞的順序,對于視覺部分,當(dāng)輸入提供單詞與邊界區(qū)域間的匹配時,會設(shè)置為匹配單詞對應(yīng)的位置編碼的總和。將文本和圖像最終編碼共同輸入Transformer進行MLM和ITM預(yù)訓(xùn)練,應(yīng)用于4類下游圖像文本任務(wù)。VisualBERT證明了類BERT結(jié)構(gòu)應(yīng)用于無監(jiān)督圖像—文本預(yù)訓(xùn)練的有效性。
圖3 VisualBERT結(jié)構(gòu)示意圖(Li等,2019)Fig.3 An illustration of the VisualBERT structure (Li et al., 2019)
VisualBERT對文本輸入采用類BERT文本編碼形式和對圖像輸入使用目標(biāo)檢測算法的圖像編碼形式在后續(xù)研究中廣泛使用。
Li等人(2020a)提出的Unicoder-VL(universal encoder for vision and language)對圖像輸入使用Fas-ter-RCNN提取RoI視覺特征時、還生成區(qū)域?qū)ο髽?biāo)簽及區(qū)域空間位置特征。區(qū)域?qū)ο髽?biāo)簽用于MRC訓(xùn)練,空間位置特征含RoI邊界框(bounding box)4個頂點的值坐標(biāo)(歸一化在0和1之間)和區(qū)域面積(相對面積,區(qū)域面積與圖像面積之比,指在0和1之間)。將RoI視覺特征和空間位置特征通過FC投影到同一維度空間,二者相加后送入歸一化層(layer normalization, LN)得到最終視覺編碼,與文本編碼一起送入Transformer進行MLM、MRC和ITM訓(xùn)練。Su等人(2020)提出的VL-BERT(visual-language BERT)在進行圖像編碼時,新增了一個視覺特征編碼(visual feature embedding),具體為非視覺輸入部分對應(yīng)整個圖像提取的特征,視覺輸入部分對應(yīng)圖像經(jīng)特征提取器所提取的特征,同時在詞編碼上增加一個特殊符[IMG]對應(yīng)RoI圖像標(biāo)記。具體結(jié)構(gòu)如圖4所示。
圖4 VL-BERT結(jié)構(gòu)示意圖(Su等,2020)Fig.4 An illustration of the VL-BERT structure(Su et al., 2020)
Li等人(2020c)首次引入目標(biāo)檢測中的區(qū)域分類標(biāo)簽作為視覺和語言層面上的錨點(anchor point),使圖文間的語義對齊任務(wù)得以簡化,提出了Oscar(object-semantics aligned pre-training),模型結(jié)構(gòu)如圖5所示,利用特征提取器給每個區(qū)域輸出的分類標(biāo)簽,將輸入圖文對表示為單詞序列w、分類標(biāo)簽q、區(qū)域特征v三元組,令w、q和v共享相同的語義特征,從而將預(yù)訓(xùn)練優(yōu)化目標(biāo)變?yōu)樽钚』曈X損失和文本損失之和。輸入三元組可以從兩個角度理解,即模態(tài)視角和字典視角。因標(biāo)簽序列由特征抽取模型分類得到,所以模態(tài)為圖像,表示形式為文本,使用文本的字典。分類標(biāo)簽實現(xiàn)了輸入層面上的跨模態(tài)。考慮到視覺特征對于VLP模型的重要性,團隊進一步研究對Oscar的物體檢測模型(object detecter, OD)進行了改進,提出了 VinVL(Zhang等,2021a),表明更好的視覺特征可有效改善視覺語言模型的表現(xiàn)。
圖5 Oscar結(jié)構(gòu)示意圖(Li等,2020c)Fig.5 An illustration of the Oscar structure(Li et al., 2020c)
除對輸入的編碼處理進行改進,一些研究通過改進預(yù)訓(xùn)練任務(wù)來增強模型的學(xué)習(xí)能力。Chen等人(2020b)提出的UNITER(universal image-text representation)采用條件掩蔽MLM和MRM預(yù)訓(xùn)練任務(wù),有別于傳統(tǒng)設(shè)定的雙模態(tài)隨機掩蔽,掩蔽一種模態(tài)時保持另一模態(tài)不變,這可防止區(qū)域與對應(yīng)描述單詞同時被掩蔽造成不對齊問題。此外,設(shè)計了文本—區(qū)域匹配預(yù)訓(xùn)練任務(wù),通過最優(yōu)傳輸最小化圖像區(qū)域和句子中單詞間的對齊成本,優(yōu)化跨模態(tài)對齊,激勵單詞和圖像區(qū)域間的細(xì)粒度匹配。
Zhou等人(2020)提出的Unified-VLP(unified vision-language pre-training),在傳統(tǒng)MLM任務(wù)上新增雙向(bidirectional)和序列到序列(sequence-to-sequence)目標(biāo)以增強編碼器和解碼器間的聯(lián)系。
Xia等人(2021)提出的XGPT(cross-modal generative pre-training)為提升模型在下游生成任務(wù)上的表現(xiàn),除引入圖像描述任務(wù)外還設(shè)計了3個新的預(yù)訓(xùn)練任務(wù):圖像條件掩蔽語言預(yù)測(image-conditioned masked language modeling, IMLM)、圖像條件降噪自編碼(image-conditioned denoising autoencoding, IDA)和文本條件圖像特征生成(text-conditioned image feature generation, TIFG)。
在預(yù)訓(xùn)練過程中,采用有效的預(yù)訓(xùn)練策略也有助于提升模型能力。Qi等人(2020)提出的ImageBERT工作中從互聯(lián)網(wǎng)搜集了一個大規(guī)模視覺和文本信息的數(shù)據(jù)集(large-scale weak-supervised image-text, LAIT),基于此設(shè)計了多階段預(yù)訓(xùn)練策略,即先在規(guī)模最大但質(zhì)量較低的LAIT上訓(xùn)練,然后在高質(zhì)量CC和SBU上訓(xùn)練。實驗結(jié)果表明預(yù)訓(xùn)練中不同質(zhì)量數(shù)據(jù)集的使用順序?qū)π阅苡泻艽蟮挠绊憽?/p>
Li等人(2021b)采用多模態(tài)對比學(xué)習(xí)(cross-modal contrastive learning, CMCL),利用豐富的非成對單模態(tài)(non-paired single-modal)數(shù)據(jù),讓文本和視覺知識在統(tǒng)一的語義空間中相互增強,提出UNIMO(unified-modal)能同時有效處理單模態(tài)和多模態(tài)任務(wù)。
Gan等人(2020)在預(yù)訓(xùn)練和微調(diào)過程中對圖像和文本編碼特征增加擾動以增強模型的泛化性,提出了VILLA(vision-and-language large-scale adversarial)。Hu等人(2021)指出可以利用數(shù)據(jù)集中數(shù)量遠(yuǎn)遠(yuǎn)大于圖像—描述對的圖像—標(biāo)簽對信息來學(xué)習(xí)視覺詞匯,提出了VIVO(visual vocabulary)模型。Cho等人(2021)對文本編碼添加代表不同任務(wù)的前綴編碼,以一個統(tǒng)一的文本生成目標(biāo)來處理各視覺語言任務(wù)。
2)不采用目標(biāo)檢測算法。以上方法均使用目標(biāo)檢測算法進行圖像處理,一些工作無需使用目標(biāo)檢測算法或針對其不足進行研究。
下游視覺常識推理任務(wù)(visual commonsense reasoning, VCR)所使用的數(shù)據(jù)集含區(qū)域邊框信息,所以Alberti等人(2019)針對性地設(shè)計了B2T2(bounding boxes in text transformer)在對VCR進行微調(diào)時,將圖像區(qū)域特征和區(qū)域邊界框等視覺信息直接插入文本編碼序列中得到多模態(tài)“句子”作為輸入進行預(yù)訓(xùn)練,在VCR任務(wù)中與雙流式結(jié)構(gòu)進行對比,表明早期融合圖文信息的單流式結(jié)構(gòu)具有更好性能。
Huang等人(2020b)認(rèn)為,目標(biāo)檢測算法所能提供的RoI類別限制了特征表示能力,會丟失場景和情感等更廣泛語義的視覺信息。此外,RoI區(qū)域為矩形,會包含有噪聲的背景,丟失形狀和空間關(guān)系信息。為充分利用原始圖像的視覺信息,提出了Pixel-BERT,學(xué)習(xí)用像素來表示圖像,對于輸入圖像,使用ResNet對圖片進行卷積、池化,最后得到一個特征矩陣,元素為特征向量,對其進行采樣后,每個元素與一文本編碼相加,作為一種偏置,最后展平,得到最終的像素特征編碼輸入Transformer進行訓(xùn)練。
受到ViT工作的啟發(fā),Kim等人(2021)將輸入圖像切塊成一個圖像patch序列,通過線性投影而非卷積操作轉(zhuǎn)化成特征編碼,然后和位置編碼進行相加,最后和文本編碼進行集合得到最終編碼輸入Transformer,提出結(jié)構(gòu)簡單的模型ViLT(vision-and-language transformer)。相比基于圖像區(qū)域特征的方法處理速度大幅度提升。Wang等人(2022)采用類似的視覺處理方式,利用大規(guī)模弱標(biāo)記數(shù)據(jù)集(Jia等,2021)只采用一個前綴語言預(yù)測預(yù)訓(xùn)練任務(wù)進行端到端訓(xùn)練,提出了一個極簡的模型SimVLM(simple visual language model),在多個下游任務(wù)中表現(xiàn)優(yōu)秀,具有強大的泛化和遷移能力。
Dou等人(2022)從多個維度研究模型設(shè)計對模型性能的影響,對比研究原始ViT及其拓展的多個視覺編碼方法(Bao等,2021;Liu等,2021b;Radford等,2021;Touvron等,2021a,b;Yuan等,2021)、原始BERT及其拓展的多個文本編碼方法(Liu 等,2019b;Clark 等,2020;Lan 等,2020;He等,2021b)、不同多模態(tài)融合模塊(合并注意力與協(xié)同注意力)、不同架構(gòu)設(shè)計(僅編碼器與編碼器—解碼器)以及預(yù)訓(xùn)練目標(biāo)(MLM, ITM等)對模型性能的影響,綜合提出了METER(multimodal end-to-end transformer)模型,研究得出在VLP中ViT比文本編碼器更重要的結(jié)論,以及其他一些VLP模型設(shè)計的結(jié)論。
針對目前中文圖像文本多模態(tài)模型缺失的情況,Lin等人(2021)提出了1 000億參數(shù)的大規(guī)模中文多模態(tài)預(yù)訓(xùn)練模型M6(multi-modality to multi-modality multitask mega-Transformer),構(gòu)建了一個超大規(guī)模中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集M6-Corpus。Lin等人(2021)對1百萬幅電子商務(wù)領(lǐng)域圖像數(shù)據(jù)抽樣進行對象檢測后發(fā)現(xiàn)90%圖像所含物體少于5類,且高度重疊,因此,對圖像進行切塊并利用ResNet提取特征,將各patch特征按位置線性組合成表示序列,與文本特征組合后送入Transformer進行文本—文本傳輸(text-to-text transfer)、圖像—文本傳輸(image-to-text transfer)、多模態(tài)—文本傳輸(multimodality-to-text transfer)預(yù)訓(xùn)練任務(wù)。M6使用大規(guī)模分布式方法進行訓(xùn)練,大幅度提升了模型的訓(xùn)練速度,適用于廣泛任務(wù)。
2.2.2 雙流模型
由于圖像和文本信息在屬性上區(qū)別較大,將不同模態(tài)輸入置于相同輸入地位可能對模態(tài)間匹配造成不良影響。在這一假設(shè)下,部分模型根據(jù)多模態(tài)輸入特點設(shè)計雙流預(yù)訓(xùn)練模型,使用不同編碼器靈活處理各自模態(tài)特征,并通過后期融合對不同模態(tài)進行關(guān)聯(lián)。
Lu等人(2019)認(rèn)為對語言信息需采取較深網(wǎng)絡(luò)才能獲取抽象知識,而圖像經(jīng)Faster-RCNN處理已經(jīng)過較深網(wǎng)絡(luò),無需再次經(jīng)歷更深編碼過程,于是提出典型雙流式結(jié)構(gòu)模型ViLBERT(vision and language BERT),模型結(jié)構(gòu)如圖6所示,上下兩路分別獨立處理視覺和文本輸入,視覺輸入采用Faster-RCNN處理,文本輸入采用類BERT處理,在編碼之后經(jīng)協(xié)同注意(co-attention)Transformer進行特征跨模態(tài)融合,然后進行MLM和ITM訓(xùn)練。ViLBERT的核心為跨模態(tài)融合模塊co-attention Transformer結(jié)構(gòu),如圖7所示,對于視覺和語言輸入,將各自的鍵K和值V輸入另一模態(tài),而對查詢Q輸入自身模態(tài),使得圖像區(qū)域作為上下文信息給文本信息進行加權(quán),反之亦然。
圖6 ViL-BERT結(jié)構(gòu)示意圖(Lu等,2019)Fig.6 An illustration of the ViL-BERT structure(Lu et al., 2019)
圖7 協(xié)同注意力Transformer層 (Lu等,2019)Fig.7 Co-attention Transformer layer (Lu et al., 2019)
在進一步研究中,對ViLBERT預(yù)訓(xùn)練過程中視覺信息泄漏和負(fù)樣本噪聲問題進行優(yōu)化,并將單個模型用于12個視覺語言任務(wù)提出了12-in-1(Lu等,2020)。研究提出多任務(wù)學(xué)習(xí)預(yù)訓(xùn)練方法,訓(xùn)練時融入動態(tài)訓(xùn)練調(diào)度器(dynamic stop-and-go training scheduler)、基于任務(wù)的輸入標(biāo)記(task dependent input tokens)和簡單啟發(fā)式超參(simple hyper-parameter heuristics)。實驗結(jié)果表明多任務(wù)學(xué)習(xí)是一種有效的預(yù)訓(xùn)練任務(wù),可避免因數(shù)據(jù)集規(guī)模造成的訓(xùn)練過度或訓(xùn)練不足的問題。
ViLBERT對圖像和文本的雙流式處理在后續(xù)研究中廣泛使用。Tan和Bansal(2019)認(rèn)為視覺概念和語言語義間的關(guān)系對推理問題很重要,所以在圖像編碼時引入對象關(guān)系編碼器,提出了LXMERT(learning cross-modality encoder representations from transformers)。Yu等人(2021)在文本編碼時,將語言轉(zhuǎn)化為結(jié)構(gòu)化的場景圖,使模型能更精準(zhǔn)把握圖文間細(xì)粒度的對齊信息,提出了知識增強型模型ERNIE-ViL(knowledge enhanced vision-language representations),設(shè)計了場景圖預(yù)測(scene graph prediction, SGP)預(yù)訓(xùn)練任務(wù),含對象、屬性和關(guān)系預(yù)測,通過對場景圖中圖像和文本信息進行掩蔽,以預(yù)測場景圖中的節(jié)點屬性和關(guān)系,學(xué)習(xí)細(xì)粒度的跨模態(tài)語義對齊信息。Li等人(2021c)使用獨立的解耦編碼器和解碼器分別處理不同VLP任務(wù),利用不同模式VLP任務(wù)間相關(guān)性來增強下游任務(wù)的魯棒性,提出模型TDEN(two-stream decoupled encoder-decoder network)。
COCO等高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)集收集后需進行煩雜的清理過程,針對這一點,Jia等人(2021)搜集了一個18億數(shù)據(jù)量的含噪數(shù)據(jù)集,并提出了ALIGN(a large-scale image and noisy-text)方法,使用對比損失對齊圖文對的視覺和語言表示。方法在大量下游任務(wù)上表現(xiàn)優(yōu)秀,表明語料庫的規(guī)??蓮浹a其噪音,提升模型性能。同一時期,Radford等人(2021)利用互聯(lián)網(wǎng)上大規(guī)模的圖片信息構(gòu)建了一個4億大小的圖文對數(shù)據(jù)集,將自然語言作為監(jiān)督以提升圖像分類效果,使用對比學(xué)習(xí)方法促進圖像和文本的匹配能力,提出了CLIP(contrastive language-image pre-training)。對于視覺編碼分別嘗試了 ResNet和ViT,根據(jù)具體任務(wù)表現(xiàn)進行取舍。模型在27個下游任務(wù)數(shù)據(jù)集上表現(xiàn)卓越,表明了與有標(biāo)簽監(jiān)督學(xué)習(xí)對比有著較強的泛化能力。
大部分圖文預(yù)訓(xùn)練模型都假設(shè)圖像與文本模態(tài)間存在強相關(guān)關(guān)系,Huo等人(2021)認(rèn)為這種假設(shè)在現(xiàn)實場景中難以存在,因此基于圖文對弱相關(guān)假設(shè)選擇隱式建模,提出大型圖像—文本預(yù)訓(xùn)練模型BriVL(bridging vision and language)。方法使用多模態(tài)對比學(xué)習(xí)框架進行訓(xùn)練,構(gòu)建隊列字典以增加負(fù)樣本數(shù)量。此外還提出一個大型中文多源圖像文本數(shù)據(jù)集RUC-CAS-WenLan,含3 000萬圖文對。實驗表明在參數(shù)量足夠大時雙流模型較單流模型具有一定優(yōu)勢。
2.2.3 其他模型或方法
預(yù)訓(xùn)練數(shù)據(jù)集與下游數(shù)據(jù)集存在域偏移,而現(xiàn)有方法是純概率角度出發(fā)的,這會導(dǎo)致一定程度的虛假關(guān)聯(lián)。Zhang等人(2020a)提出一個基于因果的去混淆模型DeVLBert(deconfounded visio-linguistic Bert),將后門調(diào)整方法融入預(yù)訓(xùn)練模型。實驗證明,DeVLBert作為整體模型的靈活部分組件,對廣泛的單流、雙流預(yù)訓(xùn)模型具有很好的適用性。預(yù)訓(xùn)練任務(wù)和下游任務(wù)的訓(xùn)練模式也相差較大,針對這一問題,Yao等人(2022)提出顏色提示優(yōu)化模型CPT(colorful prompt tuning),利用顏色促進方法作為兩種訓(xùn)練模式之間的橋梁,縮小預(yù)訓(xùn)練任務(wù)與下游任務(wù)之間的差異性。模型結(jié)構(gòu)如圖8所示,方法在視覺檢測過程中對視覺目標(biāo)區(qū)域添加不同顏色,并通過顏色信息作為圖像和文本的共同標(biāo)記信息,通過對顏色信息進行MLM任務(wù),將圖文關(guān)聯(lián)轉(zhuǎn)換為完形填空問題,加強了圖文聯(lián)系,從而對下游的圖像目標(biāo)定位問題起到了促進作用。
圖8 CPT結(jié)構(gòu)示意圖(Yao等,2022)Fig.8 An illustration of the CPT structure(Yao et al., 2022)
生活中存在大量文檔圖像處理任務(wù),如表格理解、文檔圖像分類、收據(jù)理解和表單理解。為此,Xu等人(2020)提出LayoutLM(pre-training of text and layout),重視文檔圖像的布局和樣式信息理解,對掃描的文檔利用光學(xué)字符識別(optical character recognition, OCR)處理,將識別得到的文字片段和對照的圖像進行聯(lián)合建模,首次將文本和布局結(jié)合在一個框架中進行文檔級預(yù)訓(xùn)練,使用了MLM和多標(biāo)簽文檔分類預(yù)訓(xùn)練任務(wù)。在進一步研究中,引入ITM任務(wù),并在傳統(tǒng)自注意力機制基礎(chǔ)上顯式添加空間相對位置信息,幫助模型在1維文本序列基礎(chǔ)上加深對2維版面信息的理解,提出了LayoutLMv2(Xu等,2021b)。
在加入音頻的圖文預(yù)訓(xùn)練方面,Liu等人(2021a)提出了大規(guī)模圖文音三模態(tài)模型OPT(omni-perception pre-trainer),使用3種預(yù)訓(xùn)練任務(wù):1)token級別建模,即對于3種單模態(tài)信息分別進行掩碼和預(yù)測;2)模態(tài)級別建模,即將某一到兩個模態(tài)的信息進行整體掩碼并重建;3)樣本級別建模,即將3個模態(tài)的樣本對中的某一到兩種進行替換,使得模型對于模態(tài)類別是否匹配進行預(yù)測。對于下游任務(wù),該方法可以同時適應(yīng)單流、雙流和三流的輸入,同時具備進行理解式任務(wù)與生成式任務(wù)的能力。
該類模型總結(jié)如表4。
表4 視頻—文本多模態(tài)預(yù)訓(xùn)練模型信息Table 4 Information of video-text multimodal pre-training models
2.3.1 單流模型
Sun等人(2019b)提出的VideoBERT模型是第1個將Transformer結(jié)構(gòu)拓展到視頻語言預(yù)訓(xùn)練的工作,模型結(jié)構(gòu)如圖9所示。對ASR得到的文本輸入采取常用的類BERT處理,對于視頻輸入,按20幀/s的采樣速度從視頻剪切多個1.5 s視頻片段,應(yīng)用預(yù)訓(xùn)練過的S3D提取視頻特征,然后采用層級k聚類(hierachicalk-means)標(biāo)記視覺特征,以聚類中心對視頻特征進行矢量量化(vector quantization, VQ)操作。文本與視頻的聯(lián)合特征被送入多模態(tài)Transformer進行MLM,VTM和掩蔽視頻預(yù)測(video only mask completion, VOM)預(yù)訓(xùn)練任務(wù)。VOM以聚類的視頻片段作為被掩蔽和預(yù)測的視覺單元。模型目標(biāo)是學(xué)習(xí)長時間高級視聽語義特征,如隨時間推移而展開的事件與動作,采用網(wǎng)絡(luò)收集的廚藝教學(xué)視頻作為預(yù)訓(xùn)練數(shù)據(jù),在預(yù)設(shè)下游任務(wù)上表現(xiàn)良好,但由于視覺中心代表的視覺信息難以全面描述視頻內(nèi)容,使得模型的泛化性受到一定限制。
圖9 VideoBERT 結(jié)構(gòu)示意圖(Sun等,2019b)Fig.9 An illustration of the VideoBERT structure(Sun et al., 2019b)
VideoBERT對視頻幀進行聚類的離散化表示會丟失視頻細(xì)粒度信息,在后續(xù)的研究中較少采用。
Li等人(2020b)提出的HERO(hierarchical encoder for video+language omni-representation)中,對視頻輸入切分成片段并提取視頻幀后,使用ResNet和Slow-Fast為每個視頻幀提取2維和3維視覺特征,再通過FC以投影到與文本編碼同一維度特征空間中。由于視頻幀是連續(xù)的,它們的位置編碼可以同文本編碼一樣處理,幀的最終編碼是通過將FC輸出和位置編碼相加,然后通過 LN 層獲得的。HERO采用分層式結(jié)構(gòu)而非類BERT的扁平式編碼器對多模態(tài)輸入進行編碼。引入了一個時序Transformer,將每一視頻幀前后的所有幀作為全局上下文,并基于此設(shè)置了幀序預(yù)測預(yù)訓(xùn)練任務(wù),即隨機打亂部分輸入幀的順序,然后預(yù)測每一幀對應(yīng)的實際位置,從而學(xué)習(xí)利用視頻的序列性。消融實驗證明FOM對依賴時序推理的問答任務(wù)提升較大。數(shù)據(jù)集的使用上,在常用的敘述性教學(xué)視頻基礎(chǔ)上引入動態(tài)場景和復(fù)雜社會互動的影視視頻。
對整個視頻進行密集采樣視頻幀以提取視覺特征,所需計算量較大。為克服這一缺點,Lei等人(2021b)提出ClipBERT,假設(shè)視頻中少量圖像即可反映整體視頻信息,因為連續(xù)的視頻片段通常包含來自連續(xù)場景的相似語義。在每一個訓(xùn)練步驟中只從完整的視頻中稀疏地采樣一個或幾個短的片段進行訓(xùn)練。同時,利用圖像—文本預(yù)訓(xùn)練模型進行參數(shù)初始化,使用在視頻理解任務(wù)中被證明有效的2維結(jié)構(gòu)ResNet代替?zhèn)鹘y(tǒng)3維結(jié)構(gòu),如I3D(Carreira和Zisserman,2017)作為視頻編碼的視覺主干。ClipBERT所采取的策略能有效減緩端到端訓(xùn)練的學(xué)習(xí)負(fù)載,降低內(nèi)存開銷和運行時間,在下游檢索和問答任務(wù)6個數(shù)據(jù)集的實驗結(jié)果也證明了策略的有效性。
視頻預(yù)訓(xùn)練數(shù)據(jù)集中的字幕文本一般通過ASR生成,所以可能存在描述信息無法包括所有內(nèi)容以及描述詞匯與圖像內(nèi)容不對齊問題,這會影響預(yù)訓(xùn)練模型的學(xué)習(xí)效果。Tang等人(2021)針對這一問題提出了DeCEMBERT模型(dense captions and entropy minimization)。在預(yù)訓(xùn)練過程中,利用稠密描述(dense captions)方法處理視頻得到額外的視頻描述文本以包括更多的圖像內(nèi)容。引入基于熵最小化約束注意力損失(entropy minimization-based constrained attention loss)激勵模型從字幕候選池中選擇與圖像內(nèi)容匹配最佳的描述。模型在3類下游任務(wù)上表現(xiàn)良好。
由于能作為視頻預(yù)訓(xùn)練使用的數(shù)據(jù)集較少,一些研究提出了各類視頻數(shù)據(jù)集和基礎(chǔ)方法(baseline model)。
Lei等人(2021a)提出一個大規(guī)模、高質(zhì)量的中文視頻語言數(shù)據(jù)集Alivol-10M和基礎(chǔ)方法VICTOR(video-language under-standing via contrastive multimodal pre-training)。Stroud等人(2021)收集了7 000萬互聯(lián)網(wǎng)視頻形成多模態(tài)數(shù)據(jù)集WTS-70M,相較HowTo100M,視頻類型更多樣。作者使用3D卷積對視頻輸入進行特征提取,并使用BERT對視頻所對應(yīng)的元文本數(shù)據(jù)進行編碼,然后通過計算視頻與元數(shù)據(jù)的排序損失進行訓(xùn)練。所提方法在下游動作識別(action recognition)任務(wù)上表現(xiàn)良好。
Zellers等人(2021)公開了視頻類型豐富的大規(guī)模數(shù)據(jù)集YT-Temporal-180M,并基于對人類跨時間執(zhí)行多模態(tài)推理這一能力的認(rèn)識,訓(xùn)練了具有時間常識學(xué)習(xí)能力的模型MERLOT(multimodal event representation learning over time),模型不僅可以學(xué)習(xí)將圖像與時間對應(yīng)的單詞進行匹配,還可以推理隨時間變化的全局范圍內(nèi)的上下文事件,在12個不同的視頻問答數(shù)據(jù)集中表現(xiàn)優(yōu)秀。
2.3.2 雙流模型
Miech等人(2019)提出了視頻文本預(yù)訓(xùn)練中得到廣泛使用的大規(guī)模敘述性視頻數(shù)據(jù)集HowTo100M,baseline方法將提取到的視頻和文本特征映射到相同維度從而優(yōu)化模態(tài)間的關(guān)聯(lián)性。Miech等人(2020)進一步研究發(fā)現(xiàn)HowTo100M中由于人的講述與畫面展示不同步,導(dǎo)致大約50%的視頻剪輯片段與ASR描述文本沒有對齊(如圖10所示)。為解決這一偏差問題引入了多實例學(xué)習(xí)(multiple instance learning, MIL),基于同一視頻中連續(xù)時間內(nèi)畫面語義相似的前提,在目標(biāo)視頻片段的相鄰時間內(nèi)截取多個視頻—描述對作為對比學(xué)習(xí)的候選正例。然后采用噪聲估計NCE來優(yōu)化視頻文本聯(lián)合特征的學(xué)習(xí),提出了MIL-NCE,在8個數(shù)據(jù)集4類下游任務(wù)中表現(xiàn)良好。MIL-NCE方法在后續(xù)使用HowTo100M數(shù)據(jù)集的預(yù)訓(xùn)練模型中廣泛使用。
圖10 敘事性視頻中的信息失調(diào)(Miech等,2020)Fig.10 Misalignments in narrated videos(Miech et al., 2020)
VideoBERT中聚類的視覺表示會丟失細(xì)粒度視覺信息(如更小的物體和微妙的運動),因此Sun等人(2019a)進一步研究提出了雙流式結(jié)構(gòu)模型,將ASR得到的文本輸入采用BERT進行處理,對于視頻輸入,舍棄此前對視頻幀進行矢量量化的操作,將視頻分段提取的視頻幀經(jīng)S3D提取后的特征送入設(shè)計的對比學(xué)習(xí)模塊CBT(contastive bidirectional transformer),得到最終視頻特征,最后連同經(jīng)BERT提取的文本特征一起送入跨模態(tài)Transformer,將多模態(tài)序列結(jié)合,計算模態(tài)間的相似度得分,并利用噪聲估計學(xué)習(xí)視頻句子對之間的關(guān)系。方法主要用于單獨的視頻表示學(xué)習(xí),文本輸入僅被視為輔助信息,在4類下游任務(wù),尤其與動作特征相關(guān)的任務(wù)上表現(xiàn)優(yōu)秀。
Luo等人(2020)針對下游生成式任務(wù)提出了UniVL(unified video and language pre-training),引入了生成式預(yù)訓(xùn)練任務(wù)文本重構(gòu)(language reconstruction, LR),即采用一個自回歸解碼器,其輸入為處理后的文本和視頻幀,輸出是原始文本。還設(shè)計了兩種預(yù)訓(xùn)練策略:1)逐階段預(yù)訓(xùn)練。先對雙模態(tài)輸入利用NCE訓(xùn)練,再以較小的學(xué)習(xí)率對整個模型進行所有目標(biāo)的訓(xùn)練。2)增強視頻表示。以15%的可能性屏蔽整個文本輸入,使模型利用視頻信息生成文本。模型在5類下游任務(wù)上表現(xiàn)良好。Huang等人(2020a)則引入文本預(yù)訓(xùn)練中的掩碼序列到序列(masked sequence to sequence, MASS)預(yù)訓(xùn)練方法(Song等,2019),以提升模型在視頻描述任務(wù)上的表現(xiàn)。
Zhu和Yang(2020)提出了全局局部動作VLP模型ActBERT,結(jié)構(gòu)如圖11所示,對于視頻輸入采取兩種編碼處理。首先是動作編碼,加入全局堆疊幀獲取全局動作信息,動作信息來自每個視頻相應(yīng)描述中提取動詞所構(gòu)建的字典,為簡化問題刪除了沒有任何動詞的視頻片段。然后是視覺編碼,加入經(jīng)Faster-RCNN對圖像提取的RoI特征獲取局部區(qū)域信息。ActBERT利用全局動作信息來促進文本與局部目標(biāo)區(qū)域間的交互,使一個視覺中心能同時描述局部和全局視覺內(nèi)容,提升視頻和文本的關(guān)聯(lián)性。引入了掩蔽動作分類(mask action classification, MAC),即隨機掩蔽輸入的動作表示向量,使模型通過其他信息如文本信息和物體信息來預(yù)測出動作標(biāo)簽。模型在5類下游任務(wù)上表現(xiàn)良好。
圖11 ActBERT結(jié)構(gòu)示意圖(Zhu和Yang,2020)Fig.11 An illustration of the ActBERT structure(Zhu and Yang, 2020)
Bain等人(2021)認(rèn)為圖文檢索與視頻—文本檢索任務(wù)有許多信息是重疊的,提出了模型Frozen,將圖像與視頻一起訓(xùn)練以提升預(yù)訓(xùn)練效果。模型對圖像和視頻片段采用ViT方法提取patch后,經(jīng)線性投影相加,與時空位置編碼一起送入Transformer編碼器,而后輸出視覺特征,對描述采用類BERT處理得到文本特征,將二者線性投影到同一空間內(nèi)執(zhí)行點積操作計算相似度。方法提升了檢索速度,在多個下游檢索任務(wù)中表現(xiàn)優(yōu)秀。針對視頻數(shù)據(jù)集ASR生成描述文本的不足,作者還公開了一個人工標(biāo)注描述的大規(guī)模視頻數(shù)據(jù)集WebVid-2M。
為了更好地學(xué)習(xí)視頻表示,F(xiàn)u等人(2022)針對此前MRM與MFM任務(wù)的局限性設(shè)計了一個新的預(yù)訓(xùn)練任務(wù)MVM,利用swim Transformer(Liu等,2021b)處理圖像與視頻輸入,提出了一個端到端的模型VIOLET(vIdeo-language transformer),在下游問答與檢索任務(wù)上表現(xiàn)優(yōu)秀,實驗結(jié)果也證明MVM增強了模型對視頻場景理解的有效性。
2.3.3 其他模型或方法
預(yù)訓(xùn)練數(shù)據(jù)集與下游任務(wù)數(shù)據(jù)集間存在源—目標(biāo)領(lǐng)域差距,針對這一問題,Zhou等人(2021)提出CUPID(curation of pre-training data),通過領(lǐng)域聚焦的預(yù)訓(xùn)練方法減小數(shù)據(jù)集之間的差距。實驗表明,與隨機抽樣和利用完整預(yù)訓(xùn)練數(shù)據(jù)集相比,對較小的領(lǐng)域聚焦數(shù)據(jù)子集進行預(yù)訓(xùn)練可有效地縮小源—目標(biāo)領(lǐng)域差距,獲得性能增益。
多模態(tài)數(shù)據(jù)中普遍存在噪聲,Amrani等人(2021)證明了噪聲的存在會導(dǎo)致預(yù)訓(xùn)練模型得出次優(yōu)結(jié)果,并認(rèn)為多模態(tài)數(shù)據(jù)的噪聲估計問題可簡化為多模態(tài)密度估計任務(wù)?;谶@一點,提出了一種嚴(yán)格基于不同模態(tài)間內(nèi)在相關(guān)性的多模態(tài)表示學(xué)習(xí)噪聲估計方法。在2類任務(wù)中證明了將該方法集成到多模態(tài)學(xué)習(xí)模型中可提升實驗效果。為支持實證結(jié)果和分析失效情況,作者還提供了一個理論概率誤差界。
視頻數(shù)據(jù)通常含有音頻信息,因此,部分研究利用音頻內(nèi)容增強模型的表征學(xué)習(xí)能力。
Gabeur等人(2020)提出了MMT(multi-modal transformer)模型,將多種模態(tài)信息納入預(yù)訓(xùn)練過程用以提升視頻檢索任務(wù),輸入類型具體包括運行特征、場景特征、面部特征、表觀信息、音頻特征、OCR字幕信息和轉(zhuǎn)化為文本的語音信息,MMT將聚合得到的視頻多模態(tài)特征與文本特征映射到相同維度的特征空間中,并進行跨模態(tài)聯(lián)合編碼,最終模型在視頻檢索數(shù)據(jù)集上取得了較好結(jié)果。
Akbari等人(2021)提出VATT(video-audio-text transformer),將視頻、語音和文本3個模態(tài)的信息通過線性投影映射為特征向量,利用單個Transformer對3種模態(tài)的信息進行統(tǒng)一編碼,然后構(gòu)造負(fù)樣本的視頻—文本對和視頻—語音對,以進行多模態(tài)對比學(xué)習(xí)。
圖像—文本多模態(tài)下游任務(wù)繁多,代表性的任務(wù)有:1)分類任務(wù),如視覺問答(Johnson等,2017;Hudson和Manning,2019)、自然語言視覺推理(natural language visual reasoning, NLVR)(Suhr等,2017,2019)、視覺常識推理(Gao等,2019)、指稱表達(dá)理解(referring expression comprehension, REC)(Yu等,2016b;Mao等,2016)和視覺蘊含(visual entailment, VE)(Xie等,2019a,b)等;2)檢索任務(wù),如圖文檢索(image-text retrieval)(Karpathy和Li,2015;Plummer等,2015;Lee等,2018);3)生成任務(wù),如圖像描述(Vinyals等,2015;Xu等,2015;Anderson等,2018)、新對象圖像描述(novel object captioning, NoCaps)(Agrawal等,2019)及多模態(tài)翻譯(multimodal translation)(Elliott等,2016)。以下對表5中VLP模型所進行對比的下游任務(wù)與相關(guān)數(shù)據(jù)集進一步介紹。
表5 圖像—文本預(yù)訓(xùn)練模型部分下游任務(wù)性能對比Table 5 Comparison of some downstream task results of image-text pre-training models /%
續(xù)表5 圖像—文本預(yù)訓(xùn)練模型部分下游任務(wù)性能對比Table 5 Comparison of some downstream task results of image-text pre-training models /%
視覺問答:通過給定圖像,回答關(guān)于圖像內(nèi)容的相關(guān)問題,題目類型包括選擇題和判斷題,問題一般為對圖像中的對象進行分類、識別以及關(guān)系推斷等。本文所示為VQA v2.0(Goyal等,2019)數(shù)據(jù)集中兩個測試子集test-dev(dev), test-standard(std),結(jié)果為準(zhǔn)確率。
自然語言視覺推理:給定一對照片和對它們的描述,判斷描述是否正確,需對輸入進行集合、計數(shù)、比較和空間關(guān)系的推理。使用NLVR2(Suhr等,2019)數(shù)據(jù)集,結(jié)果對比為development(dev)和test-P兩個測試子集上的準(zhǔn)確率。
視覺常識推理:任務(wù)包含兩個階段。第1階段為問題回答,通過給定圖片、問題和多個答案選項,選擇正確答案;第2階段為論證,對給出回答的原因再進行一次多項選擇。使用VCR(Zellers等,2019a)數(shù)據(jù)集,模型在此任務(wù)上需學(xué)習(xí)到更高層次的認(rèn)知和常識推理。結(jié)果對比為測試集回答(Q→A)和論證(QA→R)兩個子階段及整體回答(Q→AR)的準(zhǔn)確率。
指稱表達(dá)理解:通過給定圖像和對其中某一區(qū)域的描述,利用描述定位該區(qū)域。對比數(shù)據(jù)為RefCOCO+(Kazemzadeh等,2014)數(shù)據(jù)集中驗證集(val)和兩個測試集(testA,testB),使用檢測區(qū)域(detected regions),結(jié)果為準(zhǔn)確率。
圖文檢索:該任務(wù)包含兩類子任務(wù),1)文本—圖像檢索(text-to-image retrieval, IR),給定圖像描述和候選圖像庫,利用給定描述檢索出正確圖像;2)圖像—文本檢索(image-to-text retrieval, TR),給定圖像和候選描述文本庫,利用給定圖像檢索出正確描述。對比使用數(shù)據(jù)集Flickr30k(Young等,2014)上的測試集,指標(biāo)R@1/5/10為正確答案位于前1、5、10順序的召回率。
關(guān)于視頻的視覺—語言交叉任務(wù)同樣覆蓋廣泛,代表性的任務(wù)有視頻描述(Gan等,2017;Krishna等,2017a)、文本—視頻檢索(Gao等,2017;Hendricks等,2017;Mithun等,2018;Lei等,2020b)、視頻問答(video question answering)(Yu等,2018;Lei等,2020a)、動作分割(action segmentation)(Tang等,2019)、步驟定位(action step localization)(Zhukov等,2019)、動作識別(Kuehne等,2011;Soomro等,2012)、視頻摘要(video summarization)(Plummer等,2017)和視覺故事講述(visual storytelling)(Agrawal等,2016;Huang等,2016)。以下對表6中VLP模型所進行對比的下游任務(wù)與相關(guān)數(shù)據(jù)集進行進一步介紹。
表6 視頻—文本預(yù)訓(xùn)練模型部分下游任務(wù)性能對比Table 6 Comparison of some downstream task results of video-text pre-training models
視頻描述:通過給定一段視頻,生成對視頻內(nèi)容的描述。任務(wù)使用Youcook2(Zhou等,2018a)數(shù)據(jù)集中驗證集,其中每個視頻片段都對應(yīng)有一個標(biāo)注句子。結(jié)果所使用的4個指標(biāo)如下:1)BLEU-4(B-4),表示視頻描述與標(biāo)注4-gram重合度;2)METEOR(M),表示視頻描述所使用的詞匯與標(biāo)注詞匯的同義詞表相似度;3)ROUGE-L(R),表示視頻描述所具備的總結(jié)能力,為召回率指標(biāo);4)CIDEr(C),表示視頻描述與圖像相關(guān)性度量。
文本—視頻檢索:通過給定查詢文本,從視頻庫中檢索相關(guān)視頻片段。使用MSRVTT(Xu等,2016)數(shù)據(jù)集,其中每一視頻片段有20個描述句子。結(jié)果為測試集檢索前1、5、10結(jié)果準(zhǔn)確性召回率(R@1/5/10)和中位數(shù)排名(median rank, MdR)。
視頻問答:給定一段視頻,回答相關(guān)問題,含填空題和多項選擇題。使用MSRVTT-QA(Xu等,2017)數(shù)據(jù)集,結(jié)果為測試集多項選擇題回答準(zhǔn)確率。
動作分割:給定視頻,為每一幀選擇一個預(yù)定義的步驟分割標(biāo)簽。任務(wù)使用Coin(Tang等,2019)數(shù)據(jù)集,含具有明確步驟的日常任務(wù)視頻片段,每一片段平均標(biāo)注3.91個步驟,共778個步驟標(biāo)簽,視頻無文本描述,結(jié)果為幀級標(biāo)簽預(yù)測準(zhǔn)確率。
步驟定位:對于給定視頻,首先定義有序步驟列表,每一步驟通過短文本進行描述,任務(wù)為將視頻每一幀與步驟匹配。使用CrossTask(Zhukov等,2019)數(shù)據(jù)集,含83類不同任務(wù)。對比結(jié)果為召回率。
動作識別:給定視頻片段,對其中人物動作所屬類別進行分類,動作類別存儲于既定標(biāo)簽字典。任務(wù)使用數(shù)據(jù)集為HMDB51(Kuehne等,2011)和UCF101(Soomro等,2012),HMDB51含51類動作,7 000個視頻,UCF101含101類動作,13 320個視頻。結(jié)果為準(zhǔn)確率。
視覺語言多模態(tài)預(yù)訓(xùn)練作為前沿研究,盡管在下游視覺語言交叉任務(wù)上已經(jīng)有了不錯的表現(xiàn),但在未來工作中還需考慮以下幾個方向:
1)訓(xùn)練數(shù)據(jù)域的差異。預(yù)訓(xùn)練數(shù)據(jù)集與下游任務(wù)數(shù)據(jù)集之間存在數(shù)據(jù)域的差異,部分工作表明(Zhou等,2021):與預(yù)訓(xùn)練數(shù)據(jù)集的域相一致的下游任務(wù)數(shù)據(jù)集可以顯著提升任務(wù)表現(xiàn),而數(shù)據(jù)域的差異是造成模型在不同任務(wù)之間遷移時性能下降的重要原因。HERO(Li等,2020b)指出,不能通過增加微調(diào)過程的數(shù)據(jù)規(guī)模,來縮小下游任務(wù)數(shù)據(jù)與預(yù)訓(xùn)練數(shù)據(jù)的域差異所造成的影響。MERLOT(Zellers等,2021)使用較為多樣的預(yù)訓(xùn)練數(shù)據(jù),增大了數(shù)據(jù)域的分布,在一定程度上提升了模型的性能,但也增加了訓(xùn)練消耗。因此,如何提升預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和多樣性是今后預(yù)訓(xùn)練任務(wù)的重要課題。
2)知識驅(qū)動的預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型的本質(zhì)是通過參數(shù)量極大的神經(jīng)網(wǎng)絡(luò)對大規(guī)模訓(xùn)練數(shù)據(jù)進行擬合,以學(xué)習(xí)潛在的通用知識,在此過程中擴大數(shù)據(jù)規(guī)模可以帶來預(yù)訓(xùn)練性能的提升,但會增加計算資源和能耗的消耗,因此一味通過增加數(shù)據(jù)和訓(xùn)練量換取性能的思路是難以持續(xù)的。對于輸入的圖文、視頻等多模態(tài)信息,存在著大量隱含的外部常識信息可以用于更快速地引導(dǎo)模型對于事件內(nèi)容的挖掘(Chen等,2021),因此探索如何通過知識驅(qū)動的方式建立具有廣泛知識來源的模型架構(gòu),將知識圖譜等結(jié)構(gòu)化知識注入模型,探索輕量化的網(wǎng)絡(luò)結(jié)構(gòu),從而增加模型的訓(xùn)練效率和可解釋性,是預(yù)訓(xùn)練模型的具有前景的方向。
3)預(yù)訓(xùn)練模型的評價指標(biāo)?,F(xiàn)有的視覺語言預(yù)訓(xùn)練模型大多在少數(shù)幾個下游數(shù)據(jù)集上進行效果的實驗驗證,難以確切判斷在其他數(shù)據(jù)集上的有效性,而真正通用的預(yù)訓(xùn)練系統(tǒng)應(yīng)該在廣泛的下游任務(wù)、數(shù)據(jù)域和數(shù)據(jù)集上進行推廣,這就需要建立較為通用的預(yù)訓(xùn)練評價指標(biāo),來有效評價預(yù)訓(xùn)練效果,并指出模型是否易于在不同任務(wù)和數(shù)據(jù)之間進行遷移。VALUE(Li等,2021a)作為一個視頻語言預(yù)訓(xùn)練評價基準(zhǔn),覆蓋了視頻、文本和音頻輸入,包含了視頻檢索、視覺問答和字幕匹配任務(wù)的11個數(shù)據(jù)集,根據(jù)不同難度的任務(wù)的元平均得分(meta-average score)度量預(yù)訓(xùn)練模型的性能。但這類工作目前正處于起步階段,相關(guān)的研究也得到研究者重點關(guān)注。
4)探索多樣的數(shù)據(jù)來源。視頻中的音頻包含了豐富的信息,當(dāng)前視頻預(yù)訓(xùn)練中常使用ASR方法將音頻轉(zhuǎn)換為文本,在此過程中部分原有信息受到損失,因此探索包含音頻的預(yù)訓(xùn)練模型是一個可取的方向。目前的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)來源以英文圖文和視頻為主,進行多語言學(xué)習(xí)的預(yù)訓(xùn)練工作較少,將模型在不同語言間進行遷移還需要繼續(xù)研究。此外,探索從結(jié)構(gòu)化的多模態(tài)數(shù)據(jù)中進行更細(xì)粒度的預(yù)訓(xùn)練工作(Zellers等,2021),如從圖表中進行目標(biāo)推理的訓(xùn)練也是可以探索的方向。
5)預(yù)訓(xùn)練模型的社會偏見和安全性。由于大規(guī)模數(shù)據(jù)集在來源上涉及范圍廣泛,難以逐一排查具體信息,數(shù)據(jù)中難以避免地存在部分社會偏見以及錯誤知識,而通過預(yù)訓(xùn)練模型學(xué)習(xí)到這些不良內(nèi)容,其生成的結(jié)果會進一步增加這類內(nèi)容所造成的影響,引發(fā)更大的社會問題(Dixon,2008)。因此在獲取數(shù)據(jù)時如何對存在的數(shù)據(jù)隱私,以及涉及國家、種族和性別公平性等問題進行考量,通過算法對選取的預(yù)訓(xùn)練數(shù)據(jù)內(nèi)容進行過濾,在社會安全、倫理等方面尤其重要。
視覺和語言在人類學(xué)習(xí)視覺實體與抽象概念的過程中扮演著重要的角色,本文對視覺和語言多模態(tài)預(yù)訓(xùn)練領(lǐng)域自2019年以來的模型與方法,基于視覺來源從圖像—文本與視頻—文本兩大方向進行綜述,并進一步基于模型結(jié)構(gòu)分別介紹各具體模型的特點與研究貢獻(xiàn)。此外,還介紹了常用視覺語言多模態(tài)預(yù)訓(xùn)練模型數(shù)據(jù)集、預(yù)訓(xùn)練任務(wù)設(shè)定以及各模型在主要下游任務(wù)上的表現(xiàn)。最后對該領(lǐng)域的問題與挑戰(zhàn)進行了總結(jié)并提出未來研究方向。希望通過本文讓讀者了解領(lǐng)域工作前沿,以啟發(fā)進而做出更有價值的多模態(tài)預(yù)訓(xùn)練工作。