張知奇 袁鑫攀 曾志高
摘? 要:針對多模態(tài)模型中基于視覺區(qū)域特征提取方法表征能力有限的問題,文章提出了一種基于圖像情景文本融合的多模態(tài)特征提取方法,并構(gòu)建了圖像情景文本融合的視覺語言多模態(tài)網(wǎng)絡(luò)模型,簡稱OCR-ViLT,通過引入預(yù)訓(xùn)練加微調(diào)的遷移學(xué)習(xí)方案,降低模型訓(xùn)練成本。并經(jīng)過大量實驗探究模型的輸入策略,文章建議,在跨模態(tài)檢索任務(wù)中,采取圖文比例2:3能夠獲得最優(yōu)的召回率。
關(guān)鍵詞:多模態(tài);跨模態(tài)檢索;遷移學(xué)習(xí);OCR
中圖分類號:TP391.4? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)09-0166-04
Abstract: Aiming at the problem of limited representation ability of feature extraction method based on visual region in multi-modal model, this paper proposes a multi-modal feature extraction method based on OCR image scene text fusion, and constructs a visual language multi-modal network model for image scene text fusion, which is called OCR-ViLT for short. By introducing a pre-training and fine-tuning transfer learning scheme, the model training cost is reduced. After a large number of experiments to explore the input strategy of the model, this paper suggests that taking the image and text ratio of 2:3 could obtain the best recall rate in the multi-modal retrieval task.
Keywords: multi-modal; cross-modal retrieval; transfer learning; OCR
0? 引? 言
模態(tài)是事情經(jīng)歷和發(fā)生的方式。我們生活在一個由多種模態(tài)信息構(gòu)成的世界,包括視覺信息、聽覺信息、文本信息、嗅覺信息等,當(dāng)研究的問題或者數(shù)據(jù)集包含多種這樣的模態(tài)信息時,我們稱其為多模態(tài)問題。研究多模態(tài)問題,是推動人工智能更好地了解和認(rèn)知我們周圍世界的關(guān)鍵。對于多模態(tài)問題,我們需要充分利用多種模態(tài)間的互補(bǔ)性和冗余性,充分挖掘模態(tài)之間的信息,從而消除數(shù)據(jù)的異構(gòu)問題帶來的挑戰(zhàn)。現(xiàn)如今比較常見的應(yīng)用包括媒體描述、事件識別、多媒體檢索、視覺推理、視覺問答,等等。
如今多模態(tài)中視覺和語言的聯(lián)合領(lǐng)域,出現(xiàn)了視覺和語言預(yù)訓(xùn)練模型(Vision-and-Language Pre-traing model)。這些模型通過圖文匹配和語言掩碼預(yù)測對圖像及其圖像的描述進(jìn)行預(yù)訓(xùn)練,并在多模態(tài)下游任務(wù)和多模態(tài)的輸入層進(jìn)行微調(diào)。要輸入VLP模型,圖像-文本對需要以流的形式映射到相同的特征空間。自Krizhevsky等人[1]的研究以來,深度卷積神經(jīng)網(wǎng)絡(luò)一直被認(rèn)為是視覺模態(tài)特征提取的關(guān)鍵。Pixel-BERT[2]則不那么認(rèn)為,他使用了CNN抽取圖像的特征,然后輸入到一個特征映射模塊中。該模塊的特色是,隨機(jī)的從中扣取本地區(qū)域特征,以防止過擬合。然后語言特征和視覺特征組合在一起,輸入到transformer模型中。到目前為止,大多數(shù)VLP的研究都集中在通過提高視覺特征提取的能力來提高模型性能。在實驗中,由于通常在訓(xùn)練時提前緩存視覺區(qū)域特征來減輕特征提取層的負(fù)擔(dān),所以往往會忽略大型圖像特征提取網(wǎng)絡(luò)的缺點。這種缺點在實際應(yīng)用中很明顯。因此,現(xiàn)今的注意力轉(zhuǎn)移到輕量級快速視覺輸入上。最近的研究表明[3],在將圖像輸入Transformer之前,使用簡單的線性投影可以有效的提取圖像特征。雖然這是文本的主流方法[4],但Transformer[5]也是最近才用于圖像。Kim等人在2021年提出了Vision-and-Language Transformer(ViLT)[6],它與以前的VLP模型的主要創(chuàng)新在于其輕量化的無卷積圖像輸入層。顯著減小了模型尺寸和運行耗時,同時在視覺和語言的多模態(tài)下游任務(wù)上表現(xiàn)出良好的性能。
當(dāng)前基于深度學(xué)習(xí)的多模態(tài)算法往往只關(guān)注模態(tài)信息本身,而沒有進(jìn)一步挖掘利用與圖像或者文本相關(guān)的其他信息。然而,除了圖像以及相應(yīng)的圖像文字描述外,在實際生活中,圖像內(nèi)容經(jīng)常含有一定的文字信息和這些文字的布局信息,如果能夠高效利用圖像內(nèi)出現(xiàn)的文本信息和布局信息,模型效果必定會更好。因此深度挖掘場景文本及布局信息使得多模態(tài)融合的特征信息更加具體,從而強(qiáng)化多模態(tài)間的融合,成為一個關(guān)鍵問題。
針對如何利用圖像模態(tài)的場景文本和布局信息提升模型精度的問題,我們提出了基于OCR的圖像情景文本融合的多模態(tài)特征提取方法,通過引入圖像情景文本和布局信息突出情景文本特征和強(qiáng)化圖像空間信息,綜合分析,預(yù)構(gòu)建了基于ViLT的圖像情景文本融合的多模態(tài)網(wǎng)絡(luò)模型,簡稱OCR-ViLT。面對多模態(tài)模型訓(xùn)練困難和訓(xùn)練資源不足的情況,我們通過引入預(yù)訓(xùn)練加微調(diào)的遷移學(xué)習(xí)方案,有效降低模型訓(xùn)練成本。并經(jīng)過大量實驗探究模型的輸入策略,使得模型在某種復(fù)雜場景下的下游任務(wù)中具有更好的優(yōu)勢。綜上,我們的貢獻(xiàn)如下:
1)針對圖像場景文本特征提取問題,提出了一種基于圖像情景文本融合的多模態(tài)特征提取方法,利用光學(xué)掃描結(jié)合布局位置標(biāo)注,提取圖像的情景文本特征。
2)提出了一種基于圖像情景文本融合的多模態(tài)網(wǎng)絡(luò)模型,將圖像中的情景文本融入圖像-文本聯(lián)合特征中,實驗證明圖像情景文本能夠有效提升模型的布局感知力。
3)經(jīng)過大量實驗,探討OCR-ViLT分別在不同的下游任務(wù)中的輸入策略,并給出相應(yīng)的建議。
1? OCR-ViLT
OCR-ViLT(VisionbyOptical Character Recognition and Language Transformer)是一種具有簡潔的體系結(jié)構(gòu)的VLP模型,具有最輕量化的視覺區(qū)域嵌入方法。我們使用經(jīng)過預(yù)訓(xùn)練的ViT模型的Transformer權(quán)重來初始化ViLT。這種初始化方式可以利用交互層的處理視覺特征的能力,從而避免復(fù)雜的視覺嵌入,模型結(jié)構(gòu)總覽如圖1所示。
根據(jù)Wonjae Kim于2020年提出的ViLT模型,如果基于Transformer的網(wǎng)絡(luò)模型沒有超大量的數(shù)據(jù)做預(yù)訓(xùn)練,其性能甚至不如近幾年主流的基于CNN的殘差神經(jīng)網(wǎng)絡(luò)(ResNet,何凱明),因此,在預(yù)訓(xùn)練的時候可以借助富有布局信息的文本文檔等數(shù)據(jù)聯(lián)合做預(yù)訓(xùn)練。接著使用MSCOCO數(shù)據(jù)集進(jìn)行微調(diào),使網(wǎng)絡(luò)模型與下游任務(wù)更加契合,如圖2所示。
1.1? 預(yù)訓(xùn)練方法
OCR-ViLT選取經(jīng)過OCR掃描的word文檔進(jìn)行預(yù)訓(xùn)練,它們含有足夠的富文本信息,受到Colin Raffel等人的啟發(fā),本文采用Layout降噪任務(wù)作為預(yù)訓(xùn)練任務(wù),并將word文件進(jìn)行分片處理。這樣就能在預(yù)訓(xùn)練中使用沒有進(jìn)行人工標(biāo)注的數(shù)據(jù)。并且和常規(guī)的降噪任務(wù)不同的是,本文為模型提供了分片的位置信息,這將使模型在完成預(yù)訓(xùn)練的過程中學(xué)習(xí)到布局的位置信息。實驗結(jié)果表明使用掃描后的word文檔比使用自然圖像效果更好,因為掃描后的word文檔文本密集、布局多樣,有助于模型學(xué)習(xí)各種空間線索和布局信息。
2? 實驗結(jié)果與分析
2.1? 數(shù)據(jù)集和評估方法
本文在MSCOCO和Flickr30K這兩個公共的圖像-文本多模態(tài)數(shù)據(jù)集上對OCR-ViLT進(jìn)行驗證實驗。MSCOCO含有123 287個圖像、616 435個自然語言描述,F(xiàn)lickr30K總共包含31 000張圖像和158 915個自然語言描述。
對于性能指標(biāo)。本文采用在跨模態(tài)檢索中廣泛使用的查詢問題評價指標(biāo)R@K(K=1,5,10)用于性能評估,表示前k個檢索結(jié)果中相關(guān)結(jié)果數(shù)與所有相關(guān)結(jié)果數(shù)的比率。
2.2? 模型對比實驗
本文分別選取以下3種模型與OCR-ViLT進(jìn)行實驗比較,它們分別是MMCA、SGRAF、COTS。其中COTS是現(xiàn)在的跨模態(tài)領(lǐng)域中的SOTA方法,并且與最新的單流模型相比,模型性能相當(dāng),但是推理速度快10 800倍。
我們在兩個廣泛使用的圖像文本數(shù)據(jù)集Flickr30K和MSCOCO上比較了我們的OCR-ViLT和最先進(jìn)的方法,結(jié)果如表1所示(表中I2TRetrieval為圖像檢索文本;T2IRetrieval為文本檢索圖像)。
表1是各類算法在Flickr30K和MSCOCO數(shù)據(jù)集下的R@K指標(biāo)的實驗結(jié)果,分別對給定文本的情況下檢索與文本內(nèi)容匹配的圖像,和給定圖像的情況下查找與圖像內(nèi)容匹配的相關(guān)文本。整體來說,本文所提的OCR-ViLT算法相較于其他對比方法無論是R@1、R@5還是R@10的檢索召回率都有一定程度的提高。
OCR-ViLT在R@1、R@5和R@10的檢索召回率指標(biāo)上大大優(yōu)于MMCA、SGRAF這兩種單流模型。具體而言,與最新的單流模型SGRAF相比,OCR-ViLT均取得了R@K指標(biāo)的領(lǐng)先。
OCR-ViLT與雙流模型的對比同樣也是可圈可點。在于最近的SOTA模型COTS的對比中,可以看到在T2I Retrieval任務(wù)下,兩者的R@K性能表現(xiàn)不相上下,F(xiàn)lickr30K數(shù)據(jù)集中的R@5和MSCOCO數(shù)據(jù)集中的R@1和R@10對比COTS均有小幅度的優(yōu)勢。但是在I2TRetrieval任務(wù)下,我們的OCR-ViLT-OP明顯優(yōu)于COTS,MSCOCO數(shù)據(jù)集中的R@10指標(biāo)領(lǐng)先了2.73%(96.73% VS 94.0%)。在實驗環(huán)境相同的情況下,考慮到雙流模型比單流模型的參數(shù)量要多得多,OCR-ViLT模型大小更輕量,數(shù)據(jù)利用率更高。另外,因為COTS模型在模態(tài)交互之前便提取了模態(tài)特征,說明針對視覺模態(tài),我們所提的OCR-ViLT模型對比如今主流的基于區(qū)域的視覺特征提取方法能夠提取并學(xué)習(xí)圖像的場景文本和布局信息,突出圖像布局特征和空間特征的表達(dá)能力,強(qiáng)化模型的圖像感知力。
2.3? 輸入策略對比實驗
我們在MSCOCO數(shù)據(jù)集上根據(jù)不同的輸入策略對OCR-ViLT重新進(jìn)行微調(diào)。我們測量了不同場景中的圖像到文本和文本到圖像檢索。我們嘗試了9種不同的圖像和文本比例場景,圖像和文本的數(shù)量分別從一逐步增加到三。結(jié)果如圖3所示。在檢索任務(wù)中,召回率率先緩慢上升,直到圖像與文本的比例為3(圖像): 1(文本),然后開始顯著下降,然后緩慢上升。在MSCOCO數(shù)據(jù)集中的檢索任務(wù)中,采取3(圖像): 3(文本)的輸入策略能達(dá)到最佳召回率。因此,我們認(rèn)為,在多模態(tài)檢索任務(wù)中,建議使用3:3的輸入策略,可以獲得比較好的效果。
3? 結(jié)? 論
在本文中,我們研究了如何提高多模態(tài)模型視覺嵌入模塊的性能。具體而言,我們充分利用在圖像中的場景文本和布局信息,提出了一種新的融合場景文本的視覺語言預(yù)訓(xùn)練模型,稱為OCR-ViLT。也就是說,我們通過百度光學(xué)掃描API分析圖像中蘊藏的場景文本,通過場景文本突出圖像布局特征和空間特征的表達(dá)能力,增強(qiáng)模型的視覺圖像布局感知力。
實驗表明我們的OCR-ViLT在圖像文本檢索中具有一定的有效性和高效性。實驗證明了場景文本對區(qū)域視覺的表征提取有強(qiáng)化作用。同時大量性能探究實驗證明圖像和文本的不同比例對OCR-ViLT的檢索性能有顯著影響??傮w而言,圖像和文本的增加可以增強(qiáng)檢索性能。隨著比例的逐漸增加,當(dāng)圖像和文本的比例達(dá)到2(圖像): 3(文本)時,檢索性能開始顯著下降;在圖像數(shù)量相同的情況下,僅添加文本對OCR-ViLT的檢索性能的改善最為明顯;保持文本比例不變,只增加圖像,模型檢索時間成倍增加,并且檢索召回率有所降低。因此我們建議如果在訓(xùn)練樣本不足或者訓(xùn)練資源比較少的情況下,使用OCR-ViLT采取1:1的輸入策略可以得到很好的效果;如果訓(xùn)練樣本比較充足并起訓(xùn)練資源豐富的情況下,采取2:3的輸入策略可以將模型性能發(fā)揮到極致。
參考文獻(xiàn):
[1] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks [J].Communications of the ACM,2017,60(6):84-90.
[2] HUANG Z,ZENG Z,LIU B,et al. Pixel-BERT:Aligning Image Pixels with Text by Deep Multi-Modal Transformers [J/OL].arXiv:2004.00849[cs.CV].(2020-06-22).https://arxiv.org/abs/2004.00849.
[3] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].(2020-10-22).https://arxiv.org/abs/2010.11929.
[4] DEVLIN J,CHANG M,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1(Long and Short Papers).Minneapolis:Association for Computational Linguistics,2019:4171-4186.
[5] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc.,2017:5998-6008.
[6] KIM W,SON B,KIM I. ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision [J/OL].arXiv:2102.03334 [stat.ML].(2021-06-10).https://arxiv.org/abs/2102.03334v1.
作者簡介:張知奇(1996—),男,土家族,湖南常德人,碩士研究生在讀,研究方向:深度學(xué)習(xí)下的圖文相似性獨立和跨模態(tài)檢索;通訊作者:袁鑫攀(1982—),男,漢族,湖南株洲人,副教授,博士,研究方向:信息檢索、自然語言處理、局部敏感哈希;曾志高(1973—),男,漢族,湖南株洲人,教授,博士,研究方向:機(jī)器學(xué)習(xí),智能信息處理。