• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合知識表征的多模態(tài)Transformer場景文本視覺問答

      2022-09-20 09:13:50余宙俞俊朱俊杰匡振中
      中國圖象圖形學(xué)報 2022年9期
      關(guān)鍵詞:集上關(guān)聯(lián)語義

      余宙,俞俊,朱俊杰,匡振中

      杭州電子科技大學(xué)計算機(jī)學(xué)院復(fù)雜系統(tǒng)建模與仿真教育部重點(diǎn)實(shí)驗(yàn)室,杭州 310018

      0 引 言

      視覺問答(visual question answering,VQA)(Antol等,2015)是計算機(jī)視覺和自然語言處理的交叉方向的典型任務(wù),也是近年來相關(guān)領(lǐng)域的研究熱點(diǎn)。它以一幅圖像和一個問題作為輸入,旨在設(shè)計模型對多模態(tài)的輸入進(jìn)行信息融合與推理,最終以自然語言的形式輸出問題的答案。圖1(a)展示了視覺問答任務(wù)的一個示例。模型對圖像和問題細(xì)致的理解后進(jìn)行推理,從而實(shí)現(xiàn)準(zhǔn)確的答案預(yù)測,因此它是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。近年來,研究人員在視覺問答任務(wù)中取得了重大進(jìn)展,在一些常用的視覺問答基準(zhǔn)測試集上(Antol等,2015)取得了接近人類水平的準(zhǔn)確率,但是這些方法大多忽視了對圖像中“場景文本”這一重要信息的理解,從而限制了其對場景理解的深度。另外,視覺問答技術(shù)在現(xiàn)實(shí)生活中的一個典型應(yīng)用場景是視障人群的輔助,而對于這些特殊人群來說,理解場景中的文字也是他們真正關(guān)心的痛點(diǎn)問題。

      圖1 傳統(tǒng)視覺問答和場景文本視覺問答任務(wù)示例Fig.1 Examples of VQA and scene TextVQA((a) VQA; (b) scene TextVQA)

      Singh等人(2019)和Biten等人(2019)提出將文本內(nèi)容融入到視覺問答中,形成面向場景文本視覺問答任務(wù),同時構(gòu)建了TextVQA(text visual question answering)(Singh等,2019)和ST-VQA(scene text visual question answering)(Biten等,2019)兩個基準(zhǔn)數(shù)據(jù)集。圖1(b)展示了場景文本視覺問答任務(wù)的一個示例,該任務(wù)問題涉及圖像中相關(guān)的場景文本,需要模型建立問題、視覺對象和場景文本之間的統(tǒng)一關(guān)聯(lián)后開展推理以生成正確的答案。為了理解圖像中的場景文本,場景文本視覺問答模型通常需要引入一個光學(xué)字符識別(optical character recognition,OCR)系統(tǒng)來檢測并識別圖像中的文本對象。基于抽取到的OCR對象,一些方法相繼提出(Singh等,2019;Hu等,2020;Kant等,2020)。LoRRA(look read reason and answer)(Singh等,2019)方法在視覺問答模型的基礎(chǔ)上,擴(kuò)展了一個用于場景文本編碼的OCR注意分支。M4C(multimodal multi-copy mesh)(Hu等,2020)方法通過多模態(tài)Transformer融合所有輸入特征模態(tài)內(nèi)和模態(tài)間的信息,并采用迭代解碼生成答案。但是M4C中Transformer的自注意力層是完全連接的,將注意力分散到整體上下文中,而忽略了圍繞特定對象或文本的局部上下文的重要性。

      在場景文本視覺問答任務(wù)中,部分問題涉及推理對象間的相對空間關(guān)系。例如,圖像右側(cè)的標(biāo)識牌上寫了什么內(nèi)容?或圖像左邊球員的球衣上寫了什么數(shù)字?針對這類問題,SA-M4C(spatially aware M4C)(Kant等,2020)方法通過引入12種預(yù)先定義的空間關(guān)系(Yao等,2018)對視覺對象和OCR對象構(gòu)建聯(lián)系,獲得了增強(qiáng)的相對空間關(guān)系知識,并將其融合到 Transformer每個注意力層中,改進(jìn)并提升了M4C方法的性能。但是人工構(gòu)建的空間關(guān)系的空間量化策略不夠精準(zhǔn),對于空間關(guān)聯(lián)緊密的目標(biāo)表達(dá)不夠精準(zhǔn)。

      本文提出了一種融合知識表征的多模態(tài)Transformer的場景文本視覺問答方法KR-M4C(knowledge-representation-enhanced M4C),通過將“空間關(guān)聯(lián)”和“語義關(guān)聯(lián)”兩種互補(bǔ)的先驗(yàn)知識進(jìn)行統(tǒng)一建模后融入M4C模型框架,提升模型對復(fù)雜場景的理解能力??臻g關(guān)聯(lián)知識對視覺對象和OCR對象間的相對空間位置進(jìn)行編碼表征,有效對兩兩對象間細(xì)粒度的空間關(guān)系進(jìn)行精準(zhǔn)刻畫。語義關(guān)聯(lián)知識對OCR對象對應(yīng)的單詞和預(yù)測答案單詞之間的語義相似性,對存在上下文語義關(guān)聯(lián)的單詞進(jìn)行編碼表征,提升答案生成過程模型的準(zhǔn)確性和可靠性。為了評估提出的KR-M4C方法的有效性,分別在Text-VQA和ST-VQA兩個公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,相較于目前最好的方法,KR-M4C在兩個數(shù)據(jù)集上均取得顯著的性能提升。本文主要貢獻(xiàn)如下:1)提出一種基于知識表征增強(qiáng)的多模態(tài)Transformer場景文本視覺問答模型KR-M4C,通過引入增強(qiáng)的知識,獲得了更豐富的信息表示;2)建模了視覺對象間“空間關(guān)聯(lián)”和單詞間的“語義關(guān)聯(lián)”這兩種互補(bǔ)的先驗(yàn)知識,更準(zhǔn)確地引導(dǎo)模型定位關(guān)鍵物體對象和文本對象;3)在TextVQA數(shù)據(jù)集和ST-VQA數(shù)據(jù)集上進(jìn)行了充分的對比實(shí)驗(yàn)和消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明, KR-M4C 與現(xiàn)有最好方法相比具有更出色的表現(xiàn)。

      1 相關(guān)工作

      多模態(tài)學(xué)習(xí)旨在設(shè)計模型對來自不同模態(tài)的信號(如視覺、聽覺和語言等)進(jìn)行信息關(guān)聯(lián),并在此基礎(chǔ)上學(xué)習(xí)統(tǒng)一的語義表達(dá)。得益于深度學(xué)習(xí)的快速發(fā)展,多模態(tài)學(xué)習(xí)逐漸成為計算機(jī)視覺和自然語言處理領(lǐng)域的研究熱點(diǎn),提出了一系列重要的多模態(tài)學(xué)習(xí)任務(wù)。如視覺問答(Antol等,2015;Kim等,2018;Yu等,2019)、視覺定位(Yu等,2017a)、圖文檢索(Karpathy和Li,2015;Lee等,2018)和圖像描述(Anderson等,2016;Veit等,2016)等。在這些任務(wù)中,視覺問答是一個典型且具有挑戰(zhàn)性的任務(wù)。

      VQA是多模態(tài)領(lǐng)域近年來的研究熱點(diǎn)。VQA任務(wù)的核心在于如何進(jìn)行圖像和問題的多模態(tài)信息融合。Zhou等人(2015)和Antol等人(2015)使用的是特征拼接或?qū)?yīng)元素相加的線性融合方法。而后,得益于雙線性模型在細(xì)粒度識別領(lǐng)域取得的良好效果,F(xiàn)ukui等人(2016)、Kim等人(2017)、Ben-Younes等人(2017)和Yu等人(2017b)設(shè)計了不同的近似雙線性池化模型用于多模態(tài)特征的細(xì)致語義融合。隨著對注意力機(jī)制研究的深入,提出了深度共同注意力模型用于多模態(tài)融合和注意力學(xué)習(xí)。Yu等人(2019)將模塊化的思想引入視覺問答中,設(shè)計兩種注意力單元并進(jìn)行模塊化組合,構(gòu)建深度模塊化協(xié)同注意力網(wǎng)絡(luò),建模多模態(tài)數(shù)據(jù)間細(xì)粒度的交互關(guān)聯(lián)。隨著多模態(tài)預(yù)訓(xùn)練研究的興起,研究人員不再聚焦于單一的視覺問答模型設(shè)計,而是將研究重心聚焦如何基于Transformer這種通用架構(gòu)設(shè)計合適的預(yù)訓(xùn)練策略,在大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,并在得到的模型權(quán)重基礎(chǔ)上利用VQA數(shù)據(jù)進(jìn)行模型權(quán)重微調(diào)。Lu等人(2019)、Tan和Bansal(2019)、Chen等人(2020)和Cui等人(2021)提出了各種多模態(tài)預(yù)訓(xùn)練框架,并逐步刷新視覺問答任務(wù)基準(zhǔn)評測集上的最好成績。

      場景文本視覺問答任務(wù)是一種特殊的視覺問答任務(wù)。相比一般視覺問答任務(wù),場景文本視覺問答更側(cè)重圖像中的文本信息,不僅它的問題主要圍繞圖像中的文本信息,而且它的回答也需要使用圖像中的文本信息。這要求模型對問題單詞、圖像的物體對象和圖像的文本對象構(gòu)建聯(lián)系,并經(jīng)過推理生成正確答案。由于該任務(wù)具有重要的研究和應(yīng)用價值,研究人員提出了一系列的解決方案。LoRRA(Singh等,2019)擴(kuò)展了面向傳統(tǒng)視覺問答的Pythia(Jiang等,2018)方法,使用現(xiàn)有的OCR系統(tǒng)檢測圖像中的文本對象,額外增加了一個用于場景文本編碼的OCR注意分支,通過對固定詞匯表中的單詞和OCR識別得到的單詞進(jìn)行推理,選擇其中概率最大的單詞作為答案。由于LoRRA沒有構(gòu)建豐富的OCR對象特征,因此無法充分理解OCR對象蘊(yùn)含的信息。此外,其采用的淺層注意力融合模型無法進(jìn)行深度推理。為解決該問題,Hu等人(2020)提出了M4C模型,該模型是該任務(wù)上的一個強(qiáng)有力的基線方法,它通過一個多模態(tài)Transformer(Antol等,2015)結(jié)構(gòu),將不同模態(tài)的特征嵌入到一個共同的語義空間中進(jìn)行融合。在這個語義空間中,模態(tài)間和模態(tài)內(nèi)的關(guān)聯(lián)由自注意力模型自動學(xué)習(xí)得到。M4C將場景文本視覺問答作為一個序列生成任務(wù),結(jié)合一個動態(tài)指針網(wǎng)絡(luò)模塊實(shí)現(xiàn)精準(zhǔn)的答案生成。然而,M4C沒有考慮到圖像中對象之間的相對空間關(guān)系,因此在涉及相對空間關(guān)系的問題上表現(xiàn)不理想。為解決M4C模型存在的問題,SA-M4C(Kant等,2020)在M4C的基礎(chǔ)上,通過12種空間關(guān)系(Yao等,2018)對物體對象和OCR文本對象構(gòu)建聯(lián)系,獲得了增強(qiáng)的知識,進(jìn)一步提升了準(zhǔn)確率,但是預(yù)定義的空間關(guān)系建模方法對空間關(guān)系的表達(dá)粒度不夠細(xì)致,對相近位置對象難以區(qū)分。

      2 融合知識表征多模態(tài)Transformer

      針對場景文本視覺問答任務(wù),本文在M4C模型(Hu等,2020)基礎(chǔ)上進(jìn)行改進(jìn),通過對“空間關(guān)系”和“語義關(guān)系”兩種互補(bǔ)先驗(yàn)知識進(jìn)行聯(lián)合建模,構(gòu)建知識表征增強(qiáng)的M4C模型。

      2.1 M4C模型概述

      M4C模型以問題和圖像兩種模態(tài)的數(shù)據(jù)作為輸入,在進(jìn)行多模態(tài)數(shù)據(jù)統(tǒng)一表征后,輸入一個多層Transformer網(wǎng)絡(luò)對多模態(tài)信息深度融合,最后輸入一個動態(tài)指針網(wǎng)絡(luò)進(jìn)行迭代式答案預(yù)測。

      2.1.1 多模態(tài)數(shù)據(jù)統(tǒng)一表征

      如圖2所示,M4C對問題和答案中的單詞分別進(jìn)行詞向量表征,對圖像分別提取視覺對象區(qū)域和OCR對象區(qū)域,并針對提取區(qū)域進(jìn)行視覺對象表征和OCR對象表征。

      圖2 M4C多模態(tài)表征流程示意圖Fig.2 Flowchart of the multimodal representations of M4C

      給定由至多K個單詞組成的問題,使用經(jīng)過預(yù)訓(xùn)練的BERT-base(bidirectional encoder representation from transformers-base)模型(Devlin等,2019)將每個單詞映射到d維特征向量,最后將每個單詞的表征拼接后得到問題特征Xques∈RK×d。

      針對圖像中的文本,首先使用外部OCR系統(tǒng)從圖像中提取至多N個文本對象區(qū)域并得到相應(yīng)的單詞表示。對第n個文本對象(其中n∈{1,…,N})抽取如下4種特征:基于Fast-Text方法(Bojanowski等,2017)的詞向量特征、基于PHOC(pyramidal histogram of characters)方法(Almazn等,2014)的字符特征、基于Faster R-CNN的視覺特征和文本區(qū)域的包圍框坐標(biāo)特征。然后使用線性映射將上述4種特征統(tǒng)一映射到d維空間,得到每個文本對象表征最后將N個文本對象表征拼接后得到Xocr∈RN×d。

      將上述4組多模態(tài)特征Xques、Xobj、Xocr和Xans通過拼接得到融合特征Z∈R(K+M+N+T)×d,然后將其輸入層的Transformer編碼器模型(Vaswani等,2017)進(jìn)行特征的深度融合。

      2.1.2 自回歸答案預(yù)測

      由于答案可能包含OCR單詞與詞匯表單詞合并形成的短語,M4C引入結(jié)合動態(tài)指針網(wǎng)絡(luò)的自回歸答案預(yù)測模塊,將在OCR單詞和預(yù)先構(gòu)建的答案詞匯表中進(jìn)行的自適應(yīng)選擇作為t時刻的預(yù)測輸出,并將本次預(yù)測結(jié)果作為下一次解碼的輸入,迭代解碼,直至輸出終止符。

      (1)

      最后,將上述兩個向量進(jìn)行拼接得到預(yù)測向量,通過計算預(yù)測答案與正確答案的BCE(binary crossentropy)累計損失,實(shí)現(xiàn)對整個M4C模型的端到端優(yōu)化。

      2.2 KR-M4C模型的整體結(jié)構(gòu)

      得益于多層Transformer模型強(qiáng)大的建模表達(dá)能力,M4C模型可以學(xué)習(xí)得到不同模態(tài)特征之間的細(xì)粒度語義關(guān)聯(lián)。但其存在兩個弱點(diǎn):1)盡管每個視覺對象和OCR對象中包含了其對應(yīng)空間位置信息,然而這種空間位置特征與其他類型特征進(jìn)行特征融合失去了明確的空間坐標(biāo)含義,使得M4C模型難以準(zhǔn)確理解對象間的空間關(guān)系;2)在進(jìn)行答案預(yù)測時輸出的單詞需要從OCR對象單詞和詞匯表單詞中進(jìn)行選擇,而這些不同來源的單詞之間的語義關(guān)聯(lián)在M4C中并未顯式地建模,在進(jìn)行答案預(yù)測過程中難以準(zhǔn)確理解多來源單詞之間的語義關(guān)聯(lián)。

      為了解決上述問題,本文在圖像中的視覺對象和OCR對象之間提取空間關(guān)聯(lián)知識表征,在OCR對象提取得到的單詞和預(yù)測單詞之間提取語義關(guān)聯(lián)知識表征,并針對這兩種關(guān)聯(lián)知識表征,在M4C架構(gòu)基礎(chǔ)上提出一種知識表征增強(qiáng)的改進(jìn)方法KR-M4C對知識進(jìn)行編碼表達(dá)。KR-M4C整體框架如圖3所示,視覺對象與OCR對象間的“空間關(guān)聯(lián)”、OCR單詞與預(yù)測答案單詞間的“語義關(guān)聯(lián)”有助于提升場景文本視覺問答的準(zhǔn)確性。

      圖3 KR-M4C整體框架圖Fig.3 An overview architecture of KR-M4C

      1)空間關(guān)聯(lián)知識表征。場景文本視覺問答需要模型理解圖像中視覺對象與OCR對象之間的空間關(guān)系,并在此基礎(chǔ)上進(jìn)行推理。如圖4所示,給定問題What’s the licence number of the car? 模型首先要檢測到圖像中的車牌對應(yīng)的視覺對象,然后推斷出號碼與車牌之間的關(guān)系,判斷只有車牌對象內(nèi)的數(shù)字才是需要回答的車牌號。

      圖4 空間關(guān)聯(lián)知識表征與語義關(guān)聯(lián)知識建模示意圖Fig.4 Schematic diagram of spatial relationship knowledge representation and semantic relationship knowledge modeling

      (2)

      對于M+N個對象,使用上述方式得到相應(yīng)的空間位置表征Xsp∈R(M+N)×(M+N)×4。進(jìn)一步,將Xsp使用兩層全連接網(wǎng)絡(luò),得到最終的空間關(guān)系知識表征Rsp∈R(M+N)×(M+N)。具體為

      Rsp=relu°line1°relu°lined(Xsp)

      (3)

      式中,relu表示ReLU層,°表示兩個層之間的順序連接。

      2)語義關(guān)聯(lián)知識表征。部分問題也可能會涉及空間上不相鄰的多個單詞組合,如圖4所示的North和Carolina。如何去挖掘這些單詞之間隱含的語義關(guān)系,這直接影響最后預(yù)測的精度。此外,由于答案中單詞來源由OCR單詞和固定詞匯表兩方面組成,并通過兩個獨(dú)立的分類器預(yù)測得到,因此需要模型學(xué)習(xí)理解兩種不同來源單詞之間的語義關(guān)聯(lián)。

      為解決上述問題,本文在OCR對象對應(yīng)的單詞與預(yù)測的答案輸出單詞之間構(gòu)建語義關(guān)聯(lián)知識,使用預(yù)訓(xùn)練的詞向量表征之間的相似度計算單詞之間的相對語義關(guān)系。具體而言,給定第i個OCR對象對應(yīng)的單詞和預(yù)測答案的第j個單詞,它們對應(yīng)的GloVe(global vectors for word representation)詞向量(Pennington等,2014)表征為ei和ej。使用兩個詞向量間的余弦相似度(cossim)作為對應(yīng)單詞相對語義關(guān)系,即

      (4)

      給定N個OCR對象和長度為T的答案,通過對所有答案單詞和OCR單詞進(jìn)行計算,得到語義關(guān)聯(lián)知識表征Rse∈RT×N。對于長度不足T的答案,使用一個特殊單詞[pad]表示。[start]、[end]和[pad]這3個特殊單詞與OCR單詞之間的相似度不進(jìn)行計算,并將其設(shè)置為0。

      3)知識表征增強(qiáng)自注意力模塊。在原生M4C模型中,多模態(tài)融合得到的特征Z輸入由L個自注意力模塊堆疊而成的Transformer編碼器。每個模塊由一個多頭注意力(multi-head attention,MHA)模塊和一個兩層感知機(jī)構(gòu)成的前向神經(jīng)網(wǎng)絡(luò)(feed-forward networks,F(xiàn)FN)模塊堆疊而成。MHA利用h個并行的自注意力函數(shù)的輸出特征拼接,形成多個注意力函數(shù)融合的多樣性特征表達(dá)。其中,第j個自注意力函數(shù)定義為

      headj(Z)=SA(linedh(Z),linedh(Z),linedh(Z))

      (5)

      (6)

      式中,dh=d/h為每個注意力函數(shù)的輸出特征維度,softmax表示softmax激活函數(shù)。

      受Hu等人(2018)提出的空間關(guān)系建模方法的啟發(fā),本文將其應(yīng)用在KR-M4C模型中,將式(5)中的自注意力函數(shù)改寫為知識先驗(yàn)引導(dǎo)的自注意力函數(shù)。具體地,將Rsp和Rse合并后得到一個統(tǒng)一的知識表征矩陣R。為了使Rsp和Rse的數(shù)值范圍相近,需要對Rsp進(jìn)行變換,令Rsp=log(Rsp+ε),其中ε=10-6為預(yù)設(shè)的常數(shù)項(xiàng),防止計算過程中的數(shù)值下溢。提出的知識表征增強(qiáng)自注意力函數(shù)KRSA(knowledge-representation-enhanced self-attention)為

      (7)

      式中,Q、K、V均對應(yīng)特征個數(shù)為P=K+M+N+T的多模態(tài)拼接后的特征Z。為了實(shí)現(xiàn)式(7)中的知識融合,得到知識表征R∈RP×P,將Rsp和Rse按照圖4所示的方式進(jìn)行排布,R中其余位置使用0進(jìn)行填充。需要指出的是,KRSA中Rsp和Rse的使用非常靈活,既可以支持兩者同時輸入,也可以支持任意一種知識輸入。此外,當(dāng)R為全0元素填充時,KRSA退化為標(biāo)準(zhǔn)的SA(self-attention)模塊,對應(yīng)標(biāo)準(zhǔn)的M4C模型。通過將KRSA與式(5)中多頭注意力機(jī)制結(jié)合,得到知識表征增強(qiáng)的多頭注意力模塊KRMHA(knowledge-representation-enhanced multi-head attention),具體為

      KRMHA(Z)=lined([head1(Z),…,headh(Z)])

      (8)

      4)KR-M4C主干網(wǎng)絡(luò)。通過將原生M4C模型中的MHA模塊替換為知識表征增強(qiáng)的KRMHA模塊,KR-M4C的主干模型為L層的深度結(jié)構(gòu)。具體為

      (9)

      (10)

      式中,Z0=Z,norm()表示層標(biāo)準(zhǔn)化處理,F(xiàn)FN()表示2層感知機(jī)構(gòu)成的前饋神經(jīng)網(wǎng)絡(luò)。輸出特征ZL接入M4C中的自回歸答案預(yù)測模塊實(shí)現(xiàn)迭代式答案預(yù)測。

      3 實(shí) 驗(yàn)

      為驗(yàn)證本文KR-M4C的有效性,在場景文本視覺問答任務(wù)的TextVQA數(shù)據(jù)集和ST-VQA數(shù)據(jù)集上進(jìn)行驗(yàn)證,并與現(xiàn)有的場景文本視覺問答模型的結(jié)果進(jìn)行對比,對模型生成的樣例進(jìn)行分析。

      3.1 實(shí)驗(yàn)設(shè)置

      3.1.1 數(shù)據(jù)集

      3.1.2 實(shí)現(xiàn)細(xì)節(jié)

      實(shí)驗(yàn)環(huán)境為裝載了Nvidia Titan Xp GPU的工作站。使用PyTorch框架(Paszke等,2019)實(shí)現(xiàn)KR-M4C模型。遵循先前的工作(Kant等,2020),模型設(shè)計和訓(xùn)練的超參數(shù)如表1所示。

      表1 KR-M4C模型超參數(shù)Table 1 Hyperparameter choices for KR-M4C

      3.2 消融實(shí)驗(yàn)

      為了驗(yàn)證不同模型架構(gòu)對KR-M4C的效果,在TextVQA 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。為公平對比,消融實(shí)驗(yàn)中的所有模型使用Microsoft OCR提取圖像中的文本信息,并使用主干網(wǎng)絡(luò)為ResNeXt-152的Faster R-CNN模型進(jìn)行視覺特征表達(dá)(Xie等,2017)。實(shí)驗(yàn)結(jié)果如表2所示。

      表2 TextVQA數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 2 Ablation experiments on the TextVQA dataset

      1)不同類型知識的增強(qiáng)效果。以M4C模型架構(gòu)為對照,驗(yàn)證不同類型知識引入后的增強(qiáng)效果。首先對比表2第1、3行結(jié)果,發(fā)現(xiàn)在模型層數(shù)相同(均為6層)情況下,本文提出的KR-M4C方法顯著優(yōu)于M4C方法(Hu等,2020),證明了引入知識表征增強(qiáng)的有效性。其次對比第1、3、4、5行結(jié)果,發(fā)現(xiàn)僅建模空間關(guān)聯(lián)知識Rsp或語義關(guān)聯(lián)知識Rse的方法均帶來一定程度的性能下降,但相較M4C方法仍有一定提升,證明引入的兩種知識均對模型具有一定程度的貢獻(xiàn),且兩種知識具有良好的互補(bǔ)特性。最后對比第2、5行結(jié)果,盡管SA-M4C(Kant等,2020)和只包含空間關(guān)聯(lián)Rsp的KR-M4C使用了相近的知識表征增強(qiáng)策略,但SA-M4C的空間關(guān)聯(lián)建模粒度比KR-M4C更粗,因此其準(zhǔn)確率稍遜于KR-M4C方法。

      2)不同模塊組合的影響。在SA-M4C(Kant等,2020)中,將不同類型的注意力模塊進(jìn)行組合,如2個M4C中標(biāo)準(zhǔn)的自注意力(N)和4個SA-M4C中的空間感知注意力模塊(S),可以提升模型的表達(dá)能力。因此,在表2第3、8—11行的結(jié)果中,保持模型層數(shù)L= 6不變,探索不同類型的注意力模塊即M4C中的標(biāo)準(zhǔn)注意力模塊(N)和KR-M4C中的知識表征增強(qiáng)注意力模塊(K)的深度組合方式對結(jié)果的影響。引入知識的6(K)架構(gòu)的每一層都取得了最好效果,相比第7—9行中a(N)→(6-a)(K)架構(gòu)準(zhǔn)確率至少提升0.5%。但該結(jié)果與SA-M4C論文中的結(jié)果并不一致。原因或是SA-M4C的空間信息編碼策略約束過強(qiáng),在前幾層中會削弱對問題語義的理解。相比之下,KR-M4C在每一層知識融合時引入了一組獨(dú)立的可學(xué)習(xí)的參數(shù),使模型可以自適應(yīng)地學(xué)習(xí)在不同層中知識融合的程度,從而獲得更好的融合效果。

      3)不同堆疊深度的影響。保持L(K)的架構(gòu)設(shè)計,探索不同深度L下模型的表現(xiàn)。從表2第3、10、11行結(jié)果可以看出,隨著深度L從4增加到10,KR-M4C模型性能先上升然后逐漸下降。在L= 6時取得最優(yōu)結(jié)果。造成該現(xiàn)象的原因是過深的模型會導(dǎo)致模型優(yōu)化困難,限制了模型的表達(dá)能力。該問題或許可以通過引入更多的訓(xùn)練數(shù)據(jù)得到緩解。

      3.3 與現(xiàn)有方法的對比實(shí)驗(yàn)

      基于消融實(shí)驗(yàn)的結(jié)果,使用6(K)的最優(yōu)架構(gòu)在TextVQA數(shù)據(jù)集上與目前最好方法對比,包括LoRRA(Singh等,2019)、MM-GNN(multi-modal graph neural network)(Gao等,2020)、M4C(Hu等,2020)、SMA(structured multimodal attentions)(Gao等,2021)、CRN(cascade reasoning network)(Liu等,2020)、LaAPNet(localization-aware answer prediction network)(Han等,2020)和SA-M4C(Kant等,2020),結(jié)果如表3所示。額外訓(xùn)練數(shù)據(jù)表示除Text-VQA數(shù)據(jù)集以外的數(shù)據(jù),如ST-VQA數(shù)據(jù)集。

      表3展示了不同條件下(如特征提取主干網(wǎng)絡(luò)、OCR系統(tǒng)和外部訓(xùn)練數(shù)據(jù))的公平對比結(jié)果。特征提取主干網(wǎng)絡(luò)包括基于Faster R-CNN的特征提取器與ResNet和ResNeXt兩種主干網(wǎng)絡(luò)的組合。OCR 系統(tǒng)包括各方法采用的OCR系統(tǒng)。大部分方法沿用了M4C 中的策略,使用Facebook提供的Rosetta-ml和Rosetta-en系統(tǒng)(Borisyuk等,2018),SA-M4C采用了識別性能更好的Google OCR 系統(tǒng)。本文使用了總體效果更好的Microsoft OCR系統(tǒng)。從實(shí)驗(yàn)結(jié)果中可以得到如下結(jié)論:1)在使用 Rosetta-en OCR系統(tǒng)、Faster R-CNN主干網(wǎng)絡(luò)使用ResNet-101的條件下,KR-M4C在驗(yàn)證集和測試集上準(zhǔn)確率為41.78%和42.99%(第7行),相比最好結(jié)果提升1.1%和2.5%;2)增加ST-VQA數(shù)據(jù)集作為額外訓(xùn)練數(shù)據(jù),KR-M4C在驗(yàn)證集、測試集上準(zhǔn)確率分別為42.78%和43.51%(第10行),均為同等條件下的最好結(jié)果;3)將OCR系統(tǒng)由Google OCR系統(tǒng)替換成效果更好的Microsoft OCR系統(tǒng),在不增加額外數(shù)據(jù)的情況下,KR-M4C模型結(jié)果相較于同等條件下的SA-M4C模型,在驗(yàn)證集上準(zhǔn)確率提升1.7%(第13行);4)增加ST-VQA數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),KR-M4C模型在驗(yàn)證集和測試集上準(zhǔn)確率最好,分別為49.27%和49.63%,比同等情況下的SA-M4C分別提升了1.3%和1.1%。

      表3 TextVQA數(shù)據(jù)集上與現(xiàn)有最好方法的對比結(jié)果Table 3 Comparative results with existing state-of-the-art methods on TextVQA dataset

      為進(jìn)一步驗(yàn)證KR-M4C方法的有效性,在ST-VQA數(shù)據(jù)集上也進(jìn)行了對比實(shí)驗(yàn),結(jié)果如表4所示??梢钥闯?,KR-M4C方法比現(xiàn)有最好結(jié)果在驗(yàn)證集上的準(zhǔn)確率提升了4.7%,在驗(yàn)證集和測試集上的ANLS指標(biāo)均提升了5%。

      表4 ST-VQA數(shù)據(jù)集上的結(jié)果Table 4 Comparative results on ST-VQA dataset

      此外,為進(jìn)一步分析M4C、SA-M4C和KR-M4C模型之間的差異,對算法的模型尺寸和復(fù)雜度進(jìn)行對比,結(jié)果如表5所示??梢钥闯觯?)6(R)的KR-M4C相較6(N)的M4C和2(N)+ 4(S)的SA-M4C,模型參數(shù)量和FLOPs幾乎沒有增長,這是因?yàn)镵R-M4C模型在式(6)中引入的模型參數(shù)和計算量相比Transformer主干網(wǎng)絡(luò)幾乎可以忽略;2)相比M4C和SA-M4C,KR-M4C在平均推理時間上用時分別增加48%和12%,增加的時間主要用于計算預(yù)測答案單詞與OCR單詞之間的余弦相似度。如何優(yōu)化這部分計算過程以進(jìn)一步提升方法的計算效率是未來擬開展的重要工作。

      表5 模型復(fù)雜性的對比結(jié)果Table 5 Comparative results of model complexity

      3.4 典型樣例分析

      為了更好地理解KR-M4C的表現(xiàn),本文挑選若干典型樣例進(jìn)行分析,相關(guān)結(jié)果如圖5所示??梢钥闯觯?)KR-M4C相比M4C和SA-M4C獲得了總體上更好的結(jié)果,體現(xiàn)了引入知識增強(qiáng)后模型對場景文本理解能力的提升。2)SA-M4C和KR-M4C在涉及相對空間關(guān)系時的表現(xiàn)相比M4C具有明顯優(yōu)勢,可以準(zhǔn)確回答“What is the first word on the top left of the boy’s t-shirt on the left?” 這樣需要復(fù)雜空間推理才能準(zhǔn)確回答的任務(wù)。3)得益于KR-M4C建立的語義關(guān)聯(lián)知識,模型可以發(fā)現(xiàn)預(yù)測答案與OCR單詞間隱含的語義關(guān)聯(lián),因此在涉及多個單詞的答案時表現(xiàn)比只考慮空間關(guān)聯(lián)的SA-M4C方法表現(xiàn)更好。4)面對部分場景信息確實(shí),需要“聯(lián)想”能力才能理解的復(fù)雜場景時,所有方法均表現(xiàn)不佳。這反映了現(xiàn)有場景文本視覺問答框架的性能瓶頸,有待后續(xù)更深入的研究。

      圖5 M4C、SA-M4C和KR-M4C模型的預(yù)測結(jié)果示例Fig.5 Examples of the predictions of M4C, SA-M4C and KR-M4C models

      4 結(jié) 論

      本文提出一種融合知識表征的多模態(tài)Transformer的場景文本視覺問答方法,在基線方法M4C基礎(chǔ)上引入“空間關(guān)聯(lián)”和“語義關(guān)聯(lián)”兩種互補(bǔ)的先驗(yàn)知識,提出知識表征增強(qiáng)的KR-M4C模型,實(shí)現(xiàn)兩種知識與多模態(tài)數(shù)據(jù)的統(tǒng)一建模表達(dá)。本文在TextVQA和ST-VQA兩個常用的場景文本視覺問答數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,相比現(xiàn)有最好方法取得了明顯的性能提升。本文提出的知識表征增強(qiáng)的多模態(tài)Transformer框架具有通用性,除了應(yīng)用于場景文本視覺任務(wù),也為其他相關(guān)多模態(tài)學(xué)習(xí)任務(wù)的方法改進(jìn)提供了平臺。

      相比現(xiàn)有方法,本文提出的KR-M4C方法帶來了顯著的性能提升,但其性能受限于外部的OCR系統(tǒng)的識別能力。如何在模型中引入OCR識別模塊,進(jìn)行端到端的聯(lián)合優(yōu)化是未來一個有意義的研究方向。此外,現(xiàn)有方法的性能與人工標(biāo)注的訓(xùn)練樣本數(shù)量緊密相關(guān)。如何突破這種標(biāo)注數(shù)據(jù)制約,利用天然的弱標(biāo)注數(shù)據(jù)實(shí)現(xiàn)模型的預(yù)訓(xùn)練以支撐更大更深模型的有效訓(xùn)練,進(jìn)一步提升模型的表達(dá)能力也是值得探索的重要方向。

      猜你喜歡
      集上關(guān)聯(lián)語義
      Cookie-Cutter集上的Gibbs測度
      語言與語義
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      奇趣搭配
      復(fù)扇形指標(biāo)集上的分布混沌
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語義模糊
      幾道導(dǎo)數(shù)題引發(fā)的解題思考
      华宁县| 和田市| 东安县| 盐边县| 苍溪县| 嘉禾县| 九江市| 惠安县| 沈阳市| 上高县| 舒城县| 玉田县| 托克逊县| 广饶县| 高雄市| 中山市| 清原| 丹东市| 桂东县| 明水县| 盐山县| 兴安盟| 界首市| 睢宁县| 灵川县| 太仓市| 垫江县| 外汇| 淮安市| 刚察县| 桦川县| 那坡县| 奎屯市| 鞍山市| 咸阳市| 南皮县| 剑川县| 黑山县| 钟山县| 佛教| 旺苍县|