• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于空間關系聚合與全局特征注入的視覺問答模型

      2023-03-15 14:27:18陳巧紅漏楊波方賢
      浙江理工大學學報 2023年12期

      陳巧紅 漏楊波 方賢

      摘 要: 現(xiàn)有視覺問答模型缺乏視覺對象間關系的理解能力,導致復雜問題的答案預測準確率較差;針對該問題,提出了一種基于空間關系聚合與全局特征注入的視覺問答模型。該模型首先利用空間關系聚合視覺區(qū)域特征,將其轉換為視覺全局特征,并將這些特征注入網(wǎng)絡;然后引入雙邊門控機制進行特征融合,使模型能夠根據(jù)不同的問題輸入,自適應地調(diào)整視覺全局特征和視覺區(qū)域特征對答案預測的貢獻度;最后將融合特征輸入分類網(wǎng)絡,得到預測結果。在VQA 2.0和GQA公開數(shù)據(jù)集上進行實驗,結果表明:該模型在VQA2.0的測試-開發(fā)集、測試-標準集和GQA的數(shù)據(jù)集上的總準確率分別達到71.12%、71.54%和57.71%,優(yōu)于MCAN和SCAVQAN等主流模型。該模型由于引入了具有空間關系的視覺全局特征,能夠更好地提升視覺對象間關系的理解能力,有效提高了視覺問答模型的準確率。

      關鍵詞: 視覺問答;空間關系聚合;全局特征注入;視覺區(qū)域特征;視覺全局特征;雙邊門控機制

      中圖分類號: TP181

      文獻標志碼: A

      文章編號: 1673-3851 (2023) 11-0764-11

      引文格式:陳巧紅,漏楊波,方賢.基于空間關系聚合與全局特征注入的視覺問答模型[J]. 浙江理工大學學報(自然科學),2023,49(6):764-774.

      Reference Format: CHEN? Qiaohong,LOU? Yangbo,F(xiàn)ANG? Xian. A visual question answering model based on spatial relationship aggregation and global feature injection[J]. Journal of Zhejiang Sci-Tech University,2023,49(6):764-774.

      A visual question answering model based on spatial relationship aggregation

      and global feature injection

      CHEN? Qiaohong,LOU? Yangbo,F(xiàn)ANG? Xian

      Abstract:? A visual question answering model based on spatial relationship aggregation and global feature injection was proposed aiming at the problem that the existing visual question answering models lack understanding of the relationship between visual objects and have low forecast accuracy. First, spatial relations were used for the model to aggregate visual regional features, which were subsequently transformed into visual global features, and injected into the network; then, by introducing a bilateral gating mechanism for feature fusion, the model could control the contribution of visual global features and visual regional features to answer prediction in an adaptive manner according to different question inputs; finally, the fusion features were input into the classification network to obtain the prediction results. Experiments were conducted on VQA 2.0 and GQA public datasets, and the results showed that the model achieved overall accuracy of 71.12%, 71.54%, and 57.71% on VQA 2.0 test subsets Test-dev, Test-std, and GQA, superior to mainstream models MCAN and SCAVQAN. The model introduces visual global features with spatial relationships, which can better enhance the understanding ability of relationships between visual objects and effectively improve the accuracy of the visual question answering model.

      Key words: visual question answering; spatial relationship aggregation; global feature injection; visual regional feature; visual global feature; bilateral gating mechanism

      0 引 言

      近年來,深度學習的快速發(fā)展極大地推動了計算機視覺和自然語言處理領域的進步。視覺-語言理解研究,例如視覺問答[1-2]、圖像字幕[3]、多模態(tài)情感分析[4]等,引起了研究人員的廣泛關注。視覺問答任務一般要求所建模型根據(jù)給定圖像和一個與圖像內(nèi)容相關的自然語言問題,給出準確的自然語言答案。這項任務在回答盲人的詢問[5]、輔助醫(yī)生進行臨床分析和診斷[6]等場景具有廣闊的應用前景。

      目前,為了給出復雜問題的準確答案,視覺問答任務需要對模態(tài)信息進行有效地特征融合。在特征融合的相關研究中,最初的方法是采用逐元素求和或乘積來生成融合特征。Fukui等[7]認為這些方法不能充分捕捉兩種模態(tài)之間的復雜關系,因此提出了多模態(tài)緊湊雙線性池化(Multimodal compact bilinear pooling, MCB)模型。該模型通過問題特征和視覺特征的向量外積進行特征融合,以捕獲模態(tài)間的復雜關系;然而,隨著輸入特征維度的增加,該模型的參數(shù)量呈指數(shù)級增長,較大的參數(shù)量導致模型效率低下。為了解決這一問題,Ben-Younes等[8]提出了一種基于塊-超對角(Block-superdiagonal)張量分解的特征融合框架,平衡融合模型的表現(xiàn)力和復雜性,從而在減少模型參數(shù)量的同時提高了模型效率。不同于上述的淺層融合方法,Lao等[9]提出了一種深層融合方法,即多級混合嵌入融合(Multi-stage hybrid embedding fusion, MHEF)方法,將二重嵌入融合(Dual embedding fusion, DEF)和潛在嵌入融合(Latent embedding fusion, LEF)相結合,并為這種融合方法設計了多階段融合結構,以獲取多樣化的融合特征。然而,在特征融合過程中普遍存在一個挑戰(zhàn),即存在較多噪聲信息。這些噪聲信息來源于視覺和語言模態(tài)之間的固有差異,以及特征提取過程中的不確定性等多種因素,對視覺問答系統(tǒng)的性能產(chǎn)生不利影響。

      為了消除特征融合過程中存在的噪聲信息,Chen等[10]在視覺問答任務中引入了注意力機制,在輸入問題中學習圖像區(qū)域的視覺注意力,以篩選出回答問題所需的關鍵視覺區(qū)域。此后,注意力機制被廣泛應用于在多模態(tài)輸入中提取有效信息。Yu等[11]提出了深度模塊化協(xié)同注意力網(wǎng)絡(Modular co-attention network, MCAN),通過引入自注意力單元和引導注意力單元,以“編碼器-解碼器”(Encoder-decoder)結構來構建網(wǎng)絡,以提升對視覺和問題的細粒度理解;但這種方法沒有利用視覺特來構建問題特征注意力,忽略了問題特征注意力的重要性。為了克服這一缺陷,鮮榮等[12]提出了一種多模態(tài)雙導向注意力網(wǎng)絡,通過引入視覺特征來構建問題特征注意力,從而進一步加強模態(tài)間的交互。然而,上述模型[11-12]雖然能夠利用多個注意力層捕獲更深層次的視覺語言相關性,但參數(shù)量較大,易導致模型過擬合。受膠囊神經(jīng)網(wǎng)絡的啟發(fā),Zhou等[13]提出了動態(tài)膠囊注意力(Dynamic capsule attention),采用動態(tài)單層膠囊注意力網(wǎng)絡代替靜態(tài)多層注意力網(wǎng)絡。該研究將特征矩陣中的向量視為底層膠囊,通過這些底層膠囊的動態(tài)交互獲得的上層膠囊,并將該上層膠囊作為注意力的輸出;同時在一個注意力層上進行多步驟的注意力學習,從而大大降低了模型的參數(shù)量,有效避免了模型過擬合等問題的發(fā)生。

      上述對視覺問答任務的相關研究[11-13]均采用了Anderson等[14]提出的自底向上-自頂向下(Bottom-up and top-down, BUTD[14])的注意力機制;受益于自底向上策略,采用這種方式可以使用預先訓練的對象檢測器來提取僅依賴視覺輸入本身的顯著區(qū)域特征。這些特征結合注意力機制,能夠有效地捕捉視覺區(qū)域和單詞之間的相關性,從而提升了視覺問答模型的性能。然而,這些視覺區(qū)域特征在獲取過程中處于相互獨立的狀態(tài),使得模型缺乏視覺對象間關系的理解能力,從而導致模型對復雜問題的答案預測準確率較差。

      本文針對現(xiàn)有視覺問答模型缺乏視覺對象間關系的理解能力的不足,提出了一種基于空間關系聚合與全局特征注入的視覺問答模型。該模型首先利用空間關系聚合視覺區(qū)域特征,將其轉換為視覺全局特征,以加強視覺區(qū)域特征中對象間的關系;其次,將視覺全局特征輸入注意力模塊進行學習,以提升模型對視覺對象間關系的理解能力;再次,通過采用雙邊門控機制進行特征融合,使模型能夠根據(jù)不同的問題輸入,自適應地調(diào)整視覺全局特征和視覺區(qū)域特征對答案預測的貢獻度;最后,將融合特征輸入多層感知器和Softmax層,以獲得答案預測。該模型提升了對視覺對象間關系的理解能力,其答案預測的準確度有望得到提升。

      1 模型設計

      1.1 整體結構

      本文提出的基于空間關系聚合與全局特征注入的視覺問答模型的整體結構如圖1所示。該模型首先使用視覺特征提取器從輸入圖像中獲取視覺特征;其次利用詞嵌入的方法從輸入問題中獲取問題特征;再次利用空間關系聚合視覺區(qū)域特征來形成視覺全局特征,并輸入至注意力模塊中進行注意力學習;從次通過層間聚合的方式,獲取多層次的視覺全局特征,并過濾噪聲信息;最后使用雙邊門控機制融合視覺區(qū)域特征、視覺全局特征和問題特征,并將融合特征輸入分類器中,輸出預測答案。

      1.2 視覺區(qū)域特征提取

      對于模型中圖像的輸入,使用Faster RCNN[15]作為目標檢測器,提取圖像中顯著區(qū)域。通過對每個對象區(qū)域進行非極大抑制,選取最相關的M個候選區(qū)域作為視覺區(qū)域特征。對于每張圖像的輸入,提取的視覺區(qū)域特征可以表示為V=[v1, v2, …, vM]∈RM×t,每個視覺區(qū)域還擁有對應的邊界框特征b=[x, y, w, h],其中:t為視覺區(qū)域特征的維度,vi∈Rt為圖像第i個視覺區(qū)域特征,x、y為邊界框的中心坐標,w、h分別為邊界框的寬度和高度。

      1.3 問題特征提取

      對于模型的輸入問題,首先根據(jù)空格和標點符號將問題分割為單詞。然后,為了提高計算效率,將各問題中包含的單詞數(shù)填充或截斷至相同數(shù)目N,并利用維度為300的GloVe[16]進行詞嵌入。對于字典中沒有的單詞,選擇隨機向量進行初始化。最后,將這些單詞向量輸入LSTM網(wǎng)絡,將LSTM網(wǎng)絡隱藏層的輸出作為問題特征。對于每個問題的輸入,提取的問題特征可以表示為Q=[q1,q2, …,qN]∈RN×l,其中:l為問題特征的維度,即LSTM隱藏層的維度;qi∈Rl為問題第i個單詞的問題特征。

      1.4 視覺全局特征提取

      視覺區(qū)域特征由Faster RCNN提取,每個視覺區(qū)域特征獲取過程相互隔離,使得模型缺乏視覺對象間關系的理解能力,因此模型需要注入包含對象間關系的視覺全局特征。本文通過以下兩個步驟來獲取視覺全局特征:a)區(qū)域相關性學習;b)空間關系聚合。

      1.4.1 區(qū)域相關性學習

      在計算視覺區(qū)域間的相關性后,僅對高相關性的區(qū)域利用空間關系進行聚合,可以降低計算的復雜度,提高模型的運行效率,有效降低噪聲信息的注入。具體步驟如下:對于模型視覺區(qū)域特征的輸入V,首先將每個區(qū)域特征vi與問題特征最后一個向量qN進行連接,然后通過變換矩陣We∈R(t+l)×r轉換為嵌入特征ei∈Rr,最后將所有嵌入特征合并成嵌入矩陣E∈RM×r。嵌入特征ei的計算過程可用式(1)表示:

      1.4.2 空間關系聚合

      使用簡單池化g=1M∑Mi=0vi對視覺區(qū)域特征進行聚合,所形成的視覺全局特征缺少對象間空間關系的信息。因此本文使用空間關系來聚合視覺區(qū)域特征,具體過程如圖2所示。

      為了避免噪聲信息的注入,對于每個視覺區(qū)域特征vi,根據(jù)相關性矩陣A獲取相關性最高的m個視覺區(qū)域特征。以視覺區(qū)域特征vi和vj為例,利用邊界框特征計算空間關系特征sij,sij可用式(3)表示:

      其中:fLayerNorm為層歸一化,fFNN為多層感知機。由于該自注意力模塊不會改變Q的維度,因此可以將該模塊堆疊L次來捕獲單詞間更深層次的相關性。經(jīng)過L層自注意力模塊的學習,能夠捕獲單詞之間的語義特征和長距離依賴特征,增加重要單詞的權重。例如當提出問題為“Is the girl sitting on the horse?”時,模型將會重點關注“girl”、“sitting”和“horse”,從而推斷出更準確的答案。

      對于視覺特征C,注意力模塊在式(8)—(9)的基礎上,添加跨模態(tài)注意力學習,通過單層注意力模塊的學習輸出C1∈R (M+1)×d,其過程可以用式(10)—(12)表示:

      其中:QL為問題特征經(jīng)過L層自注意力學習后的輸出。不同于上述自注意力模塊,通過額外引入問題特征對視覺特征的跨模態(tài)注意力學習,使得模型能夠聚焦與問題最相關的視覺內(nèi)容上,關注與問題最相關的視覺特征。由于該注意力模塊不會改變C的維度,因此同樣可以將該模塊堆疊L次形成深度注意力網(wǎng)絡。

      經(jīng)過L層深度模塊化共同注意網(wǎng)絡的學習,問題特征的輸出為QL=[qL1, qL2, …, qLN],視覺特征的輸出為CL=[vL1, vL2, …, vLM, gL],從中截取出視覺區(qū)域特征VL=[vL1, vL2, …,vLM],然后分別計算視覺和問題中各特征的權重AVisual和AQuestion,計算過程可用式(13)—(14)表示:

      1.8 損失函數(shù)

      與以往工作相同,本文將視覺問答視為多標簽分類任務,其中候選答案數(shù)量為Nans。將融合特征f送入由線性層所組成的分類器中,使用Sigmoid函數(shù)將結果控制在0~1之間,作為模型預測每個候選答案的概率。具體分類過程可用式(23)表示:

      2 實驗與結果分析

      2.1 數(shù)據(jù)集

      在2個公共基準數(shù)據(jù)集VQA 2.0[19]、GQA[20]上驗證本文模型中各個模塊的性能,并與其他主流模型進行比較。

      VQA 2.0數(shù)據(jù)集由VQA 1.0[1]數(shù)據(jù)集更新而來,包含2.04×105張圖像和1.10×106個問題,是目前視覺問答領域最常用的大型公共數(shù)據(jù)集。與VQA 1.0數(shù)據(jù)集不同,VQA 2.0數(shù)據(jù)集包含更大的問題樣本,解決了VQA 1.0數(shù)據(jù)集中答案分布不平衡的問題,并使數(shù)據(jù)集在語言偏見方面更平滑。數(shù)據(jù)集被分為三個子集:訓練集、驗證集和測試集。VQA 2.0數(shù)據(jù)集中樣例如圖3所示,問題分為三種類型:是/否(Yes/No)、計數(shù)(Num)和其他(Other),并且每個問題包含10個相應的答案。

      GQA是一個由真實世界的圖像與合成問題所組成的數(shù)據(jù)集,其問題相較于其他視覺問答數(shù)據(jù)集更具復雜性和多樣性。這些問題需要推理、常識推斷以及對圖像場景的深入理解,要求模型不僅能夠理解問題的表面含義,還要具備更高層次的推理能力。除此之外,GQA數(shù)據(jù)集通過一種平滑技術來減少問題的偏差,從而平衡二元問題和開放問題的答案分布。數(shù)據(jù)集包含大約2.20×107個問題和1.13×105張圖像,其中訓練集、驗證集、測試集和挑戰(zhàn)集各占70%、10%、10%和10%。

      2.2 評價指標

      對于VQA 2.0數(shù)據(jù)集,本文依據(jù)Agrawal等[1]的工作,當預測答案占10個人工標注答案中3個以上時,才會被認為是完全正確。評估公式可用式(25)表示:

      其中:a表示模型預測答案;count(a)為預測答案在10個人工標注答案中所占的數(shù)量。

      對于GQA數(shù)據(jù)集,除了總準確率、二元問題準確率以及開放問題準確率的標準精度指標之外,引入4個額外的指標來進一步評價模型,即一致性、有效性、合理性和分布性。一致性用于度量不同問題的回答一致性,對于新問題的答案不應該與之前的答案相矛盾。有效性用于檢查給定的答案是否在問題回答范圍內(nèi)。合理性用于度量問題的答案是否合理或有意義。分布性用于度量預測答案分布和真實答案分布之間的總體匹配,判斷模型是否不僅預測了最常見的答案,而且預測了不太常見的答案。

      2.3 實驗設置

      本文模型由PyTorch框架進行構建,使用Nvidia GeForce RTX 3090顯卡作為硬件平臺進行模型訓練。實驗主要參數(shù)設置如表1所示:對于問題特征的提取,VQA 2.0數(shù)據(jù)集上句子長度被設置為N=14,GQA數(shù)據(jù)集上句子長度被設置為N=29,問題特征維度l=512。對于視覺特征的提取,通過Faster RCNN提取圖像中概率最高的M=100個視覺特征,視覺特征維度t=2048;注意力模塊中視覺特征和問題特征將被轉換為統(tǒng)一維度d=1024,注意力模塊堆疊層數(shù)為L=6,多頭注意力包含h=8的縮放點積注意力,縮放點積注意力的維度c=128。特征融合過程中融合特征維度u=1024;對于VQA 2.0數(shù)據(jù)集,選取Nans=3129個在訓練集中最常見的答案作為多分類問題的預測向量,而GQA數(shù)據(jù)集則選取Nans=1843。上述的實驗參數(shù)設置與MCAN模型[11]相同,可以清晰比較模型的性能差異。

      訓練過程中,使用Adam優(yōu)化器(β1=0.9, β2=0.98)對模型訓練13個周期,其中前10個周期的學習率為0.0001,之后每個周期的學習率下降1/10。為了防止模型過擬合,在每個全連接層之后采用值為0.5的Dropout。

      2.4 消融實驗

      由于基于空間關系聚合與全局特征注入的視覺問答模型由多個模塊組成,為了分析各個模塊在模型中的作用,在VQA 2.0數(shù)據(jù)集上進行消融實驗,通過在驗證集上展示該模型不同變體下的結果來評估本文模型中不同模塊的貢獻。

      在評估各個模塊有效性之前,對區(qū)域相關性學習模塊中所提出計算空間特征sij的不同參數(shù)m進行消融實驗,實驗結果如表2所示。實驗發(fā)現(xiàn),通過計算不同數(shù)量的空間特征來聚合區(qū)域特征,對性能的影響較大。其中m=4時模型總準確率最高,過少的空間關系導致重要信息的缺失,過多的空間關系則導致模型中噪聲信息的引入。因此,后續(xù)的消融實驗將僅對每個視覺區(qū)域特征與其最高相關性的m個區(qū)域利用空間關系進行聚合。

      基于空間關系聚合與全局特征注入的視覺問答模型消融實驗的模型變體為:

      a)基線模型:將MCAN[11]模型作為基線模型。

      b)基線模型+池化聚合:通過在基線模型中引入簡單池化的方式聚合視覺區(qū)域特征形成視覺全局特征,并注入注意力模塊中進行注意力學習,后續(xù)特征融合采用線性多模態(tài)融合。

      c)基線模型+空間關系聚合:利用空間關系聚合視覺區(qū)域特征形成視覺全局特征,注入注意力模塊中進行注意力學習,后續(xù)特征融合采用線性多模態(tài)融合。

      d)基線模型+空間關系聚合+層間聚合:在空間關系聚合的基礎上,聚合注意力網(wǎng)絡層間視覺全局特征。

      e)基線模型+空間關系聚合+雙邊門控機制:在空間關系聚合的基礎上采用雙邊門控機制替換線性多模態(tài)融合。

      f)Full model:本文所提出的完整模型,在空間關系聚合的基礎上,同時使用層間聚合和雙邊門控機制。

      消融實驗的結果如表3所示。

      實驗結果顯示:利用不同方式形成視覺全局特征中,簡單池化聚合和利用空間關系聚合相較于基線模型均有所提升。由于簡單池化方式仍無法解決的模型缺乏對象關系信息的缺陷,僅僅提升了0.02%。而空間關系聚合所生成的視覺全局特征,通過將區(qū)域與其相關性最高的其他區(qū)域利用空間關系進行聚合,從而加強了視覺對象間的關系,相較于基線模型,總體準確度有0.30%的提升。對于添加注意力網(wǎng)絡層間聚合的模型,模型總體準確率提升了0.05%,這是因為通過時序模型融合所有低級和高級信息,加強了各層特征間的聯(lián)系,使得最終輸出的視覺全局特征更為全面。采用雙邊門控機制替換線性模態(tài)融合來進行特征融合,模型的總體準確率從67.34%提升至67.42%,由此可以看出,利用自適應的方式控制視覺區(qū)域特征和視覺全局特征的權重,模型可以根據(jù)具體的問題來決定是需要更多的區(qū)域信息還是全局信息,從而提升預測精度。最終比較完整模型和基線模型總準確率提升了0.44%。

      本文模型通過雙邊門控機制以自適應的形式控制視覺全局特征和視覺區(qū)域特征的貢獻。在VQA 2.0數(shù)據(jù)集上評估該模塊的有效性,將包含雙邊門控的模型與固定權重系數(shù)(λ=0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)的對比模型進行比較。實驗結果如圖4所示,具有雙邊門控機制的模型在“是/否問題準確率”、“其他問題準確率”和“總準確率”上具有最佳效果,表明雙邊門控機制有效。而在回答計數(shù)問題時,固定權重系數(shù)為λ=0.4和λ=0.6時,對比模型的性能要優(yōu)于本文模型,但其總準確率仍然不如本文模型。這是因為雙邊門控機制使模型能夠根據(jù)問題,自適應地調(diào)節(jié)視覺全局特征和視覺區(qū)域特征對于答案預測的貢獻度,從而提高模型預測精度。

      2.5 收斂性分析

      圖5表示模型在訓練過程中損失值和準確度隨著訓練周期增加的變化曲線,其中BUTD[14]和MCAN[11]為基線模型。由圖5(a)可以看出,模型在訓練過程中損失值隨著訓練周期的增加穩(wěn)定下降,在第1個訓練周期處波動幅度最大,在第11個訓練周期處損失逐漸平穩(wěn)。相較于BUTD和MCAN模型,本文模型在訓練過程中損失值收斂更快,需要的訓練周期數(shù)更少。另一方面,從圖5(b)可以看出,在訓練過程中模型準確率隨著損失的減少而增加,在第1個訓練周期處顯著增加,隨后平穩(wěn)增加,并且在第13個訓練周期處準確率到達最大值。根據(jù)損失值和準確率變化曲線可以看出,本文模型的擬合能力和表現(xiàn)能力均都要優(yōu)于BUTD和MCAN模型。

      2.6 可視化實驗

      本文通過分析視覺的區(qū)域貢獻度以驗明模型的有效性和可解釋性。視覺區(qū)域貢獻度實驗結果如圖6所示,其中:圖6(a)—(c)為本文模型針對特定樣例的視覺區(qū)域貢獻度,圖6(d)—(f)為基線模型對特定樣例的視覺區(qū)域貢獻度;區(qū)域貢獻度的值顯示在每個邊界框的左上角,值越大該區(qū)域用于回答問題的貢獻越大。對于問題“Is there a man dressed in blue?”和“How many lights on the front of the train are lit?”,兩者雖然均能回答出正確的答案,但是通過貢獻度可視化可以看出,本文模型對于回答該問題時所需要的圖像關鍵區(qū)域的貢獻度更高。而對于問題“What hand is the person holding out?”,本文模型能夠正確回答出答案“l(fā)eft”,基線模型則回答錯誤。這是因為本文模型利用空間關系來聚合視覺區(qū)域特征所形成的視覺全局特征,并將該特征注入到模型中,從而提升了模型對視覺對象間關系的理解能力,能夠理解用于回答問題的圖像信息,從而提升了模型預測的準確度。

      2.7 模型總體性能

      本文模型與BUTD、MCAN和MESAN等近年來的視覺問答主流模型,在VQA 2.0數(shù)據(jù)集的測試-開發(fā)集與測試-標準集上的性能對比實驗,結果如表4所示。

      由表4的實驗結果可以得出:利用提出的空間關系聚合模塊與全局特征注入能夠提高答案預測的準確率。BUTD模型[14]通過采用自底向上的注意力機制提取視覺區(qū)域特征??梢钥闯霰疚哪P偷男阅芤黠@優(yōu)于BUTD模型,這是因為本文模型在視覺區(qū)域特征的基礎上構建視覺全局特征,通過自適應門控動態(tài)選擇與輸入問題相關的視覺特征,從而提升了模型對視覺對象間關系的理解能力。相比于基線模型MCAN,本文模型在VQA 2.0數(shù)據(jù)集的測試-開發(fā)集上達到71.12%的總準確率,在測試-標準集上達到了71.54%的總準確率,均高于采用深層聯(lián)合注意網(wǎng)絡的MCAN模型。與MCAN不同,MESAN[21]采用基于top-k的顯式選擇,僅關注指定數(shù)量的問題詞,從而減少無關信息所造成的干擾。Re-Att[22]用基于問題重建初始注意力圖的方法,使模型對問題的理解更加準確。MGSA[23]在自注意力過程中利用其他模態(tài)信息,動態(tài)調(diào)節(jié)模態(tài)內(nèi)的注意力權重和流量,有效過濾了自注意力過程中的噪聲信息。SCAVQAN[24]采用一種基于閾值的稀疏共同注意視覺網(wǎng)絡,通過設置閾值來濾出圖像和問題中對于回答問題最有用的信息,從而提升了模型的整體性能。上述視覺問答模型(MESAN、Re-Att、MGSA和SCAVQAN)均通過改進注意力機制來有效過濾特征中存在的噪聲信息,然而,它們在建模時忽略了視覺對象間的關系。為彌補這一不足,本文模型不僅注重注意力學習,還引入了空間關系聚合模塊,以加強對視覺對象間關系的建模。這使得模型可以更好地理解圖像內(nèi)容,從而在VQA 2.0數(shù)據(jù)集的各類答案預測指標上均具有一定的優(yōu)勢。

      本文還在GQA數(shù)據(jù)集上進行實驗,實驗結果如表5所示。相較于BUTD模型,本文模型性能得到大幅度提升,總準確率達到57.71%。對比作為基線模型的MCAN,本文模型在保持相似的有效性的同時,其他所有指標上均表現(xiàn)出更好的效果。與近期主流的視覺問答模型SCAVQAN相比,除了分布性指標外,其他指標均存在一定競爭力,這表明本文模型具有優(yōu)秀的性能。

      3 結 論

      本文提出了基于空間關系聚合與全局特征注入的視覺問答模型,通過空間關系聚合來生成視覺全局特征,有效增強了視覺對象之間的關聯(lián),提升對視覺對象間關系的理解能力,有效地提高了答案預測的準確率。該模型利用相似度矩陣來實現(xiàn)視覺區(qū)域特征的有效聚合,降低了聚合過程中的計算量,提高了模型收斂速度;將包含空間關系的視覺全局特征輸入到注意力網(wǎng)絡中,顯著提升了模型對視覺對象間關系的理解能力;在此基礎上,引入了雙邊門控機制,有助于模型篩選出用于回答問題的關鍵視覺信息。在VQA 2.0和GQA數(shù)據(jù)集上的實驗結果表明:本文模型在各個指標上均優(yōu)于其他主流模型;與去除空間關系聚合模塊和雙邊門控機制的本文模型進行對比,本文設計的各個模塊均起到了重要作用。后續(xù)研究可考慮視覺區(qū)域對象間顯式和隱式的關系信息,進一步提升模型對視覺對象間關系的理解能力。

      參考文獻:

      [1]Agrawal A, Lu J S, Antol S, et al. VQA: visual question answering[J]. International Journal of Computer Vision, 2017, 123(1): 4-31.

      [2]閆悅, 郭曉然, 王鐵君, 等. 問答系統(tǒng)研究綜述[J/OL]. 計算機系統(tǒng)應用. (2023-06-12)[2023-06-15]. https:∥doi.org/10.15888/j.cnki.csa.009208.

      [3]王源順, 段迅, 吳云. 一種新的seq2seq的可控圖像字幕的生成方法[J]. 計算機應用研究, 2021, 38(11): 3510-3516.

      [4]陳巧紅, 孫佳錦, 孫麒, 等. 基于多層跨模態(tài)注意力融合的圖文情感分析[J]. 浙江理工大學學報(自然科學版), 2022, 47(1): 85-94.

      [5]Le T, Nguyen H T, Le Nguyen M. Multi visual and textual embedding on visual question answering for blind people[J]. Neurocomputing, 2021, 465: 451-464.

      [6]Liu B, Zhan L M, Xu L, et al. Medical visual question answering via conditional reasoning and contrastive learning[J]. IEEE Transactions on Medical Imaging, 2023, 42(5): 1532-1545.

      [7]Fukui A, Park D H, Yang D, et al. Multimodal compact bilinear pooling for visual question answering and visual grounding[C]∥Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas. Stroudsburg, PA, USA: Association for Computational Linguistics, 2016: 457-468.

      [8]Ben-Younes H, Cadene R, Thome N, et al. BLOCK: bilinear superdiagonal fusion for visual question answering and visual relationship detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 8102-8109.

      [9]Lao M R, Guo Y M, Pu N, et al. Multi-stage hybrid embedding fusion network for visual question answering[J]. Neurocomputing, 2021,423: 541-550.

      [10]Chen K, Wang J, Chen L C, et al. ABC-CNN: An attention based convolutional neural network for visual question answering[EB/OL]. (2016-04-03)[2023-06-15]. https:∥arxiv.org/abs/1511.05960.

      [11]Yu Z, Yu J, Cui Y H, et al. Deep modular co-attention networks for visual question answering[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2020: 6274-6283.

      [12]鮮榮, 何小海, 吳曉紅, 等. 基于多模態(tài)雙向導向注意的視覺問答[J]. 太赫茲科學與電子信息學報, 2021, 19(1): 156-161.

      [13]Zhou Y Y, Ji R R, Su J S, et al. Dynamic capsule attention for visual question answering[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33(1): 9324-9331.

      [14]Anderson P, He X D, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE, 2018: 6077-6086.

      [15]Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

      [16]Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar. Stroudsburg, PA, USA: Association for Computational Linguistics, 2014: 1532-1543.

      [17]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]∥Advances in Neural Information Processing Systems. Long Beach: Curran Associates, 2017: 5998-6008.

      [18]Wang Q, Li F X, Xiao T, et al. Multi-layer representation fusion for neural machine translation[EB/OL]. (2020-02-16)[2023-06-15]. https:∥arxiv.org/abs/2002.06714.

      [19]Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA matter: Elevating the role of image understanding in visual question answering[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 6325-6334.

      [20]Hudson D A, Manning C D. GQA: A new dataset for real-world visual reasoning and compositional question answering[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2020: 6693-6702.

      [21]Guo Z H, Han D Z. Multi-modal explicit sparse attention networks for visual question answering[J]. Sensors, 2020, 20(23): 6758.

      [22]Guo W Y, Zhang Y, Yang J F, et al. Re-attention for visual question answering[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2021, 30: 6730-6743.

      [23]陳巧紅, 漏楊波, 孫麒, 等. 基于多模態(tài)門控自注意力機制的視覺問答模型[J]. 浙江理工大學學報(自然科學版), 2022, 47(3):413-423.

      [24]Guo Z H, Han D Z. Sparse co-attention visual question answering networks based on thresholds[J]. Applied Intelligence, 2023, 53(1): 586-600.

      (責任編輯:康 鋒)

      收稿日期: 2023-06-15網(wǎng)絡出版日期:2023-09-08

      基金項目: 浙江省自然科學基金項目(LQ23F020021);浙江理工大學科研啟動項目(22232262-Y)

      作者簡介: 陳巧紅(1978— ),女,浙江臨海人,教授,博士,主要從事計算機輔助設計及機器學習方面的研究。

      通信作者: 方 賢,E-mail:xianfang@zstu.edu.cn

      五指山市| 定安县| 元朗区| 辉县市| 新泰市| 诸城市| 大田县| 沁阳市| 伊川县| 长泰县| 惠安县| 平定县| 邯郸县| 巢湖市| 太仓市| 合山市| 英山县| 海盐县| 五常市| 年辖:市辖区| 民县| 阳原县| 石柱| 温泉县| 平武县| 贵南县| 湘潭县| 南和县| 和林格尔县| 思茅市| 姚安县| 韶关市| 扶沟县| 凤台县| 辽中县| 河北区| 同心县| 湖口县| 贞丰县| 色达县| 苗栗市|