• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      視覺問答研究綜述?

      2021-11-09 02:45:52包希港周春來肖克晶
      軟件學報 2021年8期
      關鍵詞:注意力特征文本

      包希港,周春來,肖克晶,覃 飆

      (中國人民大學 信息學院,北京 100872)

      視覺問答任務是人工智能領域一項具有挑戰(zhàn)性的任務,其屬于計算機視覺和自然語言處理的交叉方向.然而在此之前,計算機視覺和自然語言處理是分開發(fā)展的,在各自的領域取得了重大的進步.隨著計算機視覺和深度學習的不斷發(fā)展,許多計算機視覺任務取得了巨大的進展,如圖像分類[1,2]、物體檢測[3,4]和動作識別[5,6].但是上述任務只需對圖像進行感知,不需要對圖像進行整體的理解和推理.圖像字幕任務[7?9]首先將兩個領域結合起來,利用圖像和文本作為輸入訓練模型以描述圖像中的內(nèi)容.

      文本問答系統(tǒng)[10,11]在自然語言處理領域已經(jīng)有了廣泛的研究,不論是科研界還是工業(yè)界都有眾多成果涌現(xiàn),如淘寶的智能客服.隨著問答系統(tǒng)在自然語言處理領域的成功應用,有研究提出將問答系統(tǒng)應用至視覺領域.隨著自媒體的不斷發(fā)展,圖片和視頻的數(shù)據(jù)量爆炸性增長,圖片和視頻等視覺信息的表達能力和信息涵蓋能力比文本更強,如何通過交互式的方法從視覺信息中提取信息、過濾信息以及推理信息,成為了一個亟需解決的問題,視覺問答任務在這一背景下被提出.

      視覺問答任務是以圖像(或視頻)和與圖像(或視頻)有關的文本問題的多模態(tài)信息作為計算機的輸入,計算機根據(jù)圖片得到問題的正確答案.本文的內(nèi)容主要是對基于圖片的視覺問答任務進行總結,如圖1 中所示.視覺問答任務如今分為開放式和多項選擇形式兩個子任務:開放式的視覺問答任務答案不確定,由計算機給出正確答案,答案通常是幾個單詞或者一個簡單的短語;多項選擇形式的視覺問答任務存在候選答案,計算機在已給定的候選答案中選擇正確答案.視覺問答任務與其他計算機視覺任務相比更具有挑戰(zhàn)性:視覺問答任務中要回答的問題是在運行時給出,需要處理視覺和文本的多模態(tài)信息,問題答案的形式和如何得出答案是未知的;相反,其他計算機視覺任務由算法回答的單個問題是預先確定的,只有輸入圖像發(fā)生變化[12].視覺問答任務的問題是任意類型的,問題的類型主要包含如下幾類:

      ?物體識別——圖像中有什么?

      ?物體檢測——圖像中存在狗嗎?

      ?二元問題——包含是否的問題

      ?屬性分類——圖像中的狗是什么顏色?

      ?場景分類——圖像中的場景最可能是?

      ?計數(shù)問題——圖像中共有幾只狗?

      ?文本相關——圖像中指示牌的內(nèi)容是什么?

      除此之外,問題可能更為復雜,可能涉及圖像中對象間的空間關系或者需要一定的外部知識,比如回答“圖中的動物屬于哺乳動物嗎?”時需要知道哺乳動物含有哪些動物.視覺問答任務包含了大部分其他經(jīng)典的計算機視覺任務,并且需要對圖像進行一定的推理.

      Fig.1 Samples of visual question answering圖1 視覺問答的樣本

      圖像字幕任務與視覺問答任務的輸入類似,但視覺問答任務比圖像字幕任務更為復雜:視覺問答任務需要對圖片內(nèi)容進行推理,并且常常需要圖片之外的知識,額外知識的范圍從常識到專業(yè)知識;而圖像字幕任務只需描述圖像中的內(nèi)容.與圖像字幕任務相比,視覺問答任務更易于評價,其答案通常只有一個或幾個單詞;而圖像字幕任務的答案通常是一個或多個句子,需要檢查內(nèi)容描述與圖像是否一致,并且需要確認句子語法和句法的正確性,盡管當前研究了高級評價指標,但這仍是一個需要不斷完善的研究.

      視覺問答任務的研究有很多現(xiàn)實的應用,如:可以幫助盲人和視障人士能夠在網(wǎng)絡或者現(xiàn)實世界獲得更多的信息,甚至可以進行實時的人機交互,這將極大改善盲人和視障人士的生活條件和便捷性;改善人機交互的方式,可以通過自然語言來查詢視覺內(nèi)容,拓展智能機器人的問答功能;視覺問答系統(tǒng)可以用于圖像檢索領域,比如可以針對數(shù)據(jù)集中的所有圖像問“圖像中存在汽車嗎”.視覺問答任務包含大部分計算機視覺相關任務,視覺問答任務的不斷發(fā)展,必定會帶來諸多領域的進步.

      視覺問答任務自2014 年提出以來取得了巨大進步:最開始的方法主要集中在以視覺特征和文本特征聯(lián)合嵌入的方式;之后,隨著注意力機制的提出,視覺問答模型將注意力機制引入,為問題的解答提供了可解釋性,效果也有了重要的進步.組合式模型注重問題解答的推理過程,但在自然圖像集上表現(xiàn)不佳.針對部分需要外部知識問題,以知識庫為基礎的模型在這部分問題的解答方面有所進步.

      2014 年~2017 年,已有多篇綜述針對視覺問答任務進行了介紹[13?16].但近幾年,視覺問答任務的研究得到了眾多關注,數(shù)據(jù)集和模型有了重要的進步.有研究發(fā)現(xiàn),視覺問答模型強烈依賴訓練集中的表面相關性,存在語言偏見的問題,即:由于訓練集中特定問題-答案對的數(shù)量占比過多,導致問題與答案存在強烈的關聯(lián),比如問題“是什么顏色”的答案一般為白色,問題“是什么運動”的答案一般為網(wǎng)球.當回答測試集中的問題時,模型會依賴訓練數(shù)據(jù)中的語言先驗得出答案,而缺乏對圖像中內(nèi)容的關注.由于訓練集和測試集中針對相同問題的答案分布相近,早期模型利用數(shù)據(jù)集的漏洞取得了很好的效果;隨著VQA 2.0數(shù)據(jù)集[17],特別是VQA-CP數(shù)據(jù)集的提出,模型的效果大幅下降.Agrawal 等人[18]的研究表明:VQA-CP 數(shù)據(jù)集相較于VQA 數(shù)據(jù)集只對其數(shù)據(jù)分布進行改變,模型的效果平均下降30%左右,如SAN 模型[19]的準確率從55.86%(VQA v1),52.02%(VQAv2)下降至26.88%(VQA-CP v1),24.96%(VQA-CPv2).這說明數(shù)據(jù)集的分布對模型的影響十分嚴重,模型的魯棒性存在一定問題.

      本文主要介紹了與視覺問答任務相關的方法模型、數(shù)據(jù)集以及評價標準,許多研究針對模型的魯棒性進行改進,本文進行了重點的介紹.本文第1 節(jié)對視覺問答任務的方法進行了總結,重點介紹了近幾年在模型魯棒性方面的研究.第2 節(jié)主要介紹了視覺問答任務相關的數(shù)據(jù)集,對于早期數(shù)據(jù)集進行比較和分析,重點介紹了近年來新提出的有關模型魯棒性的數(shù)據(jù)集.第3 節(jié)對于模型的評價標準進行了介紹.第4 節(jié)討論了視覺問答任務存在的挑戰(zhàn)和展望.

      1 模型介紹

      在過去的7 年內(nèi),國內(nèi)外研究人員提出了大量的視覺問答模型,本文將問答模型的基本解決方案總結為以下4 步:

      ?提取視覺特征(圖像特征化);

      ?提取文本特征(問題特征化);

      ?特征融合;

      ?得出答案.

      對于圖像特征的提取,早期主要采用在ImageNet[20]上預訓練的卷積神經(jīng)網(wǎng)絡直接提取圖像特征,常見的卷積神經(jīng)網(wǎng)絡模型為VGGNet[21]、ResNet[22]和GoogLeNet[23].之后,隨著注意力機制的加入,大部分研究采用將圖像分塊提取特征.Anderson 等人[24]利用目標檢測網(wǎng)絡Faster R-CNN[25]提取圖像中對象的特征,采用圖像中部分對象特征作為輸入,這是目前視覺問答任務中主流的視覺特征.對于問題的文本特征提取,方法包括單詞袋(BOW)、長短期記憶(LSTM)編碼器[26]、門控遞歸單元(GRU)[27]和跳躍思想向量[28].對于特征融合方面,大部分模型使用簡單的機制(例如串聯(lián)、逐元素乘法或逐元素加法)將圖像和問題特征進行組合.對于如何產(chǎn)生答案,針對開放式的視覺問答任務,大部分研究將視覺問答任務視為分類任務,將視覺特征和文本特征作為分類系統(tǒng)的輸入,從訓練數(shù)據(jù)中得出若干個最常見的答案,每個答案視為一個單獨的類別.對于多項選擇形式的視覺問答任務,大部分研究將其視為排名問題,訓練系統(tǒng)對每個可能的多項選擇的候選答案給出分數(shù),然后選擇最高分數(shù)的答案.

      本節(jié)的如下部分按照模型中采用的主要方法將模型分為聯(lián)合嵌入方法模型、注意力方法模型、基于組合式的方法模型、基于外部知識庫的方法模型以及魯棒性研究模型這5 個類別,分別從方法的動機、細節(jié)以及局限性這3 個方面介紹使用這些方法的模型.最后,報告了近年來提出的模型在3 個主要數(shù)據(jù)集的效果.

      1.1 聯(lián)合嵌入方法

      視覺問答任務的輸入為視覺特征和文本特征的多模態(tài)信息,需要將兩種特征映射到共同的特征空間,聯(lián)合嵌入的方法最先在圖像描述任務[7?9]中應用.視覺問答任務與圖像描述任務的輸入類似,但需要進一步推理才能得出答案.將視覺特征和文本特征映射至同一空間更有利于信息之間的交互和進一步推理答案,因此,聯(lián)合嵌入方法進一步在視覺問答任務中發(fā)展.聯(lián)合嵌入方法大多是采用卷積神經(jīng)網(wǎng)絡提取視覺特征,循環(huán)神經(jīng)網(wǎng)絡提取文本特征,將兩種特征通過簡單的機制(例如串聯(lián)、逐元素乘法或逐元素加法)組合,將組合后的特征送入線性分類器或神經(jīng)網(wǎng)絡,大致流程如圖2 所示.

      Fig.2 Framework of joint embedding methods圖2 聯(lián)合嵌入方法的框架

      在視覺問答模型中最先利用聯(lián)合嵌入方法是由Malinowski 等人[29]提出的”Neural-Image-QA”模型,模型以卷積神經(jīng)網(wǎng)絡(CNN)和長短期記憶網(wǎng)絡(LSTM)為基礎,將視覺問答任務視為結合圖像信息作為輔助的序列至序列(sequence to sequence)任務,最終生成的預測結果長度可變.首先由一個預訓練的深度卷積神經(jīng)模型提取圖片特征,然后將圖片特征和將問題詞轉化為詞向量的文本特征作為長短期記憶網(wǎng)絡的輸入,每次輸入將每個單詞和圖片特征輸入至網(wǎng)絡,直到將所有的問題特征信息輸入.用同一個長短期記憶網(wǎng)絡預測答案,直至產(chǎn)生結束符(〈END〉).模型的訓練過程是結合視覺特征的長短期記憶網(wǎng)絡的訓練以及詞向量生成器的訓練.類似的工作[9]也采用長短時記憶網(wǎng)絡生成可變長度的答案,但由于問題和答案的屬性不同(例如兩者的語法格式不同),應使用兩個獨立的長短時記憶網(wǎng)絡處理更加合理.與上述兩種生成式答案不同,Gao 等人[30]將視覺問答任務視為分類任務,將特征向量送入線性分類器,從預定義的詞匯表中生成單字答案.在此基礎上,Noh 等人[31]將CNN 的全連接層中加入了動態(tài)參數(shù)預測層.利用遞歸神經(jīng)網(wǎng)絡將問題的文本特征產(chǎn)生候選權重,根據(jù)不同的問題對視覺輸入產(chǎn)生的動態(tài)參數(shù)進行修改.

      上述方法中,特征結合的方式有點乘、點加、連接等.由于圖像和文本屬于多模態(tài)信息,有大量的工作研究如何將兩種特征進行融合.Fukui 等人[32]認為產(chǎn)生的聯(lián)合向量表達能力不夠,不足以捕捉多模態(tài)之間復雜的交互信息,因此提出多模態(tài)緊湊雙線性池化模型(multimodal compact bilinear pooling,簡稱MCB),在多模態(tài)特征融合時,使用雙線性(外積、克羅內(nèi)克積),但這會導致模型參數(shù)的數(shù)量急劇上漲.Fukui 等人通過Tensor Sketch[33]算法降維和避免直接計算外積減少模型的參數(shù),由于MCB 模型需要輸出高維度特征來保證魯棒性,所以需要大量的內(nèi)存空間,限制了其適用范圍.Kim 等人[34]提出了多模態(tài)低秩雙線性池化模型(multimodal low-rank bilinear pooling,簡稱MLB),MLB 模型是基于阿達瑪積(Hadamard product)來融合兩種特征.MLB 模型具有輸出維度相對低、模型參數(shù)較少的優(yōu)點,但是模型對超參數(shù)敏感,訓練收斂速度慢.為了使得模型具有MLB 模型輸出低維度以及MCB 模型具有魯棒性的優(yōu)點,Yu 等人[35]提出了多模態(tài)拆分雙線性池化模型(multimodal factorized bilinear pooling,簡稱MFB),將特征融合時用到的投影矩陣分解成兩個低秩矩陣,大大減少了模型的參數(shù)和輸出維度.Yu等人[36]再次改進,提出了多模態(tài)因數(shù)化高階池化模型(multi-modal factorized high-order pooling,簡稱MFH).MFH 模型是將MFB 模型中的操作分為擴張階段和緊縮階段,將MFB 模型堆疊以得到高階信息.在減少模型參數(shù)方面,Benyounes 等人[37]提出了一個多模態(tài)基于張量的塔克分解方法,用于參數(shù)化視覺和文本表示之間的雙線性交互.此外,對于塔克分解,Benyounes 等人[37]設計了一種低秩矩陣分解來限制交互的秩,可以控制融合過程的復雜度,同時保持較好的、可解釋的融合關系.Benyounes 等人[38]在此基礎上提出了基于塊超對角張量分解的雙線性超對角融合.論文中借鑒了塊項秩的概念,概括了已經(jīng)用于多峰融合張量的秩和模態(tài)秩的概念.雙線性超對角融合既能夠表示模態(tài)間的精確交互,同時還保留單模態(tài)表示.一個雙線性融合模型,其參數(shù)張量使用塊項分解來構造.

      在模型網(wǎng)絡修改方面,Kim 等人[39]受深度殘差結構的啟發(fā),提出了多模態(tài)殘差網(wǎng)絡(multimodal residual networks),在神經(jīng)網(wǎng)絡中加入多級殘差連接,使得兩個模態(tài)特征可以互相影響共同學習映射.Saito 等人[40]提出了“DualNet”整合兩種操作,即兩種模態(tài)特征元素級相加和相乘.Gao 等人[41]考慮了多種方式來進行模態(tài)融合,首先利用softmax操作和單層映射得到k組線性組合權重,權重與特征相乘后得到特征摘要向量,每個摘要向量都是單個特征的線性組合,與單個特征相比含有更高級的信息特征;將視覺摘要向量和文本摘要向量相乘得到k×k個視覺-文本摘要向量對,嘗試建模每個單獨的視覺-文本之間的關系以及在所有視覺-文本對之間傳播更高階的信息以對更復雜的關系進行建模,然后將結果相加,最后聚合信息以更新特征.

      除將問題的文本特征和視覺特征作為模型的輸入之外,Do 等人[42]發(fā)掘了三元組輸入(圖像,問題,答案)間的線性關聯(lián),輸入的增加直接導致了模態(tài)融合時參數(shù)的增加.Do 等人使用PARALIND 分解[43],有效地參數(shù)化3 種輸入間的交互.

      單純的聯(lián)合嵌入方法不足以捕捉和建模所有特征信息,聯(lián)合嵌入的過程不涉及對問題的理解以及對圖片內(nèi)容的推理,其屬于視覺問答模型的基礎部分,有很大的提升空間.由于視覺特征和文本特征中有很大部分信息對于解答問題沒有幫助,直接將兩種特征進行聯(lián)合嵌入,會因為無關的信息影響最終的分類或答案生成.

      1.2 注意力方法

      上述大部分模型是將圖片或問題提取的全部特征作為視覺問答模型的輸入,但圖片中含有大量與問題無關的信息,而問題中也存在需要重點關注的單詞,將所有的特征全部輸入最終會導致將大量噪聲輸入至分類器中,進而影響預測的準確率.注意力方法的目的是關注圖片中與問題相關的區(qū)域或者關注問題中最關鍵的詞,這一機制模擬了人腦的認知模式,即根據(jù)實際需求而將有限的注意力聚焦于事物的關鍵部分,從而大大加強了神經(jīng)網(wǎng)絡的理解能力.比如問題“圖片中汽車的顏色是什么?”,問題中“汽車”和“顏色”是關鍵詞,包含汽車的區(qū)域應該得到更多的關注.注意力方法在其他視覺領域和自然語言處理領域取得了很大的成功,比如對象識別[44]、圖像字幕[45]以及機器翻譯[46]等領域.Xu 等人[47]最先在與視覺問答任務相近的圖像字幕任務中對注意力機制進行了探索,生成字幕時重點關注圖片中的某一區(qū)域.

      1.2.1 以問題為引導的注意力方法

      早期的注意力方法是利用問題尋找圖片中與問題相關的區(qū)域,Zhu 等人[48]將注意力方法與長短期記憶網(wǎng)絡相結合,每一步將一個單詞與視覺特征作為輸入,輸出該步的注意力圖,將注意力圖與視覺特征相乘就生成了新的視覺特征.Shih 等人[49]將視覺特征與文本特征簡單相乘得到注意力權重,注意力權重的維度與視覺特征中區(qū)域的數(shù)量相等,權重的大小代表區(qū)域的重要程度,如圖3 中所示,注意力權重與視覺特征相乘后更新視覺特征.Yang 等人[19]認為視覺問答任務是一個推理的過程,單次獲得的注意力權重不能準確地回答問題.因此,Yang 等人提出了堆疊關注網(wǎng)絡模型(stacked attention network,簡稱SAN).模型通過多次迭代,不斷利用問題的文本特征獲得視覺特征區(qū)域的注意力,通過分析SAN 模型不同層的輸出,可以發(fā)現(xiàn)模型會更加關注圖片中與問題有關的部分.實驗結果表明:每次獲得視覺特征區(qū)域注意力的過程都是一次推理的過程,能夠關注更詳細的內(nèi)容.如圖4所示,經(jīng)過多次迭代,模型更加關注圖中與問題相關的區(qū)域.

      Fig.3 Framework of problem-guided attention methods圖3 以問題為引導的注意力方法的框架

      Fig.4 Visualization of the learned multiple attention layers[19]圖4 學習的多個注意力層的可視化[19]

      Patro 等人[50]認為,已有研究的注意力方法關注的區(qū)域與人類關注的圖像區(qū)域并不相關.因此,Patro 等人提出通過一個或多個支持和反對范例來取得一個微分注意力區(qū)域,語義相近的范例和遠語義范例之間存在差異,這樣的差異能夠引導注意力關注于一個特定的圖像區(qū)域.實驗證明了與基于圖像的注意力方法相比,微分注意力更接近人類的注意力.

      1.2.2 共同注意力方法

      共同注意力方法不光考慮利用文本特征獲得視覺特征的注意力,同樣考慮得到問題的注意力,即問題中哪些單詞更為重要.共同注意力模型是對稱的,通過視覺特征可以引導產(chǎn)生問題的注意力,文本特征可以引導產(chǎn)生圖片的注意力.Lu 等人[51]構建了一個層次結構,分別在單詞層面、短語層面、句子層面構建共同注意力,提出了平行共同注意力和可選共同注意力兩種構建方式:平行共同注意力是同時生成視覺注意力和文本注意力;而可選共同注意力是首先通過文本特征構建視覺注意力,利用得到的新視覺特征構建文本注意力.Nam 等人[52]認為:層次共同注意力模型[51]獨立地執(zhí)行了每一步的共同關注,而沒有對之前的共同注意力輸出進行推理.受內(nèi)存網(wǎng)絡啟發(fā),Nam 等人[52]提出通過視覺特征和文本特征共用的內(nèi)存向量迭代更新視覺特征和文本特征,內(nèi)存向量是通過將視覺特征和文本特征求和平均后分別得到視覺向量和文本向量,然后將兩個向量相乘后得到的.利用內(nèi)存向量與視覺或文本特征結合,分別生成視覺注意力和文本注意力.通過迭代的方式達到了推理的目的,進一步獲得圖片和問題的細節(jié).不同于上述的共同注意力模型,Yu 等人[35]提出了多模態(tài)分解雙線性池模型,文本注意力由問題單獨推斷,而視覺注意力的推斷由文本注意力的參與.Yu 等人認為這與人類的反應一致,人們不需要借助圖片也能抓住問題的重點.為了更好地獲得圖片中與問題有關的細節(jié),Nguyen 等人[53]提出了層級遞進的密集共同注意力的結構,其中使用了多頭注意力,生成多個注意力圖并將其平均.Yu 等人[54]提出的多層次注意力模型與之前不同的是并沒有單獨對問題求注意力,而是將注意力分成了語義注意力和上下文注意力,其中:上下文注意力為以問題為引導的視覺注意力;語義注意力是通過卷積神經(jīng)網(wǎng)絡提取圖片中的主要概念,將篩選出的概念與問題結合,形成語義概念注意力,即選出與問題相關的概念.不同于之前的方法,Wang 等人[55]提出了一種序列共同注意力方法,模型的輸入為〈問題,事實,圖像〉三元組,首先利用問題對事實進行加權,然后將加權的事實和初始問題表示相結合以指導圖像加權.然后將加權的事實和圖像區(qū)域一起用于指導問題進行加權,最后用問題和圖像的注意力權重對事實再次進行加權構成整個循環(huán).這意味著每一個注意力加權的過程都利用了其他過程的輸出.Wu 等人[56]在視覺對話的研究中同樣用到了序列共同注意力方法,其輸入為〈問題,歷史對話,圖像〉的三元組,對3 個輸入進行互相加權,最后利用對抗生成算法使得生成的答案更像人類的回答.

      共同注意方法學習了多模態(tài)實例的粗糙交互,而所學習的共同注意力不能推斷出每個圖像區(qū)域和每個問題詞之間的相關性,這導致了共同注意模型的顯著局限性.Yu 等人[57]認為,深度共同注意模型的瓶頸在于在每個模態(tài)中同時建模密集的自我注意(即問題的詞對詞關系和圖像的區(qū)域對區(qū)域關系).他們提出了模塊化共同關注網(wǎng)絡(modular co-attention networks),如圖5 所示,通過共同注意力機制更新視覺特征和文本特征.網(wǎng)絡框架的設計靈感來自于Transformer 模型[58],模型設置了兩個注意力單元,其中一個為自注意力單元進行模態(tài)內(nèi)部交互和導向注意力單元進行模態(tài)之間交互.利用一個協(xié)同注意力模塊層將兩個單元串聯(lián)起來,最后將多個模塊層串聯(lián)起來,組成MCAN 網(wǎng)絡.Gao 等人[59]認為:對視覺模態(tài)來說,每個圖像區(qū)域不應該僅獲得來自問題文本的信息,而且需要與其他圖像區(qū)域產(chǎn)生關聯(lián).比如:對于“誰在滑板上?”這樣的問題,模型應該把滑板對應的區(qū)域和滑板上方的區(qū)域關聯(lián)起來;而對文本模態(tài)來說,使各個單詞之間互相產(chǎn)生聯(lián)系有助于提高模型對問題的理解.Gao 等人[59]同時考慮了模態(tài)內(nèi)部關系和跨模態(tài)關系,分別構建了模態(tài)內(nèi)部注意力單元和跨模態(tài)注意力單元更新視覺特征和文本特征.

      Fig.5 Overall flowchart of the deep modular co-attention networks[57]圖5 深度模塊共注意網(wǎng)絡的總體流程圖[57]

      1.2.3 檢測注意力方法

      此前的圖像注意力是基于卷積神經(jīng)網(wǎng)絡特征,這相當于把圖片均等分割成若干區(qū)域,然后對其進行篩選.由于圖片的分割,難免會破壞原有的對象,比如一個對象被分割為多個區(qū)域,如圖3 中左側圖像所示.Anderson 等人[24]利用目標檢測網(wǎng)絡Faster R-CNN[25]來實現(xiàn)自底向上的注意力,將圖片分割成一個個具體的對象來進行篩選,選擇圖片中前K個提議作為視覺特征,如圖6 中左側圖像所示,通過提取圖中多個對象作為輸入視覺特征.目前的主流模型均采用自底向上注意力生成的視覺特征.自上而下注意力即問題特征與各個提議的特征連接之后,通過非線性層和線性層得到視覺注意力,視覺注意力與視覺特征相乘得到更好的特征.Teney 等人[60]在此基礎上對模型進行改進,采用多個技巧,如:分類器中使用sigmod輸出,而不是傳統(tǒng)的softmax輸出,這樣可以保證一個問題可能有多個正確答案;使用軟分數(shù)作為地面真相目標,把任務作為候選答案分數(shù)的回歸,而不是傳統(tǒng)的分類;在所有非線性層中使用門控tanh激活函數(shù);在隨機梯度下降過程中使用大量小批次和對訓練數(shù)據(jù)進行智能改組.

      Lu 等人[61]并沒有放棄原來那種基于卷積神經(jīng)網(wǎng)絡特征的開放式注意力(free-form attention),而是將開放式注意力與檢測注意力結合,形成新的共同注意力.檢測注意力作用受限于其檢測類別的廣度,如對于“今天天氣怎么樣?”這樣的問題,如果目標檢測網(wǎng)絡不檢測“天空”這個對象,則模型無法對這一問題做出準確回答.而開放式注意力就顯示出了優(yōu)勢,因此,這兩種注意力應是互補的.

      Fig.6 Overview of bottom-up and top-down attention model圖6 自底向上和自上而下注意力模型的概述

      1.2.4 關系注意力方法

      Wu 等人[62]首次提出了關系注意力的概念,現(xiàn)有的大多數(shù)工作都集中在融合圖像特征和文本特征來計算注意力分布,而不需要在不同圖像對象之間進行比較.作為關注的主要屬性,選擇性取決于不同對象之間的比較.對象間的比較提供了更多信息,能夠更好地分配注意力.對圖中對象兩兩之間的關系進行建模,再用注意力機制對這些關系進行篩選.對于比較兩個物體之間的關系,就是利用兩個物體之間的特征進行差分操作.Cadene 等人[63]認為:目前的注意力機制相當于在給定問題的前提下,對每個圖像區(qū)域打分后做信息加權.由于忽略了圖像區(qū)域間空間和語義間的關聯(lián),所以不能做到有效地推理.Cadene 等人提出了Murel 單元用于挖掘問題和圖像區(qū)域間的細粒度關聯(lián),通過區(qū)域間關系的建模達到推理的目的,最后輸出每個圖像區(qū)域上下文感知的編碼信息.如圖7 所示,通過對圖像區(qū)域間的關系建模來獲得上下文感知的嵌入特征.

      Fig.7 Overview of Murel cell[63]圖7 Murel 模塊概述[63]

      圖卷積網(wǎng)絡(graph convolutional network,簡稱GCN)是最近的研究熱點,Li 等人[64]將圖卷積網(wǎng)絡應用至視覺問答任務.Li 等人認為,對象間視覺關系可以分為3 大類:對象間的語義關系,主要體現(xiàn)為某個動作,比如孩子“吃”三明治;對象間的空間關系,主要體現(xiàn)兩個對象間的相對位置,比如孩子和三明治“相交”(圖像中的位置).以上兩種關系被稱為顯式關系,因為它們是可以被明確命名的.但還有一些關系是無法語言表達,卻對模型正確回答問題有重要幫助,稱之為隱式關系.論文中用不同的圖對3 種關系建模,針對每一種關系訓練一個關系編碼器,最終將3 個編碼器進行綜合,形成一個集成模型.

      注意力方法與聯(lián)合嵌入方法相比,顯著地提高了模型在數(shù)據(jù)集上的準確率;同時,通過分析關于圖像的注意力權重可以發(fā)現(xiàn),模型會更關注于圖像中與問題有關的區(qū)域,提供了回答問題的合理性.但是從問題類型中分析可以發(fā)現(xiàn),注意力方法對于是/否問題的回答幾乎沒有幫助.注意力方法在回答問題的過程中沒有進行推理的過程,僅僅是獲得了更準確的視覺特征或文本特征.如何將視覺特征納入推理的過程,仍需要進一步研究.

      1.3 組合方法

      上述方法中,主要是利用卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡提取特征進行融合,訓練過程缺乏具體推理的過程.而視覺問答任務本身是構成性的,比如問題“桌子上放的是什么?”,首先需要確定桌子的位置,然后需要確定桌子上方的位置,然后在桌子上方確定目標物體以及物體的類型.于是,有研究提出模塊化網(wǎng)絡解決視覺問答任務,針對不同的功能設計不同的模塊,根據(jù)不同的問題將模塊連接.模塊化網(wǎng)絡更易于監(jiān)督,同樣也提供了回答問題的可解釋性,符合人類問答問題的邏輯思路.

      Andreas 等人[65]首先將神經(jīng)模塊網(wǎng)絡應用于視覺問答任務,其結構不同于傳統(tǒng)的神經(jīng)網(wǎng)絡模型.神經(jīng)模塊網(wǎng)絡是一個整體,它是由多個模塊化網(wǎng)絡組合而成的.根據(jù)每個問題定制網(wǎng)絡模型,神經(jīng)模塊網(wǎng)絡是根據(jù)問題的語言結構動態(tài)生成的.首先,使用斯坦福大學提出的自然語言解析器[66]解析每個問題,獲得通用的依賴關系表示[67];然后,以此分析出回答問題所需要的基礎組成單元以及組成單元之間的聯(lián)系,組成最終的布局網(wǎng)絡.如圖8中所示,神經(jīng)模塊網(wǎng)絡回答“圓圈上面有紅色的形狀嗎”時的推理過程.值得一提的是:網(wǎng)絡中還使用長短期記憶網(wǎng)絡(LSTM)作為問題編碼器,目的是學習常識性知識和補充簡化后丟失的信息.Andreas 等人[68]對神經(jīng)模塊網(wǎng)絡的各個模塊進行改進,在網(wǎng)絡布局模塊中加入了增強學習,從一組自動生成的布局候選中動態(tài)選擇給定問題的最佳布局,動態(tài)地對每個實例的網(wǎng)絡結構進行學習.Hu 等人[69]認為:目前的神經(jīng)模塊網(wǎng)絡太過依賴語言解析器,并且僅限于解析器提供的模塊配置,而不是從數(shù)據(jù)中學習.于是,Hu 等人提出了端到端模塊網(wǎng)絡,通過直接預測實例特定的網(wǎng)絡布局來學習推理,而無需借助解析器.

      Fig.8 Overview of neural module networks[65]圖8 神經(jīng)模塊網(wǎng)絡概述[65]

      動態(tài)內(nèi)存網(wǎng)絡最先由Kumar 等人[70]提出,其是具有特定模塊化結構的神經(jīng)網(wǎng)絡.Xiong 等人[71]將其應用至視覺問答領域,利用卷積神經(jīng)網(wǎng)絡提取視覺特征輸入循環(huán)神經(jīng)網(wǎng)絡,將特征圖使用激活函數(shù)的線性層映射到和問題的文本特征同一空間的向量,最后使用雙向門循環(huán)單元獲取特征.動態(tài)內(nèi)存網(wǎng)絡通過對數(shù)據(jù)多個部分之間的多次交互進行建模來解決需要復雜邏輯推理的任務.Noh 等人[72]提出的RAU 模型也可以隱式執(zhí)行合成推理,而無需依賴外部語言解析器.模型使用了多個可以解決視覺問答子任務的獨立應答單元,這些應答單元以循環(huán)方式排列.

      組合式模型目前主要應用于合成圖像數(shù)據(jù)集中,在自然圖像數(shù)據(jù)集中效果比較差,依賴于語言解析器的模型主要在進行語言邏輯的推理,并沒將推理過程作用于圖像中.但組合式模型潛力巨大,提供了解決視覺問答任務的可解釋方式,這是符合人類回答問題的過程.目前的瓶頸可能在于提取的特征不足以開展推理過程,隨著深度學習的不斷進步,組合式方法可能會有著巨大的進步.

      1.4 基于外部知識的方法

      視覺問答任務是人工智能中一個非常具有挑戰(zhàn)性的任務,回答問題需要理解圖像的視覺內(nèi)容,理解視覺內(nèi)容的前提是知道一定的非視覺信息,如回答“圖中有多少只哺乳動物?”,首先需要知道圖中的動物是否屬于哺乳動物,這種問題需要借助外部知識才能夠回答.部分研究將視覺問答任務與知識庫相結合,部分數(shù)據(jù)集的提出是專門針對這類方法的研究,如KB-VQA 數(shù)據(jù)集[73]以及FVQA 數(shù)據(jù)集[74].由于訓練集中的知識是一定的,并不能完全覆蓋回答問題的全部知識,所以若想回答有難度的問題,從外部獲取知識是必要的.

      Wang 等人[73]提出了名為“Ahab”的視覺問答框架:首先,通過卷積神經(jīng)網(wǎng)絡從圖像中提取視覺概念;然后,在DBpedia 知識庫[75]內(nèi)尋找相近的節(jié)點,總結查詢的結果得出最終答案.但是“Ahab”框架需要通過設計的模板解析問題,這大大限制了能夠回答問題的種類.為了解決需要模板解析問題的限制,Wang 等人[74]在此基礎上通過長短期記憶網(wǎng)絡和數(shù)據(jù)驅動的方法學習圖像和問題到查詢的映射.Wu 等人[76]通過卷積神經(jīng)網(wǎng)絡提取語義屬性,從DBpedia 知識庫[75]中檢索與之相關的外部知識,DBpedia 知識庫中包含的簡單描述通過Doc2Vec 嵌入到固定大小的向量中.嵌入的向量被輸入到長短期記憶網(wǎng)絡模型中,然后與問題相結合,并最終生成答案.Wu 等人[77]通過提取圖像中的高級語義,將圖像內(nèi)容的內(nèi)部表示與從通用知識庫中提取的信息結合起來,特別允許詢問關于圖像內(nèi)容的問題,即使圖像本身不包含完整答案.如圖9 中所示,從知識庫(在本例中是DBpedia)和Doc2Vec 編碼的響應中挖掘知識,進一步編碼問題的表示.

      Fig.9 A VQA model with external knowledge[77]圖9 具有外部知識的VQA 模型[77]

      由于大部分問題僅需要小量的先驗知識,模型在通用數(shù)據(jù)集上的效果并不能在引入外部知識后得到顯著的提升;并且,如何準確地查找所需的知識以及將獲得的知識用于回答問題,如何得到一個合適的、可擴展的框架用于融合和自適應地選擇相關的外部知識等問題,還需要進一步研究.

      1.5 魯棒性研究

      近年來,視覺問答任務受到了廣泛的關注,提出了很多深度學習模型,在不同數(shù)據(jù)集上展現(xiàn)了很大的進步,但是目前的視覺問答模型有著許多魯棒性問題.從研究[16,30,78,79]中可以發(fā)現(xiàn),目前的視覺問答模型受訓練集表面相關性的影響很大.由于訓練集計數(shù)問題的答案中“2”的比例很高,比如回答“圖中有多少個…”的問題時,不論圖中是什么物體,答案基本上都是“2”.模型可以利用訓練集中的統(tǒng)計數(shù)據(jù),問題類型與答案相關度很高,不需考慮圖片的內(nèi)容就可以得到正確答案.從Shah 等人[80]的研究中可以發(fā)現(xiàn):目前的視覺問答模型對于問題中語言變化十分敏感,在不改變問題含義的前提下,修改問題的句子結構或者增刪某個單詞,模型給出的答案隨之改變.Zhang 等人[79]通過研究視覺問答模型對圖像中有意義的語義變化的魯棒性,分析了視覺問答模型中視覺的重要程度.Xu 等人[81]的研究表明:盡管使用了先進的注意力機制,但很容易用圖像中很小的變化來欺騙視覺問答模型.Agrawal 等人[82]研究了視覺問答模型對訓練和測試環(huán)境中答案分布變化的魯棒性.

      為了避免受數(shù)據(jù)集的表面相關性影響,有研究在改進數(shù)據(jù)集方面進行努力,創(chuàng)建更平衡的數(shù)據(jù)集.Zhang 等人[79]對所有二元問題收集了具有相反答案的互補抽象場景.Goyal 等人[17]把這個想法擴展到真實的圖像和所有類型的問題.VQA v2 數(shù)據(jù)集[17]平衡答案分布,使每個問題至少存在兩個答案不同的相似圖像.VQA-CP v2 數(shù)據(jù)集[18]將VQA v2 數(shù)據(jù)集進行診斷重構,其中,訓練集中的問題答案分布與測試集中的明顯不同,這可以避免視覺問答模型利用訓練集中的偏見.

      有的研究在改進模型方面進行努力,大部分的方法采用引入另一個只將問題作為輸入的分支,如圖10 右側中所示.Chen 等人[83]將模型的改進分為兩類.

      (1) 基于對抗的方式

      Ramakrishnan 等人[18]將對抗性規(guī)則化(AdvReg)應用至視覺問答任務中,其引入了一個只考慮問題的模型,模型將視覺問答模型中的問題編碼作為輸入.將訓練的過程視為視覺問答模型和只含有問題作為輸入的模型進行對抗——阻止視覺問答模型在其問題編碼中捕捉語言偏見.同時引入置信度量化,訓練過程使得在考慮圖像之后,模型置信度增加,通過顯式地最大化兩個模型之間的置信度差異,以鼓勵模型重視視覺基礎.Grand 等人[84]研究了對抗性規(guī)則化的優(yōu)缺點,其可能產(chǎn)生不穩(wěn)定的梯度和在域內(nèi)示例上的性能急劇下降.在訓練過程中逐步引入正則化,有助于減輕這些問題.AdvReg 提高了對二元問題的泛化能力,但降低了對異質(zhì)答案分布問題的性能.正則化模型往往過度依賴視覺特征,而忽略了問題中重要的語言線索.Belinkov 等人[85]在自然語言推理(natural language inference)任務上采用了相似的對抗策略,基準模型采用假設和前提來預測標簽,而采用對抗策略的模型加入了只采用假設的分類器,或者針對一個假設隨機采用一個前提進行訓練.但是在Grand 等人[84]的研究中顯示:對抗性訓練方法給梯度帶來了很大的噪聲,導致訓練過程不穩(wěn)定,可能導致性能的嚴重下降,引入正規(guī)化有助于緩解但不能完全解決這些問題.

      (2) 基于融合的方式

      基于融合的方式是將兩個分支預測答案的分布在最后進行融合,并基于融合的答案分布導出訓練梯度.基于融合方法的設計思想是,讓目標視覺問答模型更多地關注于不能被只考慮問題模型正確回答的樣本.Cadene等人[86]提出了RUBi 訓練策略,通過將只考慮問題模型的預測答案分布經(jīng)過sigmod操作之后視為掩碼,然后將其與視覺問答模型的預測答案分布相乘.如圖10 所示,通過RUBi 策略對現(xiàn)有模型進行語言去偏,若需要問答的問題存在嚴重的偏見,將掩碼與視覺問答模型的預測答案分布相乘之后的損失會很小,則這個樣本不會對模型的參數(shù)有很大改變;若需要回答問題的答案不常見,即通過只考慮問答模型得到的答案分布與視覺問答模型得到的答案分布差距很大,兩者相乘之后的損失會很大,于是模型會更重視這個訓練樣本,對模型參數(shù)的影響也會很大.RUbi 策略使得模型更重視偏見更小的訓練樣本.Clark 等人[87]提出的方法分為兩步:第1 步訓練一個帶有偏見的模型,模型在訓練集表現(xiàn)好,但是在這范圍之外表現(xiàn)差;第2 步再訓練一個模型集成帶偏見的模型,在測試集上只用第2 個模型.具體實現(xiàn)中采用了答案分布中的偏見,給每個類型的問題出現(xiàn)的答案打分,每個類型的分數(shù)作為該候選答案的偏見,將偏見與模型的損失結合,達到減少訓練過程中的損失,通過懲罰項使得模型對偏見高的答案關注更少.Mahabadi 等人[88]介紹了3 種減少偏見的策略:第1 種為直接將兩個分支模型的預測答案分布相乘;第2 種為RUBi 策略并提供了修改sigmod操作的兩種變體,即RUBi+對數(shù)操作和RUBi+標準化;第3 種為修改模型的損失函數(shù)減少帶有偏見樣本的重要性,使模型更加關注回答難度高的樣本.

      Fig.10 Detailed illustration of the RUBi impact on the learning[86]圖10 RUBi 對學習影響的詳細圖示[86]

      除增加分支對模型進行改進外,Wu 等人[89]在研究中發(fā)現(xiàn):視覺問答模型被鼓勵關注人類認為重要的圖片區(qū)域,即使當視覺問答模型產(chǎn)生了錯誤的答案,也會關注重要的區(qū)域.當出現(xiàn)這種現(xiàn)象時,模型并不會糾正.論文中提出了一種“自我批評”的方法,直接批評不正確的答案對重要區(qū)域的敏感性.對于每個問答對,首先確定最影響模型預測正確答案的區(qū)域.當模型對這個問題的預測答案是錯誤的時候,懲罰它對這個區(qū)域的關注,保證了正確答案與其他答案相比更關注重要的區(qū)域.

      但上述方法不能同時增加視覺問答模型的視覺可解釋性和問題敏感度,模型應該更加注意與問題更相關的視覺區(qū)域,也就是針對正確的區(qū)域做出決定.模型應該對所討論的語言變化敏感,也就是說應該注意問題的敏感詞(重要的詞),當敏感詞變化的時候,得到的答案應該變化,模型的處理也應該有變化.Chen 等人[83]提出了與模型無關的反事實樣本合成(CSS)訓練策略.CSS 由兩種不同的樣本合成機制組成:V-CSS 和Q-CSS.對于V-CSS,它通過掩蓋原始圖像中的關鍵對象來合成反事實圖像.意味著這些對象對于回答某個問題很重要.然后,反事實圖像和原始問題組成了一個新的圖像問題對.對于Q-CSS,它通過使用特殊標記“[MASK]”替換原始問題中的關鍵單詞來合成反事實問題.同樣,反事實問題和原始圖像構成了新的視覺問題對.針對新生成的樣本對采用動態(tài)答案分配機制構成完整的三元組樣本.通過數(shù)據(jù)擴增,視覺問答模型被迫專注于所有關鍵對象和單詞,從而顯著提高了視覺可解釋性和問題敏感性能力.

      目前的視覺問答模型還有其他魯棒性問題,如回答有關于圖片中文本問題的準確率不高.Singh 等人[90]為了進一步研究回答有關圖片中文本的問題,提出了TextQA 數(shù)據(jù)集,TextQA 數(shù)據(jù)集中所有問題都需要對圖片中的文本進行推理才能回答.同時提出了一個新的模型結構,在模型中加入了光學字符識別(optical character recognition)模塊,它可以讀取圖像中的文本,模型可以在圖像和問題的上下文中推理讀取的文本,最終答案可以是通過文本和圖像推理得到的答案或通過光學字符識別得到的文本.Biten 等人[91]同年提出了ST-VQA 數(shù)據(jù)集,旨在強調(diào)在視覺問答過程中,利用圖像中的高級語義信息作為回答關于文本問題的重要線索.論文中將傳統(tǒng)視覺問答模型與場景文本檢索(scene text retrieval)模型結合,將生成最可信的字符的金字塔狀直方圖(PHOC)特征與視覺特征連接.

      視覺問答模型存在對問題敏感度高的魯棒性問題,Shah 等人[80]針對這個問題提出了VQA-Rephrasings 數(shù)據(jù)集,數(shù)據(jù)集中的每個問題有另外3 個含義相同但句式等其他方面存在不同的改述問題.論文中提出了周期一致性的訓練策略,該策略借鑒了Cycle-GAN[92]的思想,首先通過視覺問答模型給出問題答案,通過答案生成原始問題的改述問題,視覺問答將改述問題作為輸入得到新的答案.整個訓練過程是縮小原始問題和改述問題之間、真實答案與兩次生成的答案之間的損失,使得模型更加健壯,模型能針對相同含義的問題給出相同答案.

      當前的視覺問答模型回答有關計數(shù)問題與其他類型問題相比準確率不高,Zhang 等人[93]提出造成計數(shù)類問題表現(xiàn)不佳的原因主要有:(1) 軟注意力(soft-attention)的廣泛運用;(2) 區(qū)別于標準的計數(shù)問題,對于視覺問答任務來說,沒有明確的標簽標定需要計數(shù)對象的位置;(3) 視覺問答模型的復雜性表現(xiàn)在不僅要處理計數(shù)類問題,同時還要兼顧其他復雜的問題;(4) 真實場景中,對某個對象區(qū)域可能存在多次重疊采樣.論文中將相關的建議對象描述成點,對象間的內(nèi)部與外部關系描述成邊,最終形成圖,通過設計策略取消重復采樣對象內(nèi)部和減半與其他對象之間的邊,最終對象數(shù)量等于邊數(shù)量的算術平方根.Acharya 等人[94]提出了世界上最大的開放式計數(shù)數(shù)據(jù)集TallyQA 數(shù)據(jù)集[94],目前的數(shù)據(jù)集記數(shù)問題相對簡單只需要對象檢測,而TallyQA 數(shù)據(jù)集中的問題屬于復雜計數(shù)問題,只通過對象檢測無法回答.論文中提出了新的計數(shù)方式——關系計數(shù)網(wǎng)絡(RCN),其受到關系網(wǎng)絡的啟發(fā),通過修改處理動態(tài)數(shù)量的圖像區(qū)域并顯式地合并背景信息,可以推斷對象與背景圖像區(qū)域之間的關系.

      Shrestha 等人[95]提出:視覺問答模型并不能兼容自然圖像的理解和合成數(shù)據(jù)集的推理,大部分模型在這兩個領域不具有泛化能力.他們提出了通過將視覺特征和文本特征兩次融合,在自然圖像數(shù)據(jù)集和合成數(shù)據(jù)集上均得到了良好的效果.實驗結果表明,第1 次融合比較重要,若無第1 次特征融合,模型的效果會下降約4%.

      視覺問答模型的魯棒性研究是近幾年的研究熱點,由于問題類型的復雜性,模型不能兼顧所有類型的問題.數(shù)據(jù)集中答案的分布使得模型能夠利用語言相關性正確地回答問題,但是其泛化能力差.大部分避免模型利用語言相關性的方法均是引入一個僅考慮問題的分支,但是仍未從根本上解決問題,目前的模型在VQA-CP 數(shù)據(jù)集上的準確率仍然很低.針對其他魯棒性問題,比如有關于圖片中文本的問題依賴于光學字符識別模塊.計數(shù)問題是所有類型中最困難的一種問題,當前最有效的方法是將圖中的對象和對象間的關系視為圖,模型的準確率與目標檢測的準確率有關.模型對于問題過于敏感表明模型對于問題并沒有真正地理解,仍需要大量數(shù)據(jù)訓練網(wǎng)絡.模型對于自然圖像和合成圖像之間的泛化能力差的主要原因是自然圖像中的信息過于復雜,目前的特征表示能力不足以對其進行推理.

      1.6 模型效果介紹

      表1~表3 介紹了近年來大部分最先進的模型在各個數(shù)據(jù)集上表現(xiàn),并且介紹了模型使用的方法以及使用的視覺和文本特征.大部分模型使用了注意力方法,所有模型采用自底向上注意力得到的視覺特征,答案的生成方式均為分類.表1 中,VQA 2.0 數(shù)據(jù)集含有驗證測試集和標準測試集,模型在標準測試集上的效果略好于驗證測試集.表2 中,目前的模型在VQA-CP 數(shù)據(jù)集上的效果欠佳,仍需要進一步的提高.表3 中報告了各個模型在TDIUC 數(shù)據(jù)集上的整體準確率(All)、每一類型準確率的算術均值(A-MPT)以及每一類型準確率的調(diào)和均值(H-MPT).

      Table 1 State-of-the-art comparison on the VQA 2.0 dataset表1 數(shù)據(jù)集VQA 2.0 的最新比較

      Table 2 State-of-the-art comparison on the VQA-CP dataset表2 數(shù)據(jù)集VQA-CP 的最新比較

      Table 3 State-of-the-art comparison on the TDIUC dataset表3 數(shù)據(jù)集TDIUC 的最新比較

      2 數(shù)據(jù)集介紹

      自從視覺問答任務被提出,大量數(shù)據(jù)集隨之出現(xiàn).視覺問答數(shù)據(jù)集的一般形式為〈圖像,問題,答案〉的三元組,部分數(shù)據(jù)集還帶有關于圖像的注釋.2014 年~2016 年,主要有6 個包含自然圖像的數(shù)據(jù)集:DAQUAR 數(shù)據(jù)集[98]、COCO-QA 數(shù)據(jù)集[99]、FM-IQA 數(shù)據(jù)集[30]、VQA 數(shù)據(jù)集[100]、Visual7W 數(shù)據(jù)集[48]、Visual Genome 數(shù)據(jù)集[33].由于上述數(shù)據(jù)集已在綜述[5,6]中詳細介紹,在此便不多贅述,只對上述數(shù)據(jù)集存在的問題進行總結.下文主要詳細介紹經(jīng)過數(shù)據(jù)分布平衡的VQA-CP 數(shù)據(jù)集[82]、研究圖像文本的TextVQA 數(shù)據(jù)集[90]、研究模型魯棒性的VQA-Rephrasings 數(shù)據(jù)集[80]、研究復雜計數(shù)問題的TallyQA 數(shù)據(jù)集[94]以及研究模型可解釋性的VQA-X 數(shù)據(jù)集[101].

      2.1 早期數(shù)據(jù)集分析

      上述數(shù)據(jù)集都有其局限性,比如:DAQUAR 數(shù)據(jù)集和COCO-QA 數(shù)據(jù)集在數(shù)據(jù)規(guī)模上比較小;DAQUAR 數(shù)據(jù)集中的圖片比較雜亂,提出的問題難以回答,即使是人類回答的準確率也只有50.2%;COCO-QA 數(shù)據(jù)集中的問題是由圖片的注釋自動生成的,存在高重復率的現(xiàn)象,難以支撐模型的訓練和評價.相比較而言,Visual Genome 數(shù)據(jù)集、Visual7W 數(shù)據(jù)集和COCO-VQA 數(shù)據(jù)集比較大,但是卻存在一定的偏見,偏見既存在于針對圖片的問題中,也存在于給出的答案中.在文獻[102]中可以看到,僅將問題的特征輸入模型進行訓練就可以得到約50%的準確率,這說明數(shù)據(jù)集中答案的分布不均衡.COCO-VQA 中以“是否存在一個”為開頭的問題,79%的答案是“是”.Visual Genome 數(shù)據(jù)集中的問題一部分是關于圖像整體內(nèi)容的問題,這可能導致提問中的偏見.

      為了減少數(shù)據(jù)分布對模型的影響,Goyal 等人[17]在2017 年提出了VQA 2.0 數(shù)據(jù)集.與VQA 1.0 數(shù)據(jù)集相比,VQA 2.0 數(shù)據(jù)集規(guī)模更大,并且主要解決了答案不平衡的問題,針對兩張不同的圖像提問相同的問題,并且盡量使得到的答案相反.但是VQA 2.0 數(shù)據(jù)集仍存在答案分布問題,訓練集和測試集的答案分布相似,模型可以利用答案分布帶來的偏見得到較高的準確率,降低了模型的泛化性.

      由于評價指標存在的偏見,模型之間的性能比較不透明.Kafle 等人[14]提出了TDIUC 數(shù)據(jù)集,將問題劃分為12 種類型,分別為“是否有對象”“對象種類識別”“計數(shù)”“顏色”“其他屬性”“動作識別”“體育活動識別”“位置推理”“場景分類”“情緒理解”“用途”“錯誤”.TDIUC 數(shù)據(jù)集可以衡量視覺問答模型在每個類別中的性能,識別哪種問題是容易的還是困難的.為了進一步減少數(shù)據(jù)集中偏見的影響,分別計算了12 種問題類型的準確性,同時計算最終的統(tǒng)一精度指標.總體指標是每個問題類型準確性的算術均值和調(diào)和均值,分別稱為算術平均類型準確性和調(diào)和平均類型準確性.與算術平均類型準確性不同,調(diào)和平均類型準確性衡量系統(tǒng)在所有問題類型上均具有高分并偏向性能最低的類別的能力.

      為了研究視覺問答模型的推理能力,有研究提出了SHAPES 數(shù)據(jù)集[65]和CLEVR 數(shù)據(jù)集[102],通過強調(diào)理解多個對象之間的空間和邏輯關系.這是對自然圖像數(shù)據(jù)集的補充,在此之前的數(shù)據(jù)集中的圖像均為自然圖像,其中的問題不能衡量模型的推理能力.SHAPES 數(shù)據(jù)集由244 個獨特的問題組成,每個問題都與數(shù)據(jù)集中的64 幅圖像有關.所有問題都是二元的,答案為是或否.SHAPES 數(shù)據(jù)集中所有圖像均為2D 形狀,不能代表真實世界的圖像.CLEVR 數(shù)據(jù)集使用3D 渲染的幾何對象,數(shù)據(jù)集規(guī)模比SHAPES 數(shù)據(jù)集規(guī)模大,包括10 萬張圖像和864 968 個問題.CLEVR 數(shù)據(jù)集中的問題測試了視覺推理的各個方面,包括屬性標識、計數(shù)、比較、空間關系和邏輯運算.但SHAPES 數(shù)據(jù)集和CLEVR 數(shù)據(jù)集低估了視覺推理的重要性,相比較而言,模型在回答問題時更注重語言推理能力,比如回答“大球面左邊的棕色金屬物體左邊的圓柱體的大小是多少?”需要嚴苛的語言推理能力,而對于視覺推理能力則有限.

      上述討論的數(shù)據(jù)集的大多是純視覺問題和常識性問題,幾乎沒有需要“知識庫級”的問題.為了更深入研究使用外部知識庫的視覺問答的模型,有研究提出了KB-VQA 數(shù)據(jù)集[73]和FVQA 數(shù)據(jù)集[74].KB-VQA 數(shù)據(jù)集包含需要DBpedia 中特定主題知識的問題,從COCO 圖像數(shù)據(jù)集[103]中收集了700 幅圖像,每幅圖像收集3 到5 個問題-答案對,共2 402 個問題.每個問題需要不同層次的知識,從常識到百科全書知識.FVQA 數(shù)據(jù)集僅包含涉及外部(非可視)信息的問題.數(shù)據(jù)集包含與580 個視覺概念(234 個對象、205 個場景和141 個屬性)有關的193 005個候選支持事實,總共有4 608 個問題.FVQA 數(shù)據(jù)集在每個問題/答案中都包含一個支持的事實(外部知識).

      2.2 VQA-CP數(shù)據(jù)集

      目前,數(shù)據(jù)集中存在訓練集強語言相關性的問題,比如回答“香蕉是什么顏色的?”,回答通常是“黃色”,而這種情況導致模型不需要查看圖片的內(nèi)容就可以回答這類問題.出現(xiàn)這種情況的一個原因是訓練集和測試集有著相似的數(shù)據(jù)分布,模型會根據(jù)在訓練集中產(chǎn)生的固有記憶偏差,忽略圖像的內(nèi)容,而在測試集中還能得到可觀的性能.

      針對訓練集強語言優(yōu)先級的問題,Aishwarya 等人[82]對數(shù)據(jù)集VQA v1 和VQA v2 重新劃分,分別得到了VQA-CP v1 和VQA-CP v2 數(shù)據(jù)集,使得每個類型問題的答案分布在訓練集和測試集之間是不同的.比如“什么運動?”這類問題,在訓練集中最常見的答案是網(wǎng)球,而在測試集卻是滑冰.通過對問題類型和答案類型的重新劃分,能夠減少在測試時依賴訓練過程中產(chǎn)生的語言偏見.

      在VQA-CP 數(shù)據(jù)集中,測試集覆蓋了絕大部分訓練集中出現(xiàn)的概念,覆蓋率在VQA-CP v1 中是98.04%,VQA-CP v2 是99.01%.VQA-CP v1 的訓練集前1 000 個答案中,測試集答案的覆蓋率為95.07%(VQA-CP v2 為95.72%),VQA-CP v1 訓練集由118K 張圖像、245K 個問題和2.5M 個答案組成(VQA-CP v2 訓練集由121K 幅圖像、438K 個問題和4.4M 個答案組成).VQA-CP v1 測驗集由87K 幅圖像、125K 個問題和13M 個答案組成(VQA-CP v2 測試集的98K 幅圖像、220K 個問題和22M 個答案).Aishwarya 等人[82]報告了基線模型和現(xiàn)有視覺問答模型在VQA-CP v1 和VQA-CP v2 訓練分割上的性能,幾乎所有模型都出現(xiàn)了性能的大幅下降,這證明了之前的視覺問答模型利用了訓練集的語言優(yōu)先級.

      2.3 TextVQA數(shù)據(jù)集

      當前提出的視覺問答模型對于回答有關于圖像文本問題的準確率很低,為了促進這類問題的研究,Singh 等人[90]提出了TextVQA 數(shù)據(jù)集.TextVQA 要求模型閱讀并推理圖像中的文本,以回答關于它們的問題.具體來說,模型需要合并圖像中出現(xiàn)的一種新的文本形式并對其進行推理,以回答TextVQA 數(shù)據(jù)集中問題.其采用了Open Images v3 數(shù)據(jù)集內(nèi)的圖像,選取的圖像中包含文本(如廣告牌、交通標志等),每個類別選取100 幅圖像.使用OCR 模型Rosetta[104]計算圖像中的OCR 盒的數(shù)量,將每個類別的OCR 盒子的平均數(shù)量歸一化,并用作每個類別的權重,以從類別中采樣圖像.從Open Images v3 數(shù)據(jù)集的訓練集中采樣得到TextVQA 數(shù)據(jù)集的訓練集和驗證集,從Open Images v3 數(shù)據(jù)集的測試集采樣得到TextVQA 的測試集.每張圖像有1~2 個問題,每個問題由10名注釋者給出答案.數(shù)據(jù)集共包含45 336 個問題,其中,37 912 個問題是唯一的.TextVQA v0.51 中訓練集包括34 602 個問題、21 953 幅圖像;驗證集包括5 000 個問題、3 166 幅圖像;測試集包括5 734 個問題、3 289 幅圖像.

      2.4 VQA-Rephrasings數(shù)據(jù)集

      目前的視覺問答模型的魯棒性不強,對于同一問題的不同表述,模型會給出不同的答案.為了進一步研究模型一致性和魯棒性,提出了VQA-Rephrasings 數(shù)據(jù)集[80].VQA-Rephrasings 數(shù)據(jù)集來自于VQA v2 的驗證數(shù)據(jù)集,其是對關于4 萬張圖的4 萬個問題的改述生成的.這是首個能夠進行一致性和魯棒性視覺問答模型評估的數(shù)據(jù)集.數(shù)據(jù)集一共包含了214 354 個問題和40 504 張圖片,隨機采樣了40 504 個問題構成采樣子集.作者用兩階段的方式對每個問題用人工標注的方式生成3 個改寫問題.

      ?第1 階段,根據(jù)原始的問題-答案對改寫問題,改寫后的問題回答要與原始答案一致.

      ?第2 階段,對第1 階段的問題進行語法和語義檢查,不合規(guī)范的拋棄.

      最后獲得了162 016 個問題(包括改寫的121 512 個和原始的40 504 個)和40 504 張圖片,平均每張圖片對應約3 個改寫問題.

      2.5 TallyQA數(shù)據(jù)集

      回答計數(shù)問題對于當前的視覺問答模型來說是一個嚴峻的挑戰(zhàn),但是當前存在的綜合數(shù)據(jù)集的計數(shù)問題占比并不高,例如COCO-QA 數(shù)據(jù)集[99]中約占7%,VQA v1 數(shù)據(jù)集[100]中約占10%,VQA v2 數(shù)據(jù)集[17]約占10%以及TDIUC 數(shù)據(jù)集[4]約占20%.還有一些針對計數(shù)任務的VQA 數(shù)據(jù)集如CountQA 數(shù)據(jù)集[105]和HowMany-QA數(shù)據(jù)集[106]的規(guī)模并不大,并且上述數(shù)據(jù)集中很少有復雜的計數(shù)問題.簡單的問題可以只用一個目標檢測算法來解決,因此不能恰當?shù)販y試系統(tǒng)回答任意計數(shù)問題的能力,包括那些需要推理或屬性識別的問題.

      Acharya 等人[94]提出了新的數(shù)據(jù)集TallyQA,旨在評估簡單和復雜的計數(shù)問題,使計數(shù)問題和其他問題得到準確的衡量.Acharya 等人使用Amazon Mechanical Turk(AMT)收集新的復雜問題,并從其他數(shù)據(jù)集中導入簡單和復雜問題.數(shù)據(jù)集的具體情況見表4.

      Table 4 Number of questions and images in the TallyQA dataset表4 TallyQA 數(shù)據(jù)集中問題和圖像的數(shù)量

      2.6 VQA-X數(shù)據(jù)集

      深度學習的可解釋性是當前的研究熱點和難點,視覺問答模型的可解釋性同樣是研究的難點.人類回答問題時是基于一定的事實,我們希望視覺問答模型得出答案同樣是基于圖像中事實或其他知識.為了研究視覺問答模型的可解釋性,Huk 等人[101]提出了VQA-X 數(shù)據(jù)集,其是在VQA 數(shù)據(jù)集上得到.根據(jù)Zitnick 等人[107]收集的注釋,其中含有回答問題的年齡限制,Huk 等人選擇9 歲及9 歲以上才能回答的問題.此外,Huk 等人還考慮了VQA v2 數(shù)據(jù)集的互補對[17].互補對由一個問題和能夠給出兩個不同答案的兩個相似圖像組成.互補對能幫助理解解釋模型是根據(jù)圖像內(nèi)容來給出解釋,還是僅僅根據(jù)特定的問題類型記憶要考慮的內(nèi)容.訓練集中每一個問題答案對有一個文本解釋,訓練/測試集的每個問題答案對有3 個文本解釋.

      3 評價標準

      對于多項選擇形式的視覺問答任務,算法得出的答案與正確答案容易比較;但開放式的視覺問答任務得出的答案通常為一個或多個單詞,與圖像字幕任務類似,難以對準確性進行評價.若將算法得出的答案與正確答案完全匹配則準確性過于嚴格,因為錯誤答案之間仍有嚴重程度之分,比如將得出的答案因為單復數(shù)的差別而判斷為錯誤答案,與得出完全不相關的答案的懲罰程度相同則不太合適.而同一問題可能有多種合適的答案,比如問題“天空中正在飛的是什么?”,正確答案為“bird”,而回答“jay”或“fowl”與其意思相近.因此,有的研究提出了多種準確性評估的替代方法.

      Malinowski 等人[98]提出兩種方法進行模型準確性評價:一種是將預測答案與正確答案進行字符串匹配來確定最終的準確性;第2 種是使用WUPS[108]計算預測答案與正確答案在分類樹中公共子序列之間的相似性,當兩者的相似度超過一定的閾值后,可以判定為正確.比如“禿鷹”和“鷹”的相似度為0.96,而“禿鷹”和“鳥”的相似度為0.88.若設定閾值為0.85,則上述答案均可視為正確答案.WUPS 度量的方法是評估DAQUAR 數(shù)據(jù)集和CoCo-QA 數(shù)據(jù)集的標準度量,但是WUPS 度量對于某些詞在詞匯上非常相似,但含義卻大相徑庭給出相似的分數(shù),并且其只適用于嚴格的語義概念,這些概念幾乎都是單個單詞,不能評價短語或句子答案.VQA 數(shù)據(jù)集[78]中的答案由注釋者給出10 個答案,VQA 數(shù)據(jù)集的準確性度量標準由下式確定:

      其中,n為預測答案與注釋者給出答案相同的數(shù)量.換言之,如果預測答案至少與3 個注釋者提供的答案相同,則認為預測答案是100%準確的.這種度量方式為大部分研究者所采用,但是其仍有其局限性,注釋者針對同一問題給出的答案不盡相同,甚至有的答案含義相反,COCO-VQA 數(shù)據(jù)集中的注釋者擁有共識的問題占比僅為83.3%.其中,超過59%的問題中,只有不到3 個注釋者給出完全相同的答案,這使得無法在這些問題上獲得滿分.并且當遇到答案為單個單詞時,正確答案的可能性會大大增加.注釋者對答案的描述,同樣影響最終的準確率.

      在VQA 數(shù)據(jù)集中,問題類型和答案的分布偏斜.比如在“是/否”問題中,71%的問題的答案為“是”,如果每個測試問題都得到同等對待,則很難評估在較罕見的問題類型上的表現(xiàn)并彌補偏差.Kafle 等人[14]提出了多種措施來補償偏差和偏斜分布.由于TDIUC 數(shù)據(jù)集[14]的問題分為12 種類型,分別計算了12 種問題類型的準確性.目前,大部分研究將問題類型分為計數(shù)、是/否以及其他這3 類.總體指標是每個問題類型的所有準確性的算術或調(diào)和均值,調(diào)和均值衡量標準具有在所有問題類型上均具有高分并偏向性能最低的類別的能力.使用歸一化的指標對問題類型內(nèi)答案分布不平衡補償偏差,計算每個唯一答案的準確性,然后將其平均化為問題類型的準確率.若模型未歸一化的分數(shù)與歸一化的分數(shù)之間存在巨大差異,說明該模型無法推廣到更稀有的答案.

      4 挑戰(zhàn)和展望

      視覺問答任務是計算機視覺領域一個非常嚴峻的挑戰(zhàn),其擁有非常廣泛的應用前景.盡管近幾年視覺問答任務發(fā)展迅速,各種通用數(shù)據(jù)集或某一特定問題的數(shù)據(jù)集被不斷提出,然而目前的視覺問答模型尚不能實現(xiàn)真正意義上的問答,不能夠與人類進行良好的互動,其仍需要不斷地進行研究.總的來說,目前的視覺問答任務仍處于一個起步階段,各個方面還存在著諸多問題和挑戰(zhàn).比如:

      (1) 特征表示能力不足

      視覺問答模型的輸入特征在提取的過程將圖像和文本信息的部分信息丟失,目前的視覺特征和文本特征不足以進行問題回答的推理,這依賴于日后得到更好的特征提取和特征表示方法的出現(xiàn).目前,傳統(tǒng)的特征融合方法過于簡單,日后需研究如何將視覺特征和文本特征更好地進行融合,使得融合后的特征含有更豐富的信息.目前的特征融合后得到的特征一般用來作為分類器的輸入,日后的工作應更好地建立融合后特征與答案之間的關聯(lián).

      (2) 模型評估能力不足

      當前,大部分研究將視覺問答任務視為多分類任務,但多分類任務只能得到訓練集中出現(xiàn)過的答案,這不符合人工智能的最終目標.生成式答案則更符合正常的邏輯,但其受限于答案的評估,目前的方法尚不能準確地評估預測答案是否與地標答案一致.其中,句子答案中存在語義、語法等問題,需要更加準確的評價標準對生成式視覺問答任務進行評估.

      (3) 模型推理能力不足

      當前,大部分視覺問答模型著力在得到更好的視覺和文本特征,缺乏根據(jù)問題對圖片內(nèi)容進行推理的能力,組合式模型在自然圖像上表現(xiàn)仍不盡人意,不能將自然圖像轉化成推理的過程.雖然注意力機制能使模型更加關注某一重要區(qū)域或單詞,但是模型在推理方面仍缺乏可解釋性.

      (4) 模型的魯棒性與泛化能力不足

      近年來,許多研究集中在如何消除視覺問答模型的語言相關性,消融研究[11,92]顯示,僅問題模型的性能比僅圖像模型好得多.這表明模型更傾向于利用文本信息回答問題.由于視覺問答數(shù)據(jù)集存在偏見,模型會利用數(shù)據(jù)集分布偏見達到很好的效果,但這導致訓練集與測試集的結果有很大差異,模型的魯棒性和泛化能力需要進一步提高,消除模型的表面相關性是實現(xiàn)這一目標的重要步驟.

      因此,未來的研究工作可以從以下方面展開.

      (1) 構建更全面均衡的數(shù)據(jù)集

      當前的通用數(shù)據(jù)集在衡量各項能力時并不均衡,比如有關于圖像中文本、計數(shù)等問題在通用數(shù)據(jù)集中的比例不高.不均衡的數(shù)據(jù)集并不能準確地衡量視覺問答模型的能力.同時,當前針對模型的評價標準仍需要提高,進一步研究對于生成式答案的視覺問答模型的評價標準.

      (2) 提高模型的可解釋性

      當人類回答問題時,會根據(jù)問題進行推理,尋找可以支持答案的證據(jù).在構建數(shù)據(jù)集時加入支持證據(jù),讓模型在每一次預測時提供回答問題的支持證據(jù),基于VQA-X 數(shù)據(jù)集進一步提高模型的可解釋性,將目前注意力方法中的注意力權重可以著重表示重要區(qū)域的方式與文本解釋相結合,研究模型給出更合理的解釋方式,這也是未來的研究方向.

      (3) 提高模型的魯棒性和泛化能力

      首先應盡力消減數(shù)據(jù)集中存在的各種偏見問題,答案分布應更加合理,使得模型無法利用數(shù)據(jù)集中的偏見不經(jīng)過推理得到問題的答案.在模型方面,多種方法應結合發(fā)展,將組合式方法和注意力方法結合應用.若視覺問答模型需要回答全部的問題,視覺回答模型必然要考慮利用外部知識.

      5 結束語

      本文總結了視覺問答的研究現(xiàn)狀,介紹了當前主要的數(shù)據(jù)集,分析了目前數(shù)據(jù)集存在的偏見.總結目前主流的模型方法,聯(lián)合嵌入方法幾乎是所有模型方法的基礎,注意力方法幫助模型更加關注圖像中某部分區(qū)域或問題中重要的單詞.組合方法和圖結構使模型更加注重推理的過程,符合人類回答問題的邏輯.外部知識使得模型能夠回答更加復雜的問題.部分研究針對模型存在的各種魯棒性問題,如語言偏見、軟注意力導致計數(shù)困難、有關圖片中的文本問題回答困難等.除此之外,我們認為,目前的視覺問答模型的瓶頸在于提取的特征不足以回答問題.相信:隨著各個計算機視覺任務的不斷發(fā)展,視覺問答任務的目標一定會實現(xiàn).

      猜你喜歡
      注意力特征文本
      讓注意力“飛”回來
      如何表達“特征”
      在808DA上文本顯示的改善
      不忠誠的四個特征
      當代陜西(2019年10期)2019-06-03 10:12:04
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      抓住特征巧觀察
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
      如何快速走進文本
      語文知識(2014年1期)2014-02-28 21:59:13
      忻城县| 常德市| 定西市| 洪江市| 贡觉县| 都匀市| 密云县| 嘉义市| 扎鲁特旗| 湘潭市| 资源县| 阳春市| 察雅县| 屏山县| 仁化县| 独山县| 永善县| 上思县| 许昌市| 尉氏县| 闽清县| 称多县| 屏山县| 望江县| 故城县| 册亨县| 德庆县| 富阳市| 岳普湖县| 莎车县| 巴南区| 清苑县| 营山县| 北票市| 大渡口区| 涞源县| 五台县| 淅川县| 哈巴河县| 巨野县| 宽甸|