• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      結(jié)合多層級(jí)解碼器和動(dòng)態(tài)融合機(jī)制的圖像描述

      2022-09-20 09:13:50姜文暉占錕程一波夏雪方玉明
      關(guān)鍵詞:解碼器注意力權(quán)重

      姜文暉,占錕,程一波,夏雪,方玉明

      江西財(cái)經(jīng)大學(xué)信息管理學(xué)院,南昌 330032

      0 引 言

      圖像描述任務(wù)(image captioning)旨在對(duì)一幅輸入圖像自動(dòng)生成完整的自然語(yǔ)言描述。圖像描述任務(wù)可以應(yīng)用于人機(jī)對(duì)話、盲人導(dǎo)航以及醫(yī)療影像報(bào)告生成等場(chǎng)景,具有巨大的應(yīng)用前景和研究?jī)r(jià)值。為生成完整的句子描述,該任務(wù)需要全面建模圖像中物體的類別、屬性以及與場(chǎng)景的交互關(guān)系等豐富信息,并將這些內(nèi)容通過(guò)組織語(yǔ)言的方式流暢地進(jìn)行描述。圖像描述任務(wù)是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理交叉領(lǐng)域的挑戰(zhàn)性問(wèn)題。

      早期研究首先分析圖像視覺(jué)內(nèi)容,即檢測(cè)圖像中的物體及其屬性,分析物體間的相對(duì)關(guān)系,并將這些內(nèi)容映射為單詞或短語(yǔ)等描述信息(Farhadi等,2010)。然后通過(guò)自然語(yǔ)言技術(shù),例如句子模板或語(yǔ)法規(guī)則,將這些基本描述單元轉(zhuǎn)化為完整句子進(jìn)行圖像描述(Kuznetsova等,2014)。然而模板和語(yǔ)法規(guī)則較大地限制了圖像描述的多樣性和獨(dú)特性,且對(duì)數(shù)據(jù)集和人工設(shè)計(jì)的依賴性較強(qiáng)。

      得益于深度學(xué)習(xí)(deep learning)的發(fā)展,大量研究工作將深度學(xué)習(xí)應(yīng)用于自動(dòng)圖像描述領(lǐng)域(Wan等,2022)?;谏疃葘W(xué)習(xí)的主要框架是“編碼器—解碼器”模型。其中,編碼器分析圖像的語(yǔ)義內(nèi)容,形成一組圖像特征向量;解碼器輸入這些特征向量,通過(guò)語(yǔ)言生成模型輸出完整的圖像描述。相比于傳統(tǒng)的方式,基于深度學(xué)習(xí)的模型脫離了具體的本文規(guī)則,能夠生成變長(zhǎng)、多樣化的圖像描述,并在描述準(zhǔn)確性方面具有壓倒性優(yōu)勢(shì)。因此,基于深度學(xué)習(xí)的方法是當(dāng)前自動(dòng)圖像描述領(lǐng)域的主流模型。

      注意力機(jī)制(attention mechanism)廣泛融入編碼器—解碼器框架(Xu等,2015),其主要優(yōu)勢(shì)在于生成描述語(yǔ)句的每個(gè)字符時(shí),可以動(dòng)態(tài)地改變輸入特征的權(quán)重以指導(dǎo)文本生成,極大提高了圖像描述模型的準(zhǔn)確性。然而,通過(guò)可視化分析和量化分析,發(fā)現(xiàn)注意力機(jī)制普遍存在不聚焦問(wèn)題(Liu等,2017)。具體地,在生成描述單詞時(shí),注意力機(jī)制有時(shí)關(guān)注在物體不重要區(qū)域,例如人的身體,從而錯(cuò)誤預(yù)測(cè)人的性別(Hendricks等,2018);有時(shí)關(guān)注物體背景,導(dǎo)致幻想出與目標(biāo)相關(guān)但未實(shí)際出現(xiàn)的物體(Rohrbach等,2018);有時(shí)忽略圖像中重要目標(biāo),導(dǎo)致描述中缺少重要信息。注意力機(jī)制的不聚焦問(wèn)題嚴(yán)重影響了模型的可解釋性。導(dǎo)致該問(wèn)題的原因?yàn)椋?)預(yù)測(cè)t時(shí)刻的單詞時(shí),注意力機(jī)制僅依賴t時(shí)刻之前生成的文本序列作為指導(dǎo)。因此,在未知待預(yù)測(cè)的目標(biāo)單詞條件下,顯著性機(jī)制難以準(zhǔn)確定位圖像的正確區(qū)域。2)文本預(yù)測(cè)過(guò)程中,錯(cuò)誤預(yù)測(cè)的單詞將進(jìn)一步誤導(dǎo)注意力機(jī)制,從而對(duì)后續(xù)文本的生成產(chǎn)生誤差累積。

      為解決以上問(wèn)題,本文提出一種結(jié)合多層級(jí)解碼器和動(dòng)態(tài)融合機(jī)制的圖像描述模型。該模型是對(duì)標(biāo)準(zhǔn)的編碼器—解碼器結(jié)構(gòu)的擴(kuò)展,出發(fā)點(diǎn)是雖然通過(guò)t時(shí)刻之前預(yù)測(cè)的單詞不足以指導(dǎo)t時(shí)刻文本生成,但是該預(yù)測(cè)結(jié)果能夠提供更加有效的反饋信息,并進(jìn)一步指導(dǎo)注意力機(jī)制定位到準(zhǔn)確的圖像區(qū)域。首先,設(shè)計(jì)解碼器級(jí)聯(lián)的結(jié)構(gòu)實(shí)現(xiàn)注意力機(jī)制的漸進(jìn)式精化。其中,第1級(jí)解碼器采用標(biāo)準(zhǔn)的文本預(yù)測(cè)結(jié)構(gòu),以前時(shí)刻預(yù)測(cè)的單詞為輸入,輸出粗略的圖像描述。其次,后級(jí)解碼器以前級(jí)解碼器的預(yù)測(cè)單詞為輸入。由于該輸入與預(yù)測(cè)的目標(biāo)單詞更相關(guān),注意力機(jī)制能夠更有效地聚焦到圖像的關(guān)鍵區(qū)域,從而生成更準(zhǔn)確的文本序列,并緩解誤差累積。同時(shí),本文提出一種解碼器動(dòng)態(tài)融合策略,根據(jù)每級(jí)解碼器的輸出,動(dòng)態(tài)調(diào)整其對(duì)應(yīng)權(quán)重,自適應(yīng)地融合由粗到精的文本信息,最終生成細(xì)節(jié)信息豐富且準(zhǔn)確多樣的圖像描述。動(dòng)態(tài)融合結(jié)構(gòu)使低層級(jí)解碼器的輸出直接參與最終的文本預(yù)測(cè),為不同層級(jí)的解碼器直接引入了監(jiān)督信息,解決了傳統(tǒng)級(jí)聯(lián)結(jié)構(gòu)容易產(chǎn)生的梯度消失現(xiàn)象,使模型訓(xùn)練更加穩(wěn)定。

      為驗(yàn)證模型的有效性,在MS COCO(Microsoft common objects in context)(Lin等,2014)和Flickr30K(Plummer等,2015)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。結(jié)果表明,本文設(shè)計(jì)的模型效果顯著,在BLEU(bilingual evaluation understudy)、METEOR(metric for evaluation of translation with explicit ordering)和CIDEr(consensus-based image description evaluation)等多項(xiàng)評(píng)價(jià)指標(biāo)上優(yōu)于其他對(duì)比方法。定性分析結(jié)果也驗(yàn)證了本文模型能夠生成更加準(zhǔn)確的圖像描述。

      1 相關(guān)工作

      自動(dòng)圖像描述任務(wù)主要以編碼器—解碼器為主要架構(gòu)。編碼器提取輸入圖像的語(yǔ)義特征,解碼器對(duì)編碼器的輸出結(jié)果進(jìn)行處理,形成完整的文本描述。鑒于深度神經(jīng)網(wǎng)絡(luò)的靈活性和較強(qiáng)的建模能力,當(dāng)前的主要工作是基于深度神經(jīng)網(wǎng)絡(luò)分別對(duì)編碼器和解碼器的結(jié)構(gòu)進(jìn)行建模(譚云蘭 等,2021)。編碼器廣泛采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),例如使用ResNet(residual network)和VGG(Visual Geometry Group network)等深層網(wǎng)絡(luò)進(jìn)行圖像的特征表示(湯鵬杰 等,2017)。解碼器廣泛采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)對(duì)較長(zhǎng)的文本序列進(jìn)行關(guān)聯(lián)建模(羅會(huì)蘭和岳亮亮,2020)。基于深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)不依賴文本規(guī)則,生成的圖像描述語(yǔ)法靈活。

      1.1 注意力機(jī)制

      隨著注意力機(jī)制在機(jī)器翻譯領(lǐng)域的廣泛應(yīng)用,越來(lái)越多的研究將其引入編碼器—解碼器結(jié)構(gòu)。Xu等人(2015)將注意力機(jī)制引入自動(dòng)圖像描述任務(wù),提出軟注意力機(jī)制(soft attention),通過(guò)隱狀態(tài)估算圖像中不同空間特征的權(quán)重,使每一時(shí)刻的文本預(yù)測(cè)都能自適應(yīng)地關(guān)注圖像中的不同區(qū)域,從而提高下一時(shí)刻文本預(yù)測(cè)的準(zhǔn)確性。然而,注意力機(jī)制學(xué)習(xí)的權(quán)重在模型中是隱變量,缺少顯式的監(jiān)督信息指導(dǎo),導(dǎo)致注意力機(jī)制普遍存在離焦問(wèn)題(Liu等,2017)。為解決該問(wèn)題,Lu等人(2017)提出并不是每個(gè)本文都對(duì)應(yīng)具體的圖像區(qū)域,對(duì)于部分虛詞和注意力機(jī)制不置信的情況,引入視覺(jué)信息將誤導(dǎo)文本預(yù)測(cè)的結(jié)果。因此提出一種“哨兵”模型,當(dāng)注意力機(jī)制的輸出結(jié)果不足以對(duì)預(yù)測(cè)的單詞提供有效的指導(dǎo)信息時(shí),依賴語(yǔ)言模型進(jìn)行文本預(yù)測(cè)。Huang等人(2019a)通過(guò)分析注意力機(jī)制預(yù)測(cè)的結(jié)果與輸入單詞的相關(guān)性,提取可靠信息對(duì)圖像編碼特征和輸入詞向量進(jìn)行加權(quán),以修正注意力機(jī)制的輸出結(jié)果。除此之外,Zhou等人(2019)額外引入名詞在圖像中的位置信息,顯式地監(jiān)督注意力機(jī)制的學(xué)習(xí)。然而,收集描述中的名詞在圖像對(duì)應(yīng)位置的標(biāo)注信息引入了額外的標(biāo)注成本。Zhou等人(2020)提出基于圖像和文本的匹配模型進(jìn)行知識(shí)蒸餾,以提高注意力機(jī)制的定位能力,降低了監(jiān)督信息的標(biāo)注成本。Ma等人(2020)提出對(duì)預(yù)測(cè)的單詞重建作為對(duì)注意力機(jī)制的規(guī)則化,以避免注意力機(jī)制關(guān)注不相關(guān)的圖像區(qū)域。Zhang等人(2021)通過(guò)視覺(jué)圖模型和語(yǔ)言圖模型的對(duì)齊操作提高注意力機(jī)制的準(zhǔn)確性。這些方法都一定程度地改善了注意力機(jī)制,但準(zhǔn)確性遠(yuǎn)低于預(yù)期效果。

      1.2 語(yǔ)言生成模型

      語(yǔ)言生成模型旨在預(yù)測(cè)句子中文本生成的概率。當(dāng)前,圖像描述任務(wù)中的語(yǔ)言模型可以分為兩類,一類是基于LSTM的模型(Vinyals等,2015),主要結(jié)構(gòu)基于單層LSTM或多層LSTM進(jìn)行序列預(yù)測(cè);另一類是基于Transformer的模型(Vaswani等,2017)。

      LSTM可以對(duì)時(shí)間序列進(jìn)行關(guān)聯(lián)建模,為生成復(fù)雜的文本序列奠定了基礎(chǔ)。在該方案中,圖像的特征編碼作為L(zhǎng)STM的第1個(gè)詞向量輸入,其后每一時(shí)刻以前一時(shí)刻預(yù)測(cè)的文本作為詞向量的輸入,預(yù)測(cè)下一時(shí)刻的輸出單詞(Vinyals等,2015)。然而,該過(guò)程較大程度地依賴語(yǔ)言模型,忽視了圖像的視覺(jué)信息。Gu等人(2018)設(shè)計(jì)了一種雙層LSTM序列生成器,第1層LSTM生成粗略的圖像描述,第2層LSTM以第1層LSTM的輸出作為輸入,生成更加準(zhǔn)確的圖像描述。Huang等人(2019b)進(jìn)一步改進(jìn)多層LSTM結(jié)構(gòu),針對(duì)LSTM預(yù)測(cè)不夠準(zhǔn)確的問(wèn)題,提出基于每層輸出結(jié)果的置信度,動(dòng)態(tài)決定是否需要引入更深的LSTM修正預(yù)測(cè)結(jié)果。Guo等人(2020)提出先通過(guò)標(biāo)準(zhǔn)的LSTM模型輸出完整的圖像描述,隨后結(jié)合完整描述的上下文對(duì)每個(gè)單詞進(jìn)行修正。然而,LSTM對(duì)較長(zhǎng)的序列建模能力不足。同時(shí),LSTM的訓(xùn)練過(guò)程是串行的,導(dǎo)致模型訓(xùn)練較為耗時(shí)。

      Transformer的模型結(jié)構(gòu)廣泛用于自然語(yǔ)言處理領(lǐng)域(Vaswani等,2017),并逐漸應(yīng)用于自動(dòng)圖像描述任務(wù)。標(biāo)準(zhǔn)的Transformer編碼器采用多層的自注意力操作(self-attention)實(shí)現(xiàn)圖像的上下文關(guān)聯(lián)。解碼器對(duì)生成的單詞采用掩膜化的自注意力操作(masked self-attention),建模文本序列的上下文信息,同時(shí)采用跨模態(tài)注意力模塊(cross attention)動(dòng)態(tài)地更新圖像的特征編碼,以輸出正確文本。同時(shí),解碼器通過(guò)自堆疊形成更加魯棒的詞匯預(yù)測(cè)。然而,堆疊增加了模型的深度,伴隨而來(lái)的梯度消失使模型訓(xùn)練困難。

      本文對(duì)Transformer的結(jié)構(gòu)進(jìn)行擴(kuò)展,提出一種新穎的多層級(jí)解碼器動(dòng)態(tài)融合的圖像描述模型。該模型通過(guò)解碼器級(jí)聯(lián)實(shí)現(xiàn)注意力機(jī)制的漸進(jìn)式精化,并設(shè)計(jì)動(dòng)態(tài)融合策略,自適應(yīng)地融合由粗到精的文本信息,提高文本描述的準(zhǔn)確性。同時(shí),緩解了梯度消失現(xiàn)象,使模型訓(xùn)練更加穩(wěn)定。

      2 模型設(shè)計(jì)

      本文模型的整體結(jié)構(gòu)如圖1所示。模型采取編碼器—解碼器架構(gòu)。對(duì)于輸入圖像I,其對(duì)應(yīng)的語(yǔ)言描述為y1:T,其中T為文本描述的最大長(zhǎng)度。I經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)抽取圖像的網(wǎng)格特征(grid features)。對(duì)于w×h的網(wǎng)格特征,每個(gè)特征向量都對(duì)應(yīng)于原始圖像特定區(qū)域的高層語(yǔ)義表示。將網(wǎng)格特征扁平化排列后(flatten),通過(guò)自注意力機(jī)制進(jìn)一步增強(qiáng),最終得到圖像的視覺(jué)特征編碼X={x1,x2,…,xN},其中,xi是dx維的特征向量,N=w×h是網(wǎng)格特征的總數(shù)。解碼器則基于圖像的編碼特征預(yù)測(cè)描述圖像內(nèi)容的語(yǔ)句。不同于標(biāo)準(zhǔn)的解碼器,本文提出的解碼器采取級(jí)聯(lián)結(jié)構(gòu),下一級(jí)解碼器以上一級(jí)解碼器預(yù)測(cè)的文本為指導(dǎo),由粗到精地逐漸提高預(yù)測(cè)精度,從而生成更加準(zhǔn)確的圖像描述。同時(shí),設(shè)計(jì)了一種自適應(yīng)融合模型,結(jié)合多層次文本的輸出實(shí)現(xiàn)對(duì)序列的綜合預(yù)測(cè),使圖像描述更加準(zhǔn)確。

      圖1 基于多層級(jí)解碼器和自適應(yīng)融合的圖像描述模型的整體框架Fig.1 Overall framework of the proposed method

      2.1 標(biāo)準(zhǔn)解碼器結(jié)構(gòu)

      本文提出的解碼器基本結(jié)構(gòu)是標(biāo)準(zhǔn)Transformer解碼器(Vaswani等,2017),包含1個(gè)跨模態(tài)注意力模塊和1個(gè)文本生成模塊??缒B(tài)注意力模塊通過(guò)基于點(diǎn)乘的注意力機(jī)制(dot-product attention)建模文本與圖像之間的跨模態(tài)關(guān)聯(lián)。具體地,該機(jī)制以查詢矩陣Q∈RM×d、鍵矩陣K∈RN×d和值矩陣V∈RN×d為輸入。查詢矩陣由M個(gè)d維向量構(gòu)成,鍵矩陣和值矩陣由N個(gè)d維向量構(gòu)成。首先,通過(guò)計(jì)算查詢矩陣與鍵矩陣之間的相似性預(yù)測(cè)在N個(gè)不同的值向量上的權(quán)重矩陣,計(jì)算為

      (1)

      式中,α=[a1,a2,…,aN] 描述了不同的值向量對(duì)應(yīng)的注意力權(quán)重,A()為權(quán)重計(jì)算函數(shù)。較大的權(quán)重表示對(duì)應(yīng)的值向量與查詢的相關(guān)性更大。隨后,結(jié)合權(quán)重矩陣和值矩陣,對(duì)不同的值向量加權(quán)融合,得到經(jīng)過(guò)注意力機(jī)制聚合后的向量表示,具體為

      Z=fAttention(Q,K,V)=A(Q,K)V

      (2)

      式中,fAttention()為注意力機(jī)制的計(jì)算函數(shù)。在圖像描述任務(wù)中,以文本序列編碼矩陣Y和視覺(jué)特征編碼X為輸入。跨模態(tài)注意力模塊首先將X和Y通過(guò)線性映射形成查詢矩陣、鍵矩陣和值矩陣,并通過(guò)多頭注意力機(jī)制預(yù)測(cè)對(duì)下一時(shí)刻輸出單詞具有區(qū)分性的視覺(jué)特征,并通過(guò)前饋神經(jīng)網(wǎng)絡(luò)(feed forward network)輸出最終的特征向量F。即

      Z=fAttention(WqY,WkX,WvX)
      F=FFN(Z)

      (3)

      (4)

      式中,SAmask()為經(jīng)過(guò)掩膜化的自注意力函數(shù)。

      最后,基于生成的加權(quán)圖像特征編碼,預(yù)測(cè)輸出單詞的概率分布,以預(yù)測(cè)該時(shí)刻的目標(biāo)單詞。具體為

      (5)

      式中,We是可學(xué)習(xí)的投影矩陣,將F映射為輸出單詞的概率分布。

      2.2 級(jí)聯(lián)解碼器結(jié)構(gòu)

      圖2 級(jí)聯(lián)解碼器結(jié)構(gòu)示意圖Fig.2 Architecture of the hierarchical decoders

      (6)

      式中,[·,·]是拼接操作。對(duì)于第s級(jí)解碼器,跨模態(tài)注意力模塊以圖像的視覺(jué)特征編碼X和文本序列的編碼矩陣Ys為輸入,對(duì)t時(shí)刻的預(yù)測(cè)單詞進(jìn)行更新。具體為

      (7)

      2.3 多層級(jí)解碼器自適應(yīng)融合

      解碼器級(jí)聯(lián)結(jié)構(gòu)包含了文本由粗到精的預(yù)測(cè)結(jié)果,蘊(yùn)含了描述圖像內(nèi)容的豐富細(xì)節(jié)。為進(jìn)一步提高模型預(yù)測(cè)的準(zhǔn)確性,本文提出一種自適應(yīng)融合結(jié)構(gòu),以最大化利用不同層級(jí)解碼器的輸出結(jié)果。具體地,基于門(mén)機(jī)制(gating mechanism),動(dòng)態(tài)地預(yù)測(cè)權(quán)重β,以控制不同解碼器的輸出信息流。如圖3所示,第s層解碼器的權(quán)重βs由注意力機(jī)制的輸出Fs和輸入文本序列的編碼Ys共同決定。即

      圖3 自適應(yīng)融合結(jié)構(gòu)示意圖Fig.3 Architecture of the dynamic fusion module

      cs=Ws[Ys,Fs]
      β=fsoftmax([c1,c2,…,cS])

      (8)

      式中,[·,·]是拼接操作,Ws∈R1×2d是可學(xué)習(xí)權(quán)重矩陣,β=[β1,β2,…,βS]代表不同解碼器的權(quán)重。不同于傳統(tǒng)的門(mén)機(jī)制僅依賴單路信息流預(yù)測(cè)其對(duì)應(yīng)的權(quán)重(Cornia等,2020),本文提出的門(mén)機(jī)制同時(shí)輸入多路信息流,引入具有互斥功能的softmax函數(shù)感知不同層解碼器的上下文信息,融合全局信息流,以指導(dǎo)權(quán)重的自適應(yīng)調(diào)整。

      隨后,自適應(yīng)融合模塊基于已學(xué)習(xí)的權(quán)重對(duì)不同層的注意力特征進(jìn)行集成。即

      (9)

      最后,基于集成后的特征預(yù)測(cè)最終的輸出單詞。具體為

      (10)

      動(dòng)態(tài)融合結(jié)構(gòu)能為多層級(jí)解碼器更好地引入監(jiān)督信息并緩解梯度消失。以最容易形成梯度消失現(xiàn)象的第1級(jí)解碼器為例,設(shè)模型學(xué)習(xí)的損失函數(shù)為L(zhǎng),第1級(jí)解碼器的參數(shù)為θ1。由式(8)—式(10)可知,θ1的梯度計(jì)算為

      (11)

      圖4 不同解碼結(jié)構(gòu)的對(duì)比示意圖Fig.4 The architectures of different decoders ((a) vanilla decoder architecture; (b) stacked multi-layer decoder; (c) concatenated multi-layer decoder; (d) hierarchical decoders)

      2.4 學(xué)習(xí)策略

      本文采用圖像自動(dòng)描述的標(biāo)準(zhǔn)訓(xùn)練方法(Rennie等,2017),將訓(xùn)練過(guò)程分為兩個(gè)階段。第1階段對(duì)每個(gè)時(shí)刻生成的單詞采用交叉熵?fù)p失函數(shù)(cross-entropy loss)進(jìn)行訓(xùn)練,第2階段采用強(qiáng)化學(xué)習(xí)對(duì)描述生成的模型進(jìn)行調(diào)優(yōu)。

      在以交叉熵?fù)p失函數(shù)為目標(biāo)的訓(xùn)練階段,通過(guò)輸入真實(shí)文本y1:t-1,預(yù)測(cè)與之對(duì)應(yīng)的下一單詞。記模型的參數(shù)為θ,損失值為L(zhǎng)XE。采用最大似然估計(jì),以最大化真實(shí)單詞yt的預(yù)測(cè)概率,具體為

      (12)

      式中,T為句子的長(zhǎng)度。交叉熵?fù)p失函數(shù)預(yù)測(cè)過(guò)程簡(jiǎn)單,但是每個(gè)單詞獨(dú)立優(yōu)化,導(dǎo)致生成的句子完整性和流暢性不足。

      為解決該問(wèn)題,本文以交叉熵?fù)p失函數(shù)訓(xùn)練得到的θ作為初始值,以SCST(self-critical sequence training)強(qiáng)化學(xué)習(xí)(Rennie等,2017)為模型訓(xùn)練的第2階段,進(jìn)一步優(yōu)化文本描述的評(píng)價(jià)指標(biāo)。具體地,解碼器的輸出作為“實(shí)體”與外部環(huán)境進(jìn)行交互?!靶袨椤眲t是對(duì)下一個(gè)單詞預(yù)測(cè)。在預(yù)測(cè)完整的文本序列后,“實(shí)體”收到一個(gè)獎(jiǎng)勵(lì)(reward)。本文定義獎(jiǎng)勵(lì)為預(yù)測(cè)的圖像描述與真實(shí)描述之間的相似性,用語(yǔ)言評(píng)價(jià)指標(biāo)CIDEr描述。強(qiáng)化學(xué)習(xí)的目標(biāo)是最小化負(fù)的期望獎(jiǎng)勵(lì),具體為

      (13)

      (14)

      式中,b代表基礎(chǔ)模型生成的圖像描述對(duì)應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)。本文采用貪婪算法(greedy decoding)作為基礎(chǔ)模型。

      在序列的預(yù)測(cè)過(guò)程中,本文采用集束搜索策略(beam search),即每個(gè)時(shí)刻從解碼器的概率分布中采樣概率最大的前k個(gè)單詞,并在解碼過(guò)程中始終保留置信度最高的前k個(gè)文本序列。最后,將置信度最高的序列作為預(yù)測(cè)的文本描述。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集和評(píng)估指標(biāo)

      實(shí)驗(yàn)在MS COCO(Lin等,2014)和Flickr30K(Plummer等,2015)公開(kāi)數(shù)據(jù)集上進(jìn)行,對(duì)圖像描述模型進(jìn)行評(píng)價(jià)。MS COCO數(shù)據(jù)集包含123 287幅圖像,F(xiàn)lickr30K數(shù)據(jù)集包含31 783幅圖像。兩組數(shù)據(jù)集均涵蓋廣泛的自然場(chǎng)景,每幅圖像均提供5條參考描述。實(shí)驗(yàn)采用Karpathy和Li(2015)提出的訓(xùn)練集和測(cè)試集劃分方法對(duì)模型進(jìn)行訓(xùn)練和評(píng)估。對(duì)MS COCO數(shù)據(jù)集,分別取82 783、5 000和5 000幅圖像及其描述作為訓(xùn)練集、驗(yàn)證集和測(cè)試集。對(duì)Flickr30K數(shù)據(jù)集,分別取29 000、1 000和1 000幅圖像及其描述作為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

      為評(píng)估模型生成圖像描述的質(zhì)量,采用BLEU-1、BLEU-4(Papineni等,2002)、METEOR(Banerjee和Lavie,2005)和CIDEr(Vedantam等,2015)等標(biāo)準(zhǔn)的圖像描述評(píng)估標(biāo)準(zhǔn)驗(yàn)證模型的效果。以上指標(biāo)分別記為B-1、B-4、M和C。B-1和B-4評(píng)價(jià)預(yù)測(cè)語(yǔ)句與參考語(yǔ)句之間1元組和4元組共同出現(xiàn)的程度,衡量預(yù)測(cè)語(yǔ)句的準(zhǔn)確性;METEOR描述句子中連續(xù)且順序相同的文本數(shù)量,反映語(yǔ)句的流暢度;CIDEr使用語(yǔ)法匹配測(cè)量生成句子與參考語(yǔ)句之間的語(yǔ)義相似性,與人類的主觀評(píng)價(jià)一致。

      3.2 實(shí)施細(xì)節(jié)

      本文基于深度學(xué)習(xí)框架Pytorch實(shí)現(xiàn)所述模型,模型的訓(xùn)練和測(cè)試均使用2080TI GPU。在圖像的編碼器部分,采用Jiang等人(2020)的方法抽取圖像的網(wǎng)格特征,其中網(wǎng)格大小為7 × 7,每個(gè)特征表示為2 048維的向量。文本的編碼采用標(biāo)準(zhǔn)的詞嵌入模型(Cornia等,2020)。模型的實(shí)現(xiàn)細(xì)節(jié)中,本文參照Transformer的一般設(shè)置,將維度d設(shè)為512,F(xiàn)FN的隱藏層特征維度設(shè)為2 048,dropout的概率為0.1。對(duì)于每層解碼器,L設(shè)為1。采用ADAM(adaptive momentum estimation)優(yōu)化器進(jìn)行模型訓(xùn)練,批處理大小(batch size)設(shè)為50。在交叉熵學(xué)習(xí)階段,初始學(xué)習(xí)率設(shè)為0.000 5,學(xué)習(xí)率變化過(guò)程參照模型訓(xùn)練的一般設(shè)置(Cornia等,2020)。如果訓(xùn)練過(guò)程中,驗(yàn)證集的CIDEr連續(xù)下降5個(gè)訓(xùn)練周期(epoch),則進(jìn)入強(qiáng)化學(xué)習(xí)階段。在強(qiáng)化學(xué)習(xí)階段,學(xué)習(xí)率固定為5×10-6。當(dāng)驗(yàn)證集的CIDEr連續(xù)下降5個(gè)訓(xùn)練周期后,模型訓(xùn)練結(jié)束。在測(cè)試過(guò)程中,集束搜索中k值設(shè)為5。

      3.3 消融實(shí)驗(yàn)與分析

      為驗(yàn)證多層級(jí)解碼器動(dòng)態(tài)融合的有效性,設(shè)計(jì)4種不同結(jié)構(gòu)與本文提出的模型進(jìn)行對(duì)比。第1種結(jié)構(gòu)(圖4(b))為級(jí)聯(lián)結(jié)構(gòu)中每層解碼器獨(dú)立地設(shè)計(jì)損失函數(shù),預(yù)測(cè)過(guò)程依靠最終解碼器輸出的結(jié)果,該結(jié)構(gòu)記為堆疊;第2種結(jié)構(gòu)(圖4(c))對(duì)不同解碼器的輸出拼接后預(yù)測(cè)文本序列,該結(jié)構(gòu)記為拼接;第3種結(jié)構(gòu)將式(8)采用的softmax門(mén)函數(shù)替換為sigmoid門(mén)函數(shù),以獨(dú)立計(jì)算不同解碼器的權(quán)重;第4種結(jié)構(gòu)將式(8)中的Ws設(shè)為d×2d的權(quán)重矩陣,βs此時(shí)為與解碼器輸出特征維度相同的矢量,對(duì)不同維度的特征賦予不同的融合權(quán)重。不同的解碼器結(jié)構(gòu)性能對(duì)比結(jié)果如表1所示。

      從表1可以看出,相比于堆疊和拼接,自適應(yīng)加權(quán)融合方法在MS COCO和Flickr30K數(shù)據(jù)集都具有明顯優(yōu)勢(shì)。具體地,堆疊結(jié)構(gòu)的CIDEr在MS COCO數(shù)據(jù)集上下降了1.4,在Flickr30K數(shù)據(jù)集上下降顯著,比本文方法低4.3。拼接結(jié)構(gòu)結(jié)果相似。在門(mén)函數(shù)設(shè)計(jì)方面,采用sigmoid門(mén)函數(shù)預(yù)測(cè)不同層解碼器的權(quán)重使CIDEr在MS COCO數(shù)據(jù)集上下降了1.3,在Flickr30K數(shù)據(jù)集上下降了0.06。這意味著通過(guò)softmax操作引入不同層解碼器的上下文關(guān)聯(lián)對(duì)于解碼器的權(quán)重控制十分重要。最后,對(duì)比基于矢量權(quán)重的融合方法,標(biāo)量權(quán)重能夠顯著提高圖像描述的準(zhǔn)確性。特別地,基于矢量權(quán)重的融合方法在Flickr30K數(shù)據(jù)集上的CIDEr僅為62.0,顯著低于基于標(biāo)量權(quán)重的融合方法。原因是矢量權(quán)重增加了模型參數(shù)量,使預(yù)測(cè)結(jié)果對(duì)噪聲干擾更加敏感,因此在較小的Flickr30K數(shù)據(jù)集上性能下降更加明顯。

      表1 不同的解碼器結(jié)構(gòu)對(duì)圖像描述性能的影響Table 1 Ablation study on different decoder architectures

      為進(jìn)一步分析級(jí)聯(lián)結(jié)構(gòu)的有效性,實(shí)驗(yàn)對(duì)S的變化對(duì)圖像描述性能的影響進(jìn)行分析,結(jié)果如圖5和圖6所示??梢钥闯?,當(dāng)S取3時(shí),模型在MS COCO和Flickr30K測(cè)試集上性能均達(dá)到最佳,這與標(biāo)準(zhǔn)的Transformer堆疊的數(shù)量一致。因此,在后續(xù)實(shí)驗(yàn)中,本文將S設(shè)置為3。

      圖5 參數(shù)S對(duì)MS COCO測(cè)試集性能的影響Fig.5 The impact of S on MS COCO test set

      圖6 參數(shù)S對(duì)Flickr30K測(cè)試集性能的影響Fig.6 The impact of S on Flickr30K test set

      3.4 對(duì)比實(shí)驗(yàn)與分析

      實(shí)驗(yàn)挑選12種代表性方法與本文提出的模型開(kāi)展定量比較。包括Up-Down(Anderson等,2018)、Transformer(Vaswani等,2017)、M2(meshed-memory Transformer)(Cornia等,2020)、POS-SCAN(part-of-speech enhanced stacked cross attention)(Zhou等,2020)、GVD(grounded video description)(Zhou等,2019)、Stack-Cap(Gu等,2018)、AAT(adaptive attention time)(Huang等,2019b)、RD(ruminant decoding)(Guo等,2020)、CGRL(consensus graph representation learning)(Zhang等,2021)、Cyclical(Ma等,2020)、SOCPK(scene and object category prior knowledge)(湯鵬杰 等,2017)和CMFF/CD(cross-layer multi-model feature fusion and causal convolutional decoding)(羅會(huì)蘭和岳亮亮,2020)。其中,Up-Down和Transformer是基準(zhǔn)模型;M2是目前性能最好的圖像描述模型;SCAN、CGRL和GVD通過(guò)修正注意力機(jī)制提高圖像描述的準(zhǔn)確性;Stack-Cap、RD和Cyclical通過(guò)引入解碼器級(jí)聯(lián)結(jié)構(gòu)提高圖像描述的性能;SOCPK和CMFF/CD通過(guò)改善圖像的特征表示提高圖像描述的準(zhǔn)確性。

      表2展示了不同方法在MS COCO和Flickr30K數(shù)據(jù)集上的對(duì)比結(jié)果。

      表2 不同方法在MS COCO和Flickr30K測(cè)試集的性能比較Table 2 Comparison of performance among different methods on the MS COCO and Flickr30K test set

      在MS COCO數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文方法顯著改善了基于Transformer的基準(zhǔn)模型,同時(shí)高于其他對(duì)比方法。具體地,對(duì)于描述短語(yǔ)重疊率的評(píng)估指標(biāo),B-1指標(biāo)比M2提高了0.5,說(shuō)明本文提出的模型能精確地輸出描述圖像的單詞;對(duì)于描述句子流暢程度的指標(biāo),M指標(biāo)相比對(duì)比方法中的最好結(jié)果也略有改善。對(duì)于描述語(yǔ)義相似性的指標(biāo),CIDEr提升更顯著,相比當(dāng)前最好的模型M2提高1.0,說(shuō)明模型能更好地輸出與人類主觀描述一致的文本序列。對(duì)比Transformer、M2、Stack-Cap、AAT和RD在各項(xiàng)指標(biāo)上的性能,本文方法性能均高于對(duì)比方法。值得注意的是,在Transformer和M2結(jié)構(gòu)中,堆疊的參數(shù)L設(shè)置為3,與本文的層級(jí)S取值一致,表明本文模型復(fù)雜度與Transformer和M2等對(duì)比方法接近,也間接證明了本文提出的級(jí)聯(lián)結(jié)構(gòu)設(shè)計(jì)的有效性。

      在Flickr30K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型在較小數(shù)據(jù)集上能夠保持良好描述效果。具體地,相比M2模型,本文方法在CIDEr上提高了2.2。B-1、B-4和M指標(biāo)也均高于M2。相比引入額外監(jiān)督信息的SCAN和GVD方法,本文提出的模型在CIDEr指標(biāo)上分別高出0.6和7.6。以上結(jié)果表明,本文提出模型同時(shí)關(guān)注了圖像描述的準(zhǔn)確性、流暢性和語(yǔ)義的正確性。

      3.5 可視化分析

      圖7展示了本文模型與Transformer基準(zhǔn)模型在MS COCO測(cè)試集上對(duì)部分圖像的描述對(duì)比。整體來(lái)看,本文方法能夠輸出更加準(zhǔn)確和豐富的圖像描述。例如,圖7第1行,本文模型能夠準(zhǔn)確預(yù)測(cè)出貓旁邊小物體是a box of donuts,而不是toy;圖7第2行,本文模型能夠在同類物體密集出現(xiàn)條件下正確預(yù)測(cè)量詞。為了進(jìn)一步驗(yàn)證多層次解碼器的有效性,本文對(duì)跨模態(tài)注意力機(jī)制進(jìn)行可視化分析。由圖7(b)可見(jiàn),Transformer基準(zhǔn)模型關(guān)注的視覺(jué)區(qū)域更分散,受背景干擾較大。例如,圖7第1行,注意力機(jī)制部分關(guān)注于“貓”后方的背景區(qū)域,從而對(duì)描述“貓”周?chē)h(huán)境時(shí)造成干擾。對(duì)比圖7(c)可見(jiàn),本文提出的級(jí)聯(lián)解碼結(jié)構(gòu)能夠準(zhǔn)確定位至圖像的相關(guān)區(qū)域,從而生成更加準(zhǔn)確的文字描述。以上可視化分析結(jié)果從另一角度驗(yàn)證了本文方法的有效性。

      4 結(jié) 論

      本文提出了一種結(jié)合多層級(jí)解碼器和動(dòng)態(tài)融合機(jī)制的圖像描述模型。通過(guò)設(shè)計(jì)解碼器級(jí)聯(lián)結(jié)構(gòu)實(shí)現(xiàn)注意力機(jī)制的漸進(jìn)式精化。其中,高層級(jí)的解碼器以低層級(jí)解碼器的預(yù)測(cè)結(jié)果為輸入。由于該輸入與預(yù)測(cè)的目標(biāo)單詞更相關(guān),注意力機(jī)制能夠更有效地聚焦到圖像的關(guān)鍵區(qū)域,從而生成更準(zhǔn)確的文本序列。此外,設(shè)計(jì)了一種解碼器動(dòng)態(tài)融合策略,根據(jù)每級(jí)解碼器的輸出動(dòng)態(tài)地調(diào)整輸出權(quán)重,自適應(yīng)地融合由粗到精的文本信息,提高圖像描述的魯棒性。同時(shí),動(dòng)態(tài)融合為不同層次解碼器引入監(jiān)督信息,進(jìn)一步解決了級(jí)聯(lián)結(jié)構(gòu)容易產(chǎn)生的梯度消失現(xiàn)象,使模型訓(xùn)練更加穩(wěn)定。但是自動(dòng)圖像描述的準(zhǔn)確率還有進(jìn)一步提升空間。下一步工作將嘗試改進(jìn)圖像的特征表達(dá)以提高圖像描述的豐富性,優(yōu)化圖像的視覺(jué)特征和語(yǔ)言模型的關(guān)聯(lián)以提高自動(dòng)圖像描述模型的魯棒性。

      猜你喜歡
      解碼器注意力權(quán)重
      讓注意力“飛”回來(lái)
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      權(quán)重常思“浮名輕”
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      钟山县| 修水县| 江门市| 宜丰县| 莲花县| 阳原县| 巴塘县| 巴东县| 交口县| 三穗县| 三门县| 湘潭县| 平泉县| 林芝县| 崇明县| 盈江县| 绵阳市| 南皮县| 万年县| 蓬溪县| 临漳县| 南京市| 通渭县| 香格里拉县| 莱阳市| 五华县| 金昌市| 高清| 曲沃县| 林口县| 获嘉县| 淅川县| 大姚县| 历史| 滦南县| 南和县| 兴隆县| 九江市| 沐川县| 醴陵市| 南平市|