• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種結(jié)合全局和局部特征的圖像描述生成模型

      2019-08-14 09:41:36靳華中劉瀟龍胡梓珂
      關(guān)鍵詞:解碼器編碼器全局

      靳華中, 劉瀟龍, 胡梓珂

      湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,武漢430068

      隨著計(jì)算機(jī)視覺和機(jī)器翻譯的發(fā)展,由圖像自動(dòng)生成準(zhǔn)確的文字描述成為可能.在機(jī)器翻譯過程中,注意力機(jī)制能夠區(qū)別對(duì)待圖片中不同的局部信息,使圖像自動(dòng)生成越來越準(zhǔn)確的描述文字,從而成為目前生成描述圖像自然語句的研究熱點(diǎn).圖像描述生成任務(wù)是計(jì)算機(jī)視覺和機(jī)器翻譯兩個(gè)領(lǐng)域的綜合應(yīng)用.首先,借助計(jì)算機(jī)視覺技術(shù)自動(dòng)完成圖像解譯,接著根據(jù)機(jī)器翻譯模型將解譯的內(nèi)容表達(dá)成一段自然語言.圖像描述生成任務(wù)雖然面臨諸多挑戰(zhàn),但應(yīng)用前景較好.例如:在網(wǎng)絡(luò)上利用圖像描述生成文字進(jìn)行基于語義的圖像檢索,能夠彌補(bǔ)基于簡(jiǎn)單視覺特征的圖像檢索方法的不足,幫助人們找到內(nèi)容更加準(zhǔn)確且含義更加接近的圖像;視頻描述生成有助于視頻內(nèi)容加標(biāo)注.此外,它還可以幫助視覺障礙者理解圖像內(nèi)容.目前,通常采用編碼器-解碼器的框架解決圖像描述生成任務(wù),是因?yàn)檫@種框架在許多領(lǐng)域中均優(yōu)于其他傳統(tǒng)方法.其中,編碼器可以提取圖像特征進(jìn)行編碼,形成更緊湊的形式;解碼器可將編碼的圖像信息翻譯成自然語言.

      解決圖像描述生成任務(wù)時(shí),注意力機(jī)制能提高語義表示的準(zhǔn)確性,因而受到了越來越多的關(guān)注.該機(jī)制預(yù)先保留編碼器對(duì)輸入序列的中間輸出結(jié)果和圖像特征對(duì)應(yīng)的位置信息,接著訓(xùn)練一個(gè)模型便于選擇性地學(xué)習(xí)輸入,最后在模型輸出時(shí)將輸出序列與之進(jìn)行關(guān)聯(lián).也就是說,輸出序列中每一項(xiàng)的生成概率取決于在輸入序列中選擇了哪些項(xiàng).生成圖像描述文字時(shí),注意力模型可以自動(dòng)關(guān)注圖像顯著物體[1],能在給定已生成單詞的前提下讓生成下一個(gè)單詞的過程與視覺感知體驗(yàn)對(duì)齊[2].

      現(xiàn)有的基于注意力機(jī)制的圖像描述生成模型通常基于圖像局部特征提取信息,這些模型共同的缺點(diǎn)是忽略了圖像全局特征,以致生成的句子缺少了描述圖像的整體信息.為此,本文引入注意力機(jī)制并提出了一種結(jié)合圖像全局特征和局部特征的圖像描述生成模型,可以允許不同粒度圖像特征作為模型的輸入;然后搭建了圖像描述生成的實(shí)驗(yàn)環(huán)境;最后將設(shè)計(jì)的模型在微軟COCO 數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,并對(duì)比分析了不同模型的性能.實(shí)驗(yàn)表明,本文提出的模型在識(shí)別目標(biāo)區(qū)域與生成相應(yīng)語句之間的對(duì)應(yīng)關(guān)系更加貼近人類理解方式,即識(shí)別目標(biāo)區(qū)域與生成語言的對(duì)齊更加合理.

      1 相關(guān)工作

      圖像描述生成一直是計(jì)算機(jī)視覺和機(jī)器翻譯領(lǐng)域的一個(gè)挑戰(zhàn)性問題,描述圖像不僅需要識(shí)別圖像目標(biāo)以及不同目標(biāo)之間的關(guān)系,而且還要表示為自然語言.文獻(xiàn)[3-7]依據(jù)預(yù)先定義的模板將檢測(cè)到的視覺元素生成句子[3-7];文獻(xiàn)[8-9]首先基于檢索模型在訓(xùn)練集中找到類似的圖像,然后檢索并組成新的句子.這些方法生成的句子簡(jiǎn)單又有限,且不能描述測(cè)試圖像中的特定內(nèi)容.

      隨著機(jī)器翻譯和目標(biāo)檢測(cè)的發(fā)展,出現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)生成圖像描述的方法[10-11].這些方法在機(jī)器翻譯中通過引入編碼器-解碼器框架將圖像直接轉(zhuǎn)換為句子[12],首先根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)將圖像編碼為不同目標(biāo),然后通過循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)解碼后生成描述圖像內(nèi)容的有意義句子.文獻(xiàn)[11]提出了多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(multimodal recurrent neural network, m-RNN),創(chuàng)造性地將CNN和RNN 結(jié)合起來,以期解決圖像標(biāo)注和圖像語句檢索等問題.傳統(tǒng)的CNN 和RNN 組合模型沒有明確地表示高級(jí)語義概念,而是試圖直接將圖像特征翻譯成文本信息.

      針對(duì)RNN 解碼方面的不足,Google 以長短期記憶(long short-term memory, LSTM)代替RNN 提出了NIC 模型.該模型采用已訓(xùn)練的CNN 模型提取圖像特征,且只在開始時(shí)輸入一次[13].預(yù)測(cè)下一個(gè)單詞時(shí),解碼器試圖關(guān)聯(lián)圖片中的不同部分.基于上述構(gòu)想,文獻(xiàn)[1]將注意力機(jī)制應(yīng)用到圖像描述生成中,提出了soft-attention 與hard-attention 模型.該模型可以充分關(guān)注圖像局部特征,原因是注意力機(jī)制打破了傳統(tǒng)編碼器-解碼器結(jié)構(gòu)在編解碼時(shí)依賴于內(nèi)部一個(gè)固定長度向量的限制[14].

      現(xiàn)在許多方法試圖改進(jìn)注意力機(jī)制,以便更好地幫助人們理解語句生成過程,使得模型學(xué)習(xí)到的對(duì)齊關(guān)系接近人類的直觀認(rèn)知過程.文獻(xiàn)[15]結(jié)合空間和信道方向的注意力提出了一種新的卷積神經(jīng)網(wǎng)絡(luò).大多數(shù)方法強(qiáng)制要求在每個(gè)單詞生成與視覺注意相關(guān)聯(lián),然而解碼器在預(yù)測(cè)諸如“the”和“of”的非視覺單詞時(shí)可能并不需要來自圖像的視覺信息.文獻(xiàn)[16]提出了一種具有視覺哨兵的新型自適應(yīng)注意模型,在解譯文字序列的每個(gè)單詞時(shí)決定是否關(guān)注圖像以及關(guān)注哪個(gè)圖像區(qū)域,以便提取更有意義的單詞序列信息.文獻(xiàn)[17]提出了一個(gè)自下而上和自上而下的組合注意力機(jī)制,能讓每個(gè)圖像區(qū)域關(guān)聯(lián)相應(yīng)的特征向量并確定相應(yīng)的特征權(quán)重,從而計(jì)算目標(biāo)對(duì)象與其他顯著圖像區(qū)域之間的注意力權(quán)重.在編碼器-解碼器的框架下,已有的注意力機(jī)制方法在解碼的不同時(shí)刻可以關(guān)注不同的圖像區(qū)域,進(jìn)而生成更合理的詞,可是在面對(duì)復(fù)雜、多目標(biāo)場(chǎng)景時(shí)仍然存在問題[18].圖像生成文字描述的過程是先建立局部圖像區(qū)域之間的聯(lián)系,再構(gòu)建圖像整體內(nèi)容和信息.然而,圖像全局和局部特征的粒度不同,遺憾的是現(xiàn)有文獻(xiàn)只考慮了圖像局部特征的情形而沒有將不同粒度的特征作為輸入,于是本文提出將全局特征信息加入圖像描述生成模型以表達(dá)諸如圖像場(chǎng)景之類的圖像整體信息,使得目標(biāo)之間的關(guān)系表述得更加合理,更加準(zhǔn)確.

      2 結(jié)合全局和局部特征的圖像描述生成模型

      本節(jié)介紹基于局部特征和全局特征的圖像生成描述文字的模型架構(gòu),如圖1 所示.

      圖1 結(jié)合全局和局部特征的圖像描述生成模型結(jié)構(gòu)Figure 1 Image caption model architecture combining global and local features

      本文提出的模型與Oriol Vinyals 等類似,也采用編碼器和解碼器的基礎(chǔ)框架結(jié)構(gòu)[19].編碼器主要負(fù)責(zé)對(duì)輸入的圖像進(jìn)行編碼,以便捕獲圖像中包含的對(duì)象及其相互關(guān)系,表達(dá)各自的屬性和涉及的活動(dòng).在上述結(jié)構(gòu)框架中,本文分別使用InceptionV3 網(wǎng)絡(luò)和VGG16 網(wǎng)絡(luò)提取圖像的局部特征和全局特征,并將全局特征和局部特征連接起來形成編碼器的結(jié)果作為解碼器的輸入.解碼器是一種語言模型,主要負(fù)責(zé)對(duì)圖像進(jìn)行解碼,輸出詞匯表中單詞的概率分布.本文先將編碼器提取的特征和LSTM 的狀態(tài)輸入注意力模型,得到一個(gè)圖像目標(biāo)的上下文信息;然后將上下文信息輸入LSTM 網(wǎng)絡(luò)并計(jì)算每個(gè)單詞的概率分布,完成句子的翻譯[20].

      2.1 編碼器

      在編碼器端,本文采用InceptionV3 網(wǎng)絡(luò)提取圖像局部特征.具體做法是保留網(wǎng)絡(luò)中softmax 函數(shù)前的卷積層特征向量,并將原向量從8×8×512 拉伸成64×512 維.圖像全局特征則由VGG16 模型負(fù)責(zé)提取,其形狀為1×4 096.首先將兩個(gè)特征向量輸入一個(gè)包含256 個(gè)單元的全連接層,則全局特征和局部特征經(jīng)過全連接后的輸出為1×256 維和64×256 維的特征向量;然后將輸出后的全局特征擴(kuò)展為64×256 維;最后將全局特征和局部特征連接起來,形成圖像特征的編碼結(jié)果.

      2.2 注意力機(jī)制

      注意力機(jī)制保留LSTM 編碼器對(duì)輸入序列的中間輸出結(jié)果,然后訓(xùn)練一個(gè)模型進(jìn)行選擇性的學(xué)習(xí),最后將模型輸出序列與輸入序列進(jìn)行關(guān)聯(lián).本文使用的注意力機(jī)制遵循了Bahdanau 的方法[21].注意力模型的輸入為編碼器對(duì)圖片編碼后的結(jié)果a(t')和LSTM 網(wǎng)絡(luò)的前一個(gè)狀態(tài)ht?1,輸出為生成第t 個(gè)單詞時(shí)的上下文信息context(t).注意力模型的示意圖如圖2所示.

      圖2 注意力模型示意圖Figure 2 Diagram of attention model

      實(shí)現(xiàn)這種機(jī)制的方式如下:在時(shí)刻t 計(jì)算輸入序列的每一個(gè)區(qū)域i 對(duì)應(yīng)的權(quán)重a(t').在圖2 中,α(t,t')表示在生成第t 個(gè)單詞時(shí)上一時(shí)刻t'圖像特征的權(quán)重.因滿足輸入序列的各個(gè)區(qū)域權(quán)重之和為1,于是有

      式(1)通過softmax函數(shù)來實(shí)現(xiàn),其中T 表示特征的數(shù)量,本文取T = 64.context(t)的計(jì)算由兩部分組成:一個(gè)是已計(jì)算的區(qū)域a(t'),它表示第t'個(gè)特征;另一個(gè)是上一時(shí)刻t'的信息α(t,t'),其計(jì)算公式為

      2.3 解碼器

      本文將LSTM 網(wǎng)絡(luò)作為編碼器.它是一種特殊的RNN 記憶網(wǎng)絡(luò),可以學(xué)習(xí)并處理LSTM信息,其優(yōu)勢(shì)在于能夠建模并預(yù)測(cè)信息序列隱含的上下文依賴關(guān)系.本文利用LSTM 學(xué)習(xí)圖像場(chǎng)景中目標(biāo)區(qū)域的空間關(guān)系,通過訓(xùn)練集構(gòu)建了一個(gè)5 000 個(gè)單詞的詞匯表,分析不同區(qū)域序列中隱含的上下文信息,計(jì)算詞匯表中的每個(gè)單詞的概率,以完成圖像內(nèi)容的表達(dá).LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示.

      圖3 LSTM結(jié)構(gòu)Figure 3 LSTM structure

      在圖3 中,σ表示sigmoid 激活函數(shù),σ ∈(0,1);xt表示當(dāng)前時(shí)刻t新信息的輸入,ht?1表示上一個(gè)時(shí)刻t-1的隱藏狀態(tài),Ct表示t時(shí)刻的細(xì)胞狀態(tài).3 個(gè)虛線矩形框I、II、III 分別表示遺忘門、輸入門、輸出門.LSTM 的關(guān)鍵在于保護(hù)和控制細(xì)胞狀態(tài),在具體學(xué)習(xí)過程中通過3 個(gè)門結(jié)構(gòu)的不同狀態(tài)確定下一步新信息是否舍棄或者存放在細(xì)胞狀態(tài)中.每一時(shí)間步中細(xì)胞狀態(tài)都會(huì)根據(jù)前一時(shí)間步的信息更新,并傳遞到下一個(gè)信息序列中去.虛線矩形框I 對(duì)應(yīng)的數(shù)學(xué)描述為

      ft根據(jù)xt和ht?1的數(shù)值來決定上一時(shí)間步中信息遺忘程度.輸入門對(duì)應(yīng)的數(shù)學(xué)表達(dá)式如下:

      細(xì)胞狀態(tài)Ct的更新由門值ft、it以及上一個(gè)時(shí)間步細(xì)胞狀態(tài)Ct?1決定.由此可見,新信息輸入、上文信息以及隱含狀態(tài)的信息共同決定了下一步的時(shí)序信息.輸出門的計(jì)算公式如下:

      式中,W 和b 表示學(xué)習(xí)訓(xùn)練的網(wǎng)絡(luò)參數(shù).先將tanh 函數(shù)的輸出與sigmoid 函數(shù)的輸出相乘以確定隱藏狀態(tài)應(yīng)攜帶的信息,再將此隱藏狀態(tài)作為當(dāng)前細(xì)胞的輸出,并把新的細(xì)胞狀態(tài)和新的隱藏狀態(tài)傳遞到下一個(gè)時(shí)間步長中去.

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 模型參數(shù)與數(shù)據(jù)集

      為了與現(xiàn)有技術(shù)進(jìn)行比較,本文在tensorflow 平臺(tái)上搭建圖像描述生成模型,通過一系列實(shí)驗(yàn)以多個(gè)度量指標(biāo)評(píng)估模型的有效性.在編碼階段,分別采用InceptionV3 網(wǎng)絡(luò)和VGG16模型提取圖像的局部特征和全局特征.在解碼階段,采用LSTM 網(wǎng)絡(luò)生成自然語言.在模型訓(xùn)練階段,采用Adam 優(yōu)化算法訓(xùn)練模型,學(xué)習(xí)率為0.01,batch 大小為128.本文模型在一塊RTX2070 顯卡上進(jìn)行訓(xùn)練,總共耗時(shí)約為15 h.

      本文以MSCOCO 作為數(shù)據(jù)源,其中訓(xùn)練集、驗(yàn)證集、測(cè)試集圖片數(shù)量分別超過4萬幅,每幅圖像均由標(biāo)注者用5 個(gè)相對(duì)直觀且無偏見的句子添加注釋.

      3.2 評(píng)價(jià)準(zhǔn)則與實(shí)驗(yàn)結(jié)果

      本文以常用的BLEU[22]、Meteor[23]、Rouge[24]評(píng)價(jià)指標(biāo)評(píng)測(cè)機(jī)器翻譯的準(zhǔn)確性.BLEU的優(yōu)點(diǎn)是它匹配信息的粒度是n-gram 而不是詞,且考慮了更長的匹配信息;在本文的實(shí)驗(yàn)中,n 取1~4.BLEU 的缺點(diǎn)是不管匹配多大的n-gram,都會(huì)同等對(duì)待其重要性.Meteor 是將模型給出的譯文與參考譯文進(jìn)行詞對(duì)齊處理,通過計(jì)算詞匯完全匹配、詞干匹配和同義詞匹配的準(zhǔn)確率、召回率和F 值進(jìn)行評(píng)測(cè), 其初衷是避免生成很“碎”的句子,ROUGE 則是通過計(jì)算召回率來評(píng)測(cè)句子的匹配程度.

      針對(duì)上述3 個(gè)評(píng)價(jià)準(zhǔn)則,在COCO 數(shù)據(jù)集上分別評(píng)估Google NIC、soft-attention、本文模型,評(píng)估結(jié)果如表1 所示:

      表1 不同模型在MSCOCO 數(shù)據(jù)集上的得分Table 1 Scores for different models on MSCOCO dataset

      從評(píng)價(jià)結(jié)果來看,本文模型的各個(gè)評(píng)價(jià)指標(biāo)均優(yōu)于NIC 和soft-attention 模型.

      本文在MSCOCO 測(cè)試集中選取了所有圖像進(jìn)行實(shí)驗(yàn),部分實(shí)驗(yàn)結(jié)果如圖4 所示.每幅圖像下方對(duì)應(yīng)的句子是本文的模型描述圖像生成的句子.由實(shí)驗(yàn)結(jié)果可知,經(jīng)本文模型翻譯的句子與圖像實(shí)際的內(nèi)容相比,句式完整,所表示的含義準(zhǔn)確且有意義.

      3.3 結(jié)果分析

      編碼器的任務(wù)是描述圖像所包含的對(duì)象及其相互關(guān)系,從而表達(dá)不同對(duì)象的屬性、特征和所涉及的活動(dòng).從圖像的局部區(qū)域來看,常常能夠看到圖像所包含的細(xì)節(jié)信息,比如目標(biāo)及其屬性等.細(xì)節(jié)信息通常描述了圖像的局部特征,分布在相對(duì)不大的圖像區(qū)域里.從圖像的整體區(qū)域來看,往往能夠發(fā)現(xiàn)圖像的全局信息,比如目標(biāo)之間的相互關(guān)系以及體現(xiàn)圖像整體結(jié)構(gòu)的場(chǎng)景等.這些較大尺度范圍的信息反映了圖像的全局特征,分布在整個(gè)圖像中.本文采用InceptionV3 和VGG16 網(wǎng)絡(luò)模型將提取的圖像局部特征和全局特征連接起來形成編碼器的結(jié)果,然后將其全部送入解碼器進(jìn)行句子的翻譯.在MSCOCO 數(shù)據(jù)集上將本文方法與基于圖像局部特征的soft-attention 模型進(jìn)行了對(duì)比分析,其注意力權(quán)重可視化圖如圖4 所示.

      圖5 包括3 組可視化圖,而每一組圖下方的英文句子給出了本文模型對(duì)應(yīng)原圖生成的語言.左邊為原圖,中間圖和右圖分別給出了本文模型和soft-attention 模型關(guān)于句中下劃線單詞的注意力權(quán)重可視化結(jié)果.在圖(a)中,court 在整體圖像所占比例較大,屬于圖像的場(chǎng)景信息.與soft-attention 模型相比,本文模型更加關(guān)注球場(chǎng)場(chǎng)地、球網(wǎng)和球拍部分,以及三者之間的關(guān)聯(lián)關(guān)系,其中對(duì)球場(chǎng)的關(guān)注度最大.Soft-attention 模型方法則更加關(guān)注圖像上半部分,這部分信息包含了較少的court 信息.因此,本文模型在理解圖像視覺區(qū)域目標(biāo)和生成描述圖像的目標(biāo)語句方面都更為合理而準(zhǔn)確.在圖(b)中,bear 在圖像所占比例很大,屬于場(chǎng)景信息.當(dāng)生成和描述bear時(shí),本文模型比原模型更加關(guān)注圖像中泰迪熊的頭部.在圖(c)中,當(dāng)生成airplane 時(shí),本文模型更加關(guān)注飛機(jī)以及場(chǎng)地之間的關(guān)聯(lián)性.由上述分析可知:相比于只關(guān)注圖像局部信息的模型,本文模型在生成圖像的描述文字時(shí)關(guān)注圖像的位置更加合理,能夠更準(zhǔn)確地發(fā)現(xiàn)圖像目標(biāo)之間的語義關(guān)系,也更能理解整個(gè)圖像的場(chǎng)景信息.

      圖4 本文模型對(duì)圖像的文字描述結(jié)果Figure 4 Results of the proposed model for image caption

      4 結(jié) 語

      本文針對(duì)已有圖像描述生成模型存在的不足,提出了一種結(jié)合局部和全局特征的帶有注意力機(jī)制的圖像描述生成模型.在圖像編碼階段,本文通過全局特征和局部特征相結(jié)合的方式獲得了更加完整的圖像信息,在這種情況下注意力機(jī)制生成的每一個(gè)單詞均附帶圖像場(chǎng)景的整體信息,因此本文模型輸出的結(jié)果與圖像場(chǎng)景一致性更好.將本文提出的模型在微軟COCO 數(shù)據(jù)集上進(jìn)行模型訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果表明:本文模型能夠關(guān)注圖像合理的位置,充分描述圖像目標(biāo)之間的活動(dòng)關(guān)系,準(zhǔn)確挖掘整個(gè)圖像的場(chǎng)景信息,生成更準(zhǔn)確、更完整、更有意義的句子.

      圖5 本文模型與soft-attention 模型的注意力權(quán)重可視化圖Figure 5 Visualization of attention weight by the proposed model and soft-attention model

      猜你喜歡
      解碼器編碼器全局
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      基于FPGA的同步機(jī)軸角編碼器
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      武宣县| 怀仁县| 东光县| 太仆寺旗| 轮台县| 桐乡市| 哈密市| 成都市| 宜兴市| 峨山| 长丰县| 竹北市| 临武县| 河西区| 全州县| 本溪市| 莱西市| 宜川县| 巨鹿县| 崇义县| 平远县| 中江县| 岳普湖县| 泗阳县| 新郑市| 怀化市| 阳谷县| 安化县| 炎陵县| 武穴市| 中方县| 嘉善县| 拜城县| 铜陵市| 尤溪县| 芒康县| 高雄市| 邵东县| 阳泉市| 绥江县| 上林县|