• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種改進(jìn)的全局注意機(jī)制圖像描述方法

      2019-04-22 08:03:08馬書(shū)磊張國(guó)賓石光明
      關(guān)鍵詞:短時(shí)記憶全局神經(jīng)網(wǎng)絡(luò)

      馬書(shū)磊,張國(guó)賓,焦 陽(yáng),石光明

      (1.西安電子科技大學(xué) 人工智能學(xué)院,陜西 西安 710071;2.中國(guó)電子科技集團(tuán)公司第二十七研究所,河南 鄭州 450047)

      圖像描述技術(shù)是通過(guò)計(jì)算機(jī)視覺(jué)及自然語(yǔ)言處理技術(shù)讓計(jì)算機(jī)自動(dòng)描述圖像內(nèi)容。目前圖像描述方法一般分為3類:(1)基于檢索的方法;(2)基于模板的方法;(3)基于神經(jīng)網(wǎng)絡(luò)的方法。其中基于檢索和基于模板的方法因其受限于圖像的人工特征提取和文本的設(shè)計(jì)生成規(guī)則,往往效果并不理想。而基于神經(jīng)網(wǎng)絡(luò)的方法得益于網(wǎng)絡(luò)強(qiáng)大的圖像特征提取能力,在許多計(jì)算機(jī)視覺(jué)應(yīng)用[1]中都取得了非常好的效果。故文中僅針對(duì)基于神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行討論。

      文獻(xiàn)[2]早先提出神經(jīng)圖像描述(Neural Image Caption, NIC)模型,該模型由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)構(gòu)成。模型利用Google Inception[3]網(wǎng)絡(luò)作為圖像特征提取器,同時(shí)利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory, LSTM)作為文本編解碼器。視覺(jué)注意機(jī)制作為一種常用技術(shù),在圖像問(wèn)答[4]、細(xì)粒度分類[5]、動(dòng)作識(shí)別[6]以及三位重建[7]等問(wèn)題中被廣泛應(yīng)用。文獻(xiàn)[8]通過(guò)引入視覺(jué)哨兵機(jī)制,提出一種自適應(yīng)編碼器-解碼器模型。考慮到視覺(jué)注意機(jī)制大都基于固定尺寸感受野,文獻(xiàn)[9]提出基于自底向上和自頂向下的注意機(jī)制的圖像描述方法(Bottom-Up and Top-Down, BUTD),使注意機(jī)制的感受野尺寸可以隨著物體的大小而調(diào)整。

      現(xiàn)有方法中,雖然視覺(jué)注意機(jī)制可以很好地模擬人眼對(duì)圖像局部的理解,但單純的基于視覺(jué)注意機(jī)制其實(shí)并不完全符合人類感知機(jī)制,會(huì)造成圖像全局信息丟失。因此,筆者提出一種改進(jìn)的全局注意機(jī)制圖像描述方法。實(shí)驗(yàn)表明,基于全局注意機(jī)制的方法能夠有效克服全局信息丟失帶來(lái)的語(yǔ)義失真問(wèn)題,并在主觀及客觀性能評(píng)價(jià)中獲得性能提升。

      1 動(dòng) 機(jī)

      基于注意機(jī)制的圖像描述方法可以根據(jù)上下文針對(duì)圖像局部?jī)?nèi)容進(jìn)行增強(qiáng)或抑制,取得了很好效果。然而,目前基于視覺(jué)注意機(jī)制的圖像描述方法雖然可以有效加強(qiáng)圖像各個(gè)不同局部特征,但正如下文所述,單純的視覺(jué)注意模型并不完全符合人類感知機(jī)制。

      人類感知機(jī)制的研究[10-11]表示,人們可以通過(guò)感知周圍整體環(huán)境和高效地轉(zhuǎn)移局部注意力來(lái)完成對(duì)周圍場(chǎng)景的深刻理解。目前基于視覺(jué)注意機(jī)制的方法只模擬了后一點(diǎn),但缺少對(duì)圖像場(chǎng)景的整體感知,導(dǎo)致網(wǎng)絡(luò)生成的文本不能夠生動(dòng)準(zhǔn)確地描述圖像的場(chǎng)景內(nèi)容。如圖1所示,可以看出,生成的文本雖然可以大致描述圖像主體,但錯(cuò)誤理解了場(chǎng)景整體內(nèi)容(如圖1(a)中工藝場(chǎng)景,圖1(b)中的健身房場(chǎng)景等)。

      標(biāo)簽文本:一個(gè)穿著白色上衣的男人在房間里制作手工品基于自底向上方法:一個(gè)穿著白色上衣的男人在房間里打臺(tái)球大廳里有三個(gè)穿著運(yùn)動(dòng)服抬起右臂的人在健身一群穿著運(yùn)動(dòng)服的女人在運(yùn)動(dòng)場(chǎng)上打排球

      圖1 全局信息缺失導(dǎo)致網(wǎng)絡(luò)生成的文本不能準(zhǔn)確描述圖像場(chǎng)景

      因此,所提技術(shù)通過(guò)模擬人類感知機(jī)制全過(guò)程,在現(xiàn)有基于視覺(jué)注意機(jī)制方法的基礎(chǔ)上,加入全局先驗(yàn)來(lái)指導(dǎo)網(wǎng)絡(luò),以生成更加準(zhǔn)確、生動(dòng)的描述文本,并提出改進(jìn)的全局注意機(jī)制中文本描述方法。該方法先通過(guò)設(shè)計(jì)全局網(wǎng)絡(luò)來(lái)提取圖像全局特征fg,然后利用fg在長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)迭代過(guò)程中指導(dǎo)生成局部特征向量fatt,最后通過(guò)基于全局特征的fatt和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)隱狀態(tài)h生成當(dāng)前文本,并提升生成文本質(zhì)量。

      2 基于全局注意機(jī)制的圖像描述網(wǎng)絡(luò)設(shè)計(jì)

      2.1 基于神經(jīng)網(wǎng)絡(luò)的圖像描述框架

      典型的基于視覺(jué)注意機(jī)制的圖像描述網(wǎng)絡(luò)框架如圖2所示。主要包括兩個(gè)子網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。

      圖2 基于神經(jīng)網(wǎng)絡(luò)的圖像描述框架

      其中,圖像I首先經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,得到圖像高級(jí)語(yǔ)義特征f。其次圖像特征f將會(huì)通過(guò)注意網(wǎng)絡(luò)進(jìn)行編碼,得到加權(quán)后的圖像特征fatt。注意網(wǎng)絡(luò)以圖像特征和當(dāng)前時(shí)刻長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的狀態(tài)作為輸入,通過(guò)生成圖像特征對(duì)應(yīng)的權(quán)值,對(duì)圖像特征進(jìn)行加權(quán)。不同的權(quán)值大小反映了該時(shí)刻圖像局部特征之間受關(guān)注程度的不同。然后,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)將加權(quán)后的圖像特征fatt、當(dāng)前時(shí)刻隱狀態(tài)ht和細(xì)胞狀態(tài)ct,以及當(dāng)前時(shí)刻詞向量WeΠt作為輸入,迭代學(xué)習(xí)不同時(shí)刻詞向量之間的關(guān)系,并通過(guò)歸一化指數(shù)函數(shù)對(duì)隱狀態(tài)ht進(jìn)行解碼,得到當(dāng)前時(shí)刻單詞yt。最后,上述步驟在時(shí)序上進(jìn)行循環(huán),直到生成完整文本。需要注意的是,在基于視覺(jué)注意機(jī)制的圖像描述方法中,注意網(wǎng)絡(luò)雖然增強(qiáng)了圖像局部特征,但同時(shí)也減弱了圖像的全局特征。

      2.2 基于全局注意機(jī)制的圖像描述框架

      基于人類感知機(jī)制,在傳統(tǒng)圖像描述網(wǎng)絡(luò)結(jié)構(gòu)上加入了全局先驗(yàn)通路,提出基于全局先驗(yàn)的圖像描述框架結(jié)構(gòu),如圖3所示。

      圖3 基于全局注意機(jī)制的圖像描述框架

      如圖3中虛線所示,圖像I首先經(jīng)過(guò)全局網(wǎng)絡(luò)進(jìn)行特征提取,得到全局特征向量fglb。全局網(wǎng)絡(luò)的設(shè)計(jì)可以采用經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)。然后,fglb、fatt和當(dāng)前詞向量WeΠt將一同作為輸入傳給長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)。在長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的設(shè)計(jì)中,全局特征向量fglb將會(huì)和局部特征向量fatt進(jìn)行融合,以保證網(wǎng)絡(luò)在學(xué)習(xí)全局信息的基礎(chǔ)上學(xué)習(xí)圖像局部特征。

      2.3 基于全局注意機(jī)制的圖像描述網(wǎng)絡(luò)模型

      在圖像描述任務(wù)中,目前表現(xiàn)最好的神經(jīng)網(wǎng)絡(luò)是基于自底向上和自頂向下的注意機(jī)制的圖像描述方法(BUTD),下文簡(jiǎn)稱為基于自底向上的方法。該算法以提出的網(wǎng)絡(luò)框架為基礎(chǔ),對(duì)自底向上的方法網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化改進(jìn),提出基于全局注意機(jī)制的圖像描述方法。網(wǎng)絡(luò)核心部分如圖4所示。

      圖4 基于全局注意機(jī)制的圖像描述網(wǎng)絡(luò)模型

      (1)

      3 實(shí)驗(yàn)及分析

      3.1 數(shù)據(jù)集

      為了驗(yàn)證模型的有效性,選取具有挑戰(zhàn)性的 “AI Challenger全球AI挑戰(zhàn)賽” 中文數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。在該數(shù)據(jù)集中,每一張圖片均有5句中文描述作為標(biāo)簽。數(shù)據(jù)集總共包含30萬(wàn)張圖片,對(duì)應(yīng)150萬(wàn)句中文描述。其中包括訓(xùn)練集210 000張,驗(yàn)證集30 000張,測(cè)試集60 000張。

      3.2 實(shí)現(xiàn)細(xì)節(jié)

      實(shí)驗(yàn)采用VGG-16網(wǎng)絡(luò)結(jié)構(gòu)卷積部分作為全局網(wǎng)絡(luò)進(jìn)行圖像全局特征提取,并將所有輸入圖像I均縮放為448×448像素大小。因此conv53輸出特征圖大小為[512,28,28],經(jīng)過(guò)全局平均池化后,全局特征向量f53大小為[512,1,1]。APN網(wǎng)絡(luò)中Faster R-CNN產(chǎn)生512個(gè)候選特征區(qū)域,即K=512。生成的特征向量fatt大小為[512,1,1]。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中層數(shù)為2,隱狀態(tài)h和細(xì)胞狀態(tài)c的長(zhǎng)度均被設(shè)置為512,循環(huán)次數(shù)由生成文本的結(jié)尾標(biāo)識(shí)符動(dòng)態(tài)確定。對(duì)于中文文本描述來(lái)說(shuō),采用Jieba分詞對(duì)文本進(jìn)行切割,然后利用Word2Vec方法進(jìn)行編碼,得到We。

      網(wǎng)絡(luò)訓(xùn)練過(guò)程中批大小設(shè)置為20,學(xué)習(xí)率為5×10-4,最大迭代周期為15。網(wǎng)絡(luò)訓(xùn)練采用Adam優(yōu)化算法,其中動(dòng)量設(shè)置為[0.9,0.999],權(quán)值衰減為0.001。

      3.3 結(jié)果對(duì)比

      將當(dāng)前圖像描述任務(wù)中最優(yōu)網(wǎng)絡(luò)BUTD作為基準(zhǔn),和提出的方法在中文數(shù)據(jù)集上進(jìn)行深入對(duì)比。在客觀對(duì)比方面,采用BLEU[12]、METEOR[13]、ROUGEL和CIDEr[14]等圖像描述評(píng)價(jià)標(biāo)準(zhǔn),如表1所示。

      表1 客觀評(píng)價(jià)指標(biāo)對(duì)比

      如上表所示,所提方法在相同的訓(xùn)練條件下,各項(xiàng)客觀評(píng)價(jià)指標(biāo)均優(yōu)于基于自底向上的方法。其中在BLEU評(píng)價(jià)指標(biāo)上平均比基于自底向上的方法高出0.003,在METEOR、ROUGEL和CIDEr指標(biāo)上分別高出0.02、0.001和0.24。除了客觀評(píng)價(jià)指標(biāo),還進(jìn)行大量主觀對(duì)比實(shí)驗(yàn),如圖5所示。

      基于自底向上方法: 全局注意機(jī)制方法: 一個(gè)穿著白色上衣的男人在房間里打臺(tái)球 一個(gè)穿著白色上衣的男人在房間里制作工藝品 一群穿著運(yùn)動(dòng)服的女人在運(yùn)動(dòng)場(chǎng)上打排球 三個(gè)穿著短袖的人在健身房鍛煉身體 兩個(gè)戴著帽子的男人站在道路的機(jī)器旁 兩個(gè)戴著帽子的男人在室外的道路上交談 基于自底向上方法: 全局注意機(jī)制方法: 大棚里有一個(gè)穿著深色褲子的男孩在摘草莓 大棚里有兩個(gè)穿著各異的人在摘草莓 一個(gè)左手拿著球桿的女人蹲在高爾夫球場(chǎng)上 一個(gè)左手拿著高爾夫球桿的女人蹲在綠茵茵的球場(chǎng)上 一個(gè)右手拿著話筒的男人坐在廣告牌前說(shuō)話 一個(gè)右手拿著話筒的男人坐在廣告牌前的沙發(fā)上講話

      圖5 模型生成文本對(duì)比

      在以上對(duì)比實(shí)驗(yàn)中可以看到,在樣例(a)、(b)、(c)中,基于自底向上的方法生成的文本甚至錯(cuò)誤的描述了圖像內(nèi)容,而基于全局注意機(jī)制的方法由于加入了全局先驗(yàn)信息,可以準(zhǔn)確的表述圖像內(nèi)容。除此之外,基于全局注意機(jī)制的方法在描述上更傾向加入修飾性的形容詞,如“紅毯上”“綠茵茵”“汽車旁”等,使生成的文本更自然、生動(dòng),描述了更加豐富的圖像細(xì)節(jié)。

      4 結(jié)束語(yǔ)

      算法基于人類感知機(jī)制,在視覺(jué)注意模型的基礎(chǔ)上加入圖像全局信息,提出一種改進(jìn)的全局先驗(yàn)圖像描述方法。該方法通過(guò)融合圖像全局特征和區(qū)域局部特征,解決基于視覺(jué)注意機(jī)制方法中的全局信息丟失的問(wèn)題。實(shí)驗(yàn)證明,基于全局注意機(jī)制的方法在客觀評(píng)價(jià)標(biāo)準(zhǔn)上優(yōu)于目前最好算法;在客觀評(píng)價(jià)中,該方法可以更準(zhǔn)確地描述圖像的整體內(nèi)容,并生成更加細(xì)致、生動(dòng)、形象的自然語(yǔ)言文本。

      猜你喜歡
      短時(shí)記憶全局神經(jīng)網(wǎng)絡(luò)
      基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的動(dòng)力電池剩余容量預(yù)測(cè)方法
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      短時(shí)記憶、長(zhǎng)時(shí)記憶對(duì)英語(yǔ)聽(tīng)力的影響
      短時(shí)記憶理論的影響
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      孟津县| 绿春县| 禹州市| 大埔县| 淮南市| 丰台区| 宁明县| 灵台县| 开原市| 香河县| 津市市| 胶南市| 青龙| 库车县| 凤山市| 莱西市| 筠连县| 清水县| 景德镇市| 金寨县| 榕江县| 中西区| 高青县| 灯塔市| 平泉县| 咸宁市| 紫阳县| 迁西县| 张家口市| 海宁市| 个旧市| 大宁县| 中江县| 甘洛县| 长沙县| 天水市| 达拉特旗| 株洲县| 万安县| 白河县| 赣榆县|