摘 要:圖像描述是一個綜合性問題,涉及自然語言處理領(lǐng)域和計算機(jī)視覺領(lǐng)域。隨著人工智能技術(shù)的發(fā)展,圖像特征提取技術(shù)和文本生成技術(shù)都得到了長足的進(jìn)步,將兩者結(jié)合的圖像描述生成技術(shù)也越來越受學(xué)術(shù)界和工業(yè)界的重視。本文介紹了圖像描述生成技術(shù)的研究背景及國內(nèi)外研究現(xiàn)狀,對現(xiàn)有模型進(jìn)行了詳細(xì)的分類概括:基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法、基于生成的圖像描述生成方法。并總結(jié)闡述了該領(lǐng)域面臨的問題和挑戰(zhàn)。
關(guān)鍵詞:圖像描述;特征提取;文本生成;自然語言處理;計算機(jī)視覺
一、引言
隨著科學(xué)技術(shù)的發(fā)展,圖像已然成為人類記錄日常生活的重要信息組成部分,圖像描述[1]是一個將計算機(jī)視覺[2]和自然語言處理[3]領(lǐng)域相結(jié)合的綜合性研究問題。其主要目標(biāo)是運用深度學(xué)習(xí)[4]中的卷積神經(jīng)網(wǎng)絡(luò)去檢測圖像中的關(guān)鍵物體,并且能夠準(zhǔn)確理解圖像中物體與物體之間的邏輯關(guān)系。在實際場景中,由于圖像可能包含各種復(fù)雜的物體,并且物體之間還存在復(fù)雜的邏輯關(guān)系,因此如何有效地去提取物體,并能準(zhǔn)確理解物體之間的聯(lián)系,成為了解決圖像描述任務(wù)的關(guān)鍵點。本文介紹了圖像描述由傳統(tǒng)的基于圖像輪廓、色彩、紋理等視覺特征[5]圖像處理,向高層次的基于圖像語義信息的處理方式發(fā)展的歷程。
二、國內(nèi)外研究現(xiàn)狀
結(jié)合國內(nèi)外研究人員對圖像描述生成方法的研究以及在不同時期采取的不同關(guān)鍵技術(shù),早期的圖像處理方法是基于傳統(tǒng)機(jī)器學(xué)習(xí)[6],隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,實現(xiàn)圖像描述的方法也在不斷更迭。針對這些目標(biāo),實現(xiàn)圖像描述任務(wù)主要有3種生成文字的方法:基于模板填充的方法,基于檢索的方法和基于生成的方法。
基于模板填充的方法主要指的是在人為規(guī)定的一系列句法模板中留出部分空白,然后再基于提取出的圖像特征獲得目標(biāo)、動作及屬性,將它們填充進(jìn)入空白部分,從而獲得對某一圖像的描述。這種方法的代表有Li et al[7]., Kulkarni et al.[8]等,這兩種方法都是利用圖像處理的一些算子提取出圖像的特征,經(jīng)過SVM[9]分類等,得到圖像中可能存在的目標(biāo)。根據(jù)提取出的目標(biāo)以及它們的屬性利用CRF[10]或者是一些認(rèn)為制定的規(guī)則來恢復(fù)成對圖像的描述。這種方法雖然保證了語義和句法正確性,但是完全確定的模板無法產(chǎn)生多樣性的輸出,故現(xiàn)在這種方法使用較少。
基于檢索的方法指的是將大量的圖片描述存于一個集合,再通過比較描述圖片和訓(xùn)練集中圖片描述的相似性獲得一個待選句集,再從中選取該圖片的描述。谷歌[11]在2014年提出的Encoder-Decoder(編碼-解碼)模型,使得在圖像描述任務(wù)中使用卷積神經(jīng)網(wǎng)絡(luò)作為圖像特征編碼器成為主流的做法。微軟[12]在2015年提出了一種在模型的編碼端改進(jìn)方法,該方法使用多實例訓(xùn)練一個詞探測器,將獲得的詞語作為輸入使用語言模型產(chǎn)生一系列關(guān)于該圖片的描述句子,最后從中選擇結(jié)果句子。這種方法保證了句法正確性,但是無法保證語義正確性、以及對新圖片進(jìn)行準(zhǔn)確的描述。
目前使用較多的是基于生成的方法,基于生成的方法大致流程是先將圖像信息編碼后作為輸入送入語言模型,再利用語言模型產(chǎn)生全新的描述。Lu等人[13]和Anderson等人[14]都在各自提出的模型中運用了目標(biāo)檢測[15]技術(shù),首先提取出圖像中可能的物體,再進(jìn)行生成相應(yīng)文本描述。絕大部分基于深度學(xué)習(xí)的圖像描述方法使用的是基于生成的方法,也是目前效果最好的圖像描述模型上普遍應(yīng)用方法。它在句法正確性,語義準(zhǔn)確性和對新圖片的泛化能力上都達(dá)到了較好的效果,但是運用深度學(xué)習(xí)之后,生成的描述變得越來越流暢,但是相關(guān)性卻逐漸降低。Xu等人[16]提出將注意力機(jī)制應(yīng)用于表征圖像特征中,其基本思想是利用卷積層獲取圖像特征后,對圖像特征進(jìn)行注意力加權(quán),之后再送入RNN[17]中進(jìn)行解碼。由于其良好的效果和可解釋性,注意力機(jī)制已經(jīng)成為一種主流的模型構(gòu)件。
三、圖像描述生成算法
基于生成的圖像描述方法的實現(xiàn)過程是先將圖像信息編碼后作為輸入送入語言模型,再利用語言模型產(chǎn)生全新的描述,其在句法正確性,語義準(zhǔn)確性和對新圖片的泛化能力上都達(dá)到了較好的效果。
簡單的基于生成的圖像描述方法,是由兩部分組成CNN模型和LSTM模型。首先,將圖像輸入到CNN模型中,得到圖像的特征;然后,對圖像特征以one-hot方式進(jìn)行編碼;最后,將特征編碼輸入到LSTM模型中,得到相應(yīng)的描述??梢钥吹竭@種方法較為簡單,算是利用計算機(jī)視覺和自然語言處理的結(jié)合對圖像描述的一次嘗試,其模型的優(yōu)化目標(biāo)如公式(1)所示。
(1)
其中I代表圖像,S代表對應(yīng)的描述,代表模型的參數(shù)。在給定圖像和參數(shù)時使生成描述SDE概率最大,從而得到參數(shù),以此來訓(xùn)練模型。基于語言的模型旨在學(xué)習(xí)視覺內(nèi)容和文本句子的公共空間中的概率分布,以生成具有更靈活的句法結(jié)構(gòu)的新穎句子。
3.1 注意力機(jī)制的引入
注意力機(jī)制在機(jī)器翻譯領(lǐng)域的成功引起了圖像描述領(lǐng)域?qū)ζ涞呐d趣。Zhang等人[18]于2016年提出將注意力機(jī)制應(yīng)用于表征圖像描述的圖像特征中。其基本思想是利用卷積層獲取圖像特征后,對圖像特征進(jìn)行注意力加權(quán),之后再送入RNN中進(jìn)行解碼。該文章提出了兩種注意力機(jī)制:軟注意力機(jī)制(soft-attention)和硬注意力機(jī)制(hard-attention)。軟注意力機(jī)制對每一個圖像區(qū)域?qū)W習(xí)一個大小介于0與1之間的注意力權(quán)重,其和為1,再將各圖像區(qū)域進(jìn)行加權(quán)求和;硬注意力機(jī)制則將最大權(quán)重置為1,而將其他區(qū)域權(quán)重置0,以達(dá)到僅注意一個區(qū)域的目的。
根據(jù)前面的介紹,注意力機(jī)制的作用是生成一組權(quán)重,這里用表示,其中t表示時刻他,i則表示ai對應(yīng)的權(quán)重,其生成過程如公式(1)、公式(3)所示。
(2)
(3)
其中為上一時刻解碼端得到的隱含向量;通常為一層神經(jīng)網(wǎng)絡(luò),常用的一種映射關(guān)系如公式(4)所示。
(4)
在生成每一個單詞時,先使用深度網(wǎng)絡(luò)來計算各個區(qū)域?qū)?yīng)的權(quán)重,再將權(quán)重乘上對應(yīng)區(qū)域的特征,將結(jié)果輸入到LSTM來得到這一時刻的單詞,直到生成整個句子。
一種具有創(chuàng)新性的改進(jìn)圖像特征的注意力機(jī)制來自于Anderson等人[19]于2018年提出的Bottom-Up and Top-Down Attention。其主要創(chuàng)新在于使用Faster R-CNN[20]進(jìn)行目標(biāo)檢測,獲得對應(yīng)檢測目標(biāo)和標(biāo)簽,達(dá)到自底向上的注意力機(jī)制的的效果。此外,其還在解碼端使用了注意力LSTM層,對輸入的圖片特征根據(jù)輸出的語言進(jìn)行實時的注意力調(diào)整。這種注意力機(jī)制模式使得模型能夠更加關(guān)注圖片中更明顯和重要的目標(biāo)的同時使得描述更有主次感,即對于圖像中明顯和重要的目標(biāo)進(jìn)行更多關(guān)注。
注意力機(jī)制由計算機(jī)視覺引入,在自然語言處理領(lǐng)域獲得長足發(fā)展。而在圖像描述這樣結(jié)合計算機(jī)視覺和自然語言處理的領(lǐng)域,注意力機(jī)制無疑是最有發(fā)展?jié)摿Φ难芯糠较蛑弧?/p>
3.2 生成對抗方法
生成對抗網(wǎng)絡(luò)[21],其基本思想類似于非零和博弈。其基本架構(gòu)包括一個生成器和一個鑒別器。生成器的目標(biāo)是最大化擬合真實數(shù)據(jù)的概率分布,使得產(chǎn)生的虛假樣本“以假亂真”,而鑒別器的訓(xùn)練目標(biāo)則是對真實數(shù)據(jù)和生成器產(chǎn)生的虛假數(shù)據(jù)進(jìn)行分類,以期在訓(xùn)練中增強(qiáng)分辨虛假數(shù)據(jù)的能力。
Dai 等人[22]在2017年的提出了使用Conditional GAN 來實現(xiàn)圖像描述,其動力在于產(chǎn)生更富多樣性的圖像描述語句。其核心結(jié)構(gòu)類似于傳統(tǒng)的GAN結(jié)構(gòu),由一個生成器和一個判別器組成。生成器使用傳統(tǒng)的encoder-decoder結(jié)構(gòu),輸入一副圖像得到偽造的圖像。值得提及的是,該文通過隨機(jī)初始化生成器LSTM隱藏層向量z,通過控制該向量方差來控制為同一張圖片產(chǎn)生的不同結(jié)果的多樣性。采用蒙特卡洛的方法,將句子進(jìn)行補充完整。然后才交給判別器進(jìn)行打分,獲得獎勵信號。根據(jù)得到的獎勵信號,再進(jìn)行梯度的調(diào)整,進(jìn)而完成產(chǎn)生器 G 的優(yōu)化。所以,期望累計獎賞表示如公式(5)所示。
(5)
其梯度如公式(6)所示:
(6)
其中,為強(qiáng)化學(xué)習(xí)中的策略(Policy),講條件,以及接下來的單詞作為輸入,并且產(chǎn)生一個在拓展詞匯表中的條件分布,即產(chǎn)生的所有單詞加一個表示語句結(jié)束的符號,記為。而判別器通過LSTM在每一步隨機(jī)接收真實描述語句和偽造的描述語句,并接受一個圖像特征,用于為圖像描述語句打分,以期正確的區(qū)分真實答案與偽造答案。這項工作引入了非常典型的GAN網(wǎng)絡(luò)結(jié)構(gòu),并在實驗中證明了相比于傳統(tǒng)方法其的確有增強(qiáng)結(jié)果多樣性的效果。
此外,一些使用對抗樣本對圖像描述進(jìn)行攻擊以檢測魯棒性的工作,如Chen 等人[23]使用圖像對抗樣本進(jìn)行攻擊,Shekher等人[24]通過使用語義對抗樣本評價模型魯棒性等工作,在評價模型方面提供了新思路。而Dai等人[25]則使用對抗樣本來訓(xùn)練模型,以期獲得更多樣和可靠的結(jié)果。
3.3 強(qiáng)化學(xué)習(xí)方法
強(qiáng)化學(xué)習(xí)的方法在人工智能的各個領(lǐng)域有廣闊的前景,將其應(yīng)用于圖像描述領(lǐng)域也會解決一些棘手的問題。前文提到使用最大似然函數(shù)對圖像進(jìn)行訓(xùn)練存在一些問題:鼓勵泛化的問題,損失函數(shù)和評估方法不一致等問題。使用強(qiáng)化學(xué)習(xí)方法直接最大化獎勵則可以避免這些問題。
Zhou等人[26]發(fā)表在CVPR2017上的基于深度強(qiáng)化學(xué)習(xí)的圖像描述方法將完整的強(qiáng)化學(xué)習(xí)方法引入生成過程。該工作將圖像描述任務(wù)看作決策生成的過程,輸入圖片和當(dāng)前產(chǎn)生文字作為環(huán)境。策略網(wǎng)絡(luò)是典型的encoder-decoder結(jié)構(gòu),通過提供基于當(dāng)前狀態(tài)預(yù)測下一個單詞的自信度作為一個本地的向?qū)?而價值網(wǎng)絡(luò)結(jié)構(gòu)類似于策略網(wǎng)絡(luò),通過評估當(dāng)前狀態(tài)的所有可能的擴(kuò)展來充當(dāng)全局性和前瞻性的向?qū)А嵸|(zhì)上,它調(diào)整了預(yù)測正確的單詞的目標(biāo),以生成接近特征區(qū)域的描述。獎勵由視覺-語義編碼決定。其中獎勵的一部分來自句子編碼,即RNN的最后一個隱層。視覺編碼即CNN圖像特征。通過聯(lián)合訓(xùn)練視覺語義編碼,最終的獎勵由其歐氏距離決定。
強(qiáng)化學(xué)習(xí)的特點決定其對于文本生成任務(wù)的訓(xùn)練是非常合適的,現(xiàn)有的實驗工作表明強(qiáng)化學(xué)習(xí)方法在提高生成質(zhì)量和多樣性,合理化訓(xùn)練方法等方面比傳統(tǒng)方法更有優(yōu)勢。
四、總結(jié)
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖像的實體特征提取和自然語言處理相結(jié)合的多模態(tài)問題也得到了快速發(fā)展,使得對于圖像描述達(dá)到了一個新的階段。圖像描述生成技術(shù)已經(jīng)廣泛應(yīng)用于不同的領(lǐng)域,如新聞傳播、智慧城市、無人駕駛、智能家居等領(lǐng)域。本文簡述了圖像描述任務(wù)的研究背景以及對國內(nèi)外研究現(xiàn)狀進(jìn)行了討論。研究了以機(jī)器學(xué)習(xí)方法為主的基于模板的圖像描述方法、以語義為特征信息的基于檢索的圖像描述方法和以深度學(xué)習(xí)方法為主的基于生成的圖像描述方法。結(jié)合之前的論述可以發(fā)現(xiàn),實現(xiàn)圖像描述任務(wù)的方法朝著更自然、更有效、更靈活的方向發(fā)展。
針對在解決圖像描述問題中面臨的挑戰(zhàn)與問題,可以考慮結(jié)合不同的神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制,充分融合不同層次的圖像特征和文本特征向量。為了得到更加豐富的語義信息,可以融合生成對抗網(wǎng)絡(luò),增加模型生成文本的數(shù)量,以便于在保留語義內(nèi)容的基礎(chǔ)上,使得生成的圖像描述語句語法更加豐富;還可以嵌入基于圖的模型,有效地抓住圖像之間的關(guān)系,這樣深度學(xué)習(xí)網(wǎng)絡(luò)更有利于圖像描述算法生成更好的文本內(nèi)容,提升圖像描述的性能。
參考文獻(xiàn)
[1] Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Netw, 2015, 61:85-117.
[2] Chen X, Zitnick C L. Mind's eye: A recurrent visual representation for image caption generation[J]. 2014.
[3] Faugeras O. Three-dimensional computer vision: a geometric viewpoint[M]// Three-dimensional computer vision, a geometric viewpoint. 1993.
[4] Brill E. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging[J]. Computational Linguistics, 1995, 21(4):543--565.
[5] Ullman S, Vidalnaquet M, Sali E. Visual features of intermediate complexity and their use in classification.[J]. Nature Neuroscience, 2002, 5(7):682-687.
[6] Press M. Journal of machine learning research[J]. Journal of Machine Learning Research, 2008.
[7] Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C]// Fifteenth Conference on Computational Natural Language Learning. 2011.
[8] Kulkarni G, Premraj V, Ordonez V, et al. Babytalk: understanding and generating simple image descriptions[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(12):2891-2903.
[9] Schuldt C, Laptev I, Caputo B. Recognizing human actions: a local SVM approach[C]// International Conference on Pattern Recognition. 2004.
[10] Bale T L, Vale W W. CRF and CRF receptors: role in stress responsivity and other behaviors.[J]. Annual Review of Pharmacology & Toxicology, 2004, 44(44):525.
[11] Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]// IEEE Conference on Computer Vision & Pattern Recognition. 2015.
[12] Lu J, Yang J, Batra D, et al. Neural Baby Talk[J]. 2018.
[13] Fang H, Gupta S, Iandola F N, et al. From captions to visual concepts and back.[J]. 2015.
[14] Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic Propositional Image Caption Evaluation[J]. Adaptive Behavior, 2016, 11(4):382-398.
[15] Papageorgiou C P, Oren M, Poggio T. A general framework for object detection[C]// International Conference on Computer Vision. 2002.
[16] Xu, Kelvin, et al. “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.” Computer Science (2015):2048-2057.
[17] Socher R, Karpathy A, Le Q V, et al. Grounded compositional semantics for finding and describing images with sentences[J]. Nlp.stanford.edu, 2013.
[18] Zhang H, Chen W, Tian J, et al. Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention[J]. 2018.
[19] Anderson P, He X, Buehler C, et al. Bottom-Up and Top-Down Attention for Image Captioning and VQA[J]. 2017.
[20] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6):1137-1149.
[21] Liu F , Ren X , Liu Y , et al. simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions[J]. 2018.
[22] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative Adversarial Networks[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680.
[23] Bo D, Fidler S, Urtasun R, et al. Towards Diverse and Natural Image Descriptions via a Conditional GAN[J]. 2017.
[24] Chen H , Zhang H , Chen P Y , et al. Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning[J]. 2018.
[25] Shekhar R, Pezzelle S, Klimovich Y, et al. FOIL it! Find One mismatch between Image and Language caption[J]. 2017.
[26] Ren Z , Wang X , Zhang N , et al. Deep Reinforcement Learning-based Image Captioning with Embedding Reward[J]. 2017.
作者簡介:敬亞嬌(1994.03-),女,漢族,陜西西安人,研究生在讀,智能信息處理與視覺分析研究。