張欣怡 李永剛 季興隆 孫紅蓮
摘要:圖像事件描述是根據(jù)圖像特征數(shù)據(jù)再結(jié)合自然語言處理技術(shù),輸出圖像事件的語句描述的技術(shù)。圖像事件的描述,對圖片分類、查詢等有著極高效率,為了達到更精確的描述效果,本文提出基于深度殘差注意力的圖像事件描述方法。該方法以ResNet的網(wǎng)絡結(jié)構(gòu)為基礎(chǔ),聯(lián)合分離出的全局注意力與局部注意力,關(guān)注圖像事件中心事件,生成圖像事件描述。在COCO數(shù)據(jù)集上的實驗表明,本文提出的方法能更好關(guān)注事件發(fā)生區(qū)域,對抽象事件描述更為準確。
關(guān)鍵詞:圖像事件描述;深度學習;注意力機制
Abstract: Image event description is a technology that outputs sentence descriptions of image events based on image feature data combined with natural language processing technology. The description of image events has extremely high efficiency for image classification and query. In order to achieve a more accurate description effect, this paper proposes an image event description method based on deep residual attention. Based on the network structure of ResNet, this method combines the separated global attention and local attention, focuses on the central event of the image event, and generates the image event description. Experiments on the COCO data set show that the method proposed in this paper can better focus on the event occurrence area and describe abstract events more accurately.
Key words: image event description; deep learning; attention mechanism
在過去圖像描述研究中,主要采用傳統(tǒng)產(chǎn)生式模型,把圖像與文本作為輸入輸出數(shù)據(jù),通過尋找底層特征與標簽之間的相關(guān)性轉(zhuǎn)換成相關(guān)語義信息。本文在前人圖像描述研究的基礎(chǔ)上,將基于產(chǎn)生式模型的深度學習方法應用到圖像邏輯語義描述問題上。
Faster-RCNN模型是在CNN模型[1]的基礎(chǔ)上,能夠更加快速更加高效地獲取圖像對象的候選區(qū)域,速度更快,準確率更高,能有效解決因為網(wǎng)絡疊加許多層厚帶來的性能快速下降問題[5]。早期的人工語義分析缺點多,耗時、費力、不能成批分析。雖然現(xiàn)有的圖像描述模型可以使用神經(jīng)網(wǎng)絡(RNNs)來達到預期的結(jié)果,但難以保證我們關(guān)心的對象包含在生成的描述中,例如在圖像中模糊不明顯的對象。一旦在我們關(guān)注的對象在訓練中被忽略時,問題就會愈發(fā)復雜。因此我們采用在較大規(guī)模的數(shù)據(jù)集上訓練聯(lián)合的全局注意力和局部注意力[2],通過注意力機制來關(guān)注不同類型的圖像細節(jié),能更好描述抽象事件以及多義性事件,使得圖像描述具有更好的邏輯性,在遇到事件較不明顯的圖像時,能更方便快速地查詢。
1 基于深度學習與聯(lián)合注意力的事件描述模型
圖像事件描述模型是一種深度神經(jīng)網(wǎng)絡模型,主要是由編碼器和解碼器聯(lián)合組成,其框架結(jié)構(gòu)圖如圖1所示。在編碼器端采用了Faster R-CNN的RPN網(wǎng)絡和ResNet[4]來提取圖像的視覺特征,解碼器部分利用RNN的LSTM來負責關(guān)鍵字提取到句子生成。它們?nèi)诤狭寺?lián)合注意力機制來關(guān)注局部信息特征,能更好地描述總體圖像信息。
2 圖像事件描述關(guān)鍵技術(shù)分析
2.1 特征提取模型
在計算機視覺領(lǐng)域,卷積神經(jīng)網(wǎng)絡被廣泛應用,如圖像分類、目標對象檢測與跟蹤等。CNN由多個卷積層、池化層和全連接層構(gòu)成,其強大的視覺表達能力可以學習到更高級的視覺特征。視覺特征逐層傳遞在不同的網(wǎng)絡層間,主要學習紋理、顏色和輪廓等低層視覺特征以及由低層視覺特征再組合而成的高層視覺特征。雖然普通的R-CNN在視覺特征表達能力上有了質(zhì)的飛躍,但對于目前龐大的數(shù)據(jù)集,其訓練步驟、測試速度依然較慢,且極占空間。在此基礎(chǔ)上,如圖2模型所示,本文采用Faster R-CNN算法[7],同樣用CNN提取圖像的特征得到特征圖,利用RPN網(wǎng)絡得到候選區(qū)域,通過ROI pooling得到同等大小的特征后,再送入多分類器,并采用損失函數(shù)對位置進行精修調(diào)整,從而提高了模型的檢測的速度與準確度。
2.2 基于深度殘差網(wǎng)絡的注意力機制
當網(wǎng)絡層數(shù)較低時,不斷加深網(wǎng)絡,有著更好的非線性表達能力,可以學習更加復雜的變換,能更好地擬合特征,更深的網(wǎng)絡層也能學習到更加復雜的表達。但在人們嘗試了將網(wǎng)絡不斷加深后發(fā)現(xiàn),一味地堆疊網(wǎng)絡也可能會導致模型性能更差,即退化問題。深層網(wǎng)絡帶來的梯度不穩(wěn)定、網(wǎng)絡退化的問題始終都是存在的且無法完全消除,因此引入殘差網(wǎng)絡ResNet,來加快計算速度,減少計算消耗。深度殘差網(wǎng)絡是由殘差模塊共同串聯(lián)而成,以殘差深度網(wǎng)絡ResNet 的網(wǎng)絡結(jié)構(gòu)為基礎(chǔ),在較大規(guī)模的數(shù)據(jù)集上訓練深度更深的網(wǎng)絡,使得深度模型在處理圖像描述任務中的泛化能力更強、魯棒性更好。
注意力機制通過一個小型網(wǎng)絡學習得到一組權(quán)值系數(shù),該權(quán)值用來評估各個特征通道的重要程度,然后再賦予合適的權(quán)重。
基于深度殘差網(wǎng)絡的注意力機制,是將SENet與殘差模塊集成在一起,因跨層恒等路徑的存在,SENet能更加容易得到訓練,且每個樣本都可以有自己獨特的一組權(quán)值系數(shù)。圖3為殘差模塊與注意力機制結(jié)合得到的模型結(jié)構(gòu)。
LSTM[6]屬于特殊的一種遞歸神經(jīng)網(wǎng)絡(RNNs),RNNs是當前時刻的輸出,與當前時刻輸入和上一刻輸入都相關(guān)。在LSTM模型中,對應于一句話中的每個單詞都是平等的,且其中包含遺忘門,會更加傾向記住后輸入的詞匯。全局注意力的目的是在生成一個句向量時能將所有的隱藏狀態(tài)也考慮進來,全局注意力機制通過學習來得到一句話中每個單詞的權(quán)重。LSTM聯(lián)合注意力機制能使生成的描述性語句更具有邏輯性。
在數(shù)據(jù)集中,基本上都含有噪聲或者冗余信息。廣而言之,在一個樣本中,任何與當前目標檢測任務無關(guān)的信息,都可以看作是噪聲或者冗余信息,他們都會對當前識別任務造成不利的影響。而局部注意力機制能讓特征提取出我們所需要的區(qū)域,過濾掉其他冗余信息。全局注意力機制是在提取相應的局部特征后,根據(jù)權(quán)重對所有的“patch”進行學習映射再整合推斷整個圖片的信息。注意力機制使圖片能夠在低解析度或低辨識度的復雜背景下,關(guān)注高解析特征的特定候選區(qū)域,再逐漸調(diào)整焦點,移動到其他特定區(qū)域,最后組合進行推斷整張圖片的信息。
3 實驗結(jié)果集分析
如圖4所示,圖片由CNN編碼后,帶入到基于注意力機制的Faster R-CNN網(wǎng)絡中,先關(guān)注圖片各個局部特征并輸出每個詞的映射關(guān)系,再關(guān)注圖片整體特征將其整合成句向量。
圖4的圖像素材得到了如圖5所示的具有邏輯性的描述語句,從中可看出,本文方法生成的圖像時間描述較為合理和完備地顯示了圖片信息的動作事件,相較于普通圖像描述,更具準確性,具有明顯優(yōu)勢。
4 結(jié)束語
本文在深度學習與注意力機制的基礎(chǔ)上,在圖像描述中更多的加入抽象的圖像中各物體之間的關(guān)系,來達到將一幅或多幅信息較大的圖像壓縮描述為一句話。在CNN和LSTM神經(jīng)網(wǎng)絡結(jié)合的基礎(chǔ)上,通過注意力模型,對計算機獲取的區(qū)域紋理、運動方向、圖像色塊等圖像特征進行自動語義描述。總體來說,它是一個基于卷積神經(jīng)網(wǎng)絡編碼的語言描述系統(tǒng),便于對圖像或視頻的分享和查找,能在監(jiān)控、醫(yī)學、體育、新聞以及影片視頻片段的語義分析中發(fā)揮重要作用。綜上,圖像事件描述方法的研究成果可批量化生產(chǎn),且具有較大的市場需求,能實現(xiàn)很高的商業(yè)價值與社會價值。
參考文獻:
[1] Anderson P, He X, Buehler C, et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018:6077–6086.
[2] Ranjay K, Kenji H, Frederic R, et al. Dense-Captioning Events in Videos[C]//IEEE International Conference on Computer Vision (ICCV). 2017:706–715.
[3] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[C]//International Conference on Machine Learning(ICML). 2015:2048–2057.
[4] Kaiming He,Xiangyu Zhang,Shaoqing Ren. Deep Residual Learning for Image Recognition. 10.1109/CVPR.2016.90.
[5] BoDai SanjaFidler DahuaLin? A Neural Compositional Paradigm for Image Captioning.
[6] 湯華東. 基于LSTM融合多CNN的事件圖像分類研究[D]. 北京交通大學, 2018.
[7] Wu Xiaofeng,Zhang Jiangxin, and Xu Xinchen,Hand Gesture Recognition Algorithm Based on Faster R-CNN, Journal of Computer-Aided Design & Computer Graphics,Vol.30 No.3,Mar. 2018.
【通聯(lián)編輯:唐一東】