劉錚 周述正 趙祎婷 盧銘娜
摘 要:圖像自適應(yīng)描述(Image_Captioning),是指以圖像為輸入,通過模型和計算來輸出對應(yīng)圖像的自然語言描述。這一領(lǐng)域是結(jié)合了人工智能兩大方向:計算機(jī)視覺和自然語言處理。將圖像自適應(yīng)描述算法應(yīng)用于地鐵車廂內(nèi)部情況檢測,有利于車站管理人員迅速全面掌控車廂內(nèi)部情況,快速應(yīng)對車廂內(nèi)部突發(fā)情況。有利于提示車廂內(nèi)部乘客互相照顧,提高車廂內(nèi)部優(yōu)質(zhì)資源分配合理性(如殘疾人以及孕婦讓座)。
關(guān)鍵詞:圖像自適應(yīng)描述;人工智能;車廂
1 圖像自適應(yīng)描述算法
Image Caption(圖片描述)模型中,以圖片數(shù)據(jù)作為輸入,經(jīng)過CNN進(jìn)行卷積提取圖片特征信息最終形成圖片的特征圖信息,而后attention模塊對提取的特征圖進(jìn)行加強(qiáng)與抑制,作為后續(xù)進(jìn)入LSTM模型的輸入數(shù)據(jù),不同時刻的attention數(shù)據(jù)會受到上一時刻LSTM模型輸出數(shù)據(jù)而有所調(diào)整,LSTM模型最終輸出文本信息。
2 模型細(xì)節(jié)
2.1 encoder模塊
Image Caption(圖片描述)模型的最終輸出為一個長度為C的句子,其中yi指句子中的第i個詞,這個詞屬于一個k維實數(shù)的詞向量,其中K是字典長度。在encoder階段,文中使用的是CNN(卷積神經(jīng)網(wǎng)絡(luò)),用于提取特征圖向量集合,這些特征圖向量后續(xù)會被作為注釋向量。
通過CNN會提取L個特征圖向量,命名為a,每一個都是D維向量用來代表圖片的一部分。同時為了保留特征圖與2維圖片的關(guān)系,本文中的特征來自于較淺的卷積層,由此保證后續(xù)的decoder階段,能夠通過選取所有特征圖的子集而選擇性聚焦到圖片的部分位置。
2.2 decoder模塊
在decoder階段模型使用的是 long short-term memory (LSTM,長短時記憶模型)network,圖片的說明文字由本模型生成,在預(yù)測每一個詞的時候都會需要使用背景向量、前一時刻的隱藏層向量、前一時刻的詞向量。
decoder節(jié)段是一個標(biāo)準(zhǔn)的LSTM過程,每個LSTM需要以下輸入:
(1)背景變量Z,來源于圖片經(jīng)過CNN提取特征后,再使用attention進(jìn)行過濾后的向量。(2)前一時刻的隱藏層向量h。(3)前一時刻的詞向量E,此時的詞被轉(zhuǎn)化為embeding向量。
2.3 背景向量Z的計算
背景向量Z的含義,Z是在t時刻,輸入圖片數(shù)據(jù)的動態(tài)表達(dá),Z是基于輸入圖片數(shù)據(jù)的,后續(xù)的加工依賴于注釋向量a。隨著時間的不同,Z向量隨前一時刻輸出的y而變化。
(1)通過att函數(shù)計算第i張?zhí)卣鲌Dai與上一時刻隱藏向量ht-1的關(guān)系eti。
(2)使用歸一化,將eti轉(zhuǎn)化為概率值,成為attention系數(shù)αti,αt既是指t時刻attention的集合。
(3)特征圖集合a中元素分別于attention系數(shù)中αti計算得到t時刻背景向量 。
3 attention機(jī)制--hard attention
計算特征圖與隱藏向量間關(guān)系時用到了att函數(shù)(hard attention ),hard attention是使用一種隨機(jī)的方法計算attention系數(shù)α。首先先設(shè)定一個t時刻的位置變量st,st是指在t時刻生成詞的時候模型需要聚焦于圖片的哪些位置。在hard-attention 模型中,st是一個one-hot編碼向量,st,i中最大的值為1,其余均為0。該模型會把與生成下一個詞最相關(guān)的特征圖提取出來并將其他特征圖拋棄。
4 損失函數(shù)
5 實驗與分析
(1)實驗環(huán)境:Cpu:E5-2630L v3 內(nèi)存:64g Gpu:NVIDIA GeForce 3090。
(2)訓(xùn)練數(shù)據(jù)為flickr8k數(shù)據(jù)集。
(3)網(wǎng)絡(luò)構(gòu)建及訓(xùn)練:本次實驗特征提取模型采用densenet121,epoches設(shè)置為2 000,encoder_learning_rates設(shè)置為1e-4,decoder_learning_rate設(shè)置為4e-4。
(4)測試結(jié)果:
經(jīng)過2 000輪的訓(xùn)練后,使用軌道車廂內(nèi)部圖片對模型進(jìn)行驗證。識別描述的準(zhǔn)確率在80%以上。
6 結(jié)束語
經(jīng)過研究后發(fā)現(xiàn)image_captioning算法在地鐵車廂這一場景,可以對乘客行為進(jìn)行較為合理的描述,在軌道車廂內(nèi)部安防領(lǐng)域具有較大前景,具有智能度高,易推廣等優(yōu)點,極具開發(fā)潛力。