基于Image_Caption的車廂場景自適應(yīng)描述

2021-09-10 07:22:44劉錚周述正趙祎婷盧銘娜

交通科技與管理 2021年16期

劉錚周述正趙祎婷盧銘娜

摘要：圖像自適應(yīng)描述（Image_Captioning），是指以圖像為輸入，通過模型和計算來輸出對應(yīng)圖像的自然語言描述。這一領(lǐng)域是結(jié)合了人工智能兩大方向：計算機(jī)視覺和自然語言處理。將圖像自適應(yīng)描述算法應(yīng)用于地鐵車廂內(nèi)部情況檢測，有利于車站管理人員迅速全面掌控車廂內(nèi)部情況，快速應(yīng)對車廂內(nèi)部突發(fā)情況。有利于提示車廂內(nèi)部乘客互相照顧，提高車廂內(nèi)部優(yōu)質(zhì)資源分配合理性（如殘疾人以及孕婦讓座）。

關(guān)鍵詞：圖像自適應(yīng)描述;人工智能;車廂

1 圖像自適應(yīng)描述算法

Image Caption（圖片描述）模型中，以圖片數(shù)據(jù)作為輸入，經(jīng)過CNN進(jìn)行卷積提取圖片特征信息最終形成圖片的特征圖信息，而后attention模塊對提取的特征圖進(jìn)行加強(qiáng)與抑制，作為后續(xù)進(jìn)入LSTM模型的輸入數(shù)據(jù)，不同時刻的attention數(shù)據(jù)會受到上一時刻LSTM模型輸出數(shù)據(jù)而有所調(diào)整，LSTM模型最終輸出文本信息。

2 模型細(xì)節(jié)

2.1 encoder模塊

Image Caption（圖片描述）模型的最終輸出為一個長度為C的句子，其中yi指句子中的第i個詞，這個詞屬于一個k維實數(shù)的詞向量，其中K是字典長度。在encoder階段，文中使用的是CNN（卷積神經(jīng)網(wǎng)絡(luò)），用于提取特征圖向量集合，這些特征圖向量后續(xù)會被作為注釋向量。

通過CNN會提取L個特征圖向量，命名為a，每一個都是D維向量用來代表圖片的一部分。同時為了保留特征圖與2維圖片的關(guān)系，本文中的特征來自于較淺的卷積層，由此保證后續(xù)的decoder階段，能夠通過選取所有特征圖的子集而選擇性聚焦到圖片的部分位置。

2.2 decoder模塊

在decoder階段模型使用的是 long short-term memory （LSTM，長短時記憶模型）network，圖片的說明文字由本模型生成，在預(yù)測每一個詞的時候都會需要使用背景向量、前一時刻的隱藏層向量、前一時刻的詞向量。

decoder節(jié)段是一個標(biāo)準(zhǔn)的LSTM過程，每個LSTM需要以下輸入：

（1）背景變量Z，來源于圖片經(jīng)過CNN提取特征后，再使用attention進(jìn)行過濾后的向量。（2）前一時刻的隱藏層向量h。（3）前一時刻的詞向量E，此時的詞被轉(zhuǎn)化為embeding向量。

2.3 背景向量Z的計算

背景向量Z的含義，Z是在t時刻，輸入圖片數(shù)據(jù)的動態(tài)表達(dá)，Z是基于輸入圖片數(shù)據(jù)的，后續(xù)的加工依賴于注釋向量a。隨著時間的不同，Z向量隨前一時刻輸出的y而變化。

（1）通過att函數(shù)計算第i張?zhí)卣鲌Dai與上一時刻隱藏向量ht-1的關(guān)系eti。

（2）使用歸一化，將eti轉(zhuǎn)化為概率值，成為attention系數(shù)αti，αt既是指t時刻attention的集合。

（3）特征圖集合a中元素分別于attention系數(shù)中αti計算得到t時刻背景向量。

3 attention機(jī)制--hard attention

計算特征圖與隱藏向量間關(guān)系時用到了att函數(shù)（hard attention ），hard attention是使用一種隨機(jī)的方法計算attention系數(shù)α。首先先設(shè)定一個t時刻的位置變量st，st是指在t時刻生成詞的時候模型需要聚焦于圖片的哪些位置。在hard-attention 模型中，st是一個one-hot編碼向量，st，i中最大的值為1，其余均為0。該模型會把與生成下一個詞最相關(guān)的特征圖提取出來并將其他特征圖拋棄。

4 損失函數(shù)

5 實驗與分析

（1）實驗環(huán)境：Cpu：E5-2630L v3 內(nèi)存：64g Gpu：NVIDIA GeForce 3090。

（2）訓(xùn)練數(shù)據(jù)為flickr8k數(shù)據(jù)集。

（3）網(wǎng)絡(luò)構(gòu)建及訓(xùn)練：本次實驗特征提取模型采用densenet121，epoches設(shè)置為2 000，encoder_learning_rates設(shè)置為1e-4，decoder_learning_rate設(shè)置為4e-4。

（4）測試結(jié)果：

經(jīng)過2 000輪的訓(xùn)練后，使用軌道車廂內(nèi)部圖片對模型進(jìn)行驗證。識別描述的準(zhǔn)確率在80%以上。

6 結(jié)束語

經(jīng)過研究后發(fā)現(xiàn)image_captioning算法在地鐵車廂這一場景，可以對乘客行為進(jìn)行較為合理的描述，在軌道車廂內(nèi)部安防領(lǐng)域具有較大前景，具有智能度高，易推廣等優(yōu)點，極具開發(fā)潛力。