孫 亮
(中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230026)
人工智能大體可分為兩個(gè)研究方向:感知智能和認(rèn)知智能。感知智能研究進(jìn)展訊速,比如圖片分類(lèi)、自然語(yǔ)言翻譯,但認(rèn)知智能發(fā)展速度有限,比如看圖說(shuō)話、視覺(jué)描述等。將自然語(yǔ)言和計(jì)算機(jī)視覺(jué)結(jié)合起來(lái)的視頻描述算法研究,有利于搭起人類(lèi)和機(jī)器之間溝通的橋梁,促進(jìn)認(rèn)知智能的發(fā)展。
視頻描述不同于視頻分類(lèi)、物體檢測(cè)等標(biāo)簽式的粗粒度視覺(jué)理解任務(wù),而是需要用通順準(zhǔn)確的一句話來(lái)描述視頻內(nèi)容。這不僅需要識(shí)別出視頻中的物體,還需要理解視頻中物體之間的相互關(guān)系,同時(shí)由于視頻內(nèi)容描述風(fēng)格多樣,比如對(duì)場(chǎng)景的抽象描述,對(duì)各物體之間關(guān)系的描述,對(duì)視頻中物體行為和運(yùn)動(dòng)的描述等,這都給視頻內(nèi)容描述研究帶來(lái)很大的挑戰(zhàn)性。傳統(tǒng)的視頻內(nèi)容描述算法主要采用基于語(yǔ)言模板的方法或基于檢索的方法?;谡Z(yǔ)言模板的方法,由于受到固定語(yǔ)言模板的限制,只能生成形式單一缺乏靈活性的句子。而基于檢索的方法過(guò)于依賴檢索視頻庫(kù)的大小,當(dāng)數(shù)據(jù)庫(kù)中缺少與待描述視頻相似的視頻時(shí),生成的描述語(yǔ)句將和視頻內(nèi)容存在較大的偏差。同時(shí)這兩種方法都需要在前期對(duì)視頻進(jìn)行復(fù)雜的預(yù)處理過(guò)程,而對(duì)后端的語(yǔ)言序列部分優(yōu)化不足,從而導(dǎo)致生成的語(yǔ)句質(zhì)量較差。
針對(duì)前期需要對(duì)視頻進(jìn)行復(fù)雜的預(yù)處理過(guò)程,本文提出了一個(gè)新的基于多模態(tài)信息的網(wǎng)絡(luò)框架對(duì)視頻描述算法進(jìn)行相關(guān)研究,通過(guò)網(wǎng)絡(luò)直接實(shí)現(xiàn)端到端的訓(xùn)練,自動(dòng)從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到視頻到語(yǔ)言的映射關(guān)系。針對(duì)后端語(yǔ)言序列部分優(yōu)化不足,引入強(qiáng)化學(xué)習(xí)算法直接采用優(yōu)化客觀評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)一步訓(xùn)練。最后通過(guò)實(shí)驗(yàn)來(lái)證明所提模型在視頻描述問(wèn)題上的有效性。
視頻描述是一個(gè)融合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的綜合問(wèn)題,類(lèi)似于翻譯一段視頻為一句話。該任務(wù)不僅需要利用模型理解視頻內(nèi)容,還需要用自然語(yǔ)言表達(dá)它們之間的關(guān)系。視頻內(nèi)容描述算法主要分為基于語(yǔ)言模板的方法[1-2]、基于檢索的方法[3-4]和基于編碼解碼器的方法[5-6]。
基于檢索的方法,首先需要建立一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中每個(gè)視頻都有對(duì)應(yīng)的語(yǔ)句描述標(biāo)簽。輸入待描述的視頻,然后找到數(shù)據(jù)庫(kù)中與之最相似的一些視頻,經(jīng)過(guò)歸納和重置,把該相似視頻對(duì)應(yīng)的描述語(yǔ)句遷移到待描述的視頻?;跈z索的方法生成的描述語(yǔ)句更加貼近人類(lèi)自然語(yǔ)言的表達(dá)形式,句子結(jié)構(gòu)更加靈活。但是此方法嚴(yán)重依賴數(shù)據(jù)庫(kù)的大小,當(dāng)數(shù)據(jù)庫(kù)中缺少與待描述視頻類(lèi)似的視頻時(shí),生成的描述語(yǔ)句將和視頻內(nèi)容存在較大的誤差。上述兩種方法都嚴(yán)重依賴視覺(jué)前期復(fù)雜的處理過(guò)程,且存在對(duì)后期生成句子的語(yǔ)言模型優(yōu)化不足的問(wèn)題。對(duì)于視頻描述問(wèn)題,這兩類(lèi)方法都難以生成描述準(zhǔn)確、表達(dá)形式多樣的高質(zhì)量語(yǔ)句。
基于編碼解碼器的方法,是目前視頻描述領(lǐng)域的主流方法。這主要受益于基于深度神經(jīng)網(wǎng)絡(luò)的編碼解碼模型在機(jī)器翻譯[7-8]領(lǐng)域取得的突破進(jìn)展。機(jī)器翻譯的基本思路是:將輸入的源語(yǔ)句和目標(biāo)語(yǔ)句表示在同一向量空間內(nèi),首先使用編碼器將源語(yǔ)句編碼為一個(gè)中間向量,然后再通過(guò)解碼器將中間向量解碼為目標(biāo)語(yǔ)句。視頻描述問(wèn)題也可以看做是一個(gè)“翻譯”問(wèn)題,即把視頻翻譯成自然語(yǔ)言。此方法前期不需要對(duì)視頻采取復(fù)雜的處理過(guò)程,能夠直接從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)視頻到描述語(yǔ)言的映射關(guān)系,實(shí)現(xiàn)端到端的訓(xùn)練,并且能夠產(chǎn)生內(nèi)容更加精確、語(yǔ)法靈活和形式多樣的視頻描述。
在編碼器階段,從多模態(tài)信息出發(fā),采用視頻幀、光流幀和視頻片段相結(jié)合的方法得到視頻特征向量,同時(shí)檢測(cè)和生成視頻的高級(jí)語(yǔ)義屬性。為了獲得更有效的視覺(jué)特征和語(yǔ)義屬性,將語(yǔ)義屬性標(biāo)簽生成階段的輔助分類(lèi)損失和解碼器網(wǎng)絡(luò)損失進(jìn)行同時(shí)優(yōu)化。編碼器的流程如下:
(2)提取語(yǔ)義屬性表,對(duì)訓(xùn)練集和測(cè)試集中句子的單詞按照其出現(xiàn)頻率排序,移除虛詞,然后選擇出現(xiàn)概率最高的K個(gè)單詞作為高層語(yǔ)義屬性值。
(3)訓(xùn)練語(yǔ)義屬性檢測(cè)網(wǎng)絡(luò),本質(zhì)上為一個(gè)多標(biāo)簽分類(lèi)任務(wù),輸入不同的特征{vf,vo,vc},得到語(yǔ)義屬性向量{sf,so,sc}。假設(shè)數(shù)據(jù)集有N條語(yǔ)句,yi=[yi1,yi2,…,yil,…,yiK] 是第i個(gè)視頻的標(biāo)簽向量。其中如果視頻i對(duì)應(yīng)的描述語(yǔ)句中包含屬性單詞l,則yil=1;否則yil=0。令vi∈{vf,vo,vc}表示視頻i從編碼器學(xué)習(xí)到的特征向量,此時(shí)的訓(xùn)練數(shù)據(jù)為{vi,yi}。采用多層感知機(jī)網(wǎng)絡(luò)來(lái)學(xué)習(xí)函數(shù)f(·):Rm→RK,其中m為輸入特征向量的維度,K為輸出向量的維度,這個(gè)維度和上述提取的語(yǔ)義屬性值的個(gè)數(shù)相等,多層感知機(jī)輸出向量si=[si1,…,siK]為視頻i的預(yù)測(cè)標(biāo)簽向量,網(wǎng)絡(luò)的多標(biāo)簽分類(lèi)損失(loss1)定義如下:
端錨聚合酶抑制劑XAV939抑制人骨肉瘤SOSP-9607細(xì)胞增殖及作用機(jī)制研究 ………………………… 董永紅等(14):1917
(1)
其中,si=α(f(vi))為學(xué)習(xí)到的K維向量,α(·)表示sigmoid函數(shù),f(·)由多層感知機(jī)實(shí)現(xiàn)。
在解碼階段,本文提出一個(gè)結(jié)合視覺(jué)特征和語(yǔ)義特征的注意力LSTM模型[9]來(lái)生成描述語(yǔ)句。對(duì)于視頻內(nèi)容描述,輸入一個(gè)視頻,輸出一條包含Ns個(gè)單詞的文本句子Y,其中Y={w1,w2,…,wNs}。視頻描述語(yǔ)句的生成問(wèn)題可以公式化地定義為最小化損失函數(shù)(loss2):
圖1 基于多模態(tài)信息的編碼解碼網(wǎng)絡(luò)
loss2=-logP(Y|v,sf,sc,so)=-∑logP(wt|w0~t-1)
(2)
這是給定視頻特征向量v和檢測(cè)到的多模態(tài)語(yǔ)義屬性sf,so,sc來(lái)生成正確文本句子的負(fù)對(duì)數(shù)概率的表達(dá)式,其中P(wt|w0~t-1)由wt~softmax(st)中的模型參數(shù)所指定。在訓(xùn)練階段,鑒于視頻特征及其學(xué)習(xí)到的多模態(tài)語(yǔ)義屬性,通過(guò)對(duì)總的損失函數(shù)(loss1+loss2)同時(shí)進(jìn)行優(yōu)化,可以保證句子中的上下文關(guān)系。
當(dāng)輸出是一個(gè)句子時(shí),非常自然地想到使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)作為解碼器。由于長(zhǎng)短期記憶(LSTM[9])單元的RNN能夠捕獲句子長(zhǎng)期依賴性,在本文的網(wǎng)絡(luò)結(jié)構(gòu)中使用LSTM單元的變體作為解碼器。如圖1中Concatenation模塊,將vf,vo,vc級(jí)聯(lián)作為解碼器初始時(shí)刻輸入向量。假設(shè)輸入單詞為wt,LSTM上一時(shí)刻隱藏狀態(tài)為ht-1,上一時(shí)刻細(xì)胞的記憶狀態(tài)為ct,則LSTM在t時(shí)刻的更新規(guī)則如下:
it=σ(Wiwt+Uhiht-1+z)
(3)
ft=σ(Wfwt+Uhfht-1+z)
(4)
ot=σ(Wowt+Uhoht-1+z)
(5)
(6)
(7)
ht=ot⊙tanh(ct)
(8)
z=1(t=1)·Cv
(9)
為了更好地利用來(lái)自多個(gè)模態(tài)語(yǔ)義屬性的輔助信息,本文提出結(jié)合語(yǔ)義屬性的注意力機(jī)制來(lái)計(jì)算權(quán)重矩陣W*和Uh*,將傳統(tǒng)LSTM的每個(gè)權(quán)重矩陣擴(kuò)展為與K個(gè)屬性相關(guān)權(quán)重矩陣的集合。即用W*(St)/Uh*(St)替換初始權(quán)重矩陣W*/Uh*,其中St∈RK是一個(gè)多模態(tài)的語(yǔ)義屬性向量,隨時(shí)間動(dòng)態(tài)變化。特別地,定義兩個(gè)權(quán)重矩陣Wτ∈Rnh×nx×K和Uτ∈Rnh×nh×K,其中nh是隱藏單元數(shù)目,nx是詞嵌入向量的維數(shù),則W*(St)/Uh*(St)的表達(dá)式如下:
(10)
(11)
其中,Wτ[k]和Uτ[k]分別表示權(quán)重矩陣Wτ和Uτ的第k個(gè)2D切片,其與概率值St[k]相關(guān)聯(lián),St[k]是多模態(tài)的語(yǔ)義屬性向量St的第k個(gè)元素。
計(jì)算St,公式如下:
(12)
(13)
eti=wTtanh(Waht-1+Uasi)
(14)
其中,l=3表示學(xué)習(xí)到的三個(gè)語(yǔ)義屬性向量{sf,so,sc},注意力權(quán)重ati反映了生成當(dāng)前時(shí)刻視頻中第i個(gè)語(yǔ)義屬性的重要性程度。可以看出,對(duì)于不同的時(shí)間步長(zhǎng)t,語(yǔ)義屬性St是不同的,這使得模型在每次產(chǎn)生單詞時(shí)有選擇性地關(guān)注視頻中的不同語(yǔ)義屬性部分。訓(xùn)練這樣一個(gè)模型等同于聯(lián)合訓(xùn)練K個(gè)LSTM,網(wǎng)絡(luò)的參數(shù)量和K值成正比,當(dāng)K值很大時(shí),網(wǎng)絡(luò)幾乎不能完成訓(xùn)練,采取以下的分解方法:
W*(St)=Wa·diag(WbSt)·Wc
(15)
Uh*(St)=Ua·diag(UbSt)·Uc
(16)
其中,矩陣維數(shù)Wa∈Rnh×nf,Wb∈Rnf×K,Wc∈Rnf×nx,Ua∈Rnh×nf,Ub∈Rnf×K,Uc∈Rnf×nh。把上述更新規(guī)則分解為:
(17)
(18)
(19)
其中⊙表示逐元素乘法運(yùn)算符,對(duì)于St中的每個(gè)元素值,參數(shù)矩陣Wa和Ua是共享的,這可以有效地捕獲視頻中共有的語(yǔ)言模式,而對(duì)角線矩陣diag(WbSt)和diag(UbSt)考慮了不同視頻中的特定語(yǔ)義屬性部分。同理可證,ft,ot,ct的表達(dá)式和上面公式相似。網(wǎng)絡(luò)充分訓(xùn)練之后,既可以有效地捕獲視頻中共有的語(yǔ)言模式部分,又可以關(guān)注于視頻中特定語(yǔ)義屬性部分,同時(shí)由于采用因式分解,網(wǎng)絡(luò)的參數(shù)量大大減少,規(guī)避了原始網(wǎng)絡(luò)的參數(shù)量和K值成正比的難題。
下面對(duì)網(wǎng)絡(luò)參數(shù)量進(jìn)行分析。采用因式分解網(wǎng)絡(luò)的參數(shù)量大大減少。未分解之前總的參數(shù)量為K·nh·(nx+nh),可以認(rèn)為參數(shù)量和K成正比。在分解St之后,式(15)W*(St)表達(dá)式參數(shù)量為nf·(nh+K+nx),式(16)Uh*(St)表達(dá)式參數(shù)量為nf·(2nh+K),二者的參數(shù)量之和為nf·(3nh+2K+nx)。當(dāng)指定nf=nh時(shí),對(duì)于較大的K值,nf·(3nh+2K+nx)要遠(yuǎn)遠(yuǎn)小于K·nh·(nx+nh)。
上述提出了一個(gè)新的編碼-解碼器模型MIVC (Multimodal Information Algorithms for Video Captioning) 來(lái)生成視頻內(nèi)容描述,其本質(zhì)上將每個(gè)單詞生成過(guò)程看做是一個(gè)分類(lèi)問(wèn)題。該模型對(duì)p(S|V)進(jìn)行建模,S是描述句子,V是視頻,訓(xùn)練目標(biāo)是最大化對(duì)數(shù)似然概率,利用交叉熵?fù)p失函數(shù)來(lái)優(yōu)化模型。然而使用最大似然訓(xùn)練存在兩個(gè)明顯的問(wèn)題:(1)訓(xùn)練損失和評(píng)價(jià)準(zhǔn)則不統(tǒng)一。模型訓(xùn)練階段采用最大化后驗(yàn)概率,模型評(píng)估階段采用客觀評(píng)價(jià)指標(biāo)BLEU[10]、METEOR[11]、CIDER[12]等,而最大化對(duì)數(shù)似然可以認(rèn)為對(duì)生成的每個(gè)單詞給予一樣的權(quán)重,實(shí)際上句子中的某些單詞可能更重要一些,這種不一致導(dǎo)致模型無(wú)法對(duì)視頻內(nèi)容描述生成的評(píng)價(jià)指標(biāo)充分優(yōu)化。(2)曝光偏差的問(wèn)題。模型訓(xùn)練的時(shí)候,解碼器每個(gè)時(shí)刻的輸入來(lái)自訓(xùn)練集中真實(shí)詞,而模型測(cè)試的時(shí)候,每個(gè)時(shí)刻輸入來(lái)自上一時(shí)刻生成的輸出詞。輸出詞一般采用貪婪搜索或者束搜索的方式獲得,如果其中某一個(gè)單詞預(yù)測(cè)不夠準(zhǔn)確,錯(cuò)誤可能會(huì)接著傳遞,誤差積累導(dǎo)致后面生成單詞越來(lái)越差。
為了解決上述兩個(gè)問(wèn)題,很明顯的想法就是使模型訓(xùn)練和評(píng)估時(shí)的情形盡可能一致,也就是在網(wǎng)絡(luò)訓(xùn)練的時(shí)候不直接優(yōu)化對(duì)數(shù)似然,而是直接最大化評(píng)價(jià)指標(biāo)CIDER (或者BLEU、METEOR)。并且使模型訓(xùn)練和測(cè)試階段的輸入一致,均使用前一時(shí)刻的輸出作為下一時(shí)刻的輸入。本節(jié)將用強(qiáng)化學(xué)習(xí)的技術(shù)來(lái)解決上述提到的這些問(wèn)題,主要采用RENNIE S J等提出的SCST[13]算法對(duì)本文所提出的MIVC模型進(jìn)行改進(jìn),將模型通過(guò)貪婪搜索或者束搜索得到的句子得分作為公式的基線函數(shù),于是可以得到以下改進(jìn)的公式:
(20)
圖2 基于強(qiáng)化學(xué)習(xí)的解碼器訓(xùn)練算法
本節(jié)通過(guò)具體實(shí)驗(yàn)來(lái)評(píng)估本文提出的MIVC模型在視頻內(nèi)容描述數(shù)據(jù)集MSVD[14]的性能。在訓(xùn)練階段,MIVC中的所有權(quán)重矩陣采用[-0.05,0.05]均勻分布初始化,偏置項(xiàng)置為0。將LSTM隱藏單元的數(shù)量和因子nf的大小設(shè)置為512,使用公開(kāi)的word2vec向量來(lái)初始化詞嵌入。兩個(gè)數(shù)據(jù)集的最大epochs數(shù)設(shè)為35,如果參數(shù)向量的范數(shù)超過(guò)5則剪切梯度,采用學(xué)習(xí)率為1×10-4的Adam算法用于優(yōu)化網(wǎng)絡(luò)模型。在測(cè)試階段,采用參數(shù)為5的束搜索策略生成視頻描述,使用BLEU@N、METEOR和CIDER三個(gè)常用指標(biāo)對(duì)提出模型進(jìn)行定量評(píng)估。
首先,為了評(píng)估視頻不同語(yǔ)義特征和它們不同組合之間的有效性,在模型MIVC中采用6種不同的語(yǔ)義屬性組合,同時(shí)串接vf,vc,vo作為視頻最終的特征向量v輸入到解碼器中。其中“MIVCf”表示僅僅使用語(yǔ)義屬性sf,“MIVCf+o”表示使用兩個(gè)語(yǔ)義屬性sf和so,其他四種模型遵守相同的標(biāo)記,f,o,c分別表示sf,so和sc。表1展示了本文提出各種模型與目前流行方法在MSVD數(shù)據(jù)上的性能比較??梢钥闯觯?1)本文所提出的模型“MIVCf+o+c”在6個(gè)評(píng)價(jià)指標(biāo)上均取得了最好的實(shí)驗(yàn)結(jié)果。特別地,該模型在METEOR和CIDER指標(biāo)上分別為35.3% 和 79.6%,是對(duì)比方法中效果最好的模型。(2)對(duì)于MIVC模型的六種變體,比如“MIVCf”、“MIVCf+o”和“MIVCf+o+c”,六個(gè)評(píng)價(jià)準(zhǔn)則的分?jǐn)?shù)值逐漸增大。這表明隨著多模態(tài)語(yǔ)義屬性的加入,模型的視覺(jué)表達(dá)能力變強(qiáng),更加有利于視頻描述語(yǔ)句的生成。也就是說(shuō)MIVCf+o+c的性能優(yōu)于MIVCf和MIVCf+o,這證明了學(xué)習(xí)到的多模式語(yǔ)義屬性能夠增強(qiáng)視頻描述的性能。(3)即使只使用一種語(yǔ)義屬性sf,“MIVCf”模型在METEOR和CIDER指標(biāo)上也接近甚至優(yōu)于LSTM-TSA[17],證明所提出MIVC基本框架的有效性。
表1 MIVC模型和其他流行的方法在MSVD數(shù)據(jù)集上的指標(biāo)對(duì)比 (%)
為了比較不同語(yǔ)義屬性融合策略,通過(guò)實(shí)驗(yàn)分析本文所提出的基礎(chǔ)模型MIVC和其他三種模型的性能比較,這三種模型都采用了高層語(yǔ)義屬性,但是語(yǔ)義屬性融合的策略不一樣,實(shí)驗(yàn)結(jié)果如表2所示。為了公平地比較各種框架融合策略的差異,表中四種模型均使用單一的語(yǔ)義屬性sf和同樣的視頻特征向量v。其中“LSTM-v/LSTM-vf”模型,v表示視頻特征向量,f表示從視頻RGB幀學(xué)習(xí)到的高層語(yǔ)義屬性向量sf,vf表示將v和sf串聯(lián)送到網(wǎng)絡(luò)中,這些向量值都只在初始時(shí)刻輸入到標(biāo)準(zhǔn)的LSTM解碼器。實(shí)際上,LSTM-v是一個(gè)標(biāo)準(zhǔn)的編碼-解碼器模型,網(wǎng)絡(luò)中沒(méi)有使用高層語(yǔ)義屬性,可以作為一個(gè)基準(zhǔn)框架。LSTM-vf模型使用v和sf的串接作為L(zhǎng)STM解碼器初始時(shí)刻的輸入。在模型LSTM-vf中,視頻特征向量v作為L(zhǎng)STM解碼器初始時(shí)刻的輸入,同時(shí)語(yǔ)義屬性sf在解碼器的每一時(shí)刻均輸入到網(wǎng)絡(luò)中,而MIVCf是本文提出的網(wǎng)絡(luò)模型。從表2可以看出,與其他三種方法相比,MIVCf取得了最好的實(shí)驗(yàn)效果,證明了本文所提出的語(yǔ)義融合策略的有效性。尤其是MIVCf的效果遠(yuǎn)遠(yuǎn)好于基準(zhǔn)模型LSTM-v,這表明了高層語(yǔ)義屬性對(duì)于研究視頻描述問(wèn)題的重要性。
表2 使用單一語(yǔ)義屬性的MIVCf和其他三種模型在數(shù)據(jù)集MSVD上的實(shí)驗(yàn)結(jié)果
表3展示了用三種不同的訓(xùn)練方式對(duì)本文提出的MIVCf模型進(jìn)行改進(jìn)的測(cè)試結(jié)果。其中MIVCf(Greedy)和MIVCf(Beam)表示使用交叉熵?fù)p失函數(shù)對(duì)提出的基準(zhǔn)模型進(jìn)行訓(xùn)練,Greedy表示使用貪婪搜索解碼,Beam表示束搜索解碼;MIVCf(CIDER)表示將MIVCf(Greedy)作為預(yù)訓(xùn)練模型,然后利用基于強(qiáng)化學(xué)習(xí)訓(xùn)練算法來(lái)直接優(yōu)化評(píng)價(jià)指標(biāo)CIDER,對(duì)模型進(jìn)一步優(yōu)化訓(xùn)練得到的結(jié)果。從表中實(shí)驗(yàn)數(shù)據(jù)可以看出,MIVCf(CIDER)模型的評(píng)價(jià)指標(biāo)得分均高于MIVCf(Greedy)和MIVCf(Beam),證明采用基于自判別序列訓(xùn)練的強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到句子的質(zhì)量效果好于貪婪搜索句子的質(zhì)量。從表中可以看出,雖然模型直接優(yōu)化的是CIDER指標(biāo),但是METEOR和BLEU@4都得到了相應(yīng)提高。說(shuō)明直接優(yōu)化評(píng)價(jià)指標(biāo)CIDER的策略梯度算法能夠進(jìn)一步對(duì)模型優(yōu)化,提高視頻描述生成句子的質(zhì)量。
表3 基于交叉熵?fù)p失和基于強(qiáng)化學(xué)習(xí)訓(xùn)練模型在MSVD數(shù)據(jù)集上的性能對(duì)比
本文主要研究了視頻的多模態(tài)信息,從視頻多模態(tài)信息出發(fā),采用視頻幀、光流幀和視頻片段相結(jié)合的方法對(duì)視頻特征進(jìn)行編碼,同時(shí)在生成描述語(yǔ)句的每一時(shí)刻關(guān)注于不同的高層語(yǔ)義屬性。通過(guò)實(shí)驗(yàn)與其他主流方法進(jìn)行對(duì)比,表明所提出的基于多模態(tài)信息的視頻內(nèi)容描述算法能夠提高視頻描述生成精度。同時(shí)本文對(duì)解碼器端語(yǔ)言生成部分優(yōu)化不足的問(wèn)題進(jìn)行了分析與研究,引入強(qiáng)化學(xué)習(xí)算法對(duì)提出的新模型進(jìn)行改進(jìn),采用直接優(yōu)化客觀評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,能夠使生成的描述句子的質(zhì)量進(jìn)一步提升,表明強(qiáng)化學(xué)習(xí)算法能夠有效避免采用最大似然對(duì)語(yǔ)言進(jìn)行建模帶來(lái)的曝光偏差和訓(xùn)練指標(biāo)與評(píng)價(jià)準(zhǔn)則不統(tǒng)一的問(wèn)題。