結(jié)合關(guān)鍵幀提取的視頻- 文本跨模態(tài)實體分辨雙重編碼方法

2022-06-10 05:42:36曾志賢曹建軍翁年鳳蔣國權(quán)范強

兵工學報 2022年5期

曾志賢，曹建軍，翁年鳳，蔣國權(quán)，范強

(1.國防科技大學計算機學院，湖南長沙 410003; 2.國防科技大學第六十三研究所，江蘇南京 210007)

0 引言

近年來，隨著視頻分享軟件的崛起，如快手、抖音、微視等，現(xiàn)實生活中產(chǎn)生了越來越多的視頻- 文本數(shù)據(jù)。在這種情況下，如何對大量的視頻- 文本信息進行實體分辨以滿足人們對不同模態(tài)信息的需求，面臨巨大挑戰(zhàn)?？缒B(tài)實體分辨針對不同模態(tài)數(shù)據(jù)間的模態(tài)鴻溝和語義鴻溝問題，采用共同嵌入空間、語義對齊、語義關(guān)聯(lián)等方法，旨在從不同模態(tài)數(shù)據(jù)中識別出對同一客觀實體的描述。視頻- 文本作為多模態(tài)數(shù)據(jù)的重要組成部分，應(yīng)該得到足夠的關(guān)注和廣泛的研究。

現(xiàn)有的視頻- 文本跨模態(tài)實體分辨方法主要包含傳統(tǒng)方法和深度學習相關(guān)的方法。傳統(tǒng)方法主要是基于關(guān)鍵字搜索的方法，該方法對每個視頻通過人工標記的方法預(yù)先標記與視頻內(nèi)容密切相關(guān)的關(guān)鍵詞，然后利用與文本單模態(tài)檢索相同的方法進行跨模態(tài)實體分辨。然而，傳統(tǒng)方法不僅始終無法脫離人工標注的過程，而且由于人工標注的關(guān)鍵字通常是獨立的和非結(jié)構(gòu)化的，導(dǎo)致關(guān)鍵字中幾乎沒有關(guān)于視頻的細粒度特征，例如紅色的轎車、穿著藍色球衣的男運動員等，對視頻- 文本跨模態(tài)實體分辨性能提高有限。在深度學習相關(guān)的方法中，一般應(yīng)用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建跨模態(tài)間的語義關(guān)聯(lián)，進行跨模態(tài)實體分辨。

由于深度學習強大的非線性學習能力，深度學習相關(guān)的跨模態(tài)實體分辨方法已經(jīng)成為主流方法。該方法一般將不同模態(tài)的數(shù)據(jù)映射至共同嵌入空間，進行跨模態(tài)相似度的度量。根據(jù)采用的相似度度量的粒度不同，可以分為兩類。第1類將視頻和文本在共同空間中用一個全局向量表示，進行跨模態(tài)語義相似度度量。文獻[9]應(yīng)用詞向量和句向量、二維卷積、三維卷積分別對文本、圖像和視頻進行全局編碼，然后在共同空間學習跨模態(tài)數(shù)據(jù)統(tǒng)一表征。文獻[10，12]提出一種雙重編碼方法，該方法首次采用一種多級編碼方法，通過挖掘視頻和文本中全局、局部和時序特征信息，形成各模態(tài)數(shù)據(jù)的編碼表示，進而學習不同模態(tài)數(shù)據(jù)的統(tǒng)一表征。然而，雖然該類方法與傳統(tǒng)方法相比，在性能上有了很大提升，但是該類方法忽略了視頻和文本中的細粒度信息，不能進行跨模態(tài)間的細粒度語義對齊，導(dǎo)致性能提升有限。為解決這個問題，第2類主要采用與圖像- 文本中細粒度處理相似的方法，對視頻中的每一幀和文本描述中的每個詞進行細粒度的語義對齊。文獻[16]首次將圖注意力機制應(yīng)用于構(gòu)建視頻和文本模態(tài)內(nèi)的語義關(guān)聯(lián)，并在共同空間中進行多級語義對齊。盡管視頻- 文本跨模態(tài)實體分辨中的第1類雙重多級編碼方法和第2類細粒度語義對齊屬于不同類型，但其本質(zhì)都是利用模態(tài)中不同層級的信息進行跨模態(tài)語義對齊。

然而，現(xiàn)有的視頻- 文本跨模態(tài)實體分辨方法在對視頻處理中均采用均勻取幀的方法，這種方法抽取的幀集合通常缺少視頻中的某些關(guān)鍵信息，不足以表征視頻的全部內(nèi)容，同時由于均勻取幀的方法抽取的幀數(shù)較多，也增加了模型的復(fù)雜度。

為解決以上問題，本文提出一種結(jié)合關(guān)鍵幀提取的視頻- 文本跨模態(tài)實體分辨雙重編碼方法(DEIKFE)。首先，設(shè)計關(guān)鍵幀提取算法，在充分保留視頻信息的同時降低取幀數(shù)量；然后，通過雙重編碼方法提取視頻和文本的多級特征編碼表示，采用共同空間學習的方法學習視頻和文本跨模態(tài)數(shù)據(jù)的統(tǒng)一表征。本文的主要貢獻如下：

1)提出了一種結(jié)合關(guān)鍵幀提取的視頻- 文本跨模態(tài)實體分辨雙重編碼模型。設(shè)計關(guān)鍵幀提取算法提取關(guān)鍵幀，利用雙重編碼方法對視頻和文本數(shù)據(jù)進行多級編碼，提高實體分辨性能。

2)首次將關(guān)鍵幀提取方法與現(xiàn)有的視頻- 文本跨模態(tài)實體分辨相結(jié)合，設(shè)計關(guān)鍵幀集合相似度最小化的關(guān)鍵幀提取方法，在充分保留視頻信息的同時降低所需幀的數(shù)量，提高現(xiàn)有方法的性能，證明了關(guān)鍵幀提取的有效性。

3)與現(xiàn)有的方法進行對比，結(jié)合關(guān)鍵幀提取的視頻- 文本跨模態(tài)實體分辨雙重編碼模型取得了最好的性能，證明了該方法的優(yōu)越性。

1 問題描述

視頻集={,,…,,…,}，其中表示集合中第個視頻，為視頻集中視頻的個數(shù)，的關(guān)鍵幀集合特征表示為={，，…，，…，}，為第個視頻中提取的關(guān)鍵幀數(shù)量，關(guān)鍵幀按在視頻中的時序排列，為視頻中第個關(guān)鍵幀的特征表示。文本集={,,…,, …,}，其中表示文本集中第個文本描述，為文本集合中文本描述的數(shù)量，={,, …,, …,}，為該文本描述中所包含的詞數(shù)量，為文本中第個單詞的特征表示。

視頻- 文本跨模態(tài)實體分辨的目的是構(gòu)建視頻集與文本集的對應(yīng)關(guān)系，即(，)={〈,〉|∈，∈,?}，其中?表示兩個模態(tài)數(shù)據(jù)與，是對同一客觀實體的描述。

2 方法描述

如圖1所示，結(jié)合關(guān)鍵幀提取的視頻- 文本跨模態(tài)實體分辨雙重編碼模型主要包含視頻關(guān)鍵幀提取、視頻多級編碼、文本多級編碼和共同空間學習4部分。其中，關(guān)鍵幀提取方法為本文設(shè)計的方法，采用相似度最小化方法提取視頻關(guān)鍵幀集合表示，該集合為原視頻幀集合的子集；視頻和文本編碼方法采用與文獻[11]相同的雙重編碼模型，提取視頻和文本由粗糙到精細不同層級的特征表示；共同空間學習采用強負樣本三元組損失進行網(wǎng)絡(luò)參數(shù)優(yōu)化，實現(xiàn)視頻- 文本的跨模態(tài)語義關(guān)聯(lián)。下面對4部分進行詳細介紹。

圖1 結(jié)合關(guān)鍵幀提取的視頻- 文本跨模態(tài)實體分辨雙重編碼模型Fig.1 DEIKFE for video-text cross-modal entity resolution

2.1 視頻關(guān)鍵幀提取

視頻關(guān)鍵幀提取的目的是在盡可能減少視頻幀的情況下保留視頻原有的語義信息，即提取視頻中相似度差異最大的幀，同時保留對視頻信息的表征。因此，本文設(shè)計了基于相似度最小化的關(guān)鍵幀提取方法。表1所示為視頻幀提取算法結(jié)果示例。

設(shè)視頻中的所有幀可以表示為={，，…，，…，}，其中為視頻中幀的數(shù)量，為視頻中的第幀表示，初始關(guān)鍵幀集合為空集′={}，選擇的下一關(guān)鍵幀可以表示為′。假定關(guān)鍵幀集合中的第1幀從視頻中隨機選取，則下一關(guān)鍵幀的選擇過程可以通過(1)式計算求得：

(1)

式中：sim(,′)的計算可以通過(2)式求得，

(2)

表1 視頻幀提取算法結(jié)果示例

表示當前選中的視頻幀，表示關(guān)鍵幀集合中的一幀， *表示皮爾遜相關(guān)系數(shù)計算，計算結(jié)果為幀間相似性大小，幀間相似性的值越大，表示越相似，如(3)式所示：

(3)

′=′∪{′}

(4)

求視頻關(guān)鍵幀集合的過程如算法1所示。

相似度最小化的關(guān)鍵幀提取方法。

輸入：視頻中的所有幀={，， …，， …，}，關(guān)鍵幀集合′，關(guān)鍵幀數(shù)量。

輸出：視頻關(guān)鍵幀集合′={′，′， …，′， …，′}

Begin

初始化：′={};

for=1:

{if==1

{從視頻中隨機抽取第1幀為關(guān)鍵幀′，更新′={′}，并在視頻中移除該幀=-{′}；

}

else

{根據(jù)(2)式計算中每一幀與關(guān)鍵幀集合的相似度；根據(jù)(1)式挑選下一幀關(guān)鍵幀′；更新′=′+{′}，并在視頻中移除該幀=-{′}；

}

對′中的關(guān)鍵幀，按在視頻中的時序進行排序，得出視頻關(guān)鍵幀集合′={′，′，…，′，…，′}

End

為更直觀地比較本文設(shè)計的關(guān)鍵幀提取算法與現(xiàn)有常用取幀方法之間的差異，直觀感受關(guān)鍵幀提取算法的優(yōu)越性，表1列舉一個視頻例子，分別給出應(yīng)用關(guān)鍵幀提取算法提取5幀和10幀，以及均勻取幀和幀間差分法——改進的幀間差分和高斯模型(IDM)提取20幀的效果。IDM中，設(shè)幀間差的閾值為065。從表1中可以看出：均勻取幀容易缺失視頻中某些場景的幀，導(dǎo)致在表征視頻原有內(nèi)容時出現(xiàn)信息缺失的問題；IDM在提取幀時由于無平移不變性，容易導(dǎo)致視頻中具有位移的場景重復(fù)幀較多，而且在具有較復(fù)雜場景的視頻中容易出現(xiàn)缺幀和漏幀的情況；與之相比，本文設(shè)計的關(guān)鍵幀提取算法能夠有效提取表征視頻信息的關(guān)鍵幀，而且在關(guān)鍵幀數(shù)量比較大但又不過大時，如取10幀，存在可以記錄視頻中連續(xù)的動作等序列化信息的幀。

2.2 視頻多級編碼

如圖1所示，視頻多級編碼方法提取了視頻3個層級的特征信息，分別為全局、局部和時序相關(guān)的特征。給定視頻關(guān)鍵幀集合′，對于視頻幀的特征提取，一般采用在ImageNet數(shù)據(jù)集中預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN)ResNet或在視頻數(shù)據(jù)集中預(yù)訓(xùn)練的三維CNN對視頻進行特征提取，形成視頻的特征表示，如(5)式所示：

={,,…,,…,}=(′)

(5)

221 視頻全局特征編碼

在全局特征編碼上，現(xiàn)有的一般方法均采用均勻池化或加權(quán)求和的方法，保持與文獻[11]的一致性，采用均勻池化的方法求視頻的全局特征表示，如(6) 式所示：

(6)

2.2.2 視頻序列化特征編碼

現(xiàn)有的大量工作已經(jīng)證實，雙向長短時記憶(Bi-LSTM)網(wǎng)絡(luò)、雙向門控循環(huán)單元(Bi-GRU)網(wǎng)絡(luò)能夠有效地處理時序問題。因此，本文采用Bi-GRU網(wǎng)絡(luò)學習視頻序列化語義信息，該方法比Bi-LSTM網(wǎng)絡(luò)參數(shù)少，需要的訓(xùn)練數(shù)據(jù)也更少，且效果更好。該網(wǎng)絡(luò)包含一個前向GRU網(wǎng)絡(luò)和一個反向GRU網(wǎng)絡(luò)，每個GRU皆由GRU單元構(gòu)成，對于每個GRU單元，其遞歸更新的過程可以表示為(7)式～(10)式：

=(·[-1,])

(7)

=(·[-1,])

(8)

(9)

(10)

Bi-GRU網(wǎng)絡(luò)的輸出可以表示為={，，…，，…，}，其中表示為第幀對應(yīng)輸出的特征表示，可以表示為GRU前向門與后向門的輸出的組合，如(11)式～(13)式：

(11)

(12)

(13)

通過雙向門控循環(huán)單元，可以生成每一幀之間的序列化表示，然后利用平均池化的方法獲得視頻的序列化特征表示，如(14)式所示：

(14)

223 視頻局部特征編碼

由于視頻的序列化特征表示只是視頻關(guān)鍵幀序列化特征的平均，關(guān)注點在于視頻的時序特征。因此，有必要提取視頻中的局部特征，在提取方法上采用與文本分類處理相似的一維CNN。

在細節(jié)處理上，為了從不同大小的視角提取視頻關(guān)鍵幀的細粒度特征，分別設(shè)計不同大小的一維CNN。設(shè)卷積核的大小為×1，其中為卷積核第1維大小，即視覺感知大小，分別設(shè)置=2，3，4，5的4個卷積核，以利于在不同視角關(guān)注特征，其中每個卷積核的步長為2，輸入維度為×1 024，輸出大小為×512，對輸出采用非線性激活函數(shù)進行非線性映射，然后采用最大池化的方法將特征壓縮為512。對于每個卷積核的輸出進行拼接，形成視頻局部特征表示，如(15)式和(16)式所示：

=max-pooling((1-dCNN()))

(15)

=[,,,]

(16)

式中：[,,,]表示拼接，即前后元素相連接，如=[01, 02]，=[03, 04]，=[05, 06]，=[07, 08]；=[01, 02， 03, 04， 05, 06, 07, 08]。

224 視頻多級編碼表示

由于視頻全局、序列化、局部特征編碼為視頻不同層級特征的編碼，對視頻具有不同的表征作用。因此，采用將三者拼接的方式獲得視頻多級特征編碼表示，如(17)式所示：

l=[,,]

(17)

2.3 文本多級編碼

文本多級編碼方法與視頻多級編碼方法是對稱的，但也有些許不同，下面對不同之處進行描述。

文本的全局特征為詞的獨熱表示的平均，采用傳統(tǒng)的詞袋模型，詞的多少決定了全局特征維度的大小，如在圖1中，表示有7 807個已知且統(tǒng)計的詞；文本的序列化特征通過Bi-GRU提取，在詞嵌入的處理上，采用文獻[25]在30 M的Flick圖像- 文本標簽數(shù)據(jù)集中預(yù)訓(xùn)練的詞向量模型；文本局部特征采用3個(分別取值2，3，4)的一維 CNN。最后，通過將不同層級的特征進行拼接形成文本的多級特征編碼表示，如(18)式所示：

l=[,,]

(18)

2.4 共同空間學習

由于視頻和文本的多級編碼表示不在同一維度空間，不能直接進行相似度的度量和比較。因此，首先分別采用全連接網(wǎng)絡(luò)將兩個模態(tài)的數(shù)據(jù)映射至一個同維度的共同嵌入空間。如(19)式、(20)式所示：

()=(l)

(19)

()=(l)

(20)

對于映射到同一空間中的視頻和文本數(shù)據(jù)，網(wǎng)絡(luò)模型優(yōu)化目標是使得配對的視頻- 文本跨模態(tài)相似度盡可能大，而不配對的視頻- 文本相似度盡可能小，最大限度地學習模態(tài)間的語義關(guān)聯(lián)。因此，在跨模態(tài)語義關(guān)聯(lián)學習上，采用與VSE++相同的損失函數(shù)對模型參數(shù)進行優(yōu)化，該損失只關(guān)注在每個批處理中最強的負樣本，而不關(guān)注其他負樣本，即強負樣本三元組損失函數(shù)，如(21)式所示：

(21)

3 實驗

3.1 實驗環(huán)境及參數(shù)設(shè)置

實驗環(huán)境如下：操作系統(tǒng)CentOS 7 64，GPU Nvidia Tesla P40，顯存24 GB，開發(fā)環(huán)境Python 3.6.5、Torch 1.6.0。

實驗中，批處理大小為128，閾值=0.2，Bi-GRU隱藏單元向量維度為512，嵌入共同空間的維度為2 048，詞袋模型中只統(tǒng)計詞頻不小于5的單詞。與文獻[25]相同，學習率為0.000 1，采用隨機梯度下降的Adam優(yōu)化器，并且設(shè)置在驗證誤差連續(xù)3個epochs不下降的情況下，學習率減半，即除以2，在連續(xù)10個epochs驗證精度不提升的情況下，提前終止訓(xùn)練，最多訓(xùn)練50個epochs。

為驗證關(guān)鍵幀提取的幀數(shù)對跨模態(tài)實體分辨性能的影響，分別取值為5、10、15、20。

3.2 數(shù)據(jù)準備

為驗證DEIKFE的有效性，選擇在視頻- 文本跨模態(tài)實體分辨中廣泛使用的MSR-VTT(Microsoft Research-Videoto Text)數(shù)據(jù)集和VATEX數(shù)據(jù)集進行實驗驗證。

3.2.1 MSR-VTT數(shù)據(jù)集

MSR-VTT數(shù)據(jù)集包含10 000個網(wǎng)絡(luò)視頻，其中每個視頻都標注了20條英文文本描述，總計200 000條文本描述。實驗中，與文獻[10，33]相同，選取6 537個視頻及其文本描述作為訓(xùn)練集，497個視頻及其文本描述作為驗證集，余下的2 990個視頻及其文本描述作為測試集。采用ResNet152進行特征提取，并選取pool5層輸出的2 048維向量作為視頻幀的特征表示。

3.2.2 VATEX數(shù)據(jù)集

原始的VATEX數(shù)據(jù)集中，訓(xùn)練集包含25 991個視頻，驗證集包含3 000個視頻，測試集包含6 000個視頻，其中每個視頻都包含10個中文文本描述和10個英文文本描述。由于原始的6 000個測試集視頻并未公布其對應(yīng)的文本描述，實驗中與文獻[10，33]相同，原始數(shù)據(jù)集的訓(xùn)練集不變，將3 000個測試視頻隨機等分，即1 500個視頻及其文本描述作為驗證集，1 500個視頻及其文本描述作為測試集。由于只能獲取該數(shù)據(jù)集I3D的特征表示，統(tǒng)計特征維度為×1 024，其中≤32，而且絕大多數(shù)都落在32，因此采用重復(fù)補全的方法，將所有維度都擴充為32×1 024，同樣采用關(guān)鍵幀提取方法對其進行處理。此時，視頻全局特征表示和Bi-GRU輸入特征維度均為1 024。

3.3 評價指標

實驗采用兩種檢索任務(wù)用于驗證DEIKFE的有效性：1)視頻匹配文本，在測試集中隨機選取一個視頻，檢索測試集中與之匹配的文本；2)文本匹配視頻，在測試集隨機選取一個文本，檢索測試集中與之匹配的視頻。

為了便于進行實驗對比，采用與文獻[10，30，33]相同的評價指標，包含R@、R@sum和MedR。下面對這些指標進行詳細介紹。

R@：為局部性能指標，表示根據(jù)查詢返回的結(jié)果中，相似度排名前(top-)中是否存在正確結(jié)果，可以用(22)式表示：

(22)

式中：表示查詢的數(shù)量；表示查詢結(jié)果，如果在排名前中存在正確結(jié)果則為1，否則為0。實驗中的取值為1、5、10。

R@sum：為總體性能指標，表示所有取值的R@之和?？梢杂?23)式表示。

(23)

式中：v2t表示視頻查詢文本；t2v表示文本查詢視頻。

MedR：表示測試集中所有查詢所得的正確結(jié)果相似度排名中位數(shù)的平均，體現(xiàn)了半數(shù)結(jié)果的排名情況。

3.4 實驗結(jié)果與分析

實驗與現(xiàn)有采用雙重編碼的5種方法進行對比，這些方法皆采用均勻取幀的方法，下面加以詳細介紹。

VSE：采用CNN和長短時記憶(LSTM)對視頻幀和文本進行特征提取，對提取的特征求平均，利用全連接層將其映射至共同空間，采用三元組損失進行語義關(guān)聯(lián)度量。

VSE++：特征提取和處理方式與VSE相同，不同在于改進了損失函數(shù)，采用強負樣本三元組損失進行語義關(guān)聯(lián)度量。

RNF：通過融合文本特征、視覺特征、動作特征和語音特征等多模態(tài)信息，并將正樣本的排名數(shù)融入強負樣本三元組損失進行語義相似度度量。

W2VV：采用詞向量工具和GRU網(wǎng)絡(luò)對文本進行編碼，采用CNN和視頻標簽對視頻進行編碼，而后在共同空間進行語義關(guān)聯(lián)學習。

Dual Encoding：采用雙重編碼方法對視頻和文本進行全局、局部和序列化特征的編碼，在共同空間中進行語義關(guān)聯(lián)學習。

為了對比分析方便，根據(jù)視頻和文本編碼粒度對方法進行分類：1)采用全局特征編碼的方法：VSE、VSE++；2)采用全局和序列化編碼的方法：RNF、W2VV；3)采用多級編碼的方法：Dual Encoding、DEIKFE；4)結(jié)合關(guān)鍵幀提取和多級編碼的方法：DEIKFE。

DEIKFE以及所有對比方法的結(jié)果如表2和表3所示。IDM為采用IDM進行關(guān)鍵幀提取的結(jié)果。

對比分析表2和表3可知：

結(jié)合關(guān)鍵幀提取與多級編碼的DEIKFE在所有性能指標上都達到了最優(yōu)，優(yōu)于其他對比方法：與同樣采用均勻取幀的多級編碼Dual Encoding對比，結(jié)合關(guān)鍵幀提取后，DEIKFE在MSR-VTT和VATEX兩個數(shù)據(jù)集中總體性能分別提升9.22%、2.86%；與采用IDM對比，在MSR-VTT和VATEX兩個數(shù)據(jù)集中總體性能分別提升了4.56%、2.80%。分析其中原因可知，雖然采用均勻取幀的多級編碼Dual Encoding能夠同時構(gòu)建視頻和文本全局、局部和序列化特征，但是在視頻幀提取上，均勻取幀導(dǎo)致視頻信息缺失，實體分辨性能下降，而IDMIDM雖然優(yōu)于均勻取幀，但是由于該方法對差分閾值的設(shè)定非常敏感，導(dǎo)致該方法不能盡可能多地提取視頻信息出現(xiàn)缺幀和漏幀的情況，性能提升有限。以上結(jié)果分析充分表明，結(jié)合關(guān)鍵幀提取的多級編碼方法能夠有效地提高實體分辨的性能。采用多級編碼的方法要優(yōu)于只采用全局、局部和序列化中的一種或者兩種組合的特征編碼方法。采用多級編碼的Dual Encoding、DEIKFE優(yōu)于VSE、VSE++、RNF、W2VV。分析可知，通過將視頻和文本不同層級的特征進行拼接，可以充分地表征模態(tài)數(shù)據(jù)信息，而采用其中的一種或者兩種都不足以表征完整的信息，導(dǎo)致性能下降。

表2 MSR-VTT數(shù)據(jù)集上跨模態(tài)實體分辨結(jié)果對比Tab.2 Comparison of cross-modal entity resolution results on MSR-VTT

表3 VATEX數(shù)據(jù)集上跨模態(tài)實體分辨結(jié)果對比Tab.3 Comparison of cross-modal entity resolution results on VATEX dataset

當取值為10和15時，DEIKFE分別在MSR-VTT和VATEX數(shù)據(jù)集中的性能達到最優(yōu)。分析在不同關(guān)鍵幀數(shù)量下的結(jié)果可知，當關(guān)鍵幀數(shù)量較小時，即使能夠提取出視頻中不同場景的信息，但是卻不能記錄下視頻中的時序特征，對于動作理解的缺失，如跑步的先后動作，導(dǎo)致實體分辨性能降低；而當關(guān)鍵幀數(shù)量過多時，雖然能夠記錄下視頻中的時序特征，但是由于存在大量的冗余信息，導(dǎo)致模型訓(xùn)練復(fù)雜度增大，而且在求平均過程中冗余信息大的特征所占權(quán)重大，而某些關(guān)鍵的特征可能因為無冗余而被忽略；只有當關(guān)鍵幀數(shù)量適中時，才能完整地記錄下視頻中的全局、局部和序列化特征，提高模型的性能。

為更直觀地分析DEIKFE跨模態(tài)實體分辨的效果，表4和表5給出了DEIKFE在MSR-VTT數(shù)據(jù)集上文本匹配視頻與視頻匹配文本的例子，表中列出了與查詢視頻或文本相似度排名前3的文本描述或視頻對應(yīng)的關(guān)鍵幀。對于每個查詢文本，有且僅有1個與之匹配的視頻，表中藍色方框為與文本描述相匹配的視頻，紅色方框為與文本描述不匹配的視頻；對于每個查詢視頻，表中藍色字體為正確的句子，紅色字體為錯誤匹配的結(jié)果。從表4中可以看出，在相似度排名前3的結(jié)果中，不論是文本匹配視頻還是視頻匹配文本，跨模態(tài)數(shù)據(jù)語義上都具有極高的相似性，表明DEIKFE模型能夠有效地構(gòu)建視頻與文本之間的語義關(guān)聯(lián)關(guān)系，達到跨模態(tài)實體分辨的目的。

表4 MSR-VTT數(shù)據(jù)集文本查詢結(jié)果示例

4 結(jié)論

本文針對現(xiàn)有的視頻文本跨模態(tài)實體分辨存在的問題，提出一種結(jié)合關(guān)鍵幀提取的視頻- 文本雙重編碼方法。通過實驗驗證其有效性，得出如下主要結(jié)論：

1)采用多級特征的編碼方法整合了全局、局部和序列化特征，要優(yōu)于僅采用其中一種或者兩種特征的組合。

2)結(jié)合關(guān)鍵幀提取的視頻- 文本跨模態(tài)實體分辨雙重編碼方法要優(yōu)于未采用關(guān)鍵幀提取的方法。

3)提取足夠的關(guān)鍵幀，使其既能夠充分表示視頻中不同場景的信息，也能保留視頻原有的時序相關(guān)的特征信息，又不存在冗余，提高了視頻- 文本跨模態(tài)實體分辨的性能。

表5 MSR-VTT數(shù)據(jù)集視頻查詢結(jié)果示例

本文研究結(jié)論對未來的相關(guān)研究工作具有實際應(yīng)用價值，在以后的視頻- 文本跨模態(tài)實體分辨研究中，應(yīng)在考慮整合視頻和文本多級特征編碼的同時，結(jié)合本文提出的關(guān)鍵幀提取方法，或者設(shè)計性能更好的關(guān)鍵幀提取方法，以達到更佳的性能。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看