李煜堃 劉 熠 周 林 何艾蓮 王亞立 彭小江 喬 宇*
1(中國科學(xué)院深圳先進技術(shù)研究院 深圳 518055)
2(中國科學(xué)院大學(xué)深圳先進技術(shù)研究院 深圳 518055)
視頻行為理解因其在視頻內(nèi)容分析、智能監(jiān)控、人機交互等方面的廣闊應(yīng)用前景而在人工智能和計算機視覺領(lǐng)域得到了廣泛的研究。在學(xué)術(shù)界,關(guān)于視頻理解已存在許多相關(guān)主題,例如修剪視頻的行為分類[1]、未修剪視頻中的行為識別[2]、時序行為檢測[3]、時空行為定位[4]及視頻高光時刻檢測[5]。但是,這些任務(wù)所專注的研究都是離線設(shè)置下的,即需要以完整視頻作為輸入,待獲取全部視頻信息后輸出結(jié)果。
自 2016 年以來,先后出現(xiàn)了一些在線設(shè)置下的視頻動作研究工作,即在僅獲取過去及當前視頻幀信息的條件下輸出當前結(jié)果,如在線動作檢測[6]、在線動作預(yù)測[7]和在線動作起始檢測[8-9]。在線任務(wù)除了需要解決離線設(shè)置下視頻理解任務(wù)的所有難點以外,還需要解決視頻幀下文信息不足的問題。因此,與離線任務(wù)相比,在線任務(wù)更具挑戰(zhàn)性。目前,上述任務(wù)的研究大多是在原本作為離線設(shè)置下動作檢測的數(shù)據(jù)集上完成的,如 THUMOS’14[10]、ActivityNet[2]或一些從電視劇集中獲取的長視頻數(shù)據(jù)集(如TVseries[11])。這些數(shù)據(jù)集的視頻通常平均時長為數(shù)分鐘甚至數(shù)十分鐘,并且類別基本集中在人的動作上。盡管短視頻在諸多移動端應(yīng)用中無處不在,但豐富場景下的短視頻在線檢測的相關(guān)研究依然有所欠缺。
基于此,本文著眼于手機端短視頻的視頻理解提出在線精彩時刻起始檢測(Online Highlight Start Detection,OHSD)任務(wù)。OHSD 任務(wù)的研究有助于在手機端 AI 相機應(yīng)用中實現(xiàn)智能啟用慢動作錄制或觸發(fā)其他預(yù)設(shè)特定效果。為了適應(yīng)此任務(wù)的研究,本研究首先采集和構(gòu)建了一個名為Highlight45 的大規(guī)模手機短視頻數(shù)據(jù)集。該數(shù)據(jù)集包含來自日常生活中 45 個不同類別的 9 751 個高分辨率手機拍攝視頻。這些類別的設(shè)定主要是通過調(diào)研手機用戶在拍攝過程中的偏好確定,定義為精彩時刻(Highlight):一方面,因為本數(shù)據(jù)集中的類別不僅局限于人類動作,還包括自然場景、動物、人物交互等大類,因此需要與之前的動作檢測進行區(qū)分;另一方面,這一定義也契合本研究所關(guān)注的應(yīng)用場景。數(shù)據(jù)集中所有視頻均是未經(jīng)裁剪的原始手機視頻,并對每一個視頻進行了精彩時刻起止點的標注。針對 OHSD 任務(wù),本研究設(shè)計了兩個評測指標以評估在線起始檢測的效果:首次檢測時的平均查準率(Average Precision@First,AP@1)和平均次數(shù)的平均召回率(Average Recall@Average Number,AR@AN)。具體來說,前者側(cè)重于在線評估,僅考慮網(wǎng)絡(luò)輸出的首個檢測結(jié)果;而后者則對完整視頻處理完后的所有檢測結(jié)果進行整體評價。
實驗部分給出了在線檢測任務(wù)中常用的基于遞歸神經(jīng)網(wǎng)絡(luò)系列的幾種網(wǎng)絡(luò)的基準結(jié)果,并設(shè)計了一種基于帶孔時序卷積的網(wǎng)絡(luò)結(jié)構(gòu)(Highlight-Net)以更好地利用圖像色彩(RGB)信息和光流(Flow)信息。為了更好地解決起始檢測任務(wù)中背景幀和前景幀之間難以區(qū)分的問題,本研究進一步設(shè)計了序列對比損失函數(shù)。實驗結(jié)果表明,新的網(wǎng)絡(luò)結(jié)構(gòu)及損失函數(shù)顯著地提升了檢測效果,可以作為 OHSD 任務(wù)很強的一個基線方法。在最后,本研究通過具體類別的實例分析,闡明了以往在線評價指標存在的問題和本研究所提出的評價指標的合理性。
鑒于手機短視頻場景下視頻在線檢測及在線起始檢測任務(wù)數(shù)據(jù)集較少,本文構(gòu)建了一個名為Highlight45 的大規(guī)模手機短視頻數(shù)據(jù)集:首先,通過調(diào)研日常生活中手機拍攝精彩時刻視頻內(nèi)容確定了涵蓋動物、人類行為、人物交互和場景 4大類型共計 45 個類別的設(shè)定;然后,以眾包的方式收集視頻以確保每個類別內(nèi)容的多樣性,并經(jīng)過人工逐個檢查視頻質(zhì)量,剔除了分辨率低、攝像機運動劇烈等低質(zhì)量視頻。最終形成的數(shù)據(jù)集中每個類別均有約 200 個視頻,共計 9 751 個視頻,以保證樣本平衡。為了獲得盡可能準確的精彩時刻起始標注,首先對每個類別提供了起始判定的參考依據(jù)并給出參考實例??紤]到手機短視頻的特性及本任務(wù)應(yīng)用的側(cè)重點,每個視頻僅標注 1 個實例。經(jīng)過統(tǒng)計,本數(shù)據(jù)集中大部分視頻幀數(shù)少于 200,同時有很大比例視頻的精彩時刻持續(xù)幀數(shù)少于 20,這意味著對本數(shù)據(jù)集精細化的時序起始檢測將更具難度。從結(jié)果分析來看,表現(xiàn)不好的類別也確實是這些幀數(shù)少的類別。圖 1展示了本數(shù)據(jù)集的統(tǒng)計特性。
圖1 Highlight45 數(shù)據(jù)集統(tǒng)計特性Fig.1 Statics of Highlight45
2.2.1 在線起始檢測任務(wù)
對于 OHSD 任務(wù)而言,網(wǎng)絡(luò)需要在僅獲取過去和當前幀信息的情況下,輸出當前幀的類別以及 Highlight 分數(shù)。整體而言,首先通過特征提取網(wǎng)絡(luò)提取幀級別特征,然后使用時序建模模塊集成歷史信息以幫助當前幀的分類,最后使用分類器來判斷 Highlight 事件的起始。具體來說,可以劃分為類別相關(guān)和類別無關(guān)兩個子任務(wù)。在類別相關(guān)的設(shè)置中,網(wǎng)絡(luò)除了需要輸出判定為事件起始的分數(shù)以外還需要作出正確的分類,而類別無關(guān)的設(shè)置下僅需要給出起始的分數(shù)而對類別正確與否沒有要求??紤]到實際應(yīng)用中具體到幀級別的起始點判定方式過于嚴苛,同時不同類別實際上有不同程度的檢測敏感度要求,因此本文提出自適應(yīng)時間容差窗口(Time Tolerance Window)的概念,即網(wǎng)絡(luò)判定的起始幀只要落在實際標注的起始幀前后若干幀內(nèi)即算正確,窗口大小與實例時長相關(guān)。
2.2.2 評價指標
參考以往在線檢測任務(wù)中,在線動作檢測(Online Action Detection)[11]通常使用幀級別平均查準率(frame Average Precision,frame-AP)以及考慮了平衡背景影響的幀級別校準平均查準率(calibrated Average Precision,cAP)兩個指標。鑒于這兩個指標主要適用于在線幀分類問題而不適用于起始檢測,有學(xué)者在在線起始檢測任務(wù)中[9]提出了點級別平均查準率(point-level Average Precition,p-AP)——更多地適應(yīng)于多實例視頻下的起始點評價(如 THUMOS’14 數(shù)據(jù)集)。然而,該指標統(tǒng)計評價整個視頻所有的檢測結(jié)果,并不能適配 OHSD 任務(wù)中面向?qū)嶋H應(yīng)用的情形。
對于短視頻場景下的 OHSD 任務(wù),往往關(guān)注算法能否及時正確地輸出首個起始點的檢測結(jié)果。因此,本研究引入了兩個新穎的視頻級評價標準——AP@1 和 AR@AN。為了更加公平地評估不同難度下的起始查準率,使用實例自適應(yīng)時間容差窗口來判定正確的預(yù)測。對于每個視頻,實例自適應(yīng)時間容差窗口的定義為:
其中,Sgt和Egt分別為視頻中標注的起始和結(jié)束時間點;α為偏移容差系數(shù),其大小決定了評價指標的嚴格程度,在實驗中,該系數(shù)分別設(shè)置為0.1、0.2、0.3 以進行比較。
AP@1 是完全在線評估的指標,算法不能在處理完全部視頻后進行后處理(如按照分數(shù)進行排序篩選),僅提供輸出的首個檢測結(jié)果作為評判。形式上 AP@1 可以表示為:
其中,N為參與評價的視頻總數(shù); 為第i個視頻中首個起始檢測時間點(幀號); 為指示函數(shù),如果檢測到的幀號落入上述時間窗口內(nèi),則判定為 1,否則為 0。AP@1 反映了所有視頻在線輸出起始檢測的正確比例。
AR@AN 作為離線評價指標進行輔助評價,允許算法在處理完全部視頻后進行后處理。對于每個視頻,系統(tǒng)首先將所有檢測出的起始結(jié)果按其置信度分數(shù)排序,然后將前N個預(yù)測結(jié)果用于召回率評估。若前N個預(yù)測結(jié)果中有任何一個落入上述時間窗口,則正確值加 1。在本數(shù)據(jù)集的設(shè)置下,每個視頻只有一個實例需要判斷,因此設(shè)定 AN(Average Number)的值為 1 和 2 進行評價。
在線動作分析的方法流程通常是先通過雙流網(wǎng)絡(luò)分別提取 RGB 和 Flow 特征,然后將兩種模態(tài)的特征拼接起來作為后續(xù)網(wǎng)絡(luò)框架的輸入。這種簡單且直接的先融合策略雖然同時利用了兩種模態(tài)的信息,但可能會使后續(xù)時序建模網(wǎng)絡(luò)對外觀和運動特征產(chǎn)生混淆,導(dǎo)致對時間維度信息更敏感的在線設(shè)置下任務(wù)產(chǎn)生更為顯著的混淆。經(jīng)過實驗可以驗證,在線起始檢測任務(wù)中,在幀級別的 RGB 特征上添加時序建模模塊對整體性能有負面影響。在線時序檢測任務(wù)中時序建模網(wǎng)絡(luò)通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)(如 LSTM[12]和GRU[13]),但 Wang 等[14]指出,使用帶孔因果卷積的效果會優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)。因此,本研究針對 OHSD 任務(wù)設(shè)計了一種基于帶孔因果卷積的混合雙流網(wǎng)絡(luò)結(jié)構(gòu)(Highlight-Net)從而更有效地利用兩種不同模態(tài)的特征。
圖 2 展示了該網(wǎng)絡(luò)結(jié)構(gòu)的整體流程圖。整個網(wǎng)絡(luò)劃分為 RGB 分支和 Flow 分支。對于 RGB分支,為了最大限度保留幀本身的信息,采用圖像領(lǐng)域常用的卷積神經(jīng)網(wǎng)絡(luò) ResNet50[15]進行幀級別的特征提取和分類。對于 Flow分支,首先采取 BN-Inception[16]對過去L-1 幀及當前幀的光流輸入進行特征提取,這些特征通過全連接層和 ReLU 激活函數(shù)變形后組成片段級特征序列;然后將此特征序列輸入名為“帶孔因果卷積”(Dilated Casual Convolution,DCC)[17]的時序建模模塊中,用來替代之前序列任務(wù)一般采用的循環(huán)神經(jīng)網(wǎng)絡(luò)。因果卷積保證了網(wǎng)絡(luò)的“在線”性質(zhì),同時帶孔卷積保證了對長時歷史信息的保留。
圖2 Highlight-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network architecture of Highlight-Net
其中,r為帶孔卷積比例,反應(yīng)時序卷積在采樣幀的間隔幀數(shù);W表示尺寸為s、通道數(shù)為do的1D 卷積核。RGB 和 Flow 分支的分數(shù)最終通過加權(quán)求和的方式進行后融合以作為當前幀最終的起始判定分數(shù)。
在 Flow 分支中,特征以時序序列的形式進行輸入。由于視頻任務(wù)中幀的連續(xù)性特點,起始點前后若干幀的特征十分相近,從而造成網(wǎng)絡(luò)難以準確檢測起始點?;诖?,本研究分析數(shù)據(jù)特性,設(shè)計了序列對比損失函數(shù)(Sequential Contrastive Loss)以監(jiān)督網(wǎng)絡(luò)增大背景幀和前景幀光流特征建模的區(qū)分度,從而使最終輸出的起始點更加準確。
對于長度為L的特征序列,以相鄰兩幀作為一對計算對比損失。形式上可以表述為:
在訓(xùn)練階段,RGB 分支和 Flow 分支獨立進行。對 RGB 分支,先采用在 ImageNet[18]上預(yù)訓(xùn)練的 ResNet50 模型進行初始化,然后基于標準交叉熵損失(圖 2 中的Lcls)在 Highlight45數(shù)據(jù)集上進行精調(diào)。對 Flow 分支,先采用在Kinetics400[19]數(shù)據(jù)集上預(yù)訓(xùn)練的 BN-Inception 模型進行初始化,然后進行圖像級的精調(diào)以作為單幀特征抽取器。對于 Flow 分支的時序建模部分,在一個 FC-ReLU 整合特征模塊之后,采用兩層帶孔因果卷積層(卷積核尺寸為 3,帶孔尺寸分別為 1、2,通道數(shù)為 3 072)作為時序建模模塊。每一層卷積層之后均使用 ReLU 和 dropout來控制過擬合。光流部分的損失函數(shù)可形式化表示為:
其中,Lcls1和Lcls2均為交叉熵損失函數(shù),Lcls1作為一項提前監(jiān)督的策略來更加有效地訓(xùn)練深層網(wǎng)絡(luò);λ為平衡權(quán)重因子,在實驗中設(shè)置為 0.5。
數(shù)據(jù)處理階段,首先將短邊為 256 的圖片按長短邊比例調(diào)整尺寸,然后進行中心裁剪為224×224 大小的圖片作為輸入。網(wǎng)絡(luò)訓(xùn)練過程中,使用動量為 0.9 的 SGD 優(yōu)化器,正則化權(quán)重為 0.000 5,批處理規(guī)模為 64。初始學(xué)習(xí)率為 0.001,在第 3 和第 5 個迭代周期學(xué)習(xí)率衰減10 倍,共訓(xùn)練 10 個訓(xùn)練周期。所有代碼基于Pytorch 框架進行實現(xiàn),使用 8 張 NVIDIA RTX 2080Ti GPU 顯卡進行所有實驗。
在測試階段,Highlight-Net 以間距為 1 的滑動窗口對輸入視頻流進行逐幀在線檢測。RGB分支逐幀處理視頻流,F(xiàn)low 分支處理長度為L的幀序列。為了對齊兩分支的當前幀位置,在測試開始階段對每個視頻的開頭添加空幀以填補 Flow 分支的空缺。通過加和兩個分支的全連接層輸出分數(shù)來融合二者的特征信息后,使用Softmax 函數(shù)來獲得用于 OHSD 任務(wù)的多分類或二分類概率。進一步,通過計算當前幀相對前一幀預(yù)測為前景概率值的差作為判斷當前幀是否為起始幀的依據(jù)。在類別相關(guān)的設(shè)定下,還需要判定該幀的前景幀對應(yīng)分類是否與前一幀一致。
OHSD 任務(wù)最直觀的方法是進行逐幀分類。因此,本研究最基本的對比方法是直接拼接 RGB和光流的雙流特征(Two Stream feature,TS)作為后續(xù)網(wǎng)絡(luò)輸入的逐幀分類器。實驗中分別采用直接使用全連接層分類器以及遞歸神經(jīng)網(wǎng)絡(luò)(LSTM和 GRU)對 TS 特征進行時序建模后分類的方式作為基線方法。為了保證對比公平,所有的特征提取網(wǎng)絡(luò)均保持一致,時序建模層的通道數(shù)也與Highlight-Net 中 DCC 模塊的通道數(shù)相同。
對于 OHSD 任務(wù)的性能評估,除了使用本文提出的更符合任務(wù)設(shè)定的指標(AP@1 和 AR@AN)進行測評以外,還采用了在線動作起始檢測工作[9]中提出的 p-AP 指標。由于 p-AP 指標中起始評測范圍(1~10 s)是針對長視頻數(shù)據(jù)集設(shè)定的,與本文構(gòu)建的短視頻數(shù)據(jù)集的數(shù)據(jù)特性不相符,因此在評價過程中需對該指標進行修正(0.5~5 s)。所有實驗均在兩套判定體系(類別相關(guān)和類別無關(guān))下進行評估。偏移容差系數(shù)α對應(yīng)任務(wù)的難度,分別按 0.1、0.2、0.3 進行評估。
在本節(jié)中,首先對本研究提出的 Highlight-Net 和一系列經(jīng)典方法進行比較,然后通過消融實驗評估新提出的混合雙流結(jié)構(gòu)及序列對比損失函數(shù)的提升效果。
從表 1 中 Highlight-Net 和其他經(jīng)典方法之間的實驗結(jié)果可知:(1)從本文提出的新指標及在線動作起始檢測中采取的 p-AP 評價標準來看,混合雙流網(wǎng)絡(luò)的方法始終表現(xiàn)更好,尤其是在類別無關(guān)的設(shè)定下,提升效果非常顯著,這一定程度上反映了 RGB 特征的拼接會影響后續(xù)效果;(2)從 AP@1 和 AR@AN 的角度來看,當容差系數(shù)變小時,所有方法的性能都會顯著降低,這說明精確檢測起始點非常困難;(3)相對于只使用當前幀進行分類的方式,LSTM 和 GRU 在這兩套判定體系下均有一定提升,說明歷史時序信息的融合有助于起始檢測。
表1 Highlight45 上各種指標下 OHSD 任務(wù)的實驗結(jié)果Table 1 Results of online highlight start detection with varied metrics on Highlight45
本節(jié)對雙流模態(tài)融合方式、時序建模方法、序列對比損失以及提前監(jiān)督策略進行消融實驗研究,旨在證明本文提出方法的有效性。所有實驗均在類別相關(guān)、偏移容差系數(shù)為 0.2 的設(shè)定下以AP@1 和 AR@1 兩大指標進行對比實驗。
4.2.1混合策略及時序模型
表 2 展示了使用不同混合策略及時序模型的組合進行實驗,共計 13 個模型的性能比較。Flow 分支均使用本文設(shè)計的提前監(jiān)督策略和序列對比損失函數(shù)進行優(yōu)化從而保證對比的公平性。結(jié)果表明,(1)在兩個指標中,由于是類別相關(guān)的設(shè)定,在不使用時序建模的情形下,僅使用 RGB 特征的性能略優(yōu)于 Flow 特征。(2)時序建模可以顯著提升 Flow 分支的效果,但對RGB 特征卻會有所損害。具體來說,AP@1 指標中,F(xiàn)low 分支提升 4.75%,而 RGB 分支卻下降 2.21%,這一現(xiàn)象說明了混合雙流結(jié)構(gòu)的必要性,時序建模對空間特征的融合并不友好。(3)對比不同時序模型,不論是哪種特征輸入方式,DCC 均略優(yōu)于 LSTM 和 GRU。(4)相較于特征拼接的輸入方式,使用混合模型可以顯著改善效果,帶有 DCC 的 Highlight-Net 可獲得最佳結(jié)果。
表2 特征不同混合方式和時序模型的對比實驗Table 2 Evaluation of hybrid strategy and temporal modeling methods
4.2.2 損失函數(shù)
表 3 中評估了 Highlight-Net 采用的序列對比損失函數(shù)和提前監(jiān)督策略,由于這兩個損失函數(shù)僅作用在 Flow 分支,因此表中僅對比使用光流模態(tài)的結(jié)果,時序建模網(wǎng)絡(luò)使用 DCC 模塊。從表 3 可以看出,二者一致地提高了性能。這說明序列對比損失可以監(jiān)督時序建模網(wǎng)絡(luò)更有效地將起始點前后前景幀、背景幀特征進行區(qū)分,從而更好地服務(wù)于后續(xù)起始檢測任務(wù)。另外,提前監(jiān)督的策略輔助了整個模型的優(yōu)化。這二者共同將首個檢出的平均查準率 AP@1 提高 2.82%。
表3 損失函數(shù)的對比實驗Table 3 Evaluation of the loss functions
4.2.3 評價指標
本節(jié)挑選 3 個典型類別(Animal RunJump、Squart Jump、Throw Castnet)及全部數(shù)據(jù)(Whole data)進行多個指標的評估對比并對具體例子進行可視化,用以說明本研究設(shè)計指標的合理性。如圖 3 所示,frame-AP 是在線動作檢測的評價指標,用以統(tǒng)計所有被判定為前景幀的查準率,不能反映起始區(qū)域幀的準確程度,從結(jié)果上反映出來每一類下該指標的數(shù)值都非常高。p-AP 指標對網(wǎng)絡(luò)所有檢測出的起始提名按置信度進行排序,若起始提名位于統(tǒng)一的固定時間偏移(如 0.5 s)中,則認為該提名是正確的,所有符合要求的檢測都會納入計算。本研究提出的指標與 p-AP 之間的主要區(qū)別在于:(1)AP@1 和 AR@AN 使用實例自適應(yīng)時間偏移窗口,更契合視頻長短不同情形的不同檢測需求;(2)AP@1 僅評判首個檢出的結(jié)果,而 p-AP 指標需要全部視頻作出輸出才進行計算,本指標更符合在線要求和實際需求;(3)AP@1 和 AR@AN 在視頻數(shù)量級別進行平均。
圖3 不同評價指標詳細對比Fig.3 Comparison between different evaluation metrics
綜上所述,p-AP 的評價會受到時間偏移量和當前視頻中非首個檢測產(chǎn)生的誤報的影響,以 Animal RunJump 類為例可以發(fā)現(xiàn),該類別的p-AP 極低,但 AP@1 高出兩倍以上。從可視化情況來看,這一類別的首個實際預(yù)測往往是正確的,但 p-AP 指標由于會考慮超過閾值的全部起始預(yù)測并且按照置信度排序,從而拉低了整體結(jié)果。而另一類 Throw Castnet 則正好相反,這是因為該類 Highlight 持續(xù)時間普遍較短,與 p-AP固定時間窗口模式相比,本研究指標中自適應(yīng)窗口模式會判定更多的正確預(yù)測。實際需求下,時長短的類別往往需要更靈敏的起始檢測,所以 AP@1 可以更好地反映類別難度,與該類別相似的幾個類別的起始檢測效果均不理想。圖 4中給出了 3 個類別典型例子的可視化結(jié)果圖來幫助解釋上述情形。
圖4 可視化實例示意圖Fig.4 Visualization of online highlight start detection
本研究基于手機短視頻場景提出在線起始檢測任務(wù)(OHSD)并配套構(gòu)建了 Highlight45 數(shù)據(jù)集和契合 OHSD 任務(wù)需求的兩個新的評估指標,即AP@1 和 AR@AN。類別相關(guān)和類別無關(guān)設(shè)定下的大量實驗表明,與傳統(tǒng)評估指標相比,本研究的度量標準更合理實用。針對 OHSD 任務(wù),本研究設(shè)計了 Highlight-Net 網(wǎng)絡(luò)結(jié)構(gòu),通過探索全新的雙流融合策略和使用新的損失函數(shù)監(jiān)督取得了較好的檢測效果,以作為強有力的基線方法。短視頻研究的應(yīng)用前景十分廣闊,本研究僅初步進行了數(shù)據(jù)、評價標準和方法上的探索,未來可以在數(shù)據(jù)的擴充和方法的優(yōu)化上進行更多的研究。