劉波
1重慶工商大學(xué)人工智能學(xué)院,重慶,400067 2重慶工商大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,重慶,400067
隨著互聯(lián)網(wǎng)的快速發(fā)展以及計(jì)算機(jī)、終端設(shè)備的廣泛使用,使得視頻數(shù)據(jù)呈爆炸式增長.據(jù)統(tǒng)計(jì),2018年中國觀看網(wǎng)絡(luò)視頻的人數(shù)已經(jīng)達(dá)到6.09億,而著名的視頻網(wǎng)站YouTube每分鐘上傳的視頻有300小時(shí)左右.視頻是人們共享和獲取信息的有效載體.
圖像、聲音和文字是構(gòu)成視頻內(nèi)容的三個(gè)基本要素,這些信息可以構(gòu)成事件、動(dòng)作等連續(xù)的信息.對于海量的視頻,人們?nèi)粢@取它的主要信息,通常需要觀看完整個(gè)視頻,這將花費(fèi)大量時(shí)間.因此,需要尋找方法來讓人們能從視頻中迅速獲取主要內(nèi)容.視頻摘要是解決該問題的重要方法.所謂視頻摘要,就是指從視頻中提取包含視頻主要內(nèi)容的視頻幀或視頻段(Video Segmentation).視頻摘要主要涉及的視頻類型包括:1)電影、電視節(jié)目(比如新聞、體育、娛樂等)的視頻.2)視頻監(jiān)控領(lǐng)域.這類視頻數(shù)量巨大,內(nèi)容變化較少,視角通常固定.3)Egocentric視頻[1],也稱第一人稱視頻(the First Person Video),通常是指由可穿戴設(shè)備(比如Google眼鏡、微軟的AR眼鏡)所攝像的視頻.這類視頻的特點(diǎn)是內(nèi)容會(huì)出現(xiàn)較多的遮擋,視角變換頻繁、視頻內(nèi)容變化明顯、時(shí)間長.4)用戶視頻,通常包含一組有趣的事件,但未經(jīng)編輯.這類視頻通常比較長,存在大量冗余內(nèi)容[2].
Pfeiffer等在1996年首次提出了視頻摘要的概念[3].目前,研究視頻摘要主要有兩類方法:1)靜態(tài)視頻摘要方法,也稱關(guān)鍵幀選擇方法.該方法通過提取或選擇視頻中具有代性的幀(即關(guān)鍵幀(Key Frame))來精簡視頻的內(nèi)容.這種方法獲得的視頻摘要不具有連貫的動(dòng)態(tài)信息和語音信息,所表達(dá)的信息有限.2)動(dòng)態(tài)視頻摘要,也稱為視頻剪輯(Video Skimming).該方法通過保留連續(xù)的小視頻段來實(shí)現(xiàn)對視頻內(nèi)容的精簡.本文將對這兩種視頻摘要方法進(jìn)行詳細(xì)介紹.
靜態(tài)視頻摘要的目標(biāo)是從給定的視頻中選擇出具有代表性的幀,選擇的標(biāo)注是代表性(representative)和多樣性(diversity),有些文獻(xiàn)也稱代表性為重要性(importance).如果把視頻當(dāng)成一個(gè)集合,則每一幀就是集合中的元素,因此選擇關(guān)鍵幀的問題可以看成是子集選擇(subset selection)問題.子集選擇又稱為范例選擇,在人工智能領(lǐng)域有著廣泛的應(yīng)用,比如從大量的圖像中選擇具有代表性的圖像展示給不同用戶就是一個(gè)子集選擇問題[4].子集選擇是一個(gè)NP難問題,人們通過各種優(yōu)化方法來獲得它的近似解.
按照求解子集選擇方法的不同,靜態(tài)視頻摘要的方法可分為凸松馳(Convex Relaxation)優(yōu)化、行列式點(diǎn)過程(Determinantal Point Process)等.下面分別對這些方法進(jìn)行介紹.
通常子集選擇問題都得不到全局最優(yōu)解.為了解決這個(gè)問題,人們將子集問題轉(zhuǎn)換為凸規(guī)劃問題,以便能獲取近似解,這種轉(zhuǎn)換也稱為凸松馳.2012年,Elhamifar等[5]在數(shù)據(jù)集X上通過構(gòu)造樣本點(diǎn)的不相似性來選擇范例,將行稀疏作為目標(biāo)函數(shù)的正則項(xiàng),并通過凸優(yōu)化方法來求解目標(biāo)函數(shù).該方法在視頻摘要上取得了較好的效果.隨后他們對原來的方法進(jìn)一步改進(jìn)[6],通過在原集合X和目標(biāo)集合Y之間構(gòu)造逐點(diǎn)不相似性(pairwise dissimilarities)來獲得具有代表性的樣本集,然后通過稀疏恢復(fù)的方法來求解目標(biāo)函數(shù).最近,范例選擇被用于動(dòng)態(tài)時(shí)序數(shù)據(jù)中[7],即對于給定的時(shí)序數(shù)據(jù)集X=[x1,x2,…,xn],p(x′|xi1,…,xik),需要找出X中的范例來表示時(shí)序數(shù)據(jù)集Y=[y1,y2,…,yT]中的樣本.目標(biāo)函數(shù)由3個(gè)勢函數(shù)相乘得到,這3個(gè)勢函數(shù)分別為:編碼勢函數(shù)(Encoding Potential)、基數(shù)勢函數(shù)(Cardinality Potential)和動(dòng)態(tài)勢函數(shù)(Dynamic Potential).該問題最終可以轉(zhuǎn)換為一個(gè)整數(shù)規(guī)劃問題,并通過最大和消息傳遞(max-sum message passing)來求解.當(dāng)多個(gè)攝像頭對同一位置進(jìn)行監(jiān)控時(shí),由于每個(gè)攝像頭拍攝的視角(View Point)不一樣,會(huì)呈現(xiàn)多個(gè)視圖.在對這一位置的監(jiān)控視頻生成摘要時(shí),需要考慮多個(gè)視圖的相關(guān)性(correlation),這種視頻摘要稱為多視圖視頻摘要.多視圖視頻摘要面臨兩個(gè)重要的問題:1)數(shù)據(jù)量大;2)來自各個(gè)攝像頭的數(shù)據(jù)具有一定的相關(guān)性.為了有效解決這些問題, Panda等[8]提出基于子空間嵌入和稀疏表示的多視圖視頻摘要方法.所提出的方法同時(shí)約束一個(gè)視頻內(nèi)的相關(guān)性和視頻之間的相關(guān)性,從而提高了關(guān)鍵幀的差異性和稀疏性.
凸松馳方法所找到關(guān)鍵幀通常含有的信息量比較大,具有很好的代表性,但有可能差異性不大.為了提高凸松馳方法所選擇的幀的差異性,Wang等[9]采用結(jié)構(gòu)稀疏作為目標(biāo)函數(shù)的正則項(xiàng),其中,結(jié)構(gòu)稀疏正則項(xiàng)由行稀疏正則項(xiàng)、局部敏感正則項(xiàng)和差異性正則項(xiàng)組成.差異性正則項(xiàng)主要用于提高關(guān)鍵幀的差異性.具體而言,對于給定的兩幀xi,xj,分別找到與這兩幀最不相似的幀,并得到它們的不相似值d1,d2,如果xi,xj的相似度dij比d1,d2都大,則取dij作為線性組合的系數(shù).最終得到的差異性正則項(xiàng)公式為
行列式點(diǎn)過程是一種概率模型,它最早由Macchi于1975年提出[10].對于一個(gè)給定的整數(shù)集I={1,2,…,N},總共可以得到2N個(gè)子集,對于其中的一個(gè)子集y?X被選中的概率為
其中,L是對稱正定矩陣的相似矩陣,I是單位矩陣,Ly是子矩陣,它的行和列是根據(jù)y中的數(shù)字從L中抽取出來.將行列式點(diǎn)過程用于視頻摘要的原理為:將y看成是提取的視頻幀的編號集合,若提取了完全相同的兩幀,Ly就有完全相同的兩列和兩行,因此它的行列為0,從而導(dǎo)致其對應(yīng)的概率為零.
在使用行列式點(diǎn)過程來選擇關(guān)鍵幀時(shí),需要構(gòu)建矩陣L.Zhang等[11]通過監(jiān)督方式來構(gòu)建矩陣L.首先給出一組標(biāo)注好的視頻摘要,將測試視頻中的第i幀和第j幀取出來與標(biāo)注好的幀進(jìn)行逐一比較,選對相似度最大的幀,并計(jì)算相似值,將這些相似值加到一起作為矩陣L的第i行、第j列的元素.構(gòu)造好矩陣L后,再通過經(jīng)典的行列式點(diǎn)過程算法來得到最終要選擇的幀.
其中,Ωt表示yt-1∪yt所對應(yīng)的L矩陣.得到條件概率的定義之后,就可以得到所有子集的聯(lián)合概率分布:
P(Y1=y1,Y2=y2,…,YT=yT)=
最后通過后驗(yàn)概率推理來求解聯(lián)合概率分布:
?
Li等[13]在時(shí)序行列式點(diǎn)過程的基礎(chǔ)上引入強(qiáng)化學(xué)習(xí)來解決視頻段劃分問題.經(jīng)典的時(shí)序行列式點(diǎn)過程雖然考慮了視頻的時(shí)序特性,但是并沒有考慮如何將視頻合理地劃分成長度不相等的段.所提出的算法能通過隱變量來動(dòng)態(tài)得到視頻段的長度,然后劃分視頻段,整個(gè)過程能通過算法自動(dòng)推理實(shí)現(xiàn).他們還針對所提出的模型給出了一種有效的訓(xùn)練策略.
Sharghi等[14]根據(jù)用戶輸入的查詢信息來對長視頻獲得關(guān)鍵幀集合.所提出的算法總共分成兩部分:1)在序列行列式點(diǎn)過程的基礎(chǔ)上,將查詢信息作為條件概率的一部分來得到視頻段,這是通過Z層(Z-Layer)來完成的;2)對得到的視頻段,通過時(shí)序行列式點(diǎn)過程來去掉不相關(guān)信息.提出的模型限制用戶輸入的查詢信息只能是一個(gè)或多個(gè)名詞組合.為了解決時(shí)序行列式點(diǎn)過程的偏差問題,Sharghi等[15]提出了一種基于大間隔的視頻摘要算法,該算法能根據(jù)用戶輸入長度來執(zhí)行視頻摘要.
動(dòng)態(tài)視頻摘要主要包括視頻分割、視頻段重要性評價(jià)、選擇視頻段并形成視頻摘要.其中視頻分段和選擇視頻段是動(dòng)態(tài)視頻摘要最重要的部分.視頻分段將視頻分成多個(gè)場景或鏡頭(shots),是動(dòng)態(tài)視頻摘要的基礎(chǔ).選擇視頻段則是根據(jù)具體任務(wù)選擇滿足要求的視頻段,這通常會(huì)很困難,因?yàn)椴煌娜讼矚g不同的視頻內(nèi)容,選擇出的視頻不可能讓大家都喜歡,因此,個(gè)性化視頻摘要是動(dòng)態(tài)視頻摘要研究的重要方向.接下來將對視頻分割和個(gè)性化視頻摘要的相關(guān)研究進(jìn)展進(jìn)行介紹.
最初人們是通過直方圖和圖像強(qiáng)度來對結(jié)構(gòu)化視頻進(jìn)行分段并取得了好的效果.2014年,Gygli等[2]通過超幀(superframe)來對視頻分割,并通過定義的能量函數(shù)來評價(jià)視頻段.為了計(jì)算超幀的評分,需對每幀進(jìn)行評分,然后將這些幀的評分加起來得到超幀的評分.在計(jì)算每幀的評分時(shí),會(huì)利用幀的低級特征(比如對比度和時(shí)空信息顯著性等)和高級特征(比如動(dòng)作和人臉等)的信息.最后利用整數(shù)規(guī)劃來選擇視頻段.Potapov等[16]提出了一種變化點(diǎn)(change point)的視頻段分割方法.變化點(diǎn)常被用來測信號中的跳躍.他們所提出的算法采用核變化點(diǎn)來檢測視頻幀的變化情況,在變化較大的地方作為視頻幀分段的界線.Ngo等[17]對結(jié)構(gòu)化視頻用譜聚類和時(shí)間圖分析來進(jìn)行場景建模,然后通過動(dòng)作注意建模來進(jìn)行重要視段段的檢測.該算法的具體過程為:1)將視頻按時(shí)序分成不同的鏡頭(shots)和子鏡頭(sub-shots);2)用譜聚類對這些鏡頭聚類,用注意力模型得到這些鏡頭的注意力值;3)通過聚類信息和注意力值生成時(shí)空圖;4)對場景建模和檢測;5)生成視步摘要.
Xu等[18]針對Egocentric視頻摘要提出了基于凝視(gaze)跟蹤信息的視頻摘要方法.研究表明圖像中內(nèi)容的相對重要性與人在空間和時(shí)間上的注意力分布相關(guān).通常的Egocentric視頻由可穿戴設(shè)備生成,因此凝視產(chǎn)生的視頻能夠體現(xiàn)佩戴人的意圖,從而實(shí)現(xiàn)個(gè)性化的視頻摘要.通過鏡頭中注視幀(fixation frame)的數(shù)量可以得到鏡頭注意力的評分.所提出的算法通過凝視信息來分段,具體的操作過程為:1)提取每幀視頻中的凝視跟蹤信息(包括注視、掃視和眨眼);2)去掉有錯(cuò)誤的眼部跟蹤數(shù)據(jù)的幀;3)對得到的每段視頻選擇中心幀作為關(guān)鍵幀,通過深度神經(jīng)網(wǎng)絡(luò)R-CNN提取這些關(guān)鍵幀的特征,主要提取大小為100×100的凝視區(qū)域的特征;4)計(jì)算關(guān)鍵幀之間的余弦相似度;5)將連續(xù)的視頻段合并成子鏡頭,合并的原則是如果相鄰視頻段的相似距離是在0.5及以上,就合并,否則就不合并;6)對于合并后的子鏡頭,再次選擇中心關(guān)鍵幀,并用R-CNN計(jì)算這些關(guān)鍵幀的特征描述符,若有k個(gè)子鏡頭,最后形成的子鏡頭描述符集合為V={v1,v2,…,vk}.
隨著電子商務(wù)的普及,推薦系統(tǒng)成為研究熱點(diǎn),人們想根據(jù)每個(gè)人的愛好生成相應(yīng)的視頻摘要(即個(gè)性化視頻摘要),這與個(gè)性化推薦相似.個(gè)性化視頻摘要的研究屬于視頻摘要的新興領(lǐng)域.
Xiang等[19]從情緒基調(diào)(emotional tone)、局部主要特性和全局主要特性出發(fā),對視頻的個(gè)性化推薦進(jìn)行了研究.為了得到鏡頭的情感標(biāo)記,分別提取相應(yīng)的音頻特征和圖像特征,然后再由情感分析模型來對鏡頭進(jìn)行標(biāo)記.這個(gè)標(biāo)記過程也會(huì)用到人臉數(shù)據(jù).因此視頻段對應(yīng)兩種標(biāo)記:情感標(biāo)記和人臉標(biāo)記.通過稀疏情感標(biāo)記來分析視頻的情感狀態(tài).
Darabi等[20]提出了一種根據(jù)用戶愛好來定制視頻摘要的方法.首先由10個(gè)人根據(jù)視頻的音頻、視覺和文本內(nèi)容對6個(gè)不同類別的視頻的幀進(jìn)行評分.然后使用SIFT特征描述符按預(yù)定義類別來計(jì)算每個(gè)視頻場景的相關(guān)性分?jǐn)?shù),并將這些分類保存在一個(gè)矩陣中.接下來以向量的形式得到用戶對這些高級視覺概念(類別)的興趣水平.通過這兩組數(shù)據(jù)來確定用戶幀不同視頻段的優(yōu)先級,并根據(jù)最終用戶生成的配置文件來更新幀的初始平均分?jǐn)?shù),將得分最高的視頻幀作為視頻的摘要,并將音頻信息和文本內(nèi)容插入到最終的視頻摘要中.
Hant等[21]通過人工標(biāo)注關(guān)鍵幀的方式來獲得視頻段.該方法首先會(huì)用圖模型的顯著性算法來構(gòu)造顯著性映射,該映射由特征映射和激活映射(activation map)組合而成;然后得到幀之間的雙向相似性,這種相似性通過幀中圖像塊之間的余弦距離之和來進(jìn)行計(jì)算.在些基礎(chǔ)上,通過Isomap算法來完成幀的低維表示.為了計(jì)算幀的權(quán)重,首先計(jì)算幀在低維情形下的時(shí)序鄰近距離,然后獲得觀眾所選擇幀的權(quán)重.將這兩種權(quán)重相加得到幀的最終權(quán)重.為了選出關(guān)鍵的視頻段,首先用層次聚類算法來找到視頻的結(jié)構(gòu),然后再用整數(shù)規(guī)劃來選擇視頻段.該論文采用人工方式選擇關(guān)鍵幀,并計(jì)算這些關(guān)鍵幀的權(quán)重,再將這些權(quán)重與模型計(jì)算的權(quán)重融合,從而將個(gè)性化引入到視頻摘要中.
Yoshitaka等[22]通過捕獲人的動(dòng)作(比如眼睛移動(dòng)、播放器操作等)來進(jìn)行個(gè)性化視頻摘要.播放操作主要有快進(jìn)、快退、跳至下一節(jié)/上一節(jié),以快速播放、暫停或以慢速播放.在觀看視頻時(shí),如果不感興趣,觀眾通常會(huì)進(jìn)行快進(jìn);如果對播放的內(nèi)容感興趣,經(jīng)常會(huì)倒回播放或采用慢速播放.所以可以認(rèn)為倒回播放或慢速重播能表示觀眾注意力或偏好.作者通過實(shí)驗(yàn)說明了播放操作與用戶偏好之間的關(guān)系.觀眾在觀看視頻時(shí),人眼的運(yùn)動(dòng)方式也能反映出他對視頻內(nèi)容的偏好.眼睛掃視(saccade)指眼球快速從一個(gè)視點(diǎn)轉(zhuǎn)移到另一點(diǎn)視.固視(fixation)是眼睛在注意某個(gè)視點(diǎn)(viewpoint)時(shí)處于不動(dòng)狀態(tài).基于眼睛所處的狀態(tài)就能得到觀眾對視頻段的關(guān)注或喜愛程度.通過對觀眾觀看足球比賽的視頻節(jié)目進(jìn)行測試,可以驗(yàn)證這一觀點(diǎn).基于以上的事實(shí),作者給出了視頻摘要的處理流程.
個(gè)性化視頻摘要還處于起步階段,仍有很多問題需要解決,比如在根據(jù)用戶的偏好來選擇用戶感興趣的視頻段(或關(guān)鍵幀)的研究中,目前的數(shù)據(jù)集非常有限,僅有的幾個(gè)數(shù)據(jù)集都沒有給出視頻段的評分,更沒有將這些視頻段與用戶的偏好結(jié)合起來.
視頻摘要屬于數(shù)據(jù)摘要的一個(gè)分支.由于視頻數(shù)據(jù)是帶有時(shí)序結(jié)構(gòu)的圖像數(shù)據(jù),因此很多時(shí)序處理的方法(比如長短記憶網(wǎng)絡(luò)(LSTM)等)都可以用來對視頻摘要進(jìn)行研究,更重要的是很多計(jì)算機(jī)視覺的方法(比如語義分割、動(dòng)作識別等)也可以用來對視頻摘要進(jìn)行研究.而視頻摘要是一個(gè)子集選擇問題,可用機(jī)器學(xué)習(xí)、最優(yōu)化等理論來解決視頻摘要的問題.由于視頻包含有聲音、文字、圖像等數(shù)據(jù),可將視頻摘要看成是一個(gè)多模態(tài)問題,因此可用多模態(tài)方法來對視頻摘要建模.
雖然人們對視頻摘要進(jìn)行了廣泛研究,但仍有很多問題沒有解決,比如:
1)隨著網(wǎng)絡(luò)直播的興起,在線視頻的摘要越來越受到重視,而這方面的研究非常少;
2)隨著監(jiān)控設(shè)備的普及,多視圖的視頻摘要顯得越來越重要,而多個(gè)攝像機(jī)數(shù)據(jù)融合,多個(gè)攝像機(jī)數(shù)據(jù)的相關(guān)性等問題都有待解決;
3)目前用于視頻摘要研究的數(shù)據(jù)集很少,著名的視頻摘要數(shù)據(jù)集有TVSum[23]、SumMe[2].這些數(shù)據(jù)集都比較小,比如SumMe包括25個(gè)短視頻,TVSum包含50個(gè)短視頻.若需要利用深度學(xué)習(xí)技術(shù)來研究視頻摘要,則需要建立更大的數(shù)據(jù)集.