顧佳偉 趙瑞瑋 姜育剛
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203)
視頻拷貝檢測(cè)方法綜述
顧佳偉 趙瑞瑋 姜育剛
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203)
(gujw15@fudan.edu.cn)
目前網(wǎng)絡(luò)上存在著大量的拷貝視頻,研究人員長(zhǎng)期以來(lái)致力于視頻拷貝檢測(cè)技術(shù)的研究,特別是近年來(lái)隨著深度學(xué)習(xí)方法的引入,又涌現(xiàn)出了一些新穎的檢測(cè)算法.將對(duì)現(xiàn)有代表性的視頻拷貝檢測(cè)方法進(jìn)行回顧與總結(jié),涵蓋視頻拷貝檢測(cè)系統(tǒng)的基本框架與各個(gè)主要步驟的不同實(shí)現(xiàn)方法,包含視頻拷貝檢測(cè)中的特征提取、建立索引、特征匹配與時(shí)間對(duì)齊等不同模塊.總結(jié)的關(guān)鍵技術(shù)包括了最新的深度學(xué)習(xí)方法在其中的應(yīng)用與取得的突破,主要體現(xiàn)在深度卷積神經(jīng)網(wǎng)絡(luò)和雙胞胎卷積神經(jīng)網(wǎng)絡(luò)方法的應(yīng)用.此外,還將詳細(xì)介紹目前常用的5個(gè)用于視頻拷貝檢測(cè)評(píng)測(cè)的數(shù)據(jù)集及通用的評(píng)價(jià)標(biāo)準(zhǔn),并討論分析一些代表性方法的性能表現(xiàn).最后,對(duì)視頻拷貝檢測(cè)技術(shù)未來(lái)發(fā)展趨勢(shì)進(jìn)行展望.
視頻拷貝檢測(cè);特征表示;性能評(píng)價(jià);數(shù)據(jù)集;綜述
隨著互聯(lián)網(wǎng)的快速發(fā)展,承載著人類活動(dòng)信息的網(wǎng)絡(luò)數(shù)據(jù)正以指數(shù)速度增長(zhǎng).據(jù)統(tǒng)計(jì),這些海量的網(wǎng)絡(luò)數(shù)據(jù)中80%的內(nèi)容為圖像視頻等媒體數(shù)據(jù)[1].例如,全球最大的視頻網(wǎng)站YouTube在2007年初平均每分鐘有6 h時(shí)長(zhǎng)的視頻被上傳;在2010年11月,該數(shù)字增加到了35 h;在2013年5月,平均每分鐘上傳視頻進(jìn)一步增至100 h;而至2015年7月,這一數(shù)字已攀升至400 h[2];與此同時(shí),根據(jù)2014年4月的統(tǒng)計(jì)結(jié)果,人們每個(gè)月要花費(fèi)60億小時(shí)的時(shí)間在收看YouTube的視頻內(nèi)容上[3].據(jù)IDC在2012年預(yù)測(cè),到2020年全世界網(wǎng)絡(luò)數(shù)據(jù)規(guī)模將達(dá)到40 ZB[4].
互聯(lián)網(wǎng)的高速發(fā)展是一把雙刃劍,它在帶給人們方便與快捷的同時(shí),也導(dǎo)致了許多問(wèn)題.例如,一些盜版商利用網(wǎng)絡(luò)平臺(tái)出售盜版視頻以獲取不正當(dāng)利益;一些用戶與團(tuán)體借助網(wǎng)絡(luò)平臺(tái)惡意傳播非法視頻以擾亂社會(huì)秩序等.在這樣的背景下,多種問(wèn)題視頻在各個(gè)視頻網(wǎng)站、交友社區(qū)、聊天工具等平臺(tái)中不斷傳播,危害社會(huì).由于網(wǎng)絡(luò)數(shù)據(jù)規(guī)模十分龐大,依靠人力在海量數(shù)據(jù)中找出拷貝視頻是不現(xiàn)實(shí)的,視頻拷貝檢測(cè)技術(shù)也因此被提出.該技術(shù)的應(yīng)用場(chǎng)景是,基于已有的源視頻,在海量數(shù)據(jù)中尋找與之相同或近似的拷貝視頻.視頻拷貝檢測(cè)技術(shù)除了可以應(yīng)對(duì)上述的版權(quán)保護(hù)問(wèn)題[5-7]與非法內(nèi)容檢測(cè)問(wèn)題[8]之外,還可以處理視頻監(jiān)控計(jì)數(shù)問(wèn)題[9]、視頻推薦問(wèn)題[10]等.比如,一些用戶希望知道某視頻片段在網(wǎng)絡(luò)流媒體上某個(gè)時(shí)間段內(nèi)出現(xiàn)的次數(shù),獲取這類信息就需要運(yùn)用該技術(shù);當(dāng)前各類視頻網(wǎng)站的個(gè)性化推薦服務(wù)是促進(jìn)用戶體驗(yàn)的重要手段,除了依據(jù)文本標(biāo)簽匹配外,聯(lián)合視覺內(nèi)容進(jìn)行視頻推送,可以達(dá)到更準(zhǔn)確的推送效果.隨著人類社會(huì)進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代,多媒體信息傳播更加便捷化,形式更加復(fù)雜化,越來(lái)越多的地方需要用到這種技術(shù).
早期的視頻拷貝檢測(cè)技術(shù)主要使用各類傳統(tǒng)特征進(jìn)行檢測(cè),取得了不錯(cuò)的結(jié)果;近幾年,隨著深度學(xué)習(xí)方法的引入,涌現(xiàn)了一批新的基于深度網(wǎng)絡(luò)模型的視頻拷貝檢測(cè)技術(shù),它們相比傳統(tǒng)方法取得了更優(yōu)秀的識(shí)別效果.針對(duì)目前發(fā)展現(xiàn)狀,本文對(duì)現(xiàn)有代表性的視頻拷貝檢測(cè)方法進(jìn)行回顧與總結(jié),借此希望能給當(dāng)前及未來(lái)的相關(guān)研究提供一定的參考與幫助.
1.1 視頻拷貝檢測(cè)技術(shù)定義
目前關(guān)于視頻拷貝檢測(cè)技術(shù)的研究已有十多年,視頻拷貝檢測(cè)技術(shù)主要針對(duì)拷貝視頻進(jìn)行檢測(cè),但在同時(shí)期還存在幾種相近的檢測(cè)對(duì)象[11],如重復(fù)視頻、近似重復(fù)視頻[5,12]等.重復(fù)視頻即為幾乎一模一樣的視頻,范圍較窄;近重復(fù)視頻,要求語(yǔ)義一致、畫面近似,視頻來(lái)源一般不同;而拷貝視頻,要求語(yǔ)義一致、畫面近似且視頻來(lái)源相同.例如,父母用各自的手機(jī)分別記錄某時(shí)刻孩子的生活,這2個(gè)視頻視為近似重復(fù)而不是拷貝;如果母親對(duì)其中一個(gè)視頻進(jìn)行后期加工,加入一些卡通元素,則新視頻才被視為拷貝視頻.在研究之初,其定義范圍較窄,一些研究者認(rèn)為拷貝檢測(cè)與近似重復(fù)檢測(cè)有明顯的差異[6].后來(lái),Basharat等人[13]建議放寬定義,以適應(yīng)更廣泛的應(yīng)用;為了獲取大眾對(duì)近似視頻的理解,Cherubini等人[10]還做了網(wǎng)絡(luò)調(diào)查.雖然目前還未有統(tǒng)一檢測(cè)對(duì)象,但它們所使用的檢測(cè)方法是共通的[11].
一般地,拷貝視頻主要由源視頻經(jīng)過(guò)光學(xué)變換、幾何變換或時(shí)間變換等變換方式轉(zhuǎn)化而得,具體有插入圖標(biāo)、模擬錄像、尺度改變和畫中畫等方式[8,14],圖1展示了部分拷貝方式.其中,圖1(a)為亮度改變;圖1(b)為左右對(duì)稱變換;圖1(c)為插入圖標(biāo);圖1(d)為畫中畫.在實(shí)際應(yīng)用中,視頻的拷貝變換具有多樣性與不確定性,研究者希望找到一些通用的方法來(lái)適應(yīng)所有的拷貝變換,目前許多方法對(duì)各種變換都有一定的效果,但在不同變換上存在著一定差異,一般插入圖標(biāo)和改變伽馬值等拷貝變換較易檢測(cè),而模擬錄像、畫中畫和后期加工等拷貝變換的檢測(cè)比較困難[8,15-18].從圖1中可以看出,后者在視覺內(nèi)容上的變化相對(duì)較大.
Fig. 1 Examples of copied frames圖1 拷貝幀樣例
另外,視頻拷貝檢測(cè)應(yīng)對(duì)不同任務(wù)具有不同的檢測(cè)級(jí)別.一些研究工作僅考慮整個(gè)視頻是否拷貝[12,19],即對(duì)于一個(gè)查詢視頻,在參考集中找出與整個(gè)查詢視頻互為拷貝的視頻,這種檢測(cè)被視為全局視頻拷貝檢測(cè).相對(duì)地,更細(xì)粒度的局部視頻拷貝檢測(cè)技術(shù)主要針對(duì)視頻中的任意片段,找出2個(gè)視頻中所有的拷貝片段對(duì)[7,14,20-21].局部視頻拷貝檢測(cè)雖然具有更為全面、精準(zhǔn)的效果,但檢索過(guò)程相對(duì)復(fù)雜,導(dǎo)致了檢索效率的降低.
1.2 視頻拷貝檢測(cè)技術(shù)基本框架
典型的視頻拷貝檢測(cè)技術(shù)基本框架如圖2所示,它主要包含4個(gè)步驟:特征提取(feature extraction)、建立索引(indexing)、特征匹配(feature matching)和時(shí)間對(duì)齊(temporal alignment).框架中對(duì)于數(shù)據(jù)庫(kù)視頻(database videos)的建模為離線步驟(圖2中offline線路);而對(duì)于查詢視頻(query video)需要進(jìn)行更復(fù)雜的在線檢測(cè)步驟(圖2中online線路),下面介紹其大致流程.
Fig. 2 A general framework of a video copy detection system圖2 視頻拷貝檢測(cè)技術(shù)基本框架
如圖2所示,無(wú)論對(duì)于視頻庫(kù)中的視頻還是查詢視頻,首先需要進(jìn)行特征提取步驟,即對(duì)視頻關(guān)鍵幀提取相應(yīng)的特征向量,并經(jīng)過(guò)一定處理形成幀特征或視頻特征.具體的特征提取方法將在第2節(jié)中詳細(xì)介紹.值得一提的是:一個(gè)視頻主要由幀序列和音頻信息組成,視頻拷貝檢測(cè)技術(shù)主要關(guān)注其幀序列.音頻信息對(duì)于拷貝檢測(cè)的幫助不夠穩(wěn)定,因?yàn)橄嗨埔纛l固然能給予加分,但音頻上差異較大的拷貝視頻反而可能會(huì)被誤判為非拷貝視頻.因此音頻信息在視頻拷貝檢測(cè)上并不具備普適性[12],故一般不被采用.
在獲得幀特征或視頻特征之后,需要進(jìn)行建立索引操作.對(duì)于海量數(shù)據(jù)庫(kù)視頻中的拷貝檢測(cè)問(wèn)題,使用直接的特征一一匹配方式顯得十分耗時(shí).為了達(dá)到更高效的檢索,建立索引是一種必要的手段.理想的索引結(jié)構(gòu)不僅要能提高檢索速度,還應(yīng)控制因建立索引而產(chǎn)生的量化誤差.
對(duì)于數(shù)據(jù)庫(kù)視頻,只需執(zhí)行以上步驟即可.而對(duì)于一個(gè)查詢視頻,還需要進(jìn)行之后的特征匹配操作,也可稱之為索引匹配.不同的索引結(jié)構(gòu)有不同的索引匹配方式.針對(duì)不同任務(wù),如果是全局視頻拷貝檢測(cè),通常將大于閾值的匹配結(jié)果確認(rèn)為拷貝視頻;如果是局部視頻拷貝檢測(cè),則將大于閾值的匹配結(jié)果確認(rèn)為拷貝幀.第3節(jié)介紹了4種比較有代表性的索引結(jié)構(gòu)與特征匹配方法.
最后,針對(duì)局部視頻拷貝檢測(cè),還需要使用時(shí)間信息把拷貝幀整合成拷貝片段.具體的時(shí)間對(duì)齊方法詳見第4節(jié).
1.3 討論與分析
1.2節(jié)介紹了視頻拷貝檢測(cè)技術(shù)的基本框架,特征提取部分對(duì)視頻生成具有視覺關(guān)鍵信息描述且又易于后續(xù)計(jì)算的數(shù)字序列.建立索引部分主要考慮的是特征匹配的效率問(wèn)題,是為了實(shí)現(xiàn)高效的實(shí)時(shí)在線檢測(cè)系統(tǒng)而采用的一種技術(shù).建立索引的同時(shí)往往會(huì)損失一定精度,對(duì)于不同的應(yīng)用場(chǎng)景,是否使用索引結(jié)構(gòu)以及使用何種索引結(jié)構(gòu)都需要權(quán)衡考慮.時(shí)間對(duì)齊部分主要用于提取2個(gè)視頻的具體拷貝片段,相比全局視頻拷貝檢測(cè),局部視頻拷貝檢測(cè)具有更直觀、更精確的效果,但同時(shí)帶來(lái)低效的檢索效率也是不可避免的.
對(duì)視頻拷貝檢測(cè)系統(tǒng)中的特征提取環(huán)節(jié),研究者總希望找到一種通用的特征,使之能夠魯棒地應(yīng)對(duì)各種拷貝變換,可以說(shuō)視覺特征是視頻拷貝檢測(cè)的關(guān)鍵[20-22].
目前對(duì)于視頻的描述特征分為2類:
1) 對(duì)于視頻幀級(jí)別的特征描述,該類特征大量用于局部視頻拷貝檢測(cè)中.在早期的工作中,大量傳統(tǒng)的圖像特征提取方法被用于視頻幀級(jí)別的特征提取.近年來(lái),隨著深度學(xué)習(xí)技術(shù)的興起,出現(xiàn)了一些基于深度網(wǎng)絡(luò)的視頻幀特征提取方法.
2) 融合視頻內(nèi)的所有幀信息后的視頻整體描述特征,主要用在全局視頻拷貝檢測(cè)問(wèn)題,它在計(jì)算上依賴于前者視頻幀級(jí)別的特征描述.
以下先回顧常用的基于傳統(tǒng)方法和基于深度網(wǎng)絡(luò)的視頻幀特征的提取算法,再對(duì)視頻全局特征提取方法進(jìn)行簡(jiǎn)單介紹.
2.1 基于傳統(tǒng)方法的視頻幀特征
顏色直方圖與尺度不變特征變換(scale-invariant feature transform, SIFT)是視頻拷貝檢測(cè)系統(tǒng)中極為常用的2種傳統(tǒng)視頻幀特征提取方法.
在計(jì)算顏色直方圖時(shí),需要預(yù)設(shè)一定的顏色域,對(duì)于原始圖像的像素矩陣,統(tǒng)計(jì)每一個(gè)像素點(diǎn)的顏色值,對(duì)其所屬的顏色域進(jìn)行計(jì)數(shù),整個(gè)方法描述的是不同色彩在整幅圖像中所占的比例.由于計(jì)算量小、檢索高效,該方法及其改進(jìn)方法被運(yùn)用于許多相關(guān)工作[6,12,23-29].然而顏色直方圖只考慮顏色信息,而忽略了視頻幀的幾何關(guān)系、形狀信息和紋理信息等,因此具有一定局限性.
SIFT特征對(duì)旋轉(zhuǎn)、尺度縮放、亮度變化保持不變性,對(duì)視角變化、仿射變換、噪聲也保持一定程度的穩(wěn)定性[30-32].計(jì)算SIFT特征時(shí)需要對(duì)原始圖像中的局部關(guān)鍵點(diǎn)進(jìn)行檢測(cè),這些關(guān)鍵點(diǎn)依據(jù)各自在原圖像上的相對(duì)位置而形成幾何相關(guān)的描述子集合.為了提高匹配效率,研究者采用視覺詞袋模型把一個(gè)幀內(nèi)眾多的局部描述子合成一個(gè)單一特征來(lái)表征視頻幀,這種特征在視頻拷貝檢測(cè)上具有良好的擴(kuò)展性和較好的準(zhǔn)確率[33].一些研究者針對(duì)詞袋模型產(chǎn)生的量化誤差,使用海明嵌入(Hamming embedding)[34]、基于重疊域的全局上下文描述子(OR-GCD)[35]等方法對(duì)其進(jìn)行了優(yōu)化.除了詞袋模型,一些工作還采用了其他特征編碼方式,比如Fisher Vector等[36-38].此外,對(duì)于視頻拷貝檢測(cè)這一特定任務(wù),有學(xué)者還專門提出了對(duì)于SIFT的改進(jìn)方法[39-40],例如在文獻(xiàn)[39]中,作者結(jié)合奇異值分解運(yùn)算提出了一種名為SVD-SIFT的算法.相比于原始的SIFT算法,作者指出該改進(jìn)的特征在保持了尺度、旋轉(zhuǎn)不變性等良好特性的同時(shí),減少了總計(jì)算開銷,提高了拷貝檢測(cè)的速度.
2.2 基于深度學(xué)習(xí)方法的視頻幀特征
2012年Krizhevsky等人提出了著名的深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet,它在ImageNet挑戰(zhàn)賽中的大規(guī)模圖像分類任務(wù)上取得了突破性的成績(jī)[41].此后,大量基于深度學(xué)習(xí)的方法在計(jì)算機(jī)視覺領(lǐng)域涌現(xiàn)并取得了巨大成功.在多媒體拷貝檢測(cè)方面,一些工作[42-43]展示了其遠(yuǎn)高于傳統(tǒng)方法的優(yōu)異性能.目前深度學(xué)習(xí)技術(shù)在視頻拷貝檢測(cè)方面的成功應(yīng)用主要集中在使用卷積神經(jīng)網(wǎng)絡(luò)和雙胞胎卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻幀的特征提取.
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)方法
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)可以直接用于視頻幀特征提取.經(jīng)典的AlexNet主要包含5個(gè)卷積層(convolutional layer)和3個(gè)全連接層(fully-connected layer).Jiang等人[42]采用了預(yù)訓(xùn)練的AlexNet模型,取AlexNet的第6層特征(fc6)作為視頻幀特征,如表1所示.表1中的第1列是網(wǎng)絡(luò)各層的名稱,第2列是對(duì)應(yīng)的輸出特征尺寸.該方法使得每一個(gè)關(guān)鍵視頻幀,都被轉(zhuǎn)化成一個(gè)4 096維的特征向量.實(shí)驗(yàn)表明,該方法具有高于傳統(tǒng)方法的優(yōu)異性能.
Table 1 A Simplified AlexNet Architecture表1 簡(jiǎn)化的AlexNet框架
在AlexNet之后,又有許多深度網(wǎng)絡(luò)被提出,較著名的有VGGNet[44],GoogleNet[45]以及ResNet[46]等.VGGNet是一個(gè)更深的網(wǎng)絡(luò),它最多有19層組成,具有更高的辨別能力.同時(shí),它使用更小的卷積過(guò)濾器,能夠獲取原始圖像中更多的細(xì)節(jié).GoogleNet包含22個(gè)網(wǎng)絡(luò)層,具有多尺度處理能力.一些工作對(duì)GoogleNet等深度網(wǎng)絡(luò)框架做了相應(yīng)的研究,比較了各網(wǎng)絡(luò)之間的性能差異[47].ResNet是較新的一個(gè)CNN框架,它在2015年的ImageNet挑戰(zhàn)賽上獲得了冠軍.ResNet使用深度殘差網(wǎng)絡(luò)把CNN擴(kuò)展到了152層,而在后續(xù)應(yīng)用中,其深度更是超過(guò)了1 000層[48].
無(wú)論VGGNet,GoogleNet還是最近的ResNet,其網(wǎng)絡(luò)框架不斷變深,這些更先進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)原理上與AlexNet相同,都能用在視頻幀特征提取.例如,文獻(xiàn)[49]的算法基于VGGNet進(jìn)行了視頻拷貝檢測(cè)的相關(guān)研究,獲得了比Jiang等人所提算法更好的結(jié)果.
2.2.2 雙胞胎卷積神經(jīng)網(wǎng)絡(luò)方法
雙胞胎卷積神經(jīng)網(wǎng)絡(luò)(siamese convolutional neural network, SCNN)[50]由2個(gè)結(jié)構(gòu)相同、參數(shù)共享的子網(wǎng)絡(luò)組成,它以圖像對(duì)作為訓(xùn)練輸入,通過(guò)預(yù)測(cè)的相似度與實(shí)際相似度之間的誤差進(jìn)行前向反饋以調(diào)節(jié)網(wǎng)絡(luò)模型參數(shù),如圖3所示.
Fig. 3 A basic SCNN architecture圖3 一個(gè)基本的SCNN框架
該網(wǎng)絡(luò)用于拷貝檢測(cè)中的視頻特征提取原理是:當(dāng)網(wǎng)絡(luò)輸入2張視頻幀圖像時(shí),預(yù)測(cè)的相似度通過(guò)歐氏距離計(jì)算,模型訓(xùn)練目標(biāo)是使得拷貝對(duì)距離越小、非拷貝對(duì)距離越大.SCNN方法需要準(zhǔn)備一定的訓(xùn)練數(shù)據(jù),通過(guò)模擬拷貝效果的方式制造拷貝對(duì)數(shù)據(jù),非拷貝對(duì)數(shù)據(jù)可直接抽樣隨機(jī)配對(duì)獲得.依據(jù)所采用的CNN框架的不同,視頻幀表示方式也有所不同.例如Jiang等人在文獻(xiàn)[42]中使用了較窄的CNN子網(wǎng)絡(luò),對(duì)視頻幀提取多個(gè)局部特征,后續(xù)計(jì)算采用了類似處理SIFT特征的方法,即使用詞袋模型形成單一向量作為視頻幀表示.另一種情況,是使用較寬的CNN子網(wǎng)絡(luò),可直接提取視頻幀的全局特征,如在一些圖像拷貝檢測(cè)的工作[43]采用了此類方法,這些工作也都得到了優(yōu)于傳統(tǒng)方法的良好效果.
SCNN方法直接針對(duì)相似度信息訓(xùn)練模型參數(shù),理論上比標(biāo)準(zhǔn)的深度學(xué)習(xí)方法更適合多媒體拷貝檢測(cè)任務(wù).但由于訓(xùn)練數(shù)據(jù)的差異以及更難的模型訓(xùn)練,SCNN方法目前取得的整體效果顯得并不突出.
2.3 視頻全局特征
在視頻拷貝檢測(cè)系統(tǒng)中,除了對(duì)以上視頻幀描述特征進(jìn)行比對(duì),還有一類方法將各個(gè)視頻所有幀的特征合并為全局描述特征,再進(jìn)行基于視頻全局特征的比對(duì).此類方法主要用于全局視頻拷貝檢測(cè),它的典型代表包括基于視頻幀特征聚類的方法[51]、基于視頻所有幀特征向量主成分分析得到的邊界坐標(biāo)系統(tǒng)(bounded coordinate system)描述[5,26]、基于視頻幀特征直方圖統(tǒng)計(jì)的累積直方圖(accumulative histogram)方法[12]和參考視頻直方圖(reference video-based histogram)方法[24]等.此類方法的主要優(yōu)點(diǎn)在于得到的視頻描述特征較為精簡(jiǎn).然而與基于視頻幀特征比較的方法相比,此類方法的最大問(wèn)題在于它們往往忽略了視頻中的局部信息,例如視頻片段中出現(xiàn)的物體或區(qū)域變化[11].由于視頻全局特征的這些不足,近年來(lái)提出的一些更有效的拷貝檢測(cè)系統(tǒng)主要采用基于視頻幀比較的方法.
2.4 多特征融合
對(duì)于視頻拷貝檢測(cè)問(wèn)題,大部分已有的方法都只使用一種特征,然而單一特征往往不足以描述視頻內(nèi)容,不能應(yīng)對(duì)復(fù)雜而多樣的拷貝變換,所以一些方法[19,52]采用了具有不同特性的多重特征作為視頻內(nèi)容描述,獲得了比單一特征更好的結(jié)果.
為了達(dá)到快速檢索的目的,視頻拷貝檢測(cè)系統(tǒng)中通常需要運(yùn)用高效的索引結(jié)構(gòu).特別是局部視頻拷貝檢測(cè),總體特征量十分龐大,如果采用枚舉的方式進(jìn)行一一匹配,檢索效率會(huì)十分低下,很難應(yīng)用于在線的視頻拷貝檢測(cè)系統(tǒng).索引結(jié)構(gòu)一般與特征的形式和特征匹配所采用的最近鄰搜索方法相關(guān).本文總結(jié)如下4種常見的索引方法,分別是樹形結(jié)構(gòu)、向量近似文件、Hash結(jié)構(gòu)和倒排索引方法.
3.1 樹形結(jié)構(gòu)
目前已有許多樹形索引結(jié)構(gòu)被提出,在視頻方面,一種被稱為“高斯樹”[53]的索引結(jié)構(gòu)既實(shí)現(xiàn)了高效率搜索,又保留了較多的視覺信息.高斯樹通過(guò)管理高斯分布來(lái)實(shí)現(xiàn)快速的概率查詢,它能應(yīng)用于較復(fù)雜的對(duì)象.但樹形結(jié)構(gòu)對(duì)于高維擴(kuò)展并不友好,當(dāng)特征維度增加時(shí),會(huì)引發(fā)“維數(shù)災(zāi)難問(wèn)題”.
3.2 向量近似文件
向量近似文件(vector approximation file, VA-file)方法[54]的主要思想是將特征空間劃分成2b個(gè)單元,每個(gè)單元都可以用一個(gè)長(zhǎng)度為b的二進(jìn)制比特串表示,查詢樣本在比對(duì)時(shí)可以排除距離較遠(yuǎn)的單元內(nèi)的數(shù)據(jù),從而大大減少了計(jì)算開銷.后續(xù)工作還對(duì)算法中不同掃描邊界的設(shè)定進(jìn)行了比較分析,提出了VA-LOW,VA-BND和VA-LOW-k等不同設(shè)定以及改進(jìn)方法[55].
3.3 Hash結(jié)構(gòu)
Hash是一種常用的加快查找速度的方法.其中,位置敏感Hash(locality-sensitive hashing, LSH)[56]能很好地應(yīng)對(duì)高維特征而被廣泛應(yīng)用[40,57].該方法采用一組位置敏感Hash函數(shù),在特征空間內(nèi)做隨機(jī)方向的線性映射,使得近似的特征能有很高的概率落入同一個(gè)散列桶內(nèi).LSH的查詢時(shí)間是次線性(sub-linear)的,但同時(shí)它的查詢結(jié)果質(zhì)量也是不穩(wěn)定的[58].在隨后的幾年內(nèi),針對(duì)其準(zhǔn)確率和時(shí)空效率,LSH不斷被人改進(jìn)[59-61].
另外,針對(duì)多重特征的情況,多特征Hash(multiple feature hashing, MFH)[19]被使用于視頻拷貝檢測(cè)并取得了不錯(cuò)的效果.該方法采用一組預(yù)訓(xùn)練的Hash函數(shù),每個(gè)Hash函數(shù)以多重特征為輸入并輸出一個(gè)二進(jìn)制位,最后形成一個(gè)二進(jìn)制向量并通過(guò)異或操作進(jìn)行相似度值的計(jì)算.MFH具有較好的擴(kuò)展性,但其難點(diǎn)在于如何訓(xùn)練Hash函數(shù)以提高精度與效率.
3.4 倒排索引
倒排索引結(jié)構(gòu)首先被應(yīng)用于文本檢索,后來(lái)在圖像視頻領(lǐng)域也被廣泛應(yīng)用.各類特征通過(guò)視覺詞袋模型[33,62-63]形成一個(gè)個(gè)視覺詞,所有視覺詞形成一個(gè)詞典,這與文本數(shù)據(jù)十分相似,因而能很方便地使用倒排索引結(jié)構(gòu).一個(gè)典型的倒排文件主要記錄每個(gè)視覺詞的頻率及其出現(xiàn)位置,并以視覺詞作為屬性、出現(xiàn)位置作為記錄,形成屬性確定記錄的結(jié)構(gòu).一般地,對(duì)于幀級(jí)別的特征匹配,以每一幀的局部特征作為屬性,整個(gè)圖像作為記錄;對(duì)于視頻級(jí)別的特征匹配,以每一幀的全局特征作為屬性,整個(gè)視頻作為記錄.此外,一些研究者針對(duì)倒排索引結(jié)構(gòu)造成的幾何信息的缺失問(wèn)題,使用弱幾何一致性[34]及其改進(jìn)方法[9,64]對(duì)倒排索引結(jié)構(gòu)進(jìn)行了優(yōu)化.
一般地,建立索引會(huì)損失一定的量化誤差,故為了追求更高的理論精度,一些工作也會(huì)不加索引而采用一一匹配的方式[42].特征匹配一般采用距離度量,較普遍的2種距離為歐氏距離與余弦距離.針對(duì)一些特殊類型的特征,也會(huì)采用地球移動(dòng)距離(earth mover’s distance, EMD)[65]、編輯距離(edit distance)[66]等度量方式,其中前者能很好地評(píng)估直方圖相似性,后者常被運(yùn)用于類字符串?dāng)?shù)據(jù).
時(shí)間對(duì)齊是在進(jìn)行局部視頻拷貝檢測(cè)中為了確定2個(gè)視頻的哪些片段對(duì)互為拷貝時(shí)進(jìn)行的操作.對(duì)于任意2個(gè)視頻,有一對(duì)一、一對(duì)多、多對(duì)多以及交叉對(duì)應(yīng)等多種拷貝片段對(duì)齊形式.圖4簡(jiǎn)單描述了以上4種情況,圖4中上下2條長(zhǎng)線分別表示2個(gè)完整視頻,其中同灰度短線條表示拷貝片段,由中間的指示線連接表明對(duì)應(yīng)關(guān)系.為了解決上述形式多樣的拷貝片段對(duì)齊問(wèn)題,下面介紹并分析3種時(shí)間對(duì)齊方法,分別是基于滑動(dòng)窗口的時(shí)間對(duì)齊算法、基于樹形結(jié)構(gòu)的時(shí)間對(duì)齊算法和基于圖的時(shí)間對(duì)齊算法.
Fig. 4 Four examples of copied segments in a pair of video圖4 在一對(duì)視頻內(nèi)的4種拷貝片段對(duì)齊情況
4.1 基于滑動(dòng)窗口的時(shí)間對(duì)齊算法
4.2 基于樹形結(jié)構(gòu)的時(shí)間對(duì)齊算法
文獻(xiàn)[67]提出了一種樹形表示的時(shí)間對(duì)齊算法.該方法對(duì)于每個(gè)查詢幀,先找出一個(gè)與之相似的參考視頻幀集合作為候選集,然后將所有候選集構(gòu)成一個(gè)樹狀結(jié)構(gòu).樹的根節(jié)點(diǎn)對(duì)應(yīng)查詢視頻的某個(gè)幀,以該查詢幀作為起點(diǎn),樹的第1層由其相似幀集合組成,第2層由其查詢幀的下一幀的相似幀集合組成,并且從第2層起,每次連接子樹要額外考慮時(shí)間信息,即要求在時(shí)間上父節(jié)點(diǎn)先于子節(jié)點(diǎn)且父子節(jié)點(diǎn)的時(shí)間差小于預(yù)設(shè)閾值.最后,再使用剪枝策略得到最終的匹配結(jié)果.另外,如果構(gòu)建樹的過(guò)程中因無(wú)法找到可連接的子樹而中斷時(shí),以中斷處的幀為根節(jié)點(diǎn),重新構(gòu)建樹;被中斷的樹則執(zhí)行剪枝策略獲得相應(yīng)的拷貝片段.
4.3 基于圖的時(shí)間對(duì)齊算法
Tan等人[9,68]提出了一種運(yùn)用網(wǎng)絡(luò)流算法的時(shí)間對(duì)齊方式,并開發(fā)出了相應(yīng)的算法工具[69].該方法對(duì)于一個(gè)查詢視頻Q和一個(gè)參考視頻R,針對(duì)視頻Q中每一幀,從視頻R中找出與之最相似的k幀,用以構(gòu)建初始的拷貝幀網(wǎng)絡(luò);然后嚴(yán)格依據(jù)時(shí)間順序,用有向邊連接top-k列表中的所有幀,邊的權(quán)重即為對(duì)應(yīng)幀之間的相似度值;最后,執(zhí)行最大流算法,獲得最長(zhǎng)的視頻拷貝段.
時(shí)間對(duì)齊是局部視頻拷貝檢測(cè)中的一個(gè)重要環(huán)節(jié).上述3種方法,第1種方法是先考率時(shí)間信息,再考慮幀之間的相似度信息;而后2種方法與之相反.基于滑動(dòng)窗口的方法受視頻幀率與預(yù)設(shè)閾值的影響而不夠穩(wěn)定,基于樹與基于圖的方法都需要額外確定路徑的算法而產(chǎn)生較多的計(jì)算量.針對(duì)不同的視頻拷貝檢測(cè)任務(wù),需要使用與之相適應(yīng)的時(shí)間對(duì)齊方法.
5.1 數(shù)據(jù)集
在視頻拷貝檢測(cè)領(lǐng)域中常見并具有代表性的數(shù)據(jù)集主要包括TRECVID[70-72],Muscle-VCD[7],CC_Web[12],UQ_Video[19]和VCDB[14],表2中羅列了這些數(shù)據(jù)集的基本統(tǒng)計(jì)信息.
Table 2 Comparison of the Widely Used Copy Detection Datasets[14]
TRECVID是美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局(NIST)支持的一個(gè)視頻檢索項(xiàng)目,它在2008年發(fā)布了一個(gè)專用于視頻拷貝檢測(cè)算法評(píng)測(cè)的公共數(shù)據(jù)集[72],該數(shù)據(jù)集包含200 h時(shí)長(zhǎng)的電視節(jié)目視頻,約2 000個(gè)查詢片段.其中,查詢片段采樣于原數(shù)據(jù)庫(kù),并加以隨機(jī)的模擬拷貝操作而得,具體操作有插入圖標(biāo)、模擬錄像、再編碼、后期加工等,一些工作[73-74]涉及了該項(xiàng)目數(shù)據(jù)集.
Muscle-VCD數(shù)據(jù)集包含約100 h時(shí)長(zhǎng)的視頻[7].該數(shù)據(jù)集中所有視頻采樣于網(wǎng)絡(luò)視頻片段、電視檔案和電影等,并以不同的比特率、分辨率以及視頻格式進(jìn)行存儲(chǔ).該評(píng)測(cè)數(shù)據(jù)集共有2個(gè)任務(wù),分別是全局視頻拷貝檢測(cè)與局部視頻拷貝檢測(cè).針對(duì)不同任務(wù),研究者可以獲取一個(gè)原始視頻集和一個(gè)相應(yīng)的用于查詢的模擬拷貝的視頻集,以此評(píng)估各個(gè)視頻拷貝檢測(cè)方法的性能.一些研究工作[9,75]在該數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).
CC_Web是一個(gè)包含12 790個(gè)視頻的拷貝檢測(cè)數(shù)據(jù)集[12].該數(shù)據(jù)集最大特點(diǎn)是它的所有視頻均來(lái)源于網(wǎng)絡(luò),沒(méi)有對(duì)視頻進(jìn)行模擬拷貝的轉(zhuǎn)化操作,所以這個(gè)數(shù)據(jù)集被認(rèn)為是體現(xiàn)網(wǎng)絡(luò)真實(shí)拷貝情況的數(shù)據(jù)集.CC_Web數(shù)據(jù)集中的樣例視頻如圖5所示.圖5中行a展示的是原始的視頻幀,行b的視頻幀是經(jīng)過(guò)亮度與尺寸變換后的視頻幀,行c是調(diào)整視頻幀采樣率后的視頻幀,行d是加入了文字、分框和內(nèi)容改變后的結(jié)果,行e-f是在起始和末尾加入了變化內(nèi)容的結(jié)果,行g(shù)是整個(gè)視頻加入上下邊框的結(jié)果,行h是單純的尺寸變換的結(jié)果.該數(shù)據(jù)集被運(yùn)用于一系列工作中[9,12,33,76-78].
Fig. 5 Examples of video frames in CC_Web dataset[12]圖5 CC_Web數(shù)據(jù)集中視頻幀示例[12]
UQ_Video是對(duì)CC_Web數(shù)據(jù)集的擴(kuò)展,主要加入了10多萬(wàn)個(gè)干擾視頻[19].CC_Web和UQ_Video這2個(gè)數(shù)據(jù)集都只能用于全局視頻拷貝檢測(cè).
VCDB是一個(gè)較新的視頻拷貝檢測(cè)數(shù)據(jù)集,它共有100 528個(gè)視頻[14],其中528個(gè)視頻是核心視頻,包含9 236對(duì)視頻拷貝片段,其余的10萬(wàn)個(gè)視頻為干擾視頻.該數(shù)據(jù)集也完全采集于網(wǎng)絡(luò),屬于真實(shí)拷貝的數(shù)據(jù)集.它被用于局部視頻拷貝檢測(cè),并對(duì)各拷貝片段的變化方式做了精確統(tǒng)計(jì).VCDB數(shù)據(jù)集中的部分樣例視頻如圖6所示.圖6中展示了該數(shù)據(jù)集中不同類別的視頻數(shù)據(jù),包括商業(yè)、電影、音樂(lè)、演講、運(yùn)動(dòng)、監(jiān)控和其他等主題.圖6中每張小圖的左右兩半顯示了原始視頻幀和經(jīng)過(guò)拷貝變換后的視頻幀的樣例.基于深度學(xué)習(xí)的拷貝檢測(cè)方法[42,49]在該數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).
Fig. 6 Examples of video frames in VCDB dataset[14]圖6 VCDB數(shù)據(jù)集中視頻幀示例[14]
5.2 評(píng)價(jià)標(biāo)準(zhǔn)
在關(guān)于視頻拷貝檢測(cè)方法的評(píng)估中,與信息檢索相關(guān)的準(zhǔn)確率、召回率、F1均值以及平均精度均值(mean average precision,MAP)都是常用的評(píng)測(cè)指標(biāo).
特別地,在TRECVID的拷貝檢測(cè)任務(wù)中,還采用了一種稱為最小標(biāo)準(zhǔn)化檢測(cè)消耗率(minimal normalized detection cost rate,MinNDCR)的指標(biāo),計(jì)算公式如下:
NDCR=CMiss×PMiss×Rtarget+CFA×RFA,
(1)
其中,PMiss與RFA分別為漏檢率與誤檢率,CMiss與CFA分別為漏檢率與誤檢率的懲罰系數(shù),Rtarget為先驗(yàn)達(dá)標(biāo)率.NDCR數(shù)值越小,代表檢測(cè)算法的性能越好.
在Muscle-VCD-2007的局部視頻拷貝檢測(cè)任務(wù)中,幀精度(QualityFrame,QF)和片段精度(QualitySegment,QS)指標(biāo)被用于局部視頻拷貝檢測(cè)算法的性能評(píng)測(cè),它們的計(jì)算公式分別為
(2)
(3)
其中,QF指標(biāo)計(jì)算的是拷貝片段中幀的覆蓋精度,QS指標(biāo)計(jì)算的是拷貝片段的檢測(cè)精度.QF與QS的值越大,代表檢測(cè)算法的性能越好.
在VCDB數(shù)據(jù)集中,視頻幀級(jí)別的準(zhǔn)確率(frame-level precision,F(xiàn)P)和召回率(frame-level recall,F(xiàn)R)、視頻片段級(jí)別的準(zhǔn)確率(segment-level precision,SP)和召回率(segment-level recall,SR)指標(biāo)被用于性能評(píng)測(cè),它們的計(jì)算公式分別為
(4)
(5)
(6)
(7)
其中,檢測(cè)返回的一對(duì)拷貝段若與實(shí)際拷貝段皆有重合,則被視為正確的檢索片段(correctlyretrievedsegments).以上指標(biāo)數(shù)值越大,代表檢測(cè)算法的性能越好.
另外,針對(duì)拷貝檢測(cè)的實(shí)際應(yīng)用場(chǎng)景,一些工作還評(píng)測(cè)了檢測(cè)效率[26,33,42,66,79]和可擴(kuò)展性[9,78,80-81]等指標(biāo).
5.3 已有代表性方法性能
目前已有工作的實(shí)驗(yàn)對(duì)象主要是以上的5個(gè)數(shù)據(jù)集,應(yīng)用場(chǎng)景包括檢測(cè)拷貝幀、檢測(cè)拷貝片段以及視頻級(jí)別檢測(cè)等.由于各個(gè)工作在實(shí)驗(yàn)對(duì)象、應(yīng)用場(chǎng)景上的差異,導(dǎo)致無(wú)法進(jìn)行統(tǒng)一的比較.其中TRECVID中基于內(nèi)容的拷貝檢測(cè)(content based copy detection, CBCD)任務(wù)曾提供了一個(gè)很好的性能比對(duì)平臺(tái)[71],但這個(gè)任務(wù)因在2011年獲得了接近完美的提交結(jié)果而被取消了.圖7展示了TRECVID 2011 CBCD中性能最好的前10個(gè)結(jié)果,其中橫坐標(biāo)為拷貝變換方式,縱坐標(biāo)為F1得分,數(shù)字1~10表示排名前10的隊(duì)伍,Act.與Opt.分別表示為使用隊(duì)伍提交閾值與使用最優(yōu)閾值的情況,Median為所有隊(duì)伍結(jié)果的中位數(shù).圖7中排名前10的隊(duì)伍采用Act.閾值的結(jié)果用菱形表示,采用Opt.閾值的結(jié)果用短橫線表示,Median結(jié)果則用折線圖表示,其中折線圖上點(diǎn)為方形的為Act.Median,點(diǎn)為菱形的為Opt.Median.從圖7中可以看出,在該數(shù)據(jù)集上大部分方法都已經(jīng)達(dá)到接近完美的結(jié)果.
Fig. 7 F1 Scores of top 10 performance in TRECVID 2011 Content Based Copy Detection[8]圖7 TRECVID 2011 CBCD中top10性能的F1得分[8]
在Muscle-VCD數(shù)據(jù)集上,表3展示了全局視頻拷貝檢測(cè)任務(wù)中的部分比較有代表性的算法的評(píng)測(cè)結(jié)果.其中,ADV,IBM,CITYU和CAS是當(dāng)時(shí)Muscle-VCD-2007比賽中的拷貝檢測(cè)方法.從表3中可以看出TNP方法[9]在精度與效率上都達(dá)到了最優(yōu),特別是在精度上獲得了100%的準(zhǔn)確率.表4展示了局部視頻拷貝檢測(cè)任務(wù)中的部分比較有代表性的算法的評(píng)測(cè)結(jié)果,TNP方法[9]依舊在精度與效率上展現(xiàn)出最好的性能.
Table 3 The Performance of Several Representative Methods in Entire Video Copy Detection Task of Muscle-VCD-2007
Table 4 The Performance of Several Representative Methods in Partial Video Copy Detection Task of Muscle-VCD-2007
一些工作在CC_Web數(shù)據(jù)集上進(jìn)行了評(píng)測(cè),如表5所示.其中PPT方法[21]取得了最優(yōu)的結(jié)果,但差距并不明顯,4種方法都達(dá)到了較好的結(jié)果;而SIG_CH方法[12]由于直接采用顏色直方圖所帶來(lái)的局限性而導(dǎo)致性能不佳.
一些方法在UQ_Video數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),如表6所示.相比CC_Web數(shù)據(jù)集,由于UQ_Video數(shù)據(jù)集增加了10多萬(wàn)個(gè)干擾視頻,各方法性能整體表現(xiàn)不高;其中PPT方法[21]依舊取得了最優(yōu)的結(jié)果,但處理速度上不及MFH方法[19].
Table 5 The Performance of Several Methods in CC_Web Dataset
Table 6 The Performance of Several Methods in UQ_Video Dataset[21]
在最新的相關(guān)工作中,文獻(xiàn)[42]給出了采用深度學(xué)習(xí)方法與傳統(tǒng)方法在拷貝檢測(cè)任務(wù)中的性能比較,如表7所示.實(shí)驗(yàn)中,該文作者使用了VCDB數(shù)據(jù)集,并采用F1得分作為評(píng)價(jià)指標(biāo).從該文作者給出的結(jié)果與分析中可以明顯發(fā)現(xiàn),算法在視頻幀級(jí)別與視頻片段級(jí)別上得到的評(píng)測(cè)結(jié)果一致,使用深度學(xué)習(xí)方法得到的視頻特征(CNN與SCNN)取得了比傳統(tǒng)方法(SIFT)更好的檢測(cè)性能,驗(yàn)證了深度學(xué)習(xí)方法在拷貝檢測(cè)問(wèn)題中的適用性.此外,還可以發(fā)現(xiàn)同屬深度學(xué)習(xí)方法的SCNN網(wǎng)絡(luò)得到的檢測(cè)性能并不如普通的CNN網(wǎng)絡(luò).文獻(xiàn)[42]中作者給出的解釋是在使用CNN網(wǎng)絡(luò)時(shí),人們可以利用大量的已標(biāo)注圖像數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,而對(duì)于SCNN可用的訓(xùn)練樣本的數(shù)據(jù)量非常有限,從而影響了最終訓(xùn)練完成的SCNN網(wǎng)絡(luò)的性能.
Table 7 Frame-Level and Segment-LevelF-Measure on the Core Data Set of VCDB[42]
表7 不同方法在VCDB上的F1得分情況[42]
另外,在局部視頻拷貝檢測(cè)中,時(shí)間對(duì)齊算法也對(duì)檢測(cè)性能具有一定影響.文獻(xiàn)[14]中將2種時(shí)間對(duì)齊算法在VCDB數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)比較,結(jié)果表明:在性能上,網(wǎng)絡(luò)流時(shí)間對(duì)齊算法在拷貝幀檢測(cè)與拷貝片段檢測(cè)上均優(yōu)于霍夫投票機(jī)制時(shí)間對(duì)齊算法;在效率上,網(wǎng)絡(luò)流時(shí)間對(duì)齊算法要略慢于霍夫投票機(jī)制時(shí)間對(duì)齊算法,但在可接受范圍內(nèi).
就目前成果而言,拷貝檢測(cè)技術(shù)雖然在一些相對(duì)簡(jiǎn)單的數(shù)據(jù)集上取得了接近完美的結(jié)果,但在相對(duì)復(fù)雜的數(shù)據(jù)上還遠(yuǎn)未達(dá)到令人滿意的性能.目前而言,視頻拷貝檢測(cè)方法本身的性能還有待提高,同時(shí)更多豐富的評(píng)測(cè)數(shù)據(jù)也有待建立,為深入地研究提供幫助.
評(píng)測(cè)數(shù)據(jù)集的建立,一方面要考慮其真實(shí)性,另一方面要考慮其復(fù)雜性.在真實(shí)性上,CC_Web與VCDB等數(shù)據(jù)集給出了解決方法,即直接從網(wǎng)絡(luò)環(huán)境采集數(shù)據(jù);在復(fù)雜性上,保證一定量級(jí)的同時(shí)還要保證拷貝方式的多樣化,這個(gè)過(guò)程中需要一定人為的篩選.另外,視頻標(biāo)注也是一大挑戰(zhàn),特別是局部視頻拷貝檢測(cè)評(píng)測(cè)數(shù)據(jù)集,需要精確拷貝段到秒級(jí);面對(duì)如此龐大的標(biāo)注量,半自動(dòng)化的標(biāo)注工具可能是一種解決方法.
在視頻拷貝檢測(cè)方法上,特征表示是其關(guān)鍵.目前深度學(xué)習(xí)技術(shù)在視頻拷貝檢測(cè)上展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能,這肯定了深度學(xué)習(xí)的特征表示能力.未來(lái)一段時(shí)間內(nèi),基于深度學(xué)習(xí)的視頻拷貝檢測(cè)方法應(yīng)是主要研究方向,RNN/LSTM是否可以用來(lái)對(duì)視頻片段建模有待探索;RCNN這類用于目標(biāo)檢測(cè)的網(wǎng)絡(luò)是否可以用在拷貝檢測(cè)上也有待研究;更適宜拷貝檢測(cè)的深度網(wǎng)絡(luò)結(jié)構(gòu)還有待提出.與此同時(shí),為了訓(xùn)練出與理論框架效果接近的網(wǎng)絡(luò)模型,與深度網(wǎng)絡(luò)結(jié)構(gòu)相適應(yīng)的訓(xùn)練數(shù)據(jù)也亟需完善.
另外,隨著網(wǎng)絡(luò)的發(fā)展與科技的進(jìn)步,視頻拷貝檢測(cè)方法所能應(yīng)對(duì)的新的應(yīng)用場(chǎng)景也將不斷被探索.
本文首先描述了視頻拷貝檢測(cè)技術(shù)的研究背景;然后介紹了一個(gè)實(shí)現(xiàn)視頻拷貝檢測(cè)的基本框架,對(duì)框架內(nèi)各步驟要點(diǎn)進(jìn)行了分析,結(jié)合最新的深度學(xué)習(xí)方法,詳細(xì)介紹了深度學(xué)習(xí)在視頻拷貝檢測(cè)方法中的應(yīng)用與進(jìn)展;最后回顧了目前具有代表性的5個(gè)數(shù)據(jù)集及通用的評(píng)價(jià)標(biāo)準(zhǔn),討論并分析了當(dāng)前研究狀況與未來(lái)發(fā)展趨勢(shì).隨著視頻拷貝檢測(cè)研究的不斷深入,希望本文能給當(dāng)前及未來(lái)的研究提供一定的參考與幫助.
[1]Analytics Magazine. Images & videos: Really big data[EB/OL]. 2012[2016-12-05]. http://analytics-magazine.org/images-a-videos-really-big-data
[2]Tubular Insights. 500 hours of video uploaded to YouTube every minute[Forecast][EB/OL]. 2015[2016-12-05]. http://tubularinsights.com/hours-minute-uploaded-youtube
[3]Smith G. 145 amazing YouTube statistics (October 2016)[EB/OL]. 2016[2016-12-05]. http://expandedramblings.com/index.php/youtube-statistics
[4]Infosecurity Magazine. Digital universe is headed for 40 ZB, but big data lacks protection[EB/OL]. 2012[2016-12-05]. http://www.infosecurity-magazine.com/news/digital-universe-is-headed-for-40-zb-but-big-data
[5]Shen Hengtao, Zhou Xiaofang, Huang Zi, et al. UQLIPS: A real-time near-duplicate video clip detection system[C] //Proc of the 33rd Int Conf on Very Large Data Bases. New York: VLDB Endowment, 2007: 1374-1377
[6]Law-To J, Buisson O, Gouet-Brunet V, et al. Robust voting algorithm based on labels of behavior for video copy detection[C] //Proc of the 14th ACM Int Conf on Multimedia. New York: ACM, 2006: 835-844
[7]Law-To J, Joly A, Boujemaa N. Muscle-VCD-2007: A live benchmark for video copy detection[EB/OL]. 2007[2016-12-05]. http://www-rocq.inria.fr/imedia/civr-bench
[8]Kraaij W, Awad G. TRECVID 2011 content based copy detection: Task overview[EB/OL]. Gaithersburg, MD: NIST, 2011[2016-12-05]. http://www-nlpir.nist.gov/projects/tvpubs/tv11.slides/tv11.ccd.slides.pdf
[9]Tan H K, Ngo C W, Hong R, et al. Scalable detection of partial near-duplicate videos by visual-temporal consistency[C] //Proc of the 17th ACM Int Conf on Multimedia. New York: ACM, 2009: 145-154
[10]Cherubini M, De Oliveira R, Oliver N. Understanding near-duplicate videos: A user-centric approach[C] //Proc of the 17th ACM Int Conf on Multimedia. New York: ACM, 2009: 35-44
[11]Liu Jiajun, Huang Zi, Cai Hongyun, et al. Near-duplicate video retrieval: Current research and future trends[J]. ACM Computing Surveys, 2013, 45(4): No.44
[12]Wu Xiao, Hauptmann A G, Ngo C W. Practical elimination of near-duplicates from Web video search[C] //Proc of the 15th ACM Int Conf on Multimedia. New York: ACM, 2007: 218-227
[13]Basharat A, Zhai Y, Shah M. Content based video matching using spatiotemporal volumes[J]. Computer Vision and Image Understanding, 2008, 110(3): 360-377
[14]Jiang Yugang, Jiang Yudong, Wang Jiajun. VCDB: A large-scale database for partial copy detection in videos[C] //Proc of the European Conf on Computer Vision. Berlin: Springer, 2014: 357-371
[15]Jiang Menglin, Fang Shu, Tian Yonghong, et al. PKU-IDM@ TRECVid 2011 CBCD: Content-based copy detection with cascade of multimodal features and temporal pyramid matching[C] //Proc of the TRECVID Workshop. Gaithersburg, MD: NIST, 2011
[16]Ayari M, Delhumeau J, Douze M, et al. Inria@ trecvid’2011: Copy detection & multimedia event detection[C] //Proc of the TRECVID Workshop. Gaithersburg, MD: NIST, 2011
[17]Uchida Y, Takagi K, Sakazawa S. KDDI Labs at TRECVID 2011: Content-based copy detection[C] //Proc of the TRECVID Workshop. Gaithersburg, MD: NIST, 2011
[18]Gupta V, Varcheie P D Z, Gagnon L, et al. CRIM at TRECVID 2011: Content-based copy detection using nearest-neighbor mapping[C] //Proc of the TRECVID Workshop. Gaithersburg, MD: NIST, 2011
[19]Song Jingkuan, Yang Yi, Huang Zi, et al. Multiple feature hashing for real-time large scale near-duplicate video retrieval[C] //Proc of the 19th ACM Int Conf on Multimedia. New York: ACM, 2011: 423-432
[20]Wu Xiao, Li Jintao, Tang Sheng, et al. Video copy detection based on spatio-temporal trajectory behavior feature[J]. Journal of Computer Research and Development, 2010, 47(11): 1871-1877 (in Chinese)
(吳瀟, 李錦濤, 唐勝, 等. 基于時(shí)空軌跡行為特征的視頻拷貝檢測(cè)方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2010, 47(11): 1871-1877)
[21]Chou C L, Chen H T, Lee S Y. Pattern-based near-duplicate video retrieval and localization on Web-scale videos[J]. IEEE Trans on Multimedia, 2015, 17(3): 382-95
[22]Shinde S, Chiddarwar G. Recent advances in content based video copy detection[C] //Proc of the Int Conf on Pervasive Computing (ICPC 2015). Piscataway, NJ: IEEE, 2015: 1-6
[23]Zobel J, Hoad T C. Detection of video sequences using compact signatures[J]. ACM Trans on Information Systems, 2006, 24(1): 1-50
[24]Liu Lu, Lai Wei, Hua Xiansheng, et al. Video histogram: A novel video signature for efficient Web video duplicate detection[C] //Proc of the 2007 Int Conf on Multimedia Modeling. Berlin: Springer, 2007: 94-103
[25]Wu Xiao, Ngo C W, Hauptmann A G, et al. Real-time near-duplicate elimination for Web video search with content and context[J]. IEEE Trans on Multimedia, 2009, 11(2): 196-207
[26]Huang Zi, Shen Hengtao, Shao Jie, et al. Bounded coordinate system indexing for real-time video clip search[J]. ACM Trans on Information Systems, 2009, 27(3): No.17
[27]Huang Zi, Hu Bo, Cheng Hong, et al. Mining near-duplicate graph for cluster-based reranking of Web video search results[J]. ACM Trans on Information Systems, 2010, 28(4): No.22
[28]Jun W, Lee Y, Jun B M. Duplicate video detection for large-scale multimedia[J]. Multimedia Tools and Applications, 2016, 75(23): 15665-15678
[29]Zou Fuhao, Li Xiaowei, Xu Zhihua, et al. Image copy detection with rotation and scaling tolerance[J]. Journal of Computer Research and Development, 2009, 46(8): 1349-1356 (in Chinese)
(鄒復(fù)好, 李曉威, 許治華, 等. 抗旋轉(zhuǎn)和等比縮放失真的圖像拷貝檢測(cè)技術(shù)[J]. 計(jì)算機(jī)研究與發(fā)展, 2009, 46(8): 1349-1356)
[30]Lowe D G. Object recognition from local scale-invariant features[C] //Proc of the 7th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 1999: 1150-1157
[31]Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110
[32]Ke Y, Sukthankar R. PCA-SIFT: A more distinctive representation for local image descriptors[C] //Proc of the 2004 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2004: 506-513
[33]Wu Xiao, Zhao Wanlei, Ngo C W. Near-duplicate keyframe retrieval with visual keywords and semantic context[C] //Proc of the 6th ACM Int Conf on Image and Video Retrieval. New York: ACM, 2007: 162-169
[34]Jégou H, Douze M, Schmid C. Hamming embedding and weak geometric consistency for large scale image search[C] //Proc of the 2008 European Conf on Computer Vision. Berlin: Springer, 2008: 304-317
[35]Zhou Zhili, Wang Yunlong, Wu Q J, et al. Effective and efficient global context verification for image copy detection[J]. IEEE Trans on Information Forensics and Security, 2017, 12(1): 48-63
[36]Perronnin F, Dance C. Fisher kernels on visual vocabularies for image categorization[C] //Proc of the 2007 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 1-8
[37]Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C] //Proc of the 2010 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3304-3311
[38]Douze M, Jégou H, Schmid C, et al. Compact video description for copy detection with precise temporal alignment[C] //Proc of the European Conf on Computer Vision. Berlin: Springer, 2010: 522-535
[39]Liu Hong, Lu Hong, Wen Zhaohui, et al. Gradient ordinal signature and fixed-point embedding for efficient near-duplicate video detection[J]. IEEE Trans on Circuits and Systems for Video Technology, 2012, 22(4): 555-66[40]Zhu Yingying, Huang Xiaoyan, Huang Qiang, et al. Large-scale video copy retrieval with temporal-concentration SIFT[J]. Neurocomputing, 2016, 187(C): 83-91
[41]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of the Advances in Neural Information Processing Systems. New York : Curran Associates, 2012: 1097-1105
[42]Jiang Yugang, Wang Jiajun. Partial copy detection in videos: A benchmark and an evaluation of popular methods[J]. IEEE Trans on Big Data, 2016, 2(1): 32-42
[43]Zhang Jing, Zhu Wenting, Li Bing, et al. Image copy detection based on convolutional neural networks[C] //Proc of the Chinese Conf on Pattern Recognition. Berlin: Springer, 2016: 111-121
[44]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv: 1409.1556, 2014
[45]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C] //Proc of the 2015 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9
[46]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C] //Proc of the Conf on the 2016 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778
[47]Perkins L N. Convolutional neural networks as feature generators for near-duplicate video detection[R]. Boston, MA: Boston University, 2015
[48]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Identity mappings in deep residual networks[C] //Proc of the 2016 European Conf on Computer Vision. Berlin: Springer, 2016: 630-645
[49]Wang Ling, Bao Yu, Li Haojie, et al. Compact CNN based video representation for efficient video copy detection[C] //Proc of the 2017 Int Conf on Multimedia Modeling. Berlin: Springer, 2017: 576-587
[50]Zagoruyko S, Komodakis N. Learning to compare image patches via convolutional neural networks[C] //Proc of the 2015 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4353-4361
[51]Shen Hengtao, Ooi B C, Zhou Xiaofang. Towards effective indexing for very large video sequence database[C] //Proc of the 2005 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2005: 730-741
[52]Lin Ying, Yang Yang, Ling Kang, et al. Video copy detection based on multiple visual features synthesizing[J]. Journal of Image and Graphics, 2013, 18(5): 591-599 (in Chinese)
(林瑩, 楊揚(yáng), 凌康, 等. 多特征綜合的視頻拷貝檢測(cè)[J]. 中國(guó)圖像圖形學(xué)報(bào), 2013, 18(5): 591-599)
[53]Bohm C, Gruber M, Kunath P, et al. Prover: Probabilistic video retrieval using the Gauss-tree[C] //Proc of the 23rd Int Conf on Data Engineering. Piscataway, NJ: IEEE, 2007: 1521-1522
[54]Weber R, Schek H J, Blott S. A quantitative analysis and performance study for similarity-search methods in high-dimensional spaces[C] //Proc of the 24th Int Conf on Very Large Data Bases. New York: VLDB Endowment, 1998: 194-205
[55]Weber R, B?hm K. Trading quality for time with nearest-neighbor search[C] //Proc of the 2000 Int Conf on Extending Database Technology: Advances in Database Technology. Berlin: Springer, 2000: 21-35
[56]Datar M, Immorlica N, Indyk P, et al. Locality-sensitive hashing scheme based onp-stable distributions[C] //Proc of the 20th Annual Symp on Computational Geometry. New York: ACM, 2004: 253-262
[57]Xu Zhe, Xue Zhifeng, Chen Fucai. Video copy detection based on improved affinity propagation[J]. Computer Engineering and Design, 2014, 35(9): 3185-3189 (in Chinese)
(許喆, 薛智鋒, 陳福才. 基于改進(jìn)的近鄰傳播學(xué)習(xí)算法的視頻拷貝檢測(cè)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(9): 3185-3189)
[58]Houle M E, Sakuma J. Fast approximate similarity search in extremely high-dimensional data sets[C] //Proc of the 21st Int Conf on Data Engineering. Piscataway, NJ: IEEE, 2005: 619-630
[59]Tao Y, Yi K, Sheng C, et al. Quality and efficiency in high dimensional nearest neighbor search[C] //Proc of 2009 ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2009: 563-576
[60]Grauman K. Efficiently searching for similar images[J]. Communications of the ACM, 2010, 53(6): 84-94
[61]Liu Dawei, Yu Zhihua. A computationally efficient algorithm for large scale near-duplicate video detection[C] //Proc of the 2015 Int Conf on Multimedia Modeling. Berlin: Springer, 2015: 481-490
[62]Jégou H, Douze M, Schmid C. Improving bag-of-features for large scale image search[J]. Int Journal of Computer Vision, 2010, 87(3): 316-336
[63]Sivic J, Zisserman A. Video Google: A text retrieval approach to object matching in videos[C] //Proc of the 2003 IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2003: 1470-1477
[64]Zhao Wanlei, Ngo C W. Flip-invariant SIFT for copy and object detection[J]. IEEE Trans on Image Processing, 2013, 22(3): 980-991
[65]Jiang Yugang, Ngo C W. Visual word proximity and linguistics for semantic video indexing and near-duplicate retrieval[J]. Computer Vision and Image Understanding, 2009, 113(3): 405-414
[66]Huang Zi, Shen Hengtao, Shao Jie, et al. Practical online near-duplicate subsequence detection for continuous video streams[J]. IEEE Trans on Multimedia, 2010, 12(5): 386-398
[67]Can T, Duygulu P. Searching for repeated video sequences[C] //Proc of the 2007 Int workshop on Workshop on Multimedia Information Retrieva. New York: ACM, 2007: 207-216
[68]Tan H K, Ngo C W, Chua T S. Efficient mining of multiple partial near-duplicate alignments by temporal network[J]. IEEE Trans on Circuits and Systems for Video Technology, 2010, 20(11): 1486-1498
[69]Pang Lei, Zhang Wei, Tan H K, et al. VIREO-VH: Video hyperlinking[R]. Hong Kong: City University of Hong Kong, 2012
[70]Smeaton A F, Over P, Kraaij W. Evaluation campaigns and TRECVID[C] //Proc of the 8th ACM Int Workshop on Multimedia Information Retrieval. New York: ACM, 2006: 321-330
[71]Over P, Awad G, Michel M, et al. Trecvid 2011—An overview of the goals, tasks, data, evaluation mechanisms and metrics[C] //Proc of the 2011 TRECVID Workshop. Gaithersburg, MD: NIST, 2011
[72]NIST. Guidelines for the TRECVID 2008 evaluation[EB/OL]. 2008[2016-12-12]. http://www-nlpir.nist.gov/projects/tv2008/tv2008.html
[73]Zhou Xiangmin, Zhou Xiaofang, Chen Lei, et al. An efficient near-duplicate video shot detection method using shot-based interest points[J]. IEEE Trans on Multimedia, 2009, 11(5): 879-891
[74]Douze M, Jégou H, Schmid C. An image-based approach to video copy detection with spatio-temporal post-filtering[J]. IEEE Trans on Multimedia, 2010, 12(4): 257-266
[75]Yeh Mei-Chen, Cheng Kwang-Ting. Video copy detection by fast sequence matching[C] //Proc of the ACM Int Conf on Image and Video Retrieval. New York: ACM, 2009: No.45
[76]Wu Xiao, Zhao Wanlei, Ngo C W. Efficient near-duplicate keyframe retrieval with visual language models[C] //Proc of 2007 IEEE Int Conf on Multimedia and Expo. Piscataway, NJ: IEEE, 2007: 500-503
[77]Tan H K, Wu Xiao, Ngo C W, et al. Accelerating near-duplicate video matching by combining visual similarity and alignment distortion[C] //Proc of the 16th ACM Int Conf on Multimedia. New York: ACM, 2008: 861-864
[78]Shang Lifeng, Yang Linjun, Wang Fei, et al. Real-time large scale near-duplicate Web video retrieval[C] //Proc of the 18th ACM Int Conf on Multimedia. New York: ACM, 2010: 531-540
[79]Zhao Wanlei, Ngo C W. Scale-rotation invariant pattern entropy for keypoint-based near-duplicate detection[J]. IEEE Trans on Image Processing, 2009, 18(2): 412-423
[80]Poullot S, Crucianu M, Buisson O. Scalable mining of large video databases using copy detection[C] //Proc of the 16th ACM Int Conf on Multimedia. New York: ACM, 2008: 61-70
[81]Law-To J, Buisson O, Gouet-Brunet V, et al. ViCopT: A robust system for content-based video copy detection in large databases[J]. Multimedia Systems, 2009, 15(6): 337-353
Gu Jiawei, born in 1992. Master candidate of computer science. His main research interests include image and video recognition.
Zhao Ruiwei, born in 1987. PhD candidate of computer science. His main research interests include image and video recognition.
Video Copy Detection Method: A Review
Gu Jiawei, Zhao Ruiwei, and Jiang Yugang
(SchoolofComputerScience,FudanUniversity,Shanghai201203)
Currently, there exist large amount of copy videos on the Internet. To identify these videos, researchers have been working on the study of video copy detection methods for a long time. In recent years, a few new video copy detection algorithms have been proposed with the introduction of deep learning. In this article, we provide a review on the existing representative video copy detection methods. We introduce the general framework of video copy detection system as well as the various implementation choices of its components, including feature extraction, indexing, feature matching and time alignment. The discussed approaches include the latest deep learning based methods, mainly the application of deep convolutional neural networks and siamese convolutional neural networks in video copy detection system. Furthermore, we summarize the evaluation criteria used in video copy detection and discuss the performance of some representative methods on five popular datasets. In the end, we envision future directions on this topic.
video copy detection; feature representation; performance evaluation; dataset; review
ang, born in 1981.
his PhD degree in computer science from City University of Hong Kong in 2009. Full professor at the School of Computer Science, Fudan University. Received the NSFC award for outstanding young researchers in 2016. His main research interests include multimedia content analysis and computer vision.
2017-01-03;
2017-03-07
國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61622204) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (61622204).
TP311