蔣宗禮 袁圓
摘 要:現(xiàn)有的視頻去重技術多樣,但字幕這一與視頻內容能高度匹配的重要信息并未被考慮到其中。提出一種針對含內嵌字幕視頻進行去重的方法,并在三大視頻網(wǎng)頁中得到了該方法的再去重效果。首先將相應網(wǎng)頁視頻中的字幕經過OTC處理將其文檔化,再規(guī)范文檔,最后設定一個界值,對網(wǎng)頁進行去重篩選。類比于網(wǎng)頁文本的去重方法,基于文本內容的去重工作可以大大改善去重的效果,考慮到視頻中人物對話內容的唯一性,我們可以根據(jù)視頻字幕內容來進行去重,從而得到更為精準的視頻去重結果。
關鍵詞:網(wǎng)頁視頻;內嵌字幕;去重;LCS
中圖分類號:TP391 文獻標識碼:A
Abstract:Even there are many ways to remove duplicate web videos, the subtitleinfo which can highly matchas with the contents of video still cannot be taken into account to the removal process. This paper put forward a method by using contrast with embedded subtitles in video to delete the duplicate web videos, and presented the effect of reremove duplicates by this method in three big web video page.The subtitles in web video need documentation through OTC processing and specification document again,and set an boundary value through experiment, so that the duplicate web video can be filtrated. simihar to the duplicate removing method, in web page next this method can greatly improve the effect of duplicate removing,Considering the uniqueness of dialogue contents in the video,we can use the contents of the video subtitles to do duplicate removing,and to get more accurate video search results in search engine. The target of this study is duplicate removing work of the web video with hard subtitles, which is belong to webbased content to the duplicate removing study, used to remove the duplicate web video pages and improve the user experience.
Key words:web video; embedded subtitles; remove duplicate; LCS
1 引 言
在互聯(lián)網(wǎng)中,網(wǎng)頁內容的大量重復,對搜索引擎來說,這些重復使得用戶體驗太差,因此,需要“去重”[1]。
在以UGC(User Generated Content)業(yè)務為主的視頻網(wǎng)站中,每天都有大量的視頻被上傳[2]。用戶上傳的視頻有數(shù)量大、重復視頻多的特點,特別是一些熱點視頻會同時有多個用戶上傳。這樣 會導致搜索或者推薦結果中出現(xiàn)大量重復視頻。如何識別出這些相同內容的視頻,為用戶提供更好的搜索和推薦體驗,是一個需要解決的問題?,F(xiàn)在識別相同視頻的方法很多,通常的方法有:視頻文件md5值去重,每個視頻文件里都保存有一個md5值,可以認為是這個視頻文件的基因;根據(jù)視頻的文本信息(指生成標題、描述和標簽等)進行去重,用戶在上傳視頻時會生成標題、描述和標簽等文本信息,根據(jù)這些文本信息進行相同視頻的去重;根據(jù)視頻時長進行分類,在進行相同視頻的去重的算法中可以先根據(jù)視頻時長對全量視頻進行分類,然后根據(jù)視頻文本信息計算文本距離,在每個分類中應用視頻文本信息距離進行迭代就成為可能;根據(jù)圖像或者視頻內容進行去重(關鍵幀的圖像匹配),根據(jù)文本信息進行去重的劣勢是過度依靠文本信息,而視頻內容畢竟不能完全用文本來衡量。[3]如果一個視頻的文本信息過少的話,去重的結果是不可靠的,所以根本的解決問題的方法是依賴視頻內容進行去重,視頻本質上是一幀一幀的圖像組成的,所以可以把這個問題簡化為關鍵幀的圖像匹配問題,著名UGC視頻網(wǎng)站Youtube就是采用了這種方法進行視頻去重?;蛘吒纱嗪喕稽c,根據(jù)視頻的縮略圖進行圖像匹配估計也會達到很好的效果[4]。
本文研究的對象是含有內嵌字幕的視頻,具有內嵌字幕文本信息這一重要因素,與視頻內容具有高度匹配性,于是提出了一種基于內嵌字幕的視頻去重途徑,屬于文本信息去重法。分別依據(jù)生成的標題、生成的標簽、描述,內嵌字幕,對已有的搜索視頻結果進行再次去重,觀察其再去重率效果。
2 去重標準設定
同一段視頻的字幕是根據(jù)視頻內容而來,具有相同內容視頻的內嵌字幕,從理論上來說應該完全一致,即去重標準應定為100%。但是,由于提取內嵌字幕時采用的是光學OTC的方法,在不同視頻分辨率的時候提取出來的內嵌字幕有所偏差,即使是兩個相同內容的視頻,提取出來的字幕也會不同,于是需要允許一定的偏差。
由圖可看出,基于內嵌字幕的再去重明顯優(yōu)于基于文件標題特征進行再去重的方法,這是因為每一個視頻的內嵌字幕都具有唯一性,而視頻的標題、標簽、描述是在視頻上傳時用戶可以隨意賦予的,故而并不一定與視頻內容相符。
5 結束語
本文針對含有內嵌字幕的視頻,提出一種基于內嵌字幕內容的去重算法。實驗表明,該方法去重較基于文件標題特征的方法效果更佳。通過提取視頻網(wǎng)頁的內嵌字幕,在去重過程中加入適用于本研究的動態(tài)LCS算法,由實驗結果可知,依據(jù)內嵌字幕對網(wǎng)絡視頻去重確實較為精準,從而可大量節(jié)約結點存儲資源,采用此方法進行視頻去重具有很大的現(xiàn)實意義。然而,本文并未對如何使大量人工標注過程實現(xiàn)自動化進行研究討論,可在今后的研究工作中進一步研究實現(xiàn)。參考文獻
[1] 中國互聯(lián)網(wǎng)絡信息中心. 中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R]. 2008年1月. 39-40頁.
[2] Ming Zhao;Yagnik,J.;Adam,H.;Bau,D. Large scale learning and recognition of faces inweb videos. Automatic Face & Gesture Recognition, 2008. FG '08[J].8th IEEE International Conference on DOI:10.1109/AFGR.2008.4813381. Publication Year: 2008, Page(s): 1-7.
[3] Xiao Wu;ChongWah Ngo;Hauptmann,A.G.;HungKhoon Tan. RealTime NearDuplicate Elimination for Web VideoSearch With Content and Context. Multimedia[J].IEEE Transactions on Volume:11,Issue: 2 DOI:10.1109/TMM.2008.2009673. Publication Year: 2009, Page(s): 196-207.
[4] Chengde Zhang;Xiao Wu;MeiLing Shyu;Qiang Peng. Adaptive association rule mining for web videoevent classification. Information Reuse and Integration (IRI)[J].2013 IEEE 14th International Conference on DOI:10.1109/IRI.2013.6642526. Publication Year: 2013, Page(s): 618-625.
[5] 于海英. 字符串相似度度量中LCS和GST算法比較[J].電子科技, 2011,24(3):101-103.
[6] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社.2001年12月第3版:294-312.
[7] 王曉東. 計算機算法設計與分析[M]. 北京:電子工業(yè)出版社, 2001.
[8] Rubi, R.D.;Arockiam, L. Positional_LCS: A position based algorithm to find Longest Common Subsequence (LCS) in Sequence Database (SDB). Computational Intelligence & Computing Research (ICCIC)[J].2012 IEEE International Conference on DOI: 10.1109/ICCIC.2012.6510271. Publication Year: 2012, Page(s):1-4.
[9] Wei Liu, Ling Chen, Lingjun Zou. A parallel LCS algorithm for biosequences alignment. InfoScale '07: Proceedings of the 2nd international conference on Scalable information systems[J].Publisher:ICST (Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering). June 2007.
[10]Heba AlShaek Salem, Maryam Nuser, Izzat Alsmadi. Similarity evaluation of DNA sequences based on nucleotides similarity[J].ICICS '12: Proceedings of the 3rd International Conference on Information and Communication Systems. Publisher: ACM. April 2012.
[11]申曉. 如何編程實現(xiàn)快速LCS算法[J].電腦編程技巧與維護,2012,(11):91-92.
[12]胡婕,業(yè)寧,羅曉波,等. 多序列的近似LCS改進算法[J].計算機工程,2011,37(2):166-168.
[13]Jeffrey E.F. 精通正則表達式,余晟,譯[M]. 北京:電子工業(yè)出版社,2007.
[14]郭牧怡,劉萍,譚健龍,等. 基于文件標題特征的網(wǎng)絡視頻去重研究[J]. 計算機工程,2010,36(9):227-229.