楊 振
(天津城市職業(yè)學(xué)院,天津,270000)
探討基于Tsallis熵的視頻關(guān)鍵幀提取技術(shù)
楊 振
(天津城市職業(yè)學(xué)院,天津,270000)
關(guān)鍵幀是視頻中的一組有限數(shù)量的幀的子集,一個(gè)視頻的關(guān)鍵幀序列能夠合理地概括該視頻信息,從而減少過(guò)大的視頻數(shù)據(jù)對(duì)生產(chǎn)生活帶來(lái)的承載負(fù)重。本文討論了基于Tsallis熵的Jensen距離公式——JTD在視頻關(guān)鍵幀提取中的應(yīng)用。根據(jù)得到的差異性距離值JTD,首先檢查子鏡頭邊界,進(jìn)而從每個(gè)子鏡頭中抽取一幀作為該鏡頭的代表幀,最終得到該段視頻的關(guān)鍵幀序列。
關(guān)鍵幀提??;Tsallis熵;Jensen不等式
20世紀(jì)90年代以來(lái),人類逐步步入了信息社會(huì)的時(shí)代。隨著人們?nèi)粘蕵?lè)活動(dòng)的增多,數(shù)字視頻得到人們的廣泛應(yīng)用。視頻關(guān)鍵幀的提取,使得一個(gè)視頻得到有效地總結(jié),從而大量降低了視頻存儲(chǔ)的數(shù)據(jù)量。本文提出了利用Tsallis熵和Jensen距離的視頻關(guān)鍵幀提取算法,對(duì)視頻關(guān)鍵幀提取技術(shù)的研究起到積極的推動(dòng)作用。
1.1 Tsallis熵
Harvda和Charvat[1]給出了Tsallis信息熵的廣義定義。隨機(jī)變量X的Tsallis熵定義為:
其中,α〉1稱為T(mén)sallis熵指數(shù)。
1.2 Jensen距離
對(duì)于一個(gè)在區(qū)間[a,b]上的f是一個(gè)凸函數(shù),并且x1,x2,...,xn在區(qū)間[a,b]中, Jensen 距離(JD)[2]:
1.3 基于Tsallis熵的Jensen距離
Tsallis熵在其指數(shù)范圍內(nèi),具有凸函數(shù)的性質(zhì)。對(duì)于具有RGB直方圖分布差異的兩個(gè)相鄰幀fi-1和fi,它們之間的基于Tsallis熵的Jensen 距離可以表示為:
視頻序列可以看成是一種分級(jí)模式:視頻序列—〉子鏡頭—〉幀[3]。一般來(lái)說(shuō),基于鏡頭的視頻關(guān)鍵幀提取算法是對(duì)一小部分的視頻幀作處理[4]。
2.1 子鏡頭的檢測(cè)與視頻序列的分割
根據(jù)公式(3)可得到具有平滑效果的窗口均值化的JTD公式:
其中,nw=5是所做的窗口的大小。同時(shí)定義與的比值:
2.2 子鏡頭的評(píng)估標(biāo)準(zhǔn)與分割
當(dāng)一個(gè)視頻中有較大的內(nèi)容變化時(shí),需要在這個(gè)視頻序列中分割子鏡頭,這樣可以提取出更加完全展示出這個(gè)視頻序列的內(nèi)容信息。此處定義幀fi處的JTD梯度:
2.3 視頻關(guān)鍵幀的提取
基于我們對(duì)一段視頻分割得到的鏡頭和子鏡頭,根據(jù)每一個(gè)分割片段所表現(xiàn)出來(lái)的內(nèi)容信息變化量的大小,選取其中的一幀作為關(guān)鍵幀。對(duì)于在視覺(jué)內(nèi)容上較為平滑的子鏡頭,可以選取其中的任何一幀作為該子該鏡頭的關(guān)鍵幀;對(duì)于在視覺(jué)上含有較大的內(nèi)容信息變化量的子鏡頭,則選取與其周?chē)鷰腏TD之和達(dá)到最小值的幀作為該子鏡頭中的關(guān)鍵幀。
本文采用的測(cè)試視頻來(lái)自于網(wǎng)站“The Open Video Project”[5]。測(cè)試視頻“BOR14_001”是一段由多種視頻類型段組合而成的視頻。該視頻含有1083幀,36秒時(shí)長(zhǎng)。圖1(a)(b)分別給出了Downsampling和JTD方法提取出來(lái)的關(guān)鍵幀序列。圖中可以看到,使用JTD提取出的關(guān)鍵幀較完整和無(wú)冗余地表述了該段視頻的每一個(gè)場(chǎng)景內(nèi)容。
圖 1 對(duì)測(cè)試視頻“BOR14_001”的關(guān)鍵幀提取實(shí)驗(yàn)
關(guān)鍵幀的提取在視頻信息檢索技術(shù)中占有很重要的地位。本文討論了基于Tsallis熵的Jensen距離公式——JTD在視頻關(guān)鍵幀提取中的使用。實(shí)驗(yàn)結(jié)果顯示,JTD關(guān)鍵幀提取技術(shù)可以根據(jù)視頻內(nèi)容選取出較為完整和無(wú)冗余的視頻關(guān)鍵幀序列,可以滿足基于內(nèi)容的視頻檢索系統(tǒng)的需求,這為當(dāng)下存儲(chǔ)代價(jià)較高的信息社會(huì)提供了許多便利。
[1] Harvda, J., Charv′at, Quantification method of classification processes, Conceptof structural a-entropy, 1967, 30~35.
[2]T. M. Cover, J. A. Thomas, Elements of Information Theory, 2nd Ed., SanFrancisco: Wiley-Interscience, 2006, 10~18.
[3] A. Hanjalic, Shot-boundary detection: Unraveled and resolved?, IEEE Trans.Circuits Syst. Video Technol, 2010, 90~105.
[4]B. T. Truong, S. Venkatesh, Video abstraction: A systematic review and classication,ACM T. Multim. Comput., 2007, 1~37.
[5] http://www.open-video.org/index.php.
The key frame extraction technology based on Tsallis entropy is discussed
Yang Zhen
(Tianjin city Career Academy,Tianjin,270000)
Key frame is a subset of a limited number of video frames and key frames of a video sequence can reasonably generalize the video information, thereby minimizing weight bearing on production and life bring large video data. This paper discusses Jensen distance formula based on Tsallis entropy of JTD application in video key frame extraction. According to the difference of the distance value JTD, first check the sub shot boundary, and then extracted from each sub shot frame as a representative of the lens frame, finally get the key frames of the video sequence.
key frame extraction;Tsallis entropy;Jensen inequality