◆蘇筱涵
深度學習視角下視頻關鍵幀提取與視頻檢索研究
◆蘇筱涵
(武漢輕工大學數(shù)學與計算機學院 湖北 430048)
隨著互聯(lián)網(wǎng)技術的高速發(fā)展,互聯(lián)網(wǎng)中的視頻數(shù)據(jù)已經(jīng)成為其中的重要數(shù)據(jù)類型,且在安全監(jiān)控及視頻網(wǎng)站當中得到了十分廣泛的應用。隨著互聯(lián)網(wǎng)的逐漸普及,視頻搜索也有了更大的意義,因此對視頻檢索技術的研究則是非常重要的。視頻關鍵幀提取則主要體現(xiàn)視頻中各個鏡頭的顯著特征,通過視頻關鍵幀提取能夠有效減少視頻檢索所需要花費的時間,并能夠增強視頻檢索的精確度。因此,對于視頻關鍵幀提取與視頻檢索進行研究是非常有意義的。
深度學習;視頻關鍵幀提?。灰曨l檢索
從目前的情況來看,視頻的數(shù)據(jù)規(guī)模變得越來越大,所以解決視頻檢索的問題已經(jīng)迫在眉睫?,F(xiàn)有的一些解決方法是對視頻序列采用鏡頭分割的方式,然后在鏡頭當中獲得內(nèi)容關鍵幀提取,接著利用“關鍵幀”來獲得底層的形狀、紋理和顏色等特征,從而實現(xiàn)檢索的功能。所以對于視頻檢索技術來說,關鍵幀提取是非常重要的內(nèi)容。
從目前的情況來看,很多視頻監(jiān)控在進行目標活動搜索的過程中,仍然需要人工操作的方式來進行,只能夠完成某些特定部分的自動操作,工作效率十分低下。在視頻檢索的過程中,有著非常大的數(shù)據(jù)量,且有著較高的維度,需要花費大量的時間和內(nèi)存來進行檢索。在主流視頻監(jiān)控領域當中,常用的檢索模式為模式識別技術,例如人臉、動作和緊急情況識別技術等等,這些識別技術都是針對特定場景的,無法真正滿足實際的需求,無法對特定的視頻進行搜索。隨著互聯(lián)網(wǎng)技術的發(fā)展,視頻片段搜索得到了更多的關注,例如通過搜索視頻片段來找到與數(shù)據(jù)庫相似的集,從而將這項技術運用到預處理的過程當中。當前的視頻檢索相關領域的研究內(nèi)容相對較少,本文從深度學習視角下來對視頻關鍵幀提取與視頻檢索進行研究,并提出了相關的方案。
根據(jù)視頻序列中“相鄰幀”所具有的連續(xù)性和相似性特征,可以對關鍵幀提取的原理進行總結:把圖像坐標系中每個“視頻幀”都疊加在一起,這時鏡頭中視頻幀的特征矢量會在空間中呈現(xiàn)出一個軌跡的狀態(tài),而與軌跡中特征值進行對應的“幀”即可稱之為關鍵幀。從抽象的角度來說,對于關鍵幀進行提取主要分為兩個部分,首先是對圖像特征的量化參數(shù)進行明確,然后對量化參數(shù)是否能夠作為關鍵特征值來進行判斷。目前對于關鍵幀的提取時,若無法明確代表特征的情況下,要去掉冗余幀。如果需要進行多幅關鍵幀提取時,這時應對它們之間的不相關性進行關注。
關鍵幀提取的方法主要分為兩種,一種是全圖像序列,一種是壓縮視頻,目前大多采用的方法是以全圖像視頻分析為基礎的,主要的區(qū)別就在于檢測方法的應用和特征的選擇以及幀圖像的劃分。鏡頭邊界方法是將鏡頭中的第一幀和最后一幀(或中間幀)作為關鍵幀。該方法簡單易行,適于內(nèi)容活動性小或內(nèi)容保持不變的鏡頭,但未考慮鏡頭視覺內(nèi)容的復雜性,限制了鏡頭關鍵幀的個數(shù),提取的關鍵幀代表性不強,效果不夠穩(wěn)定。內(nèi)容分析方法主要是通過顏色、紋理等信息來進行關鍵幀的提取,其中較為常用的方法為“幀”或者直方圖的平均法,這兩種方法計算起來較為簡單,但在選取固定數(shù)量的關鍵幀時,無法對多個物體運動進行有效描述。在對視頻進行解碼之后,會將其分為多個場景,而在每個場景當中還會分為多個鏡頭,在每個鏡頭當中又分為了多個關鍵幀。在視頻內(nèi)容檢索的過程中,關鍵幀提取是非常重要的預處理過程,但當前人們在操作的過程中只是進行隨機的關鍵幀選擇,這種操作的方式精確度較差。在視頻當中,實際上包含了時間、劇情以及空間等多方面的信息,如果直接進行視頻特征的提取,那么這將會是一項十分復雜的操作過程,需要花費掉大量的時間和空間。一旦關鍵幀提取的過程缺乏足夠的精確度,那么必然會對視頻檢索的過程造成負面的影響。當前所存在的一些關鍵幀提取方案存在著一定的不足,具體包括以下幾個方面:首先,如果將視頻鏡頭中的第一幀作為關鍵“幀”來進行處理,那么必然會失去很多信息。其次,如果通過鏡頭中“幀”的相互比較來進行選擇,那么將會花費掉大量的計算成本。最后,如果對鏡頭中各個幀進行相似性的測量,那么則需要選擇出一個閾值來確定關鍵幀,但該閾值無法有效的確定,且無法去適應其他的鏡頭。對于上文提出的這些不足,要求關鍵幀提取不僅僅需要較高的精確度,同時也要能夠提升計算的速度,本文所探討的是一種自適應關鍵幀提取技術。實際上在各個鏡頭當中,有很多“幀”是相互重復的,所以不需要對所有“幀”都進行處理,首先要做的是提取鏡頭中的摘要信息,然后確保所提取的關鍵幀當中包含了最多的特征。在獲得鏡頭平均幀的數(shù)值之后,再將該數(shù)值作為提取關鍵幀的依據(jù),從而達到了自適應關鍵幀提取的效果。
在完成關鍵幀的提取過程后,通過將內(nèi)容為基礎來進行視頻的檢索,即可實現(xiàn)精確高效的視頻序列檢索。從目前的情況來看,無論是視頻檢索還是圖像系統(tǒng)當中,都使用的是深度學習框架,其中包含了很多的參數(shù),從而增加了深度學習框架的難度,不但實現(xiàn)的難度較大,且會花費大量的計算時間。本文所討論的視頻檢索技術,是對神經(jīng)網(wǎng)絡外部結構進行改進,通過模型訓練機制來實現(xiàn)信息的先驗過程,進而得出了維度較低的視頻和圖像,從而實現(xiàn)計算時間的減少和空間需求的降低。本文所選用的深度神經(jīng)網(wǎng)絡模型是在大規(guī)模數(shù)據(jù)訓練基礎上所得到的結果,其中包含了八個訓練神經(jīng)網(wǎng)絡層,其中五個為卷積層,三個為全連接層,其中的七個網(wǎng)絡層采用了非線性激活函數(shù),另外一個屬于分布式的結果。但在這其中也存在的一些問題需要解決:首先,所采用的激活函數(shù)屬于空間排列的方式,因此卷積層中對于信息進行了保留,輸入神經(jīng)元的連接,所以其中不對信息進行保留。其次,全連接層所選擇的模型具備的參數(shù)要比卷積層多得多。第三,全連接層要對輸入圖像大小進行預知,但卷積層則無須了解這部分信息。所以全連接層沒有進行特征提取的責任,全部由卷積層來負責提取。想要解決這些問題,就需要使用第四或者第五“卷積層”維度為13×13×384個特征,并將該層中的各個視頻幀利用256“維”或者384“維”特征來進行表示。這里所提到的重新訓練機制包含了無監(jiān)督重新訓練機制、半監(jiān)督重新訓練機制和監(jiān)督重新訓練機制。在無監(jiān)督重新訓練機制當中,以給定數(shù)據(jù)為基礎來對卷積神經(jīng)網(wǎng)絡模型進行訓練,從而對于視頻中的關鍵幀提取進行最大化處理,并利用該特征來將其作為興趣層目標,幫助神經(jīng)網(wǎng)絡模型提供回歸任務,并進行權重初始化處理,使用后向傳播法來對目標數(shù)據(jù)進行訓練。在半監(jiān)督重新訓練機制當中,所采用的是可用類標簽推導的方式來增強信息深度,并對符的特性進行描述。通過這種方式來進行目標符的描述,能夠利用后向傳播技術及關鍵幀信息來實現(xiàn)對神經(jīng)網(wǎng)絡的訓練。在監(jiān)督重新訓練機制當中,這種訓練機制思想主要源自反饋理論。這里所說的反饋理論是指各個用戶所提供的反饋信息,這些信息主要是由查詢內(nèi)容的關鍵“幀”來組合而成。這項方案的主要目的在于對模型參數(shù)進行修改,從而將查詢和關鍵幀兩者之間的余弦相似性進行最大化處理。
從目前的情況來看,關鍵幀提取的提取技術仍然不夠成熟,仍然沒有可以通用的提取方法。當前已經(jīng)擁有的關鍵幀提取方法都有著一定的缺陷,在具體進行應用的過程中需要通過鏡頭類型和特征來進行合理選擇。同時,當前應用的計算方法也應進一步提升“檢準率”和“檢出率”。未來的關鍵幀提取和視頻檢索將會在以下幾個方面進行深入研究:首先,找到有效特征向量,將其應用于“幀”相似性的度量。其次,將壓縮域作為關鍵幀提取技術的研究基礎。第三,加大對自適應閾值的研究。最后,通過輔助視頻信息來進行關鍵幀提取。
[1]張萌.視頻檢索中關鍵幀的提取和特征匹配的研究[D].北京:北京郵電大學,2012.
[2]侯嚴明,李菲菲,陳虬.基于多特征融合的視頻檢索算法[J].電子科技,2019,32(5):44-48,54.
[3]趙清杰,王浩,劉浩,等.基于相對編輯相似度的近似重復視頻檢索和定位[J].北京理工大學學報,2018,38(1):85-90.
[4]上海極鏈網(wǎng)絡科技有限公司.一種海量視頻特征提取、存儲和檢索方法及系統(tǒng):CN201910047518.3[P].2019-05-28.