基于內(nèi)容檢索的視頻處理技術(shù)

2021-06-15 03:27楊光明

衛(wèi)星電視與寬帶多媒體 2021年6期

關(guān)鍵詞：視頻

【摘要】用戶探索和解析多媒體內(nèi)容是基于內(nèi)容檢索的功能上去進(jìn)行的，其次在多媒體數(shù)據(jù)中視頻的運用會占絕大部分，它會隨著時間的變化而去改變，具有非常顯著的跳躍性和不穩(wěn)定性，不能用靜態(tài)特征去概括，總結(jié)起來會對內(nèi)容檢索造成很大的困難。有效的對視頻數(shù)據(jù)進(jìn)行處理和把控是完善其技術(shù)研究的主要目標(biāo)，做好相關(guān)專業(yè)技術(shù)處理才能從基礎(chǔ)層面去改善情況。本文就主要探討在內(nèi)容檢索的基礎(chǔ)下，如何對視頻處理技術(shù)進(jìn)行創(chuàng)新和改善，并提出了有效策略。

【關(guān)鍵詞】內(nèi)容檢索;技術(shù)處理;視頻

中圖分類號：TN94 ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼：A ? ? ? ? ? ? ? ? ? ? DOI：10.12246/j.issn.1673-0348.2021.06..007

伴隨著信息技術(shù)的迅速發(fā)展，已經(jīng)形成了信息高速公路的趨勢。而在利用數(shù)字視頻這項技術(shù)時，人們比較注重它的儲存和傳輸能力。在這一方面確實也取得了比較大的突破。做到足不出戶在家中就可以通過互聯(lián)網(wǎng)來進(jìn)行多媒體數(shù)據(jù)管理，對遠(yuǎn)端的信息和視頻進(jìn)行訪問。運用網(wǎng)上圖書館、電子購物等功能都非常方便，同時視頻檢索技術(shù)在當(dāng)下也非常受歡迎，對于此類技術(shù)來說，市場急需專業(yè)性人才，其就業(yè)前景非常的廣闊。

1. 視頻數(shù)據(jù)的結(jié)構(gòu)體系

1.1 序列的組成

視頻數(shù)據(jù)的組成可以分成諸多種形式，比如場景、幕、幀、鏡頭等。而鏡頭是一種視頻形式，它是由諸多幀共同組成的，可以對同一場景來進(jìn)行不同形式的描繪，它可以是對攝像機動作或者說是某一個事件的連續(xù)動作，其中所涉及到的理念會根據(jù)表達(dá)的含義、拍攝的角度、面對的對象而改變。幕的組成則是由相關(guān)內(nèi)容的鏡頭共同組合在一起的一段小視頻，它是對某一件事情或故事情節(jié)的完整表達(dá)。我們所見到的一段完整視頻都是由不同的鏡頭所組合起來的，所以鏡頭也算是視頻檢索的分支，鏡頭中對象的運動形式和圖象幀則是往下延伸的部分，而往上則是場景。所以視頻檢索的基本構(gòu)成是由一幕幕、一個個場景、一個個鏡頭所共同組成的，如何針對視頻中的鏡頭場景進(jìn)行合理的處理，是掌握該技巧的最基本的內(nèi)容。

1.2 鏡頭的切換

視頻鏡頭也受諸多因素的阻礙，鏡頭會受空間的限制，只能對一個地點發(fā)生的事情進(jìn)行不間斷的拍攝，不能做到空間和地點的切換。所能達(dá)到的能力有限。所以我們在一部完整的視頻、紀(jì)錄片或電影中看到的都是由諸多鏡頭互相剪輯、編輯連接而成的。還有一部分視頻切換的頻率會非常頻繁，而鏡頭所傳輸?shù)臅r間也非常有限。比如一些故事片、紀(jì)錄片、新聞節(jié)目等。這一類視頻的表達(dá)都可以通過切換鏡頭來實現(xiàn)，它能對不同地點場景和時間所發(fā)生的事情來進(jìn)行合理的鏡頭切換，相反，例如監(jiān)控視頻和交通狀況以及體育節(jié)目賽事轉(zhuǎn)播，這一類視頻形式，它其中的鏡頭切換可能相對較少，某一個鏡頭所保持的時間會比較長，這些都是要根據(jù)不同內(nèi)容的形式而做出相適應(yīng)的轉(zhuǎn)變。如果是監(jiān)控視頻這種類型，切換是無法有效的抓住鏡頭所發(fā)生的時事，從而進(jìn)行無意義的剪輯。體育項目也是如此，某一些精彩的瞬間或鏡頭，必須要時刻抓住，否則將錯過精彩的視頻剪輯。這一類視頻盡量要做到鏡頭的少切換。它其中最關(guān)注的是鏡頭內(nèi)物體的運動情況。

其次突變和漸變兩種形式都是用來作為鏡頭轉(zhuǎn)換的。而突變所表達(dá)的基本含義是，從上一個鏡頭跳入到下一個鏡頭之間的轉(zhuǎn)換，中間不會被時間因素所限制，不存在一定的延遲。而漸變從理論上來說是相反的，前一個鏡頭和后一個鏡頭之間的轉(zhuǎn)換會非常緩慢，重點是強調(diào)空間以及時間上的編輯效果，同時它所包含的方式有諸多種，以及它還處在不斷的發(fā)展當(dāng)中。不斷的有新的方式出現(xiàn)。比如一些運用到的比較多的類型：掃轉(zhuǎn)換、慢轉(zhuǎn)換、淡入/淡出等。其中掃轉(zhuǎn)換的開端是沒有具體要求的，它可以是某一個部分的開端，下一個鏡頭逐漸的取代上一個鏡頭。慢轉(zhuǎn)換顧名思義就是在前一個鏡頭還沒有消失或逐漸減弱時，下一個鏡頭會慢慢加強畫面感。最后淡入/淡出則分別指的是把畫面進(jìn)行加強，而后慢慢的減弱直至消失。

1.3 鏡頭的運動

鏡頭的運動也作為視頻處理技術(shù)中比較重要的一環(huán)，它會根據(jù)劇情的變化和需要來采取不同的技術(shù)處理。對某一個鏡頭的處理，可以通過多個攝像機來共同合作來選取最佳的鏡頭，這樣就可以從不同角度去發(fā)現(xiàn)其中的運動狀態(tài)。而其中最重要的就是鏡頭的運動，它所包含分為幾個方面。

其一，推拉攝影：所謂推拉則是指兩個運動方向之間的區(qū)別，由遠(yuǎn)處慢慢向近處拍攝，通過對拍攝對象的記錄，這種方式我們統(tǒng)稱為“推”。而拉則表示相反的概念，從近處的景象開始拍攝，逐漸拉伸為全景，這種運動攝影形式，我們稱之為“拉”。兩種形式都可以通過運動攝影來表達(dá)，其次還可以通過變焦的方法體現(xiàn)。其二，搖鏡頭：把云臺來作為軸心點，拍攝過程中拍攝方位可以不斷的去改變，但是其中的觀者是不能去改變觀察位置的，在滿足以下情況下再去轉(zhuǎn)動頭頸部和眼球來觀看對象的一種體現(xiàn)。根據(jù)鏡頭的不斷移動，來對更多更大的情景進(jìn)行拍攝，這就是所謂的搖鏡頭。其三，跟蹤：拍攝跟蹤與傳統(tǒng)的跟蹤意思理念非常相近，也是根據(jù)拍攝對象的移動來進(jìn)行追蹤。其四，其他：這其中包括幾大類，可以有垂直的移動、俯視、仰視、遠(yuǎn)攝、近攝等。

2. CBIR技術(shù)的展現(xiàn)狀

CBIR主要是指圖像檢索技術(shù)，是針對圖像來進(jìn)行實踐分析和信息理解的，它的主要圖像檢索形式分為兩大部分，一是視覺特征：主要包括形狀、空間、顏色、紋理關(guān)系等。二是語言特征，包括對象語義、抽象語義等。兩者都是有關(guān)圖像技術(shù)研究的重點。其中顏色嚴(yán)格來說是一種視覺信息傳遞，相對來說具有比較穩(wěn)定和簡單，容易理解的特點。對于各種形式的變化、旋轉(zhuǎn)、形變都有很強的伸縮性。在現(xiàn)今所有檢索系統(tǒng)當(dāng)中，它的運用程度可以說得上是最廣泛之一。其用到最多的表現(xiàn)手段分為顏色布局法、中心矩法、直方圖法、顏色對直方圖法等，在這當(dāng)中直方圖法運用的范圍是最廣的。最后是關(guān)于紋理方面的一些簡單定義和描述，由于其目前處于發(fā)展和完善階段，還沒有一個較為具體的定義，大多數(shù)人認(rèn)為紋理元素是具有一定規(guī)律性質(zhì)的排列組合，其中會涉及到一些形狀較為簡單，具有重復(fù)性質(zhì)的區(qū)域，都把它當(dāng)作為紋理元素的之一。紋理的含義是比較偏向于視覺感受，一些技術(shù)開發(fā)人員根據(jù)其所表達(dá)的特點進(jìn)行了幾十年的研究，已經(jīng)提出了許多見解和方法，例如空間域能量法、灰度差分統(tǒng)計法、共生矩陣法等。

3. CBVR技術(shù)及其發(fā)展現(xiàn)狀

3.1 視頻對象分割

引入視頻對象的引入是MPEG-4的理念，基于對象是其主要功能。但由于發(fā)展原因，目前還沒有一個具體的方法去從視頻序列中提取視頻對象，大多數(shù)用戶還是需要根據(jù)自身的研究和一些具有特定模式的算法來進(jìn)行運用。以至于國內(nèi)外大多數(shù)學(xué)者都分別發(fā)表了自己對于視頻對象分割的各種看法，主要可以分為兩大類：時空域信息聯(lián)合的分割方法和基于時域信息的運動分割。

時空域信息聯(lián)合的分割方法是如何運用的做出了詳細(xì)見解。我們可以把它理解為把視頻以像素的形式分解而成的時空塊，要對時間和空間進(jìn)行雙方面考慮。它的中心含義是需要將圖像區(qū)域分割引進(jìn)到對象分割中，其中會受到區(qū)域合并的影響而有所不同。其次就是時空對象分割算法，它也是由諸多法則組合而成：貝葉斯法、區(qū)域跟蹤法、運動相似性法等。區(qū)域分割上去對時空對象進(jìn)行分割必須要建立在運動相似性的基礎(chǔ)上，從區(qū)域運動相似性上去將圖像區(qū)域合理的分割的運動對象是計算區(qū)域的特征。還有一種叫聚類算法，它是在區(qū)域分割形式上來進(jìn)行對象分割的，而貝葉斯時空對象分割法的分層形式是需要通過區(qū)域及來把運動對象進(jìn)行分割的一門核心技術(shù)。還有我們所熟知的圖像區(qū)域，它包含有紋理、形狀、顏色等各方面的特點。以區(qū)域運動來對計算區(qū)域進(jìn)行合理估算是它的主要運動特征，運動特征和圖像特征雙方的共同分割對象都是要建立在時空貝葉斯對象分的算法上。而最后所說到的是區(qū)域跟蹤，它的主要特點是根據(jù)時間軸上的某一塊區(qū)域的運動性質(zhì)來進(jìn)行搜索，將某個時間段進(jìn)行預(yù)測，以區(qū)域時空間關(guān)系來入手，用分割視頻對象的方式對區(qū)域的時間進(jìn)行利用。

3.2 視頻特征提取

高層的語義特征以及底層的視覺特征都是視頻特征的分支，其中有關(guān)紋理、空間、顏色、形狀這一系列的底層視覺特征，我們把它當(dāng)做和圖像特征提取的方法來一樣看待就可以了，雙方都是同樣的理念，而其中最為重要的就是視頻的運動特征。

和有關(guān)圖像和視頻的內(nèi)容，我們都需要從它在時間軸上的變化形式來進(jìn)行判斷，這些都是反應(yīng)視頻數(shù)據(jù)最主要特征是運動的由來，它可以輔助我們對視頻進(jìn)行解析和了解。其次對視頻運動信息進(jìn)行合理的描繪有諸多方法。其中最主要的幾種是：運動活力屬性，它主要是用來對視頻內(nèi)容的運動程度進(jìn)行描繪的，還有目標(biāo)跟蹤描述局部運動等，而MPEG-7統(tǒng)一對以上幾種方法進(jìn)行了一定的描述。

最重要的是解鎖視頻數(shù)據(jù)的方法一直處于摸索中，如果是僅依靠運動信息來去運用的話，所達(dá)到的效果不盡人意。根據(jù)總結(jié)，絕大多數(shù)時候它需要與視覺信息特征去配合才能發(fā)揮意想不到的好效果。

3.3 視頻索引技術(shù)

對視頻數(shù)據(jù)進(jìn)行分析，通常可以建立兩種索引形式。第一種則是對目標(biāo)或運動物體等語義基元的索引，這一種索引方式內(nèi)容比較復(fù)雜，在提取完后還需要去進(jìn)行注釋。第二種是基于視覺特征的索引，這一類相對提取比較簡單，從關(guān)鍵幀中就可以去完成。

對視覺基元所包含的含義進(jìn)行索引是要建立在視覺特征的基礎(chǔ)上，一些科技人員通過對語言符號進(jìn)行過分析和發(fā)表過自己的看法。把符號組成傳遞的信息看作是視覺基元的基本含義，把底層視覺特征定期進(jìn)行檢查，以及對它們的組合形式去自動提取含義就理所應(yīng)當(dāng)了。比如紋理、形狀、顏色等視覺特征，我們就可以把它化為模型化當(dāng)做多維特征的點，其中還包括點訪問法這種索引形式，在實際運用當(dāng)中對于表達(dá)性質(zhì)所包含的特征數(shù)量和距離就是點訪問法的核心理念，其中絕大部分在性能方面。它所包含的特征數(shù)量在超過10時都會呈下降趨勢，所以先映射到低維空間，再對高維數(shù)據(jù)進(jìn)行索引才是合理辦法，領(lǐng)域相關(guān)性小是視覺特征最主要的特點?；谶@一特點。在對視頻特征進(jìn)行索引時，可以將它運用到不同領(lǐng)域的視頻當(dāng)中，運用圖像處理技術(shù)和分析技術(shù)去從視頻中進(jìn)行提取也是視覺特征所包含的特點之一。

其次對語義特征進(jìn)行索引又是不同的方式，它主要是要將目標(biāo)進(jìn)行圍繞的語義基元和有關(guān)視頻元素?fù)诫s的含義，還可以把它當(dāng)做查詢圖中提取去做比較，其中所涉及到的專業(yè)知識技術(shù)非常復(fù)雜和廣泛，它的視頻內(nèi)容和相關(guān)知識需要具有一定專業(yè)技能的人才才能去合理運用，總的來說，這個運動索引的提取過程是相當(dāng)復(fù)雜的。

3.4 視頻檢索技術(shù)

對視頻數(shù)據(jù)進(jìn)行解析的時候，我們要先認(rèn)識它的概念。它除了圖像信息之外，同時還對時間和空間運動等信息有包含，在視頻檢索技術(shù)發(fā)展的途中，人們通常認(rèn)為它是信息檢索領(lǐng)域中一直讓人頭疼的一個問題。經(jīng)過研究人們發(fā)現(xiàn)的主要原因是在時空信息方面的理解和描繪相當(dāng)有限，缺少一定的實踐工具。在對視頻進(jìn)行解鎖的途中，對于人的感知存在和有關(guān)底層信息的獲取存在一定的差異，在線研究數(shù)據(jù)上體現(xiàn)的主要原因，其中包括三大類：視頻中出現(xiàn)的片段、如何定位鏡頭、相似性檢索、相似的片段檢索，其中運用的最多的使特征檢索。

如何分辨視頻跟圖像的區(qū)別，通過運動的特征來進(jìn)行分析是最有效的，所以在展開有關(guān)視頻索取的工作的同時，絕大部分都會注意力放在運動特征上。在對特征進(jìn)行提取時，我們一定要先對全局運動有所了解和估計，以此來減弱對視頻運動的印象。通過群體運動來對攝像機運動進(jìn)行合理的消除，在對一些事物進(jìn)行分析時?？梢酝ㄟ^幀差法去調(diào)整。

3.5 缺乏專業(yè)的知識人才和培訓(xùn)計劃

視頻處理技術(shù)嚴(yán)格意義上來說屬于高新技術(shù)領(lǐng)域，對人才的需要和技術(shù)的考量有著非常嚴(yán)格的要求。所以就目前我國國內(nèi)情況來看，缺少一定的專業(yè)性和實用性的知識人才。導(dǎo)致有關(guān)視頻技術(shù)處理方面無法有效進(jìn)展。同時應(yīng)該對從事該領(lǐng)域的相關(guān)工作人員進(jìn)行適當(dāng)?shù)呐嘤?xùn)和提升，從加強其基礎(chǔ)專業(yè)技能為目標(biāo)，最終為我國關(guān)于視頻處理技術(shù)研究提供一份力。

4. 國內(nèi)外視頻檢索現(xiàn)狀

國內(nèi)外把CBVR的系統(tǒng)運用都做出了不同詮釋，其中國外把它則當(dāng)為重點項目來進(jìn)行研究，而目前的發(fā)展形勢來看，國外已經(jīng)對CBVR系統(tǒng)進(jìn)行了多年的研究，已經(jīng)有非常完善的系統(tǒng)體系了。麻省理工學(xué)院相關(guān)的研究團隊已經(jīng)研究出了photo book系統(tǒng)，已經(jīng)可以基本的對視頻檢索和特征進(jìn)行有效的運用了。而IBM公司對于視頻檢索技術(shù)也進(jìn)行了有效的時間探析，做研發(fā)的QBIC系統(tǒng)也是用來作為商用服務(wù)的，它包含的價值信息是基于內(nèi)容的形式下對信息檢索系統(tǒng)的代表。還有一些比較著名的大學(xué)，比如卡耐基梅隆大學(xué)，它們已經(jīng)研究出了IDVL項目，與此同時還有哥倫比亞大學(xué)，所研發(fā)出來的video Q系統(tǒng)在發(fā)展過程中竟然還有諸多不完善的地方，對于商業(yè)價值和需求還達(dá)不到目標(biāo)。但是把它當(dāng)做參考意義來說是非常值得的，具有一定的商業(yè)價值。

在有關(guān)視頻文字識別、視頻分段自然語言處理、語言分析、人臉檢測等各個方面的知識，都是卡耐基梅隆大學(xué)所發(fā)明的IDVL系統(tǒng)中的內(nèi)容，其中的內(nèi)容大部分的包括了視頻資料的檢索，相對來說其包含的商業(yè)價值和信息量來說是非常完善的，而哥倫比亞大學(xué)的video Q系統(tǒng)在對主題瀏覽信息的查詢途徑和方法上進(jìn)行了有效創(chuàng)新和升級，同時對于關(guān)鍵字進(jìn)行了有效的擴充。讓客戶在信息系統(tǒng)使用的過程中，可以對時空關(guān)系和視覺特征來有效檢索。

而在國內(nèi)對于視頻技術(shù)處理的內(nèi)容檢索還存在著一定的差距，從技術(shù)人員到基礎(chǔ)設(shè)備和發(fā)展理念上都還需要完善和加強，還有非常長的道路要走。目前還處于一個探索的階段。主要有著初步的理念和設(shè)計方法。在其中一些較為專業(yè)和具有規(guī)模性質(zhì)的CBVR應(yīng)用系統(tǒng)上，還是存在著較大的技術(shù)缺陷的，在與國外研究團隊和人才進(jìn)行對比時還有差距。所以我們需要正確的認(rèn)識到自身的不足，抱著學(xué)習(xí)的態(tài)度進(jìn)一步來提高自身的技術(shù)水平，進(jìn)一步加強相關(guān)的技術(shù)研究和系統(tǒng)開發(fā)。

5. 結(jié)語

根據(jù)總結(jié)，關(guān)于視頻處理技術(shù)的有關(guān)檢索技術(shù)在我國還處于上升的發(fā)展?fàn)顟B(tài)，還有非常多可以進(jìn)步和提升的地方?？傮w來說還處于一個初級階段，目前我們只是在對某些算法上表達(dá)了自己的看法和做出了一定的實踐設(shè)計，但在有關(guān)相應(yīng)的操作系統(tǒng)和完整的體系方面，還存在著一定的缺陷。所以我們需要從培養(yǎng)人才的角度和提升專業(yè)知識進(jìn)行培訓(xùn)教學(xué)方面都應(yīng)該下更多功夫，經(jīng)過不懈的努力和研究來獲取更大的效果。

參考文獻(xiàn)：

[1]余時強，張錚，張為華.近似重復(fù)視頻檢索方法研究[J].電子技術(shù)應(yīng)用，2016，5：24-26.

[2]黃鶴，孟廣仕.一種基于內(nèi)容的視頻檢索系統(tǒng)設(shè)計[J].科技創(chuàng)新與應(yīng)用，2015，1：53.

[3]鄭銀環(huán).基于內(nèi)容的視頻檢索技術(shù)研究[D].2010.

[4]武獻(xiàn)宇，夏樹偉.基于內(nèi)容的視頻處理和檢索技術(shù)[J].科技情報開發(fā)與經(jīng)濟，2007（13）：234-236.

作者簡介;楊光明，四川綿陽人，工程師，碩士研究生，單位：四川九州電子科技股份有限公司，研究方向：視頻處理技術(shù).