韓爭艷,魚蘇立,劉 斌,張小強,田程軍,曾 強
(中國移動通信集團陜西有限公司,陜西 西安 710000)
互聯(lián)網(wǎng)電視為用戶提供海量高清視頻內(nèi)容。如何實現(xiàn)個性化推薦、內(nèi)容精準投放,如何高效管理和檢索視頻內(nèi)容,值得從業(yè)者思考。傳統(tǒng)的采用文本、圖像等要素的檢索技術已經(jīng)不能滿足互聯(lián)網(wǎng)海量內(nèi)容管理需要,不能夠精準搜索、個性化推送高清視頻內(nèi)容。為推動和促進互聯(lián)網(wǎng)電視業(yè)務蓬勃發(fā)展,基于內(nèi)容的視頻檢索解決方案成為視頻檢索技術熱點研究對象。
基于內(nèi)容的視頻檢索是通過分析視頻內(nèi)容的特征信息來概況描述視頻內(nèi)容[1],實現(xiàn)視頻內(nèi)容的快速識別、精準檢索,不僅能提供互聯(lián)網(wǎng)海量內(nèi)容分類、搜索,千人千面地個性化推送,還可以提高互聯(lián)網(wǎng)視頻資源的利用效率,對互聯(lián)網(wǎng)電視業(yè)務發(fā)展產(chǎn)生積極影響。
從20 世紀90 年代初期開始,通過描述和總結視頻內(nèi)容關鍵要素實現(xiàn)視頻檢索技術方面的研究取得很多成果。受到技術和條件等各方面限制,當時主要采用手工設計各類特征來提取視頻中的信息,如顏色直方圖、形狀描述符等。
基于內(nèi)容的視頻檢索技術是通過分析視頻內(nèi)容特征要素,提取視頻內(nèi)容的關鍵特征信息實現(xiàn)對視頻內(nèi)容的檢索。隨著大數(shù)據(jù)、智能計算、人工智能(Artificial Intelligence,AI)算法的發(fā)展和使用,基于內(nèi)容的視頻檢索技術向自動化和智能化檢索方向發(fā)展[2]。目前,基于內(nèi)容的視頻檢索的研究重點在于視頻特征提取技術、相似度計算算法和索引技術等方面。
視頻檢索總體分為視頻、場景、鏡頭及圖像幀4 個數(shù)據(jù)結構。關鍵幀是能呈現(xiàn)鏡頭中主要內(nèi)容信息的圖像幀。分析各關鍵鏡頭,提取鏡頭中的關鍵幀,然后利用關鍵幀把鏡頭內(nèi)容精準展示出來。確定關鍵幀的數(shù)量是提取關鍵幀環(huán)節(jié)中重要環(huán)節(jié),通過統(tǒng)計鏡頭中每幀的差異計算方差,然后通過方差來分析、判斷鏡頭內(nèi)容的復雜度和差異度等要素。
視頻特征提取是基于視頻內(nèi)容并從中提取出能夠描述視頻內(nèi)容的特征信息視頻檢索核心技術。通過分析視頻圖像顏色、圖形形狀、線條紋理及運動動態(tài)等方式提取視頻特征。其中,顏色特征可以通過直方圖、顏色矩等方法來提取,紋理特征可以通過局部二值模式、小波變換等方法來提取,形狀特征可以通過邊界描述符、尺度不變特征變換等方法來提取,運動特征可以通過光流、動作描述符等方法來提取。隨著機器視覺領域研究的不斷深入,深度學習技術逐漸成為視頻特征提取的主要方法。
視頻特征分析對視頻進行后處理,以提取低級別特征,如鏡頭變化率和類型、光流級別、移動和客觀特征,如出現(xiàn)在幀中的對象、人體動作、設置、事件以及抽象特征(如美學)等。提取的客觀和抽象特征在這里被稱為視頻標簽。
基于圖像的特征提取是將視頻中的每一幀都看作一張圖片,對每幀進行圖像處理,提取出圖形上具有代表性的特征,如圖形顏色、線條紋理及形態(tài)等。
運動是視頻數(shù)據(jù)中最明顯的特征,基于運動的特征提取是指從運動數(shù)據(jù)中提取出有意義的特征,以便進行運動動態(tài)分析和分類識別等任務。因此,基于運動的特征提取也是分析視頻內(nèi)容特性的關鍵技術手段。
視頻中的聲音也是視頻特征提取的要素。通過分析視頻中的聲音,可以提取出如音高、節(jié)奏及語音識別等方面的特征。
相似度計算將視頻之間的相似度相似的視頻歸為一類,方便用戶查找相關視頻。通常,相似度計算方法有歐式距離、余弦相似度、海明距離等,此外還有一些基于分類、聚類的相似度計算方法,如支持向量機、k 近鄰算法等。在人工智能領域,距離和相似度是基本的概念,它們在機器視覺和自然語言處理等領域有舉足輕重的應用,這些概念絕大多數(shù)源于數(shù)學領域的測度度量等概念[3]。下面介紹常用的相似度計算技術。
歐式距離能夠計算多維空間中兩個點之間的絕對距離,也就是數(shù)學計算中兩點之間的直線距離。歐氏距離可以應用在各個業(yè)務領域。當數(shù)據(jù)結構每個點數(shù)據(jù)集中而且數(shù)據(jù)連續(xù)時,通常采用歐式距離進行計算。
余弦相似度是計算兩個向量之間相似性的方法,用于文本數(shù)據(jù)的相似度計算。余弦相似度是從多維空間將兩個向量投影到具體點,計算夾角余弦值。余弦相似度應用在內(nèi)容信息分類、檢索等領域。
海明碼可以檢測和糾錯數(shù)據(jù)傳輸中的誤碼。傳輸數(shù)據(jù)使用海明碼方式進行編碼,在發(fā)送方對原始數(shù)據(jù)進行冗余編碼,得到一個包含冗余信息的編碼數(shù)據(jù),如1011010。假如在數(shù)據(jù)傳輸過程中中斷出錯導致第二位變成了1,那么接收方根據(jù)海明碼就會檢測錯誤,并且根據(jù)冗余信息進行數(shù)據(jù)糾錯,將數(shù)據(jù)恢復為1011。這個過程就是海明碼的工作原理。
索引技術是將視頻中的圖像內(nèi)容轉化為可供檢索的要素信息,方便用戶在海量的視頻內(nèi)容庫中檢索感興趣的視頻文件[4]。常用的索引技術包括倒排索引、哈希索引及樹形索引等。視頻索引的目標是將視頻內(nèi)容轉換成可以被快速查詢的數(shù)據(jù)結構。下面是3 種常見的視頻索引技術。
關鍵幀是能代表視頻圖像中重要事件的重要的幀。通過關鍵幀索引,能提高內(nèi)容關鍵事件檢索效率。鏡頭內(nèi)幀間相似度較高,可以利用圖論、曲線分裂、聚類和奇異值分解的方法提取關鍵幀。這些方法的基本思路是把一幀看成是多維特征空間中的一點,選擇的關鍵幀是點的子集。這些子集能夠概括特征距離內(nèi)其他要素,表明場景形態(tài)。
時間碼是視頻中每一幀的時間標記,標識視頻中每一幀的時間戳。通過對視頻時間戳進行索引,可以實現(xiàn)視頻時間的精準定位。對圖像幀索引時,視頻中每個幀都被賦予唯一性標簽,這些值顯示已記錄的素材總數(shù)或時間戳,就像剪輯時間軸的全球定位系統(tǒng)(Global Positioning System,GPS)。視頻內(nèi)容中的每個幀都被分配全局唯一標識位,通過時間碼索引可以精準查找。通過搜索記錄的圖像幀時間碼可以快速找到視頻內(nèi)容。時間碼是現(xiàn)代數(shù)字視頻索引的原始數(shù)據(jù),是視頻內(nèi)容結合的粘合劑,是視頻內(nèi)容能夠完整連續(xù)播放的根本。
元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),是主要描述數(shù)據(jù)屬性的信息,標識如指示文件記錄、歷史數(shù)據(jù)、存儲位置、資源查找等功能的屬性信息,基于視頻標題、內(nèi)容摘要及熱點關鍵詞等對視頻完成概況描述[5]。通過對元數(shù)據(jù)進行索引,可以快捷找到所需內(nèi)容的視頻。此外,建立基于該元數(shù)據(jù)的搜索索引,可以向使用者提供更強大的搜索解決方案。例如,索引口頭語和人臉可以實現(xiàn)在視頻中查找某人說的某些詞或查找兩個人在一起畫面的搜索體驗?;诖祟愐曨l元數(shù)據(jù)的搜索適用于新聞機構、教育機構、廣播公司等,通常也適用于任何擁有用戶需要搜索的視頻庫的行業(yè)。
隨著科技進步和互聯(lián)網(wǎng)電視不斷發(fā)展變革,基于內(nèi)容的視頻檢索技術發(fā)展的領域,未來研究可以從4 個方向進行深入探討。一,基于深度學習的視頻檢索技術將越發(fā)成熟,如基于各類數(shù)據(jù)模型的視頻特征提取方法。二,基于多模態(tài)信息融合的視頻檢索方法將得到更多的研究,如融合視頻、文本及音頻等多模態(tài)信息來實現(xiàn)視頻檢索。三,基于場景、情感等語義信息的視頻檢索方法將得到更多的關注,如采用情感識別、場景分析等方法來提高視頻檢索的準確性。四,視頻檢索技術在大數(shù)據(jù)環(huán)境下的應用將得到更廣泛的關注,如采用分布式計算、大數(shù)據(jù)分析等方法來實現(xiàn)視頻檢索[6]。
基于內(nèi)容的視頻檢索領域未來將充滿挑戰(zhàn),未來的AI 視頻技術將帶來更多的創(chuàng)新,使視頻制作更加高效、智能和個性化。AI 技術的發(fā)展將推動視頻制作領域不斷發(fā)展和創(chuàng)新,為受眾帶來更加出色的視頻作品。同時需要從業(yè)者不斷探索和創(chuàng)新,未來還有很多需要解決的問題和研發(fā)方向,需要不斷地進行深入研究。