李雅靜 丁海洋
收稿日期:2023-04-17
基金項目:國家自然科學基金(61370188);北京市教委科研計劃(KM202010015009,KM202110015004);北京印刷學院科研創(chuàng)新團隊項目(Eb202101);北京印刷學院重點教改項目(22150121033/009);北京印刷學院科研基礎研究一般項目(Ec202201);北京印刷學院博士啟動金項目(27170120003/020,27170122006)
DOI:10.19850/j.cnki.2096-4706.2023.21.019
摘? 要:當前網絡視頻中充斥著涉及敏感信息的內容且不易識別,提出了一種基于最大穩(wěn)定極值區(qū)域和字典樹的視頻字幕敏感詞過濾算法,達到對此類視頻內容過濾、處理的目的。該方法采用MSER算法對文字進行檢測與定位,來獲得候選文字區(qū)域,然后通過使用幾何和筆畫寬度屬性來減少這些可能區(qū)域的數量,再經過幾何過濾的方法對候選區(qū)域進行篩選、優(yōu)化,連接候選區(qū)域以獲得文本區(qū)域,最后利用字典樹算法進行敏感詞過濾。實驗結果表明,該方法可以有效地對視頻字幕敏感信息進行檢測和過濾。
關鍵詞:最大穩(wěn)定極值區(qū)域;文字檢測;視頻圖像;文字定位;敏感詞過濾
中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2023)21-0080-06
Video Subtitle Sensitive Word Filtering Algorithm Based on MSER
LI Yajing, DING Haiyang
(School of Information Engineering, Beijing Institute of Graphic Communication, Beijing? 102600, China)
Abstract: At present, network videos are full of content involving sensitive information and are not easy to identify, and a video subtitle sensitive word filtering algorithm based on the maximum stable extremal region and dictionary tree is proposed to achieve the purpose of filtering and processing such video content. This method uses MSER algorithm to detect and locate text to obtain candidate text regions, and then reduces the number of these possible regions by using geometry and stroke width attributes. After the screening and optimization of candidate regions by geometric filtering method, it connects candidate regions to obtain text regions, and finally uses dictionary tree algorithm for sensitive word filtering. Experimental results show that this method can effectively detect and filter video subtitle sensitive information.
Keywords: maximum stable extremal region; text detection; video image; text location; sensitive word filtering
0? 引? 言
智能手機和在線社交媒體的爆炸式增長導致了大量視覺數據的積累。特別是互聯網和社交網絡上大量且不斷增加的視頻集合,例如抖音、微信、QQ、微博等軟件平臺的大量使用,能夠實現信息內容的自由交換與傳播,因此信息內容的來源渠道也更加豐富。同時內容的發(fā)布相對來講也較為隨意,目前大量的違規(guī)字幕充斥其中,尤其是一些帶有反動色彩的信息、色情信息、賭博信息、暴力信息等往往能夠輕而易舉地通過這些軟件和平臺進行傳播。這些不計其數的視頻引發(fā)了多媒體理解和視頻檢索方面的研究活動。所以,有針對性地對信息過濾的方法以及技術開展深入的研究,是絕對有必要的,同時具有極大的現實意義。隨著互聯網時代的發(fā)展,視頻、圖片和文字在網絡社區(qū)環(huán)境中,是十分流行的網絡信息傳播媒介。尤其是短視頻軟件的興起,使得不法分子投機取巧,在視頻當中嵌入敏感詞匯,相較于圖片中的敏感詞匯更不容易察覺。因此為維護網絡社區(qū)環(huán)境的穩(wěn)定,保護網絡社區(qū)環(huán)境,要及時、必要地對敏感內容進行干預。
文本作為視頻中重要而直接的信息來源,在研究中受到越來越多的關注。例如,字幕文本通常做到翻譯或強調等作用,解釋視頻中的事件在何處、何時發(fā)生或涉及的信息。因此,視頻文本的提取和分析在多媒體理解系統(tǒng)中引起了廣泛的關注。近年來,一些研究者通過利用文本視頻來執(zhí)行視頻檢索的研究,并且可以顯著地提高檢索性能。
Jung等人[1]在對圖片和視頻中的文字信息提取技術進行研究后,把該信息提取設計中的基本過程概括為文字檢測、文字定位、追蹤、獲取和增強,以及識別等。Antani等人[2]也將視頻文本提取分為四個任務,在他們的系統(tǒng)中,跟蹤階段向空間-時間決策融合提供附加輸入以改進定位。Elagouni等人[3]設計的視頻文本識別流程圖與之類似,但增加了一個帶有自然語言處理的校正(后處理)步驟。Ye等人[4]提出一種自然場景圖像中文字檢測和識別的方法,該方法將顏色、紋理、OCR等統(tǒng)計特征有機地融合在一起,形成了一種從粗到細的分類框架,實現了文字與非文字的識別。Liu等人[5]提出了一種基于邊緣的多尺度文本提取算法,能夠自動檢測和提取復雜圖像中的文本。針對變形敏感詞,葉情[6]運用改進的Trie樹,并對文本進行預處理操作,達到對變形敏感詞高精度的過濾。
盡管已經進行了大量的研究,但是設計一個通用的視頻字幕敏感詞過濾系統(tǒng)并不容易,視頻當中往往具有復雜的背景,文字也具有多種字體、大小、顏色、方向等特征,使得視頻中文本的檢測和識別極其困難。文中在分析了字幕過濾系統(tǒng)的需求后,結合相關技術和方法設計了一個基于最大穩(wěn)定極值區(qū)域視頻字幕敏感詞過濾系統(tǒng),主要工作如下:
1)對當前國內外圖片敏感信息過濾系統(tǒng)進行了研究,通過對當前國內外互聯網對視頻字幕敏感信息過濾的需求分析,對視頻信息檢測重要性進行介紹,最后分析了視頻文字信息檢測過濾的技術。
2)對視頻字幕敏感信息過濾算法進行研究,對通過視頻字幕信息定位算法、視頻字幕文本識別算法、敏感信息過濾算法分別進行研究。在視頻字幕定位模塊引入了基于最大穩(wěn)定極值區(qū)域的處理方法,最后通過對視頻場景中的語句寬度和復雜程度的綜合考慮,敏感語義分析模塊可以使用輕量級中文分詞算法和字典樹算法實現敏感語義分析。
3)設計了視頻字幕敏感詞過濾系統(tǒng),通過對系統(tǒng)的需求分析架構設計、功能設計,基于前文的視頻字幕的過濾算法,最終設計實現了視頻字幕敏感詞過濾系統(tǒng),可以有效地對視頻中文本進行識別,并對敏感信息過濾。
1? 相關工作分析
一些研究者提出了視頻文本提取的具體框架。例如,劉明珠等人[7]在對視頻圖像進行定位與識別時采用深度學習算法,使用二維Gabor濾波器提取文本特征,二維Gabor濾波器函數定義如下:
(1)
傅里葉變換式:
(2)
將視頻文件通過Gabor濾波器后,對文字在橫、豎、撇、捺四個方向上的紋理特征的進行提取,將提取后的紋理特征作為訓練樣本,通過深度學習算法實現對本文區(qū)域的定位。通過對定位結果的形態(tài)學運算來消除噪聲,然后將其與最初定位后的圖像相對應,從而獲得只含有文字區(qū)域、沒有背景區(qū)域的文字圖像,以便于OCR系統(tǒng)中的字符識別。
而尹芳等人[8]采用一種獨特的方法,采用Adaboost算法生成強分類器,對連通區(qū)域進行篩選,去除非文本區(qū)域。在候選區(qū)域生成部分,采用傳統(tǒng)方法,通過對視頻圖像灰度化、邊緣提取來提取連通區(qū)域。將提取到的連通區(qū)域預處理,特征提取后送入生成的強分類器,得到準確的文本區(qū)域。
宋硯等人[9]將文字提取的方法總結為:文字檢測、文字定位、文字增強、文字切割和文字識別。提出了一種新的視頻字幕提取方法,在文字定位階段,運用多尺度文字定位以及文字區(qū)域精確化方法。之后,利用一種改進的K均值聚類方法,對其中的像素展開聚類,將傳統(tǒng)上需要指定的K的值,替換成一種自適應地選擇類數和初始聚類中心的方法。對每個維度進行等分,根據每個維度中包含的像素數由高到低進行排列。用像素的平均坐標來代表每個箱,創(chuàng)建一個空白的中心表將排列好的箱的首個添加到中心表中,然后剩下的選擇標準為:
(3)
(4)
將第k個箱用一個點表示為ok(x,y,z,f )中心表里箱的數目就作為類數,中心表里箱的中心就作為初始聚類中心。
Shi等人[10]提出了一個用于場景文本識別的圖模型,該模型基于最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions, MSER),將多個信息源整合為一個結構。具體來說,在MSER檢測后,以原始場景的MSER為節(jié)點構建一個不規(guī)則圖,原始圖像被MSER標記為文本或非文本區(qū)域。重點放在MSER標記過程上,保留文本區(qū)域同時去除大量非文本區(qū)域,提出了構造基于MSER的圖模型。構建了一個由節(jié)點和連接這些節(jié)點的無向邊組成的無向圖G = (V, E),假設每個MSER是無向圖中的節(jié)點,并且每個節(jié)點的相鄰節(jié)點滿足下面的公式:
(5)
吳珊等人[11]采用了改進的Trie和DFA過濾算法,利用改進的Trie樹結構對DFA的全部狀態(tài)進行了存儲,從而有效地解決了在敏感詞過濾過程中存在的人為干擾、分詞困難等主要問題。劉偉等人[12]針對復雜背景下圖像中的非規(guī)則文本,提出了一種基于不規(guī)則文本的敏感詞語過濾算法。在此基礎上,提出了一種基于八鄰域標記的連通域定位方法,并利用最小二分法糾正了傾斜文字,利用卷積神經網絡實現了單個字符的識別,將中文分詞和字符串編輯距離應用到了敏感字過濾中。敏感詞過濾針對句子,Hatzivassilo-glou等人[13]提出了一種針對句子當中出現的形容詞的一種主觀層面的分析方法。同時基于這種分析方法,Wiebe等人[14]進一步擴充了判定的因素,例如將不同的詞性更加完整更加系統(tǒng)地納入判定范圍當中,不同的詞語在不同句子當中所處的位置也作為考量的范圍存在。
2? 視頻字幕文本敏感詞過濾算法
2.1? 算法總體設計
視頻中的文本可分類為字幕或場景文本。字幕文本提供視頻的字幕或者注釋,可以更好地理解視頻內容,而場景文本是自然地嵌入在對象(例如,商標和建筑物)上。此外,可以將字幕文本分為兩類:分層字幕文本和嵌入字幕文本。分層字幕文本是打印在專門設計的背景層上,如圖1所示,而嵌入字幕文本覆蓋并嵌入在視頻中,如圖2所示。
視頻中文本提取一般包括三個任務:檢測、定位和識別。檢測與定位主要是判斷視頻幀中是否包含文本區(qū)域,若包含則要確認文字區(qū)域。當前用于文字區(qū)域檢測的方法大致可劃分為四種類型:基于邊緣、基于紋理、基于連通分量、基于深度學習。本文側重于從視頻中提取嵌入式字幕文本。視頻文本提取方法檢測和識別每個采樣的單獨幀中的文本。算法總體結構設計如圖3所示。
系統(tǒng)整體結構分為四部分,分別是:數據輸入、文定定位、文字識別和敏感詞過濾。數據輸入部分是將視頻部分提取出視頻幀的形式,送入系統(tǒng)當中,對視頻幀圖像中的文字部分進行定位。在此部分本文采用的是MSER算法。敏感詞過濾部分采用Trie樹的算法。具體的算法流程如圖4所示。
對輸入的視頻幀圖像進行MSER檢測獲得最大穩(wěn)定極值區(qū)域,對得到的區(qū)域進行過濾得到文本區(qū)域,文字識別后進行敏感詞過濾。其中,文字定位部分十分重要,直接關系到后續(xù)整個文本識別的準確度,若是定位出錯,就是無法準確識別,定位以及敏感詞過濾的具體內容在2.2和2.3節(jié)分別展開介紹。
2.2? 文字定位
這部分采用的MSER算法是Matas等人在2002年提出的,它是一種檢測圖像中文本區(qū)域的圖像算法,主要以分水嶺的概念為基礎,對圖像進行斑點區(qū)域檢測。MSER首先將圖像變換為灰度級圖像,并且進行二值化處理,將閾值設定為[0,255]。當閾值增大時,就會看到一幅全白的圖像,然后,與局部強度最小值相對應的黑點就會出現,并且逐漸變大,在某些位置對應于兩個局部最小值的區(qū)域將合并。隨著閾值的增加,黑色部分會逐漸增大,不斷地成長和合并,直到整個圖像變成黑色。當閾值增大時,“黑點”會逐漸增大,不斷地成長、合并,直至完全變?yōu)楹谏6祱D像的連通區(qū)域面積幾乎不發(fā)生任何改變,甚至沒有變化的,即為最大穩(wěn)定極值區(qū)。在應用閾值時,連接的分量組形成所有區(qū)域的集合。由于在該區(qū)域內的像素與在該區(qū)域之外的像素相比,其強度更高或更低,所以該區(qū)域為極值區(qū)域。對于圖像中的文字區(qū)域灰度值是一致的,且內部的灰度變化都比較小,而背景的灰度變化較大,與其像素灰度值差別大,所以在閾值上升的過程中,不會隨著周圍的區(qū)域合并,所以文字區(qū)域的定位可以使用MSER算法。
最大極值穩(wěn)定區(qū)域的數學定義:定義圖像I是一個映射:
(6)
其中S是全序的,且僅考慮。定義像素間的鄰接關系。且相鄰,當且僅當:
(7)
在區(qū)域的定義上,Q是D的連續(xù)子集,可定義為圖像上滿足鄰接關系的連通子集,即對于任意點p,q ∈ Q,有下式成立:
p,a1,a2,…,an,q? ? ? ? ? ? ? ? ?(8)
pAa1,a1Aa2,…,an Aq? ? ? ? ? ? ? ?(9)
其中a1 ∈ Q,i = 1,2,…,n。定義區(qū)域邊界:
(10)
對于?p ∈ Q和?q ∈ ?Q,有I(p)>I(q)成立,則稱Q為極大值區(qū)域,反之為極小值區(qū)域。讓Q1,Q2,…,Qi-1,Qi是一組相互嵌套的極值區(qū)域,如果其面積變化率:
q(i) = | Qi+Δ - Qi-Δ | / | Qi |? ? ? ? ? ? ? ? (11)
有最小值,則稱Qi極值區(qū)域是最大穩(wěn)定的。
對于剩下的區(qū)域,可以使用SWT(Stroke Width Transform)算法進一步進行判定。利用Canny算子檢測出圖像的邊緣,對邊緣進行提取。根據邊緣上的像素點與筆畫對側的像素點相連,兩像素點梯度的夾角在±π/6,那么兩點之間就構成一個筆畫寬度。通過筆畫寬度變換得到多個連通區(qū)域,在進行過濾,篩去非文本區(qū)域。此階段完成消除部分。之后應用形態(tài)學操作來獲得文本組,對輸入圖像進行二值化,然后用膨脹運算連接字符。
2.3? 敏感詞過濾
由于視頻字幕當中所包含的文字信息內容絕大多數都是以短語、短句的形式存在,因此并沒有采用深度學習這種方法和手段,主要采用的是中文分詞以及字典樹對語義傾向進行檢測和判定。其中本文主要檢測的敏感信息包括:低俗內容、暴力反動等。一般的敏感詞檢測,就是通過文本中是否包含敏感一些特定的敏感詞匯,若是包含就是說明是敏感的,若是不包含則說明不是違規(guī)的。
Trie樹(字典樹)經常被用來產生文本中詞語出現頻率的統(tǒng)計,因為它可以對大量的字符串進行排序和存儲。字典樹可以很好地節(jié)省存儲空間,使用一個共同的前綴,根節(jié)點中沒有字符,每個非根節(jié)點中只有一個字符,字符串對應于從根節(jié)點到特定節(jié)點的路徑。根據上述描述,假設存在的單詞是abcde、abdef、aced、bcdf、bcff、cdaa和a,圖5顯示了構成該單詞的Trie樹結構。
3? 實驗過程
針對以上技術,通過前文對文本識別的研究,分析系統(tǒng)的功能需求,結合文本信息敏感詞過濾算法,實現了視頻字幕敏感詞過濾系統(tǒng)的設計與實現,總體結構設計如圖3所示。
3.1? 字幕定位與識別
MSER對圖像進行二值化,二值化閾值取[0,255],它基本上能找到在很寬的閾值范圍內保持相同的區(qū)域。當應用閾值時,連接的分量組形成所有區(qū)域的集合。這些區(qū)域是極值,因為區(qū)域內的像素具有比區(qū)域外的像素更高或更低的強度。MSER發(fā)現區(qū)域后,經過幾何消去法過濾掉非文本區(qū)域。完成消除后,僅應用形態(tài)學操作來獲得文本組。所有區(qū)域均被白化,對輸入圖像進行二值化。然后用膨脹運算連接字符,最后得到如圖6所示的輸出。
文字識別就是對二值化圖像中的文字進行識別的過程,該步驟采用OCR軟件來完成。
3.2? 敏感詞過濾
對于敏感詞進行過濾,其關鍵的技術就是對文本中的敏感詞進行識別,然后進行過濾處理,為了更好進行敏感詞的過濾,首先需要進行敏感詞庫的構建。本文使用的網絡中使用較多的敏感詞庫,利用敏感詞庫構建一個敏感詞Trie樹。
Trie樹構建的過程,其中假設有n個長度為len的詞,其中是Trie樹的構架的負載度可以設置O(n×len),O(len)表示的就是查找復雜度,利用構建的Trie樹可以實現對敏感詞的快速查找。
將圖片中的文字信息識別出來后,對圖片中的文本信息敏感詞進行過濾,首先是對文本進行分詞,分詞后跟敏感詞庫進行比對,對匹配成功后,就將該詞匯進行星號處理,其結果如圖7所示。
4? 結? 論
近年來,隨著視頻處理技術的飛速發(fā)展,網絡社區(qū)環(huán)境復雜,視頻信息又和大量敏感內容密切結合,解決該現象在網絡上的傳播和發(fā)酵成為維護網絡安全的關鍵。本文在視頻字幕敏感信息識別與過濾上做了一些探索,設計一個通用的視頻字幕敏感詞過濾系統(tǒng),將傳入的視頻文件提取視頻幀送入系統(tǒng),依次采用MSER檢測、SWT過濾和幾何過濾的方法對文本候選區(qū)域進行篩選、優(yōu)化,待文字識別后進行敏感詞過濾操作,實驗結果表明,該方法在視頻文本定位和敏感詞過濾能力上都取得了良好的效果。但是仍然存在一些不足,如處理的速度、檢測的準確率都需要進行優(yōu)化才能推廣應用。
參考文獻:
[1] JUNG K,KIM K I,JAIN A K. Text Information Extraction in Images and Video: A Survey [J].Pattern Recognition,2004,37(5):977-997.
[2] ANTANI S K,CRANDALL D,KASTURI R. Robust Extraction of Text in Video [C]//Proceedings of 15th International Conference on Pattern Recognition.Barcelona:IEEE,2000:831-834.
[3] ELAGOUNI K,GARCIA C,S?BILLOT P. A Comprehensive Neural-Based Approach for Text Recognition in Videos Using Natural Language Processing [C]//Proceedings of the 1st ACM International Conference on Multimedia Retrieval.Trento:ICMR,2011,23:1-8.
[4] YE Q,JIAO J ,HUANG J,et al. Text Detection and Restoration in Natural Scene Images [J].Journal of Visual Communication & Image Representation,2007,18(6):504-513.
[5] LIU X,SAMARABANDU J. Multiscale Edge-Based Text Extraction from Complex Images [C]//2006 IEEE International Conference on Multimedia and Expo.Toronto:IEEE,2006:1721-1724.
[6] 葉情.基于改進Trie樹的變形敏感詞過濾算法 [J].現代計算機:專業(yè)版,2018(33):3-7.
[7] 劉明珠,鄭云非,樊金斐,等.基于深度學習法的視頻文本區(qū)域定位與識別 [J].哈爾濱理工大學學報,2016,21(6):61-66.
[8] 尹芳,鄭亮,陳田田.基于Adaboost的視頻文本定位 [J].哈爾濱理工大學學報,2017,22(1):103-108.
[9] 宋硯,劉安安,張勇東,等.基于聚類的視頻字幕提取方法 [J].通信學報,2009,30(2):136-140.
[10] SHI C,WANG C,XIAO B,et al. Scene Text Detection Using Graph Model Built Upon Maximally Stable Extremal Regions [J].Pattern Recognition Letters,2013,34(2):107-116.
[11] 吳珊,李英祥,徐鴻雁,等.基于改進的Trie樹和DFA的敏感詞過濾算法 [J].計算機應用研究,2021,38(6):1678-1682+1688.
[12] 劉偉,何瑤,仵晨陽,等.一種面向網絡安全的圖像文字敏感詞過濾方法 [J].西安郵電大學學報,2018,23(4):89-93.
[13] HATZIVASSILOGLOU V,WIEBE J M. Effects of Adjective Orientation and Gradability on Sentence Subjectivity [C]//Proceedings of the 18th International Conference on Computational Linguistics.Stroudsburg:ACL,2000:299-305.
[14] WIEBE J,RILOFF E. Finding Mutual Benefit between Subjectivity Analysis and Information Extraction [J].IEEE Transactions on Affective Computing,2011,2(4):175-191.
作者簡介:李雅靜(1999—),女,滿族,河北承德
人,碩士研究生在讀,研究方向:深度學習、數字圖像處理、信息隱藏;丁海洋(1979—),男,漢族,河南鄭州人,副教
授,博士,研究方向:信息隱藏、半色調信息隱藏、數字圖像處理。