趙潔 羅丹 樊李行 曹夢(mèng)琪 耿耀君
摘要:農(nóng)業(yè)科教視頻中的文字內(nèi)容包含了豐富的語(yǔ)義信息,視頻文字自動(dòng)提取對(duì)視頻分析、索引和檢索有著極其重要的作用。在農(nóng)業(yè)科教視頻復(fù)雜的背景下,現(xiàn)有提取方法難以高效準(zhǔn)確地定位并提取文字。本文提出一種基于復(fù)雜背景下穩(wěn)健的農(nóng)業(yè)科教視頻文字提取方法,該算法主要通過視頻解碼、MSER文本定位、投影分割及Tesseract文字識(shí)別實(shí)現(xiàn)視頻文字提取。實(shí)驗(yàn)結(jié)果表明:該方法可以快速提取視頻文本信息,提取精度較高,具有較好的穩(wěn)健性。
關(guān)鍵詞:文字提??;MSER;投影分割;Tesseract
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)06-0129-02
1 引言
隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展,越來(lái)越多的農(nóng)業(yè)科教視頻出現(xiàn)在互聯(lián)網(wǎng)上,但農(nóng)戶如何從海量視頻中快速找到感興趣內(nèi)容是一個(gè)非常值得研究的問題。視頻中的文字與視頻的語(yǔ)義有著密切的關(guān)系,提取視頻中的文字對(duì)視頻內(nèi)容的快速查找有著重要的意義[1]。
近年來(lái),視頻中文字的提取受到了越來(lái)越多關(guān)注,很多國(guó)內(nèi)外學(xué)者已經(jīng)在這方面做了研究。主流方法均包括五個(gè)步驟,分別是:文字檢測(cè)、文字定位、文字增強(qiáng)、文字分割和文字識(shí)別。A.Jain等提出了一種基于文字紋理的頁(yè)面分割算法[2],可以根據(jù)色調(diào)等信息很好的分割出包含文字塊的頁(yè)面;Smith等人提出可以檢測(cè)到某一范圍內(nèi)的文字的算法,具有一定的尺度約束[3]。Li等人通過使用前向神經(jīng)網(wǎng)絡(luò)來(lái)定位視頻中的文字,并使用塊匹配方法跟蹤文字,達(dá)到了很好的效果[4]。國(guó)內(nèi)學(xué)者在視頻文字提取方面也有了很大的突破,宋硯等人提出了一種基于聚類的視頻字幕提取方法,該方法對(duì)于網(wǎng)絡(luò)視頻敏感詞語(yǔ)的檢測(cè)具有很好的效果,中文識(shí)別結(jié)果可以達(dá)到83.11%[5]。
本文提出了一個(gè)農(nóng)業(yè)科教視頻中的文字信息提取算法,實(shí)驗(yàn)證明該算法的文本信息提取精度較高,具有一定的魯棒性。本論文的組成結(jié)構(gòu)如下:第二部分對(duì)所采用的農(nóng)業(yè)科教視頻及方法進(jìn)行了詳細(xì)介紹;第三部分對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了圖表展示以及詳細(xì)的分析;最后對(duì)本文工作進(jìn)行總結(jié)和展望。
2 文字提取方法
農(nóng)業(yè)科教視頻中的文字包含大量的語(yǔ)義信息,如圖1所示。從圖中可知農(nóng)業(yè)科教視頻中的文字大多嵌在復(fù)雜的背景中,增加了農(nóng)業(yè)科教視頻中文字提取的難度。
針對(duì)農(nóng)業(yè)科教視頻的特點(diǎn),本文提出了一種農(nóng)業(yè)科技視頻中文字的提取算法,具體步驟包括:視頻解碼、文本區(qū)域定位、投影分割以及Tesseract文字識(shí)別。
2.1 文本區(qū)域定位
文字提取的前提是文本區(qū)域定位,本論文采用最大穩(wěn)定極值區(qū)域方法(MSER)[6]定位文本區(qū)域,主要步驟為:首先對(duì)圖像進(jìn)行高斯平滑去除噪聲,分別得到灰度圖和反值灰度圖;然后分別使用MSER+和MSER-區(qū)域檢測(cè)算法處理兩個(gè)灰度圖得到兩個(gè)二值化圖像,將二值化圖像進(jìn)行與操作減小檢測(cè)的范圍,再進(jìn)行閉運(yùn)算使各個(gè)文字連接在一起;對(duì)最終得到的區(qū)域進(jìn)行閾值篩選,去除小于一定面積的區(qū)域,篩選后留下來(lái)的區(qū)域即為定位到的文本區(qū)域。
2.2 投影分割
在所提取的文本區(qū)域,使用投影法對(duì)二值化圖片像素的分布直方圖進(jìn)行分析,找出相鄰字符的分界點(diǎn)進(jìn)行分割。具體步驟為:(1)使用數(shù)組來(lái)儲(chǔ)存每一列像素中黑白色像素的個(gè)數(shù);(2)遍歷二值化后的圖片,分別將白色的和黑色的(即數(shù)字區(qū)域)像素記錄在數(shù)組中;(3)根據(jù)數(shù)組里的灰度值畫出投影圖,分割圖像。
2.3 文本識(shí)別
在文本定位和投影分割的基礎(chǔ)上,使用Tesseract實(shí)現(xiàn)文本識(shí)別。Tesseract[7]是一個(gè)開源的OCR引擎,其識(shí)別文本的主要流程為:(1)分析連通區(qū)域,檢測(cè)出字符區(qū)域的區(qū)域輪廓和子輪廓,集成為塊區(qū)域;(2)尋找塊區(qū)域,檢測(cè)出字符輪廓,得到文本行,再得到單字;(3)采用自適應(yīng)分類器,分析單字,進(jìn)行文字識(shí)別。
3 實(shí)驗(yàn)結(jié)果與分析
目前針對(duì)視頻中的文字檢測(cè)算法有很多種比較詳細(xì)的評(píng)價(jià)準(zhǔn)則,比如檢測(cè)難度、文字邊框的檢測(cè)質(zhì)量、檢測(cè)重要性,以及查全率和查準(zhǔn)率等各種指標(biāo)。本論文采用所提取文字的查全率和查準(zhǔn)率來(lái)評(píng)價(jià)視頻文字提取算法的性能,其公式定義如下:
實(shí)驗(yàn)采用寶雞電視臺(tái)《農(nóng)事直通車》的5個(gè)農(nóng)業(yè)科教視頻進(jìn)行測(cè)試,字查準(zhǔn)率和字查全率如表1所示。
實(shí)驗(yàn)結(jié)果表明本論文提出的文字信息提取算法字查準(zhǔn)率可達(dá)89.90%,字查全率可達(dá)85.19%。其中從表1可以看出,使用本論文中的方法,中文字符的查準(zhǔn)率和查全率可分別達(dá)到90.08%和85.69%,英文字符的查準(zhǔn)率和查全率可分別達(dá)到88.89%和82.76%,比宋硯等人提出的基于快速8-連通域標(biāo)記的視頻字幕提取算法的中文識(shí)別率83.11%提高了6.97%。
4 結(jié)論與展望
本文提出了一個(gè)農(nóng)業(yè)科教視頻中文字信息的提取算法,該算法的主要流程是視頻解碼、文本定位、投影分割及Tesseract文字識(shí)別,其中文本定位采用提出的MSER算法。實(shí)驗(yàn)結(jié)果證明該算法文字信息提取的查準(zhǔn)率和查全率較高,具有一定的實(shí)用性。
雖然使用OCR引擎的Tesseract框架可以進(jìn)行視頻字幕的提取,視頻字幕檢索算法也取得了很多重大的突破,但是在檢索準(zhǔn)確率提升的同時(shí),視頻中包含的大量的圖像、文字信息成了制約提取速率的重大瓶頸。如何利用高性能協(xié)處理器,使視頻文字信息提取算法可以進(jìn)行并行計(jì)算是接下來(lái)本實(shí)驗(yàn)可以繼續(xù)優(yōu)化的地方,以期可以高效率、高準(zhǔn)確率的進(jìn)行文字信息的提取。
參考文獻(xiàn)
[1]田破荒,彭天強(qiáng),李弼程.基于文字穿越線和筆畫連通性的視頻文字提取方法[J].電子學(xué)報(bào),2009,37(1):72-78.
[2]Jain A K, Zhong Y. Page segmentation using texture analysis[J]. Pattern Recognition,1996,29(5):743-770.
[3]Smith M. Video Skimming for Quick Browsing based on Audio and Image Characterization[J]. Tech.rep.school of Computer Science Carnegie Mellon University,1995.
[4]Li H, Doermann D, Kia O. Automatic text detection and tracking in digital video[J]. IEEE Transactions on Image Processing, 2000, 9(1):147-56.
[5]宋硯,劉安安,張勇東,等.基于聚類的視頻字幕提取方法[J].通信學(xué)報(bào),2009,30(2):136-140.
[6]Endicott J, Spitzer R L, Fleiss J L. Mental status examination record (MSER): reliability and validity[J]. Comprehensive Psychiatry, 1975, 16(3):285-301.
[7]Smith R, Antonova D, Lee D S. Adapting the Tesseract open source OCR engine for multilingual OCR[C]// International Workshop on Multilingual Ocr. ACM, 2009:1.
Abstract:The text content in agricultural science education video contains rich semantic information.,and the automatic extraction of video text plays an extremely important role in video analysis, indexing and retrieval. Under the complex background of agricultural science and education videos, existing extraction methods are difficult to locate and extract texts efficiently and accurately. This paper proposes a robust agricultural science and education video text extraction method based on a complex background. It realize text extraction by decoding video, localization of text by MSER, projecting and segmenting the text area and text recognition by using Tesseract. Experiments show that this method can quickly locate the video text area, with high accuracy and good robustness.
Key words:text extraction; MSER; projection segmentation; tesseract