• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      視頻圖像中文本檢測和提取技術(shù)研究

      2016-10-21 21:25:23姜嘯
      科學(xué)與財富 2016年9期
      關(guān)鍵詞:字符識別

      姜嘯

      摘要:近年來,隨著寬帶網(wǎng)絡(luò)技術(shù)、新型多媒體技術(shù)和信息通信技術(shù)的飛快發(fā)展,我們步入了一個嶄新的互聯(lián)網(wǎng)時代。面對日益增長的視頻和圖像資源數(shù)據(jù),如何有效快速的在海量的數(shù)據(jù)中檢索和訪問到我們所需要的信息變得十分有意義。視頻資源中包含豐富的語義信息和視頻關(guān)鍵內(nèi)容,為此,對視頻圖像中文本檢測和提取成為本文研究主題。

      關(guān)鍵詞:數(shù)學(xué)形態(tài)學(xué);文本定位;自適應(yīng)閾值分割;字符識別;模板匹配

      一. 引言

      近些年來,科學(xué)技術(shù)的更新速度不斷加快,科學(xué)方法日益創(chuàng)新。與此同時,多媒體數(shù)據(jù)庫和多媒體信息檢索的發(fā)展使得視頻、音頻和圖像在我們的生活中扮演著越來越重要的角色。面對海量的視頻和圖像資源,有效快速的在海量的數(shù)據(jù)中檢索和訪問[1]到我們所需要的信息變得十分有意義。正在此背景下,解決上述問題產(chǎn)生的視頻圖像文本檢測成為熱點,因此本文開始對此展開研究。

      二. 視頻圖像中文本分類

      視頻圖像中的文本根據(jù)是否進(jìn)行過后期制作所嵌入的文本或者根據(jù)圖像的層次和維數(shù)可將其分為場景文本和人工文本(也稱疊加文本或圖形文本)兩大類。

      場景文本是被攝影機(jī)或攝像機(jī)隨當(dāng)時場景捕獲到的文本,場景文本存在于場景中,是場景的一部分。如汽車車牌、交通路標(biāo)、商店名稱、街道指示牌等等。

      人工文本是在后期制作嵌入的文本圖形,在編輯階段被整合到視頻圖像中。這類文本主要有新聞視頻中標(biāo)題綱要和時間,影視作品中的人物對白字幕、旁白字幕、片頭和片尾;廣告宣傳和體育賽事中直播的比分信息等等。

      三. 視頻圖像中文本的特點

      通過分析我們得知視頻圖像有如下幾個方面的特性:

      1.幾何特性:

      (1)字體大?。?/p>

      視頻圖像中字體大小不一,但在理想過程中,視頻圖像內(nèi)的文本不會超過屏幕的一半范圍。視頻中的文本,由于背景的動態(tài)干擾和時間的局限,文本大小一般不會太小。

      (2)排列方式:

      文本可以出現(xiàn)在視頻幀圖像的各個地方,可以按任意方式排列,但通常都是水平或豎直方向排列,而且還會集中在某一部分,例如像新聞電視的標(biāo)題等。雖然有些文字方向可能改變,但是為了確保觀看效果,都會連續(xù)幾幀圖像相同,例如像電視廣告等。

      (3)文本間隙(字符間隔)

      通常,在一行的文本,文本間隙會保持統(tǒng)一,具有相同的間距。幾乎不會連在一起。

      2.顏色特性

      為了便于觀看,文本的顏色通常會與背景畫面形成較強(qiáng)的對比,同一部分的文本顏色應(yīng)該具有相同或相似的顏色。

      3.運動特性

      在視頻場景中的場景文本由于攝像的移動而發(fā)生運動,而且規(guī)律不定;人工文本則考慮到更好的為人們觀看,相同內(nèi)容的人工文本會持續(xù)幾幀。

      四. 視頻圖像處理

      (一)視頻載入

      MATLAB軟件自帶的圖像視頻處理工具箱VideoReader函數(shù)能方便的獲取視頻的幀數(shù)等屬性信息,也可獲得相應(yīng)的圖像序列。read 函數(shù)實現(xiàn)對視頻文件的讀取。

      (二)視頻幀提取

      通過MATLAB中VideoReader函數(shù)獲取視頻文件信息后,在GUI界面進(jìn)行顯示。其中最為重要的是對視頻進(jìn)行分幀處理,調(diào)用函數(shù)VideoReader進(jìn)行if循環(huán),并將視頻幀圖像進(jìn)行臨時保存到本地。

      采用while循環(huán)語句,進(jìn)行幀圖像的讀取,當(dāng)變量值改變的時候,保存當(dāng)前幀圖像。該圖像即為所選擇的待處理圖像。

      (三)圖像灰度化和二值化

      1. 圖像灰度化

      數(shù)字圖像可以分為灰度圖像和RGB圖像(真彩圖像)。圖像中的每一個像素都是由R、G、B三個分量按不同數(shù)值構(gòu)成。如果三個分量相等,則表示為一種灰度色,即圖像灰度化為使R、G、B三個分量相等的過程。

      2. 圖像二值化

      灰度化圖像的二值化處理在圖像處理過程中不僅能使工作量減小,還能夠突出目標(biāo)圖像的邊界,以便后續(xù)的分析。在圖像進(jìn)行二值化前需要對圖像進(jìn)行灰度直方圖分析,以此為基準(zhǔn)選取合適閾值,當(dāng)灰度大于所選閾值像素會被劃為目標(biāo),其灰度值為255,否則為0。

      (四)圖像數(shù)學(xué)形態(tài)學(xué)

      圖像在經(jīng)過了灰度化和二值化的處理過程中,導(dǎo)致會丟掉一些邊緣像素,為了使其達(dá)到更好的效果,對二值化處理的圖像進(jìn)行數(shù)學(xué)形態(tài)學(xué)的填充或溶解。數(shù)學(xué)形態(tài)學(xué)的應(yīng)用,可以簡化數(shù)據(jù),取消非相關(guān)結(jié)構(gòu),提高了速度。數(shù)學(xué)形態(tài)學(xué)的最基本運算主要有四種:膨脹操作、腐蝕操作、閉運算(開啟)和開運算(閉合)。

      五. 視頻圖像文本區(qū)域定位

      文本定位算法主要有以下幾種:

      1. 基于區(qū)域的文本定位:此方法也被稱為基于連通區(qū)域的文本定位方法,一般情況下,視頻圖像中的文本的像素點具有相同或相似的顏色,而且文本的顏色和背景的顏色差別很大。因此可以根據(jù)這一特點來分割圖像[2],通過顏色聚類等方法提取連接成分。再通過啟發(fā)式規(guī)則進(jìn)一步篩選,最終得到文本區(qū)域。

      2. 基于邊緣的文本定位:基于邊緣的文本定位主要是利用背景色和文本顏色的對比度或者是根據(jù)文本邊緣找出文本的位置。

      3. 基于紋理的文本定位:基于紋理的文本定位方法是根據(jù)文本區(qū)域的獨特特征和紋理而產(chǎn)生的。文本的紋理特征是文本的特定排列方式、文本顏色和背景色出現(xiàn)周期性變化。

      4. 基于學(xué)習(xí)的文本定位:基于學(xué)習(xí)的定位算法通常有兩大類:支持向量機(jī)和基于神經(jīng)網(wǎng)絡(luò)。視頻圖像中文本顏色和背景顏色都是多變的,色彩信息是隨機(jī)不夠定的。如果只考慮到文本區(qū)域的固有特征會造成局限,因此我們考慮到用一種學(xué)習(xí)的方法來對其進(jìn)行分離。

      本文中介紹了基于區(qū)域、基于邊緣、基于紋理和基于學(xué)習(xí)的文本定位四種算法,這幾種方法都具有各自的優(yōu)缺點。前兩種方法算法相對簡單,比較容易實現(xiàn);第三種方法算法復(fù)雜,增加系統(tǒng)的負(fù)擔(dān);最后一種方法過程復(fù)雜,需要的時間較長,它達(dá)到的效果也相對較好。因此為了彌補(bǔ)上述方法的不足,都會結(jié)合在一起使用,以達(dá)到更好的效果。

      六. 文本識別

      圖像經(jīng)過了上述的預(yù)處理和文本定位等處理后,便得到了待識別文本區(qū)域。文本識別過程主要有字符切分和歸一化、字符的特征提取和字符模板匹配。

      字符切分分為確定字符邊界和單字符切分。傳統(tǒng)字符分割方法主要有兩種,第一種是基于投影的字符分割,此方法根據(jù)文本字符間距的投影出現(xiàn)峰谷交替的特征來將圖像分為單元塊;另一種為基于識別的方法,它利用一個可變窗口將文本區(qū)域進(jìn)行切分為成多種單元序列組合,最后通過識別引擎確定合適的切分序列。

      字符歸一化是通過一定的算法將已切分的字符進(jìn)行變換,使之成為大小尺寸相同的文字單元,字符歸一化對后續(xù)字符的特征提取有很大意義。

      模板匹配是目前比較常見的一種方法,模板匹配是在檢測前有已知的目標(biāo),然后利用此模板和待識別的圖像進(jìn)行匹配。它是利用模板,取目標(biāo)與模板相似程度最大者作為最后的輸出結(jié)果。

      七. 總結(jié)

      本文在現(xiàn)有研究的基礎(chǔ)上主要對視頻幀圖像中文字的檢測、定位、識別方法和實現(xiàn)手段展開研究。課題研究的重點主要為視頻幀的截取、圖像預(yù)處理、圖像文本定位、圖像字符分割、字符模板庫的創(chuàng)建和字符匹配及識別六個方面。在視頻幀的提取上,采用MATLAB自帶的圖像視頻處理工具箱中相關(guān)函數(shù)對視頻文件進(jìn)行分幀處理,獲得視頻相應(yīng)的幀圖像序列。在圖像預(yù)處理方面,一是對彩色圖像進(jìn)行灰度化處理,二值化處理。二是對圖像進(jìn)行形態(tài)學(xué)運算,對其進(jìn)行處理后,可減少噪聲干擾對圖像的影響。在文本定位方法的選取上,本文采用了掃描法。圖像字符分割采用閾值分割算法。字符模板庫的創(chuàng)建和字符匹配及識別運用的模板匹配法是圖像處理中最為常用的一種,通過已知的標(biāo)準(zhǔn)模式庫和圖像切割字符進(jìn)行灰度值比較,以此獲得最佳匹配字符。

      參考文獻(xiàn)

      [1] 徐鵬,視頻圖像中文字提取方法研究:[碩士學(xué)位論文],天津大學(xué),控制科學(xué)與工程,2012。

      [2] 楊磊,視頻圖像中的文字提取技術(shù)研究:[碩士學(xué)位論文],華南理工大學(xué),信號與信息處理,2013。

      猜你喜歡
      字符識別
      一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
      基于深度學(xué)習(xí)法的視頻文本區(qū)域定位與區(qū)別
      基于深度學(xué)習(xí)法的視頻文本區(qū)域定位與區(qū)別
      基于自動智能分類器的圖書館亂架圖書檢測
      一種基于OpenCV的車牌識別方法
      儀表字符識別中的圖像處理算法研究
      基于數(shù)據(jù)挖掘技術(shù)的圖片字符檢測與識別
      紙幣冠字號提取的方法研究
      機(jī)號定位算法設(shè)計的應(yīng)用研究
      科技傳播(2016年4期)2016-03-25 00:15:01
      基于CUDA和深度置信網(wǎng)絡(luò)的手寫字符識別
      徐水县| 贵溪市| 常德市| 宁强县| 科尔| 衡阳县| 保康县| 维西| 伊金霍洛旗| 吴川市| 于田县| 乌兰察布市| 亚东县| 土默特右旗| 应城市| 阿尔山市| 桐柏县| 永兴县| 古蔺县| 城市| 和林格尔县| 黄平县| 乌鲁木齐县| 晋州市| 西乌| 昌都县| 牟定县| 古蔺县| 西乡县| 奎屯市| 都江堰市| 韶关市| 宝丰县| 乌拉特中旗| 恩施市| 泰宁县| 永仁县| 卢氏县| 镇赉县| 米泉市| 盐源县|