• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Adaboost的視頻文本定位

      2017-04-08 04:01尹芳鄭亮陳田田

      尹芳 鄭亮 陳田田

      摘要:提出了一種基于Adaboost的視頻文本定位的新方法。首先我們提取視頻圖像中的連通域,經(jīng)過(guò)對(duì)視頻文本區(qū)域分析,提取了視頻文本的5類特征,然后利用這5類特征經(jīng)過(guò)分類與回歸決策樹(shù)構(gòu)造了Adaboost強(qiáng)分類器,最后將候選文本區(qū)域送入強(qiáng)分類器,得到正確的文本區(qū)域。實(shí)驗(yàn)結(jié)果表明本方法不僅對(duì)視頻幀圖像中字體、大小和顏色多變的文本具有很好的定位效果而且還實(shí)現(xiàn)了視頻文本定位要求的快速性和準(zhǔn)確性的特點(diǎn)。

      關(guān)鍵詞:文本定位;文本識(shí)別;連通域;強(qiáng)分類器;分類與回歸決策樹(shù)

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1007-2683(2017)01-0103-06

      0 引言

      隨著多媒體網(wǎng)絡(luò)技術(shù)的發(fā)展,大量的視頻進(jìn)入了人們的學(xué)習(xí)、生活和工作當(dāng)中。然而視頻中的文本信息作為一種重要的語(yǔ)義信息,對(duì)視頻的理解、分析和檢索有著重要的作用。視頻文本識(shí)別主要包括兩步。第一步,對(duì)視頻幀中的文本進(jìn)行定位;第二步,獲取文本定位區(qū)域中的文本信息。然后將獲取的文本信息送入到OCR或利用其他的文本識(shí)別技

      最近幾年,不少視頻文本提取的相關(guān)算法應(yīng)運(yùn)而生。Li等通過(guò)利用混合小波神經(jīng)網(wǎng)絡(luò)對(duì)16×16像素塊的視頻幀進(jìn)行檢測(cè);Zhong和Crandall利用文本圖像在垂直和水平方向亮度的變化規(guī)律在8×8的DCT壓縮域直接實(shí)現(xiàn)了文本檢測(cè)。但是基于塊的方法在文本定位不夠精確。數(shù)學(xué)形態(tài)學(xué),角點(diǎn)檢測(cè)和邊緣檢測(cè)也是大多學(xué)者經(jīng)常采用的方法。工作人員在制作視頻時(shí),對(duì)于具有文本的區(qū)域,往往使其前景與背景具有鮮明的對(duì)比度,在頻域上這種對(duì)比度表現(xiàn)為高頻特征,而在空域上可以通過(guò)角點(diǎn)和邊緣點(diǎn)來(lái)表現(xiàn),因此角點(diǎn)和邊緣檢測(cè)經(jīng)常是文本定位采用的方法。例如,Hua等人先利用SUSAN角點(diǎn)檢測(cè)算子獲得視頻幀的角點(diǎn)圖,然后對(duì)角點(diǎn)按照一定的規(guī)律進(jìn)行合并和過(guò)濾最終定位文本區(qū)域。這種方法應(yīng)用起來(lái)比較簡(jiǎn)單,速度較快,但是對(duì)噪聲比較敏感,只能處理背景簡(jiǎn)單的視頻文本。

      近幾年基于Adaboost的學(xué)習(xí)方法也被大量應(yīng)用于文本識(shí)別,并且取得了良好的效果。例如,Chen和Yuille利用文本圖像的X和Y偏導(dǎo)數(shù)、灰度直方圖和邊緣連接特征進(jìn)行Adaboost學(xué)習(xí)實(shí)現(xiàn)文本定位。

      以上方法雖然可以實(shí)現(xiàn)文本定位,但是效果并不理想。由于視頻文本本身的低分辨率,復(fù)雜的背景,文本的顏色,字體以及大小多變性等因素使視頻文本定位存在不小的難度。

      1 Adaboost算法

      AdaBoost算法通過(guò)將大量分類能力一般的弱分類器按照一定方法組合起來(lái),構(gòu)成一個(gè)分類能力很強(qiáng)的強(qiáng)分類器。Keams和Valiant已經(jīng)證明,只要有足夠的分類能力比隨機(jī)猜測(cè)好的分類器,就能將組合成誤分率趨于0的強(qiáng)分類器。Adaboost算法根據(jù)每次訓(xùn)練集中各樣本的分類是否正確以及上一次的總體分類準(zhǔn)確率來(lái)確定每個(gè)樣本的權(quán)值,將修改權(quán)值的新數(shù)據(jù)送給下層分類器進(jìn)行訓(xùn)練,然后將每次訓(xùn)練得到的分類器融合起來(lái),作為最后的決策分類器,實(shí)現(xiàn)對(duì)目標(biāo)的搜索檢測(cè)。

      假設(shè)輸入n個(gè)訓(xùn)練樣本:{x1,y1},{x2,y2},…,{x2n/sub>,yn},其中yi={0,1},i=1,2,…,n;0表示假樣本,1表示真樣本。已知訓(xùn)練樣本中有a個(gè)假樣本和b個(gè)真樣本,則第.j個(gè)生成的簡(jiǎn)單分類器如式(1)所示。

      (1)其中:hi表示簡(jiǎn)單分類器的值;θi表示閾值;pi表示不等號(hào)的方向,只能取±1;fi表示特征值,j=1,2,…,n。

      步驟1:初始化誤差權(quán)值,對(duì)于yi=0的假樣本,W1,i=1/2a;對(duì)于yi=1的真樣本,W1,i=1/2b;

      步驟2:For t=1,2,…,T,其中T為訓(xùn)練的次數(shù);

      2)對(duì)每個(gè)特征j,循環(huán)生成相應(yīng)的弱分類器hj,計(jì)算相對(duì)于當(dāng)前權(quán)重的誤差:

      (2)

      3)選擇具有最小誤差εj的弱分類器ht加入到強(qiáng)分類器中去;

      4)更新每個(gè)樣本所對(duì)應(yīng)的權(quán)重;

      (3)

      步驟3:形成強(qiáng)分類器為

      (4)

      Adaboost算法相比于其他機(jī)器學(xué)習(xí)算法所具備的優(yōu)點(diǎn):第一,構(gòu)造一個(gè)弱分類器比直接構(gòu)造一個(gè)高精度的強(qiáng)分類器簡(jiǎn)單的多;第二,不會(huì)過(guò)度擬合,不會(huì)隨著迭代次數(shù)的增加而降低其泛化能力。

      2 候選區(qū)域檢測(cè)

      候選區(qū)域生成的主要任務(wù)是提取圖像中的連通區(qū)域。其中包括文本區(qū)域和非文本區(qū)域。然后將這些連通域送入利用Adaboost生成的強(qiáng)分類器。從而將連通區(qū)域中的非文本區(qū)域剔除,最終得到準(zhǔn)確的文本區(qū)域。

      2.1 灰度化處理

      文進(jìn)行邊緣檢測(cè),首先將彩色的視頻幀圖像灰度化,以減少后續(xù)圖像處理計(jì)算量。

      灰度化處理的方法有,最大值法、平均值法和加權(quán)平均值法,最大值法產(chǎn)生的灰度圖像亮度過(guò)高,平均值法產(chǎn)生的灰度圖像過(guò)于柔和,所以本文采用加權(quán)平均值法將視頻幀圖像灰度化,首先如式(5)給每個(gè)像素的R、G、B分量賦予權(quán)值,然后取得3個(gè)分量的加權(quán)平均值

      R=G=B=(WR×R+WG×G+WB×B)/3 (5)其中WR、WG、WB分別是R、G、B的權(quán)值,根據(jù)先驗(yàn)知識(shí),其中WR=0.30、WG=0.59、WB=0.11得到的灰度圖像較為合理,即:

      Vgray=R=G=B

      =(0.30R+0.59G+0.11B)/3 (6)

      實(shí)驗(yàn)結(jié)果比較如圖1所示。

      2.2 邊緣檢測(cè)

      為了能給讀者提供有關(guān)視頻的信息及幫助理解,視頻文本大多是疊加的,而且一般會(huì)與背景有較大的對(duì)比度。因此本文根據(jù)梯度特征來(lái)獲得文本區(qū)域邊緣。

      依賴于圖像梯度的邊緣檢測(cè)方法根據(jù)X、Y方向?yàn)V波器計(jì)算梯度估計(jì)的不同分為不同類型,例如Robeas算子、Sobel算子和Prewitt算子等。本文通過(guò)實(shí)驗(yàn)比較,選擇Sobel算子。

      Sobel算子是一種離散性差分算子,與Roberts算子相比,它能夠在噪聲情況下精確定位圖像邊緣方向的差分。它利用水平卷積因子和垂直卷積因子(8),在橫向x和縱向y方向上對(duì)圖像G(x,y)做平面卷積,得到亮度差分:

      (7)

      (9)設(shè)定閾值T,提取大于閾值T的點(diǎn)作為邊緣點(diǎn)。

      實(shí)驗(yàn)結(jié)果如圖2所示。

      3 基于Adaboost的視頻文本定位

      3.1 總體系統(tǒng)設(shè)計(jì)

      整個(gè)系統(tǒng)分為預(yù)處理,特征提取和基于Ada-boost強(qiáng)分類器3部分,如圖3所示。

      其中CART(classification and regression trees)即分類與回歸決策樹(shù),是運(yùn)用二元遞歸分割的過(guò)程來(lái)分析大數(shù)據(jù)集。因具有具有分類速度快、精度高、較其他模型更容易理解等優(yōu)點(diǎn),被選為本系統(tǒng)Ada-boost的基本弱分類器(即Adaboost with CART)。

      3.2 預(yù)處理

      現(xiàn)有視頻類型及播放工具多種多樣,因此所采集的視頻圖像也是大小不一。本系統(tǒng)為了將大小不同的數(shù)字圖像縮放到統(tǒng)一標(biāo)準(zhǔn),首先進(jìn)行邊界掃描,確定圖像的大小,然后利用差值算法,將圖像縮放為64×32,為分類做好準(zhǔn)備。圖像尺寸選擇主要考慮圖像的變化關(guān)系為2n,n為正整數(shù);同時(shí)由于文字形狀一般為長(zhǎng)方形結(jié)構(gòu),因此在保證形狀不失真的情況下盡可能縮小尺寸,以減少計(jì)算量,提高處理速度。

      3.3 特征提取

      特征提取是視頻定位系統(tǒng)的重要部分,本文為構(gòu)建分類與回歸決策樹(shù)的Adaboost強(qiáng)分類器提供了5類特征。

      3.3.1 Gabor特征

      視頻文本的筆畫(huà)特征豐富且表現(xiàn)出一定的周期性,本文將視頻文本看作一種特殊的紋理,利用Gabor濾波器提取文本特征。本文利用二位Ga-bor濾波器進(jìn)行分析,其函數(shù)如下定義:

      (10)

      3.3.2 連通性分析

      1)文本尺寸特征。文本區(qū)域在整幅圖像中通常占有一定的比例,文本區(qū)域的大小通常通過(guò)文本區(qū)的寬高信息來(lái)表示。設(shè)S(cc)表示連通區(qū)面積,S(pic)表示整個(gè)圖像區(qū)域的面積,w(cc)和h(cc)分別表示區(qū)域的寬高,MinWH表示最小長(zhǎng)寬,S_Ratio表示面積比,其中:

      (11)

      (12)

      2)文本區(qū)域的邊緣密度特征。筆畫(huà)是構(gòu)成文本的單位元素,因此文本區(qū)域具有很強(qiáng)的邊緣密度(Edge_Density)。假設(shè)P(cc)為邊緣像素點(diǎn)的數(shù)量,則:

      (13)

      結(jié)合先驗(yàn)知識(shí),實(shí)驗(yàn)時(shí)閾值定義為MinWH>8,0.050.2。

      3.3.3 筆畫(huà)密度

      文本筆畫(huà)以,π/2,π/2,3π/4,π4個(gè)方向?yàn)橹鳎仪熬芭c背景間存在較大差異。根據(jù)此特性,在亮底暗字的正向文中,利用式(14)計(jì)算筆畫(huà)強(qiáng)度,而對(duì)于暗底亮字的負(fù)向文本將其進(jìn)行反色,統(tǒng)一為正向文本進(jìn)行處理。

      (14)

      (15)式中:p=0,1,2,3表示π/4,π/2,3π/4,π這4個(gè)方向;W表示筆畫(huà)寬度上限;fp(q+1)表示p方向上與點(diǎn)q距離為j的像素點(diǎn)的灰度值。

      筆畫(huà)特征表示4個(gè)方向上筆畫(huà)特征的最大值,用式(16)表示:

      DEp(q)=max(op3){DEp(q)}

      (16)

      對(duì)筆畫(huà)特征圖做二值化處理,采用Otsu求得閾值,即:

      (17)這種方法對(duì)筆畫(huà)均勻的文字區(qū)域具有較好效果。

      3.3.4 紋理統(tǒng)計(jì)特征

      紋理統(tǒng)計(jì)是文本定位的常用方法,本文使用4種紋理特征來(lái)區(qū)分文本區(qū)域和非文本區(qū)域。設(shè)p(i,d,j,θ)為特征圖像中點(diǎn)(i,j)關(guān)于距離d和方向θ分離的聯(lián)合概率,則能量、熵、對(duì)比度和逆差距4種紋理統(tǒng)計(jì)特征定義如下:

      能量:E(d,θ)=Ei,jp2(d,θ)

      熵:H(d,θ)=Ei,jP2(d,θ)logp(d,θ)

      對(duì)比度:I(d,θ)=Ei,j(i-j)2p(d,θ)

      3.3.5 圖像的X,Y導(dǎo)數(shù)的方差和期望

      Chen和YuiHe使用X-Y導(dǎo)數(shù)的平均值和標(biāo)準(zhǔn)差提取文本特征。對(duì)于文本圖像,X方向的偏導(dǎo)數(shù)具有極小值,而Y方向的偏導(dǎo)數(shù)具有極大值,根據(jù)X偏導(dǎo)數(shù)的極大值和極小值來(lái)進(jìn)行區(qū)域分割,然后計(jì)算被分割區(qū)域的方差和期望作為特征。

      本文利用這5類特征生成弱分類器,通過(guò)Ada-boost進(jìn)行結(jié)合,生成一個(gè)精度較高的強(qiáng)分類器。

      3.4 基于Adaboost的強(qiáng)分類器構(gòu)建和實(shí)驗(yàn)結(jié)果分析

      3.4.1 數(shù)據(jù)庫(kù)的構(gòu)建

      目前還沒(méi)有統(tǒng)一標(biāo)準(zhǔn)的視頻文本數(shù)據(jù)庫(kù),本文在自建視頻文本數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)。在網(wǎng)絡(luò)上共搜集了300幅圖像,其中包括新聞、電影和廣告等視頻文本圖像,圖像中的文本大多數(shù)為中文,還有少量的英文和數(shù)字,并且這些文本在尺寸,顏色,對(duì)比度以及字體方面都有所不同。從300幅圖像中選出200幅圖像作為訓(xùn)練樣本,其余100幅圖像作為測(cè)試樣本測(cè)試本文提出的文本定位方法的效果及泛化能力。訓(xùn)練中的正樣本是通過(guò)手動(dòng)標(biāo)記圖像中的文本區(qū)域獲得的,負(fù)樣本是通過(guò)程序?qū)Ρ尘皥D像隨機(jī)抽取得到的。實(shí)驗(yàn)過(guò)程中共采集1 860個(gè)正樣本和8 000個(gè)負(fù)樣本作為Adaboost分類器的訓(xùn)練樣本,正、負(fù)樣本的部分圖像如圖4。

      3.4.2 基于Adaboost的強(qiáng)分類器構(gòu)建

      為了給正負(fù)樣本分配恰當(dāng)?shù)臋?quán)值,我們使用了非對(duì)稱Adaboost的方法,通過(guò)改進(jìn)經(jīng)典Adaboost算法,定義弱分類器為

      (18)其中m=1…M,M為迭代的次數(shù)。設(shè)置迭代次數(shù)M為100。

      從1 860個(gè)正樣本和8 000個(gè)負(fù)樣中提取5類特征集,并利用這些特征集構(gòu)建了一個(gè)最大深度為4的分類與回歸決策樹(shù)。樹(shù)的每個(gè)節(jié)點(diǎn)都是Ada—boost弱分類器,而節(jié)點(diǎn)后繼分支表示文本區(qū)域和非文本區(qū)域?qū)傩缘目赡苤怠W罱K結(jié)果是由最終的Ad—aboost強(qiáng)分類器輸出。

      利用正確率p(提取出的正確文本區(qū)域/提取出的區(qū)域)、召回率r(提取出的正確文本區(qū)域/總文本區(qū)域)及其兩者的調(diào)和平均數(shù)f(正確率×召回率×2/(正確率+召回率))作為評(píng)價(jià)的性能指標(biāo)。利用100幅檢測(cè)樣本圖像,對(duì)5類特征集的分類性能作了比較,如圖5所示。

      盡管每個(gè)分類器的分類性能并不佳,但是經(jīng)過(guò)分類與回歸樹(shù)的Adaboost算法合并后,表現(xiàn)出了強(qiáng)大的分類性能。

      3.4.3 實(shí)驗(yàn)結(jié)果分析

      為了體現(xiàn)方法的優(yōu)越性,采用同樣的訓(xùn)練樣本訓(xùn)練了SVM(支持向量機(jī)),并利用同組測(cè)試樣本進(jìn)行兩者分類性能的比較。兩者對(duì)同一圖像的實(shí)驗(yàn)結(jié)果部分圖像如圖6,結(jié)果比較如表1。所用100幅測(cè)試樣本包括視頻疊加文本和場(chǎng)景文本,在這100個(gè)樣本中,人工標(biāo)注197個(gè)文本行。

      通過(guò)表1可以看出本文提出的方法不管在準(zhǔn)確率還是召回率上都是優(yōu)于使用基于SVM分類器的效果的。并且在實(shí)驗(yàn)過(guò)程中,在同樣的機(jī)器上本文方法的執(zhí)行效率也比基于SVM方法的分類器的執(zhí)行效率高。這也恰恰滿足了視頻文本定位快速性的特別要求要求。

      本文使用100幅圖像作為測(cè)試樣本,測(cè)試結(jié)果準(zhǔn)確率達(dá)到73%。由于訓(xùn)練樣本有限,通過(guò)增加訓(xùn)練的次數(shù),提高文本定位的準(zhǔn)確率和召回率。

      4 結(jié)論

      本文基于Adaboost算法將視頻文本定位問(wèn)題轉(zhuǎn)化為二分類問(wèn)題,將多個(gè)弱分類器組合成一個(gè)強(qiáng)分類器,實(shí)現(xiàn)了對(duì)視頻文本的定位。并且在視頻文本定位的正確率、實(shí)時(shí)性和泛化能力上取得了良好的效果。但是,在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)系統(tǒng)對(duì)噪聲比較敏感,所以在訓(xùn)練的后期階段對(duì)去噪方面集中了不少注意力,因此我們?cè)谶x取樣本時(shí),應(yīng)該選取更加全面的樣本,以解決這一問(wèn)題。

      (編輯:溫澤宇)

      建瓯市| 金门县| 陵川县| 九龙坡区| 顺义区| 凤翔县| 井研县| 邻水| 商河县| 平定县| 昌邑市| 昭平县| 古浪县| 龙里县| 洪洞县| 东辽县| 五大连池市| 丽江市| 双柏县| 榆中县| 吴旗县| 根河市| 珲春市| 鸡西市| 江山市| 盐边县| 隆子县| 邮箱| 泾阳县| 巢湖市| 伊金霍洛旗| 通化市| 湘潭市| 尉氏县| 土默特右旗| 印江| 天峨县| 新巴尔虎右旗| 定西市| 中西区| 黄冈市|