熱依汗古麗·卡森木,木特力鋪·馬木提,吾爾尼沙·買買提, 阿力木江·艾沙,庫(kù)爾班·吾布力+
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046; 2.新疆大學(xué) 網(wǎng)絡(luò)與信息中心,新疆 烏魯木齊 830046)
作為OCR[1](光學(xué)字符識(shí)別)系統(tǒng)的重要組成部分,文種識(shí)別技術(shù)尤其是多文種識(shí)別技術(shù)近來(lái)受到越來(lái)越多的關(guān)注[2]。韓興坤等[3,4]認(rèn)為對(duì)于具有相似性的語(yǔ)言文種,單一的紋理特征是不能夠詳細(xì)體現(xiàn)圖像的紋理,提出了基于NSCT子帶紋理特征融合的多文種文檔圖像文種識(shí)別方法,平均準(zhǔn)確率為99%。布阿加姑麗等[5]針對(duì)11種文檔圖像提取均值、標(biāo)準(zhǔn)差、熵等6種紋理特征進(jìn)行加權(quán)融合,在自建的兩個(gè)數(shù)據(jù)庫(kù)中進(jìn)行實(shí)驗(yàn),識(shí)別率分別為99.38%和95.69%。李順等[6]提出了基于離散曲波變換的文種識(shí)別,在包含10個(gè)文種共10 000幅圖片中進(jìn)行實(shí)驗(yàn),最終識(shí)別率為99.25%。
近年來(lái)通過(guò)學(xué)者們的不懈努力,基于紋理特征的文種識(shí)別技術(shù)取得了很大的進(jìn)步,但是已有的文獻(xiàn)中都存在文檔圖像庫(kù)中文種的類別不夠豐富的問題。隨著國(guó)家提出的一帶一路戰(zhàn)略的穩(wěn)步推進(jìn),世界各國(guó)之間的經(jīng)濟(jì)、貿(mào)易、文化等也有了頻繁的交流,這對(duì)印刷體文檔圖像的文種識(shí)別帶來(lái)了更大的機(jī)遇和挑戰(zhàn),為了解決這方面的問題,本文提出了基于Ridgelet變換的多文種文檔圖像多文種識(shí)別方法,通過(guò)對(duì)圖像進(jìn)行脊波變換來(lái)提取多文種文檔圖像的紋理特征,并使用KNN、線性判別分析等多個(gè)分類器對(duì)來(lái)特征進(jìn)行訓(xùn)練和分類,尋找最佳的分類器和閾值,實(shí)現(xiàn)文檔圖像的多文種識(shí)別。
目前大部分圖像中有大量的紋理特征表現(xiàn)比較突出,小波變換不能達(dá)到最優(yōu)的逼近,為了克服小波這種不足Candes等提出了多尺度變換——Ridgelet變換[7],又能夠稱為脊波變換,其對(duì)于直線奇異的多變量函數(shù)能夠?qū)崿F(xiàn)不錯(cuò)的逼近性能,即對(duì)于紋理特征豐富的圖像,Ridgelet可以獲得比小波更加稀疏的表示。Ridgelet變換的主要步驟是使用Radon變換將多個(gè)方向的線性奇異性映射為某個(gè)點(diǎn)的奇異性,接著刻畫點(diǎn)的奇異性,主要用一維的小波變換來(lái)實(shí)現(xiàn),最終具體體現(xiàn)圖像中直線或曲線奇異性等重要特征。由此,小波變換較適用于表示孤立的點(diǎn)奇異性目標(biāo),脊波變換適用于體現(xiàn)直線奇異性。這就是多尺度Ridgelet,其Ridgelet變換原理如圖1所示。
圖1 Ridgelet變換原理
其中一維小波變換為
(1)
首先,用Radon變換將不同方向的線奇異性映射為點(diǎn)的奇異性,其Radon變換為
(2)
接著,然后用一維小波變換來(lái)刻畫點(diǎn)的奇異性,最終得到Ridgelet變換
(3)
用Ridgelet變換后會(huì)得到N*M的脊波系數(shù)矩陣,組成特征向量,對(duì)此進(jìn)行提取能量特征。
現(xiàn)有文種識(shí)別方法在標(biāo)準(zhǔn)文檔圖像庫(kù)建立的基礎(chǔ)之上,對(duì)文檔圖像進(jìn)行預(yù)處理操作,主要包括:噪聲去除、灰度化等;進(jìn)行圖像的特征提??;對(duì)所提取的特征進(jìn)行訓(xùn)練,實(shí)現(xiàn)分類結(jié)果。其流程框架如圖2所示。
圖2 文種識(shí)別流程
首先是收集這9種文字的書本、報(bào)紙等紙質(zhì)版資料。其中有一些在圖書館較難找到的文種如:像吉爾吉斯斯坦文等一部分文檔圖像是從官網(wǎng)上下載打印之后再通過(guò)掃描儀得到,樣本圖像大小為256×256,分辨率為200 dpi,通過(guò)裁剪工具裁剪得到同樣大小標(biāo)準(zhǔn)的文檔圖像樣本,建立實(shí)驗(yàn)所需的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),對(duì)準(zhǔn)備好的標(biāo)準(zhǔn)文檔圖像進(jìn)行去燥、灰度化、二值化等預(yù)處理,進(jìn)行特征提取并保存。保存好的特征向量用本文所選的分類器進(jìn)行訓(xùn)練和分類。
對(duì)文檔圖像的預(yù)處理是個(gè)尤為重要的階段,預(yù)處理對(duì)圖像文種識(shí)別效果有著直接的影響,用掃描儀把不同文字掃描成圖片形式將其以bmp形式保存,各文檔圖像樣本如圖3所示。
圖3 部分實(shí)驗(yàn)樣本
由于掃描過(guò)程中掃描的紙質(zhì)圖像文檔的樣本顏色上有些不同,為了解決這類問題,要對(duì)文檔圖像進(jìn)行預(yù)處理。
本文的預(yù)處理主要分為灰度化和二值化,灰度化采用加權(quán)平均法,二值化采用OSTU(最大類間方法)法,二值化后的圖像減小了背景像素的干擾,能夠更好提取圖像的特征,提高文種識(shí)別率。
2.1.1 灰度化
在圖像處理上,通常需要灰度化使其變?yōu)榛叶葓D,以減少后續(xù)計(jì)算量。彩色圖像有R、G、B這3個(gè)顏色通道,圖像灰度化就是將三通道的彩色圖像變?yōu)閱瓮ǖ赖幕叶葓D像。灰度化采用加權(quán)平均法,在計(jì)算時(shí),求出3個(gè)通道的求出平均值,將此平均值作為對(duì)應(yīng)灰度圖像的像素值,計(jì)算公式如式(4)所示
f(i,j)=0.30×R(i,j)+0.59×G(i,j)+0.11×B(i,j)
(4)
2.1.2 二值化
對(duì)原始的文檔圖像進(jìn)行灰度化處理后,還會(huì)留有灰色的背景信息,會(huì)對(duì)后期圖像特征提取產(chǎn)生一定的影響,為了避免影響特征提取部分需要進(jìn)行對(duì)文檔圖像進(jìn)行二值化[8],圖像二值化對(duì)后期的識(shí)別有直接的影響,文檔圖像二值化指的是把文檔圖像上的像素點(diǎn)的灰度值設(shè)置為0或255,將整個(gè)文檔圖像呈現(xiàn)出明顯的黑白效果的過(guò)程,也就是說(shuō)讓文檔圖像變得簡(jiǎn)單從而得到數(shù)據(jù)的處理和壓縮量上的減少,有利于凸顯出文檔圖像的輪廓。其灰度值為255表示其表示的是我們的文檔圖像的背景是白色,灰度值為0其表示文檔圖像上的文字的黑色。
二值化后的圖像如圖4所示。
圖4 圖像二值化效果
對(duì)大小為256*256,bmp格式的原始文檔圖像進(jìn)行Ridgelet變換,通過(guò)變換以后得到256*256大小的脊波系數(shù)矩陣,對(duì)系數(shù)進(jìn)一步進(jìn)行分析并利用脊波系數(shù)提取脊波能量特征,實(shí)驗(yàn)過(guò)程中對(duì)每1*256的系數(shù)矩陣提取一維能量特征得到的實(shí)驗(yàn)結(jié)果最優(yōu),所以從文檔圖像脊波系數(shù)矩陣共得到256維脊波特征向量,其能量特征公式如下
(5)
n,k為矩陣的大小。
基于小波變換[9,10]的識(shí)別方法,其本質(zhì)就是通過(guò)3級(jí)小波分解得到9個(gè)不同的細(xì)節(jié)子圖,根據(jù)對(duì)每個(gè)細(xì)節(jié)子圖能量特征、同一尺度的比例特征的計(jì)算,最終獲取十八維度的能量特征。一張大小N*N的文檔圖像的平均能量定義為
(6)
細(xì)節(jié)子圖的小波平均能量定義為
(7)
局部二值模式(local binary pattern,LBP)算法的原理圖如圖5所示。
圖5 LBP原理
LBP[11,12]首先定義一個(gè)3*3的滑動(dòng)窗口,閾值為中心點(diǎn),通過(guò)比較對(duì)應(yīng)像素點(diǎn)的大小來(lái)確定該像素點(diǎn)的二進(jìn)制值,若中心點(diǎn)像素值大于周圍某個(gè)點(diǎn)的像素值,則該點(diǎn)的值賦為0,反之為1。通過(guò)一一對(duì)比,大小為3*3的窗口,除去中心點(diǎn),就產(chǎn)生出8個(gè)二進(jìn)制數(shù),二進(jìn)制數(shù)通常轉(zhuǎn)換為十進(jìn)制數(shù)即LBP碼,共28可能,也就是256種碼序。這樣得到的碼序即是該點(diǎn)的LBP值,它反映該區(qū)域的紋理信息。為了使提取的LBP特征數(shù)據(jù)在文檔圖像產(chǎn)生一定的傾斜角度時(shí)有較好的魯棒性、減少LBP特征數(shù)據(jù)的類別,從而降低特征數(shù)據(jù)計(jì)算復(fù)雜度,本文采用LBP等價(jià)模式來(lái)進(jìn)行對(duì)比實(shí)驗(yàn),這樣特征向量的維數(shù)更少,并且可以減少高頻噪聲帶來(lái)的影響。
2.3.1 KNN分類器
KNN算法[13]是一個(gè)得到大家青睞并成熟的分類算法之一。KNN的主要思想根據(jù)最相近的一個(gè)或者若干個(gè)樣本的類別來(lái)判斷待分類樣本屬于某一個(gè)類別。比如在若干個(gè)樣本在特征空間里的k個(gè)最相近的樣本大多數(shù)歸為一類,那么這樣本也會(huì)被判為屬于該類別。
該算法主要參數(shù)的設(shè)置為K值,如果我們選擇的K值較小,把我們得到的近鄰數(shù)隨著變少,這情況會(huì)導(dǎo)致噪聲過(guò)大,影響分類效果。反過(guò)來(lái)要是選擇的K值過(guò)大,本來(lái)不相似的數(shù)據(jù)也會(huì)混在其中造成噪聲影響識(shí)別率。KNN分類器本文K值選為3使用余弦距離來(lái)計(jì)算相似度
(8)
2.3.2 貝葉斯分類器
貝葉斯分類器算法[14]是來(lái)自于貝葉斯定理,貝葉斯分類器(Bayes classifier,Bayes)的原理是對(duì)于一個(gè)不確定的分類項(xiàng),首先假定在此類別出現(xiàn)的條件下其它類別出現(xiàn)的概率,其中哪個(gè)類別出現(xiàn)概率較大,它就屬于這一個(gè)類別。
其計(jì)算公式如下
(9)
式中:P(D1),P(D2),…,P(Dm) 的值相同,變量x1,x2,……,xn相互獨(dú)立,P(W) 為常數(shù),則有
(10)
2.3.3 線性判別分析分類器
線性判別分析分類器[15](linear discriminant analysis classifier,LDA)是經(jīng)典的分類器,基本思想比較簡(jiǎn)單:給定帶有標(biāo)簽的訓(xùn)練樣本集,設(shè)法將樣本投影到一條直線上,使得同類樣本的投影點(diǎn)盡可能近,異類樣本的投影點(diǎn)盡可能遠(yuǎn)。在使用LDA進(jìn)行分類[16]時(shí),對(duì)樣本進(jìn)行投影,使其映射到相同的直線,根據(jù)映射點(diǎn)的位置確定類別。
其公式如下
(11)
本文實(shí)驗(yàn)平臺(tái)是AMD A8-5600K APU with Radeon(tm)HD Graphics 3.60 GHz處理器、操作系統(tǒng)為Windows7 64位,4 GB內(nèi)存,編譯環(huán)境為MATLAB2016b,所有基于Ridgelet變換多文種文檔圖像文種識(shí)別實(shí)驗(yàn)在此基礎(chǔ)上完成。
本次實(shí)驗(yàn)樣本是通過(guò)對(duì)各類書刊、雜志等掃描后的圖像以BMP形式保存,建立的數(shù)據(jù)庫(kù)包括:英文、中文、阿拉伯文、土耳其文、吉爾吉斯坦文、俄文、國(guó)內(nèi)少數(shù)民族文種(蒙文、藏文、維吾爾文)9個(gè)文種,切割成大小為256*256,bmp格式,分辨率為200 dpi的文檔圖像,每個(gè)語(yǔ)種各1000張共9000張文檔圖像的實(shí)驗(yàn)用數(shù)據(jù)庫(kù),本文文種樣本包括世界主要使用的文種和少數(shù)民族文種。識(shí)別率計(jì)算如下公式
(12)
其中,Nr為該樣本正確分類樣本數(shù),Nt為該文種測(cè)試本數(shù),進(jìn)行實(shí)驗(yàn)時(shí)文檔圖像特征訓(xùn)練集是按不同數(shù)量隨機(jī)選取的,改變訓(xùn)練集數(shù)量,其余的作為測(cè)試集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)分兩個(gè)部分:首先用兩個(gè)經(jīng)典算法分別使用小波和LBP提取預(yù)處理之后的文檔圖像的紋理特征單獨(dú)進(jìn)行實(shí)驗(yàn);再進(jìn)行本文Ridgelet變換的實(shí)驗(yàn)對(duì)比最后的識(shí)別結(jié)果。實(shí)驗(yàn)一律進(jìn)行10次,以10次實(shí)驗(yàn)的平均值作為識(shí)別結(jié)果。本文選取比較常用的KNN分類器,貝葉斯分類器和線性判別分析分類器進(jìn)行分類作對(duì)比。
基于小波變換的文種識(shí)別方法使用不同的數(shù)量訓(xùn)練集得到的文種識(shí)別結(jié)果如圖6所示。
圖6 使用小波特征在不同數(shù)量訓(xùn)練集識(shí)別率
由圖7可知,采用小波變換方法,訓(xùn)練集為500時(shí),在LDA分類器下識(shí)別準(zhǔn)確率能達(dá)到92.45%。隨著訓(xùn)練集變化,整體曲線有波動(dòng),在LDA分類器力訓(xùn)練集數(shù)量從500開始就穩(wěn)步上升最終最高識(shí)別率達(dá)到了92.85%,其次高的是貝葉斯分類器,貝葉斯分類器上最高識(shí)別率達(dá)到了91%以上。
圖7 LBP特征使用不同數(shù)量訓(xùn)練集識(shí)別率
基于LBP特征的文種識(shí)別方法使用不同的數(shù)量訓(xùn)練集得到的文種識(shí)別結(jié)果如圖7所示。
由圖7可知,使用LBP特征在LDA分類器上可以達(dá)到95.20%的最好識(shí)別效果,平均識(shí)別率也達(dá)到了94.47%,而KNN分類器的識(shí)別效果則相對(duì)較差。比較圖7 和圖8可以看出使用LBP特征比使用小波特征的識(shí)別效果高。
圖8 Ridgelet變換特征使用不同數(shù)量訓(xùn)練集
在LDA分類器上平均高出了2.6%。識(shí)別率排第二的是在貝葉斯分類器上平均識(shí)別率達(dá)到了93.20%,隨著訓(xùn)練集數(shù)量的增加,識(shí)別率都能穩(wěn)步提升。
基于Ridgelet變換的文種識(shí)別方法使用不同的數(shù)量訓(xùn)練集得到的文種識(shí)別結(jié)果如圖8所示。
由圖8可知在KNN分類器里面識(shí)別率平均達(dá)到了99.23%,最高識(shí)別率達(dá)到了99.67%,貝葉斯和LDA跟KNN相比識(shí)別率較低,在LDA分類器平均識(shí)別率達(dá)到了96.92%,比小波變換分別提高了8.13%和4.52%,跟LBP相比識(shí)別率分別提高了7.85%和2.45%。在每個(gè)文種的訓(xùn)練樣本數(shù)量在500以下時(shí),識(shí)別率隨著訓(xùn)練集的增加而提高。但只要文種訓(xùn)練集數(shù)量超過(guò)500,每個(gè)分類器的識(shí)別效果都出現(xiàn)了小幅度下降,這是因?yàn)殡S著訓(xùn)練樣本數(shù)量的增加,分類器因?yàn)閷W(xué)習(xí)到了樣本集中的噪聲或者不具有代表性的特征而產(chǎn)生了過(guò)擬合,導(dǎo)致錯(cuò)誤分類。
在Ridgelet變換方法下還是存在錯(cuò)誤分類,以更好驗(yàn)證本文提出的算法對(duì)每個(gè)文種的具體識(shí)別效果,對(duì)9個(gè)文種選取一部分作為訓(xùn)練集,其余部分作為測(cè)試集,訓(xùn)練集和測(cè)試集的比例是按500個(gè)訓(xùn)練、500個(gè)測(cè)試來(lái)進(jìn)行實(shí)驗(yàn)。通過(guò)實(shí)驗(yàn)結(jié)果可以得出錯(cuò)誤分類情況。本文對(duì)基于Ridgelet變換的多文種識(shí)別方法使用KNN分類器進(jìn)行識(shí)別實(shí)驗(yàn),錯(cuò)誤分類樣本分布見表1。
表1 在KNN分類器下Ridgelet變換錯(cuò)誤分類統(tǒng)計(jì)
從表1可知,對(duì)書寫方式和特征結(jié)構(gòu)差異比較大的英文、吉爾斯斯坦文、俄文、蒙文等4種文種來(lái)說(shuō)實(shí)現(xiàn)了無(wú)錯(cuò)誤分類,出現(xiàn)錯(cuò)誤分類比如錯(cuò)誤分類較多的是蒙文屬阿爾泰語(yǔ)系蒙文跟俄文書寫形式較相似因此導(dǎo)致錯(cuò)誤分類,阿拉伯文在分類時(shí)分到了維吾爾文,維吾爾文有個(gè)別字母是跟阿拉伯文的相似,就像中文詞匯里的好多外來(lái)詞匯一樣,但這兩個(gè)文種在字母組合方式有差異。
下面列出了Ridgelet變換和其它兩個(gè)經(jīng)典算法的各自所提取的特征維數(shù)N、特征提取時(shí)間T、3種方法的識(shí)別效率來(lái)進(jìn)一步驗(yàn)證本文方法的有效性,其結(jié)果見表2。
從表2可知3種不同的識(shí)別方法其維度與時(shí)間性能不同基于小波變換的方法特征維數(shù)較低,計(jì)算用時(shí)較短,在消耗時(shí)間方面跟其它兩個(gè)算法相比較快。LBP變換后,得到的系數(shù)矩陣較大,所以在計(jì)算難度上較大,時(shí)間較長(zhǎng)。本文提出的Ridgelet變換方法,特征維數(shù)跟LBP方法同樣是256,但Ridgelet變換系數(shù)矩陣結(jié)構(gòu)簡(jiǎn)單,計(jì)算速度快,識(shí)別率跟其它兩個(gè)經(jīng)典算法對(duì)比識(shí)別率較高。小波變換特征提取時(shí)間最短,由于其算法的局限性,只能提取3個(gè)方向的特征。LBP方法在使用LDA分類器時(shí),其效果相對(duì)較好,其準(zhǔn)確率達(dá)到了95%左右。基于Ridgelet變換的文種識(shí)別方法在使用KNN分類器時(shí),得到的分類效果好于其它兩個(gè)分類器,平均文種識(shí)別率達(dá)到了99.23%。Ridgelet變換提取的圖像的紋理特征比小波變換和基于LBP的方法提取的特征更加豐富,對(duì)圖像細(xì)節(jié)的描述更加具體,因此對(duì)多文種文檔圖像的文種識(shí)別效果更好。
表2 識(shí)別效率比較
本文提出了一種基于Ridgelet變換的多文種文檔圖像文種識(shí)別方法,在Ridgelet變換后得到其系數(shù)矩陣,并從中提取能量特征,得到特征向量。選用KNN、貝葉斯,LDA等3個(gè)分類器用于特征訓(xùn)練和分類,在前期工作中建立的含有9個(gè)文種的文檔圖像數(shù)據(jù)庫(kù)分別為英文、中文、阿拉伯文、土耳其文、吉爾吉斯坦文、俄文、國(guó)內(nèi)少數(shù)民族文種(蒙文、藏文、維吾爾文),每個(gè)文種有1000張總9000張,實(shí)驗(yàn)數(shù)據(jù)對(duì)每個(gè)文種不同數(shù)量樣本進(jìn)行實(shí)驗(yàn),選小波變換和LBP作為對(duì)比實(shí)驗(yàn),從實(shí)驗(yàn)結(jié)果可知Ridgelet變換在KNN分類器里面效果最佳,在此分類器里平均識(shí)別率達(dá)到了99.23%,數(shù)據(jù)庫(kù)采集時(shí)存在掃描儀和采集的數(shù)據(jù)樣本本身的一些格式,噪聲等問題,實(shí)驗(yàn)結(jié)果均顯示該方法提取文檔圖像紋理特征的有效性,由于提取的特征位數(shù)較高所以特征提取時(shí)間跟對(duì)比方法相比中等,對(duì)于相似性文種的分類效果還有待提高,在今后的研究中繼續(xù)深入研究這幾個(gè)方面問題。