• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于音節(jié)切分的藏文印刷體識(shí)別

      2022-10-01 03:47:16才讓當(dāng)知華卻才讓黃鶴鳴
      關(guān)鍵詞:印刷體藏文音節(jié)

      才讓當(dāng)知,華卻才讓+,黃鶴鳴

      (1.青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810008;2.青海師范大學(xué) 藏語(yǔ)智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3.青海師范大學(xué) 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

      0 引 言

      藏文文獻(xiàn)資料非常豐富,但是可用的電子化信息資源非常少。隨著藏文信息處理技術(shù)的發(fā)展,需要對(duì)大量的藏文文獻(xiàn)電子化。人工鍵盤錄入是一項(xiàng)繁重且低效的解決方式,充分利用文字識(shí)別技術(shù)將會(huì)大幅提升藏文文獻(xiàn)電子化的效率,并且把人從繁重的重復(fù)工作中解放出來(lái)。與中文、英文等主流文字相比,藏文印刷體識(shí)別研究起步相對(duì)較晚,缺少高質(zhì)量的標(biāo)注數(shù)據(jù)集,文本圖像的分割相對(duì)困難,因此,印刷體藏文識(shí)別效果相對(duì)較差,落地使用的產(chǎn)品較少。

      在國(guó)內(nèi),印刷體藏文識(shí)別方法已經(jīng)從傳統(tǒng)的特征匹配方法[1],發(fā)展到了現(xiàn)在的基于神經(jīng)網(wǎng)絡(luò)模型的識(shí)別方法,并達(dá)到了應(yīng)用的水平。在國(guó)外,Kojima M.等提出了基于字典匹配的印刷體藏文字識(shí)別方法,可以識(shí)別相似字符[2]。Zach Rowinski等研究了圖像二值化、文本圖像切分、特征提取、識(shí)別等問(wèn)題,開發(fā)了藏文OCR系統(tǒng)NAMSEL[3],該系統(tǒng)首先使用SVM進(jìn)行識(shí)別,之后采用隱馬爾科夫模型對(duì)識(shí)別結(jié)果進(jìn)行微調(diào),完成識(shí)別。

      以上文獻(xiàn)中,都采用字丁作為切分單元,而且每個(gè)文獻(xiàn)報(bào)道的字丁個(gè)數(shù)不同。合法的藏文字丁有1000多個(gè),如果忽略使用頻率極低的字丁,用于識(shí)別的字丁數(shù)遠(yuǎn)小于這個(gè)數(shù)字。公保杰和陳洋在各自開發(fā)的識(shí)別系統(tǒng)中,分別選用了563個(gè)和584個(gè)字丁[4]。以字丁為單元進(jìn)行識(shí)別時(shí),類別數(shù)目少,有利于分類器訓(xùn)練;但缺點(diǎn)也比較明顯:一是相似字丁多,降低了分類性能;二是元音符號(hào)和弱音節(jié)符會(huì)導(dǎo)致字丁之間的筆畫粘連,影響到文本圖像分割,從而影響識(shí)別效果。為了有效解決以字丁為識(shí)別單元引起的缺陷,本文提出了以音節(jié)為識(shí)別單元的藏文印刷體識(shí)別方法。相比于藏文字丁的個(gè)數(shù),藏文音節(jié)的個(gè)數(shù)較多,經(jīng)過(guò)詳細(xì)推算,才丹夏茸認(rèn)為藏文有17 532個(gè)音節(jié);而多拉通過(guò)預(yù)料統(tǒng)計(jì)認(rèn)為藏文有18 088個(gè)音節(jié)[5]。本文中音節(jié)的個(gè)數(shù)為19 450。

      1 預(yù)處理

      受光照不均等環(huán)境因素影響,得到的文本數(shù)字圖像往往存在質(zhì)量較差、受噪聲影響大以及傾斜等現(xiàn)象。為了提高識(shí)別效果,需要對(duì)圖像進(jìn)行二值化、傾斜矯正和規(guī)范化等預(yù)處理。

      1.1 二值化

      本文采用局部自適應(yīng)二值化提取文本的輪廓和邊界信息,主要過(guò)程是:先將圖像平均分成若干塊;然后,分別計(jì)算每個(gè)塊的平均閾值[6];最后,對(duì)圖像進(jìn)行二值化。

      分別用P(x,y) 和p′(x,y) 表示局部自適應(yīng)二值化前后像素 (x,y) 的灰度值,則

      (1)

      式中:閾值T(x,y) 是以 (x,y) 為中心、r為半徑的窗口內(nèi)所有像素的平均值,即

      (2)

      二值化前后文本數(shù)字圖像的效果對(duì)比如圖1所示:由于受光照不均的影響,原圖右側(cè)存在明顯的陰影,如圖1(a)所示;經(jīng)過(guò)局部自適應(yīng)二值化,消除了受光照不均導(dǎo)致的陰影,有利于后續(xù)文本圖像的分割,如圖1(b)所示。

      圖1 局部自適應(yīng)二值化

      1.2 校 正

      傾斜的文本數(shù)字圖像會(huì)導(dǎo)致其中的待識(shí)別字符也存在一定程度的傾斜,影響文本圖像的分割和識(shí)別效果,因此,需要傾斜校正。本文采用霍夫變換進(jìn)行文本圖像的自動(dòng)校正。首先,將圖像平面上的像素點(diǎn) (x,y), 通過(guò)公式

      ρ=xcosθ+ysinθ

      (3)

      映射到參數(shù)空間中,圖像平面上一個(gè)點(diǎn)對(duì)應(yīng)參數(shù)空間中的一條曲線。其次,由霍夫變換原理,在參數(shù)空間平面曲線相交最多的點(diǎn),對(duì)應(yīng)圖像平面上的直線,如圖2(a)所示。最后,文本數(shù)字圖像需要向相反的方向旋轉(zhuǎn)θ,其中θ表示直線與水平方向的夾角;當(dāng)檢測(cè)到多條直線時(shí),取平均值,則旋轉(zhuǎn)校正更準(zhǔn)確,旋轉(zhuǎn)校正結(jié)果如圖2(b)所示。

      圖2 霍夫變換矯正

      1.3 規(guī)范化

      經(jīng)過(guò)行切分和列切分,得到待識(shí)別的字符圖像,但這些字符圖像的尺寸往往有較大差別,并且圖像上下邊緣存在不同程度的空白,如圖3(a)所示。因此,需要?jiǎng)h除空白并調(diào)整字符位置,統(tǒng)一圖像尺寸[7]。根據(jù)藏文字形結(jié)構(gòu)特點(diǎn),對(duì)音節(jié)文本圖像進(jìn)行兩步規(guī)范化:第一,刪除上下空白部分;第二,統(tǒng)一將音節(jié)文本圖像的尺寸歸一化為48×32。規(guī)范化后的結(jié)果如圖3(b)所示。

      圖3 規(guī)范化

      2 藏文印刷體文本圖像分割

      首先對(duì)藏文印刷體文本圖像按行分割,然后在此基礎(chǔ)上進(jìn)行按字丁和音節(jié)分割。根據(jù)藏書寫特點(diǎn),選擇分割更容易的文本識(shí)別單位。最后采用所設(shè)計(jì)的藏文印刷體分割技術(shù)構(gòu)建由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的印刷體標(biāo)注數(shù)據(jù)庫(kù)。

      2.1 行切分

      和漢文以及英文相比,藏文書寫有一些顯著特點(diǎn):①所有藏文字符都以基線對(duì)齊[8];②藏文的字間距和行間距更?。虎墼舴?hào)可能使前后兩個(gè)字符或上下兩個(gè)字符粘連,如圖4所示(橫縱坐標(biāo)單位為像素);④字體過(guò)大時(shí),字丁和元音之間的距離增加,增大了行切分的難度[9],如圖5所示。因此,印刷體藏文文本圖像的分割更具有挑戰(zhàn)性。

      圖4 文本投影

      圖5 藏文基線

      當(dāng)字體較大時(shí),元音和輔音之間有一定的間距,因而它們會(huì)被當(dāng)作兩個(gè)獨(dú)立的連通域,導(dǎo)致分割錯(cuò)誤。如果適當(dāng)填充元音和輔音之間的空隙,可減少對(duì)行切分的影響。同時(shí),本文采用對(duì)字符間的空隙敏感度較小的投影分割法:遍歷每一行,得到的最大連續(xù)像素?cái)?shù)為行高,按照這個(gè)行高進(jìn)行行切分。投影分割法能有效避免被分割成多個(gè)區(qū)域的情況,分割結(jié)果如圖6所示。矩形框是藏文文本行的外接框,4個(gè)頂點(diǎn)是文本行在整體文檔圖像上的位置,分割時(shí)取4個(gè)點(diǎn)的坐標(biāo)即可。

      圖6 行分割

      2.2 音節(jié)切分

      圖7 藏文字丁/音節(jié)示例

      最后,通過(guò)確定 (y1,y2,x1,x2) 4個(gè)點(diǎn)的取值按音節(jié)分割,其中 (y1,y2)、 (x1,x2) 分別是垂直與水平方向上裁剪的起始位置和終止位置。由于輸入是行文本圖像,垂直方向上分割的起始位置為行邊界,終止位置是行高度,因此每個(gè)音節(jié)的 (y1,y2) 兩個(gè)點(diǎn)取值為 (0,h)。 水平方向上分割的起始位置和終止位置 (xi,xj) 由l′得到,通過(guò)遍歷按音節(jié)分割,算法的流程如圖8所示。

      圖8 音節(jié)切分流程

      圖9 按列分割

      2.3 分割實(shí)驗(yàn)

      表1 藏文字丁分割準(zhǔn)確率(字體:喜馬拉雅)/%

      表2 藏文音節(jié)分割準(zhǔn)確率(字體:喜馬拉雅)/%

      對(duì)比表1和表2可以看出:①按字丁為單元分割時(shí),隨著字號(hào)變小,分割準(zhǔn)確率下降明顯,并且二值化閾值差值較大;②以音節(jié)為單位分割時(shí),準(zhǔn)確率與字號(hào)變化關(guān)系不大,二值化閾值從原來(lái)的160調(diào)整為180,閾值差只有20;③由于藏文書寫的特點(diǎn),字丁受更多的藏文字符構(gòu)件的干擾,比音節(jié)分割難度程度更大。與按字丁分割相比,按音節(jié)分割準(zhǔn)確率提高了3.95個(gè)百分點(diǎn),說(shuō)明以音節(jié)為單位分割效果更穩(wěn)定。

      3 分類器的設(shè)計(jì)與實(shí)驗(yàn)

      為了驗(yàn)證音節(jié)比字丁更適合作為印刷體藏文的識(shí)別單位,本節(jié)首先構(gòu)造了隱藏層數(shù)為3的卷積神經(jīng)網(wǎng)絡(luò)模型為識(shí)別驗(yàn)證模型,最后將識(shí)別效果優(yōu)的模型進(jìn)行優(yōu)化。

      3.1 卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中最成功的一種模型,特別適合處理多維數(shù)據(jù)結(jié)構(gòu),被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)[10,11]、自然語(yǔ)言處理鄰域[12]等領(lǐng)域。本文的分類器采用卷積神經(jīng)網(wǎng)絡(luò),它由輸入層(Input layer)、隱藏層(Hidden layer)、全連接層(Full-connected layer)以及輸出層(Output layer)不斷堆疊構(gòu)成[13]。本文在輕量級(jí)的LeNet-5網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),網(wǎng)絡(luò)結(jié)構(gòu)如圖10所示。使用3×3的卷積核在歸一化后的特征圖上遍歷提取特征,其次使用2×2卷積核進(jìn)行池化。池化分為最大和平均池化。最大池化能更多地保留紋理信息,而平均池化能更多地保留圖像的背景信息。因此本文中采用最大和平均交替式的池化,并將網(wǎng)絡(luò)隱藏層增加到了7層。當(dāng)神經(jīng)網(wǎng)絡(luò)層堆疊過(guò)多時(shí)容易發(fā)生過(guò)擬合現(xiàn)象,所以采用Dropout丟棄一部分訓(xùn)練參數(shù),可以有效緩解過(guò)擬合的發(fā)生[14]。當(dāng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí)Dropout=0.5。

      圖10 LeNet-5網(wǎng)絡(luò)模型

      將得到的音節(jié)特征圖像展開為一維向量,輸送到輸出層,通過(guò)Softmax函數(shù)計(jì)算樣本屬于每一個(gè)類別的概率,實(shí)現(xiàn)分類任務(wù),如式(4)

      (4)

      其中,sj為表示當(dāng)前元素的指數(shù)與所有元素指數(shù)和的比值。zj是分類器前層單元的輸出,j表示類別索引位置,k為類別總數(shù)。

      3.2 數(shù)據(jù)集

      收集高覆蓋度的文本語(yǔ)料,將其打印掃描保存為文本圖像,對(duì)文本圖像以音節(jié)為單位進(jìn)行分割,并對(duì)圖像音節(jié)進(jìn)行標(biāo)注,得到共19 450個(gè)音節(jié)的132 500個(gè)樣本,這些樣本構(gòu)成藏文印刷體音節(jié)圖像數(shù)據(jù)庫(kù)。同時(shí),構(gòu)建共626個(gè)字丁的30 500個(gè)樣本,這些樣本構(gòu)成藏文印刷體字丁圖像數(shù)據(jù)庫(kù)。上述兩類數(shù)據(jù)庫(kù)中,除了基本的字丁和音節(jié)外,還包括一些常用的梵文。

      3.3 識(shí)別實(shí)驗(yàn)

      分別以字丁和音節(jié)為識(shí)別單元,在卷積神經(jīng)網(wǎng)絡(luò)模型上做對(duì)比識(shí)別實(shí)驗(yàn)。以字丁為識(shí)別單元時(shí),訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型的主要參數(shù)見(jiàn)表3。

      表3 基于字丁的LeNet-5網(wǎng)絡(luò)模型參數(shù)

      字丁的類別較少,當(dāng)模型迭代1000次時(shí),在訓(xùn)練集上,識(shí)別率已達(dá)99.67%,如圖11所示;并且,在學(xué)習(xí)特征的過(guò)程中,模型訓(xùn)練損失值的下降沒(méi)有出現(xiàn)非常明顯的上下波動(dòng),說(shuō)明訓(xùn)練過(guò)程非常穩(wěn)定;迭代1000次時(shí)訓(xùn)練損失值基本傾向于0,如圖11所示。

      圖11 基于字丁的LeNet-5網(wǎng)絡(luò)模型準(zhǔn)確率/損失值

      音節(jié)的數(shù)量遠(yuǎn)多于字丁,以音節(jié)為單元訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型時(shí),直接采用字丁的訓(xùn)練參數(shù)則無(wú)法達(dá)到同樣的識(shí)別率,見(jiàn)表4。當(dāng)?shù)螖?shù)為1000時(shí),訓(xùn)練識(shí)別率僅達(dá)到了57.4%;不改變其它參數(shù)而僅僅提高迭代次數(shù),則準(zhǔn)確率隨著迭代次數(shù)的增加在遞增;當(dāng)?shù)芜_(dá)10 000時(shí),訓(xùn)練識(shí)別率達(dá)到了97%,如圖12所示。

      表4 基于音節(jié)的LeNet-5網(wǎng)絡(luò)模型參數(shù)

      圖12 基于音節(jié)的LeNet-5網(wǎng)絡(luò)模型準(zhǔn)確率/損失值

      音節(jié)類別是字丁類別的30倍,遠(yuǎn)多于字丁。因此,當(dāng)?shù)螖?shù)為10 000左右時(shí)訓(xùn)練損失值才基本平緩并且基本接近于0,如圖12所示。當(dāng)其它參數(shù)不變時(shí),基于音節(jié)的模型需要更多的迭代次數(shù)來(lái)學(xué)習(xí)特征,這個(gè)迭代次數(shù)是基于字丁的識(shí)別模型的10倍。

      分別訓(xùn)練好基于字丁和基于音節(jié)的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別模型后,對(duì)印刷體藏文文本圖像進(jìn)行開放測(cè)試,測(cè)試字體均為喜馬拉雅,見(jiàn)表5??梢钥闯?,基于音節(jié)的識(shí)別模型比基于字丁的識(shí)別模型高出21.52個(gè)百分點(diǎn)。說(shuō)明音節(jié)文本圖像比字丁文本圖像包含著更多的字符特征信息,而這些輔助特征信息在識(shí)別中發(fā)揮著重要的作用。

      表5 識(shí)別單位測(cè)試

      確定音節(jié)為識(shí)別單元后,對(duì)網(wǎng)絡(luò)模型從池化方式、參數(shù)和卷積層層數(shù)等方面進(jìn)行優(yōu)化,最終提出了基于LeNet-5網(wǎng)絡(luò)的印刷體藏文識(shí)別模型,采取參數(shù)見(jiàn)表6,訓(xùn)練集上最高識(shí)別準(zhǔn)確率為99.8%。

      表6 最優(yōu)參數(shù)

      目前沒(méi)有公開的藏文文本識(shí)別測(cè)試數(shù)據(jù)集,因此,本文構(gòu)建了涉及藏文歷史、人物傳記、小說(shuō)和新聞等內(nèi)容的測(cè)試數(shù)據(jù)集,共有4076個(gè)音節(jié)。在這個(gè)數(shù)據(jù)集上本文所提出的方法,其平均識(shí)別正確率達(dá)96.11%,見(jiàn)表7。

      表7 開放測(cè)試

      4 結(jié)束語(yǔ)

      結(jié)合藏文字形結(jié)構(gòu)特點(diǎn),提出了基于音節(jié)切分的藏文印刷體識(shí)別方法。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),本文提出的藏文印刷體識(shí)別準(zhǔn)確率比基于字丁的識(shí)別方法高21.52個(gè)百分點(diǎn)。并在包含4076個(gè)音節(jié)的印刷體藏文文本圖像測(cè)試集上,本文方法的平均識(shí)別率達(dá)96.11%,結(jié)果表明以音節(jié)為單位的識(shí)別模型更有效。

      未來(lái)工作中,將對(duì)已構(gòu)建的標(biāo)注數(shù)據(jù)集進(jìn)行擴(kuò)充,并引入自動(dòng)文字檢測(cè)技術(shù),嘗試端到端的藏文文本檢測(cè)與識(shí)別。

      猜你喜歡
      印刷體藏文音節(jié)
      西夏文楷書和草書手寫體探微
      淺談小學(xué)英語(yǔ)字母手寫體與印刷體的教學(xué)
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      拼拼 讀讀 寫寫
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      高考的時(shí)候,把字寫得像印刷體有用嗎
      現(xiàn)代語(yǔ)境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      快樂(lè)拼音
      木管樂(lè)器“音節(jié)練習(xí)法”初探
      腾冲县| 东阿县| 台东县| 天全县| 康乐县| 广平县| 镇原县| 高密市| 镇平县| 广东省| 克拉玛依市| 志丹县| 内江市| 弋阳县| 长海县| 虞城县| 桐柏县| 龙门县| 隆德县| 和平县| 游戏| 兴隆县| 耿马| 洛阳市| 柳江县| 台北县| 甘德县| 宁明县| 汽车| 北宁市| 河曲县| 大姚县| 延川县| 出国| 四平市| 远安县| 中西区| 大港区| 金溪县| 益阳市| 玉树县|