董浪 李發(fā)?!∥好蠞?/p>
摘 要:為維護(hù)用戶版權(quán),提高圖片文字的輸入速度,本文提出了“GAN+CTPN+CRNN+CTC”的水印去除文字識(shí)別技術(shù),經(jīng)過GAN去除圖片中的水印,然后通過CTPN對(duì)圖片中的文字進(jìn)行檢測(cè),最后通過CRNN和CTC進(jìn)行文字的預(yù)測(cè)和識(shí)別。實(shí)踐證明,該研究提高了帶水印圖片的文字識(shí)別效率。
關(guān)鍵詞:水印去除;文字識(shí)別技術(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展,人們選擇網(wǎng)絡(luò)辦公逐步成為主流,時(shí)長(zhǎng)會(huì)涉及到圖片的發(fā)送,因?yàn)榘鏅?quán)和原創(chuàng)性的原因,這些圖片被賦予了水印。隨著水印技術(shù)的廣泛應(yīng)用,各種去水印技術(shù)在網(wǎng)上魚龍混雜,如何準(zhǔn)確有效的提取水印下的文字內(nèi)容,正在成為越來越多學(xué)者的研究方向,受到學(xué)術(shù)界和工業(yè)界的普遍重視[1]。
本文研究了一種以生成對(duì)抗網(wǎng)絡(luò)(GAN)、文字檢測(cè)(CTPN)和(CRNN+CTC)模型來針對(duì)水印環(huán)境情況下如何進(jìn)行文字提取的技術(shù)。
一、總體設(shè)計(jì)與實(shí)現(xiàn)
文字識(shí)別技術(shù)是計(jì)算機(jī)視覺研究領(lǐng)域的一個(gè)重要分支,被廣泛應(yīng)用于票據(jù)的提取,證件的識(shí)別以及人工智能等領(lǐng)域。然而識(shí)別環(huán)境的復(fù)雜多變導(dǎo)致了識(shí)別的文字?jǐn)?shù)據(jù)往往不可靠,圖片水印就是其中之一。
應(yīng)對(duì)水印下的文字識(shí)別采用GAN網(wǎng)絡(luò)來達(dá)到去水印的目的。相對(duì)于普通的神經(jīng)網(wǎng)絡(luò)而言GAN采用兩個(gè)不同網(wǎng)絡(luò)模型進(jìn)行對(duì)抗性訓(xùn)練,而且G的梯度的信息來自于判別器而并非數(shù)據(jù)的樣本集。再將去除水印的圖片利用CTPN定位文字的位置達(dá)到文字檢測(cè)的效果,最終使用CRNN模型端對(duì)端的識(shí)別文字的序列。CRNN模型是一種簡(jiǎn)單高效的文字識(shí)別模型,該模型由圖片特征提取層(CNN)提取圖像卷積特征,然后序列化建模層(RNN)使用BiLSTM進(jìn)一步預(yù)測(cè)圖像卷積特征中的序列特征,最后引入解碼層(CTC)對(duì)齊輸出的文本。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,它可以直接從序列標(biāo)簽中學(xué)習(xí),而無需詳細(xì)標(biāo)記;不再需要預(yù)處理步驟和手工特征;易于部署,結(jié)構(gòu)簡(jiǎn)單,適用于文本長(zhǎng)度變化較大的生產(chǎn)環(huán)境。CRNN模型是目前流行的圖形識(shí)別模型,可以識(shí)別較長(zhǎng)的文章序列。它使用諸如BLSTM和CTC之類的組件來理解文章圖形中的上下文,從而有效地提高了文章識(shí)別的準(zhǔn)確性,并使建模更加健壯。CRNN是一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),一般用于處理基于圖像的序列信息識(shí)別問題,但更多地用作場(chǎng)景文本識(shí)別問題。
輸入的圖片通過GAN層進(jìn)行水印的去除,將所得到的去除水印后的圖片作為CTPN層的輸入,在CTPN中輸入的圖像進(jìn)行文字的檢測(cè),將所得到的序列特征信息作為CRNN層的輸入,在CRNN層對(duì)特征序列信息進(jìn)行識(shí)別,并在CTC中找到概率最高的一組組合標(biāo)簽序列并將其進(jìn)行預(yù)測(cè)輸出,實(shí)現(xiàn)原理圖如圖1所示。
(一)GAN去水印模型
GAN是一種訓(xùn)練生成式的新的模型方法,包含兩個(gè)”對(duì)抗”模型,生成器模型和判別器模型[2]。生成器模型:用于進(jìn)行數(shù)據(jù)的捕捉分布;判別器模型:用來進(jìn)行判別樣本來自真實(shí)數(shù)據(jù)而并非生成的樣本的概率。
在GAN中輸入一張帶有水印的圖片,輸出則為不帶水印的圖片。判別器(D)用于判別是原始無水印圖片還是生成器(G)生成無水印圖片。在兩者不斷地對(duì)抗訓(xùn)練的過程中,可以使得生成器(G)產(chǎn)生的無水印的圖片達(dá)到以假亂真的效果,從而達(dá)到去除水印的效果。對(duì)GAN生成器(G)和判別器(D)增加額外信息(y)并作為輸入層的一部分。對(duì)生成器(G)中將輸入噪聲p(z)和條件信息(y)聯(lián)合組和形成聯(lián)合隱層表征。
(二)CRNN+CTC文字識(shí)別
CRNN作為一種新型的神經(jīng)網(wǎng)絡(luò)模型,它結(jié)合了CNN、RNN和CTC三個(gè)網(wǎng)絡(luò)模型,主要用于對(duì)可變長(zhǎng)度文本序列進(jìn)行端到端的識(shí)別。CNN用于對(duì)輸入圖像的卷積特征提取并得到特征圖;雙向的RNN(BLSTM)用于對(duì)CNN輸出的特征序列進(jìn)行預(yù)測(cè),得到特征向量的標(biāo)簽分布;CTC用于將RNN所獲得的標(biāo)簽進(jìn)行轉(zhuǎn)化,并確定最終的結(jié)果。
1、CTC卷積層。CRNN卷積層由標(biāo)準(zhǔn)CNN和最大池化層兩部分所組成,能夠?qū)斎雸D像的特征序列進(jìn)行自動(dòng)提取。與標(biāo)準(zhǔn)CNN不同的是,CRNN卷積層會(huì)保證圖像的寬度不變。
在卷積層中一共有四個(gè)最大池化層,其中最后兩個(gè)池化層窗口為1×2。也就是將圖像的高度減半4次,而寬度減半2次。由于大多數(shù)圖像高度較小而寬度較長(zhǎng),因此feature map也是一個(gè)與之相對(duì)應(yīng)的矩形。同時(shí)隨著Batch Normalization模塊的加入使得模型快速進(jìn)行收斂,從而減少模型的訓(xùn)練過程。
2、CTC。CTC負(fù)責(zé)每一幀的預(yù)測(cè),從而找到概率最高的一組標(biāo)簽序列。端到端OCR的難點(diǎn)在于對(duì)不定長(zhǎng)序列的處理的。RNN識(shí)別后輸出的定長(zhǎng)序列,在對(duì)該序列進(jìn)行識(shí)別時(shí)可能出現(xiàn)信息的冗余和信息的丟失。所以我們需要一套行之有效的方法來解決識(shí)別過程的冗余機(jī)制,而CTC的blank機(jī)制恰好能夠較好的解決此問題。
二、實(shí)驗(yàn)
本次實(shí)驗(yàn)的數(shù)據(jù)集是通過人工手動(dòng)添加水印進(jìn)行制作的100張帶有水印的照片,其中70張圖像作為訓(xùn)練集,30張圖片作為測(cè)試集,實(shí)驗(yàn)最終準(zhǔn)確率可達(dá)到76.67%。
在實(shí)驗(yàn)的過程中將原始圖片作為輸入,經(jīng)過GAN進(jìn)行照片水印的去除,然后在通過CTPN進(jìn)行文字的檢測(cè),最終通過CRNN和CTC進(jìn)行文字的識(shí)別輸出,如下圖3所示.
三、結(jié)語
本實(shí)驗(yàn)采用自制的100張數(shù)據(jù)集進(jìn)行訓(xùn)練,通過GAN、CTPN、CRNN以及CTC從而實(shí)現(xiàn)端到端的圖片文字識(shí)別,將圖片中不定長(zhǎng)度的文字作為一個(gè)整體,對(duì)改區(qū)域進(jìn)行文字的預(yù)測(cè)識(shí)別,并返回該該區(qū)域文字的內(nèi)容。在訓(xùn)練后該模型的識(shí)別率可以較為穩(wěn)定的達(dá)到76.67%。在后續(xù)我們將進(jìn)一步對(duì)該模型的參數(shù)進(jìn)行調(diào)整以及訓(xùn)練數(shù)據(jù)集的豐富,從而達(dá)到更好的識(shí)別效果。
參考文獻(xiàn):
[1] 張婷婷, 馬明棟, 王得玉. OCR文字識(shí)別技術(shù)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2020, 30(4):4.
[2] 曹仰杰, 賈麗麗, 陳永霞,等. 生成式對(duì)抗網(wǎng)絡(luò)及其計(jì)算機(jī)視覺應(yīng)用研究綜述[J].中國(guó)圖象圖形學(xué)報(bào), 2018, 23(10):17.
作者簡(jiǎn)介:董浪(2000-),男,漢族,湖北省大冶市人,本科,研究方向:人工智能、深度學(xué)習(xí)。
資助項(xiàng)目:2022年湖北省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(編號(hào)DC2022032)