李歡歡 徐小云 王紅蕾
關(guān)鍵詞: 文字檢測(cè) 卷積神經(jīng)網(wǎng)絡(luò) 文本檢測(cè)網(wǎng)絡(luò) 區(qū)域候選網(wǎng)絡(luò)
中圖分類號(hào): TM715 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1672-3791(2023)15-0058-04
隨著物流業(yè)的快速發(fā)展,各快遞點(diǎn)的分揀、配發(fā)工作愈加繁重,且不同快遞公司快遞單設(shè)計(jì)樣式不統(tǒng)一。為提高快遞分揀人員的工作效率與快遞分配的準(zhǔn)確性,提高信息統(tǒng)計(jì)效率和信息采集的通用性,需快速檢測(cè)并識(shí)別出各包裹上快遞單號(hào)的收寄人信息,并做出派件指引。為實(shí)現(xiàn)該需求,學(xué)術(shù)界通常運(yùn)用光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)來(lái)進(jìn)行文字的檢測(cè)和識(shí)別。在OCR 技術(shù)運(yùn)用中,通常先進(jìn)行文本檢測(cè)[1-5],然后在檢測(cè)的文本區(qū)域進(jìn)行文本識(shí)別[6-7]??梢娢谋緳z測(cè)的準(zhǔn)確性與魯棒性,將直接影響最終文本識(shí)別的準(zhǔn)確率。
文本檢測(cè)技術(shù)被研究多年[8-10]。ZHANG H 等對(duì)自然場(chǎng)景下文本檢測(cè)方法給出了一個(gè)比較全面的綜述。以上研究表明:文字檢測(cè)技術(shù)可分為:基于圖像特征的傳統(tǒng)文本檢測(cè)技術(shù)與基于深度學(xué)習(xí)的文本檢測(cè)技術(shù)。傳統(tǒng)的文本檢測(cè)技術(shù)又可分為基于分類器的文本檢測(cè)方法與基于連通域的文本檢測(cè)方法。而基于深度學(xué)習(xí)的文本檢測(cè)技術(shù)是該領(lǐng)域的研究主流方向之一。此技術(shù)運(yùn)用基于深度神經(jīng)網(wǎng)絡(luò)的模型對(duì)文本進(jìn)行檢測(cè),不僅對(duì)印刷體文本有很好的檢測(cè)效果,還能對(duì)更為復(fù)雜背景的文字具有較好的檢測(cè)效果。LIAO M、SHI B 等人提出了一種端到端的文本檢測(cè)方法,該方法在模型設(shè)計(jì)上主要基于SSD 模型并對(duì)其進(jìn)行了優(yōu)化。TIAN Z等人認(rèn)為文本和一般物體不同的是文本是由一個(gè)字符序列組成的,因而提出了一種將循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的文本檢測(cè)方法CTPN。循環(huán)神經(jīng)網(wǎng)絡(luò)用來(lái)對(duì)單個(gè)文本區(qū)域的連續(xù)性進(jìn)行檢測(cè),而卷積神經(jīng)網(wǎng)絡(luò)用語(yǔ)對(duì)單個(gè)文本區(qū)域的檢測(cè)。
本文運(yùn)用CTPN 技術(shù)來(lái)進(jìn)行物流快遞單上的文字檢測(cè),實(shí)驗(yàn)發(fā)現(xiàn)與傳統(tǒng)的方法相比,其具有更高的檢出率與穩(wěn)定性,可較好地應(yīng)用于快遞單場(chǎng)景下的文字檢測(cè)定位。
1 CTPN介紹
文本是一個(gè)由沒(méi)有顯著封閉界線的序列組成,它由字符、字母與文本區(qū)域等多個(gè)部分組合而成,各部分之間無(wú)明顯區(qū)分,文本行中的字符大小不一定相同,且文本中可能不存在一個(gè)明確的文本邊界。因此,文本檢測(cè)是一個(gè)需要正確檢測(cè)出文本行或整個(gè)文字區(qū)域的細(xì)粒度檢測(cè)任務(wù)。
本文運(yùn)用的CTPN 檢測(cè)算法,是對(duì)Faster RCNN 算法的改進(jìn),能進(jìn)行細(xì)粒度的文本檢測(cè),可準(zhǔn)確定位文本位置,同時(shí)引入了BLSTM 來(lái)獲取文字間的序列特征,它可以直接定位卷積層中的文本序列,利用共享計(jì)算機(jī)制,大大減少了計(jì)算量,提高了文本檢測(cè)的魯棒性。圖1 為CTPN 算法的網(wǎng)絡(luò)結(jié)構(gòu)。
CTPN 網(wǎng)絡(luò)模型要求圖片首先經(jīng)過(guò)VGG16 網(wǎng)絡(luò)模型的conv5 層,假設(shè)此時(shí)圖像大小為H×W,CTPN 網(wǎng)絡(luò)模型的構(gòu)建步驟如下。
(1)CTPN 網(wǎng)絡(luò)模型利用VGG16 的前5 層卷積層網(wǎng)絡(luò)去提取圖像特征,獲得大小為H?W? C 的conv5 特征圖,其中C 為特征圖的個(gè)數(shù)。
(2)對(duì)conv5 上獲取的特征圖,用3 ? 3 的滑動(dòng)窗口進(jìn)行密集的滑動(dòng),即每個(gè)點(diǎn)都結(jié)合該點(diǎn)3 ? 3 領(lǐng)域區(qū)域特征獲取一個(gè)長(zhǎng)度為3 ? 3 的特征向量,輸出C ?H?W的特征圖,其中C 是特征圖個(gè)數(shù)。運(yùn)算過(guò)程如圖1所示。
(3)將上述得到的C ?H?W特征圖進(jìn)行矩陣形狀變換,將輸出大小變換為H?W? C。
(4)然后將數(shù)據(jù)以最大時(shí)間長(zhǎng)度為W 且Batch 為H的數(shù)據(jù)流輸入到雙向LSTM 中,從而學(xué)習(xí)每一行的序列特征。雙向LSTM 的輸出特征為H?W? C,再通過(guò)矩陣形狀變換得到形狀C ?H?W的特征數(shù)據(jù),其中C是特征圖個(gè)數(shù);該特征包含了通過(guò)CNN 與LSTM 學(xué)習(xí)得到的空間特征和序列特征。
(5)LSTM 學(xué)習(xí)后的特征通過(guò)512 維的全連接層(FC),特征變?yōu)閃?H? 10 ? N(對(duì)于文字檢測(cè)區(qū)域位置N=4,對(duì)于檢測(cè)區(qū)域是否有文字N=2)。FC 層的每個(gè)點(diǎn)都配備K(K=10)個(gè)錨,錨的寬度為widths = 16,錨的高度為heights =[11162333486897139198283],如圖2 所示。
這樣做是為了:①保證在圖像x 方向上,錨能掩蓋輸入圖像中的每個(gè)點(diǎn),且彼此互不重疊;②保證在圖像y 方向上能檢測(cè)出不同高度大小的文本目標(biāo)。
(6)最后FC 層輸出的特征圖通過(guò)RPN(RegionProposal Network)網(wǎng)絡(luò)后得到輸出層信息,從而獲得候選文本區(qū)域。RPN 如圖3 所示。
RPN 網(wǎng)絡(luò)可分為兩個(gè)分支:①左分支可用于對(duì)錨的位置進(jìn)行回歸,修正錨的中心y 坐標(biāo)與高度(height);②右邊分支用于對(duì)錨進(jìn)行分類:文本/非文本。
在RPN 得到的一系列候選文本區(qū)域后,運(yùn)用文本線構(gòu)造算法將候選文本區(qū)域連接成一個(gè)文本檢測(cè)框。
輸出層輸出3 種結(jié)果,分別為垂直坐標(biāo)(verticalcoordinate)合計(jì)2K 個(gè)、預(yù)測(cè)文本/非文本的評(píng)分(scores)合計(jì)2K個(gè)、邊緣細(xì)化(side-refinement)合計(jì)1K個(gè)。最后運(yùn)用非極大值抑制(Non-Maximum Suppression,NMS)算法來(lái)濾除多余的文本框,從而得到最終輸出。
綜上所述,測(cè)試網(wǎng)絡(luò)結(jié)構(gòu)與網(wǎng)絡(luò)參數(shù)設(shè)置如圖4所示。
2 數(shù)據(jù)準(zhǔn)備
2.1 數(shù)據(jù)采集
此實(shí)驗(yàn)使用公開數(shù)據(jù)集ICDAR 2019Chinese 來(lái)進(jìn)行文字檢測(cè)模型訓(xùn)練,該數(shù)據(jù)集合計(jì)30 138 張圖片。同時(shí)收集某物流公司某快遞點(diǎn)的快遞單號(hào)1 000 張,作為驗(yàn)證集,進(jìn)行文字檢測(cè)驗(yàn)證,用來(lái)驗(yàn)證本文所使用算法的有效性與魯棒性。
2.2 數(shù)據(jù)預(yù)處理
本實(shí)驗(yàn)的模型訓(xùn)練部分,使用darknet 預(yù)訓(xùn)練模型對(duì)收集的圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,該模型要求對(duì)數(shù)據(jù)進(jìn)行一定的預(yù)處理:(1)將圖片尺寸進(jìn)行縮放;(2)將ICDAR 2019Chinese 數(shù)據(jù)集按7∶3 的比例拆分為訓(xùn)練集與測(cè)試集兩個(gè)部分,用于模型訓(xùn)練與測(cè)試;(3)按照darknet 所需的格式生成voc.name、voc.data。
3 實(shí)驗(yàn)過(guò)程
此實(shí)驗(yàn)在一臺(tái)搭配有NVIDIA M10 32 G 顯卡、24GB RAM 的計(jì)算機(jī)上進(jìn)行,電腦使用Centos 7.3 操作系統(tǒng)。使用darknet 預(yù)訓(xùn)練模型加載預(yù)訓(xùn)練模型權(quán)重darknet53.conv.74,對(duì)生成的數(shù)據(jù)集進(jìn)行訓(xùn)練,設(shè)置迭代次數(shù)為5 萬(wàn)次。訓(xùn)練完成后,得到模型訓(xùn)練參數(shù)。
4 實(shí)驗(yàn)結(jié)果
本文使用得到的模型參數(shù),對(duì)實(shí)際的快遞單號(hào)進(jìn)行檢測(cè)。實(shí)驗(yàn)發(fā)現(xiàn),訓(xùn)練得到的模型,對(duì)不同的快遞單,有較好的文字檢測(cè)效果,如圖5 所示。
5 結(jié)語(yǔ)
CTPN 算法在單一或復(fù)雜背景中的文字檢測(cè)效果優(yōu)良,且檢測(cè)速度極快。CTPN 算法引入了雙向LSTM神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)文本的序列特征,這有利于提升文本檢測(cè)效果。但雙向LSTM 神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)可能引起算法模型的梯度爆炸,故在訓(xùn)練時(shí)需小心調(diào)整訓(xùn)練參數(shù)。由文章中利用CTPN 技術(shù)對(duì)快遞單文字識(shí)別效果來(lái)看,CTPN 能夠滿足多種類、多樣式、非結(jié)構(gòu)化自然場(chǎng)景中的文字識(shí)別。