林金朝,文 盼,龐 宇
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.光電信息感測與傳輸技術(shù)重慶市重點實驗室,重慶 400065)
自然場景文本檢測是許多智能應(yīng)用的基礎(chǔ),例如場景理解,產(chǎn)品標(biāo)識和自動駕駛[1]等。文本檢測算法的核心任務(wù)是區(qū)分文本實例與背景區(qū)域。由于自然場景中圖像背景復(fù)雜,光照變化干擾和圖片質(zhì)量參差不齊等外界因素,加上文本行的排列角度隨機(jī)與形狀任意等內(nèi)在因素的影響,限制了文本檢測算法的性能提升,因此,目前場景文本檢測算法的研究仍然具有挑戰(zhàn)性。近年來,隨著深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[2]的發(fā)展,場景文本檢測也取得了飛速的進(jìn)步?;谏疃葘W(xué)習(xí)方法的場景文本檢測方法從特征提取、區(qū)域建議網(wǎng)絡(luò)(regional proposal network,RPN)、多目標(biāo)協(xié)同訓(xùn)練、Loss改進(jìn)、非極大值抑制(non-maximum suppression,NMS)、半監(jiān)督學(xué)習(xí)等角度對常規(guī)文本檢測方法進(jìn)行改造,在一定程度上提升了自然場景圖像中文本檢測的準(zhǔn)確率。文本檢測主要基于CNN框架,其中,場景文本檢測大致分為2類:基于回歸的方法和基于分割的方法。
基于回歸的方法,文本目標(biāo)通常以具有特定方向的矩形或四邊形的形式表示,但是此類方法無法處理具有任意形狀的文本實例?;诨貧w的方法通常基于通用的對象檢測框架,例如Faster R-CNN[3]和SSD[4]。文獻(xiàn)[5]用雙向長短期記憶網(wǎng)絡(luò)(Bi-directional long short-term memory,BLSTM)模塊提取字符所在圖像上下文特征,以提高文本塊檢測精度。文獻(xiàn)[6]調(diào)整了文字區(qū)域參考框的長寬比例,并將特征層卷積核調(diào)整為長方形,從而更適合檢測出細(xì)長型的文本行。近年來的檢測方法則是專為多方向的文本檢測而設(shè)計的,例如RRPN[7]采用了Faster R-CNN,并提出了RPN部分的旋轉(zhuǎn)建議以檢測任意方向的文本。RRD[8]從2個單獨的分支中提取了用于文本分類和回歸的特征圖,以更好地檢測長文本。
基于分割的方法主要受全卷積網(wǎng)絡(luò)[9](fully convolutional network,F(xiàn)CN)的啟發(fā),Zhang[10]采用FCN提取文本塊,并通過MSER從這些文本塊中檢測字符候選區(qū)域。Yao[11]將一個文本區(qū)域表示為各種屬性,例如文本區(qū)域和方向,然后利用FCN預(yù)測相應(yīng)的熱圖。Lyu[12]利用角點定位為文本實例找到合適的不規(guī)則四邊形。文獻(xiàn)[13]通過預(yù)測不同文本實例之間的像素連接來分離彼此靠近的文本。文獻(xiàn)[14]使用實例分割框架,并利用上下文信息來檢測任意形狀的文本,同時抑制誤報。
基于分割的檢測算法雖然能夠從提取特征中學(xué)習(xí)到文本特征,在檢測不同形狀文本實例具有一定魯棒性,但在檢測2個相距很近的文本實例時會產(chǎn)生錯誤的預(yù)測。即將2個文本框錯誤檢測為一個或者無法檢測出結(jié)果,這使后續(xù)文字識別的準(zhǔn)確率不高。由于自然場景中的文本具有不規(guī)則、多方向、任意形狀的特征,難以直接將困難樣本分離,該問題在一定程度上限制了檢測性能的發(fā)揮。為了解決這個問題,提高自然場景中多方向任意形狀文本的性能,本文提出了一種特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[15]和內(nèi)核擴(kuò)展算法相結(jié)合的框架,該模型通過利用較小內(nèi)核分離文本,同時通過像素聚合生成任意形狀的檢測結(jié)果。主要工作與創(chuàng)新有以下2個方面。
1)作為基于圖像分割的方法,網(wǎng)絡(luò)模型將執(zhí)行像素級分類,同時主要采用50層的殘差網(wǎng)絡(luò)(residual networks,ResNet)為骨干網(wǎng)絡(luò)構(gòu)建FPN網(wǎng)絡(luò),提取多尺度圖像特征進(jìn)行分別預(yù)測,為每個文本實例分配了多個預(yù)測的分割區(qū)域。
2)采用了一種特征內(nèi)核擴(kuò)展算法,利用該算法可以成功分離并識別相鄰文本實例。通過擴(kuò)展內(nèi)核方式完成像素的聚合,同時在訓(xùn)練時加入在線難例挖掘[16]的訓(xùn)練方法,最終完成預(yù)測。
本文首先采用ResNet作為模型的骨干網(wǎng)絡(luò),構(gòu)建4層的FPN網(wǎng)絡(luò)用于提取圖像特征,然后融合連接到一個256通道的新的特征圖F中,目的是將低級紋理特征與高級語義特征連接起來。采用FPN的方式構(gòu)建的特征融合網(wǎng)絡(luò)不同層都分別參與了特征圖的預(yù)測,能夠生成不同尺度特征內(nèi)核。
整體算法框架見圖1,使用不同層次連接好的特征圖F映射到n個分支中,以產(chǎn)生多個不同比例的分割結(jié)果K1,K2,…,Kn。對于特定區(qū)域內(nèi)的所有文本實例,每個Ki將被二值化處理生成一個對應(yīng)的黑白像素的分割掩碼(segmentation mask,SM),即不同尺度大小的內(nèi)核。在訓(xùn)練階段進(jìn)行了剔除背景處理,只有預(yù)測文本區(qū)域中生成的內(nèi)核參與擴(kuò)展部分的訓(xùn)練和損失計算。Mask區(qū)域中生成的內(nèi)核中,K1表示具有最小比例(即最小內(nèi)核)的文本實例的分割結(jié)果,Kn表示原始分割掩碼(即最大內(nèi)核)的文本實例。獲得這些Mask之后,為保證像素擴(kuò)展的準(zhǔn)確性,采用內(nèi)核擴(kuò)展算法將K1中所有實例的特征內(nèi)核逐漸擴(kuò)展為K2,如此漸進(jìn)式地擴(kuò)展為Kn中完整文本實例的形狀。在這個過程中完成了特征圖的像素聚合和不同文本實例像素的分類,獲得最終的檢測結(jié)果R。
圖1 基于特征金字塔的文本檢測網(wǎng)絡(luò)模型Fig.1 Text detection network model based on feature pyramid
深度殘差網(wǎng)絡(luò)早期被應(yīng)用于圖像分類任務(wù),近年來研究表明其在特征提取時的表現(xiàn)也十分具有競爭力,因此也被廣泛應(yīng)用于目標(biāo)檢測領(lǐng)域。殘差網(wǎng)絡(luò)由殘差塊(residual blocks,RB)堆疊構(gòu)成,能夠減輕深層網(wǎng)絡(luò)訓(xùn)練的難度,使得訓(xùn)練深層網(wǎng)絡(luò)時能夠達(dá)到較好的效果。
殘差塊結(jié)構(gòu)見圖2,首先使用一個1×1卷積層對特征層進(jìn)行降維,然后中間3×3的卷積層提取特征,最后用另一個1×1的卷積層對通道數(shù)做了還原操作,既保持了精度又大幅度減少了計算量。分批歸一化(batch normalization,BN)作用是特征縮放,是把偏離的特征值拉回到均值為0,方差為1的標(biāo)準(zhǔn)的正態(tài)分布。卷積層采用的激活函數(shù)是整流線性單元(rectified linear units,Relu)。
本文算法模型的基本框架是基于FPN實現(xiàn)的。為了獲得一個強(qiáng)語義信息,采用ResNet-50作為骨干網(wǎng)絡(luò)來構(gòu)造特征金字塔,低層特征可以提供更加準(zhǔn)確的位置信息,而多次降采樣和上采樣的操作使得深層網(wǎng)絡(luò)的定位信息存在誤差,所以將處理過的低層特征和高層特征進(jìn)行累加能夠更好結(jié)合兩者的優(yōu)點。表1展示了ResNet-50的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),網(wǎng)絡(luò)總共分為5層,第1,2層參數(shù)分別表示卷積核的大小,卷積核的數(shù)量和步長。第2,3,4,5層以矩陣表示一個定義好的殘差塊,每個殘差塊由1×1,3×3,1×1這樣的卷積核組成,每行第2個參數(shù)為卷積核的數(shù)量,最后的數(shù)字表示每種殘差塊堆疊的次數(shù),同時在ResNet尾部去掉了傳統(tǒng)的用于分類的全連接層,用于構(gòu)建FPN網(wǎng)絡(luò)。
圖2 殘差塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of residual blocks
ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)見表1。圖1中第1層到第5層向上提取特征的結(jié)構(gòu)與表1一致,而P1到P5則是由提取到的特征圖進(jìn)行上采樣和特征融合生成的。表1中每一層與圖1中conv層對應(yīng)。conv層與P層融合是通過特征融合模塊進(jìn)行融合,以conv4和P5特征融合為例,P5通過雙線性插值(bilinear interpolation)的方式做2倍上采樣得到和conv4尺度大小一致的特征圖,conv4則采用1×1的卷積和P5進(jìn)行通道數(shù)統(tǒng)一,與P5的2倍上采樣的結(jié)果按照對應(yīng)元素相加的方式進(jìn)行特征融合,隨后輸出通過一個3×3的卷積,消除上采樣帶來的混疊效應(yīng),得到最后的特征圖P4。
表1 ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Tab.1 ResNet-50 network structure parameters
從FPN網(wǎng)絡(luò)能夠獲得4個256通道的特征圖(P2,P3,P4,P5)。為了進(jìn)一步組合從低到高的語義特征,通過一個函數(shù)C(·)連接了4層特征圖,以獲得具有1 024個通道的特征圖F,表示為
F=C(P2,P3,P4,P5)=
P2‖Up×2(P3)‖Up×4(P4)‖Up×8(P5)
(1)
(1)式中:“‖”是指串聯(lián);Up×k(Pn)為對Pn進(jìn)行k倍上采樣。此時,F(xiàn)具有1 024個通道,隨后經(jīng)過Conv(3×3)-BN-Relu層使之減少到256個通道,再通過n個Conv(1×1)-Sigmoid層,并產(chǎn)生n個分割結(jié)果K1,K2,…,Kn。
本文中為每個文本實例分配了多個不同尺度特征內(nèi)核,每個內(nèi)核的形狀與原始文本實例相似,但比例大小不同,是通過FPN網(wǎng)絡(luò)最后輸出的特征連接圖F獲得的,內(nèi)核擴(kuò)展和像素聚合過程見圖3。首先比例最小的內(nèi)核很容易分離,因為它們的邊界很遠(yuǎn),但是最小比例的內(nèi)核無法覆蓋完整的文本實例區(qū)域,因此需要從最小比例的內(nèi)核中恢復(fù)完整的文本實例。最大的內(nèi)核就是包含完整文本實例的特征圖,但是每個文本實例并沒有分開來,所以有必要從最小比例內(nèi)核開始擴(kuò)展。特征內(nèi)核擴(kuò)展算法可以將小內(nèi)核擴(kuò)展為完整的文本實例,從而確保文本實例的準(zhǔn)確位置,尤其對曲線文本的檢測效果提升明顯。
特征內(nèi)核擴(kuò)展算法是基于廣度優(yōu)先搜索[17](breadth-first-search,BFS),共有以下3個步驟。
步驟1從最小比例的內(nèi)核開始擴(kuò)展,最小內(nèi)核為文本實例的中心部分,形狀與完整文本實例相似(由于在此步驟中可以區(qū)分實例)。
步驟2通過像素聚合的方式,逐漸擴(kuò)展小內(nèi)核為較大的內(nèi)核,當(dāng)較大的內(nèi)核中像素被合并完時,擴(kuò)展結(jié)束,較大內(nèi)核提供驗證像素擴(kuò)展邊界的作用。
步驟3逐級從得到的不同尺度的特征內(nèi)核中合并擴(kuò)展像素,直到包含完整的文本實例(即擴(kuò)展到最大的內(nèi)核)為止。
首先最小內(nèi)核映射記為K1,從多個最小內(nèi)核包含的像素開始,每個最小內(nèi)核有上,下,左,右,4個方向作為連通區(qū)域來擴(kuò)展其像素,若到達(dá)擴(kuò)展的邊界時,標(biāo)志本次擴(kuò)展結(jié)束,圖3中用具有不同顏色的區(qū)域分別表示這些不同的連通區(qū)域。在擴(kuò)展過程中可能會有沖突的像素,如圖3中的橘黃色框所示,解決沖突的原則是每個像素只能由一個內(nèi)核合并,且每個內(nèi)核獨立擴(kuò)展。若已有內(nèi)核合并了此像素,那么此像素便不會參與之后的合并。最后提取圖3中用不同顏色標(biāo)記的像素區(qū)域作為文本實例的最終預(yù)測。
由于FPN網(wǎng)絡(luò)產(chǎn)生具有不同比例的分割結(jié)果,因此,在訓(xùn)練過程中需要生成不同比例內(nèi)核的對應(yīng)標(biāo)注(ground truth,GT)。通過收縮原始文本實例來生成這些GT標(biāo)簽,即通過最大內(nèi)核映射生成的特征圖逐步按比例縮小生成小內(nèi)核的GT。將原始多邊形Pn縮小了di個像素,并得到縮小的多邊形Pi。隨后將每個縮小的多邊形Pi進(jìn)行(0,1)二進(jìn)制像素處理,生成黑白分割的標(biāo)注GT,這些GT分別表示為G1,G2,…,Gn,它們分別對應(yīng)不同大小的內(nèi)核,作為內(nèi)核的標(biāo)注進(jìn)行訓(xùn)練。設(shè)縮小比例的值為ri,則Pn和Pi之間的邊距di可計算為
(2)
(2)式中:Area(·)是計算多邊形面積的函數(shù);Perimeter(·)是計算多邊形周長的函數(shù),同時不同尺度內(nèi)核的標(biāo)注Gi生成時,ri定義為
(3)
(3)式中:m是最小比例尺度,它取值為(0,1];n為內(nèi)核序號。根據(jù)等式(3)中的定義,可以確定比例ri的值(r1,r2,…,rn),內(nèi)核大小從m開始每次按ri比例增加,增加到1為止。
損失函數(shù)可以表示為
L=λLc+(1-λ)Ls
(4)
(4)式中:Lc和Ls分別代表完整文本實例和收縮文本實例的損失;λ用來并平衡Lc和Ls之間的重要性。
由于文本實例通常在自然圖像中僅僅占據(jù)一個很小的區(qū)域,在實驗中采用了骰子系數(shù)(cice coefficient)。骰子系數(shù)D(Ki,Gi)的公式如下
(5)
(5)式中:Ki,x,y和Gi,x,y分別指分割結(jié)果Ki和標(biāo)準(zhǔn)標(biāo)注Gi中的像素(x,y)值。此外自然場景中還有許多與文本筆劃類似的物體,例如柵欄,格子等,因此,在訓(xùn)練過程中,對Lc采用OHEM的方式訓(xùn)練以更好地區(qū)分這些樣本。Lc用于分割文本和非文本區(qū)域,將OHEM給出的訓(xùn)練Mask視為M,則Lc為
Lc=1-D(Kn·M,Gn·M)
(6)
由于它們被完整文本實例的原始區(qū)域包圍,所以可以忽略分割結(jié)果Kn中非文本區(qū)域的像素,避免了信息冗余。
大多數(shù)高職院校對頂崗實習(xí)階段的黨團(tuán)組織生活沒有足夠重視,對頂崗實習(xí)學(xué)生的思想政治教育工作缺乏周密的教學(xué)計劃,沒能建立起完整有效的管理體系;也沒有建立起學(xué)生、輔導(dǎo)員、實習(xí)指導(dǎo)教師、企業(yè)技術(shù)指導(dǎo)師傅之間進(jìn)行思想溝通的有效載體。況且許多非公有制經(jīng)濟(jì)組織還沒有建立黨組織,大學(xué)生流動黨員在這些企業(yè)中進(jìn)行頂崗實習(xí)無法轉(zhuǎn)組織關(guān)系,無法過組織生活。
(7)
(8)
(7)—(8)式中:Kn,x,y是Kn指中的像素(x,y)的值,W是忽略Kn中的非文本區(qū)域的像素的Mask。
ICDAR2015(IC15)是ICDAR2015強(qiáng)健閱讀比賽的數(shù)據(jù)集,是文本檢測的常用數(shù)據(jù)集??偣舶? 500張圖片,其中,1 000張用于訓(xùn)練,其余用于測試。圖片由Google Glass以偶然的方式拍攝,因此場景中的文本處于任意方向,或者受到運動模糊和低分辨率的影響。
ICDAR2017-MLT(IC17-MLT)是大規(guī)模的多語言文本數(shù)據(jù)集,其中包括7 200個訓(xùn)練圖像,1 800個驗證圖像和9 000個測試圖像。數(shù)據(jù)集由來自9種語言的完整場景圖像組成。
CTW1500是長曲線文本檢測的具有挑戰(zhàn)性的數(shù)據(jù)集。它包含1 000個訓(xùn)練圖像和500個測試圖像。CTW1500中的文本實例由具有14個點的多邊形標(biāo)記。
本文使用的骨干網(wǎng)絡(luò)以ResNet構(gòu)建,實驗設(shè)備為1塊GTX2080ti的GPU,算法在對IC15和CTW1500上的性能進(jìn)行評估。訓(xùn)練采取遷移學(xué)習(xí)的策略,分為以下2種方式:①直接使用ImageNet上預(yù)訓(xùn)練好的ResNet網(wǎng)絡(luò)模型在不同數(shù)據(jù)集上進(jìn)行訓(xùn)練;②使用IC17-MLT的數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)的預(yù)訓(xùn)練,再在不同數(shù)據(jù)集上通過遷移學(xué)習(xí)的方式進(jìn)行參數(shù)微調(diào)。
方式1:批處理大小為4,完成150 K次迭代(即600個Epoch),初始學(xué)習(xí)率設(shè)置為1×10-3,在50 K和100 K次迭代時除以10。
方式2:使用IC17-MLT中7 200個訓(xùn)練集圖片和1 800個驗證集圖片進(jìn)行預(yù)訓(xùn)練。預(yù)訓(xùn)練時設(shè)置批處理大小為4,在GPU上進(jìn)行720 K次迭代。初始學(xué)習(xí)率設(shè)置為1×10-3,在240 K和480 K迭代時除以10。微調(diào)時設(shè)置批處理大小4,進(jìn)行100 K次迭代,初始學(xué)習(xí)率設(shè)置為1×10-4,在50 K迭代時除以10。不同數(shù)據(jù)集標(biāo)注方式不同,實驗對CTW1500數(shù)據(jù)集采用方式1進(jìn)行訓(xùn)練,對IC15數(shù)據(jù)集采用2種方式分別進(jìn)行訓(xùn)練。進(jìn)行訓(xùn)練本文采用文獻(xiàn)[8]中的權(quán)重初始化方式,使用5×10-4的權(quán)重衰減和0.99的非阻尼動量,所有數(shù)據(jù)集均使用隨機(jī)梯度下降(stochastic gradient descent,SGD)進(jìn)行優(yōu)化。
圖片中參與訓(xùn)練的樣本類型分為正樣本和負(fù)樣本,本文中分別表示包含文本區(qū)域的圖片和不包含文本區(qū)域的圖片。數(shù)據(jù)集中文本區(qū)域僅僅占自然場景圖片中很少的一部分,如果直接進(jìn)行訓(xùn)練會由于正負(fù)樣本數(shù)量不均衡的原因出現(xiàn)誤報。因此本文在實際訓(xùn)練中為了加強(qiáng)對困難模糊文本樣本的訓(xùn)練,解決正負(fù)樣本不均衡的問題,引入了OHEM的訓(xùn)練方法。在訓(xùn)練時對于預(yù)測為真的樣本全部選擇進(jìn)行訓(xùn)練,對于預(yù)測為負(fù)的樣本集合會進(jìn)行排序,把每個batch訓(xùn)練數(shù)據(jù)中損失值很大的樣本(即模型很大概率分類錯誤的樣本)放入該樣本池中,每張圖片的正負(fù)樣本比例保持為1∶3,當(dāng)數(shù)量積累到一個batch以后,將這些樣本放回網(wǎng)絡(luò)重新加強(qiáng)訓(xùn)練。
(9)
(10)
(11)
(9)—(11)式中:Precision表示檢測準(zhǔn)確率;Recall表示檢測召回率;F-measure表示綜合評價指標(biāo);TP表示檢測出且為正確的文本實例的數(shù)量;FP表示未被檢測出的且為正確的文本實例的數(shù)量;FN表示被檢測到的錯誤文本實例的數(shù)量。準(zhǔn)確率和召回率評價算法性能的2個重要指標(biāo),F(xiàn)-measure為2個指標(biāo)的調(diào)和平均數(shù),F(xiàn)-measure的值越大,則認(rèn)為算法綜合性能越好。
1)最小內(nèi)核比例m的影響。設(shè)置內(nèi)核的目的是將相鄰的文本實例更好的分離。最小比例的內(nèi)核無法覆蓋文本實例的完整區(qū)域,見圖4a,這對后續(xù)的檢測與識別的任務(wù)都有較大的效能影響。直接用較小內(nèi)核進(jìn)行預(yù)測文本框,會使檢測準(zhǔn)確率大大降低,同時也使得后續(xù)的識別時無法識別出檢測框中的文字。因此內(nèi)核不能用作最終檢測結(jié)果,需要對內(nèi)核進(jìn)行擴(kuò)展操作生成圖4b中的結(jié)果。
圖4 最小內(nèi)核與完整內(nèi)核檢測圖Fig.4 Infulence of minimum kernel m on detection performance of different data sets
為了評估內(nèi)核比例對檢測結(jié)果的影響,實驗采取控制變量法,通過固定特征內(nèi)核數(shù)n,采用方式1進(jìn)行訓(xùn)練,來研究最小內(nèi)核比例m的影響,并讓最小內(nèi)核比例m從0.1逐步增加到1,在ICDAR2015和CTW1500 2個數(shù)據(jù)集上評估了模型。最小內(nèi)核m對不同數(shù)據(jù)集檢測性能的影響見圖5,當(dāng)m的值設(shè)置過大或者過小時,均使最終的F-measure的值有不同程度的下降。當(dāng)設(shè)置內(nèi)核比例為1時,表示僅將文本分割圖用作最終結(jié)果,即沒有使用內(nèi)核擴(kuò)展算法,此時的網(wǎng)絡(luò)無法將彼此靠得很近的文本分開。因此,當(dāng)m取值較大時,網(wǎng)絡(luò)很難將彼此靠近的文本實例分開。當(dāng)m取值較小時,網(wǎng)絡(luò)則會錯誤地將部分較長的文本行拆分為不同的部分,使得訓(xùn)練無法很好地收斂。IC15數(shù)據(jù)集中當(dāng)m=0.4時,F(xiàn)-measure的值最高為80.89%;在CTW1500數(shù)據(jù)集中當(dāng)m=0.6時,F(xiàn)-measure的值最高能達(dá)到78.83%。
2)骨干網(wǎng)絡(luò)深度的影響。大量研究表明更深的神經(jīng)網(wǎng)絡(luò)往往可以提高大規(guī)模圖像分類和目標(biāo)檢測的性能。為了更好地分析骨干網(wǎng)絡(luò)對其性能的影響,文本采用在ImageNet上預(yù)訓(xùn)練好的ResNet作為主干,在ICDAR2015數(shù)據(jù)集下進(jìn)行直接訓(xùn)練的方式,用3個不同深度的同類型網(wǎng)絡(luò)Res-50、Res-101、Res-152進(jìn)行了測試和對比,結(jié)果見表2,在其余參數(shù)相同的情況下,將骨干網(wǎng)絡(luò)深度從50擴(kuò)展到152可以明顯地將性能從80.8%提高到81.7%。
圖5 最小內(nèi)核m對不同數(shù)據(jù)集檢測性能的影響Fig.5 Infulence of minimum kernel m on detection performance of different data sets
1)檢測曲線文本。為了測試檢測曲線文本檢測的能力,本文在CTW1500曲線文本數(shù)據(jù)集上評估了提出的方法。同樣使用ResNet50作為骨干網(wǎng)絡(luò),在測試階段,將該數(shù)據(jù)集圖像的長邊縮放到1 280。在處理曲線文本時,由于執(zhí)行了像素級的分類和多尺度內(nèi)核的擴(kuò)展,能夠取得較好的分割與檢測性能。CTW1500數(shù)據(jù)集的方法對比見表3。因為像素能夠向任意方向合并,所以本文算法在處理曲線文本和不規(guī)則文本時準(zhǔn)確率達(dá)到了83.5%,同時F-measure相比TextSnake提高了3.2%,不同數(shù)據(jù)集上的檢測效果圖見圖6。圖6a表明了本文模型能夠很好地分離那些閉合文本實例,不僅可以檢測彎曲文本實例,還能夠檢測具有極高的彎曲率的環(huán)形文本實例。
表2 骨干網(wǎng)絡(luò)深度的影響Tab.2 Influence of backbone network depth %
圖6 不同數(shù)據(jù)集上的檢測效果圖Fig.6 Detection results on different data sets
表3 CTW1500數(shù)據(jù)集的方法對比Tab.3 Comparison of CTW1500 dataset methods %
2)檢測多方向四邊形文本。為了評估模型對定向文本的檢測能力,本文在IC15的數(shù)據(jù)集上進(jìn)行了2種方式的訓(xùn)練,結(jié)果見圖6b。由于實驗證明IC17-MLT中包含大量文本數(shù)據(jù)和標(biāo)注,能夠更好適應(yīng)文本檢測任務(wù),所以通過方式2訓(xùn)練的模型其F-measure超過方式1訓(xùn)練的模型5%。IC15的數(shù)據(jù)集有較多復(fù)雜難辨的模糊文本。在測試階段將輸入圖像的較長邊比例縮放到2 240,取得的性能最佳的F值為86.01%,比R2CNN高了3.5%,同時檢測的準(zhǔn)確率也達(dá)到了87.64%,超過R2CNN[18]方法2.04%,其中*表示采用方式2進(jìn)行訓(xùn)練,具體結(jié)果見表4。
由于FPN網(wǎng)絡(luò)由ResNet為骨干網(wǎng)絡(luò)構(gòu)建,因此ResNet的深度則會影響整個模型的檢測速度,網(wǎng)絡(luò)層數(shù)越多,需要訓(xùn)練的參數(shù)就更多,速度便會下降。內(nèi)核擴(kuò)展算法的時間復(fù)雜度為O(W×H),其中,W×H是輸出圖像的大小,此部分的運行速度只與輸出圖像的尺度有關(guān)。
表4 ICDAR2015數(shù)據(jù)集的方法對比Tab.4 Comparison of ICDAR2015 dataset methods %
不同模型在ICDAR2015數(shù)據(jù)集上的速度運行對比見表5?!?1”表示輸出圖像與輸入圖像大小相等,此時網(wǎng)絡(luò)模型性能最佳,但由于較大的特征圖使得擴(kuò)展算法需要包含更多像素,需要更多次的迭代,所以其速度會下降?!?4”表示輸出圖像大小為輸入的1/4,此時模型的FPS上升至6.3,性能雖然有小幅度下降,但仍然具有良好的檢測性能。表5中,R2CNN模型的精度雖然較高,但是其FPS值最高為僅為2.5,表明本文模型在運行速度方面仍具有一定優(yōu)勢。模型速度測試在1塊2080ti GPU上完成,F(xiàn)PS值為測試過程平均速度。
表5 不同模型在ICDAR2015數(shù)據(jù)集上的速度運行對比Tab.5 Comparison of the running speed of different models on the ICDAR2015 data set
本文提出了一種基于特征金字塔網(wǎng)絡(luò)和內(nèi)核擴(kuò)展網(wǎng)絡(luò)的深度學(xué)習(xí)文本檢測網(wǎng)絡(luò)模型,通過構(gòu)建FPN網(wǎng)絡(luò)提取具有魯棒性多級特征分割圖,再從多個分割圖將檢測到的區(qū)域從小內(nèi)核逐漸擴(kuò)展到完整實例的方式得到最終檢測結(jié)果,能夠輕松地分離距離非常接近的文本實例,而像素級的分類也使其能完成任意形狀的文本實例的檢測任務(wù)。下一步的研究方向應(yīng)該專注于對于骨干網(wǎng)絡(luò)的優(yōu)化,采用一些新型的更加輕量級的網(wǎng)絡(luò),同時采取一些特征增強(qiáng)的方法,使得速度能夠得到進(jìn)一步提升,能夠達(dá)到實時檢測的要求。