• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多尺度注意力機制的場景文本擦除

      2022-08-15 12:13:56劉成林
      模式識別與人工智能 2022年7期
      關鍵詞:像素點損失背景

      何 平 張 恒 劉成林,3

      場景文本作為信息傳遞的媒介,不管是在現(xiàn)實世界還是在虛擬世界,都與人類的生活、生產息息相關.除了新聞、報紙、招聘等共有信息之外,場景文本也包含很多的私人信息或敏感信息,包括交易信息、通信記錄和內容、征信信息、賬號密碼、財產信息、行蹤軌跡等[1-2].如何保護個人信息不受不法分子的利用,直接關系到個人的生命和財產安全.現(xiàn)有保護隱私的方法一般是直接刪除圖像文字中涉及個人隱私的信息,但對于大量的圖像文字,刪除需要高昂的人工成本.隨著人工智能的發(fā)展,基于深度學習的自然場景文本擦除[3-4]成為一個新興的研究方向,相比自然場景文本檢測[5-6]技術,場景文本擦除中的背景修復面臨更多的挑戰(zhàn).

      文本擦除借鑒圖像修復的思想,需要對文本區(qū)域進行背景復原,但文本擦除比圖像修復更困難,因為文本擦除不僅需要關注文本區(qū)域,還需要關注非文本區(qū)域,防止非文本區(qū)域被網(wǎng)絡誤擦除.Shi等[7]通過局部相似性約束和稀疏建模,提出有效的基于樣本的修復算法,先計算需要填充的順序,再重建目標文本區(qū)域,以視覺合理的方式有效填充缺失像素.隨著生成對抗網(wǎng)絡(Generative Adversarial Networks, GAN)[8]應用于圖像生成領域,Isola等[9]提出pix2pix,使用條件生成對抗網(wǎng)絡(Conditional GAN, cGAN)作為圖像到圖像的轉換方法,改變卷積核大小以提高網(wǎng)絡的感受野.Isola等[9]證實使用PixelGAN(Pixel-Based GAN)[10]擦除文本會導致擦除的像素點變成紅色,而PatchGAN(Patch-Based GAN)[9]雖然可改進網(wǎng)絡輸出的清晰度,但也會導致圖像重影,難以訓練.相對來說,cGAN著色效果更優(yōu),但是生成的圖像中偶爾會產生部分灰度區(qū)域.

      上述文本擦除方法雖然取得一定效果,但魯棒性較差,只能在背景單一的圖像上產生較好的擦除效果.而自然場景文本圖像往往存在背景復雜多變、文本方向隨意或字體多變等問題,現(xiàn)有方法難以準確識別文本區(qū)域和非文本區(qū)域,導致擦除效果較差.為了使文本擦除技術更好地滿足人們日常生活的應用需求,學者們開始研究復雜背景的自然場景文本擦除方法.近年來,主要采用基于深度神經網(wǎng)絡的方法.這些方法主要可分為兩階段方法和一階段方法.

      兩階段方法是將文本檢測和背景修復作為上下游任務.先檢測圖像中的文本區(qū)域,再將文本區(qū)域的掩碼作為背景修復網(wǎng)絡的輸入,對檢測的文本區(qū)域進行修復.Tursun等[11]提出MTRNet(Mask-Based Text Removal Network),使用人工提供的文本掩碼輔助文本檢測網(wǎng)絡精準定位圖像中的文本區(qū)域,再修復檢測的文本區(qū)域,實現(xiàn)文本擦除區(qū)域的可控性.Zdenek等[12]提出不需要成對訓練圖像的弱監(jiān)督方法,利用現(xiàn)有的文字檢測數(shù)據(jù)集[1,13]和圖像修復數(shù)據(jù)集[14-16]進行文本檢測網(wǎng)絡和背景修復網(wǎng)絡的預訓練,只需要額外少量強標注數(shù)據(jù)進行模型調優(yōu).Tang等[4]和Cho等[17]優(yōu)化文本檢測網(wǎng)絡,使文本區(qū)域的定位更準確,進一步提升文本擦除的性能.

      一階段方法使用端到端技術,即只用一個網(wǎng)絡框架完成文本擦除任務.Nakamura等[18]提出STE(Scene Text Eraser),采用圖像變換的方法,對滑動窗口裁剪的圖像進行快速處理.該方法為了提高模型輸出的分辨率,保留圖像中非文本區(qū)域.Tursun等[19]為了解決圖像裁剪會破壞上下文信息的問題,提出DCNN(Deep Convolution Neural Networks),通過“軟注意力”減少對文本區(qū)域裁剪殘缺的負面影響,使用“硬注意力”準確識別圖像中的文字信息,進一步提升文本區(qū)域的擦除效果.為了加速網(wǎng)絡訓練的速度,Zhang等[20]提出EnsNet(Ensconce Net-work),并使用4個損失函數(shù)增強文本區(qū)域的檢測和擦除,以保證非文本區(qū)域的完整性.為了解決文本定位問題,Liu等[3]和Tursun等[21]將文本檢測網(wǎng)絡和背景修復網(wǎng)絡并行訓練,通過文本檢測網(wǎng)絡感知圖像中的文本區(qū)域,但在實際應用中,輸出的文本檢測結果并未應用到背景修復網(wǎng)絡,只是為了使網(wǎng)絡可更好地定位和修復自然圖像中的文本.

      相比一階段方法,兩階段方法的可解釋性更強,研究人員可通過可視化結果判斷是文本檢測網(wǎng)絡需要優(yōu)化,還是背景修復網(wǎng)絡需要優(yōu)化.但是,一階段方法網(wǎng)絡參數(shù)更少,運行效率更高.現(xiàn)有的文本擦除方法忽視文本區(qū)域和非文本區(qū)域像素點之間的聯(lián)系,以及原始特征的通道和空間維度的相互關聯(lián),所以都存在文字檢測不準確、文本區(qū)域修復不連貫等問題.

      為了解決上述問題,本文提出基于多尺度注意力機制的場景文本擦除框架(Scene Text Removal Based on Multi-scale Attention Mechanism, MASTR).框架主要由文本檢測網(wǎng)絡和背景修復網(wǎng)絡組成.文本檢測網(wǎng)絡可使背景修復網(wǎng)絡感知圖像中的文本區(qū)域,文本擦除、背景生成、文本區(qū)域的重構與恢復由背景修復網(wǎng)絡一步完成.在SCUT-SYN[20]、SCUT-EnsText[3]這2個文本擦除數(shù)據(jù)集上的實驗表明,MASTR的擦除效果較優(yōu).

      1 基于多尺度注意力機制的場景文本擦除

      1.1 整體框架

      本文提出基于多尺度注意力機制的場景文本擦除框架,整體框架如圖1所示.文本檢測網(wǎng)絡和背景修復網(wǎng)絡共享一個主干網(wǎng)絡,訓練過程中并行優(yōu)化.網(wǎng)絡的整體訓練是一個端到端過程.

      受文獻[22]的啟發(fā),在場景文本擦除框架中設計上下文感知模塊(Context Aware Module, CAM)和紋理自適應模塊(Texture Adaptive Module, TAM).CAM學習圖像中文本區(qū)域和非文本區(qū)域之間的判別特征,增強網(wǎng)絡的文本檢測性能.TAM從原始特征的通道和空間2個維度進行特征提取,有效修復因重構文本區(qū)域而導致的陰影部分.此外,在文本檢測網(wǎng)絡和粗糙背景生成器中加入多尺度特征損失,有效增強網(wǎng)絡感受野,提升網(wǎng)絡對不同尺度文本的檢測和擦除性能.

      圖1 MASTR整體框架

      1.2 背景修復網(wǎng)絡

      借鑒GAN的思想,背景修復網(wǎng)絡由生成器G和判別器D共同組成,通過交替更新G、D的網(wǎng)絡參數(shù),不斷促進生成器學習圖像中空間信息和語義信息的分布,生成和目標域相同的圖像,最終使判別器無法對數(shù)據(jù)來源做出正確判斷.

      1.2.1 生成器結構

      由以往場景文本擦除方法[4,21]可知,深度神經網(wǎng)絡通過提取更豐富的特征信息,可緩解大規(guī)模文本區(qū)域難以修復的問題,而淺層神經網(wǎng)絡[21]提取的特征抽象程度不高,常因感受野較小導致文本區(qū)域修復不完整.因此本文也采取兩階段生成器,第1階段為粗糙背景生成器,第2階段為精致背景生成器.粗糙背景生成器和文本檢測網(wǎng)絡共享一個主干網(wǎng)絡,主干網(wǎng)絡由2個卷積層和6個殘差模塊[23]組成.

      為了加強特征的紋理特征表示能力,本文設計TAM,結構如圖2所示.TAM從原始特征的通道和空間2個維度進行特征表示,自適應地集成局部特征與全局特征,有效提升背景修復效果.學習過程分為兩步,先學習原始特征的通道注意力得分,再在此基礎上學習該特征的空間注意力得分.

      記輸入到TAM的特征圖x∈(C,H,W) ,其中,C表示通道數(shù),H表示高度,W表示寬度,通道注意力得分為:

      Cscore(x)=S(MLP(Max(x))+MLP(Mean(x))),

      圖2 TAM模塊結構

      其中,S(·)表示Sigmoid激活函數(shù),Max(·)表示對特征圖進行最大池化,Mean(·)表示對特征圖進行平均池化.多層感知機(Multilayer Perception, MLP)是一個兩層的神經網(wǎng)絡,第1層神經元個數(shù)為C/16,第2層神經元個數(shù)為C.空間注意力得分為:

      Sscore(x)=S(Max(x)‖Mean(x)),

      其中‖表示矢量拼接操作.

      粗糙背景生成器將輸入的原始圖像進行5次下采樣和5次上采樣,在上采樣過程中矢量拼接下采樣特征,通過矢量拼接不同層次的特征,緩解因網(wǎng)絡加深而導致空間信息損失的問題.借鑒特征金字塔網(wǎng)絡(Feature Pyramid Networks, FPN)[24]的思想,基于修復區(qū)域的尺度大小不一,利用網(wǎng)絡的每層卷積對圖像進行多尺度特征提取,使圖像可產生豐富的特征表示.在上采樣過程中,將128×128、256×256、512×512的圖像分別送入TAM中,自適應地集成局部特征與全局特征,再分別計算相應分辨率真值圖像和經過TAM輸出圖像的L1損失函數(shù).

      精致背景生成器的輸入是粗糙背景生成器的輸出,可加深網(wǎng)絡層數(shù),獲取更豐富的語義信息.精致背景生成器為了有效增強網(wǎng)絡感受野,盡量獲取更大范圍的圖像信息,在128×128的特征上進行6次空洞卷積[25],并應用跳躍連接集成低級語義信息與高級語義信息.為了防止信息冗余,只在精致背景生成器網(wǎng)絡中的最后一層應用TAM,再計算網(wǎng)絡最終輸出和對應真值的L1損失函數(shù).

      1.2.2 判別器結構

      本文使用的判別器為SNGAN(Spectral Norm GAN)[26],在cGAN基礎上使用SpectralNorm函數(shù)代替BatchNorm2d函數(shù),使判別器滿足Lipschitz約束,優(yōu)化網(wǎng)絡的訓練.

      其中,Maskgt表示對應的文本掩碼真值,0表示非文本區(qū)域,1表示文本區(qū)域,F(xiàn)img表示輸入到MASTR的圖像,F(xiàn)eg表示精致背景生成器的最終輸出.

      1.3 文本檢測網(wǎng)絡

      當輸入的原始圖像進行背景修復時,網(wǎng)絡應提供精準的文本區(qū)域定位,保證背景修復的連貫性及非文本區(qū)域的完整性.由于背景修復是從粗糙背景生成器開始,因此文本檢測網(wǎng)絡和粗糙背景生成器共享一個主干網(wǎng)絡.

      由于文本區(qū)域在一幅圖像上只占有較少的一部分,應使網(wǎng)絡著重關注于文本區(qū)域而非整幅圖像,特征提取過程中給文本區(qū)域賦予更高的權重,過濾噪聲信息.其次,文本區(qū)域的像素點一般都是連續(xù)出現(xiàn),不會在非文本區(qū)域存在幾個孤立的文本像素點,所以需要過濾獨立噪聲.基于上述分析,本文在TAM的基礎上進一步改進,設計CAM,結構如圖3所示.

      先將特征輸入TAM,自適應學習其中的紋理特征,得到Fout1.再進行自注意力學習,充分挖掘圖像中像素點之間的依賴關系,得到最終的特征輸出Fout2.具體過程如下.

      將Fout1∈RC×H×W分別送入3個卷積核均為(1,1)、輸出通道數(shù)為C/16、C/16、C的特征空間Fk(x)、Fq(x)和Fv(x):

      Fk(x)=Wkx,F(xiàn)q(x)=Wqx,F(xiàn)v(x)=Wvx,

      與此同時,特征圖Fout1經過特征空間Fv(x)與Bj,i構成的注意力權重矩陣相乘,得到注意力層的輸出:

      其中Fv(x)表示輸入信息xi與權重矩陣Wv∈RC×H×W的乘積.

      最后,將注意力層的輸出與比例系數(shù)ε相乘,并和輸入特征圖Fout1加權,得到最終輸出:

      Fout2=εqi+Fout1,

      其中ε的初始值為0.隨著網(wǎng)絡訓練的推進,注意力特征圖逐漸為文本區(qū)域分配更多的權重.

      同樣,文本檢測網(wǎng)絡也借鑒FPN的思想,在上采樣過程中,將32×32、128×128、512×512的圖像分別送入CAM,用于增強圖像文本特征.再分別計算相應分辨率真值圖像和經過CAM輸出圖像的損失函數(shù).

      圖3 CAM模塊結構

      1.4 損失函數(shù)

      1.4.1 生成對抗損失

      GAN是訓練背景修復網(wǎng)絡的核心損失,本文采用SNGAN中譜歸一化的合頁損失函數(shù)(Hinge Loss).Hinge Loss可使GAN訓練更穩(wěn)定,并且額外的計算成本很少.具體公式如下:

      LadvD=Ex~Pdata(x)[Max(1-D(x),0)]+
      Ez~Pz(z)[Max(1+D(G(y,z)), 0)],

      LadvG=-Ez~Pz(z)[D(G(y,z))],

      其中,D表示判別器結構,G表示生成器結構,x表示網(wǎng)絡輸入,y表示網(wǎng)絡輸出,z表示相對應真值.

      1.4.2 自適應紋理損失

      為了使生成器可自適應地生成背景紋理,粗糙背景生成器在128×128、256×256、512×512的圖像上應用多尺度L1損失.為了防止監(jiān)督信息冗余,精致背景生成器只在512×512的圖像上應用L1損失.自適應紋理總體損失定義為

      LG=LRBG+LEBG,

      τ1=5,τ2=6,τ3=8,κ=0.8,ψ=10,ω=2.

      1.4.3 文本檢測損失

      對于文本檢測網(wǎng)絡的學習,由于文本區(qū)域經常在整幅圖像中只占部分區(qū)域,因此使用Dice損失函數(shù)[27],使網(wǎng)絡在訓練過程中更側重于文本區(qū)域的挖掘.由于自然場景文本的特殊性,根據(jù)經驗在32×32、128×128、512×512的特征上進行多尺度特征損失計算,S為文本檢測網(wǎng)絡的輸出,(h,w)為像素值,則文本檢測損失函數(shù)定義為

      1.4.4 內容風格損失

      正如文獻[3]所述,不同的高級特征監(jiān)督學習對背景修復和文本檢測較有效,在高級特征中引入內容風格約束,可強制輸出圖像和對應的真值匹配.使用在ImageNet[28]上預訓練的VGG-16網(wǎng)絡提取輸出圖像和相應真值的特征,VGG-16在特征提取上具有較好的泛化性和擴展性.內容風格損失如下:

      其中,Lcontent表示內容損失函數(shù),Lstyle表示風格損失函數(shù),Vi表示預訓練的VGG-16的第i個池化層,設置超參數(shù)η=0.05,ξ=120.

      綜上所述,本文最終的損失函數(shù)為生成對抗損失、自適應紋理損失、文本檢測損失和內容風格損失之和,由于生成對抗網(wǎng)絡開始生成的圖像質量較差,導致總的損失函數(shù)為負.為了平衡網(wǎng)絡的訓練,設置生成對抗損失的權重為0.1,因此,最終損失函數(shù)定義為

      Lfinal=0.1LadvG+LG+LTD+LCS.

      2 實驗及結果分析

      2.1 實驗細節(jié)

      本文分別在2個代表性的場景文本擦除數(shù)據(jù)集SCUT-SYN和SCUT-EnsText上進行網(wǎng)絡訓練,分別在它們各自相應的測試集上進行評估.SCUT-SYN數(shù)據(jù)集的訓練集包含8 000幅圖像,測試集包含800幅圖像.數(shù)據(jù)集本身未提供文本區(qū)域的定位坐標,因此本文將訓練集上的圖像和對應的真值相減,之后將RGB圖像轉換成二值圖像,得到文本掩碼真值,根據(jù)經驗設置像素閾值為25,大于25定義為文本區(qū)域,小于25定義為非文本區(qū)域.SCUT-EnsText數(shù)據(jù)集的訓練集包含2 749幅圖像,測試集包含813幅圖像,本身提供文本區(qū)域的定位坐標.這2個數(shù)據(jù)集的圖像尺寸都為512×512.SCUT-EnsText數(shù)據(jù)集包含更多現(xiàn)實場景文本可能存在的復雜情況,如光線微弱、背景復雜、字體多變等,擦除難度更大.

      訓練過程中按概率0.3隨機將圖像最大旋轉10°,進行數(shù)據(jù)增強.優(yōu)化器選用Adam(Adaptive Moment Estimation),生成器網(wǎng)絡的學習率設置為0.000 1,判別器網(wǎng)絡的學習率設置為0.000 4,批尺寸設置為4.在顯卡TITAN RTX上單卡訓練.

      2.2 評估指標

      為了全面評估輸出圖像的質量,本文采用如下6種評價指標.

      1)均方誤差(Mean Square Error, MSE),計算兩幅圖像的均方誤差.圖像X∈(h,w)、Y∈(h,w)在像素點上的均方誤差為:

      2)峰值信噪比(Peak Signal to Noise Ratio, PSNR).由于場景文本擦除技術在根本上是對比文本區(qū)域像素點的差別,而MSE對像素點細微變化并不敏感,因此PSNR可細致表達像素點之間的誤差,具體公式如下:

      3)平均結構相似性(Mean Structural Similarity, MSSIM).主要從亮度、結構和對比度方面考查圖像的相似性,具體公式如下:

      其中,l(X,Y)表示亮度,c(X,Y)表示結構,s(X,Y)表示對比度,uX表示圖像X像素點的均值,uY表示圖像Y像素點的均值,σX表示圖像X像素點的方差,σY表示圖像Y像素點的方差,σXY表示圖像X、Y關于像素點的協(xié)方差.為了防止分母為0,設置常數(shù)

      c1=(0.01×255)2,c2=(0.03×255)2.

      4)灰度像素平均值(AGE).表示兩幅圖像經過灰度處理后的平均誤差,具體公式如下:

      其中,D(h,w)表示兩幅灰度圖像之間差值的絕對值,g(·)表示對彩色圖像進行灰度處理.

      5)灰度像素百分比(pEPs).對比2幅圖像經過灰度處理后的錯誤像素百分比,當像素點誤差在20以內被認為是相同像素,誤差在20以外被認為是不同像素,具體公式如下:

      6)灰度像素聚合百分比(pCEPs).在pEPs基礎上進一步優(yōu)化,當4個相鄰的像素點誤差都在20以外,認定該像素點是不同像素,否則是相同像素,具體公式如下:

      D(h-1,w),D(h,w+1)),

      在各項指標中:PSNR、MSSIM值越高,擦除性能越優(yōu);MSE、AGE、pEPs、pCEPs值越低,擦除性能越優(yōu).

      2.3 實驗結果對比

      本次實驗選用如下對比方法:EraseNet(Erase Network)[3]、pix2pix[9]、STE[18]、EnsNet[20].在場景文本擦除的合成數(shù)據(jù)集SCUT-SYN和真實數(shù)據(jù)集SCUT-EnsText上對比各方法的指標值,結果如表1所示.在表中,EraseNet*為復現(xiàn)結果,其余結果直接引自相應文獻,黑體數(shù)字表示最優(yōu)值.

      Isola等[9]提出pix2pix,使用cGAN作為圖像到圖像轉換問題的通用解決方案,雖然相比傳統(tǒng)方法在修復速度和效率上都有明顯提升,但是由于場景文本的特殊性,在SCUT-SYN數(shù)據(jù)集上的修復效果并不好,PSNR僅為26.76,MSSIM僅為 91.08%.Nakamura等[18]提出STE,將整幅圖像裁剪成各小塊再輸入訓練網(wǎng)絡中,使網(wǎng)絡可在小尺度上刪除文本區(qū)域,缺點是破壞圖像的全局上下文信息,導致擦除不全面.Zhang等[20]改進STE,提出EnsNet,首先在整幅圖像上進行端到端訓練,然后提出4個損失函數(shù),確保非文本區(qū)域和文本區(qū)域的完整性,缺點是在網(wǎng)絡訓練時未利用文本的位置信息,導致網(wǎng)絡修復時不能準確定位文本位置.Liu等[3]在EnsNet的基礎上進一步優(yōu)化,提出EraseNet,在網(wǎng)絡訓練時加入文本位置信息,在生成器中使用兩次擦除,保證文本區(qū)域擦除得更干凈,缺點是在加入文本位置信息時,忽略場景文本的多尺度特性,在網(wǎng)絡訓練過程中未意識到文本區(qū)域和非文本區(qū)域在圖像中的紋理關系.本文的MASTR在訓練過程中有效結合多尺度特征和注意力機制,設計TAM和CAM.TAM從原始特征的通道和空間2個維度進行特征提取,自適應地集成局部特征與全局特征.CAM學習圖像中文本區(qū)域和非文本區(qū)域像素點之間的判別關系.同時,設計多尺度特征損失函數(shù)優(yōu)化這兩個模塊,增強網(wǎng)絡的感受野,提升處理不同尺度文本的能力.

      由表1可見,MASTR在2個數(shù)據(jù)集上都達到最優(yōu).結果提升幅度較小的原因是,評估結果是在整幅圖像上,而文本區(qū)域往往在圖像中只占很少部分.

      表1 各方法在2個數(shù)據(jù)集上的指標值對比

      為了公平對比方法的推理速度,在SCUT-Ens-Text測試集上測試擦除速度,結果如表2所示.由表可見,MASTR仍是輕量級網(wǎng)絡,擦除一幅圖像需要47 ms,網(wǎng)絡參數(shù)僅占用內存19.74 M.

      表2 各方法在SCUT-EnsText測試集上的擦除速度對比

      2.4 消融實驗結果

      為了驗證MASTR中TAM、CAM和多尺度特征損失的有效性,在SCUT-EnsText數(shù)據(jù)集上進行消融實驗,共進行6組對比實驗:1)Baseline[3].2)背景修復網(wǎng)絡使用TAM(記為Baseline*+TAM1).3)背景修復網(wǎng)絡和文本檢測網(wǎng)絡都使用TAM(記為Baseline*+TAM2).4)背景修復網(wǎng)絡使用TAM,文本檢測網(wǎng)絡使用CAM(記為Baseline*+TAM1+CAM1).5)背景修復網(wǎng)絡和文本檢測網(wǎng)絡都使用CAM(記為Baseline*+CAM2).6)MASTR.

      各方法消融實驗結果如表3所示,表中黑體數(shù)字為最優(yōu)值,Baseline*為復現(xiàn)結果.相關可視化結果如圖4所示.

      表3 各方法在SCUT-EnsText數(shù)據(jù)集上的消融實驗結果

      對比Baseline和Baseline*+TAM1,在背景修復網(wǎng)絡中使用TAM后,各指標值均有所提高,表明TAM可有效學習通道和空間2個維度上的特征,自適應集成局部特征與全局特征,有效提升背景修復效果.圖4的可視化結果也直接驗證TAM的有效性.

      對比Baseline*+TAM1和Baseline*+TAM1+CAM1,可驗證CAM的有效性.通過學習圖像中文本區(qū)域和非文本區(qū)域像素點之間的判別關系,提升檢測模型的文本檢測效果.圖4的可視化結果也表明,基于CAM的方法對于Baseline中未擦除干凈的小區(qū)域文本更有效.

      對比Baseline*+TAM1+CAM1和MASTR可看出,使用多尺度特征損失在紋理細節(jié)特征表示、多尺度文本擦除方面表現(xiàn)更優(yōu),擦除后的圖像更完整,細節(jié)特征更清晰,提升模型處理不同尺度文本的能力.

      為了驗證CAM和TAM的獨特性,本文嘗試使用CAM替換TAM或使用TAM替換CAM.由表3可看出,替換后的精度都有所下降,圖4的可視化結果中替換后的擦除效果也較差.當CAM替換TAM后,由于文本檢測網(wǎng)絡不能學習像素點之間的特征關系,檢測效果減弱.當TAM替換CAM后,單方面的加深網(wǎng)絡并不能提升擦除效果,反而破壞圖像的空間信息.因此,通過消融實驗可看出MASTR的有效性和獨特性.

      (a)輸入圖像 (b)真值 (c)Baseline*

      (d)Baseline*+TAM1

      (g)Baseline*+CAM2 (h)MASTR

      2.5 可視化分析

      MASTR在SCUT-EnsText真實數(shù)據(jù)集上修復文本區(qū)域的結果如圖5所示,圖中MASTR_text為場景文本檢測網(wǎng)絡的輸出.MASTR更有利于修復文字大小適中、背景和前景顏色容易區(qū)分、背景顏色為純色的圖像,如圖5中第1幅~第3幅圖像所示.第4幅圖像中文本區(qū)域周圍紋理較復雜,導致文本檢測網(wǎng)絡無法準確定位文字輪廓,并且周圍背景過于復雜,導致背景修復網(wǎng)絡無法修復與周圍背景區(qū)域相似的紋理.在第5幅圖像中,MASTR對藝術字體檢測不全,導致文本擦除不全,主要由于訓練模型時,訓練集并未包含與之對應的藝術字體,導致網(wǎng)絡檢測失敗.在第6幅圖像中,MASTR檢測到文本區(qū)域,但大尺寸的文字會導致背景修復網(wǎng)絡產生很差的修復效果,主要是因為背景修復網(wǎng)絡的感受野不足.

      (a)輸入圖像

      (b)真值

      (c)MASTR

      (d)MASTR_text

      2.6 泛化性能

      為了驗證MASTR的泛化性,使用ICDAR-2013測試集[1]測試MASTR的擦除性能.由于此數(shù)據(jù)集沒有擦除后的真值圖像,因此對擦除后的圖像使用在SynText、ICDAR-2013、MLT-2017數(shù)據(jù)集上的預訓練模型CRAFT(Character Region Awareness for Text Detection)[29]進行文本檢測,檢測的文本框越少,表明MASTR擦除文本的性能越優(yōu).具體泛化結果如表4所示,表中黑體數(shù)字為最優(yōu)值,Baseline*為復現(xiàn)結果,其余結果直接引自原文獻,Original images表示文本擦除前ICDAR-2013測試集上的評估結果.由表4可知,MASTR泛化性能最優(yōu).

      表4 各方法在ICDAR-2013數(shù)據(jù)集上的泛化實驗結果

      MASTR在ICDAR-2013測試集上的擦除結果如圖8所示,每組圖像左邊為原圖,右邊為擦除后圖像經過CRAFT文本檢測網(wǎng)絡后的輸出,紅色邊框表示CRAFT文本檢測網(wǎng)絡檢測的文本框.

      圖6 MASTR在ICDAR-2103數(shù)據(jù)集上泛化性能的可視化

      3 結 束 語

      本文提出基于多尺度注意力機制的場景文本擦除框架(MASTR).在文本檢測網(wǎng)絡中設計上下文感知模塊,更好地學習圖像中文本區(qū)域和非文本區(qū)域像素點之間的判別特征,增強網(wǎng)絡的文本檢測性能.同時在背景修復網(wǎng)絡中設計紋理自適應模塊,從原始特征的通道和空間2個維度進行特征提取,有效修復因重構文本區(qū)域而導致的陰影部分.此外,在文本檢測網(wǎng)絡和背景修復網(wǎng)絡中分別計算多尺度特征損失,有效增強網(wǎng)絡感受野,加強網(wǎng)絡對不同尺度文本的檢測和擦除.在SCUT-SYN、SCUT-EnsText數(shù)據(jù)集上的實驗表明,MASTR擦除效果較優(yōu).

      今后可從兩個方向著手進行改進:1)提出更有效、精準的擦除模型,使網(wǎng)絡學習更具體、細致的紋理,更有效地檢測多尺度文本區(qū)域并進行擦除.2)提高網(wǎng)絡的訓練速度,快速、有效地訓練網(wǎng)絡,更好地運用于現(xiàn)實場景.

      猜你喜歡
      像素點損失背景
      少問一句,損失千金
      “新四化”背景下汽車NVH的發(fā)展趨勢
      胖胖損失了多少元
      《論持久戰(zhàn)》的寫作背景
      當代陜西(2020年14期)2021-01-08 09:30:42
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      基于canvas的前端數(shù)據(jù)加密
      基于逐像素點深度卷積網(wǎng)絡分割模型的上皮和間質組織分割
      晚清外語翻譯人才培養(yǎng)的背景
      一般自由碰撞的最大動能損失
      基于Node-Cell結構的HEVC幀內編碼
      電視技術(2014年11期)2014-12-02 02:43:28
      黎城县| 绥江县| 海口市| 定兴县| 台北县| 炉霍县| 镇平县| 崇礼县| 长兴县| 泾川县| SHOW| 托里县| 桦南县| 兴安县| 雷州市| 新郑市| 沽源县| 玉树县| 嘉荫县| 承德市| 中牟县| 永年县| 静乐县| 乌什县| 思南县| 乌拉特中旗| 垦利县| 惠安县| 五指山市| 秀山| 巨野县| 遂溪县| 建水县| 垣曲县| 望奎县| 泾源县| 楚雄市| 海兴县| 淮阳县| 鄂伦春自治旗| 丹寨县|