• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本檢測與識別在細粒度圖片分類中的應(yīng)用①

      2020-11-13 07:12:34倩,劉
      計算機系統(tǒng)應(yīng)用 2020年10期
      關(guān)鍵詞:細粒度準確率卷積

      姜 倩,劉 曼

      (北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

      1 概述

      隨著互聯(lián)網(wǎng)技術(shù)發(fā)展的越來越成熟,人們進行交流和傳遞信息變得更加方便快捷,可使用的方式也變得多樣化,更多的人使用圖片或者視頻來傳遞信息.而文字作為人們交流對話的媒介,是圖片和視頻中信息的主要表達形式,所以文本識別的重要性不言而喻.目前,文本識別已廣泛應(yīng)用到地圖搜索,運單識別,證件識別等各種應(yīng)用中,文本的智能化識別在帶來極大的便利的同時也極大的提高了工作的效率.在圖片分類領(lǐng)域中,細粒度分類作為圖片分類任務(wù)中的一個極其重要的分支,雖然圖片分類技術(shù)日趨成熟,利用深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)在ImageNet[1]比賽中圖片分類準確率可以達到99%.但是在細粒度的圖像分類中,由于不同種類的特征比較相似,常用的特征提取方法得到的準確率還沒有達到最優(yōu),仍有需求來打破瓶頸,使得其準確率能夠比肩成熟的圖片分類.因此,本論文中研究了文本識別在細粒度分類中的應(yīng)用,我們將文本檢測與識別的算法應(yīng)用于Con-text[2]數(shù)據(jù)集.Con-text是一個建筑物類圖片的數(shù)據(jù)集,包含咖啡店,洗衣店,餐廳等各類建筑物.從外觀上觀察這些建筑物并無太大差別,常用的提取圖片特征方法不能進行有效的區(qū)分,但建筑物外觀上的文字卻能夠很好的表征特點,通過分析文字可以得到該建筑物的類別,所以考慮將外觀上的文字信息作為特征的一部分.本文提出對該數(shù)據(jù)集進行文本識別,將自然場景下的文本識別技術(shù)應(yīng)用到圖片分類中,有效的聯(lián)合文本信息和視覺信息,在很大程度上提高圖片識別的準確率.

      在本文中,我們結(jié)合圖片分類和文本識別技術(shù)來完成圖像的細分類任務(wù).使用卷積神經(jīng)網(wǎng)絡(luò)對非文本圖片進行圖片分類,同時應(yīng)用改進后的EAST[3]檢測算法對有文本圖片進行處理,得到文本的位置后使用CRNN[4]結(jié)合CTC[5]的方法進行文本的識別,再將識別到的文字進行分析后分類得到對應(yīng)的建筑物類別,在一定程度上提升了分類的準確率.如圖1是本文的算法流程圖.

      圖1 算法流程圖

      本文后續(xù)的內(nèi)容結(jié)構(gòu)如下:第2 節(jié)介紹文本檢測與識別和圖片分類中常用的算法;第3 節(jié)介紹本文結(jié)合文本識別和圖片分類技術(shù)對Con-text 數(shù)據(jù)集進行細分類的算法;第4 節(jié)進行實驗結(jié)果的比較,展示文本識別在圖片細分類應(yīng)用的效果.

      2 相關(guān)研究

      本文研究中,文本識別在圖片細分類中的應(yīng)用包含文本檢測技術(shù),文本識別技術(shù),圖片分類技術(shù),以及文本分類技術(shù).

      2.1 基于深度學(xué)習(xí)的文本檢測方法

      在深度學(xué)習(xí)領(lǐng)域中,常用于文本檢測的方法一般分為3 種:基于邊界框回歸的方法,基于圖像分割的方法以及結(jié)合回歸和分割的方法.在邊界框回歸方法中,核心思想是將文本當(dāng)成目標(biāo)進行目標(biāo)檢測的過程,和常見的目標(biāo)檢測方法一樣,分為Two-stage 和One-stage兩種方法.Two-stage 方法有R2CNN[6],CTPN[7],RRD[8],IncepText[9],LOMO[10]等.One-stage 方法有:Seglink[11],Textboxes[12],Textboxes++[13],DMPNet[14],EAST 等.包含PSENet[15]以及CRATD[16]等基于分割方法的核心思想是將文本和背景切割開來,而回歸和分割組合方法的核心思想類似于Mask RCNN[17].以上3 種類型的算法都各有其特點和優(yōu)勢,但為了權(quán)衡各方面的性能,基于邊界框回歸的方法是常用的方法.

      2.2 基于深度學(xué)習(xí)的文本識別方法

      在文本檢測完成后,根據(jù)預(yù)測得到的文本位置將文本區(qū)域提取出來識別.文本識別可分為單字符識別和行識別.在單字識別中,切割文本行得到單個字符送到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的單字符分類器中進行預(yù)測,連接單字符可得到目標(biāo)區(qū)域識別的結(jié)果.在行識別中,文本檢測得到的文本框從圖片中截取出來后,利用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)CRNN 訓(xùn)練得到一個基于文本行的預(yù)測模型.在行文本識別的訓(xùn)練過程中,有兩種常用的方法,CRNN 結(jié)合CTC 的方法以及CRNN 結(jié)合Attention[18]的方法.由于在單字符切割中有可能會出現(xiàn)字符粘連以及字符被切斷的情況,后續(xù)會直接影響字符識別的效果,所以我們使用行文本識別的方法.

      2.3 基于深度學(xué)習(xí)的圖片分類方法

      圖片分類是深度學(xué)習(xí)計算機視覺領(lǐng)域中一個常見的任務(wù).從2010~2017年間出現(xiàn)大量基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的算法來處理大規(guī)模的圖片分類.從最先出現(xiàn)的Lenet[19]到Alexnet[20],GoogleNet[21],VGGNet[22],以及ResNet[23]在ImageNet 比賽中獲得冠軍,圖片分類方法的發(fā)展在近幾年發(fā)展的相當(dāng)迅速,越來越多的人投身到深度學(xué)習(xí)方向的研究上來.目前的深度學(xué)習(xí)模型的識別能力已經(jīng)超過了人眼,圖像分類中使用的算法帶來的效果已經(jīng)滿足了預(yù)先的期望,但實際應(yīng)用中面臨著比大賽中更加復(fù)雜和現(xiàn)實的問題,在細粒度分類問題中,還未超越人類,仍有很大的發(fā)展空間.

      2.4 常見的細粒度圖片分類方法和應(yīng)用

      細粒度圖片分類在圖片分類中是一個重要的研究方向,是在區(qū)分出基本類別的基礎(chǔ)上,對基本類別劃分得到更加精細的子類,是處理得到一個更精確分類的任務(wù),如區(qū)分花的品種,鳥的種類、狗的品種和車的款式等,其業(yè)務(wù)需求和應(yīng)用場景在工業(yè)界和實際生活中分布廣泛.現(xiàn)在通常使用的細粒度分類方法分為4 種,基于常規(guī)圖像分類網(wǎng)絡(luò)的微調(diào)方法,基于細粒度特征學(xué)習(xí)的方法,基于目標(biāo)塊的檢測和對齊的方法以及基于視覺注意力機制的方法.

      3 結(jié)合文本識別與圖片分類的細粒度圖片分類算法

      在本文的研究中,我們使用的細粒度圖片分類方法中融合了文本檢測和識別與圖片分類的方法.具體流程可參考圖1,在流程圖中可以看出,研究中對有文本圖像的圖片進行文本檢測得到包含文本區(qū)域的圖片,利用識別算法進行圖像文本的行文本識別,后處理識別得到的結(jié)果進行文字分析并分類,同時對沒有文字的圖片進行圖片分類,經(jīng)過以上的識別流程后圖片的分類正確率有大幅提高.在我們的研究中,文本檢測算法中改進了EAST 方法,使其檢測結(jié)果更加準確,在文本識別中改進CRNN 結(jié)合CTC 的方法,和單字識別相比有更好的識別效果,并設(shè)計文本分類的邏輯來優(yōu)化分類結(jié)果,同時利用ResNet 進行非文本圖片的分類,最后疊加兩個結(jié)果得到最終的正確率.

      3.1 文本檢測

      在本文中采用優(yōu)化EAST 的方法來進行文本檢測.EAST 將文本檢測轉(zhuǎn)換成一個目標(biāo)檢測的任務(wù),能夠?qū)崿F(xiàn)對自然場景下傾斜文本的檢測,可以對單詞級別,行級別以及任意形狀的四邊形文本進行檢測.在EAST中,使用全卷積網(wǎng)絡(luò)(FCN[24])能夠直接回歸文本位置,得到文本框的位置以及其角度后,利用基于NMS[25]改進的Locality-Aware NMS 設(shè)置合適的閾值對候選區(qū)域進行篩選,過濾掉score 較低和重復(fù)的文本框,保留下來的就是經(jīng)過EAST 檢測器得到的預(yù)測文本框.EAST因為能夠直接回歸文本框,所以速度相對較快,而且準確率也有提高,可以又快又好的檢測文本.

      如圖2是EAST 的網(wǎng)絡(luò)結(jié)構(gòu),從圖中可以看出我們替換PVANet[26]為 ResNet,使用ResNet 進行特征提取.在卷積部分,經(jīng)過4 層卷積后可以得到不同尺度的特征圖,這些多尺度的特征圖對實際場景中文本行的精準定位變得更魯棒.其中ealy stage 用來檢測小的文本行,late stage 用來檢測大的文本行.第二部分是特征融合層,使用U-net[27]的方法來進行特征融合,該部分的每一個層都進行上采樣操作,將上采樣得到的特征和特征提取層中卷積后與之得到的相同尺寸特征進行融合,通過此操作可以得到更多特征的信息.最后是網(wǎng)絡(luò)輸出層,輸出文本得分score 和預(yù)測框 RBOX的信息.

      圖2 EAST 結(jié)構(gòu)圖

      但是由于EAST 在制作polygon 的時候采用了shrink_poly 的思想用于緩解標(biāo)注帶來的誤差,制作mask 時對邊緣有shrink 的操作,在一定程度上避免了不可預(yù)測的誤差,采用的方法如下:

      其中,lw表示mask 寬的長度,表示mask 縮放后寬的長度.

      但隨之也會帶來邊界框預(yù)測不準的情況,所以我們針對邊緣的處理進行優(yōu)化.短邊我們保持原來0.3 shrink 的比例,長邊保持0.1 shrink 的比例,方法如下:

      通過此項改進后長邊邊緣字符被截斷的情況有所改善.并且我們在訓(xùn)練集中加入任意角度的數(shù)據(jù),加大對角度的學(xué)習(xí),讓檢測模型更加魯棒,同時使得在提取特征時的效果更好.經(jīng)過以上的優(yōu)化后,EAST 的檢測效果相比之前有大幅提高.從表1中可以看出以上本文基于EAST 作出的兩個部分改進給文本檢測的效果帶來了明顯的提升.

      表1 EAST 方法效果對比

      3.2 文本識別

      在本文中使用CRNN 結(jié)合CTC 的方法來進行文本識別.在該結(jié)構(gòu)中,先使用卷積神經(jīng)網(wǎng)絡(luò)CNN 來提取圖片的特征序列,然后使用RNN 對序列進行預(yù)測,最后利用CTC 轉(zhuǎn)錄層,將預(yù)測變?yōu)樽罱K的標(biāo)簽序列.需要注意的是,在將圖片輸入進模型之前,需要將圖片縮放到統(tǒng)一的高度.在CRNN 模型中,一般采用標(biāo)準的CNN 網(wǎng)絡(luò)模型中的卷積層和最大池化層來構(gòu)造卷積層網(wǎng)絡(luò)結(jié)構(gòu),用于從圖像中提取可以表征該類特征的序列,這些特征序列作為循環(huán)層的輸入.在CRNN 模型中使用深度雙向循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM[28],該循環(huán)網(wǎng)絡(luò)與卷積層連接,能夠得到不同的序列特征以及單個字符的序列信息,且使用的雙向的LSTM 能夠得到前后的的上下文信息,可以實現(xiàn)對任意長度的序列進行預(yù)測.最后的CTC 轉(zhuǎn)錄層用來接收循環(huán)層的輸出,即根據(jù)每幀預(yù)測找到具有最高概率的標(biāo)簽序列,進而將標(biāo)簽信息映射成字符信息.通過分析實際應(yīng)用場景來訓(xùn)練數(shù)據(jù),本文訓(xùn)練了一個針對英文分類的CRNN 模型,具體結(jié)構(gòu)如圖3所示.

      圖3 CRNN 結(jié)構(gòu)圖

      3.3 圖片分類

      本文中使用ResNet 為baseline 進行非文本圖片的分類,ResNet 網(wǎng)絡(luò)的一個最大的特點就是引入了殘差塊,通過殘差網(wǎng)絡(luò),我們構(gòu)建很深的網(wǎng)絡(luò)出現(xiàn)過擬合的情況大大減少,而且其分類精度隨之提升.ResNet 中的殘差塊是與其他網(wǎng)絡(luò)結(jié)構(gòu)最不相同的部分,其學(xué)習(xí)到的是目標(biāo)值和輸入值的差值,即殘差.這種跳躍式的結(jié)構(gòu),打破了網(wǎng)絡(luò)結(jié)構(gòu)的局限性,不再是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中前一層的輸出作為后一層的輸入,而是使得網(wǎng)絡(luò)結(jié)構(gòu)中某一層的輸出可以直接跨過連續(xù)的幾層作為后面某一層的輸入,其意義在于使用多層網(wǎng)絡(luò)而使得整個學(xué)習(xí)模型的錯誤率不降反升的難題提供了新的方向.至此,神經(jīng)網(wǎng)絡(luò)的層數(shù)可以不再受限于傳統(tǒng)網(wǎng)絡(luò)帶來的約束,除掉了局限性,其網(wǎng)絡(luò)層數(shù)可以達到幾十層、上百層甚至千層,且出現(xiàn)過擬合的情況大幅降低,一方面提高了精度另一方面為高級語義特征提取和分類提供了可行性.

      3.4 文本分類

      通過文本識別后得到的文本需要進行處理后才能進行分類.具體步驟如下:

      1)分析和理解數(shù)據(jù).分類之前要對不同建筑分類中出現(xiàn)的單詞進行統(tǒng)計,找到能夠代表該類建筑物的關(guān)鍵性詞語,即總結(jié)出每一類的主要關(guān)鍵詞.

      2)改善識別后詞語的分類邏輯.除了完全匹配外,根據(jù)實驗結(jié)果分析得到,認定只要識別得到的字符按順序匹配,能達到關(guān)鍵字的50%就判定關(guān)鍵詞對應(yīng)的分類即為該詞的分類.

      3)若一張圖中有多處文字從而得到多個分類結(jié)果,取出現(xiàn)次數(shù)最多的分類,若出現(xiàn)的次數(shù)相同,取匹配占比最高的關(guān)鍵字對應(yīng)的分類.

      4 實驗結(jié)果和分析

      4.1 數(shù)據(jù)集

      為驗證算法的有效性,我們使用了Con-text 數(shù)據(jù)集,該數(shù)據(jù)集包含28 類街邊常見建筑物,共24255 張圖片,其中訓(xùn)練集19404 張,測試集4851 張.數(shù)據(jù)集上有文字信息能夠很好的表征建筑物的分類,例如常見的“干洗店”,“咖啡店”,“餐館”,“折扣店”等這些建筑物上面都會有明顯的文字信息來區(qū)分.這28 類分別是:bakery,barbershop,bistro,bookstore,cafe,theatre,dry cleaner,computer store,country store,diner,discount house,pharmacy,funeral,hotspot,massage parlor,medical center,repair shop,motel,pawnshop,pet shop,pizzeria,tavern,repair shop,restaurant,school,steakhouse,teahouse 和tobacco shop.這些數(shù)據(jù)均為自然場景下拍攝的圖片,因為街邊建筑物必須要醒目,所以建筑物上面的文字字體較大且間隔也大,這給文字檢測帶來了一定的難度.同時,這些文字帶來的文字并非所有的都是有效信息,所有這也給文本分類帶來了一定的難度.

      4.2 參數(shù)設(shè)置

      在文本檢測訓(xùn)練中,使用EAST 為baseline,使用隨機梯度下降訓(xùn)練,其中動量和權(quán)值衰減系數(shù)分別設(shè)置為0.9 和5×10–4,最大迭代次數(shù)為10 萬次,學(xué)習(xí)率初始設(shè)置為10–3.該實驗在tensorflow 中訓(xùn)練完成,訓(xùn)練和測試圖像的尺寸都為512×512.

      在文本識別的訓(xùn)練中,使用CRNN 結(jié)合CTC 的方法,利用RMSProp 優(yōu)化隨機梯度下降訓(xùn)練,其中動量和權(quán)值衰減系數(shù)分別設(shè)置為0.9 和5×10–4.最大迭代次數(shù)為100 次,學(xué)習(xí)率初始設(shè)置為10–2.該實驗在Pytorch中訓(xùn)練完成,訓(xùn)練圖像的尺寸都為256×32.

      在圖像分類的訓(xùn)練中,使用RMSProp 優(yōu)化隨機梯度下降訓(xùn)練,其中動量和權(quán)值衰減系數(shù)分別設(shè)置為0.9 和5×10–4,最大迭代次數(shù)為10 萬次,學(xué)習(xí)率(learning rate)初始設(shè)置為10–2.該實驗在Pytorch 中訓(xùn)練完成,訓(xùn)練和測試圖像的尺寸都為224×224.

      表2 各個分類的AP

      4.3 性能指標(biāo)

      在常見的評價指標(biāo)中,一般用3 個評價指標(biāo),分別為P(precision,準確率),R(recall,召回率)和mAP.其中mAP中AP表示任意一個種類的平均值,mAP為所有類的平均值.如式 (3),式(4),式(5)分別表示了P,R以及的AP的計算方式.

      其中,P(i)和R(i)表示在當(dāng)前數(shù)據(jù)中的指定類的P和R,n表示數(shù)據(jù)集中圖片的數(shù)量.

      4.4 實驗結(jié)果分析

      針對Con-text 數(shù)據(jù)集的測試,我們的結(jié)果與visual result 以及[2]進行對比,看表2可看出本文算法在在各個分類中的mAP,看表3可以得到單純的圖片分類算法結(jié)果以及結(jié)合文本檢測與識別的聯(lián)合算法得到的結(jié)果.從表2中可以看出,文字信息較少分類的mAP會比其他分類低,例如tea house,bistro 等.從表3中可以看出我們的方法和文獻[2]相比有明顯的提高,說明我們改進的方法有成果.但是從總體上來看,結(jié)合文本識別后的聯(lián)合算法比通常的圖片分類算法的mAP高,能夠?qū)⒔Y(jié)果融合到更高的精度.這表示文本信息在分類中起到了重要的作用,在圖片的細分類任務(wù)中起到了強輔助作用.

      表3 整體分類的mAP

      雖然從結(jié)果上來看,準確率有了一定的提升,但是仍然還有上升空間.在文本檢測和識別中,我們采用的是two-stage 方法,識別強依賴于檢測結(jié)果,未來可采用one-stage 端到端的方法盡可能的規(guī)避中間誤差帶來的影響,或許能在一定程度上提升mAP.

      5 結(jié)論

      在此研究中,我們研究了文本檢測和識別的相關(guān)方法,并將其應(yīng)用到了在圖片細分類中,將OCR 應(yīng)用到了圖片分類中,提高了圖片分類的準確率,但是準確率仍舊不是很高,還有很大的提升空間.相信在未來會有更好的方法將文本檢測與識別和圖片分類算法結(jié)合來細分類圖片.

      猜你喜歡
      細粒度準確率卷積
      融合判別性與細粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      細粒度的流計算執(zhí)行效率優(yōu)化方法
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車牌識別標(biāo)識站準確率驗證法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于雙線性卷積網(wǎng)絡(luò)的細粒度圖像定位
      江安县| 吉林省| 汉川市| 兴化市| 兴义市| 云南省| 天峻县| 茂名市| 兰州市| 永川市| 武功县| 洪江市| 富蕴县| 福建省| 湘阴县| 辽阳县| 淮安市| 博兴县| 阿勒泰市| 东宁县| 保定市| 四会市| 彝良县| 中方县| 石嘴山市| 沧州市| 沐川县| 大余县| 堆龙德庆县| 黄梅县| 呼伦贝尔市| 巩留县| 遂溪县| 新建县| 茂名市| 衡东县| 铁岭县| 哈密市| 旬邑县| 高清| 蒲江县|