• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深度卷積網(wǎng)絡(luò)的自然場景文本檢測研究綜述

      2023-09-06 07:30:04宋傳鳴王一琦武惠娟何熠輝王相海
      關(guān)鍵詞:尺度卷積特征

      宋傳鳴,王一琦,武惠娟,何熠輝,3,洪 飏,王相海

      1(遼寧師范大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,遼寧 大連 116081)

      2(遼寧師范大學(xué) 文學(xué)院,遼寧 大連 116081)

      3(中國科學(xué)院大連化學(xué)物理研究所 科學(xué)傳播處,遼寧 大連 116023)

      4(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

      1 引 言

      文字作為人類記錄信息和傳達(dá)信息的重要媒介,廣泛地出現(xiàn)在各類自然場景圖像中.對(duì)自然場景中的文本進(jìn)行自動(dòng)檢測及識(shí)別,不僅能夠提取圖像的高層語義,還有助于自然場景圖像的分析與理解.鑒于此,車牌識(shí)別、圖像檢索、即時(shí)翻譯、自動(dòng)駕駛、智能導(dǎo)航、大數(shù)據(jù)場景解析等諸多視覺應(yīng)用均需對(duì)自然場景圖像中的整個(gè)單詞或句子的文本位置進(jìn)行定位,其檢測精度對(duì)于保證特征提取、文本分析和文字識(shí)別等后續(xù)處理的效率具有關(guān)鍵作用.在這種情況下,自然場景文本檢測已經(jīng)成為目前文本檢測與識(shí)別領(lǐng)域的熱點(diǎn)問題之一.

      除了受到復(fù)雜背景、光照變化、拍攝視角等外部干擾外,自然場景文本檢測還面臨文字種類豐富、排列方向多樣、文本行組成復(fù)雜、文本長寬比不一等諸多自身結(jié)構(gòu)因素的嚴(yán)峻挑戰(zhàn)[1].于是,連通域分析、滑動(dòng)檢測窗等傳統(tǒng)文本檢測方法囿于人工設(shè)計(jì)特征的分類能力不足,抵抗復(fù)雜背景、混合噪聲、低對(duì)比度和顏色多變等干擾的魯棒性不夠,導(dǎo)致其在較長的一段時(shí)間內(nèi)難以取得較大突破,始終無法滿足復(fù)雜自然場景的文本檢測需求[1].鑒于深層神經(jīng)網(wǎng)絡(luò)能夠突破人工預(yù)設(shè)特征的局限,允許計(jì)算機(jī)在海量的圖像數(shù)據(jù)集中自主學(xué)習(xí)有效的特征表示,基于深度卷積網(wǎng)絡(luò)的檢測方法已發(fā)展成為自然場景文本檢測領(lǐng)域的主流方法.它利用一系列卷積結(jié)構(gòu)和大量的網(wǎng)絡(luò)參數(shù)將圖像的淺層特征組合成高層特征,再用高層特征表示更加抽象的語義信息,進(jìn)而表現(xiàn)出了更強(qiáng)的數(shù)據(jù)特征表示能力及非線性擬合能力.因此,與傳統(tǒng)方法相比,深層網(wǎng)絡(luò)能更加有效地求解復(fù)雜自然場景下的從圖像特征到文本位置的非線性預(yù)測問題,并且出現(xiàn)了一系列諸如基于區(qū)域建議的文本檢測方法、基于語義分割的文本檢測方法、基于端到端的文本檢測方法等[1,2],取得了不錯(cuò)的文本檢測效率和應(yīng)用效果.

      為了清晰地梳理代表性方法的研究進(jìn)展,文獻(xiàn)[1-3]從主要技術(shù)原理的角度,對(duì)自然場景文本檢測的傳統(tǒng)方法和深度學(xué)習(xí)方法進(jìn)行了分類闡述和對(duì)比分析,文獻(xiàn)[4]則從技術(shù)實(shí)現(xiàn)特點(diǎn)的角度對(duì)基于深度學(xué)習(xí)的文本檢測與識(shí)別方法的核心思想、關(guān)鍵技術(shù)做了廣泛調(diào)研和全面評(píng)價(jià).然而,文獻(xiàn)[1-4]均重點(diǎn)考察了各種方法所采用的網(wǎng)絡(luò)模型的設(shè)計(jì)思路和工作機(jī)制,卻忽視了對(duì)其主干網(wǎng)絡(luò)的梳理與討論.事實(shí)上,不同的骨干網(wǎng)絡(luò)架構(gòu)所具備的特征提取效率、擬合能力、收斂效率和功能特點(diǎn)互有差異,將直接影響到其下游模塊的技術(shù)思路及其處理性能[5,6].

      鑒于此,本文通過對(duì)近十年的基于深度學(xué)習(xí)的自然場景文本檢測主流方法進(jìn)行歸納和整理,將其骨干網(wǎng)絡(luò)架構(gòu)劃分為VGG(visual geometry group)網(wǎng)絡(luò)[7]、殘差網(wǎng)絡(luò)(residual networks,ResNet)[8]和特征金字塔網(wǎng)絡(luò)(feature pyramid networks,FPN)[9]3種形式;然后,從自然場景文本檢測的技術(shù)特點(diǎn)出發(fā),在回顧其發(fā)展歷程和早期研究工作的基礎(chǔ)上,依據(jù)骨干網(wǎng)絡(luò)的不同將現(xiàn)有基于深度卷積網(wǎng)絡(luò)的自然場景文本檢測方法劃分為3類,即基于VGG網(wǎng)絡(luò)的檢測方法、基于殘差網(wǎng)絡(luò)的檢測方法和基于特征金字塔網(wǎng)絡(luò)的檢測方法,并對(duì)基于不同骨干網(wǎng)絡(luò)實(shí)現(xiàn)的文本檢測方法進(jìn)行闡述,評(píng)價(jià)其優(yōu)勢和不足;在此基礎(chǔ)上,對(duì)代表性方法在公共數(shù)據(jù)集上的客觀性能進(jìn)行比較分析,進(jìn)而展望自然場景文本檢測技術(shù)的未來發(fā)展趨勢.

      2 相關(guān)背景

      隨著即時(shí)翻譯、場景解析、自動(dòng)駕駛等實(shí)際應(yīng)用的推進(jìn)與產(chǎn)業(yè)化,越來越多的研究人員和國內(nèi)外大型人工智能企業(yè)在自然場景文本檢測與識(shí)別技術(shù)上投入了大量的研究精力,例如谷歌[10]、微軟[11,12]、阿里[13]和曠視[14]等,進(jìn)而推動(dòng)了自然場景文本檢測方法與應(yīng)用的不斷發(fā)展.

      2.1 傳統(tǒng)的自然場景文本檢測方法概述

      自然場景文本檢測的相關(guān)研究最早可追溯至20世紀(jì)90年代初.研究人員將傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)應(yīng)用于自然圖像文本檢測與識(shí)別領(lǐng)域并獲得了一系列成果,其中最具代表性的方法包括最大穩(wěn)定極值區(qū)域方法(maximally stable extremal regions,MSER)[15]、基于連通域分析的筆劃寬度變換方法[16]和基于滑動(dòng)窗口的區(qū)域特征分類方法[17,18].文獻(xiàn)[15]提出了一種基于文本行假設(shè)手段的端到端文本定位和識(shí)別方法,首先檢測得到最大穩(wěn)定極值區(qū)域集合,再利用支持向量機(jī)(support vector machine,SVM)[19]過濾集合中的非文本元素得到檢測結(jié)果.文獻(xiàn)[16]提出了一種基于筆劃寬度變換的自然場景文本檢測方法,其主要思想是利用坎尼算子和筆劃寬度變換計(jì)算文字筆劃的候選連通域,再采用形態(tài)學(xué)分析和字符聚合操作得到文本行.針對(duì)中文字符結(jié)構(gòu)復(fù)雜的問題,文獻(xiàn)[20]首先利用坎尼算子和局部梯度方向算子細(xì)化最大穩(wěn)定極值區(qū)域,然后通過區(qū)域長寬比、歐拉數(shù)和區(qū)域面積比、包圍盒等幾何先驗(yàn)建立聯(lián)合約束,實(shí)現(xiàn)文本區(qū)域的過濾和聚合,進(jìn)而采用支持向量機(jī)完成文本區(qū)域的決策,提出了邊緣增強(qiáng)的最大穩(wěn)定極值區(qū)域檢測方法.

      盡管傳統(tǒng)的文本檢測方法在自然場景下取得了一定的效果,可是這些方法通常均需要人工設(shè)計(jì)復(fù)雜的檢測特征、特征分類器及其后處理流程.而且,不同于規(guī)則的文檔圖像,自然場景下的文本檢測主要存在不規(guī)則尺寸、模糊背景、目標(biāo)遮擋、任意文本排列方向和異常變化的縱橫比等特點(diǎn),這給自然場景文本檢測帶來了巨大挑戰(zhàn).并且,隨著含有文字目標(biāo)的自然場景愈趨復(fù)雜,這些傳統(tǒng)技術(shù)愈發(fā)難以滿足實(shí)際應(yīng)用對(duì)自然場景文本檢測精度和效率所提出的越來越高的迫切需求.

      2.2 面向自然場景文本檢測的深層神經(jīng)網(wǎng)絡(luò)概述

      考慮到文本檢測作為目標(biāo)檢測的特例,研究人員將用于目標(biāo)檢測的深層神經(jīng)網(wǎng)絡(luò)模型引進(jìn)自然場景文本檢測,取代了傳統(tǒng)基于人工設(shè)計(jì)特征的圖像文本檢測方法.其主要思想是,通過深層神經(jīng)網(wǎng)絡(luò)模型提取自然場景圖像中文字前景區(qū)域和非文字背景區(qū)域的紋理、邊緣、輪廓和顏色等局部/全局特征,從而達(dá)到判別文本區(qū)域、定位文本位置的目的,取得了不錯(cuò)的處理效率和快速的研究進(jìn)展.

      總體上看,深層神經(jīng)網(wǎng)絡(luò)主要包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)[4].其中,卷積神經(jīng)網(wǎng)絡(luò)是一種帶有卷積結(jié)構(gòu)的深層神經(jīng)網(wǎng)絡(luò),卷積結(jié)構(gòu)可以減小網(wǎng)絡(luò)占用的內(nèi)存空間,而池化層既能夠減少網(wǎng)絡(luò)參數(shù)的數(shù)量并緩解模型的過擬合問題,又增強(qiáng)了所提取特征的旋轉(zhuǎn)和平移不變性.卷積神經(jīng)網(wǎng)絡(luò)的這些特點(diǎn)使其在圖形、圖像的數(shù)據(jù)分析與處理領(lǐng)域得到了廣泛的應(yīng)用;循環(huán)神經(jīng)網(wǎng)絡(luò)的最大特點(diǎn)在于網(wǎng)絡(luò)隱含層的輸入包含當(dāng)前時(shí)刻隱含層的輸入和上一時(shí)刻隱含層的輸出,網(wǎng)絡(luò)會(huì)對(duì)前面的信息進(jìn)行記憶并作用于當(dāng)前輸出,從而學(xué)習(xí)到具有時(shí)序的數(shù)據(jù)特征,擅長處理具有時(shí)序性特征的語音、視頻等數(shù)據(jù).因此,根據(jù)兩類深層神經(jīng)網(wǎng)絡(luò)的特點(diǎn)及其技術(shù)優(yōu)勢,卷積神經(jīng)網(wǎng)絡(luò)更加適用于包括自然場景文本檢測在內(nèi)的目標(biāo)檢測領(lǐng)域并發(fā)揮了重要作用.

      率先將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測領(lǐng)域的算法是RCNN[21].該網(wǎng)絡(luò)模型在AlexNet[22]的基礎(chǔ)上引進(jìn)了線性回歸和SVM等算法,實(shí)現(xiàn)了目標(biāo)檢測的目的.針對(duì)RCNN中候選區(qū)域生成的縮放問題,Fast RCNN[23]進(jìn)一步提出了感興趣區(qū)域池化層(ROIPooling),其作用是在不同尺度下的特征圖上提取每個(gè)感興趣區(qū)域的特定尺寸的特征向量.同時(shí),Fast RCNN還采用Softmax函數(shù)取代RCNN的支持向量機(jī)來完成分類操作,其最大的好處在于有效提高處理速度并加速整個(gè)網(wǎng)絡(luò)的訓(xùn)練.不過,在提取候選框的過程中,Fast RCNN采用的選擇搜索算法存在耗時(shí)較長的問題.于是,Faster RCNN[24]在Fast RCNN模型中添加了區(qū)域推薦(region proposal network,RPN)模塊,通過共享卷積特征的方式將RPN和Fast RCNN合并為一個(gè)網(wǎng)絡(luò),實(shí)現(xiàn)了端到端的目標(biāo)檢測網(wǎng)絡(luò)框架.表1對(duì)RCNN系列的不同框架進(jìn)行了對(duì)比,其中,RCNN只利用卷積結(jié)構(gòu)完成特征提取作用;Fast RCNN將特征提取、分類和邊界框回歸都融合到了卷積網(wǎng)絡(luò)中;而Faster RCNN在Fast RCNN中添加了區(qū)域推薦模塊,顯著提升了模型的目標(biāo)檢測效率.

      表1 RCNN系列框架對(duì)比Table 1 Framework comparison of RCNN series

      目前,由RCNN繼承和發(fā)展出來的Faster RCNN系列模型被廣泛應(yīng)用于自然場景文本檢測領(lǐng)域,基于深度卷積網(wǎng)絡(luò)的自然場景文本檢測已成為計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)問題,吸引了眾多的國內(nèi)外研究機(jī)構(gòu)與學(xué)者展開深入研究.下文將對(duì)基于深度卷積網(wǎng)絡(luò)的自然場景文本檢測方法進(jìn)行分類闡述,對(duì)比分析各類方法的基本思想及其技術(shù)特點(diǎn).

      3 自然場景文本檢測方法

      AlexNet的出現(xiàn)使卷積神經(jīng)網(wǎng)絡(luò)迎來了歷史性突破和深度學(xué)習(xí)技術(shù)的爆發(fā),VGG、GoogleNet、DenseNet、ResNet、MobileNet、FPN、ResNeSt[25]和Transformer[26]等骨干網(wǎng)絡(luò)結(jié)構(gòu)相繼提出并不斷刷新相關(guān)領(lǐng)域的算法性能上限.然而,不同骨干網(wǎng)絡(luò)模型的特征提取效率、擬合能力、收斂速度和功能特點(diǎn)互有差異[5,6].例如,VGG引進(jìn)了層數(shù)更深的小卷積核、小池化核來提取各個(gè)尺度下的圖像局部特征,提高了網(wǎng)絡(luò)對(duì)自然場景紋理細(xì)節(jié)的非線性逼近能力,其對(duì)單一尺度下的特征分析能力較強(qiáng),但不具備多尺度特征的融合分析能力;ResNet則更加關(guān)注所有尺度下的融合局部特征,引進(jìn)跨層的直連邊(shortcut connection)和自底向上的融合機(jī)制,提高了網(wǎng)絡(luò)對(duì)最佳特征尺度及其加性組合的自適應(yīng)能力和文本檢測精度,也可有效緩解網(wǎng)絡(luò)深度增加所導(dǎo)致的梯度消失等問題;FPN同樣關(guān)注所有尺度下的融合局部特征,不同之處在于其采用一種自頂向下、橫向連接的體系結(jié)構(gòu),可以實(shí)現(xiàn)不同尺度下的特征融合,并且避免了融合過程中的頻率混疊和細(xì)節(jié)丟失現(xiàn)象,增強(qiáng)了網(wǎng)絡(luò)對(duì)混合尺寸的文本實(shí)例對(duì)象的靈敏度以及檢測效率.顯然,骨干網(wǎng)絡(luò)的特征提取思路及其對(duì)各尺度下圖像特征的處理策略的不同,使得基于這些骨干網(wǎng)絡(luò)的自然場景文本檢測方法在下游檢測機(jī)制、適用的場景和文本特點(diǎn)等方面均表現(xiàn)出明顯差異.骨干網(wǎng)絡(luò)的不同,意味著實(shí)現(xiàn)文本檢測的關(guān)鍵技術(shù)思想和解決方案存在根本不同.

      因此,根據(jù)不同的骨干網(wǎng)架構(gòu),本節(jié)將現(xiàn)有基于深度卷積網(wǎng)絡(luò)的自然場景文本檢測方法劃分為3類,即基于VGG網(wǎng)絡(luò)的檢測方法、基于殘差網(wǎng)絡(luò)的檢測方法、基于特征金字塔網(wǎng)絡(luò)的檢測方法.下文,將分別詳細(xì)闡述各類方法的技術(shù)特色及其優(yōu)缺點(diǎn).

      3.1 基于VGG網(wǎng)絡(luò)的自然場景文本檢測方法

      文獻(xiàn)[7]提出的VGG網(wǎng)絡(luò)模型和文獻(xiàn)[10]并稱為ILSVRC-2014的雙雄,其主要貢獻(xiàn)在于驗(yàn)證了使用更深層的小尺寸卷積核的堆疊結(jié)構(gòu)能夠有效提升卷積神經(jīng)網(wǎng)絡(luò)的非線性擬合性能.相較于AlexNet等淺層網(wǎng)絡(luò),VGG的卷積核尺寸更小、深度更深,能夠提取出待檢測目標(biāo)在更多尺度下的圖像局部特征,捕獲其細(xì)尺度的紋理細(xì)節(jié)和粗尺度的邊緣輪廓,從而有利于更加準(zhǔn)確地分析、定位文本目標(biāo).為此,VGG在目標(biāo)檢測領(lǐng)域中發(fā)揮了顯著作用.

      依據(jù)文本檢測的核心技術(shù)特點(diǎn),現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)的自然場景文本檢測路線大致包括回歸和分割:前者將場景文本視為通常的待檢測目標(biāo),并將文本檢測建模為邊界框位置坐標(biāo)的回歸問題;后者則采用文本區(qū)域分割的方法,通過卷積網(wǎng)絡(luò)提取圖像的紋理、邊緣、輪廓等特征圖,再據(jù)此預(yù)測文本區(qū)域的分割結(jié)果,不過,該類方法大多需要復(fù)雜的后期處理.下面,本節(jié)主要介紹以VGG網(wǎng)絡(luò)為骨干網(wǎng)的兩類文本檢測方法.

      3.1.1 基于回歸的自然場景文本檢測方法

      基于回歸的自然場景文本檢測方法包含直接回歸和間接回歸兩類.基于直接邊框的回歸方法通過卷積神經(jīng)網(wǎng)絡(luò)提取文本區(qū)域與非文本區(qū)域在邊緣、紋理特征方面的差異性特征,預(yù)測每個(gè)像素是否屬于文本區(qū)域,再通過回歸分析計(jì)算得到該位置所屬文本框的參數(shù)信息;間接回歸方法是預(yù)測某個(gè)邊界框的真值框與候選框表征參數(shù)的偏移量.

      大多數(shù)文本檢測模型都假定文本實(shí)例形狀服從線形分布,導(dǎo)致模型在檢測不規(guī)則形狀的文本時(shí)效果很差.為此,文獻(xiàn)[27]提出了一種旋轉(zhuǎn)敏感的場景文本檢測方法來解決多方向文本檢測問題.該方法在SSD(single shot multi-box detector)網(wǎng)絡(luò)結(jié)構(gòu)[28]基礎(chǔ)上將傳統(tǒng)卷積結(jié)構(gòu)替換為定向響應(yīng)卷積,并將SSD中用來實(shí)現(xiàn)多重特征融合的編碼器替換為旋轉(zhuǎn)敏感回歸(rotation-sensitive regression,RSR)編碼器,使得改進(jìn)后的深度網(wǎng)絡(luò)結(jié)構(gòu)可以提取旋轉(zhuǎn)敏感的卷積特征,從而對(duì)多方向文本行具有更優(yōu)的檢測性能.同時(shí),為克服 SSD 網(wǎng)絡(luò)對(duì)于小目標(biāo)檢測魯棒性差的不足,文獻(xiàn)[29]提出了一種端到端可訓(xùn)練的文本檢測框架TextBoxes,通過調(diào)整候選框的默認(rèn)長寬比、濾波器尺度等途徑,提升了深度網(wǎng)絡(luò)模型對(duì)于水平方向的長文本的檢測效率.然而,對(duì)于間距較大、曝光程度較強(qiáng)的自然場景圖像,該方法的文本檢測性能仍然較差,且存在較為明顯的方向依賴性.為了解決TextBoxes對(duì)非水平方向的文本檢測效果不理想的問題,文獻(xiàn)[30]將傳統(tǒng)水平方向的候選框替換為帶有方向信息的任意四邊形候選框,并且對(duì)原方法中的損失函數(shù)進(jìn)行了更具針對(duì)性的設(shè)計(jì),融入了帶有方向信息的回歸損失,從而提出了一種面向文字區(qū)域檢測的TextBoxes++模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.然而,該方法對(duì)于文字的排布方式較為敏感,在字符間距較大、文字呈現(xiàn)曲線或垂直方向排列和圖像分辨率較低等情況下,其文本檢測性能會(huì)不可避免地出現(xiàn)一定程度的下降.

      圖1 TextBoxes++模型結(jié)構(gòu)[28]Fig.1 Architecture of TextBoxes++[28]

      為了充分利用圖像的局部目標(biāo)在整個(gè)圖像中的上下文信息,文獻(xiàn)[31]提出了一種基于垂直錨點(diǎn)機(jī)制的文本檢測方法CTPN(connectionist text proposal network).該方法聯(lián)合應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),提高了網(wǎng)絡(luò)對(duì)上下文信息的感知能力,并利用垂直錨點(diǎn)機(jī)制預(yù)測每個(gè)候選區(qū)域的評(píng)分,進(jìn)而獲得最終的檢測結(jié)果.由于發(fā)掘了豐富的圖像上下文信息,CTPN能夠檢測自然場景圖像中較模糊的文本,卻對(duì)傾斜文本顯得力不從心.鑒于此,文獻(xiàn)[32]提出了一種基于片段連接的文本檢測方法SegLink.它通過改進(jìn)的SSD網(wǎng)絡(luò)來預(yù)測每個(gè)分段與其他分段的連接關(guān)系,然后利用連接關(guān)系學(xué)習(xí),從帶有方向信息的候選框以及不同候選框之間的連接關(guān)系中得到各個(gè)候選框的連接置信度,再用后處理的方式完成候選框的連接,最終得到文本行的檢測結(jié)果.然而,對(duì)于密集文本區(qū)域,SegLink方法的文本分段預(yù)測方式仍然會(huì)無法正確區(qū)分單獨(dú)的文本實(shí)例[4].于是,文獻(xiàn)[33]改進(jìn)了SegLink的文本組件分組預(yù)測方式,并提出了一種文本實(shí)例感知的分組策略.它采用吸引系數(shù)建模同一文本區(qū)域內(nèi)的文本塊之間的正相關(guān)性,利用排斥系數(shù)刻畫分屬于不同文本區(qū)域的文本塊之間的負(fù)相關(guān)性,再以分割質(zhì)量和相關(guān)性系數(shù)的線性組合建立文本實(shí)例感知損失函數(shù)用于訓(xùn)練和自適應(yīng)優(yōu)化文本片段的分組結(jié)果,進(jìn)而能夠更加準(zhǔn)確地區(qū)分緊湊排列的文本,尤其能更加有效地處理不規(guī)則的曲線文本.

      通過預(yù)設(shè)候選框來回歸預(yù)測文本框位置的方式具有一定的盲目性,且基于直接邊框的回歸方法在檢測長文單詞或者文本行時(shí)由于感受野的限制導(dǎo)致其定位準(zhǔn)確率不高、文本框短邊的回歸誤差較大[4].因此,文獻(xiàn)[34]將直接邊框回歸轉(zhuǎn)化成了一種對(duì)文本框邊界進(jìn)行學(xué)習(xí)的計(jì)算任務(wù),從而得出候選框的邊界概率圖;在此基礎(chǔ)上,利用較長邊界的概率圖確定文本的行坐標(biāo),再通過文本行所在區(qū)域的直接邊框回歸結(jié)果計(jì)算其短邊界,最終得到目標(biāo)文本的邊框.

      盡管基于回歸的檢測算法可以直接預(yù)測任意形狀的文本,可是大多數(shù)回歸算法均需要復(fù)雜的參數(shù)化來預(yù)測和適應(yīng)文本邊界.受到場景文本的任意方向和異??v橫比的限制,很難使候選框與真值框之間具備較好的匹配關(guān)系.而且,候選框的匹配預(yù)處理及采樣操作導(dǎo)致檢測速度較慢,缺少高效性和魯棒性.

      3.1.2 基于分割的自然場景文本檢測方法

      該類方法的核心思路是利用深層神經(jīng)網(wǎng)絡(luò)提取包含自然場景圖像豐富信息的特征圖,再充分利用特征圖在明暗、細(xì)節(jié)紋理、邊緣輪廓區(qū)域的可學(xué)習(xí)差異,將分屬不同目標(biāo)的像素進(jìn)行分類并區(qū)分文本區(qū)域的特征,以此來預(yù)測文本目標(biāo)的分割結(jié)果[35].大多數(shù)基于VGG網(wǎng)絡(luò)的自然場景文本檢測方法建立在自下而上的策略之上,而通過探索低級(jí)圖像特征來檢測筆劃或字符的機(jī)制卻缺乏足夠的穩(wěn)健性,很容易產(chǎn)生大量的非文本候選者.為此,現(xiàn)有工作主要從3種策略出發(fā),即引入上下文信息、全局位置信息和區(qū)域—字符關(guān)系,達(dá)到提升局部特征的檢測穩(wěn)健性的目的.

      首先,在上下文信息引入方面,文獻(xiàn)[36]提出了用于直接文本區(qū)域估計(jì)的級(jí)聯(lián)卷積文本網(wǎng)絡(luò)CCTN(cascaded convolutional text network),通過用1×1卷積替換全連接層設(shè)計(jì)了一種高效的自上而下的管道,利用完全卷積運(yùn)算在一定程度上保持圖像的粗尺度空間特征,再以從粗到精的方式定位文本區(qū)域?qū)崿F(xiàn)了完全卷積網(wǎng)絡(luò)的語義分割.文獻(xiàn)[37]則提出了一種基于實(shí)例分割思想的場景文本檢測方法PixelLink.該方法通過深層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)像素級(jí)的文本判別預(yù)測及連接預(yù)測,得出當(dāng)前像素的類別歸屬(文本類或者非文本類)以及不同像素與同一文本實(shí)例的關(guān)聯(lián)關(guān)系,進(jìn)而實(shí)現(xiàn)實(shí)例分割.與典型方法的策略不同,上述兩種方法不僅考察了當(dāng)前像素自身的特征,還通過進(jìn)一步評(píng)估當(dāng)前像素的上下文鄰域的預(yù)測結(jié)果進(jìn)行后處理,得到最終的候選框作為檢測結(jié)果.可見,在局部特征的基礎(chǔ)上結(jié)合一定的全局信息,有助于提高文本檢測的精度.

      其次,鑒于VGG網(wǎng)絡(luò)對(duì)局部特征的分析能力強(qiáng)卻無法有效獲取全局特征的情況,文獻(xiàn)[38]提出了一種融合局部信息及全局信息的全卷積多方向文本檢測方法.該方法首先采用基于文本塊的全卷積網(wǎng)絡(luò)進(jìn)行檢測,得到顯著性區(qū)域映射,再借助最大穩(wěn)定極值區(qū)域的局部信息對(duì)文本塊施加行提取操作,然后利用全卷積網(wǎng)絡(luò)(Character-Centroid FCN)獲取字符質(zhì)心的顯著性映射,進(jìn)而根據(jù)質(zhì)心信息去除非文本結(jié)果并利用非極大值抑制操作剔除重疊的框選區(qū)域.但是,該方法在低對(duì)比度、密集文本區(qū)域中的文本檢測效果較差.文獻(xiàn)[39]提出了一種角點(diǎn)定位和區(qū)域分割的多角度場景文本檢測方法.該方法采用兩個(gè)并行分支網(wǎng)絡(luò),第一分支使用局部邊角點(diǎn)檢測代替?zhèn)鹘y(tǒng)的目標(biāo)檢測來提取文本區(qū)域,第二分支用類似基于區(qū)域的全卷積網(wǎng)絡(luò)(region-based fully convolutional network,RFCN)的網(wǎng)格劃分思路實(shí)現(xiàn)融入了全局位置信息的位置敏感分割.這些改進(jìn)能夠更好地適應(yīng)不同的文字方向、長寬比及字形尺度,但其局限性表現(xiàn)在當(dāng)兩個(gè)文本實(shí)例非常接近時(shí),全局位置敏感分割可能失效,容易把兩個(gè)文本行預(yù)測成為一個(gè)文本實(shí)例.

      然后,在區(qū)域—字符關(guān)系方面,文獻(xiàn)[40]提出了一種基于文本區(qū)域感知的文本檢測方法CRAFT(character region awareness for text detection),用來解決較長文本行的檢測問題,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.該方法以字符級(jí)目標(biāo)為檢測對(duì)象,通過卷積神經(jīng)網(wǎng)絡(luò)預(yù)測字符區(qū)域和字符之間的親和力,進(jìn)而實(shí)現(xiàn)由字符到單詞實(shí)例的組裝.其不足之處在于,無法對(duì)存在筆劃粘連或緊鄰的文本區(qū)域進(jìn)行有效檢測,并且對(duì)彎曲文本行的處理效率也不高.而文獻(xiàn)[41]提出的基于HED(holistically-nested edge detection)模型的自然場景圖像文本檢測方法,通過對(duì)整幅圖像進(jìn)行語義分割,并分別對(duì)文本區(qū)域、字符以及相鄰字符的連接方向概率等屬性進(jìn)行評(píng)估來構(gòu)建圖模型,從而得到文本行信息.由于文本行包含了空間相似性信息和方向相似性信息,因此該方法具備一定的從圖像中發(fā)現(xiàn)多方向甚至彎曲文本的能力.不過,該方法對(duì)于圖像質(zhì)量具有較高的敏感性,若待檢測圖像中存在嚴(yán)重模糊或高亮的退化區(qū)域,則無法獲取有效的檢測結(jié)果.針對(duì)場景文本的復(fù)雜背景問題,文獻(xiàn)[42]提出了一種基于文本域的文本檢測方法TextField,先學(xué)習(xí)得到一組由 2 維矢量表示的方向場,再通過方向場的編碼實(shí)現(xiàn)文本區(qū)域與非文本區(qū)域的分離.同時(shí),方向場對(duì)文本掩碼、方向信息的編碼及其后續(xù)的文本分組提供了有效依據(jù).然而,當(dāng)自然場景圖像存在遮擋、字符間距較大、類文本區(qū)域混雜的情況時(shí),上述方法的檢測性能均不盡人意.

      圖2 CRAFT模型結(jié)構(gòu)[38]Fig.2 Architecture of CRAFT[38]

      雖然VGG網(wǎng)絡(luò)在自然場景文本檢測方面取得了一定效果,但是對(duì)于存在文本行彎曲、前景或背景復(fù)雜、文本長寬比不一等情況的自然場景圖像,尚無法達(dá)到令人滿意的檢測精度.根本原因在于,在給定的VGG網(wǎng)絡(luò)結(jié)構(gòu)下,圖像特征所對(duì)應(yīng)的感受野和尺度也隨之確定,不具備根據(jù)前景/背景及長寬比來自適應(yīng)選取最佳尺度的能力.而且,經(jīng)過多次卷積后的特征圖具有較大感受野,對(duì)小尺寸的文本檢測不利.此外,由于網(wǎng)絡(luò)層數(shù)的限制,VGG網(wǎng)絡(luò)無法提取更高層次的文本特征.

      3.2 基于殘差網(wǎng)絡(luò)的自然場景文本檢測方法

      隨著網(wǎng)絡(luò)深度的增加,其預(yù)測準(zhǔn)確度會(huì)出現(xiàn)梯度彌散現(xiàn)象,導(dǎo)致深度學(xué)習(xí)模型難以訓(xùn)練.為了解決這個(gè)問題,文獻(xiàn)[8]提出了一種殘差學(xué)習(xí)單元,通過跨層的直連邊將淺層網(wǎng)絡(luò)的輸出和深層網(wǎng)絡(luò)的輸出進(jìn)行疊加,旨在當(dāng)前網(wǎng)絡(luò)中的特征表示達(dá)到足夠優(yōu)良時(shí),把深層網(wǎng)絡(luò)轉(zhuǎn)換為恒等映射.這種信息傳遞方式的優(yōu)化有效提高了梯度的反向傳播效率,使訓(xùn)練更深層的網(wǎng)絡(luò)成為可能;更為關(guān)鍵的是,使卷積神經(jīng)網(wǎng)絡(luò)具備了對(duì)最佳特征尺度的自適應(yīng)訓(xùn)練能力,從而將淺層信息和深層信息實(shí)現(xiàn)加性融合,達(dá)到檢測不同尺度目標(biāo)的目的.為此,殘差網(wǎng)絡(luò)在自然場景文本檢測中取得了優(yōu)于VGG網(wǎng)絡(luò)的檢測性能.因?yàn)槲谋拘械膶挾群透叨韧町愝^大且?guī)в幸欢ǚ较蛐?所以該類方法需在優(yōu)化檢測尺度的同時(shí),確定恰當(dāng)?shù)母惺芤?于是,現(xiàn)有工作主要圍繞3個(gè)方面展開深入研究,即引入矩形感受野、自上而下的檢測策略以及檢測—識(shí)別模塊間的互補(bǔ)關(guān)系.

      首先,文獻(xiàn)[43]采用殘差網(wǎng)絡(luò)作為骨干網(wǎng),提出了一種自然場景下的快速文本檢測方法 EAST(Efficient and accurate scene text detector),該方法利用上采樣操作融合不同層的特征得到預(yù)測特征圖,并在確定候選區(qū)域時(shí)融入旋轉(zhuǎn)角度信息生成文本四邊形,再以0.3倍于預(yù)定義參考長度的比例對(duì)文本四邊形進(jìn)行收縮,從而排除非目標(biāo)信息對(duì)檢測結(jié)果的干擾,最終得到帶有角度信息的文本區(qū)域候選框.遺憾的是,由于感受野尺度有限,該方法可能會(huì)導(dǎo)致部分文本區(qū)域被劃分到候選框之外,其對(duì)長文本和垂直方向排布的文本檢測效果尚不夠理想.針對(duì)EAST不擅長檢測長文本的問題,文獻(xiàn)[44]提出了一種面向任意四邊形候選框的文本檢測網(wǎng)絡(luò).由于低層特征語義信息有利于在小尺度下提供精細(xì)的目標(biāo)位置,而高層特征語義信息則可在大尺度下給出粗略的目標(biāo)位置,因此該網(wǎng)絡(luò)利用上采樣操作融合不同尺度下的特征,進(jìn)而得到預(yù)測特征圖及其檢測框.進(jìn)一步地,文獻(xiàn)[45]在 EAST 的基礎(chǔ)上加入了空洞卷積結(jié)構(gòu)來提高網(wǎng)絡(luò)的感受野,并增加1×5以及5×1的對(duì)稱卷積結(jié)構(gòu)以提升網(wǎng)絡(luò)對(duì)橫豎排長文本的檢測效果.文獻(xiàn)[46]在EAST模型的特征融合階段加入長短時(shí)記憶方法 LSTM來優(yōu)化訓(xùn)練樣本信息,提高了檢測精度.文獻(xiàn)[47]則引入了時(shí)序注意力機(jī)制,利用全連接網(wǎng)絡(luò)的語義特征融合和多通道回歸分析得到初始檢測框,再引進(jìn)聯(lián)合時(shí)序注意力的卷積遞歸神經(jīng)網(wǎng)絡(luò)對(duì)初始預(yù)測結(jié)果進(jìn)行文本/非文本區(qū)域的精細(xì)分類來剔除虛警文本區(qū),進(jìn)而提高文本檢測的準(zhǔn)確率.

      其次,采用局部像素或組件以自下而上的方式對(duì)文本實(shí)例進(jìn)行建模的穩(wěn)健性尚有不足,細(xì)尺度下的局部特征通常會(huì)被噪聲所污染,以致影響文本檢測效率.鑒于此,自上而下的策略則有助于利用粗尺度下的、受噪聲影響較少的特征來約束像素或字符組件的組裝,從而增強(qiáng)文本檢測結(jié)果對(duì)噪聲的魯棒性.針對(duì)這一問題,文獻(xiàn)[48]提出了一種改進(jìn)的任意形狀場景文本檢測方法.該方法利用自適應(yīng)RPN網(wǎng)絡(luò)得到初步建議目標(biāo),再通過局部正交文本感知模塊分別建模水平方向和豎直方向的局部紋理特征,在利用點(diǎn)重計(jì)分算法對(duì)檢測結(jié)果進(jìn)行細(xì)化后,即可得到文字區(qū)域的最終候選框.為了加快輪廓的漸進(jìn)演化速度,文獻(xiàn)[49]提出了一種漸進(jìn)輪廓回歸(progressive contour regression,PCR)的場景文本框架.該方法將初始文本的生成過程轉(zhuǎn)化為一種自上而下的文本輪廓演化過程,利用輪廓聚合操作計(jì)算任意形狀的邊緣高層語義并抑制輪廓噪聲的影響,從而實(shí)現(xiàn)復(fù)雜文本區(qū)域的準(zhǔn)確定位.借鑒實(shí)例分割的思想,文獻(xiàn)[50]所提出的Mask TextSpotter模型采用殘差網(wǎng)絡(luò)作為骨干網(wǎng)以建立更高級(jí)的語義特征圖,通過RPN分支實(shí)現(xiàn)候選區(qū)域推薦,并由Faster RCNN分支完成回歸及分類任務(wù),最終經(jīng)過Mask分支得出全局文本實(shí)例分割和字符級(jí)分割結(jié)果,提高了任意形狀文本檢測的準(zhǔn)確率和召回率.

      最后,典型的網(wǎng)絡(luò)體系結(jié)構(gòu)大多將檢測模塊和識(shí)別模塊整合到相互獨(dú)立的分支中,然而它們都需要查找字符區(qū)域的位置,所以采用基于注意力的解碼器和表示字符區(qū)域空間信息的檢測器之間必然存在互信息.為了充分發(fā)掘檢測模塊與識(shí)別模塊之間的互補(bǔ)關(guān)系,文獻(xiàn)[51]提出了一種CRAFTS模型,將CRAFT的骨干網(wǎng)由VGG16替換成ResNet50,并引入鏈接表示和方向估計(jì),再利用檢測器的空間字符信息構(gòu)建模塊之間的互補(bǔ)關(guān)系.一方面,檢測模塊的輸出特征能夠?yàn)樽R(shí)別模塊提供更準(zhǔn)確的字符中心信息;另一方面,識(shí)別模塊的輸出又能進(jìn)一步提高檢測模塊對(duì)于字符區(qū)域的定位精度及其穩(wěn)健性.

      盡管殘差網(wǎng)絡(luò)實(shí)現(xiàn)了明暗、紋理細(xì)節(jié)等淺層特征與主要邊緣、整體輪廓等深層特征的加性融合,可是在自上而下地完成特征融合的過程中,淺層特征圖必須經(jīng)過下采樣才能具有與深層特征圖相同的空間分辨率,會(huì)不可避免地丟失一部分細(xì)節(jié)信息并導(dǎo)致頻率混疊.在這種情況下,對(duì)于文本種類豐富、場景結(jié)構(gòu)復(fù)雜、文字目標(biāo)較小的自然圖像,基于殘差網(wǎng)絡(luò)的自然場景文本檢測方法的性能必將受到一定影響.

      3.3 基于特征金字塔網(wǎng)絡(luò)的自然場景文本檢測方法

      針對(duì)文本檢測的尺度自適應(yīng)問題,尤其是小目標(biāo)檢測中存在的卷積神經(jīng)網(wǎng)絡(luò)分辨率和語義化程度之間的矛盾,文獻(xiàn)[9]提出了一種特征金字塔網(wǎng)絡(luò)FPN結(jié)構(gòu).如圖3所示,FPN具有橫向連接的自頂向下體系結(jié)構(gòu),可以將上采樣后的深層特征向下傳遞,進(jìn)而將低分辨率語義信息特征圖與空間信息豐富的高分辨率邊緣局部信息特征圖相結(jié)合,得到空間分辨率更高、通道數(shù)量更多、語義更強(qiáng)的多尺度融合特征圖.因此,特征金字塔網(wǎng)絡(luò)對(duì)于不同尺度的文本實(shí)例對(duì)象有較好的檢測效果,特別有利于小目標(biāo)和復(fù)雜文本目標(biāo)的檢測.

      圖3 FPN網(wǎng)絡(luò)結(jié)構(gòu)[7]Fig.3 FPN network structure[7]

      不過,采用將兩個(gè)不同尺度的特征圖進(jìn)行簡單相加的傳統(tǒng)融合方式往往導(dǎo)致特征融合不充分的問題.鑒于上述兩個(gè)方面,研究人員主要圍繞兩個(gè)角度展開工作:1)優(yōu)化多尺度特征的融合方式;2)充分利用多尺度融合特征提高自由文本的檢測效率.

      首先,在多尺度特征融合方面,文獻(xiàn)[52]提出了一種多尺度特征融合模型TextFuseNet.不同于現(xiàn)有的基于有限特征表示的檢測方法,它采用FPN+ResNet網(wǎng)絡(luò)結(jié)構(gòu)作為骨干網(wǎng)提取字符、單詞和全局3個(gè)級(jí)別的特征,并在此基礎(chǔ)上,使用多路徑特征融合體系結(jié)構(gòu)將3種層次的特征進(jìn)行融合,得到更具代表性的特征表示,從而有助于實(shí)現(xiàn)更加魯棒的任意文本檢測.文獻(xiàn)[53]提出了一種漸進(jìn)式擴(kuò)展網(wǎng)絡(luò)PSENet(progressive scale expansion network)來解決相鄰文本區(qū)域不易區(qū)分的問題.考慮到小尺度卷積核之間往往存在較為顯著的邊緣特征,該方法借助基準(zhǔn)圖像生成一系列不同大小的掩膜來實(shí)現(xiàn)特征融合與文本行預(yù)測,從而在很大程度上抑制了典型方法在處理行距較小的文本行時(shí)所出現(xiàn)的重疊識(shí)別現(xiàn)象.文獻(xiàn)[54]提出一種基于可切換空洞卷積與注意力導(dǎo)向的特征金字塔網(wǎng)絡(luò),針對(duì)多尺度特征融合導(dǎo)致語義信息丟失的問題,采用特征增強(qiáng)融合模塊加強(qiáng)模型對(duì)尺度、空間、任務(wù)的感知能力,取得了較好的檢測結(jié)果,且召回率有明顯的提升.文獻(xiàn)[55]采用ResNext101改進(jìn)了PSENet的骨干網(wǎng),從最粗尺度下的文字實(shí)例特征圖開始,利用廣度優(yōu)先算法和“先到先得”策略逐漸擴(kuò)展每個(gè)文本中心區(qū)域,從而將粗尺度與細(xì)尺度的文本像素進(jìn)行逐層地膨脹式融合,達(dá)到對(duì)文本圖像中的文字進(jìn)行精確定位的目的.

      其次,受到檢測框形狀的限制,現(xiàn)有方法對(duì)線形分布的文本具有較好的檢測效率,并能夠利用水平矩形框、旋轉(zhuǎn)矩形框或任意四邊形框給出相應(yīng)的定位結(jié)果.然而,面對(duì)自由形式的文本實(shí)例時(shí),這些方法的表現(xiàn)卻往往差強(qiáng)人意.為了解決這一問題,基于分割的文本檢測算法都需設(shè)置固定的閾值計(jì)算二值圖,旨在將分割生成的概率圖轉(zhuǎn)換為文本的包圍框.為此,文獻(xiàn)[56]提出一種可微分二值化的檢測網(wǎng)絡(luò)模型,解決了自適應(yīng)閾值下的梯度微分問題,進(jìn)而能夠提供更加健壯的二值圖來判別文本區(qū)域和背景區(qū)域,并分離那些筆劃粘連或者緊鄰排列的不同文本實(shí)例,提高文本檢測的性能.文獻(xiàn)[57]提出了一種靈活的場景文本表征方法TextSnake,該方法假設(shè)文本實(shí)例由一串具有不同半徑和方向的、有序且重疊的圓形區(qū)域組成,其中,每個(gè)圓形區(qū)域的半徑和方向分別取決于文本實(shí)例的寬度、排列方向,進(jìn)而以水平、多方向和彎曲的形式來預(yù)測文本區(qū)域、中心線及其幾何屬性,最終得到文本實(shí)例的檢測結(jié)果.文獻(xiàn)[58]提出了一種基于深度關(guān)系推理圖網(wǎng)絡(luò)的文本檢測方法,以帶有FPN的VGG16作為骨干網(wǎng)絡(luò)實(shí)現(xiàn)卷積特征提取,利用共享卷積特征分析文本組件的幾何屬性,供局部圖模塊建立組件間的連接關(guān)系,再通過關(guān)系推理網(wǎng)絡(luò)的推斷結(jié)果實(shí)現(xiàn)文本組件的組合,得到完整的文本實(shí)例.然而,上述基于區(qū)域的文本檢測策略對(duì)高度彎曲文本的檢測能力仍有不足,所生成的輪廓點(diǎn)序列無法有效逼近文本區(qū)域的理想輪廓.于是,文獻(xiàn)[59]提出了自適應(yīng)貝塞爾曲線網(wǎng)絡(luò)ABCNet(adaptive Bezier-curve network),其最大亮點(diǎn)在于使用了貝塞爾曲線來構(gòu)成文本框,進(jìn)而支持任意形狀文本的預(yù)測,而且不會(huì)過多增大參數(shù)量.此外,為了較好地獲得文本區(qū)域,ABCNet采用BezierAlign技術(shù)對(duì)不規(guī)則形狀的文本進(jìn)行特征對(duì)齊和截取,從而移除造成干擾的背景區(qū)域.不過,該方法只能感知一次具有復(fù)雜幾何布局的場景文本,會(huì)不可避免地產(chǎn)生不準(zhǔn)確的定位結(jié)果.文獻(xiàn)[60]提出了一種傅里葉輪廓嵌入技術(shù),旨在有效逼近任意形狀的、封閉的文本區(qū)域輪廓.與以往方法的不同之處在于,該方法首先預(yù)測文本實(shí)例的傅里葉特征向量,然后利用傅里葉反變換和非極大值抑制方法在圖像空間域重構(gòu)文本輪廓點(diǎn)序列,能夠更加緊湊地表示任意形狀的文本輪廓,在自然場景下的任意形狀文本檢測方面表現(xiàn)出良好的通用性和穩(wěn)健性.

      總體來看,特征金字塔網(wǎng)絡(luò)有效緩解了局部目標(biāo)在整幅圖像中的上下文信息不足、細(xì)節(jié)信息失真和頻率混疊等問題,在不同尺度下的自然場景文本檢測方面顯示出了明顯的進(jìn)步.不過,如何自適應(yīng)地優(yōu)化選取恰當(dāng)?shù)某叨葦?shù)量以及不同尺度下的特征耦合方法,對(duì)于提高小尺寸文本和復(fù)雜自由文本的檢測性能仍是值得進(jìn)一步深入研究的問題.

      4 自然場景文本檢測方法的比較分析

      為了便于自然場景文本檢測方法的比較,本節(jié)將首先介紹用于自然場景文本檢測的公共數(shù)據(jù)集,并在此基礎(chǔ)上,對(duì)目前的代表性自然場景文本檢測方法的客觀性能進(jìn)行對(duì)比分析.

      4.1 自然場景文本檢測數(shù)據(jù)集

      表2給出了用于自然場景文本檢測的公共數(shù)據(jù)集.其中,ICDAR2013[61]和ICDAR2015[62]是常用的線形文本檢測數(shù)據(jù)集;Total-text[63]是彎曲文本檢測的重要數(shù)據(jù)集;ICDAR MLT[64]和CTW-1500[65]是包含多種語言的自然場景文本檢測數(shù)據(jù)集;CTW[66]是超大型的自然場景中文數(shù)據(jù)集;而VinText[67]則是自然場景下的越南語數(shù)據(jù)集.下文詳細(xì)介紹這些公共數(shù)據(jù)集的具體內(nèi)容及其特點(diǎn).

      表2 自然場景文本檢測與識(shí)別的公共數(shù)據(jù)集Table 2 Common datasets of natural scene text detection and recognition

      1)ICDAR2013:該數(shù)據(jù)集是2013年國際文檔分析與識(shí)別會(huì)議設(shè)置的魯棒閱讀競賽(robust reading competition,RRC)環(huán)節(jié)所公開的聚焦文本數(shù)據(jù)集,其中包含路標(biāo)、書籍封面和廣告牌等場景的、清晰的自然場景文本圖像.

      2)ICDAR2015:該數(shù)據(jù)集是2015年國際文檔分析與識(shí)別會(huì)議在RRC的偶然場景文本(incidental scene text)閱讀競賽中所公開的公共數(shù)據(jù)集,其中,每幅圖像都是采用谷歌眼鏡在未聚焦的情況下進(jìn)行隨機(jī)拍攝獲取的,主要反映街頭、超市、商場等公共場所的場景,旨在幫助文本檢測和識(shí)別模型提高泛化性能[4].

      3)Total-Text:這是目前國際上規(guī)模最大的彎曲文本數(shù)據(jù)集之一,共包含1255張訓(xùn)練集圖像和300張測試集圖像,能夠用于任意排列形狀的文本的檢測、識(shí)別與閱讀任務(wù)的研究.

      4)ICDAR MLT:該數(shù)據(jù)集由全場景圖像所組成,其中,每幅圖像包含來自阿拉伯語、孟加拉語(印度)、中文、英語、法語、德語、意大利語、日語和韓語9種不同語言中的一種或多種文本,代表6種不同的腳本.它包括7200幅訓(xùn)練樣本圖像、1800幅驗(yàn)證樣本圖像和9000幅自然場景測試圖像,是國際上數(shù)據(jù)規(guī)模最大的場景文本檢測數(shù)據(jù)集之一.

      5)CTW-1500:這是華南理工大學(xué)所提供的一個(gè)專門數(shù)據(jù)集,主要面向曲線形狀分布的自然場景文本檢測任務(wù).其中,每幅圖像不僅至少包含1個(gè)曲線文本,也包含大量水平和多方向的文本[4].

      6)CTW:該數(shù)據(jù)集是由清華大學(xué)與騰訊公司共同推出的一個(gè)反映自然街景的中文文本圖像超大數(shù)據(jù)集,為訓(xùn)練高性能的深度學(xué)習(xí)模型奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ).它包含25887幅訓(xùn)練圖像和6398幅測試圖像,共有1018402個(gè)字符實(shí)例和3850 種字符種類.

      7)VinText:該數(shù)據(jù)集是含有越南語的自然場景文本檢測的最大數(shù)據(jù)集之一,包含2000張完整注釋的圖像(1200 張訓(xùn)練圖像、300張驗(yàn)證圖像和500張測試圖像)和56084個(gè)文本實(shí)例.其最大特點(diǎn)是包含多個(gè)類似字符,為從多個(gè)類似字符中辨別一個(gè)字符帶來了新挑戰(zhàn).

      8)LSVT[68]:該數(shù)據(jù)集是第一個(gè)帶有部分標(biāo)簽的大規(guī)模自然街景文本數(shù)據(jù)集,由450000幅圖像組成,包括20000個(gè)測試數(shù)據(jù)、30000個(gè)完整標(biāo)注的訓(xùn)練數(shù)據(jù)和400000個(gè)弱標(biāo)注的訓(xùn)練數(shù)據(jù),其總體規(guī)模至少是現(xiàn)有RRC基準(zhǔn)的14倍.

      9)COCO-Text[69]:該數(shù)據(jù)集是基于MS COCO目標(biāo)識(shí)別數(shù)據(jù)集建立起來的,由25887幅訓(xùn)練圖像、10000幅測試圖像和10000幅驗(yàn)證圖像組成,共包含145859個(gè)字符實(shí)例,主要反映復(fù)雜背景的自然圖像和生活場景圖像,并且大部分圖像中文本目標(biāo)的尺度均較小,甚至?xí)霈F(xiàn)不清晰的文本內(nèi)容[4],能夠有效用于測試自然場景文本檢測算法的健壯性和文本目標(biāo)檢測的精度.

      10)MSRA-TD500[70]:該數(shù)據(jù)集是由300張訓(xùn)練圖像和200張測試圖像組成的數(shù)據(jù)集.它包含英文、中文2種語言的文本,且文本區(qū)域具有任意方向,并在句子級(jí)別進(jìn)行了注釋.

      4.2 代表性文本檢測方法的性能比較

      考慮到大多數(shù)自然場景文本檢測方法采用線形文本檢測數(shù)據(jù)集ICDAR2013、ICDAR2015、COCO-Text和彎曲文本檢測數(shù)據(jù)集CTW-1500、Total-Text、MSRA-TD500作為訓(xùn)練測試數(shù)據(jù)集,本節(jié)主要對(duì)目前具有代表性的自然場景文本檢測方法在這兩類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行比較和討論.

      4.2.1 評(píng)價(jià)指標(biāo)

      文本檢測常用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(Precision)、召回率(Recall)、調(diào)和平均數(shù)(F-measure)以及幀率.為了更加客觀地評(píng)價(jià)各種自然場景文本檢測網(wǎng)絡(luò)的性能,根據(jù)不同數(shù)據(jù)集的文本檢測方法,其準(zhǔn)確率和召回率也有不同的計(jì)算方式,主流的評(píng)價(jià)方法有ICDAR 2003(IC03),ICDAR 2013(IC13),ICDA 2015(IC15)3種形式,詳見官方文檔.其中,幀率用于評(píng)估文本檢測的速度,其單位是FPS(frames per second),幀率越高,表明相應(yīng)方法的文本檢測速度越快;F-measure的計(jì)算方法如式(1)所示.

      (1)

      4.2.2 線形文本數(shù)據(jù)集上的比較

      表3對(duì)18種代表性的自然場景文本檢測方法在線形文本數(shù)據(jù)集ICDAR2013、ICDAR2015和COCO-Text上的性能表現(xiàn)進(jìn)行了比較.從表3中不難看出:

      1)由于VGG網(wǎng)絡(luò)能夠有效提取每個(gè)尺度下的圖像紋理和邊緣特征,因此基于VGG網(wǎng)絡(luò)的典型文本檢測方法在ICDAR2015數(shù)據(jù)集上的平均F-measure為0.7542.盡管該類方法達(dá)到了一定的檢測精度,可是VGG網(wǎng)絡(luò)結(jié)構(gòu)不具備根據(jù)前景/背景及長寬比來自適應(yīng)選取最佳尺度的能力.并且,為了保證網(wǎng)絡(luò)的訓(xùn)練過程能夠收斂,VGG的深度一般僅設(shè)置在19層以內(nèi),對(duì)應(yīng)6個(gè)不同的尺度,否則深度過大將會(huì)導(dǎo)致梯度彌散或梯度爆炸.在這種情況下,VGG 無法提取更高層次、更多尺度的文本特征,其平均F-measure明顯低于基于殘差網(wǎng)絡(luò)和FPN網(wǎng)絡(luò)的檢測方法.

      2)考慮到殘差網(wǎng)絡(luò)能將淺層特征與主要邊緣、整體輪廓等深層特征進(jìn)行加性融合并實(shí)現(xiàn)更加準(zhǔn)確的目標(biāo)逼近,基于殘差網(wǎng)絡(luò)的典型文本檢測方法在ICDAR2015數(shù)據(jù)集上的平均F-measure提高到了0.8364.總體上看,由于殘差網(wǎng)絡(luò)在非線性卷積層引進(jìn)了跨層的直連邊,其前饋機(jī)制提高了梯度信息的反向傳播效率和網(wǎng)絡(luò)訓(xùn)練的收斂效率,使得其在網(wǎng)絡(luò)深度達(dá)到152層甚至更深層次時(shí)仍可順利收斂[71],進(jìn)而能夠利用更多的卷積層提取更多尺度、更加豐富的圖像特征.同時(shí),多尺度融合特征的核心機(jī)制對(duì)于自然場景下的文本檢測發(fā)揮了積極作用,使得基于殘差網(wǎng)絡(luò)的一類方法的預(yù)期效果優(yōu)于基于VGG的一類檢測方法.不過,由于融合過程中的下采樣操作引起了頻率混疊和細(xì)節(jié)信息丟失,基于殘差網(wǎng)絡(luò)的文本檢測方法的性能仍然受到了一定影響.

      3)基于FPN網(wǎng)絡(luò)的文本檢測方法既充分利用了多尺度融合特征,又通過自頂向下的融合機(jī)制避免了頻率混疊和細(xì)節(jié)失真現(xiàn)象,得到了空間分辨率更高、通道數(shù)量更多、語義更強(qiáng)的多尺度融合特征圖.而且,典型的FPN網(wǎng)絡(luò)往往將殘差網(wǎng)絡(luò)作為其基礎(chǔ)網(wǎng)絡(luò),從而繼承了殘差網(wǎng)絡(luò)的優(yōu)良的收斂效率.所以,該類方法在ICDAR2015數(shù)據(jù)集上的平均F-measure達(dá)到了0.8694,取得了最高的性能期望.

      4)從總體的檢測性能來看,基于VGG網(wǎng)絡(luò)的典型文本檢測方法在ICDAR2013上的平均F-measure為0.8651,在COCO-Text上的平均F-measure為0.4930,而在ICDAR2015上的平均F-measure則為0.7542,三者相差0.3721.然而,基于殘差網(wǎng)絡(luò)的典型文本檢測方法在ICDAR2013、ICDAR2015和COCO-Text上的平均F-measure之差是0.369,基于FPN網(wǎng)絡(luò)的典型文本檢測方法在3個(gè)數(shù)據(jù)集上的平均F-measure之差卻僅為0.294.可見,基于VGG網(wǎng)絡(luò)的文本檢測方法在泛化能力方面仍存在一定不足.相比之下,基于FPN網(wǎng)絡(luò)的代表性文本檢測方法表現(xiàn)出了最優(yōu)的泛化性能.

      5)從文本檢測速度來看,基于VGG網(wǎng)絡(luò)的典型文本檢測方法的平均速度為6.71FPS,基于殘差網(wǎng)絡(luò)的典型文本檢測方法的平均速度為10.57FPS,而基于FPN網(wǎng)絡(luò)的典型文本檢測方法的平均速度為3.00FPS.并且,以FPN+VGG為骨干網(wǎng)絡(luò)的檢測方法的速度也明顯慢于以FPN+ResNet為骨干網(wǎng)絡(luò)的檢測方法.顯然,采用殘差網(wǎng)絡(luò)為骨干網(wǎng)絡(luò)的檢測方法在檢測速度方面具有明顯優(yōu)勢.分析其原因在于,除最后一個(gè)池化層外,每當(dāng)特征圖的尺寸降低一倍,VGG網(wǎng)絡(luò)模型就將相應(yīng)卷積層的通道數(shù)量提高一倍,導(dǎo)致網(wǎng)絡(luò)的卷積核數(shù)量和計(jì)算復(fù)雜度均較大,其每秒浮點(diǎn)運(yùn)算次數(shù)高達(dá)196億;在相同的特征圖尺寸下,ResNet網(wǎng)絡(luò)模型的通道數(shù)量至少比VGG降低一倍,其卷積核數(shù)量顯著減少,并且即使是152層的殘差網(wǎng)絡(luò),每秒需執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)也只有113億[8];FPN網(wǎng)絡(luò)需要對(duì)多種尺度的特征圖進(jìn)行插值與融合,其每秒浮點(diǎn)運(yùn)算次數(shù)達(dá)到了445億[72].

      6)對(duì)于具體的文本檢測方法而言,CRAFT[40]、CRAFTS[51]、TextFuseNet[52]和Mask TextSpotter[50]在ICDAR2013和ICDAR2015數(shù)據(jù)集上均具有良好的檢測效率.其中,CRAFT在兩個(gè)數(shù)據(jù)集上的F-measure分別為0.953和0.916,表明它對(duì)圖像的清晰度具有一定敏感性;TextFuseNet在ICDAR2013和ICDAR2015數(shù)據(jù)集上的F-measure則分別為0.943和0.921.同時(shí),Mask TextSpotter在COCO-Text數(shù)據(jù)集上達(dá)到了更優(yōu)良的性能.這些結(jié)果均說明多尺度融合特征能抑制圖像清晰度的干擾,對(duì)于線形文本檢測具有最佳的文本檢測穩(wěn)健性.

      4.2.3 彎曲文本數(shù)據(jù)集上的比較

      彎曲文本檢測往往要面臨比線形文本檢測更多的挑戰(zhàn),不僅需檢測水平或傾斜方向的文本區(qū)域,還要檢測彎曲形狀的文本區(qū)域.在這種情況下,曲線形的文本框能夠更準(zhǔn)確地?cái)M合文本區(qū)域.

      表4給出了典型的自然場景文本檢測方法在彎曲文本數(shù)據(jù)集CTW-1500、Total-Text和MSRA-TD500上的性能比較結(jié)果.從表4中可以發(fā)現(xiàn)與表3一致的結(jié)論,即基于殘差網(wǎng)絡(luò)和FPN網(wǎng)絡(luò)的文本檢測方法的性能要優(yōu)于VGG網(wǎng)絡(luò)的文本檢測方法;同時(shí),基于FPN+ResNet混合網(wǎng)絡(luò)結(jié)構(gòu)的檢測方法的客觀評(píng)價(jià)結(jié)果也優(yōu)于FPN+VGG混合網(wǎng)絡(luò)結(jié)構(gòu)的檢測方法,其根本原因仍然在于不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)多尺度局部特征的處理機(jī)制的差異.可見,充分利用自然場景圖像的多尺度特征,對(duì)于有效檢測彎曲文本同樣具有重要作用.

      表4 文本檢測方法在CTW-1500、Total-Text和MSRA-TD500上的實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results of text detection methods on CTW-1500,Total-Text,and MSRA-TD500

      從文本檢測速度的角度來看,基于VGG網(wǎng)絡(luò)的典型文本檢測方法的平均速度為6.53FPS,基于殘差網(wǎng)絡(luò)的典型文本檢測方法的平均速度為14.70FPS,而基于FPN網(wǎng)絡(luò)的典型文本檢測方法的平均速度為3.20FPS.因此,以殘差網(wǎng)絡(luò)為骨干網(wǎng)的文本檢測方法依然占有檢測速度的優(yōu)勢.

      對(duì)于具體的文本檢測方法而言,TextFuseNet[52]、CRAFT[40]、PCR[49]、ContourNet[48]在CTW-1500和Total-Text數(shù)據(jù)集上具有相對(duì)更佳的檢測性能,而PCR和DB[56]則在MSRA-TD500數(shù)據(jù)集上具有相對(duì)更高的檢測性能.TextFuseNet采用FPN+ResNet作為骨干網(wǎng),并采用3個(gè)分支網(wǎng)絡(luò)分別對(duì)字符、語義和全局3個(gè)層次的特征進(jìn)行融合,在CTW-1500數(shù)據(jù)集上的表現(xiàn)最佳,其F-measure達(dá)到了0.866.考慮到CTW-1500數(shù)據(jù)集中的每幅圖像既包含1個(gè)曲線文本,又含有水平和多方向的文本,TextFuseNet方法的客觀評(píng)價(jià)結(jié)果表明它能夠比其他的典型方法更加有效地處理自然場景下復(fù)合分布的文本檢測問題.在Total-Text數(shù)據(jù)集上,CRAFTS方法取得了最高的文本檢測精度,其F-measure為0.874,而TextFuseNet方法的性能評(píng)價(jià)結(jié)果僅與CRAFTS存在微小差距.由于PCR方法采用了與FPN網(wǎng)絡(luò)相似的自上而下的檢測策略,能夠得到更加穩(wěn)健的自然場景圖像特征,它在MSRA-TD500數(shù)據(jù)集上獲得了最佳的文本檢測性能,其F-measure為0.870.

      綜合4.2.2節(jié)與4.2.3節(jié)的比較結(jié)果可知,首先,在3類自然場景文本檢測方法中,基于FPN網(wǎng)絡(luò)結(jié)構(gòu)的檢測方法往往具有較強(qiáng)的檢測能力和穩(wěn)健性,更加擅長線形文本和彎曲文本的自動(dòng)檢測;其次,就參與比較的18種代表性方法而言,TextFuseNet方法在檢測精度、泛化能力以及處理復(fù)雜排列方向和文本行的穩(wěn)健性等方面取得了最佳的總體性能.

      5 總結(jié)與展望

      本文從骨干網(wǎng)絡(luò)的角度,回顧了基于深度卷積神經(jīng)網(wǎng)絡(luò)的自然場景文本檢測方法的研究進(jìn)展,討論了基于VGG網(wǎng)絡(luò)的文本檢測方法、基于ResNet網(wǎng)絡(luò)的文本檢測方法和基于FPN網(wǎng)絡(luò)的文本檢測方法的主要思路,分析了不同方法的優(yōu)勢、不足和適用范圍,進(jìn)而對(duì)若干代表性的自然場景文本檢測方法在標(biāo)準(zhǔn)數(shù)據(jù)集上的性能進(jìn)行了客觀比較.經(jīng)過總結(jié),發(fā)現(xiàn)基于FPN網(wǎng)絡(luò)的自然場景文本檢測方法預(yù)期具有優(yōu)秀的檢測能力、泛化能力和穩(wěn)健性.

      在此基礎(chǔ)上,本節(jié)將總結(jié)基于深度卷積網(wǎng)絡(luò)的自然場景文本檢測領(lǐng)域的難點(diǎn)問題與發(fā)展趨勢.

      5.1 自然場景文本檢測領(lǐng)域的難點(diǎn)

      現(xiàn)有的基于深度學(xué)習(xí)的自然場景文本檢測技術(shù)雖然已經(jīng)日益完善,且取得了大量優(yōu)秀的研究成果,但目前仍存在一些缺陷和不足未得到解決,技術(shù)框架也尚未完備.

      首先,現(xiàn)有的基于深度卷積神經(jīng)網(wǎng)絡(luò)的文本檢測技術(shù)大多來源于傳統(tǒng)的目標(biāo)檢測模型,如Faster RCNN,YOLO[73],ResNet和Transformer等網(wǎng)絡(luò)模型.并且,多數(shù)方法都以遷移學(xué)習(xí)的方式使用在大型圖像數(shù)據(jù)集ImageNet上預(yù)先訓(xùn)練的模型.然而,這種解決方案忽略了文本內(nèi)容與其他目標(biāo)物體之間的特征差異性,可能達(dá)不到令人滿意的文本檢測性能.

      其次,VGG網(wǎng)絡(luò)、ResNet網(wǎng)絡(luò)和FPN網(wǎng)絡(luò)能夠有效提取圖像中的多尺度局部特征.然而,在自然場景圖像中,背景區(qū)域與前景文本區(qū)域不僅具有明顯的局部相關(guān)性,還存在視覺上下文信息的非局部特征的相關(guān)性.若忽略了非局部信息的跨鄰域上下文建模能力,則會(huì)不可避免地影響文本檢測方法對(duì)復(fù)雜背景、多樣文本的檢測精度和健壯性.

      然后,東德出版的《語言學(xué)與語言交際手段指南》指出,目前世界上公認(rèn)的獨(dú)立語言有4200種,其中廣泛使用的語言有19種.由于標(biāo)注數(shù)據(jù)集需要耗費(fèi)大量的人工成本,目前大多數(shù)的自然場景文本檢測數(shù)據(jù)集只包含中文、英文、阿拉伯?dāng)?shù)字等單一語種.一方面,該領(lǐng)域尚非常缺乏多語種以及混合語種的大型文本圖像數(shù)據(jù)集;另一方面,鮮見包含不同字體的文本或相似文本的大型文本圖像數(shù)據(jù)集.

      最后,模型的泛化能力始終是自然場景文本檢測領(lǐng)域的難點(diǎn)問題.線形文本、彎曲文本和不規(guī)則形狀文本的特征差異較大,目前尚未出現(xiàn)能夠有效處理不同布局形狀的通用的自然場景文本檢測方法,這已成為提升網(wǎng)絡(luò)模型的泛化能力的重要阻礙之一.而且,自然場景文本時(shí)常伴有復(fù)雜的背景遮擋、異常大小和不規(guī)則形狀等現(xiàn)象,無疑進(jìn)一步增大了自然場景文本檢測的研究難度.

      5.2 自然場景文本檢測的研究展望

      鑒于當(dāng)前的研究現(xiàn)狀,本文認(rèn)為自然場景的文本檢測技術(shù)將有望在以下4個(gè)方面取得進(jìn)展.

      1)建立符合自然場景文本圖像特點(diǎn)的深度學(xué)習(xí)框架.雖然文本檢測屬于目標(biāo)檢測中的一個(gè)特例,但是現(xiàn)有的目標(biāo)檢測模型卻能夠?yàn)榻鉀Q文本檢測問題提供新的思路.不過,簡單地把目標(biāo)檢測的深度學(xué)習(xí)框架直接應(yīng)用于文本檢測問題往往會(huì)忽略文字本身的特點(diǎn).與其他場景目標(biāo)不同,自然場景文本具有拓?fù)浣Y(jié)構(gòu)的特殊性和視覺上下文信息的相關(guān)性.因此,若能將文本上下文的局部特征和跨鄰域非局部特征有效地融入深度學(xué)習(xí)框架,則有望提升自然場景文本檢測模型的整體性能.

      2)構(gòu)建更完備的標(biāo)準(zhǔn)文本圖像數(shù)據(jù)集.研究制定自然場景文本標(biāo)注規(guī)范、評(píng)測標(biāo)準(zhǔn)和標(biāo)準(zhǔn)數(shù)據(jù)集的意義絕不亞于提出一種優(yōu)秀文本檢測方法的意義.同時(shí),建設(shè)多語種、混合語種的大型文本數(shù)據(jù)集供廣大學(xué)者開展自然場景下的泛語種文本檢測研究,對(duì)于擴(kuò)大自然場景文本檢測的應(yīng)用領(lǐng)域和應(yīng)用場景具有重要價(jià)值.

      3)引進(jìn)更加有效的增強(qiáng)泛化能力的理論和方法.目前,多數(shù)方法在模型設(shè)計(jì)上主要采用了Dropout方法使模型節(jié)點(diǎn)隨機(jī)失活,旨在減少神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系,迫使網(wǎng)絡(luò)去學(xué)習(xí)更加魯棒的特征.若在模型設(shè)計(jì)過程中采取更寬的網(wǎng)絡(luò)結(jié)構(gòu)、更優(yōu)的融合策略將多個(gè)維度、多個(gè)尺度的特征進(jìn)行融合,則可得到關(guān)于紋理、邊緣、輪廓、顏色、空間位置等特征的更加有效的表示,這是提高模型學(xué)習(xí)效果的改進(jìn)思路之一.此外,在模型的損失函數(shù)中加入正則項(xiàng)可以防止參數(shù)過大和過度擬合,從而增強(qiáng)其泛化能力.

      4)設(shè)計(jì)恰當(dāng)?shù)臄?shù)據(jù)增廣策略.通過較低的成本獲得較大價(jià)值的標(biāo)注數(shù)據(jù),有助于進(jìn)一步提高文本檢測模型的學(xué)習(xí)精度.因此,采用數(shù)據(jù)增廣的方式來擴(kuò)充數(shù)據(jù)集,通過對(duì)同一張圖片進(jìn)行尺度放縮、比例改變、圖像截取和旋轉(zhuǎn)等操作去除圖像尺寸變化這種無關(guān)因素對(duì)訓(xùn)練的影響,能夠在一定程度上提高模型的泛化能力.

      猜你喜歡
      尺度卷積特征
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
      如何表達(dá)“特征”
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      不忠誠的四個(gè)特征
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      抓住特征巧觀察
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      9
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
      余庆县| 佛山市| 钦州市| 福清市| 秀山| 凤山市| 浏阳市| 晋城| 昌黎县| 舟曲县| 寻乌县| 华池县| 虹口区| 大悟县| 横山县| 宝清县| 郴州市| 离岛区| 五原县| 鹤壁市| 盐津县| 麦盖提县| 河东区| 新沂市| 南丰县| 漯河市| 黔江区| 东兰县| 黄平县| 息烽县| 武威市| 伊吾县| 安多县| 会理县| 思南县| 绥化市| 塘沽区| 罗甸县| 禹州市| 临江市| 连江县|