盧利瓊,陳長江,吳東,熊建芳
(1.嶺南師范學(xué)院 計(jì)算機(jī)與智能教育學(xué)院,廣東 湛江 524048;2.廣東省特殊兒童發(fā)展與教育重點(diǎn)實(shí)驗(yàn)室,廣東 湛江 524048)
據(jù)中國殘聯(lián)數(shù)據(jù)顯示,目前中國視障群體超過1 800萬,人數(shù)位居全球第一[1]。盲人和視障人士通過盲文來學(xué)習(xí)和交流,盲文是路易斯·布萊葉于1824 年在法國的一所盲人學(xué)校里所發(fā)明,通過觸覺獲取信息。盲文由盲文字符(也叫盲方)組成,盲文字符由6 個(gè)固定位置的盲點(diǎn)按一定出現(xiàn)順序組成,一共有63 種組合方式[2]。
盲文是盲人朋友用來學(xué)習(xí)技能、了解世界以及與人溝通交流的重要媒介[3]。但是,正常人對(duì)盲文的了解很少,導(dǎo)致他們與盲人朋友的溝通和交流非常困難。盲文檢測(cè)是利用人工智能技術(shù)從圖像中讀取盲文位置,是盲文識(shí)別的前置步驟。盲文檢測(cè)方法可以直接應(yīng)用于盲文書籍電子化、盲文自動(dòng)閱卷等方面,也可以幫助正常人和盲人進(jìn)行無障礙交流,如特殊教育工作者檢查盲人學(xué)生的作業(yè)、盲人的父母和朋友查看盲人的讀書筆記等。
盲文屬于小眾語言,現(xiàn)有對(duì)盲文檢測(cè)的研究并不多,且主要集中在掃描文檔圖像上[4-5]。盲文檢測(cè)技術(shù)按研究對(duì)象的不同可以分為盲點(diǎn)檢測(cè)方法和盲文字符檢測(cè)方法。掃描圖像中檢測(cè)盲點(diǎn)的方法主要分為兩類,一類是基于圖像分割的盲點(diǎn)檢測(cè)方法,另一類是將挖掘盲點(diǎn)特性與機(jī)器學(xué)習(xí)分類方法相結(jié)合的盲點(diǎn)檢測(cè)方法。
基于圖像分割的方法首先使用局部自適應(yīng)閾值將盲文圖像的像素分割成陰影、光線和背景這3 個(gè)部分,然后通過3 個(gè)部分的組合規(guī)則來檢測(cè)盲文點(diǎn)[6-7]。此類盲文點(diǎn)檢測(cè)方法對(duì)閾值較為敏感,且通過多個(gè)步驟才能得到檢測(cè)目標(biāo),容易產(chǎn)生累計(jì)錯(cuò)誤[8]。
為了避免上述問題,第二類盲文點(diǎn)檢測(cè)方法通過挖掘盲點(diǎn)特征和分類算法來直接檢測(cè)盲點(diǎn),常見的盲點(diǎn)特征挖掘和分類算法有Haar+SVM(Support Vector Machines)[9]、HOG(Histogram of Oriented Gradient)+SVM[10-11]、(Haar,LBP(Local Binary Pattern),HOG)+Adaboost[12]等。另外,MORGAVI等[13]使用簡單的神經(jīng)網(wǎng)絡(luò)來檢測(cè)盲點(diǎn),VENUGOPAL-WAIRAGADE[14]使用Hough 變換進(jìn)行圓形檢測(cè)以找到盲點(diǎn)。這些方法雖然能直接檢出盲點(diǎn),但是需要將多個(gè)盲點(diǎn)進(jìn)行組合得到盲文字符,依然存在多步驟導(dǎo)致累計(jì)錯(cuò)誤的問題。近年來開始出現(xiàn)直接檢測(cè)盲文字符的方法,RONNEBERGER等[15]使用改進(jìn)U-Net 架構(gòu)的分割神經(jīng)網(wǎng)絡(luò)從像素級(jí)別檢驗(yàn)?zāi)诚袼厥欠駥儆诿の淖址?,隨后聚合相鄰像素后得到盲文字符區(qū)域[16]。
現(xiàn)有盲文檢測(cè)方法只針對(duì)掃描文檔圖像,但是隨時(shí)隨地掃描文檔圖像非常困難,而使用智能攝像設(shè)備(如智能手機(jī))隨時(shí)隨地拍攝盲文圖像則極為便利。因此,自然場景圖像中的盲文檢測(cè)會(huì)成為一個(gè)更主流的應(yīng)用場景。另外,從盲文語義識(shí)別的角度來看,盲文字符在識(shí)別過程中需要參考其前后的字符,而現(xiàn)有的盲文檢測(cè)方法多是針對(duì)盲點(diǎn)和盲文字符,如果檢測(cè)的盲文字符不連續(xù),就會(huì)導(dǎo)致識(shí)別過程出錯(cuò),而盲文段檢測(cè)是一個(gè)更好的選擇。
本文構(gòu)造一個(gè)自然場景盲文圖像數(shù)據(jù)集,該數(shù)據(jù)集中的所有圖像都是使用智能設(shè)備拍攝而來,并對(duì)數(shù)據(jù)集中的圖像在亮度、對(duì)比度和柔和度方面進(jìn)行增強(qiáng)處理,擴(kuò)充數(shù)據(jù)集以提高卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)訓(xùn)練模型的普適性。隨后基于CNN 技術(shù),以ResNet50[17]作為主干網(wǎng)絡(luò),分析自然場景圖像中盲文的特點(diǎn),通過設(shè)計(jì)多尺寸特征融合策略和錨框相關(guān)參數(shù)來檢測(cè)不同尺寸的盲文段,基于Faster R-CNN[18]的基本框架提出一種自然場景圖像中的盲文段檢測(cè)方法。在所提自然場景盲文圖像數(shù)據(jù)集上對(duì)該盲文段檢測(cè)方法進(jìn)行性能測(cè)試,并將其與經(jīng)典的自然場景目標(biāo)檢測(cè)算法Faster R-CNN 和SSD[19]進(jìn)行對(duì)比。
本文構(gòu)造的自然場景盲文圖像數(shù)據(jù)集的圖像來源主要有2種,一是從網(wǎng)絡(luò)上下載,二是使用智能拍攝設(shè)備進(jìn)行拍攝。該數(shù)據(jù)集中共有圖像554幅,其中80%用于訓(xùn)練集,20%用于測(cè)試集。
由于所有圖像均在自然場景下拍攝,圖像的背景、顏色、盲文尺寸以及光線等差異較大,特別是有些圖像中盲文與背景混雜在一起,導(dǎo)致盲文檢測(cè)極其困難。圖1 所示為該數(shù)據(jù)集中的部分盲文圖像。
圖1 自然場景盲文圖像Fig.1 Natural scene Braille images
從圖1 可以看出:自然場景中的盲文可以出現(xiàn)在不同顏色、不同材質(zhì)、不同光線和不同形式的背景上,如廣告牌、電梯指示牌、水管和貨幣等;盲文在圖像中的位置、盲文尺寸、排列和呈現(xiàn)形式的變化也較大。除此之外,圖像中的盲文往往以段的方式隔開,這與盲文書寫和識(shí)別形式基本一致。為了推進(jìn)自然場景盲文識(shí)別工作,本文將該自然場景盲文圖像數(shù)據(jù)集共享在百度網(wǎng)盤上,對(duì)應(yīng)的鏈接為https://pan.baidu.com/s/1WyLDJKfJb0f884FiIi12Gw?pwd=wqan,以供有興趣的研究人員免費(fèi)使用。
由于自然場景中的圖像在光線、模糊度、對(duì)比度以及柔和度方面存在較大差異,因此自然場景中的盲文圖像可能出現(xiàn)光照過強(qiáng)或過弱、明暗反差不足或嚴(yán)重以及拍攝模糊等情況。為了增強(qiáng)盲文段檢測(cè)的容錯(cuò)性、健壯性和抗干擾性,本文對(duì)數(shù)據(jù)集的圖像進(jìn)行增強(qiáng)處理,以對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,滿足CNN 訓(xùn)練需求,提升數(shù)據(jù)集的普適性。圖2 所示為樣例圖像經(jīng)過數(shù)據(jù)增強(qiáng)后生成的6 幅圖像,在圖像增強(qiáng)后,554 張?jiān)疾杉の膱D像加上數(shù)據(jù)增強(qiáng)后生成的圖像,數(shù)據(jù)集中的盲文圖像共有554+554×6=3 878張,滿足CNN 訓(xùn)練的需求。
圖2 圖像增強(qiáng)效果Fig.2 Images enhancement effect
盲文圖像數(shù)據(jù)集文件夾的目錄結(jié)構(gòu)如圖3 所示。Braille_img 中存放所有自然場景盲文圖像,Braille_img_augment 中存放數(shù)據(jù)增強(qiáng)后的所有圖像。Braille_img_xml 和Braille_img_augment_xml 分別對(duì)應(yīng)VOC 格式的原圖像標(biāo)簽文件和數(shù)據(jù)增強(qiáng)后圖像的標(biāo)簽文件。train.txt 和test.txt 中分別記錄了用做訓(xùn)練集和測(cè)試集的圖像名稱。
圖3 自然場景盲文圖像數(shù)據(jù)集目錄結(jié)構(gòu)Fig.3 Directory structure of natural scene Braille image dataset
自然場景圖像中的盲文與其他對(duì)象類似,都有較復(fù)雜的背景、不均勻的光線以及顏色和尺寸變化大等特點(diǎn)[20-21]。近年來,CNN 在自然場景對(duì)象檢測(cè)領(lǐng)域取得了優(yōu)異的成績[22-23],因此,可以嘗試用CNN來挖掘自然場景圖像中的盲文特征[24-25]。本文進(jìn)一步分析自然場景盲文段與其他對(duì)象的不同之處,特別是在書寫形式和結(jié)構(gòu)方面,發(fā)現(xiàn)自然場景盲文段在呈現(xiàn)形式上多為狹長形狀,盲文段在高度上變化較小,但是在寬度上變化較大,且有不同尺寸盲文段出現(xiàn)在各類背景上。因此,如何較好地檢測(cè)出自然場景中多尺寸、狹長狀的盲文段是本文需要解決的關(guān)鍵問題。
本文受Faster R-CNN 算法的啟發(fā),以ResNet50作為主干網(wǎng)絡(luò),首先提出多尺寸CNN 特征融合策略和錨框參數(shù)來挖掘多尺寸盲文特征,然后設(shè)計(jì)盲文分類、位置回歸損失函數(shù)來訓(xùn)練CNN 得到自然場景盲文段檢測(cè)模型,最后根據(jù)訓(xùn)練得到的模型設(shè)計(jì)盲文段預(yù)測(cè)方法。
圖4 所示為本文盲文段檢測(cè)方法的總體框架示意圖。
圖4 本文方法總體框架Fig.4 Overall framework of the method in this paper
首先以ResNet50 作為CNN 主干網(wǎng)絡(luò),利用式(1)對(duì)不同大小的特征層fi進(jìn)行特征融合后變成hi,然后在大小為(W/4×H/4)的特征層后添加RPN 網(wǎng)絡(luò)獲取初步的建議框(Proposals),將建議框和特征層h4經(jīng)過RoI Pooling 處理后形成建議框特征層(Proposal feature maps),最后在建議框特征層上預(yù)測(cè)盲文段文本框的精確位置信息(bbox_pred)和分類信息(cls_prob)。在本文盲文段檢測(cè)方法中,盲文段的位置使用矩形框來表示,采用矩形框中心點(diǎn)的坐標(biāo)、寬和高來進(jìn)行幾何表示。盲文段的分類結(jié)果則分為兩類,即盲文段和非盲文段。
與Faster R-CNN 類似,本文算法也在CNN 特征層的每個(gè)像素上設(shè)置不同大小、不同寬高比的錨框來模擬多尺寸盲文段的位置,然后利用CNN 來預(yù)測(cè)真實(shí)盲文段矩形框與錨框在中心點(diǎn)坐標(biāo)、寬和高方面的差異。本文分析自然場景圖像中的盲文在呈現(xiàn)形式上多為狹長形狀,且盲文段在高度上變化較小,但是在寬度上變化較大。另外,有部分小尺寸盲文段只由1 或2 個(gè)盲文字符組成,在整幅圖像中所占像素點(diǎn)極少。根據(jù)目標(biāo)檢測(cè)領(lǐng)域通用數(shù)據(jù)集COCO 對(duì)物體大小的定義[26],在圖像中小于32×32 個(gè)像素點(diǎn)的物體被稱為小尺寸目標(biāo),且小尺寸目標(biāo)存在難以分辨、攜帶特征少等問題,容易被CNN 模型忽略,從而造成漏檢情況。在自然場景盲文圖像中,有多尺寸目標(biāo)同時(shí)存在于一幅圖像中的情況,如圖5 所示,該圖中左側(cè)電梯按鈕中的盲文所占面積均小于32×32 像素,屬于小尺寸目標(biāo),而右側(cè)按鈕上的盲文段尺寸相對(duì)大很多。
圖5 包含小尺寸盲文段的自然場景圖像Fig.5 Natural scene image containing small Braille segments
本文根據(jù)自然場景盲文段的特點(diǎn)來設(shè)計(jì)錨框參數(shù):首先將錨框的基本尺寸設(shè)計(jì)為32×32、64×64、128×128、256×256、512×512 這5 種;然后基本尺寸的錨框都按照面積不變以及長寬比分別為1∶1、2∶1 和3∶1 的方式再生成3 種錨框;最后在RPN 網(wǎng)絡(luò)特征層的每一個(gè)像素點(diǎn)上都生成重新設(shè)計(jì)的15 種錨框。這些不同尺寸的錨框?qū)?yīng)到原始圖像上,基本上可以包含所有盲文段目標(biāo)。后續(xù)實(shí)驗(yàn)結(jié)果證明,本文設(shè)計(jì)的錨框參數(shù)能夠有效地從圖像中檢測(cè)出不同尺寸的盲文段目標(biāo)。
本文方法根據(jù)建議框特征層的輸出來設(shè)計(jì)損失函數(shù)。損失函數(shù)主要包括2 個(gè)方面:
1)盲文段分類損失。盲文段分成0 和1 兩類,0表示非盲文段,1 表示盲文段,在計(jì)算損失函數(shù)時(shí)先使用Softmax 函數(shù)計(jì)算出目標(biāo)是盲文段的概率,隨后針對(duì)概率計(jì)算交叉熵?fù)p失。
2)盲文段矩形框位置回歸損失,該損失采用SmoothL1函數(shù)。與Faster R-CNN 類似,本文使用矩形框中心點(diǎn)坐標(biāo)、寬和高(x,y,w,h)來表示盲文段位置,并利用預(yù)測(cè)框和錨框位置的參數(shù)化差值、真實(shí)盲文段矩形框和錨框位置的參數(shù)化差值來計(jì)算回歸損失。
本文方法總的損失函數(shù)如式(2)所示:
其中:Lcls和Lreg分別表示分類和回歸損失;pi和pi*分別表示目標(biāo)是盲文段的預(yù)測(cè)概率和實(shí)際概率;ti和ti*參數(shù)的含義與Faster R-CNN 相同,分別表示盲文段位置預(yù)測(cè)向量(x,y,w,h)與錨框位置向量的參數(shù)化差值、真實(shí)盲文段矩形框位置向量與錨框位置向量的參數(shù)化差值;Ncls和Nreg分別表示預(yù)測(cè)盲文段矩形框分類和位置回歸的總數(shù)目;λ用來平衡分類損失和回歸損失,取值為Nreg/Ncls。
式(3)~式(5)表示Lcls和Lreg的具體計(jì)算方法,分別對(duì)應(yīng)交叉熵?fù)p失函數(shù)和SmoothL1函數(shù)的具體計(jì)算方法:
在盲文圖像預(yù)測(cè)階段,首先使用Resize 函數(shù)將輸入圖像調(diào)整到600×600 像素,隨后將調(diào)整后的圖像送入已經(jīng)訓(xùn)練好的CNN 網(wǎng)絡(luò)模型,得到cls_prob和bbox_prd,其中,cls_prob 存放的是預(yù)測(cè)矩形框分類的概率,box_pred 存放的是預(yù)測(cè)矩形框的位置信息和對(duì)應(yīng)的置信度。對(duì)于所有盲文分類概率大于0.5 的預(yù)測(cè)矩形框,采用NMS 算法[27]過濾掉面積重疊的矩形框后得到最終的預(yù)測(cè)結(jié)果。在本文算法中,設(shè)置NMS 算法IOU 閾值為0.4,預(yù)測(cè)矩形框置信度的閾值設(shè)置為0.5,詳細(xì)預(yù)測(cè)過程如算法1 所示。
算法1盲文段預(yù)測(cè)階段處理過程
輸入ImageI,CNN_trained_model
輸出the list of Braille character rectanglesR
1.R=[]
R_predict=[]//參數(shù)初始化
2.cls_prob,bbox_pred=CNN_trained_model(Resize(I,(600,600)))
//根據(jù)訓(xùn)練的模型得到預(yù)測(cè)初始值
3.for each cls_value,bbox_value in range(cls_prob,bbox_pred)//循環(huán)處理
4.if cls_value >0.5 then
//獲取預(yù)測(cè)分類概率大于0.5 對(duì)應(yīng)的矩形框位置信息
5.R_predict.append(bbox_value)
6.end if
7.R=NMS(R_predict,IOU_thresholed=0.4,Score_threshold=0.5)
//調(diào) 用NMS 算法后處理
8.return R
本文采用深度學(xué)習(xí)框架TensorFlow[28]并基于GPU 2080ti 實(shí)現(xiàn)所有算法。在訓(xùn)練過程中,所有CNN 均采用SGD(Stochastic Gradient Descent)進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)置為1×10-4,batch size 設(shè)置為8,訓(xùn)練總次數(shù)設(shè)置為100 epoch。在所提自然場景盲文圖像數(shù)據(jù)集上,對(duì)本文盲文段檢測(cè)算法與目標(biāo)檢測(cè)領(lǐng)域經(jīng)典的算法SSD 和Faster R-CNN 進(jìn)行比較和分析。
采用文本檢測(cè)領(lǐng)域經(jīng)典的準(zhǔn)確率(P)、回歸率(R)和綜合指標(biāo)(Hmean 值)來評(píng)價(jià)盲文段檢測(cè)性能。準(zhǔn)確率表示正確預(yù)測(cè)的盲文段矩形框個(gè)數(shù)占所有預(yù)測(cè)出來的盲文段矩形框個(gè)數(shù)的百分比,如果某個(gè)盲文段檢測(cè)框與真實(shí)框面積的IOU 大于0.5,就認(rèn)為該盲文段矩形框是被正確檢測(cè)的。回歸率表示盲文段真實(shí)框被正確預(yù)測(cè)的百分比,其值為正確預(yù)測(cè)盲文段個(gè)數(shù)除以所有盲文段真實(shí)框的個(gè)數(shù)。Hmean 是一個(gè)綜合指標(biāo),其值由P和R計(jì)算而來。P、R和Hmean的計(jì)算方法如下:
其中:TTP表示正確預(yù)測(cè)盲文段文本框的個(gè)數(shù);FFP表示錯(cuò)誤預(yù)測(cè)的個(gè)數(shù);FFN表示檢測(cè)方法漏檢的個(gè)數(shù)。
將本文自然場景盲文段檢測(cè)算法與目標(biāo)識(shí)別領(lǐng)域經(jīng)典檢測(cè)算法SSD 和Faster R-CNN 在所提自然場景盲文圖像數(shù)據(jù)集上進(jìn)行比較和分析,實(shí)驗(yàn)結(jié)果如表1 所示,最優(yōu)結(jié)果加粗標(biāo)注。從表1 可以看出,本文檢測(cè)算法的準(zhǔn)確率為0.839 7,回歸率為0.941 9,綜合指標(biāo)Hmean 值為0.887 9。與SSD 和Faster R-CNN 相比,本文自然場景盲文段檢測(cè)算法在準(zhǔn)確率、回歸率和Hmean 值上均較優(yōu),特別是在回歸率指標(biāo)上,本文算法提升效果尤為明顯。本文同時(shí)也使用VGG16 作為主干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比,從表1 也可以看出,與使用ResNet50 作為主干網(wǎng)絡(luò)相比,使用VGG16 作為主干網(wǎng)絡(luò)時(shí)檢測(cè)性能稍差一點(diǎn),但是也遠(yuǎn)高于SSD 和Faster R-CNN 的檢測(cè)性能。
表1 3 種算法的檢測(cè)性能對(duì)比Table 1 Comparison of detection performance of three algorithms
本文盲文段檢測(cè)算法是根據(jù)自然場景盲文的特點(diǎn)和Faster R-CNN 的基本框架而提出,與Faster R-CNN 相比,本文檢測(cè)算法主要有3 個(gè)方面的改進(jìn):一是使用ResNet50 作為主干網(wǎng)絡(luò),并設(shè)計(jì)不同尺寸特征層融合策略,以有效挖掘多尺寸盲文段的特征;二是與自然場景盲文特點(diǎn)相結(jié)合后設(shè)計(jì)合理的錨框大小和寬高比;三是設(shè)計(jì)針對(duì)亮度、對(duì)比度和柔和度的圖像增強(qiáng)方法,增強(qiáng)盲文段檢測(cè)的容錯(cuò)性、健壯性和抗干擾性,以應(yīng)對(duì)自然場景光線、背景和場景多變的情況。圖6 所示為Faster R-CNN 和本文算法針對(duì)同一幅圖像的檢測(cè)結(jié)果。從圖6 可以看出,本文檢測(cè)算法能夠檢測(cè)出更多的盲文段,特別是小尺寸盲文段,這也說明本文針對(duì)自然場景盲文特點(diǎn)而引入的以上設(shè)計(jì)思想是正確且有效的。
圖6 2 種算法針對(duì)同一幅圖像的檢測(cè)結(jié)果Fig.6 Detection results of two algorithms for the same image
為了更加直觀地呈現(xiàn)本文算法的檢測(cè)效果,圖7和圖8 分別列出本文算法正確檢測(cè)圖像樣例和檢測(cè)不完整的圖像樣例,其中,用矩形框標(biāo)記出了盲文段矩形框的檢測(cè)位置和置信度。從圖7 標(biāo)記的檢測(cè)結(jié)果可以看出,本文算法在光線不均、盲文尺寸和盲文段顏色變化大、圖像背景復(fù)雜甚至盲文點(diǎn)與背景融合在一起時(shí),都能準(zhǔn)確有效地檢測(cè)出盲文段所在的位置。從圖8 的檢測(cè)結(jié)果可以看出,本文檢測(cè)算法還存在一些不足的地方,當(dāng)盲文段特別長時(shí),會(huì)遺漏一部分檢測(cè)結(jié)果,當(dāng)圖像中的盲文呈非水平方向時(shí),使用水平矩形框去識(shí)別位置會(huì)導(dǎo)致后續(xù)盲文識(shí)別出現(xiàn)錯(cuò)誤,還有一些特別小的盲文段存在漏檢的情況。后續(xù)擬針對(duì)這些情況進(jìn)一步改進(jìn)算法。
圖7 本文算法正確檢測(cè)的圖像樣例Fig.7 Sample images correctly detected by the algorithm in this paper
圖8 盲文段檢測(cè)不完整的圖像樣例Fig.8 Sample images with incomplete Braille segment detection
現(xiàn)有盲文檢測(cè)方法應(yīng)用場景單一且只針對(duì)盲文掃描圖像,對(duì)于自然場景圖像中的盲文檢測(cè)相關(guān)研究較少。此外,現(xiàn)有大多數(shù)盲文檢測(cè)方法都是針對(duì)盲文點(diǎn)和盲文字符,難以給后續(xù)盲文識(shí)別階段提供有效輸入。本文首先通過Internet、手機(jī)和智能拍攝設(shè)備獲得554 幅自然場景盲文圖像,構(gòu)成自然場景盲文圖像數(shù)據(jù)集,并通過labelme 工具對(duì)圖像中的盲文段位置進(jìn)行標(biāo)記。隨后分析自然場景盲文段的特點(diǎn),基于Faster R-CNN 的基本框架,以ResNet50 作為主干網(wǎng)絡(luò),設(shè)計(jì)多尺度特征融合策略、錨框參數(shù)和圖像增強(qiáng)策略,提出一種自然場景盲文段檢測(cè)算法。在所提自然場景盲文圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,與目標(biāo)識(shí)別領(lǐng)域經(jīng)典算法SSD和Faster R-CNN相比,該算法檢測(cè)性能提升明顯,Hmean 值達(dá)到0.887 9。進(jìn)一步分析盲文段圖像檢測(cè)樣例,發(fā)現(xiàn)本文所提算法在盲文段特別長、尺寸特別小、盲文段非水平時(shí)存在漏檢和檢測(cè)不完整的情況。后續(xù)將結(jié)合注意力機(jī)制進(jìn)一步挖掘自然場景圖像中盲文段的特征,設(shè)計(jì)與盲文段尺寸相關(guān)的損失函數(shù)以及多方向矩形框,對(duì)盲文段進(jìn)行幾何表示,以檢測(cè)出更多的多尺寸和非水平方向的盲文段。