• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVM的盲文檢測方法

      2021-03-13 14:38:43盧利瓊吳東
      現(xiàn)代信息科技 2021年15期

      盧利瓊 吳東

      摘? 要:盲文是視力障礙人士用來學(xué)習(xí)技能和了解世界的重要手段,盲文檢測則是促進(jìn)視力障礙人士和正常人士交流的關(guān)鍵技術(shù)。針對盲文掃描圖像,利用HOG(Histogram of Oriented Gradient)特征和SVM(Support Vector Machine)提出了一種盲文檢測方法,并在盲文掃描圖像數(shù)據(jù)集DSBI上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,所提出的方法能夠有效檢測盲文點(diǎn)信息。

      關(guān)鍵詞:視力障礙;盲文檢測;HOG;SVM

      中圖分類號:TP391.4? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2021)15-0131-03

      Abstract: Braille is an important means for the visually impaired people to learn skills and understand the world. And braille detection is the key technology to promote the communication between visually impaired people and normal people. For braille scanned images, a braille detection method is proposed by using HOG (Histogram of Oriented Gradient) feature and SVM (Support Vector Machine), and verified on braille scanned image data set DSBI. The experimental results show that the proposed method can effectively detect braille point information.

      Keywords: visually impaired; braille detection; HOG; SVM

      0? 引? 言

      我國目前視力障礙人士超過1 800萬,平均每一分鐘就會出現(xiàn)一位視力障礙人士[1]。盲文是這些視障人士用來學(xué)習(xí)和了解世界的重要手段。我國政府非常重視視障人士的生活和發(fā)展問題,提出了“特殊教育信息化”的總導(dǎo)思想。盲文檢測旨在利用人工智能技術(shù)自動檢測出整幅圖像中的盲文信息,是諸多特殊教育產(chǎn)品應(yīng)用能夠落地的關(guān)鍵技術(shù),如盲文書籍電子化、盲文自動閱卷、盲人與正常人的交流,等等。

      盲文由多個(gè)盲方組成,而每個(gè)盲方則由六個(gè)盲點(diǎn)按照固定順序(共兩列,每列三個(gè)盲點(diǎn))和盲點(diǎn)是否出現(xiàn)進(jìn)行排列[2],如圖1所示。目前,盲文檢測是先將盲文點(diǎn)檢測出來,然后再組成盲方進(jìn)行識別?,F(xiàn)有的盲文點(diǎn)檢測方法主要有兩類,第一類是利用圖像分割和盲點(diǎn)凸起的特性從像素的角度將每個(gè)像素分成凸點(diǎn)像素、凹點(diǎn)像素和背景像素三類,然后將相鄰的凸點(diǎn)像素組合得到盲文點(diǎn);第二類則是先利用滑窗的機(jī)制從圖像中獲取多個(gè)子圖像,然后針對每個(gè)子圖像來提取紋理特征作為機(jī)器學(xué)習(xí)方法(例如SVM,Adaboost等)的輸入進(jìn)行盲文點(diǎn)的檢測。從實(shí)驗(yàn)結(jié)果來看,第二類方法的檢測性能優(yōu)于第一類方法[3]。

      本文首先利用滑窗機(jī)制將盲文掃描圖像分割成多個(gè)子圖像,然后從每個(gè)子圖像中提取HOG特征,緊接著將HOG特征作為SVM的輸入對圖像中盲點(diǎn)的位置進(jìn)行檢測,最后利用非極大值抑制(Non-Max-Suppression, NMS)算法過濾多個(gè)相似的檢測結(jié)果得到最優(yōu)結(jié)果。在數(shù)據(jù)集DSBI[3]上對本文提出的方法進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地從盲文掃描圖像中檢測出盲點(diǎn)的位置信息,與基于圖像分割等方法相比,其檢測性能有一定的提升。

      1? 基于SVM的盲文檢測方法

      1.1? HOG特征提取

      HOG全稱為Histogram of Oriented Gradient,即方向梯度直方圖,是計(jì)算機(jī)視覺和圖像檢測中用來描述物體特征的特征子,也是目前使用最廣泛的一種特征子。HOG特征通過統(tǒng)計(jì)和計(jì)算圖像梯度和邊緣的方向梯度來構(gòu)成特征。在一幅圖像中,HOG特征能較好地描述圖像局部的表象和形狀。HOG特征提取的邊緣和梯度特征能很好地抓住局部形狀的特點(diǎn),對幾何和光學(xué)變化具有不變性。HOG特征結(jié)合SVM分類器已經(jīng)被廣泛地應(yīng)用于各類檢測領(lǐng)域中,尤其是在人臉檢測領(lǐng)域取得了巨大的成功[4]。

      基于此,本文將HOG特征作為掃描文檔圖像中盲文點(diǎn)的特征子。本文提取HOG特征的具體步驟為:

      (1)將所有的掃描盲文圖像轉(zhuǎn)換成灰度圖,在水平和垂直方向以步長為2(像素)提取大小為20×20的子圖像。

      (2)利用式(1)計(jì)算子圖像中每個(gè)像素的水平梯度和垂直梯度,其中針對像素(x,y),I(x,y)表示該像素的像素值,h(x,y)表示水平梯度,v(x,y)表示垂直梯度。

      (3)利用式(2)計(jì)算每個(gè)像素的梯度和方向,其中g(shù)(x,y)表示梯度值,o(x,y)表示方向。

      (4)從方向上將每個(gè)子圖像分成18個(gè)范圍(360度,每20度為一個(gè)范圍),然后進(jìn)行直方圖的統(tǒng)計(jì)得到HOG特征。

      (5)對所獲取的HOG特征進(jìn)行高斯平滑操作,將HOG特征存儲在指定的路徑下。

      圖2給出了盲文掃描圖像以及從該圖像中提取部分圖像獲得的HOG特征圖示,從圖2中可以看出,存在盲文點(diǎn)的地方,HOG特征方向和梯度信息非常明顯,這也證明HOG特征可以很好地描述盲文掃描圖像中的盲點(diǎn)信息。

      綜上所述,本文利用Python實(shí)現(xiàn)了某路徑下所有圖像的HOG特征提取,部分偽代碼為:

      #針對正樣本提取HOG特征,并保存到指定路徑

      for 每張圖像 in 所有圖像:

      im = imread(path)? #讀取圖像

      fdg = hog(im,18,20,20,visualise=visualize)

      fd_name = getName(path)? #獲取特征的名稱

      fd_path = getPath(path,fd_name)? #獲取HOG特征保存路徑

      SaveFeature(fd, fd_path)? #保存HOG特征到指定路徑

      1.2? 標(biāo)簽設(shè)置

      經(jīng)過以上處理,每幅圖像被分成了多個(gè)子圖像,而每個(gè)子圖像需要被分配一個(gè)標(biāo)簽0或者1。0表示該子圖像不是盲點(diǎn)區(qū)域,反之,1則表示該子圖像是盲點(diǎn)區(qū)域。在設(shè)置標(biāo)簽時(shí),先利用式(3)來計(jì)算真實(shí)盲點(diǎn)區(qū)域面積(T)與子圖像區(qū)域面積(C)的IOU值,如果IOU值大于0.8,則該子圖像被認(rèn)為是盲點(diǎn)區(qū)域,并且設(shè)置標(biāo)簽為1,否則設(shè)置標(biāo)簽為0。

      1.3? 基于SVM的盲文點(diǎn)檢測

      支持向量機(jī)(Support Vector Machine, SVM)是一種快速可靠的線性分類器,其最終的目的是找到一個(gè)最優(yōu)超平面,從而對訓(xùn)練數(shù)據(jù)進(jìn)行分類。關(guān)于SVM算法,可以借助圖3來理解。假設(shè)二維平面上有一些方框和圓圈,需要找出一條最佳直線將這兩類數(shù)據(jù)分開。顯然,這樣的直線可以找出很多條,但是最佳直線怎么尋找呢?SVM所做的就是找到一條直線(或超平面),它與訓(xùn)練樣本的最小距離最大,比如下圖中穿過中心的實(shí)線。在計(jì)算機(jī)視覺領(lǐng)域,由于數(shù)據(jù)不再是二維的,所以使用超平面來進(jìn)行分類。

      本文實(shí)驗(yàn)中,從文檔掃描圖像數(shù)據(jù)集中獲取的正樣本圖像的個(gè)數(shù)遠(yuǎn)小于負(fù)樣本的個(gè)數(shù),故本文在訓(xùn)練過程中設(shè)定正負(fù)樣本的比例為1:3,以便能更好地訓(xùn)練SVM分類模型。

      在測試階段,首先利用訓(xùn)練得到的模型預(yù)測每個(gè)子圖像的類別(盲文點(diǎn)或者非盲文點(diǎn)),隨后利用NMS算法[5]進(jìn)行過濾和篩選后得到最終的盲文點(diǎn)檢測結(jié)果。在實(shí)驗(yàn)過程中設(shè)定分類的閾值為0.8,NMS的閾值為0.4。

      本文所有的代碼均使用python實(shí)現(xiàn),訓(xùn)練SVM的主體偽代碼為:

      # 加載正樣本

      for 每個(gè)HOG特征 in 所有正樣本HOG特征:

      fd = GetFeature(hog)? #得到每個(gè)HOG特征

      hogs.setFeature(fd)

      labels.setLabel(1)? ?#設(shè)置標(biāo)簽為1

      # 加載負(fù)樣本

      for 每個(gè)HOG特征 in 所有負(fù)樣本HOG特征:

      fd = GetFeature(hog)? #得到每個(gè)HOG特征

      hogs.setFeature(fd)

      labels.setLabel(0)? #設(shè)置對應(yīng)的變?yōu)?

      clf = GetSVMModel()? #建立SVM模型

      clf.fit(hogs, labels)? #將訓(xùn)練數(shù)據(jù)放入到模型中,并開始訓(xùn)練

      2? 實(shí)驗(yàn)結(jié)果分析

      2.1? 盲文點(diǎn)檢測性能指標(biāo)

      本文采用文本檢測領(lǐng)域使用的準(zhǔn)確率(Precision)、回歸率(Recall)和綜合指標(biāo)F來表示盲文點(diǎn)的檢測性能。此三個(gè)指標(biāo)的計(jì)算方法如式(4)所示,其中TP表示預(yù)測正確的個(gè)數(shù),F(xiàn)P表示預(yù)測錯(cuò)誤的個(gè)數(shù),F(xiàn)N表示漏檢和檢測錯(cuò)誤的個(gè)數(shù)。

      2.2? DSBI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析

      針對本文提出的HOG+SVM盲文檢測方法,在DSBI數(shù)據(jù)集上進(jìn)行了盲文點(diǎn)檢測性能的驗(yàn)證。DSBI是由Li等人于2019年發(fā)布的一個(gè)盲文掃描圖像數(shù)據(jù)集,該數(shù)據(jù)集中包含數(shù)學(xué)、雜志和小說等盲文文檔掃描圖像。本文提出的HOG+SVM方法在DBSI數(shù)據(jù)集上進(jìn)行盲文點(diǎn)檢測獲得準(zhǔn)確率(Precision)為0.978,召回率(Recall)為0.971,F(xiàn)值為0.974。與基于圖像分割的方法相比,本文提出方法的檢測性能提升明顯,F(xiàn)值提升接近3%;與基于Harr+Adaboost的方法相比,通過本文提出方法計(jì)算的F值提升了0.4%。本文提出的方法與現(xiàn)有方法的對比如表1所示。

      圖4給出了部分盲文掃描圖像的盲文點(diǎn)檢測結(jié)果圖。圖4(a)是正反兩面盲文掃描文檔圖像檢測結(jié)果,從圖中可以看出,大部分盲文點(diǎn)(凸點(diǎn))都被正確檢測出來了,有一兩個(gè)反面的盲點(diǎn)(凹點(diǎn))被誤檢成盲點(diǎn)。圖4(b)是單面盲文掃描圖像檢測結(jié)果,基本上所有的盲文點(diǎn)都被正確檢測出來了。

      3? 結(jié)? 論

      本文針對盲文掃描圖像中的盲文檢測問題,提出了基于HOG+SVM的盲文點(diǎn)檢測方法。首先,利用滑窗機(jī)制從盲文圖像中提取多個(gè)子圖像,然后從這些子圖像中獲取HOG特征,將這些HOG特征以及對應(yīng)的標(biāo)簽輸入SVM分類器中,進(jìn)行訓(xùn)練后得到檢測模型,最后在測試集上利用訓(xùn)練后的模型對新的盲文文檔掃描圖像進(jìn)行盲點(diǎn)檢測。在DBSI數(shù)據(jù)集上對本文提出的方法進(jìn)行了測試,并與已有的基于圖像分割和基于Harr+Adaboost的方法進(jìn)行了對比,實(shí)驗(yàn)結(jié)果表明,本文提出的方法在準(zhǔn)確率(Precison)、回歸率(Recall)和F值上均有提升。

      參考文獻(xiàn):

      [1] 中國青年網(wǎng).有1800萬人,在聲音里尋找光 [EB/OL].(2020-12-06).https://baijiahao.baidu.com/s?id=1685329774912727962&wfr=spider&for=pc,2020.12.06.

      [2] ISAYED S,TAHBOUB R. A review of optical Braille recognition [C]//2015 2nd World Symposium on Web Applications and Networking (WSWAN). Sousse:IEEE,2015:1-6.

      [3] LI R Q,LIU H,WANG X D, et al. DSBI: Double-Sided Braille Image Dataset and Algorithm Evaluation for Braille Dots Detection [C]//ICVIP 2018: Proceedings of the 2018 the 2nd International Conference on Video and Image Processing. 2018.

      [4] DALAL N,TRIGGS B. Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision & Pattern Recognition.San Diego:IEEE,2005:886-893.

      [5] NEUBECK A,GOOL LJV. Efficient Non-Maximum Suppression [C]//International Conference on Pattern Recognition (ICPR).Hong Kong:IEEE,2006:850-855.

      作者簡介:盧利瓊(1980—),女,漢族,湖北崇陽人,講師,博士,主要研究方向:文本識別;吳東(1981—),男,漢族,廣東合浦人,副教授,碩士,主要研究方向:模式識別。

      3207500338215

      镶黄旗| 信阳市| 长海县| 禹州市| 深泽县| 绥芬河市| 潞城市| 喀喇沁旗| 连南| 常德市| 皮山县| 宁河县| 大厂| 皋兰县| 巴塘县| 盈江县| 华阴市| 云龙县| 武鸣县| 独山县| 增城市| 志丹县| 通海县| 夹江县| 阳春市| 遂宁市| 旌德县| 阿坝| 靖西县| 宾阳县| 百色市| 南澳县| 攀枝花市| 谷城县| 乐安县| 普兰店市| 马尔康县| 玛多县| 黎川县| 从江县| 宝丰县|