• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      光學(xué)符號(hào)識(shí)別

      2020-07-04 18:24:19任昭孫海冰彭淑芹
      科學(xué)與財(cái)富 2020年14期
      關(guān)鍵詞:相似度

      任昭 孫海冰 彭淑芹

      摘 要: 本文針對(duì)光學(xué)符號(hào)識(shí)別問(wèn)題,對(duì)數(shù)據(jù)進(jìn)性分類統(tǒng)計(jì)處理,建立歐幾里得相似度模型,ROC模型評(píng)判法對(duì)模型進(jìn)行檢驗(yàn),同一坐標(biāo)對(duì)應(yīng)若干個(gè)字符,所以考慮坐標(biāo)所對(duì)應(yīng)的數(shù)字是坐標(biāo)域,分析不同位置統(tǒng)一字母的數(shù)據(jù)存在可能性差異,同一字符在同一位置區(qū)域的數(shù)據(jù)具有較高的相似性,篩選同一區(qū)域的若干字符,再通過(guò)其余特征屬性建立模型可以識(shí)別相關(guān)字符。接著觀察待測(cè)字符的數(shù)字信息中的位置信息,找到與待測(cè)字符相同的位置區(qū)域,建立歐幾里得相似度模型,將篩選出的屬性與待測(cè)字符的相應(yīng)屬性的數(shù)據(jù)通過(guò)歐幾里得相似度計(jì)算公式進(jìn)行計(jì)算,得到多組歐幾里得距離(距離越小,相似度越高),選擇不同的閾值,計(jì)算低于閾值的字符頻數(shù),最終選擇頻數(shù)最大的字符作為識(shí)別結(jié)果。

      關(guān)鍵詞:歐幾里得距離 ;相似度;ROC模型誤差檢驗(yàn)

      [abstract]Problem based on optical character recognition, the data into classification statistical processing, Euclidean similarity model is set up, the ROC model test evaluation method on the model, the same coordinates corresponding to several characters, so consider the coordinates of the figures are coordinates domain, analysis unified data possible differences, different position data of the same characters in the same location area has high similarity, screening of several of the characters of the same area again through the rest of the attributes set up model can identify the related characters. Then watch for the character of digital information, location information in finding and characters of the same location area under test, Euclidean similarity model is set up, will select attributes and characters of the corresponding property of the under test data by Euclidean similarity calculation formula to calculate, get more groups of Euclidean distance (the smaller the distance, the higher the similarity), choose a different threshold, the calculation of characters is lower than the threshold frequency, frequency of maximum character is chosen as the final recognition result.

      [Key words]:? euclidean distance? similarity? ROC model error test

      一、問(wèn)題分析及模型建立

      1.1 問(wèn)題分析

      通過(guò)分析字符的特征屬性知,字符所在矩形區(qū)域的水平豎直位置和高寬度是描述字符所在位置和大小的,其余則是表述字符本身具體形狀的特征屬性,用于識(shí)別字符。將屬性分為兩類,位置屬性和特征屬性。

      觀察每一個(gè)字母的若干數(shù)據(jù),再按照水平位置和豎直位置分類,發(fā)現(xiàn)同一類字符在不同位置區(qū)域的偽屬性值存在可能性差異,同一類字符在同一未知區(qū)域的偽屬性值具有高度相似性;在檢測(cè)字符時(shí),可以考慮先從位置坐標(biāo)出發(fā),先尋找坐標(biāo)相同或者相近的區(qū)域,再進(jìn)行識(shí)別。

      1.2對(duì)屬性進(jìn)行分類

      字符所在矩形區(qū)域的水平位置和豎直位置與其矩形區(qū)域的高度和寬度是確定字符所在位置和大小的屬性。矩形區(qū)域的黑色像素?cái)?shù)等屬性表示字符本身的具體形狀,用于識(shí)別字符。

      表示字符所在矩形位置大小的特征屬性有四個(gè),表示字符矩形區(qū)域的特征屬性的有12個(gè)。相關(guān)數(shù)據(jù)表面發(fā)現(xiàn)這些數(shù)據(jù)都具有幾乎相同的屬性域________________。

      字符的特征屬性:

      i.從識(shí)別字符本身形狀出發(fā),考慮后面12個(gè)屬性區(qū)域,求出每個(gè)字符的不同屬性在每個(gè)屬性值區(qū)域(0-15之間)的頻數(shù),通過(guò)計(jì)算每一幅圖偽屬性值的極差,判斷波動(dòng)差別比較大的屬性。本文還選擇提取每一個(gè)字母的平均偽屬性值,繪制平均偽屬性值圖像,觀察不同字符平均偽屬性值的走勢(shì)也具有一定辨識(shí)度,兩種方法結(jié)合選擇出最具有辨識(shí)度的屬性。

      ii.計(jì)算出12幅圖的極差(12個(gè)極差),在第一種方式中選擇極差大的前10個(gè)屬性,作為暫時(shí)確定的恰當(dāng)?shù)奶卣?。再?jì)算第二種方法的12幅圖的極差(12個(gè)極差),選擇前10個(gè)極差大的屬性,作為第二種方法暫時(shí)的恰當(dāng)特征屬性。

      1.3 模型建立

      1.3.1 基本思路

      對(duì)于識(shí)別字符而言,首先進(jìn)行數(shù)據(jù)預(yù)處理,然后對(duì)圖片進(jìn)行分割。對(duì)圖像數(shù)據(jù)進(jìn)行訓(xùn)練和識(shí)別,本文選取每個(gè)區(qū)域內(nèi)任意70%的數(shù)據(jù)進(jìn)行識(shí)別字符,剩余30%數(shù)據(jù)進(jìn)行檢驗(yàn)。

      1.3.2歐幾里得相似度距離公式

      其中一個(gè)區(qū)域?yàn)槔幼鼋忉屨f(shuō)明,假設(shè)選擇剩下百分之三十的數(shù)據(jù)的其中一個(gè)數(shù)據(jù),先觀察該數(shù)據(jù)的位置信息,提取同區(qū)域字符,在進(jìn)行相似度計(jì)算,在同區(qū)域中尋找最好的相似度對(duì)應(yīng)的字符作為最終識(shí)別字符。

      二、結(jié)果及結(jié)果分析

      ii. 將計(jì)算出來(lái)的所有數(shù)值進(jìn)行比較,在小于該閾值的范圍中頻數(shù)最多的字母,得到的字母即為識(shí)別結(jié)果。計(jì)算得到的預(yù)測(cè)正確率為92.3%。

      三、模型的改進(jìn)與推廣

      3.1 模型評(píng)價(jià)

      3.1.1 模型的優(yōu)點(diǎn)

      1、先將圖像進(jìn)行分區(qū),計(jì)算不同特征屬性的不同字母的最大頻數(shù)下的為屬性值和平均偽屬性值,使得模型的可視化界面形象逼真。

      2、歐幾里得算法計(jì)算方便,分區(qū)后結(jié)合實(shí)際分析,使得模型更貼近實(shí)際,通用性好,推廣性強(qiáng)。

      3、篩選出的70%的訓(xùn)練數(shù)據(jù)和30%檢驗(yàn)數(shù)具有隨機(jī)性,可以較好反映數(shù)據(jù)信息。

      3.1.2 模型的缺點(diǎn)

      1、影響精確度的因素較多,不能全面考慮,結(jié)果與實(shí)際有一定偏差。

      2、光學(xué)數(shù)據(jù)集在收集過(guò)程中由于其他未考慮因素導(dǎo)致識(shí)別準(zhǔn)確,例如,儀器誤差,環(huán)境因素等,結(jié)果又偏差。

      3.2 模型優(yōu)化

      對(duì)每個(gè)屬性根據(jù)其重要性賦予權(quán)重,加權(quán)之后的歐幾里得距離可以表示為:

      對(duì)于識(shí)別字符,各個(gè)屬性對(duì)精確度的影響程度可用層次分析法和熵權(quán)法進(jìn)行量化,算出的歐幾里得距離更具有實(shí)際意義,能夠反映各個(gè)變量在數(shù)據(jù)中的不同作用,從而使模型到達(dá)優(yōu)化的目的。

      參考文獻(xiàn):

      [1] 盧暢暢,寧少文,唐德昌.光學(xué)字符識(shí)別技術(shù)(OCR)的研究于應(yīng)用[J].中國(guó)戰(zhàn)略新興產(chǎn)業(yè),2018(28):1-3.

      [2] 肖堅(jiān).基于學(xué)習(xí)的OCR字符識(shí)別[J].計(jì)算機(jī)時(shí)代,2018(07):48-51.

      [3] 田學(xué)東. 光學(xué)公式識(shí)別技術(shù)研究[D].河北大學(xué),2007.

      猜你喜歡
      相似度
      改進(jìn)的協(xié)同過(guò)濾推薦算法
      模糊Petri網(wǎng)在油田開(kāi)發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
      相似度算法在源程序比較中的應(yīng)用
      基于混合信任模型的協(xié)同過(guò)濾推薦算法
      基于灰度的圖像邊緣檢測(cè)與匹配算法的研究
      句子比較相似度的算法實(shí)現(xiàn)?
      影響母線負(fù)荷預(yù)測(cè)的因素及改進(jìn)措施
      科技視界(2016年10期)2016-04-26 11:40:14
      基于粗糙集的麗江房?jī)r(jià)研究
      一種基于深網(wǎng)的個(gè)性化信息爬取方法
      基于貝葉斯網(wǎng)絡(luò)的協(xié)同過(guò)濾推薦算法
      无为县| 梁山县| 台前县| 出国| 五常市| 吉安县| 通道| 吐鲁番市| 聊城市| 乳山市| 视频| 成安县| 桦甸市| 陇川县| 伊宁市| 怀化市| 柳州市| 辽阳市| 子长县| 凤凰县| 中卫市| 宜兴市| 驻马店市| 红河县| 东丽区| 滨海县| 唐山市| 泰来县| 策勒县| 红河县| 二连浩特市| 上蔡县| 白玉县| 长乐市| 邯郸县| 白玉县| 德安县| 日喀则市| 昭觉县| 青浦区| 繁峙县|