• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自適應(yīng)尺度邊緣特征的建筑施工圖重疊字符識(shí)別方法研究

      2022-08-16 13:49:38鄧雪原
      圖學(xué)學(xué)報(bào) 2022年4期
      關(guān)鍵詞:字符識(shí)別字符投影

      王 正,鄧雪原,2

      基于自適應(yīng)尺度邊緣特征的建筑施工圖重疊字符識(shí)別方法研究

      王 正1,鄧雪原1,2

      (1. 上海交通大學(xué)船舶海洋與建筑工程學(xué)院,上海 200240;2. 上海市公共建筑和基礎(chǔ)設(shè)施數(shù)字化運(yùn)維重點(diǎn)實(shí)驗(yàn)室,上海 200240)

      目前非重疊字符的識(shí)別技術(shù)已趨于完善,但難以識(shí)別建筑工程圖紙標(biāo)注等場(chǎng)景中的重疊字符,阻礙了基于二維掃描圖紙的自動(dòng)建模技術(shù)的突破。針對(duì)傳統(tǒng)字符識(shí)別方法無(wú)法識(shí)別重疊字符的現(xiàn)狀,提出了一套基于自適應(yīng)尺度邊緣特征的建筑施工圖重疊字符識(shí)別新方法?;谙袼乜臻g分布特征初步確定重疊字符區(qū)域,定義并提取字符的自適應(yīng)尺度邊緣特征;借助雙變量匹配概率函數(shù)篩選“位置+內(nèi)容”的結(jié)果組合,并以全局最優(yōu)原則代替絕對(duì)閾值作為識(shí)別標(biāo)準(zhǔn),最終輸出正確的識(shí)別結(jié)果。不同于先修復(fù)后識(shí)別的常規(guī)思路,該方法將特征匹配與干擾過(guò)濾相結(jié)合、字符定位與字符識(shí)別相關(guān)聯(lián),能解決百度等成熟商用OCR無(wú)法解決的重疊字符識(shí)別問(wèn)題,且經(jīng)數(shù)據(jù)實(shí)驗(yàn)證實(shí)具備較高的識(shí)別準(zhǔn)確率。

      重疊字符;字符識(shí)別;自適應(yīng)尺度;分布概率;投影分割

      隨著我國(guó)建筑行業(yè)信息化[1]和智慧城市建設(shè)的不斷推進(jìn),建筑信息模型(building information modeling,BIM)技術(shù)已越發(fā)廣泛應(yīng)用于建筑行業(yè)設(shè)計(jì)、施工、運(yùn)維的全過(guò)程。BIM技術(shù)目前在運(yùn)維階段的主要問(wèn)題是大量既有建筑缺乏準(zhǔn)確、規(guī)范的BIM,需要根據(jù)工程藍(lán)圖人工建模。為節(jié)省建模成本,ZHAO等[2]提出從工程圖紙圖像上識(shí)別圖形及標(biāo)注,實(shí)現(xiàn)既有建筑快速、準(zhǔn)確地自動(dòng)化建模,但工程藍(lán)圖中普遍存在的標(biāo)注字符重疊問(wèn)題,其嚴(yán)重影響識(shí)別準(zhǔn)確率。因此,如何有效解決重疊字符的識(shí)別問(wèn)題成為BIM技術(shù)在運(yùn)維階段應(yīng)用的重要一環(huán)。圖1為工程標(biāo)注中重疊字符的舉例。

      圖1 含有重疊字符的工程標(biāo)注圖像

      光學(xué)字符識(shí)別由字符檢測(cè)和字符識(shí)別2個(gè)核心任務(wù)組成,主要包含預(yù)處理、分割、特征提取和識(shí)別4個(gè)步驟。重疊導(dǎo)致的信息缺失給特征提取和匹配造成困難,導(dǎo)致傳統(tǒng)OCR方法無(wú)法識(shí)別重疊光學(xué)字符(簡(jiǎn)稱重疊字符);機(jī)器學(xué)習(xí)在處理高維圖像時(shí)具備明顯優(yōu)勢(shì),但用于識(shí)別重疊字符等特征簡(jiǎn)單圖像并不經(jīng)濟(jì)。

      重疊字符識(shí)別需要從根本上解決信息缺失的問(wèn)題。本文通過(guò)改進(jìn)字符識(shí)別的流程,實(shí)現(xiàn)了無(wú)需預(yù)先確定匹配區(qū)域的字符識(shí)別,為圖像識(shí)別提供了新的思路;用C++語(yǔ)言編寫測(cè)試程序,證明該方法具備可行性且具有較高的識(shí)別準(zhǔn)確率。

      1 研究現(xiàn)狀

      重疊字符識(shí)別方面,CAO和TAN[3]根據(jù)圖線長(zhǎng)度分離圖線和字符,而后識(shí)別其中的字符,平均識(shí)別準(zhǔn)確率達(dá)到82.2%,但只適用于被簡(jiǎn)單線條干擾的字符;CHAME和KUMAR[4]借助顏色閾值檢測(cè)重疊邊界,使用支持向量機(jī)(support vector machine,SVM)分類器區(qū)分字符,重疊字符的識(shí)別率可達(dá)93%,但需要字符的顏色各異。

      在重疊手寫體識(shí)別領(lǐng)域,LIANG等[5]提出一種基于過(guò)分割的識(shí)別方法;WAN等[6]采用筆劃級(jí)別評(píng)估與字符級(jí)別評(píng)估相結(jié)合的合并策略;LV等[7]基于筆劃序列的路徑搜索;LIANG等[8]后續(xù)又開展了幾何特征降維、候選模式精簡(jiǎn)以及識(shí)別方法的改進(jìn)研究。但手寫體的重疊區(qū)域占比小,筆劃特征易于簡(jiǎn)單,其研究方法對(duì)重疊字符的識(shí)別并不適用。

      目前國(guó)內(nèi)識(shí)別干擾字符的思路是先修復(fù)后識(shí)別。肖堅(jiān)[9]根據(jù)亮度差異識(shí)別并去除干擾區(qū)域;段熒等[10-11]依據(jù)筆畫的寬度特征修復(fù)干擾字符。此類識(shí)別方法要求干擾與字符特征區(qū)別明顯,且不具備重疊字符識(shí)別條件。

      2 重疊字符識(shí)別方法

      重疊字符識(shí)別的關(guān)鍵是如何有效彌補(bǔ)信息的缺失。圖2(a)為傳統(tǒng)識(shí)別流程,紅色箭頭表示無(wú)法適用于重疊字符的環(huán)節(jié),位置信息和尺寸信息的缺失阻礙了特征提取區(qū)域和尺度的判定;圖2(b)為本文方法的識(shí)別流程:改進(jìn)的行切分獲取字符高度和自適應(yīng)尺度,同時(shí)提取同一行所有字符特征;根據(jù)空間分布概率篩選匹配結(jié)果,即可求出該行內(nèi)的字符種類、個(gè)數(shù)及順序。

      為數(shù)字化、規(guī)范化描述,圖像像素的位置表示默認(rèn)采用像素坐標(biāo)系,即以圖像左上角為原點(diǎn)建立的以像素為單位的坐標(biāo)系-,像素的橫坐標(biāo)與縱坐標(biāo)分別是圖像中該像素所在的列數(shù)與行數(shù)。圖1的像素坐標(biāo)系如圖3所示,圖像寬為像素,高為像素。

      2.1 改進(jìn)的行切分

      本研究的目的是找到適合重疊字符改進(jìn)的行切分方法(如圖4中區(qū)域2),為自適應(yīng)尺度和特征提取區(qū)域選擇創(chuàng)造條件。

      圖2 識(shí)別流程對(duì)比((a)傳統(tǒng)識(shí)別流程;(b)本文識(shí)別流程)

      圖3 像素坐標(biāo)系示例

      圖4 精確行切分示意圖

      傳統(tǒng)字符識(shí)別中列分割通常采用水平投影的方法。定義(,)為二值化圖像(,)處像素的灰度值(0或255),分別取1和0作為圖像中黑白像素的代表值,即

      式(2)統(tǒng)計(jì)了各像素行黑色像素的個(gè)數(shù),其中1為水平投影值。圖5是圖1的水平投影統(tǒng)計(jì)圖,由圖5可以看出,傳統(tǒng)方法的水平投影法在重疊字符行切分時(shí)并不適用。

      圖5 水平投影統(tǒng)計(jì)圖

      在水平投影基礎(chǔ)上補(bǔ)充考慮像素的垂直分布特征。首先對(duì)圖像做垂直投影,得到

      其中,為各像素列黑色像素的個(gè)數(shù)。

      然后在式(1)的基礎(chǔ)上引入–2,用2重新表示圖像中的像素,即

      其中,–2可使所在列黑色像素少的區(qū)域2值更大,而這些區(qū)域均處于目標(biāo)區(qū)域。

      對(duì)每一像素行中的垂直投影的像素表示值2進(jìn)行逐行求和,得到改進(jìn)后的水平投影值為

      圖6是圖1改進(jìn)的水平投影統(tǒng)計(jì)圖。相較于圖5,圖6中區(qū)域邊界更加清晰。改進(jìn)行切分的成果如圖7所示完整準(zhǔn)確。該方法綜合考慮圖像在水平和垂直方向的像素分布特征,求得的重疊字符真實(shí)高度確保了自適應(yīng)尺度的有效性。事實(shí)上,改進(jìn)前的水平投影可以看作式(4)中恒取1時(shí)的特殊情況。

      2.2 自適應(yīng)尺度的邊緣特征提取

      找到具有較強(qiáng)表示能力且易于提取的特征是圖像識(shí)別的關(guān)鍵。當(dāng)前圖像識(shí)別中常用的幾類圖像特征見表1。

      圖6 改進(jìn)后的水平投影統(tǒng)計(jì)圖

      圖7 圖像切分結(jié)果

      表1 常用于識(shí)別的圖像特征

      重疊字符的干擾區(qū)域面積占比高,顏色無(wú)明顯邊界,代數(shù)、區(qū)域等特征并不適用。圖像邊緣是圖像區(qū)域?qū)傩酝蛔兲帲煌诨叶葘傩缘膮^(qū)域之間的灰度分割線。盡管重疊字符邊緣存在一定干擾,但可較好保留原有的邊緣特征(圖8實(shí)線)。二值化圖像邊緣明確且易于提取,所以選取邊緣作為識(shí)別特征。

      圖8 重疊字符邊緣特征

      提取得到的像素坐標(biāo)數(shù)據(jù)多、利用難,且像素尺度不易反映宏觀特征,于是基于改進(jìn)的行切分方法,在自適應(yīng)尺度下提取特征線段表示邊緣特征。

      若行切分圖像的高度為像素,做+1條等距水平輔助線將圖像分為個(gè)區(qū)域,2條相鄰平行線間距為/,可稱其為特征描述的尺度。將輔助線穿過(guò)的邊緣像素作為特征點(diǎn),沿邊緣路徑每2個(gè)相鄰特征點(diǎn)確定一條特征線段,圖像的邊緣特征可簡(jiǎn)化為若干個(gè)成對(duì)的端點(diǎn)坐標(biāo)。圖9展示了尺度為/9時(shí)特征點(diǎn)和特征線段。

      圖9 尺度為h/9時(shí)特征示意圖((a)特征點(diǎn)示意圖;(b)特征線段示意圖)

      為避免特征遺漏,通常取30~60之間,再結(jié)合即可確定特征提取時(shí)特征點(diǎn)的坐標(biāo)。

      尺度選取合理的前提是準(zhǔn)確地切分,本文方法在自適應(yīng)尺度選取過(guò)程中引入了改進(jìn)的行切分方法,相比傳統(tǒng)方法更易獲取最合理的特征尺度。

      2.3 基于空間分布概率的匹配與篩選

      傳統(tǒng)方法的匹配是基于字符切分,為多個(gè)比對(duì)字符圖像和一個(gè)未知字符圖像的匹配;重疊字符無(wú)法實(shí)現(xiàn)字符切分,需要引入空間分布變量,多個(gè)比對(duì)圖像和同一行中所有字符同時(shí)匹配。

      將行切分圖像(圖7)作為目標(biāo)圖像0,寬度為0像素,高度為0像素;將37個(gè)無(wú)重疊字符(10個(gè)數(shù)字,序號(hào)為1~10;26個(gè)大寫英文字母,序號(hào)為11~36;1個(gè)連字符“–”,序號(hào)為37;如圖10所示)作為比對(duì)圖像P(=1,2,···,37),等比例縮放至高為0像素,寬度為w像素(w<0)。

      圖10 比對(duì)圖像示例

      分別建立0和P的像素坐標(biāo)系如圖11所示,并得到相同自適應(yīng)尺度下邊緣特征。圖中箭頭指向圖像區(qū)域的特征線段,紅色線段為匹配的特征線段。線段匹配的定義如下:若0中某條特征線段1的端點(diǎn)為(1,1)和(1?,2?),P(=1,2,···,37)存在特征線段2,其端點(diǎn)(2,2)和(2¢,2¢)滿足

      則稱1為0在=處與P(=1,2,···,37)匹配的一條特征線段。

      圖11 匹配示例

      0在=處與P的分布概率函數(shù)為

      其中,為比對(duì)圖像序號(hào),=1,2,···,37;為空間分布變量,表示0中匹配區(qū)域左邊界的橫坐標(biāo),取整數(shù)且0≤≤0–w;MP的特征線段總數(shù);為0在=處與P匹配的特征線段數(shù)。

      分布概率的匹配方法較傳統(tǒng)方法額外考慮了字符的空間位置,表示目標(biāo)圖像的不同位置與比對(duì)圖像匹配的可能性??紤]到縮放對(duì)圖像邊緣的影響,匹配時(shí)可將判定線段匹配的條件適度放寬,在式(6)中用約等號(hào)代替等號(hào)進(jìn)行線段匹配的判定。圖12為比對(duì)字符“3”在0各處的分布概率,其中有2處位置概率較高。

      圖12 P0中“3”的分布概率

      自適應(yīng)尺度下分布概率較高即作為備選,匯總?cè)鐖D13所示,不同字符的分布概率用顏色區(qū)分。

      圖13 分布概率匯總

      重疊字符概率數(shù)值低,所以不能僅憑概率數(shù)值選取結(jié)果,需做進(jìn)一步篩選。

      篩選逐輪進(jìn)行。每輪在未經(jīng)篩選的備選結(jié)果中選出最大的一組,若其在0的匹配區(qū)域與已通過(guò)篩選的區(qū)域存在交集,則放棄該組;若不存在交集,則通過(guò)篩選。表2記錄了圖13中所有備選結(jié)果的篩選過(guò)程。

      表2 識(shí)別結(jié)果篩選過(guò)程

      經(jīng)過(guò)16輪,第1~5,15~16輪中的“-” “H” “K” “L” “3” “3” “2”7個(gè)比對(duì)字符依次通過(guò)篩選。根據(jù)其各自區(qū)域位置確定字符順序,輸出結(jié)果“KL-H323”。

      基于概率分布對(duì)整行所有字符同時(shí)進(jìn)行匹配,其充分利用空間關(guān)系,無(wú)需字符切分也能實(shí)現(xiàn)字符識(shí)別。盡管該方法旨在解決重疊字符的識(shí)別問(wèn)題,但對(duì)同一行中非重疊字符的識(shí)別同樣適用,故識(shí)別時(shí)無(wú)需預(yù)先區(qū)分字符是否存在重疊。

      3 方法驗(yàn)證

      3.1 樣本圖集

      樣本圖集包含56張樣本圖,根據(jù)字符行列數(shù)分為1×1,1×2,2×1,2×2,2×3,3×2和3×3的7類,每類各8張圖像。圖像每行/列均含字符6~10個(gè)不等,內(nèi)容均為隨機(jī)產(chǎn)生。圖集中待識(shí)別字符共900個(gè),其中有重疊字符443個(gè),無(wú)重疊字符457個(gè)。圖14為3×3樣本圖中的一張,其中25個(gè)橫排字符(無(wú)重疊字符10個(gè),有重疊字符15個(gè))為待識(shí)別的字符,其他均視為干擾。

      圖14 樣本圖示例

      3.2 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)采用Intel(R) Core(TM) i9-10900K處理器,128 G內(nèi)存以及NVIDIA GeForce RTX 3090顯卡的硬件配置,在Windows 10操作系統(tǒng)上運(yùn)行整個(gè)實(shí)驗(yàn)過(guò)程,選擇C++為編程語(yǔ)言并搭配OpenCV庫(kù)實(shí)現(xiàn)程序編寫。

      3.3 初始實(shí)驗(yàn)結(jié)果

      初始實(shí)驗(yàn)結(jié)果見表3。其中:56張圖片全部實(shí)現(xiàn)正確行切分;無(wú)重疊字符識(shí)別率為100%,重疊字符平均識(shí)別率為90.52%。重疊字符識(shí)別率不高,需做出改進(jìn)。

      表3 初始實(shí)驗(yàn)結(jié)果(%)

      3.4 方法改進(jìn)

      實(shí)驗(yàn)中錯(cuò)誤識(shí)別包括3類:

      錯(cuò)誤1:受干擾“H”識(shí)別為“L” “1”和“E”等字符,如圖15(a)所示。

      錯(cuò)誤2:“D”的右半部分受到重疊干擾被錯(cuò)誤識(shí)別為“L”,如圖15(b)所示。

      錯(cuò)誤3:圖15(c)中“E”識(shí)別成“P”,為重疊造成干擾過(guò)大的偶然情況,不易修正。

      錯(cuò)誤1和2均由于相似度計(jì)算時(shí)以比對(duì)圖像的特征線段數(shù)作為分母,使“L”等特征線段少的字符更易取得較大的相似度。

      在原方法基礎(chǔ)上做出以下改進(jìn):當(dāng)最終識(shí)別結(jié)果為“L” “T”和“1”時(shí),補(bǔ)充計(jì)算該處與“H”和“D”的相似度,當(dāng)大于80%時(shí)判定為“H”或“D”。

      改進(jìn)后再次實(shí)驗(yàn),結(jié)果見表4。改進(jìn)前后對(duì)比發(fā)現(xiàn)2類系統(tǒng)性錯(cuò)誤得到有效修正,識(shí)別率大幅提高,重疊字符平均識(shí)別率提升至97.74%,證明該法能較好實(shí)現(xiàn)重疊字符的識(shí)別。

      表4 改進(jìn)前后結(jié)果對(duì)比(%)

      圖16對(duì)比了本文方法與已有OCR產(chǎn)品的識(shí)別效果。圖16(b)和(c)分別是本文識(shí)別方法和調(diào)用百度api“通用文字識(shí)別(高精度位置版)”的結(jié)果。百度OCR共識(shí)別出4部分,分別為“/” “5R6” “40Y8”和“(”,效果不佳。圖16(d)為百度OCR軟件排行榜中表現(xiàn)最好的2款軟件,其測(cè)試結(jié)果如圖16(e)和(f)所示,可以看出成熟的OCR產(chǎn)品也無(wú)法準(zhǔn)確識(shí)別重疊字符。這證明了該方法在重疊字符識(shí)別問(wèn)題上的創(chuàng)新性和先進(jìn)性。

      圖16 已有產(chǎn)品與本文方法對(duì)比((a)測(cè)試圖;(b)本文方法識(shí)別結(jié)果;(c)百度高精度含位置版通用文字識(shí)別結(jié)果;(d)市面常用的幾款OCR軟件;(e)轉(zhuǎn)易俠掃描王識(shí)別結(jié)果;(f)閃電OCR識(shí)別結(jié)果)

      4 結(jié)束語(yǔ)

      從建筑工程圖紙中的字符重疊問(wèn)題出發(fā),提出一套基于自適應(yīng)尺度邊緣特征的重疊字符識(shí)別方法。該方法不同于先修復(fù)后識(shí)別、先定位后識(shí)別的常規(guī)思路,基于改進(jìn)投影、自適應(yīng)尺度邊緣特征、分布概率函數(shù)等新概念,將干擾過(guò)濾與特征匹配相結(jié)合、字符定位與字符識(shí)別相關(guān)聯(lián),無(wú)需確定干擾區(qū)域即可實(shí)現(xiàn)重疊字符的識(shí)別。不僅解決了商用OCR尚未解決的技術(shù)難題,也為局部數(shù)據(jù)缺失的復(fù)雜重疊圖像識(shí)別(如口罩或眼鏡遮擋下的人臉識(shí)別等實(shí)際場(chǎng)景)提供了新思路。然而,該方法主要針對(duì)簡(jiǎn)單字符的重疊識(shí)別,是否適用于重疊漢字或重疊復(fù)雜圖像的識(shí)別尚需進(jìn)一步研究。

      [1] 國(guó)務(wù)院. 國(guó)務(wù)院關(guān)于印發(fā)“十三五”國(guó)家信息化規(guī)劃的通知[J]. 中華人民共和國(guó)國(guó)務(wù)院公報(bào), 2017(2): 35-68.

      State Council of the People’s Republic of China. Circular of the State Council on printing and distributing the “Thirteenth Five-Year” national informatization plan[J]. Gazette of the State Council of the People’s Republic of China, 2017(2): 35-68 (in Chinese).

      [2] ZHAO Y F, DENG X Y, LAI H H. Reconstructing BIM from 2D structural drawings for existing buildings[J]. Automation in Construction, 2021, 128: 103750.

      [3] CAO R N, TAN C L. Separation of overlapping text from graphics[C]//The 6th International Conference on Document Analysis and Recognition. New York: IEEE Press, 2001: 44-48.

      [4] CHAME S D, KUMAR A. Overlapped character recognition: an innovative approach[C]//2016 IEEE 6th International Conference on Advanced Computing. New York: IEEE Press, 2016: 464-469.

      [5] LIANG J J, ZHU B L, KUMAGAI T, et al. Character-position-free on-line handwritten Japanese text recognition by two segmentation methods[J]. IEICE Transactions on Information and Systems, 2016, E99.D(4): 1172-1181.

      [6] WAN X, LIU C S, ZOU Y M. On-line Chinese character recognition system for overlapping samples[C]//2011 International Conference on Document Analysis and Recognition. New York: IEEE Press, 2011: 799-803.

      [7] LV Y F, HUANG L L, WANG D H, et al. Learning-based candidate segmentation scoring for real-time recognition of online overlaid Chinese handwriting[C]//2013 12th International Conference on Document Analysis and Recognition. New York: IEEE Press, 2013: 74-78.

      [8] LIANG J J, NGUYEN C T, ZHU B L, et al. An online overlaid handwritten Japanese text recognition system for small tablet[J]. Pattern Analysis and Applications, 2019, 22(1): 233-241.

      [9] 肖堅(jiān). 基于學(xué)習(xí)的OCR字符識(shí)別[J]. 計(jì)算機(jī)時(shí)代, 2018(7): 48-51.

      XIAO J. OCR character recognition based on Learning[J]. Computer Era, 2018(7): 48-51 (in Chinese).

      [10] 段熒, 龍華, 瞿于荃. 中文文字圖片同色長(zhǎng)干擾線的去除算法[J]. 數(shù)據(jù)通信, 2021(4): 42-46.

      DUAN Y, LONG H, QU Y Q. An algorithm for removing long interference lines with the same color in Chinese text images[J]. Data Communications, 2021(4): 42-46 (in Chinese).

      [11] 段熒, 龍華, 瞿于荃, 等. 文字圖像不規(guī)則干擾修復(fù)算法研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2021, 42(7): 1427-1434.

      DUAN Y, LONG H, QU Y Q, et al. Irregular interference inpainting algorithm research on text image[J]. Journal of Chinese Computer Systems, 2021, 42(7): 1427-1434 (in Chinese).

      Research on recognition method of overlapped characters in construction drawings based on adaptive scale edge feature

      WANG Zheng1, DENG Xue-yuan1,2

      (1. School of Naval Architecture, Ocean & Civil Engineering, Shanghai Jiao Tong University, Shanghai 200240, China; 2. Shanghai Key Laboratory for Digital Maintenance of Buildings and Infrastructure, Shanghai 200240, China)

      At present, the recognition technology of non-overlapped characters has been perfected, but it remains difficult to solve the recognition problem of common overlapped characters in scenarios such as the annotation of architectural engineering drawings, which hinders the breakthrough of automatic modeling technology based on 2D scanned drawings. To address the incapability of traditional character recognition methods to recognize overlapped characters, a new method was proposed for overlapped characters recognition in construction drawings based on adaptive scale edge features. Based on the spatial distribution characteristics of pixels, the overlapped character areas were preliminarily determined, and the adaptive scale edge features of characters were defined and extracted. The result combination of “position + content” was screened with the help of the bivariate matching probability function, and the global optimal principle was used instead of the absolute threshold as the identification standard. Finally, the correct recognition of overlapped characters was achieved. Different from the conventional idea of recognizing after repairing, the new method combined feature matching and interference filtering, character positioning and character recognition. The proposed method can solve the overlapping character recognition problem insolvable for mature commercial OCR such as Baidu,and the data experiment proves that this method is of high recognition accuracy.

      overlapped characters; character recognition; adaptive scale; distribution probability; projection segmentation

      5 January,2022;

      “Thirteenth Five-Year” National Key R&D Plan (2016YFC0702001)

      WANG Zheng (1997-), master student. His main research interest covers image recognition based on computer vision. E-mail:907022655@qq.com

      TU17

      10.11996/JG.j.2095-302X.2022040729

      A

      2095-302X(2022)04-0729-07

      2022-01-05;

      2022-02-07

      7 February,2022

      “十三五”國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2016YFC0702001)

      王 正(1997-),男,碩士研究生。主要研究方向?yàn)榛谟?jì)算機(jī)視覺的圖像識(shí)別。E-mail:907022655@qq.com

      鄧雪原(1973-),男,副教授,博士。主要研究方向?yàn)榻ㄖ﨏AD協(xié)同設(shè)計(jì)與集成、基于BIM技術(shù)的建筑協(xié)同平臺(tái)等。Email:dengxy@sjtu.edu.cn

      DENG Xue-yuan (1973-), associate professor, Ph.D. His main research interests cover architectural CAD collaborative design and integration, building collaborative platform based on BIM technology, etc. E-mail:dengxy@sjtu.edu.cn

      猜你喜歡
      字符識(shí)別字符投影
      尋找更強(qiáng)的字符映射管理器
      解變分不等式的一種二次投影算法
      基于最大相關(guān)熵的簇稀疏仿射投影算法
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      找投影
      找投影
      消失的殖民村莊和神秘字符
      一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識(shí)別
      儀表字符識(shí)別中的圖像處理算法研究
      陇南市| 彰武县| 那坡县| 大城县| 资兴市| 鱼台县| 炉霍县| 黑河市| 潢川县| 柘城县| 诸暨市| 永新县| 德清县| 湖州市| 岑溪市| 台山市| 宣化县| 荆门市| 潜山县| 岳西县| 霍城县| 晋州市| 临沧市| 崇义县| 富宁县| 乡城县| 大英县| 年辖:市辖区| 北川| 高青县| 滨州市| 调兵山市| 叙永县| 巴彦淖尔市| 五河县| 南澳县| 渑池县| 清水县| 沙湾县| 托克逊县| 长汀县|