• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的文字識別優(yōu)化方法研究

      2020-01-07 07:21:18王雪冰姜道義張海洋
      關(guān)鍵詞:池化灰度運(yùn)算

      王雪冰,姜道義,張海洋

      (中國石油大學(xué)勝利學(xué)院 基礎(chǔ)科學(xué)學(xué)院,山東 東營 257061)

      從1958年感知器提出后,人們對于神經(jīng)網(wǎng)絡(luò)的探索進(jìn)入一個新的時代。但是感知器只能進(jìn)行線性分類,不能應(yīng)用于復(fù)雜的模式識別領(lǐng)域。1985年BP(back propagation)神經(jīng)網(wǎng)絡(luò)的提出,系統(tǒng)解決了多層神經(jīng)網(wǎng)絡(luò)隱含層連接權(quán)中的學(xué)習(xí)問題。但是在文字識別方面都沒有取得突破性的進(jìn)展,直到第一個二維卷積神經(jīng)網(wǎng)絡(luò)SIANN的出現(xiàn)才真正打開神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的大門。文字識別的基本原理為將輸入文字與經(jīng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的模型進(jìn)行模式匹配,計算類似度,將具有最大類似度的文字作為識別結(jié)果[1]。計算機(jī)視覺在手寫數(shù)字識別中第一個取得巨大成就的是Yann LC等(1998)提出的LeNet-1卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng),包含了兩個卷基層、兩個全連接層、六萬個學(xué)習(xí)參數(shù)。

      1 人工神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)的發(fā)明起源于生物神經(jīng)網(wǎng)絡(luò),是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及功能的數(shù)學(xué)模型和計算模型,可以根據(jù)外界的輸入信息改變內(nèi)部神經(jīng)節(jié)點(diǎn)的參數(shù),具備學(xué)習(xí)功能。

      人工神經(jīng)網(wǎng)絡(luò)中由大量神經(jīng)元相連接,能夠模仿人腦的信息處理功能對高復(fù)雜性信息進(jìn)行處理,同時可以抽象出同類信息的模型,對新接收的信息進(jìn)行分類。

      2 卷積神經(jīng)網(wǎng)絡(luò)

      第一個卷積神經(jīng)網(wǎng)絡(luò)是由Alexander W等(1987)提出的時間延遲網(wǎng)絡(luò)(time delay meural network, TDNN),主要應(yīng)用于語音識別。Yann LC等(1998)提出的LeNet-5,實(shí)現(xiàn)手寫字體識別的功能,并且定義了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。CNN結(jié)構(gòu)包括采樣層與卷積層,兩者交替而成[2]。

      2.1 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

      卷積神經(jīng)網(wǎng)絡(luò)屬于前饋型神經(jīng)網(wǎng)絡(luò),具有平移旋轉(zhuǎn)不變性,所以非常適合圖片識別,能夠?qū)⒉煌较虻奈淖謭D像準(zhǔn)確地識別出來。使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別的處理過程包括輸入、預(yù)處理、識別和后處理幾個過程[3]。

      卷積神經(jīng)網(wǎng)絡(luò)主要包含輸入層、卷積層層、Inception模塊、全連接層、輸出層。輸入層可以輸入多維數(shù)據(jù),卷積層中包含卷積層和池化層,是進(jìn)行計算的主要部分,全連接層競爭對輸出的響應(yīng)機(jī)會,輸出層由邏輯函數(shù)輸出分類標(biāo)簽。

      2.2 輸入層

      將需要識別的單字圖像輸入神經(jīng)網(wǎng)絡(luò),大小為64×64像素的灰度文字圖片,文字顏色為白色,文字背景為黑色。

      64×64對應(yīng)著神經(jīng)網(wǎng)絡(luò)初始計算時圖像矩陣的大小;使用灰度圖是因?yàn)槲淖值谋硎静恍枰^多的參數(shù),過多的顏色便會增加過多的影響因素,而灰度圖只有一個0~255的色階,大大降低了顏色給文字識別帶來的困難;本試驗(yàn)只做文字的識別,所以在前期處理圖像時只將圖片中的文字凸顯出來,而其他的因素歸為噪聲全部被過濾。

      2.3 隱藏層

      隱藏層由3個卷積層和3個池化層交替組成,負(fù)責(zé)對圖片進(jìn)行網(wǎng)絡(luò)計算分析。

      第一層卷積層使用64個5×5的卷積核對輸入的64×64像素的圖像進(jìn)行卷積運(yùn)算,設(shè)輸入的圖片矩陣為A,并使用ai,j(i=0,1,…,63;j=0,1,…,63)表示A中的對應(yīng)元素;設(shè)由第一層卷積層輸出的矩陣為B,并使用bi,j(i=0,1,…,59;j=0,1,…,59)表示經(jīng)歷本次卷積輸出B的元素,由卷積的運(yùn)算公式將A經(jīng)運(yùn)算轉(zhuǎn)換為B,輸入層和輸出層的各參數(shù)如表1所示,

      (1)

      表1 第一層卷積尺寸計算

      第一層池化層使用64個2×2的池化器對第一層卷積層輸出的60×60像素的圖像進(jìn)行最大池化運(yùn)算,輸入的是由第一層卷積后的矩陣B,設(shè)由第一層池化層輸出的矩陣為C,并使用Ci,j(i=0,1,…,29;j=0,1,…,29)表示經(jīng)歷本次卷積輸出的元素。使用最大池化運(yùn)算公式將計算第一次池化結(jié)果,

      ci,j=max(bi+m,j+n),m=0,1;n=0,1.

      (2)

      池化運(yùn)算各參數(shù)如表2所示。第二層卷積層使用128個5×5的卷積核對第一層池化層輸出的30×30像素的圖像進(jìn)行卷積運(yùn)算,第二層池化層使用128個2×2的池化器對第二層卷積層輸出的26×26像素的圖像進(jìn)行最大池化運(yùn)算,第三層卷積層使用256個4×4的卷積核對輸入的13×13像素的圖像進(jìn)行卷積運(yùn)算,第三層池化層使用256個2×2的池化器對第三層卷積層輸出的10×10像素的圖像進(jìn)行最大池化運(yùn)算。

      表2 第二層池化尺寸計算

      2.4 全連接層

      接收由隱藏層輸出的參數(shù),并且通過ReLU函數(shù)計算神經(jīng)元的興奮度。

      激活函數(shù)公式為

      (3)

      激活函數(shù)圖像[4]如圖1所示。

      圖1 激活函數(shù)

      由圖1可以看出ReLU函數(shù)是分段函數(shù),把小于零的部分映射成為零,大于零的部分保持不變,這樣為單向抑制函數(shù)。

      2.5 輸出層

      輸出層一共有3 755個結(jié)點(diǎn),分別對應(yīng)3 755個漢字,通過分析全連接層輸入的興奮度,輸出識別出的相應(yīng)漢字。

      3 文字識別

      3.1 數(shù)據(jù)集

      3.1.1 數(shù)據(jù)集的分類

      數(shù)據(jù)集包含3 755個常用漢字,每個漢字有60張不同方向并且漢字大小不一的灰度圖,每張圖片大小為64×64像素。數(shù)據(jù)集又分為訓(xùn)練集和測試集,訓(xùn)練集由48張圖片組成,測試集由12張圖片組成。每張圖片以.jpg形式存儲,圖片像素點(diǎn)為漢字筆畫則其像素為0像素值,背景圖部分為255像素值。

      3.1.2 數(shù)據(jù)集的生成

      數(shù)據(jù)集由自定義生成模塊生成,在生成模塊中可自動讀取不同字體的TTF文件來確定生成的字體類型,還可自定義生成數(shù)據(jù)集圖片的寬度、高度。并且默認(rèn)每種字體下,每個字的數(shù)據(jù)圖片共生成不同的30張,這個生成數(shù)量限制為每個字最多45張。

      每個漢字?jǐn)?shù)據(jù)集圖片的數(shù)量可通過增加TTF字體文件個數(shù)來解決,本試驗(yàn)?zāi)J(rèn)使用方正宋體和黑體來建立數(shù)據(jù)集。

      3.2 識別圖片去噪

      圖像去噪是文字識別必不可少的環(huán)節(jié),在此環(huán)節(jié)中需要將待識別圖像(圖2)轉(zhuǎn)化為計算機(jī)易于處理形式,并消除與識別內(nèi)容無關(guān)的噪點(diǎn)(水印)。

      文字識別的圖像不需要保留RGB顏色特征,灰度圖像即可以完整顯示文字特征,又能降低計算難度。在對圖片進(jìn)行灰化處理的過程中,還需對顏色進(jìn)行反轉(zhuǎn),目的是使文字的顏色為淺色,背景為深色(圖3)。

      圖2 待識別的文字圖像

      圖3 二值化后的文字圖像

      將圖片轉(zhuǎn)化為灰度圖以后,需要對圖像進(jìn)行去燥處理。因?yàn)榻厝〉膱D片是文檔,所以不存在光線對文字色澤的影響,而圖片中以文字的淺色為主。灰化完成后,需要對圖片進(jìn)行二值化處理,二值化的目的就是去除灰度處理后圖像殘存的模糊背景[5]??梢韵葘π∮?25以下的色階進(jìn)行計數(shù),然后取數(shù)量對多的色階為峰值,并向右取大于峰值百分之十的數(shù)值k為整個圖片進(jìn)行分化的界限。以灰度像素值k為分界線,大于k的像素值轉(zhuǎn)化為255,小于k像素值轉(zhuǎn)化為0,此處理目的是增強(qiáng)圖像的對比度并且去除圖像噪聲對識別的影響(圖4)。

      圖4 去燥后的文字圖像

      3.3 文字切割及歸一化處理

      (4)

      M′=MG(gi∈G,gi=1).

      (5)

      借用光伏識別理論將圖片進(jìn)行二值化,因?yàn)槎祷蟮膱D像每個像素只包含一個灰度值,可以將圖片按照公式(4)轉(zhuǎn)化為二維矩陣M。

      對矩陣依照求和公式(5)進(jìn)行按行求和,因?yàn)楹袧h字筆畫的每一行求和后的數(shù)值均不為零,只需確定映射后不為零的行便可以將圖片中每一行的漢字提取出來(圖5)。

      同理每一行中也可以按照以上方法提取出單個文字(圖6)。但是有些漢字是左右結(jié)構(gòu),可能將一個字分成左右兩個漢字,需進(jìn)一步判斷文字是否被分割成兩個。

      如圖7所示,已經(jīng)識別出需要分割的文字,但是可看出“別”字、“門”字被分割為兩個漢字,識別完后需要對分割出的字符進(jìn)一步確認(rèn)。取識別后行高的中位數(shù)為ptModeY,取識別后字寬的中位數(shù)為ptModeX。如果分割出圖片的寬度值比ptModeX大于20%,則將分割的結(jié)果舍棄;如果分割出圖片的寬度值不小于ptModeX的75%,則判斷此次分割正確,存儲分割后文字;如果分割出的圖片以及它之后圖片的寬度值的和小于ptModeX,則判斷這兩個分割圖片為一個字,并進(jìn)行儲存。

      圖5 提取行的文字圖像

      圖6 識別出的文字

      切割完的文字大小與輸入層需要的大小不一,需要經(jīng)過歸一化處理。歸一化處理分為位置歸一化處理和大小歸一化,位置歸一化處理需要將文字的位置定位于圖片的中間,大小歸一化處理需要將圖像大小存儲為64×64像素[6]。

      3.4 特征值提取和識別結(jié)果

      特征提取是文字識別中最根本的一步,利用建立的卷積神經(jīng)網(wǎng)絡(luò)對分割后的單字圖片做特征值提取,對已有的模型進(jìn)行比對,識別出文字的結(jié)果(圖7)。

      圖7 文字識別結(jié)果

      4 結(jié) 論

      (1)基于卷積神經(jīng)網(wǎng)絡(luò)的漢字識別在常規(guī)理論條件下,準(zhǔn)確率較高。但是本試驗(yàn)針對數(shù)據(jù)集中每種文字圖片取樣數(shù)據(jù)偏少,圖片質(zhì)量偏差的特殊情況,通過增加不同字體以增加數(shù)據(jù)集的方法研究,進(jìn)一步優(yōu)化識別的準(zhǔn)確率和系統(tǒng)能力。

      (2)文字的分割也是影響文字識別的重要因素,使用映射函數(shù)可以將排序整齊的文字切割,但對于多種復(fù)雜的情況卻束手無策。將識別-分割進(jìn)行結(jié)合,針對識別相識度低,通過再將此部分文字進(jìn)行組合識別模型構(gòu)建研究,從而優(yōu)化文字識別的等級。

      猜你喜歡
      池化灰度運(yùn)算
      面向神經(jīng)網(wǎng)絡(luò)池化層的靈活高效硬件設(shè)計
      基于Sobel算子的池化算法設(shè)計
      采用改進(jìn)導(dǎo)重法的拓?fù)浣Y(jié)構(gòu)灰度單元過濾技術(shù)
      重視運(yùn)算與推理,解決數(shù)列求和題
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      基于灰度拉伸的圖像水位識別方法研究
      有趣的運(yùn)算
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
      基于最大加權(quán)投影求解的彩色圖像灰度化對比度保留算法
      “整式的乘法與因式分解”知識歸納
      永康市| 双江| 新昌县| 丘北县| 宝清县| 衡阳县| 普陀区| 天津市| 古浪县| 梁山县| 铁岭县| 蓬溪县| 天门市| 连云港市| 乌苏市| 潜江市| 安岳县| 诸暨市| 萍乡市| 洛隆县| 盐城市| 米易县| 介休市| 广德县| 昌都县| 花莲县| 杨浦区| 雷州市| 宜良县| 英超| 盱眙县| 隆林| 白山市| 通河县| 昆山市| 通榆县| 永寿县| 六盘水市| 乐至县| 肇东市| 建平县|