• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      注意力機(jī)制與復(fù)合卷積在手寫識別中的應(yīng)用

      2022-04-13 02:40:36卓天天桑慶兵
      計(jì)算機(jī)與生活 2022年4期
      關(guān)鍵詞:脫機(jī)手寫字符

      卓天天,桑慶兵

      江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫214122

      脫機(jī)手寫識別處理的手寫文字來自掃描儀或相機(jī)等設(shè)備采集到的數(shù)字圖像,與聯(lián)機(jī)手寫不同,不包含在線書寫獲取到的書寫軌跡等其他信息。1990 年起,對于脫機(jī)英文手寫字符識別的研究取得了一定的進(jìn)展,商業(yè)上也出現(xiàn)了一些可用的系統(tǒng)用于識別郵件地址或銀行支票數(shù)字?;趫D像矩特征、基于圖像結(jié)構(gòu)特征、基于主成分分析特征(principal component analysis,PCA)等多種方式可提取出孤立字符圖像的特征,再將其送入分類器識別。后Liu 等人對于近鄰、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)誰是最好的分類器進(jìn)行了比較,結(jié)果也是取決于具體的特征分布。不過經(jīng)過了長時(shí)間的發(fā)展,如今的單字符識別已經(jīng)達(dá)到了非常高的準(zhǔn)確率。

      脫機(jī)英文手寫單詞的識別難度要高于孤立字符識別。詞識別的一種方法是先將單詞圖像切分成多個(gè)字符圖像,之后對每個(gè)單“字”識別后將其連接。這種方式依賴于字符的切分效果,然而在實(shí)際情況中由于手寫體的書寫隨意、風(fēng)格無規(guī)律,很難找到完美的切分方法。后來研究者們提出了其他方法,如先在小詞表上對單個(gè)單詞建立分類器,將識別的對象改為整個(gè)單詞而非單個(gè)字符,或?qū)⑶懈畹膯卧臑楦〉姆Q為“字素(類似語音識別中的音素)”的單元而不是單個(gè)字符,并在此基礎(chǔ)上進(jìn)行識別。此外還有基于隱馬爾可夫模型的方法(hidden Markov model,HMM),這種方法也是對整個(gè)單詞建模,但不同于第一種方法對特征的提取,HMM 使用一個(gè)滑動(dòng)窗口對每一幀數(shù)據(jù)提取特征,而且對圖像的長度也沒有要求。

      在分類任務(wù)中,鑒別模型的效果要優(yōu)于HMM 這種生成模型。人工神經(jīng)網(wǎng)絡(luò)作為一種受生物學(xué)啟發(fā)的鑒別模型近年取得了飛速發(fā)展。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的變形,可用于提取圖片的序列特征。Shi 等人將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)與RNN結(jié)合為卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network,CRNN),它直接在粗粒度的單詞標(biāo)簽上運(yùn)行,在訓(xùn)練階段不需要詳細(xì)標(biāo)注每一個(gè)單獨(dú)的字符?;贑RNN 的脫機(jī)英文手寫單詞識別能夠獲取不同尺寸的輸入圖像,并產(chǎn)生不同長度的預(yù)測。

      CRNN 雖解決了文本標(biāo)簽不易對齊問題,但在處理脫機(jī)手寫文本上,由于書寫者的書寫風(fēng)格迥異,原網(wǎng)絡(luò)提取出的特征表示力不夠,泛化性弱。為解決上述問題,本文在CRNN 基礎(chǔ)上引入了加強(qiáng)型卷積塊注意力模塊和復(fù)合卷積,構(gòu)建了一種新的特征提取網(wǎng)絡(luò)。

      1 基于加強(qiáng)型卷積塊注意力模塊與復(fù)合卷積的手寫文本識別網(wǎng)絡(luò)

      當(dāng)前處理脫機(jī)手寫文本識別的主流框架有兩種,CRNN+CTC 框架與CNN+Seq2Seq+Attention 框架。第二種Seq2Seq 屬于encoder-decoder 結(jié)構(gòu)的一種,其利用一個(gè)RNN 做編碼,壓縮序列到指定長度的狀態(tài)向量;另一個(gè)RNN 做解碼,再根據(jù)輸入的狀態(tài)向量生成指定的序列。比起需要兩個(gè)RNN 分別做編碼和解碼,CRNN 中只需要一個(gè)RNN,一定程度上減輕了模型的參數(shù)壓力。而且Seq2Seq 為解決不定長序列的對齊問題引入的Attention 機(jī)制限制較大,因此CRNN 的使用更為廣泛。本文采用的網(wǎng)絡(luò)結(jié)構(gòu)是基于注意力機(jī)制的CRNN+CTC 框架,具體的結(jié)構(gòu)為CNN(其中嵌入注意力機(jī)制)+BLSTM+CTC,如圖1所示。

      圖1 基于注意力機(jī)制和復(fù)合卷積的CRNN+CTC 框架Fig.1 CRNN+CTC framework based on attention mechanism and composite convolution

      本文的貢獻(xiàn)主要是對CNN 結(jié)構(gòu)部分的改進(jìn)。首先將輸入圖片大小規(guī)范為32××,等比例縮放不會(huì)破壞文本細(xì)節(jié),經(jīng)加入注意力模塊的復(fù)合卷積神經(jīng)網(wǎng)絡(luò)后得到高級語義特征圖∈R,然后將特征圖轉(zhuǎn)置為′∈R并將′的列向量依次輸入到雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long short term memory network,BLSTM)中繼續(xù)提取文字序列特征,其中BLSTM 選擇stack 形深層雙向架構(gòu),支持不定長輸入。最后使用優(yōu)化算法優(yōu)化CTC損失。若使用Softmax cross-entropy loss,則每一列輸出都需要對應(yīng)一個(gè)字符元素,然而在實(shí)際情況中很難做字符對齊,因此CTC 提出了一種對不需要對齊的LOSS 的計(jì)算方法。CTC 引入了“blank”輸出標(biāo)簽并將其添加到BLSTM 的輸出層,很好地減輕了網(wǎng)絡(luò)預(yù)測不確定、未完全對齊的字符標(biāo)簽的壓力,一定程度上解決了兩個(gè)相鄰單元的混淆性。

      將訓(xùn)練樣本視為給定輸入特征和目標(biāo)字符串,CTC 的目標(biāo)函數(shù)定義如下:

      其中,表示整個(gè)訓(xùn)練集,(|)表示在給定輸入特征下BLSTM 預(yù)測出目標(biāo)字符串的概率,其定義如下:

      其中,表示將輸出路徑即帶“blank”標(biāo)簽的路徑轉(zhuǎn)換為目標(biāo)字符串的運(yùn)算符,(|)為給定輸入特征,輸出路徑為的條件概率,其定義如下:

      其中,表示輸出路徑的長度;π表示在時(shí)刻輸出的路徑;y表示在時(shí)刻的BLSTM 輸出。

      1.1 加強(qiáng)型卷積塊注意力模塊

      注意力機(jī)制模擬了人眼的視覺感知從而更加關(guān)注有用信息,部分人群在書寫時(shí)存在拖拽問題,如圖2 所示。圖2(a)中的字母“u”由于書寫拖拽可能被網(wǎng)絡(luò)識別成“w”,而圖2(b)中字母“o”可能被網(wǎng)絡(luò)識別成“a”。

      圖2 存在書寫拖拽的脫機(jī)手寫單詞圖片F(xiàn)ig.2 Offline handwritten word pictures with writing drag and drop

      不規(guī)范的書寫會(huì)嚴(yán)重影響網(wǎng)絡(luò)的判別力,在卷積神經(jīng)網(wǎng)絡(luò)中添加注意力模塊可以有效提升模型對關(guān)鍵特征的提取能力,減小拖拽筆跡信息的權(quán)重輸入。Woo等人在2018年提出的CBAM(convolutional block attention module)通過通道、空間注意力模塊的串聯(lián)模式實(shí)現(xiàn)了跨通道和空間信息提取到有用特征。

      CBAM 結(jié)構(gòu)如圖3 所示,輸入特征圖依次通過通道、空間注意力模塊獲取到細(xì)化特征圖(refined feature),此細(xì)化特征圖可看成在通道、空間兩個(gè)維度上提取出的重要特征。但在此策略中,空間注意力模塊的輸入特征是通道注意力模塊的輸出特征,因此空間維度上的特征有效性間接依賴于通道注意力模塊的權(quán)重最優(yōu)解。此外,原始輸入特征圖語義信息亦豐富,對原始特征的利用程度也將影響到注意力模塊的性能,而CBAM 僅在通道注意力模塊中使用原始輸入特征。綜上考慮,本文提出了加強(qiáng)型卷積塊注意力模塊(下文簡稱CBAM)。CBAM結(jié)構(gòu)如圖4 所示,其取締了CBAM 中先將輸入特征圖送入通道注意力模塊,再將輸出結(jié)果送入空間注意力模塊的串聯(lián)方式,而是需要輸入的特征圖同時(shí)經(jīng)過通道注意力和空間注意力模塊,并聯(lián)地獲取到各自的注意力映射()和(),之后分別與輸入特征圖做點(diǎn)乘得到通道注意力特征圖和空間注意力特征圖。獲取()和()的細(xì)節(jié)如下:

      圖3 CBAM 結(jié)構(gòu)Fig.3 Structure of CBAM

      圖4 CBAM+結(jié)構(gòu)Fig.4 Structure of CBAM+

      圖5 通道注意力模塊結(jié)構(gòu)Fig.5 Structure of channel attention module

      其中,后使用了ReLU 作為激勵(lì)函數(shù),表示Sigmoid 激活函數(shù)。

      圖6 空間注意力模塊結(jié)構(gòu)Fig.6 Structure of spatial attention module

      其中,表示7×7 的卷積層。

      最終的細(xì)化特征圖在、()、()的基礎(chǔ)上進(jìn)行計(jì)算可得,過程如下:

      其中,表示通道注意力特征圖;表示空間注意力特征圖;?表示細(xì)化特征圖。

      注意力映射()和()在經(jīng)過sigmoid 函數(shù)后將特征值限制到0~1 范圍,與輸入特征圖點(diǎn)乘可以在增強(qiáng)有用的特征表示的同時(shí)抑制無用特征的干擾。和相加后生成了3D 的注意力特征圖。比起傳統(tǒng)的CBAM,避免了先經(jīng)過通道注意力模塊再經(jīng)過空間注意力模塊后()對()可能存在的部分權(quán)重系數(shù)干擾。對輸入特征圖的卷積一方面讓模型自行選擇對輸入特征圖的響應(yīng)權(quán)重,另一方面除了空間注意力模塊中的7×7 卷積核,額外的3×3卷積核使得CBAM融入多感受野,信息更加豐富。3D 注意力特征圖與輸入特征圖的卷積結(jié)果相加得到最終的細(xì)化特征圖。

      BAM(bottleneck attention module)指出將注意力模塊置于每個(gè)池化層之前可以在每個(gè)stage 之間消除類似背景語義特征的低層次特征,聚焦高級的語義,因此將CBAM同樣置于池化層之前。

      1.2 復(fù)合卷積

      可通過其自主學(xué)習(xí)的能力提取出圖片的有用特征是卷積神經(jīng)網(wǎng)絡(luò)的主要特點(diǎn)和優(yōu)勢,在CRNN 中32××大小的圖片經(jīng)卷積神經(jīng)網(wǎng)絡(luò)下采樣后得到1×(/4)×512 大小的特征圖,但這種網(wǎng)絡(luò)結(jié)構(gòu)采用的是順次連接的方式,并不能很好地提取出圖像的細(xì)微特征。對于脫機(jī)英文手寫單詞圖片的識別來說,網(wǎng)絡(luò)提取細(xì)微特征的能力對最后的識別精度有著非常重要的影響。

      卷積神經(jīng)網(wǎng)絡(luò)的深層特征語義信息豐富,如何利用深層特征決定著網(wǎng)絡(luò)表達(dá)能力的強(qiáng)弱。復(fù)合卷積指在深層卷積層中以雙通道卷積提取特征結(jié)構(gòu)替換原本的單通道卷積結(jié)構(gòu),之后以相加方式處理雙特征圖。復(fù)合卷積可對深層特征進(jìn)行重利用,進(jìn)一步提升網(wǎng)絡(luò)對語義信息的判別能力,同時(shí)不同尺寸的卷積核提取多尺度特征,對于書寫風(fēng)格因人而異的脫機(jī)手寫單詞來說,復(fù)合卷積結(jié)構(gòu)能學(xué)習(xí)到不同人的書寫細(xì)節(jié),一定程度上提升模型的泛化性。圖7為將原CRNN 中部分深層卷積層替換為復(fù)合卷積層的新CRNN 結(jié)構(gòu)。

      圖7 復(fù)合卷積CRNN 結(jié)構(gòu)圖Fig.7 Schematic diagram of CRNN with composite convolution

      2 實(shí)驗(yàn)結(jié)果及分析

      2.1 數(shù)據(jù)集

      為充分驗(yàn)證算法的有效性,本文在兩個(gè)不同的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中,IAM 脫機(jī)英文手寫數(shù)據(jù)集由657 個(gè)不同作者手寫的1 539 個(gè)掃描文本頁面組成,對應(yīng)于從LOB 語料庫中提取的英語文本。每張文本頁又按文本行和單詞切分。RIMES 數(shù)據(jù)集包括12 723 個(gè)手寫頁面,對應(yīng)于2~3 頁的5 605 封郵件。該數(shù)據(jù)集已在ICDAR 和ICFHR 的眾多比賽中使用。它包括51 739 個(gè)要訓(xùn)練的單詞,7 464 個(gè)要驗(yàn)證的單詞和7 776 個(gè)要測試的單詞。由于數(shù)據(jù)集中部分單詞標(biāo)簽有誤,為避免模型的不收斂,各從中篩選出標(biāo)簽無誤的單詞圖片23 914 張,其中22 010 張作為訓(xùn)練集,1 904 張作為驗(yàn)證集。表1 是部分?jǐn)?shù)據(jù)及標(biāo)簽示例。

      表1 數(shù)據(jù)集示例Table 1 Examples of dataset

      2.2 評估方法

      本文采用的是端到端的識別,輸入脫機(jī)英文手寫單詞圖片,直接輸出圖片的識別結(jié)果。

      字符錯(cuò)誤率(character error rate,CER)是手寫體文本采用的標(biāo)準(zhǔn)性能指標(biāo)。CER 計(jì)算Levenshtein 距離,它是將一個(gè)字符串轉(zhuǎn)換為另一個(gè)字符串所需的字符替換,插入和刪除之和再除以真實(shí)標(biāo)簽中的字符總數(shù)字。本文采用批量驗(yàn)證,因此將批量圖片的CER 均值作為性能評價(jià)標(biāo)準(zhǔn),計(jì)算公式如下:

      其中,S表示第張圖片識別結(jié)果的字符替換個(gè)數(shù);I表示第張圖片識別結(jié)果的字符插入個(gè)數(shù);D表示第張圖片識別結(jié)果的字符刪除個(gè)數(shù);N表示第張圖片標(biāo)簽字符串的字符個(gè)數(shù);表示驗(yàn)證集中的脫機(jī)英文手寫單詞圖片總數(shù),本文中取1 904。

      除CER 外,本文還引入識別準(zhǔn)確率,計(jì)算方法如下:

      2.3 實(shí)驗(yàn)過程與結(jié)果分析

      實(shí)驗(yàn)運(yùn)行環(huán)境:CPU IntelCorei7-8750H@2.2 Hz;GPU NVIDIA GeForce RTX2060;內(nèi)存16 GB;程序代碼在Windows 系統(tǒng)Tensorflow1.13 框架下編寫運(yùn)行。

      實(shí)驗(yàn)過程采用先訓(xùn)練后驗(yàn)證的方式,每次迭代后輸出CTC 損失值。訓(xùn)練完成后將驗(yàn)證集中所有圖片按批次全部送入模型識別,最終輸出準(zhǔn)確率。由于驗(yàn)證集中的圖片不參與訓(xùn)練,極大地提高了實(shí)驗(yàn)結(jié)果的可信度。

      為了進(jìn)一步增強(qiáng)實(shí)驗(yàn)結(jié)果的可靠性,將訓(xùn)練參數(shù)做統(tǒng)一規(guī)范:優(yōu)化方式使用學(xué)習(xí)率指數(shù)衰減的Adadelta,初始學(xué)習(xí)率設(shè)為0.1,每2 000次迭代進(jìn)行一個(gè)0.8 的學(xué)習(xí)率衰減。batch_size 設(shè)為16,共進(jìn)行30 000次迭代。

      基于CBAM和復(fù)合卷積,搭建了如表2 所示的CRNN+CTC 脫機(jī)文本識別框架,其中在一些卷積層后添加批標(biāo)準(zhǔn)化(batch normalization,BN),通過規(guī)范數(shù)據(jù)分布來避免梯度消失帶來的訓(xùn)練困難,BLSTM中隱藏層單元為256。

      表2 本文提出的基于CBAM+和復(fù)合卷積的CRNN+CTC 框架Table 2 CRNN+CTC framework based on CBAM+and composite convolution proposed in this paper

      2.3.1 CBAM消融實(shí)驗(yàn)

      為驗(yàn)證CBAM對模型的性能提升,本小節(jié)設(shè)計(jì)了CBAM消融實(shí)驗(yàn)。在最終模型的基礎(chǔ)上刪除CBAM,刪除組件前后的兩模型的性能對比如表3 所示,其中擁有CBAM的最終模型在識別準(zhǔn)確率和字符錯(cuò)誤率上的表現(xiàn)都優(yōu)于無CBAM的模型,由此驗(yàn)證了CBAM的有效性。

      表3 刪除CBAM+前后的模型性能對比Table 3 Performance comparison of models before and after deleting CBAM+

      CBAM中涉及兩類卷積核尺寸問題:空間注意力模塊中×尺寸的卷積核以及對輸入特征圖卷積的×尺寸的卷積核。本小節(jié)對于、的最優(yōu)選擇進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)中還對比了傳統(tǒng)CBAM 對模型的性能影響,如表4 所示。

      表4 不同注意力機(jī)制、參數(shù)對模型的性能影響Table 4 Impact of different attention mechanisms and parameters on model performance

      從表4 中可以看出,傳統(tǒng)CBAM 中先使用通道注意力再使用空間注意力的方式確實(shí)對模型性能有一定的提升,但本文提出的CBAM既使用了雙注意力模塊,在對輸入特征圖的處理上又融入了多感受野,不同尺度的特征融合進(jìn)一步提高了網(wǎng)絡(luò)模型的表達(dá)能力。當(dāng)=7,=3 時(shí),CBAM對網(wǎng)絡(luò)性能的提升最大。

      2.3.3 CBAM的效果可視化

      為更加直觀地看出CBAM對有用特征的提取能力,本小節(jié)實(shí)驗(yàn)比較有無CBAM的模型經(jīng)同一卷積層后的輸出特征圖區(qū)別。如圖8 所示,從上到下依次是原圖、輸出特征圖在通道維度上取平均的特征圖以及為更直觀地看出特征提取效果,增強(qiáng)對比度后的特征圖。

      圖8 有無CBAM+的模型經(jīng)同一卷積層后輸出特征圖對比Fig.8 Comparison of feature maps with or without CBAM+after same convolution layer

      因?yàn)閷?shí)驗(yàn)將CBAM添加在卷積層的較淺層,所以語義信息還未變得抽象。從增強(qiáng)對比度后的特征圖比較可以看出,未使用CBAM的網(wǎng)絡(luò)未能處理好單詞的輪廓信息,字母“W”和“T”未與背景做明顯區(qū)分。而且字母“E”和“N”之間出現(xiàn)了粘連,這對于網(wǎng)絡(luò)判別力無疑是一項(xiàng)干擾。而添加了CBAM的網(wǎng)絡(luò)特征圖輪廓鮮明,提取有用特征的能力得到了提升。

      為驗(yàn)證復(fù)合卷積對模型的性能提升,本小節(jié)設(shè)計(jì)了復(fù)合卷積消融實(shí)驗(yàn)。在最終模型的基礎(chǔ)上刪除復(fù)合卷積部分,刪除組件前后的兩模型的性能對比如表5 所示。其中擁有復(fù)合卷積的最終模型在識別準(zhǔn)確率和字符錯(cuò)誤率上的表現(xiàn)都優(yōu)于無復(fù)合卷積的模型,由此驗(yàn)證了復(fù)合卷積的有效性。

      表5 刪除復(fù)合卷積前后的模型性能對比Table 5 Performance comparison of models before and after deleting composite convolution

      本小節(jié)首先對復(fù)合卷積中雙卷積核尺寸的選擇進(jìn)行實(shí)驗(yàn):對3、5 的卷積核尺寸進(jìn)行兩兩組合,不同尺寸的組合對模型的性能影響如表6 所示。

      表6 復(fù)合卷積中卷積核尺寸對模型的性能影響Table 6 Impact of convolution kernel size on model performance in composite convolution

      從表6 中可以看出,復(fù)合卷積中如果雙卷積核尺寸相同,對模型性能提升不大,3 和5 的卷積核尺寸搭配可以顯著提升模型性能。由于不同人的單詞手寫習(xí)慣不同,連筆方式、字體大小也不盡相同,多尺度的卷積核一定程度上使得模型的泛化性更強(qiáng)。

      復(fù)合卷積中卷積核個(gè)數(shù)同樣對模型的性能存在影響,考慮到參數(shù)代價(jià)帶來的訓(xùn)練困難,只將雙卷積核和三卷積核的復(fù)合卷積進(jìn)行性能對比。實(shí)驗(yàn)結(jié)果如表7 所示。

      表7 復(fù)合卷積中卷積核個(gè)數(shù)對模型的性能影響Table 7 Impact of the number of convolution kernels on model performance in composite convolution

      從表7 中可以看出,三卷積核的復(fù)合卷積效果不及雙卷積核,可能存在過擬合現(xiàn)象。雙卷積核的復(fù)合卷積不僅花費(fèi)更小的參數(shù)代價(jià),而且其模型更加健壯。

      消融實(shí)驗(yàn)驗(yàn)證了CBAM和復(fù)合卷積對網(wǎng)絡(luò)性能的有效提升。增加網(wǎng)絡(luò)深度也被認(rèn)為是提升網(wǎng)絡(luò)性能的手段,原CRNN 網(wǎng)絡(luò)中共有9 層卷積層,為了驗(yàn)證CRNN 卷積層數(shù)對網(wǎng)絡(luò)的性能影響進(jìn)行了以下實(shí)驗(yàn),如表8 所示。

      從表8 中可以看出,卷積層層數(shù)為9 網(wǎng)絡(luò)性能表現(xiàn)最好,8 層的卷積層可能存在欠擬合問題,而10 層的網(wǎng)絡(luò)可能由于深度過深出現(xiàn)了梯度消失引起的訓(xùn)練困難或網(wǎng)絡(luò)退化問題。

      表8 卷積層層數(shù)對模型的性能影響Table 8 Impact of the number of convolution layers on model performance

      圖9 為在訓(xùn)練中改進(jìn)前后的模型的測試準(zhǔn)確率隨迭代次數(shù)的變化曲線。其中每輪的測試準(zhǔn)確率為該批次中從測試集隨機(jī)抽取的16 張圖片的平均識別準(zhǔn)確率。從圖中可以看出,在10 000 輪之前,改進(jìn)后的模型的識別準(zhǔn)確率提升效果明顯,反映出加入了CBAM和復(fù)合卷積的模型收斂性更好。此外,模型收斂后的識別準(zhǔn)確率較改進(jìn)前也有所提升。

      圖9 模型改進(jìn)前后的準(zhǔn)確率隨迭代次數(shù)變化曲線Fig.9 Accuracy of model before and after improvement varies with the number of iterations

      表9 為當(dāng)前幾種流行方法在IAM 與RIMES 數(shù)據(jù)集上的識別表現(xiàn)對比,它們大多對原始數(shù)據(jù)進(jìn)行了預(yù)處理。Krishnan 等使用了語言模型,在訓(xùn)練模型前先在自己合成的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。Stuner 等同樣使用了語言模型,并在訓(xùn)練過程使用240 萬的單詞詞典(lexicon)。Luo 等提出了新的文本圖像增強(qiáng)方法并聯(lián)合AFDM 智能增強(qiáng)模塊一起加入識別網(wǎng)絡(luò)。Xu 等對原始數(shù)據(jù)進(jìn)行預(yù)處理(pre-processing),清理了標(biāo)點(diǎn)符號和大寫字母,使用了輪廓規(guī)范化并應(yīng)用了測試擴(kuò)充。Bluche 等額外使用CTC 損失進(jìn)行了預(yù)訓(xùn)練,獲得了更有意義的特征表示。Sueiras 等校正了圖像中的線條偏斜和傾斜,根據(jù)基線和語料庫線條對字符的高度進(jìn)行了歸一化處理。本文的模型與Shi 等、Carbonell 等一樣未使用任何預(yù)處理、預(yù)訓(xùn)練和額外訓(xùn)練數(shù)據(jù)補(bǔ)充的操作,但是在IAM 數(shù)據(jù)集上,85.774 8%的識別準(zhǔn)確率和8.6%字符錯(cuò)誤率識別結(jié)果還是比較令人滿意的,進(jìn)一步說明加入了CBAM和復(fù)合卷積的新框架更能聚焦有用特征,多尺度卷積在風(fēng)格各異的脫機(jī)英文手寫單詞識別上表現(xiàn)良好。

      表9 當(dāng)前流行方法在IAM、RIMES 數(shù)據(jù)集上的精度對比Table 9 Accuracy comparison of current popular methods on IAM and RIMES datasets

      3 結(jié)束語

      本文將加強(qiáng)型卷積塊注意力模塊(CBAM)和復(fù)合卷積應(yīng)用到處理文本識別的主流框架CRNN+CTC的卷積層中,特征提取網(wǎng)絡(luò)采用七層單通道卷積、三層CBAM和兩層復(fù)合卷積,經(jīng)這種結(jié)構(gòu)提取出的高層特征表示力強(qiáng),為接下來提取文字序列特征免除了部分無用信息的干擾,因此針對具有語義信息的脫機(jī)英文手寫單詞數(shù)據(jù)取得了較好的實(shí)驗(yàn)結(jié)果。為了進(jìn)一步提升框架在脫機(jī)英文手寫單詞識別上的表現(xiàn),接下來的研究工作會(huì)優(yōu)化文字序列有效特征的提取方法,修改成合適的網(wǎng)絡(luò)結(jié)構(gòu)后重新進(jìn)行訓(xùn)練。

      猜你喜歡
      脫機(jī)手寫字符
      手寫比敲鍵盤更有助于學(xué)習(xí)和記憶
      尋找更強(qiáng)的字符映射管理器
      我手寫我心
      淺快呼吸指數(shù)相關(guān)指標(biāo)預(yù)測脫機(jī)結(jié)局的價(jià)值分析
      抓住身邊事吾手寫吾心
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      改良程序化脫機(jī)在老年患者呼吸機(jī)撤離中的應(yīng)用
      中心靜脈血氧飽和度監(jiān)測在機(jī)械通氣患者脫機(jī)過程中的意義※
      消失的殖民村莊和神秘字符
      安西县| 正宁县| 罗定市| 江油市| 上杭县| 平顺县| 凤山市| 陵水| 正阳县| 嵊州市| 阳高县| 安塞县| 阜平县| 吉木乃县| 晋中市| 红桥区| 南丰县| 全南县| 南陵县| 三门峡市| 辽宁省| 彭泽县| 英吉沙县| 鸡西市| 长阳| 台东市| 诏安县| 甘南县| 老河口市| 双牌县| 达拉特旗| 陇南市| 庄河市| 绥化市| 林州市| 南华县| 冀州市| 乐亭县| 二手房| 阳谷县| 旬阳县|