• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于編碼器-解碼器的離線手寫數(shù)學(xué)公式識(shí)別

      2022-02-18 03:11:24杜永濤余元輝
      關(guān)鍵詞:數(shù)學(xué)公式解碼器手寫

      杜永濤,余元輝

      (集美大學(xué)計(jì)算機(jī)工程學(xué)院,福建 廈門 361021)

      0 引言

      手寫數(shù)學(xué)公式識(shí)別可分為兩種類型:在線手寫數(shù)學(xué)公式識(shí)別和離線手寫數(shù)學(xué)公式識(shí)別[1]。在線識(shí)別處理的是觸摸屏設(shè)備中筆跡的點(diǎn)序列數(shù)學(xué)公式,而離線識(shí)別處理的是靜態(tài)數(shù)學(xué)圖像。由于公式圖像比計(jì)算機(jī)視覺(jué)中的普通圖像包含更復(fù)雜的二維結(jié)構(gòu)和空間關(guān)系,離線手寫數(shù)學(xué)表達(dá)式識(shí)別通常被認(rèn)為比在線手寫數(shù)學(xué)表達(dá)式識(shí)別困難得多。

      已有許多與離線手寫數(shù)學(xué)公式識(shí)別相關(guān)的方法[2-8]。這些方法大致可以分為兩類:基于語(yǔ)法的和基于編解碼器的。基于語(yǔ)法的方法通常由三部分組成:符號(hào)分割、符號(hào)識(shí)別和結(jié)構(gòu)分析[9]。Lee等[3]提出了一個(gè)手寫數(shù)學(xué)公式識(shí)別系統(tǒng),系統(tǒng)的筆畫分割采用分割連通域的方法將公式分割成若干部分,單符號(hào)識(shí)別采用預(yù)訓(xùn)練的分類器對(duì)分割符號(hào)進(jìn)行分類識(shí)別,但該系統(tǒng)只對(duì)公式結(jié)構(gòu)中根式、分式和上下標(biāo)三種類型的結(jié)構(gòu)可以有效識(shí)別,不能識(shí)別其他公式結(jié)構(gòu)。Okamoto等[4]提出兩種手寫數(shù)學(xué)公式識(shí)別方法,一種是依據(jù)字符投影的輪廓信息進(jìn)行筆畫分割,然后使用模板匹配法進(jìn)行單符號(hào)識(shí)別的順序解決方法,另一種是采用自頂向下和自底向上結(jié)構(gòu)分析的全局解決方法。這類基于語(yǔ)法的傳統(tǒng)方法需要依賴大量的數(shù)學(xué)公式語(yǔ)法知識(shí),只能針對(duì)某些場(chǎng)景,泛用性不強(qiáng),且在大數(shù)據(jù)集中不能受益。Zhang等[5]首次提出了一種基于編碼器-解碼器結(jié)構(gòu)的WAP模型來(lái)解決離線手寫數(shù)學(xué)公式識(shí)別問(wèn)題,該模型能夠自動(dòng)學(xué)習(xí)數(shù)學(xué)公式語(yǔ)法和處理符號(hào)切分,并通過(guò)注意力機(jī)制解決對(duì)齊問(wèn)題。Wu等[6-7]為了克服寫作風(fēng)格的變化,提出了結(jié)合深度學(xué)習(xí)和對(duì)抗學(xué)習(xí)的PAL模型和PAL-v2模型,其中PAL-v2模型采用基于卷積神經(jīng)網(wǎng)絡(luò)的解碼器解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸的問(wèn)題。Le等[8]提出了基于注意力的編碼器-解碼器系統(tǒng)的數(shù)據(jù)生成策略,通過(guò)數(shù)據(jù)增強(qiáng)的方式證明了附加生成數(shù)據(jù)具有優(yōu)越性。Anh[2]結(jié)合手寫數(shù)學(xué)公式和印刷體數(shù)學(xué)公式特點(diǎn),提出了一種雙重?fù)p失注意法用于手寫數(shù)學(xué)公式識(shí)別。然而,這些基于編解碼器的方法沒(méi)有充分結(jié)合手寫數(shù)學(xué)公式中的尺度變化情況,會(huì)出現(xiàn)解析不足的情況,同時(shí)缺乏對(duì)長(zhǎng)公式序列建模,對(duì)復(fù)雜數(shù)學(xué)公式結(jié)構(gòu)更加解析不足。

      基于此,本文在傳統(tǒng)編碼器-解碼器模型基礎(chǔ)上進(jìn)行了改進(jìn),以多尺度密集卷積神經(jīng)網(wǎng)絡(luò)作為編碼器提取多分辨率特征,用Transformer模型替代RNN模型作為解碼器進(jìn)行長(zhǎng)公式序列建模,同時(shí)設(shè)計(jì)了兩種相對(duì)位置編碼方式嵌入圖像位置信息和LaTeX符號(hào)位置信息。

      1 網(wǎng)絡(luò)模型

      本文提出的編碼器-解碼器模型如圖1所示。

      1.1 編碼器

      本研究在密集卷積神經(jīng)網(wǎng)絡(luò)(DenseNet)的基礎(chǔ)上進(jìn)行了編碼器的改進(jìn)。DenseNet[10]由黃高于2017年提出,它的主要思想是通過(guò)在每一層和所有后續(xù)層之間建立密集連接來(lái)促進(jìn)層與層之間的信息交換。第l層的輸出特征為:

      x1=H((x0;x1;…;xi-1))。

      (1)

      其中:(x0;x1;…;xi-1)表示所有輸出特征的串聯(lián)操作;Hi(·)表示三個(gè)連續(xù)層的復(fù)合函數(shù)——批量標(biāo)準(zhǔn)化(BN)層[11]、ReLU層[12]和3×3卷積(Conv)層。通過(guò)通道維度的級(jí)聯(lián)操作,DenseNet能夠更好地傳播梯度。

      為了進(jìn)一步提取輸入圖像的多尺度特征,本研究在DenseNet的基礎(chǔ)上增加了多尺度結(jié)構(gòu)。如圖1所示,編碼器采用的多尺度DenseNet包含了4個(gè)密集塊(DenseBlock),每個(gè)密集塊都使用瓶頸層來(lái)提高計(jì)算效率,即在每個(gè)(3×3)卷積之前引入(1×1)卷積,以減少特征圖的輸入。在進(jìn)入第一個(gè)密集塊之前先對(duì)輸入圖像進(jìn)行核大小為(7×7)、步長(zhǎng)為(2×2)的卷積操作,然后進(jìn)行核大小為(2×2)、步長(zhǎng)為(2×2)的最大池化層操作。使用核大小和步長(zhǎng)都是(1×1)的卷積以及核大小和步長(zhǎng)都是(2×2)的平均池化作為第一和第二密集塊與第二和第三密集塊之間的過(guò)渡層,該過(guò)渡層將每個(gè)塊的特征圖的數(shù)量和大小減少一半。第二和第四密集塊之間只使用核大小和步長(zhǎng)都是(1×1)的卷積作為過(guò)渡層,該過(guò)渡層只將第二個(gè)密集塊的特征圖數(shù)量減少一半,而特征圖大小不變。第三和第四密集塊后輸出特征圖大小不同,兩個(gè)分支經(jīng)過(guò)(1×1)卷積層降低圖像特征圖數(shù)量,同時(shí)統(tǒng)一兩個(gè)分支的特征圖數(shù)量。最后兩個(gè)分支輸出特征分別作為多尺度DenseNet模型的高分辨率特征和低分辨率特征。低分辨率特征可以捕獲更大的感受視野,高分辨率特征可以捕獲更細(xì)粒度的視覺(jué)信息。

      1.2 解碼器

      Transformer[13]是一個(gè)完全基于注意機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)。相比于傳統(tǒng)解碼器的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[14],其內(nèi)部的自注意機(jī)制從根本上解決了RNN的梯度消失問(wèn)題,同時(shí)還能通過(guò)多頭機(jī)制實(shí)現(xiàn)良好的并行化訓(xùn)練,大量節(jié)約訓(xùn)練時(shí)間。本文采用的Transformer解碼器如圖1所示,每個(gè)解碼器模塊(decoder block)由四個(gè)部分組成。

      2)MS-MHA,多尺度多頭注意力模塊。該模塊采用兩個(gè)不同維度的多頭注意力層構(gòu)成,其計(jì)算公式為:Zl=MultiHeadl(Q,K,V),Zh=MultiHeadh(Q,K,V)。其中的K、V是編碼器輸出的低分辨率特征編碼矩陣;Q是輸出矩陣。

      3)Add&Norm,由殘差連接和歸一化兩部分組成。計(jì)算公式為:LayerNorm(X=F(X)),其中F(·)表示X經(jīng)過(guò)M-MHA、MS-MHA或者FFN模塊的函數(shù)轉(zhuǎn)換。

      4)FFN,一個(gè)兩層的全連接層。第一層的激活函數(shù)為Relu,第二層不使用激活函數(shù)。其計(jì)算公式為:FNN=(X)=max(0,XW1+b1)W2+b2。

      1.3 相對(duì)位置編碼

      圖像特征和詞向量的位置信息可以有效地幫助模型識(shí)別需要關(guān)注的區(qū)域。本文使用圖像位置編碼和詞向量位置編碼兩種編碼方式,在編碼器和解碼器嵌入圖像特征位置信息和詞向量位置信息。

      1.3.1 詞向量相對(duì)位置編碼

      其中θi=10 000-2i/d,i表示維數(shù)下標(biāo)。

      1.3.2 二維圖像相對(duì)位置編碼

      (2)

      (3)

      對(duì)于每個(gè)二維圖像像素點(diǎn)坐標(biāo)(x,y),通過(guò)公式(2)先對(duì)其進(jìn)行歸一化,然后分別對(duì)二維歸一化位置進(jìn)行旋轉(zhuǎn)式位置編碼,最后將它們連接在一起。

      2 訓(xùn)練和預(yù)測(cè)

      2.1 訓(xùn)練

      在圖像x和模型參數(shù)θ的條件下,傳統(tǒng)的自回歸模型概率分布可以表示為:p(yj|y1,K,yj-1,x,θ)。其中j為目標(biāo)序列中的索引。

      2.2 預(yù)測(cè)

      與訓(xùn)練過(guò)程不同,模型在預(yù)測(cè)過(guò)程中沒(méi)有目標(biāo)LaTeX 序列真實(shí)標(biāo)簽輸入,因此只能根據(jù)上一個(gè)LaTeX預(yù)測(cè)符號(hào)預(yù)測(cè)下一個(gè)LaTeX符號(hào),直到結(jié)束符號(hào)出現(xiàn)或達(dá)到預(yù)定義的最大長(zhǎng)度。對(duì)此,為了生成全局最優(yōu)LaTeX序列,本研究采用波束搜索算法[18]在每個(gè)時(shí)間步生成多個(gè)候選的輸出序列,最終選擇最優(yōu)的LaTeX序列。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)環(huán)境

      實(shí)驗(yàn)?zāi)P途谠品?wù)器深度學(xué)習(xí)環(huán)境下進(jìn)行部署。云服務(wù)器環(huán)境配置單塊NVIDIA Tesla V100 32 GB顯卡,基于Linux操作系統(tǒng)搭建PyTorch深度學(xué)習(xí)平臺(tái),其中CUDA版本為11.0,cuDNN版本為8.0,Python版本為3.7,PyTorch版本為1.7。

      3.2 數(shù)據(jù)集

      本文使用的數(shù)據(jù)集是CROHME 2014。它的訓(xùn)練集包含8836個(gè)手寫數(shù)學(xué)公式,測(cè)試集包含986個(gè)手寫數(shù)學(xué)公式。每個(gè)手寫數(shù)學(xué)公式樣本單獨(dú)保存在一個(gè)InkML文件中,其中包含了筆跡信息、符號(hào)級(jí)別的標(biāo)簽信息、表達(dá)式級(jí)別的標(biāo)簽信息、書寫人的相關(guān)信息、筆跡標(biāo)識(shí)信息等。本文先將InkML文件中的筆跡信息轉(zhuǎn)換為離線手寫數(shù)學(xué)公式圖像用于訓(xùn)練和測(cè)試,離線手寫數(shù)學(xué)公式圖像如圖2所示。

      3.3 評(píng)價(jià)指標(biāo)

      為了測(cè)量本系統(tǒng)的性能,使用字錯(cuò)誤率(RW)和公式識(shí)別準(zhǔn)確率(RE)作為度量標(biāo)準(zhǔn)。公式表示為:RW=(Nsub+Ndet+Nins)/NY,RE=NCOR/Y。其中:Nsub、Ndet、Nins是取代、缺失和插入的LaTeX公式符號(hào)數(shù)量;NY是LaTeX公式訓(xùn)練集中的符號(hào)數(shù);NCOR是正確識(shí)別的LaTeX公式數(shù)量;Y是LaTeX公式訓(xùn)練集中的公式數(shù)量。

      3.4 實(shí)驗(yàn)結(jié)果

      CROHME 2014數(shù)據(jù)集上一些模型的結(jié)果如表1所示。為了確保性能比較的公平性,各方法都只使用官方提供的8836個(gè)培訓(xùn)樣本,沒(méi)有使用數(shù)據(jù)擴(kuò)充。本研究以WAP模型[5]作為基準(zhǔn)模型,首次采用編碼器-解碼器結(jié)構(gòu),其中編碼器基于全卷積網(wǎng)絡(luò)模型,解碼器基于RNN模型。與其他方法相比,本模型明顯優(yōu)于WAP[5]、End-to-End[8]、PAL-v2[7]和Dual Loss Attention Network[2]。

      表1 本模型與其他四種模型的比較結(jié)果

      本模型采用雙向語(yǔ)言建模方法替代單向語(yǔ)言建模方法,同時(shí)用Transformer模型解碼器替代RNN的解碼器,不采用額外的印刷體數(shù)學(xué)公式圖像進(jìn)行訓(xùn)練,獲得了15.03%的公式識(shí)別準(zhǔn)確率提升。PAL-v2模型采用了統(tǒng)計(jì)語(yǔ)言模型作為后處理(本模型不采用任何后處理),公式識(shí)別準(zhǔn)確率提高了6.55%。Dual Loss Attention Network模型采用手寫數(shù)學(xué)公式圖像和印刷體數(shù)學(xué)公式圖像結(jié)合的雙重?fù)p失注意網(wǎng)絡(luò),字錯(cuò)誤率降低了1.41%,公式識(shí)別準(zhǔn)確率提高了3.55%。

      表2顯示了中多尺度結(jié)構(gòu)(muti-scale)、相對(duì)位置編碼(RPE)、雙向語(yǔ)言建模(bi-trained)以及波束搜索算法(beam search)對(duì)字錯(cuò)誤率和公式識(shí)別準(zhǔn)確率的影響。從表2中可以看出,以標(biāo)準(zhǔn)密集卷積神經(jīng)網(wǎng)絡(luò)(DenseNet)作為編碼器的基準(zhǔn)模型,多尺度結(jié)構(gòu)訓(xùn)練模型在公式識(shí)別正確率上提升了約2.25%,表明多尺度結(jié)構(gòu)有助于模型捕捉圖像中不同尺度的圖像特征信息;相對(duì)位置編碼約提升公式識(shí)別正確率3.91%,表明嵌入圖像特征位置信息和詞向量位置信息有效提高了模型的泛化能力;雙向語(yǔ)言建模在公式識(shí)別準(zhǔn)確率上也比單向語(yǔ)言建模方法訓(xùn)練的模型高出約2.49%,表明雙向語(yǔ)言建模方法有助于克服單向語(yǔ)言建模方法不平衡輸出的問(wèn)題,提高模型泛化能力。此外,采用波束搜索算法對(duì)解碼結(jié)果進(jìn)行評(píng)估也使公式識(shí)別正確率提高了約1.65%,表明波束搜索算法有助于生成最優(yōu)LaTeX序列。

      表2 CROHME 2014測(cè)試集的消融實(shí)驗(yàn)

      圖 3 展示了本模型的幾個(gè)識(shí)別示例。從圖3可以看出,對(duì)于數(shù)學(xué)公式中的上下標(biāo)、括號(hào)、求和、極限、積分、分式、根式等結(jié)構(gòu),本模型成功學(xué)習(xí)到了這些數(shù)學(xué)公式結(jié)構(gòu)語(yǔ)法。通常情況下,這些公式結(jié)構(gòu)都會(huì)被保留下來(lái),但會(huì)有一兩個(gè)符號(hào)識(shí)別錯(cuò)誤。這些符號(hào)識(shí)別的錯(cuò)誤主要來(lái)自于手寫數(shù)學(xué)符號(hào)的模糊性引起的歧義。

      圖 4展示了幾個(gè)錯(cuò)誤識(shí)別的例子,從中可以看出大寫字母與小寫字母、字母與數(shù)字之間的相似性會(huì)給模型識(shí)別帶來(lái)困難,比如公式“S/V”和“-P(V1-V1)”中就將大寫字母“V”和“P”識(shí)別成了小寫字母“v”和“p”,公式“60o”中將符號(hào)“°”識(shí)別成了數(shù)字“0”。同時(shí)對(duì)于一些由英文字母構(gòu)成的特殊運(yùn)算符號(hào),模型將難以區(qū)分特殊運(yùn)算符號(hào)和英文字符,比如公式“cos 2α”中將“cos”識(shí)別成了“c”、“0”、“5”。

      4 結(jié)語(yǔ)

      本文的主要工作是針對(duì)離線手寫數(shù)學(xué)公式識(shí)別任務(wù)提出了一種新的編碼器-解碼器模型。用多尺度密集卷積神經(jīng)網(wǎng)絡(luò)作為編碼器對(duì)手寫數(shù)學(xué)公式圖像進(jìn)行多分辨率特征提??;用Transformer模型替代傳統(tǒng)RNN模型作為解碼器解碼預(yù)測(cè)手寫數(shù)學(xué)公式圖像的LaTeX序列;通過(guò)兩種相對(duì)位置編碼,可以捕獲圖像特征位置信息和詞向量位置信息,幫助模型關(guān)注有效的圖像區(qū)域。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在CROHME 2014數(shù)據(jù)集上取得了55.43%的公式識(shí)別準(zhǔn)確率和10.75%的字錯(cuò)誤率,相比于當(dāng)前最先進(jìn)的Dual Loss Attention Network方法[2],公式識(shí)別準(zhǔn)確率提高了3.55%,字錯(cuò)誤率降低了1.41%,證明了所提出模型的有效性。在接下來(lái)的研究工作中,提升模型在多層嵌套結(jié)構(gòu)和區(qū)分相似符號(hào)的數(shù)學(xué)公式上的識(shí)別準(zhǔn)確率仍需進(jìn)一步探索。

      猜你喜歡
      數(shù)學(xué)公式解碼器手寫
      手寫比敲鍵盤更有助于學(xué)習(xí)和記憶
      形神兼?zhèn)?,聚焦小學(xué)數(shù)學(xué)公式定律教學(xué)策略
      科學(xué)解碼器(一)
      我手寫我心
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      抓住身邊事吾手寫吾心
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      數(shù)學(xué)難題解開(kāi)啦
      基于集成學(xué)習(xí)的MINIST手寫數(shù)字識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:08
      桃江县| 青浦区| 德州市| 曲松县| 南开区| 客服| 桦南县| 旬邑县| 宁明县| 黎川县| 河间市| 贡觉县| 莎车县| 南溪县| 内江市| 基隆市| 天津市| 威海市| 北海市| 台北市| 济阳县| 开阳县| 潜江市| 抚宁县| 兴隆县| 齐河县| 夏河县| 正阳县| 东安县| 姚安县| 康马县| 任丘市| 吴江市| 湘阴县| 宜兰县| 温州市| 东阿县| 衡阳县| 当雄县| 彭州市| 大厂|