鄭劍鋒 張廣濤 劉英莉
基金項(xiàng)目:國家自然科學(xué)基金(批準(zhǔn)號:52061020)資助的課題;云南計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室開放基金(批準(zhǔn)號:2020103)資助的課題。
作者簡介:鄭劍鋒(1997-),碩士研究生,從事計(jì)算機(jī)視覺、文檔分析的研究。
通訊作者:劉英莉(1978-),副教授,從事機(jī)器學(xué)習(xí)、自然語言處理的研究,lyl@kust.edu.cn。
引用本文:鄭劍鋒,張廣濤,劉英莉.基于自適應(yīng)注意力機(jī)制的表格結(jié)構(gòu)識別模型[J].化工自動化及儀表,2024,51
(3):449-455.
DOI:10.20030/j.cnki.1000?3932.202403012
摘 要 針對圖像中表格結(jié)構(gòu)識別問題,提出了基于自適應(yīng)注意力機(jī)制的編碼-解碼架構(gòu),預(yù)測圖像中表格的HTML標(biāo)簽。采用輕量化LCNet和CSP?PAN作為特征編碼網(wǎng)絡(luò),獲得全局圖像特征;為解碼器設(shè)計(jì)自適應(yīng)注意力機(jī)制,在解碼器的每個時間步驟添加語義特征,使模型自主選擇關(guān)注圖像信息或語義特征。另外,為提升研究效率,對訓(xùn)練圖片數(shù)量與模型準(zhǔn)確率之間的關(guān)系進(jìn)行研究,結(jié)果表明合適的圖像數(shù)量在70k~100k之間,實(shí)驗(yàn)從公開數(shù)據(jù)集PubTabNet中隨機(jī)選擇100k圖片進(jìn)行訓(xùn)練,模型的TEDS?Struct分?jǐn)?shù)達(dá)到了95.1%。
關(guān)鍵詞 表格結(jié)構(gòu)識別 注意力機(jī)制 文檔智能 深度學(xué)習(xí) 模式識別 圖像描述
中圖分類號 TP18?? 文獻(xiàn)標(biāo)志碼 A?? 文章編號 1000?3932(2024)03?0449?07
文檔中的表格通常承載著特定主題的重要信息,將文檔圖像中的表格解析為機(jī)器可讀的HTML標(biāo)簽是文檔智能分析中的一項(xiàng)具有挑戰(zhàn)性的特色任務(wù)[1]。表格結(jié)構(gòu)識別的方法多樣,許多研究者選擇通過編碼-解碼結(jié)構(gòu)的模型,利用編碼器抽取圖像特征、解碼器生成標(biāo)簽。而表格的HTML標(biāo)簽同時具有視覺性和非視覺性,已有方法只考慮了圖像信息,缺乏視覺信息和語義信息的動態(tài)融合。
為解決這一問題,筆者在圖像的空間注意力基礎(chǔ)上,添加自適應(yīng)注意力模塊,為不同標(biāo)簽分配語義注意力權(quán)重。另一方面,由于公開數(shù)據(jù)集數(shù)量龐大,為了提高算法研究效率,筆者研究了圖片數(shù)量與模型準(zhǔn)確率之間的關(guān)系,以找出最合適的訓(xùn)練集樣本數(shù)量。
1 相關(guān)工作
目前國內(nèi)外學(xué)者提出了很多基于深度學(xué)習(xí)的表格結(jié)構(gòu)識別方法,大致可分為3類:將表格視作圖像使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行處理的方法;將結(jié)構(gòu)識別視作圖像領(lǐng)域的定位或分割任務(wù);使用圖像描述方法直接從表格圖像中預(yù)測出代表結(jié)構(gòu)的標(biāo)簽序列。LI Y等將表格的每個文本單元視作圖節(jié)點(diǎn),使用K臨近算法建圖,通過圖卷積算法處理每個節(jié)點(diǎn)的鄰接關(guān)系,最終計(jì)算出正確的表格結(jié)構(gòu)[2],這類方法的局限在于建圖的難度較大且不適合處理復(fù)雜表格。將表格的文本單元視為待識別對象進(jìn)行圖像目標(biāo)的檢測也是常見手段,如CascadeTabNet表格檢測網(wǎng)絡(luò)[3],在定位表區(qū)域后進(jìn)一步檢測表單元格,進(jìn)而解析出表格結(jié)構(gòu);ZHANG T等提出了LRCAANet,在特征提取階段結(jié)合通道注意力機(jī)制,成功縮減了模型結(jié)構(gòu)[4]。使用定位、分割方法進(jìn)行表格結(jié)構(gòu)識別的優(yōu)點(diǎn)在于對表單元格位置的識別較為準(zhǔn)確,使用同一種模型即可完成表格定位和結(jié)構(gòu)識別任務(wù),但這類方法通常需要人為設(shè)定后處理規(guī)則,用于構(gòu)建表格單元之間的鄰接關(guān)系。
筆者采用圖像描述的方式進(jìn)行表格結(jié)構(gòu)識別,結(jié)合計(jì)算機(jī)視覺和自然語言處理技術(shù),直接根據(jù)表格圖片生成表結(jié)構(gòu)的標(biāo)簽序列,避免冗余的后處理過程,使表結(jié)構(gòu)的抽取過程更加簡潔,因此得到了大量關(guān)注。XU K等首次將基于注意力機(jī)制的編碼-解碼結(jié)構(gòu)應(yīng)用于圖像描述[5]。DENG Y T等通過在編碼階段添加遞歸層來捕獲水平空間依賴關(guān)系,從而將圖像中的數(shù)學(xué)公式轉(zhuǎn)成LATEX格式[6],同樣的模型也被用于Table2Latex數(shù)據(jù)集中,從表格圖像中生成LATEX格式的表格。為了促進(jìn)基于圖像和深度學(xué)習(xí)的表格識別任務(wù)的研究,ZHONG X等公開了自動生成的PubTabNet數(shù)據(jù)集,使用雙解碼器結(jié)構(gòu)同時進(jìn)行結(jié)構(gòu)解碼和單元內(nèi)容解碼,并提出了新的表格識別任務(wù)評價(jià)指標(biāo)——樹編輯距離相似度(Tree Edit Distance Based Similarity,TEDS)[7]。PubTabNet與TEDS也分別成為ICDAR2021科研文獻(xiàn)分析競賽[8]的數(shù)據(jù)集和評價(jià)指標(biāo)。YE J等發(fā)布的TableMaster模型是ICDAR2021的解決方案之一,結(jié)合了ResNet的殘差模塊和多頭注意力模塊構(gòu)成圖像編碼部分[9],使用基于Transformer[10]的解碼架構(gòu)組成兩個分支分別預(yù)測結(jié)構(gòu)和單元格坐標(biāo)。與之類似的還有LI C等提出的SLANet[11],結(jié)合LCNet[12]和CSP?PAN[13]作為編碼網(wǎng)絡(luò),解碼器由單層GRU構(gòu)成,在循環(huán)網(wǎng)絡(luò)的每個輸出節(jié)點(diǎn)使用回歸網(wǎng)絡(luò)和結(jié)構(gòu)識別網(wǎng)絡(luò)分別預(yù)測表格結(jié)構(gòu)和單元格坐標(biāo),雖然精度與TableMaster相比略微下降,但模型尺寸遠(yuǎn)小于前者。
受SLANet啟發(fā),筆者構(gòu)建的表格結(jié)構(gòu)模型使用基于長短時記憶網(wǎng)絡(luò)(Long Short?term Memory,LSTM)[14]的解碼器結(jié)構(gòu),結(jié)合自適應(yīng)注意力機(jī)制,使得在每個時間步驟,模型能夠選擇從圖像或語義信息中預(yù)測表格結(jié)構(gòu)標(biāo)簽和單元格坐標(biāo),最終提高表格結(jié)構(gòu)識別的準(zhǔn)確率。
2 表格結(jié)構(gòu)識別
本節(jié)詳細(xì)描述了所提方法的整體結(jié)構(gòu),模型為編碼-解碼結(jié)構(gòu),其中編碼器采用基于卷積的深度神經(jīng)網(wǎng)絡(luò),主要用于提取圖片特征;解碼器主要用于解析表格結(jié)構(gòu)和單元格坐標(biāo)。整體框架如圖1所示。表格圖像輸入編碼器中獲得特征圖,特征圖將送入解碼結(jié)構(gòu)進(jìn)行解碼。每個步驟中解碼器的輸出都將送入結(jié)構(gòu)解碼器(Structure Decoder,SD)和單元格坐標(biāo)回歸器(Cell Regression,CR),分別生成結(jié)構(gòu)標(biāo)簽序列和單元格坐標(biāo),同一步驟生成的標(biāo)簽和坐標(biāo)一一對應(yīng),拼接所有步驟下生成的標(biāo)簽即為該表格HTML表示。
2.1 編碼器結(jié)構(gòu)
編碼器主要由骨干網(wǎng)絡(luò)和頸網(wǎng)絡(luò)組成,筆者使用輕量級的LCNet作為骨干網(wǎng)絡(luò)進(jìn)行特征提取。為了能夠融合骨干網(wǎng)絡(luò)提取的特征,解決尺度變化帶來的性能下降,在骨干網(wǎng)絡(luò)后添加CSP?PAN作為頸網(wǎng)絡(luò),在充分融合各層次特征的同時,降低了計(jì)算代價(jià)。編碼器結(jié)構(gòu)如圖2所示,其中,LCNet采用DepthSepConv[12]作為基礎(chǔ)模塊,生成4層不同級別的特征圖。CSP?PAN網(wǎng)絡(luò)則結(jié)合了路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)與局部跨階(Cross Stage Partial,CSP)模塊[13],用于融合不同層次的特征圖。
2.2 解碼器結(jié)構(gòu)
解碼器由基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)構(gòu)成,具體包括LSTM、注意力模塊和最后的結(jié)構(gòu)解碼模塊、坐標(biāo)解碼模塊(圖3)。特征圖的長寬維度作為時間序列輸入,由遞歸網(wǎng)絡(luò)提取序列特性,結(jié)構(gòu)解碼器只生成預(yù)先定義的表格結(jié)構(gòu)HTML標(biāo)記,位置編碼器負(fù)責(zé)生成表格單元位置。
圖3中,c為注意力1模塊產(chǎn)生的上下文向量;[c][^]為注意力2模塊最終生成的上下文向量;S為保留了前文語義信息的語義向量;y、l分別為結(jié)構(gòu)解碼器和坐標(biāo)解碼器生成的HTML標(biāo)簽類別與單元格坐標(biāo);h為該時刻LSTM的隱藏層狀態(tài);V為經(jīng)過編碼器處理后的特征圖;x為當(dāng)前步驟下LSTM的輸入。
由卷積編碼結(jié)構(gòu)生成的特征圖V∈Rd×k和LSTM前一時刻的隱藏層狀態(tài)h可經(jīng)空間注意模塊(圖3中注意力1模塊)生成當(dāng)前步驟下特征圖k個網(wǎng)格的空間注意力分?jǐn)?shù)α∈Rk,具體公式為:
z=Wtanh(WV+(Wh))(1)
α=softmax(z)(2)
其中,W、W∈Rk×d與Wh∈Rk均為可學(xué)習(xí)參數(shù)。
基于圖片的空間注意力分?jǐn)?shù)可以得到僅包含圖像特征的圖片上下文特征向量c:
c=αv(3)
其中,v表示特征圖V的第i個網(wǎng)格的特征值,v∈Rd。
參照LSTM內(nèi)部機(jī)制,可由下式計(jì)算得到語義特征向量S:
S=σ(Wx+Wh)☉tanh(m)(4)
其中,W為可學(xué)習(xí)參數(shù);m為LSTM內(nèi)部的記憶單元狀態(tài)。
基于前文所得到的語義向量S和圖片上下文特征向量c,通過應(yīng)用自適應(yīng)注意力機(jī)制(圖3中注意力2模塊)生成最終的上下文特征向量[c][^],計(jì)算式為:
[c][^]=βt St(1-β)c(5)
其中,β為語義注意力分?jǐn)?shù),其值越高,表示當(dāng)前時刻模型更加關(guān)注語義信息而非圖像信息。β由下式計(jì)算的[α][^]得到:
[α][^]=softmax([z;W tanh(WS+Wh)])(6)
其中,W為可學(xué)習(xí)參數(shù);[α][^]∈Rk+1,β=[α][^][k+1]。
兩個解碼器均由單層全連接神經(jīng)網(wǎng)絡(luò)構(gòu)成,最后的輸出y、l可由下式計(jì)算得出:
y=W[c][^](7)
l=W[c][^](8)
其中,W為可學(xué)習(xí)參數(shù)。
以上公式單獨(dú)將LSTM的語義向量分離出來,并賦予注意力機(jī)制,使得模型在生成下一個標(biāo)簽類別時,自發(fā)地選擇關(guān)注圖像特征或語義特征。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)背景
為了驗(yàn)證筆者所提算法的有效性,在PubTabNet數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。PubTabNet數(shù)據(jù)集是IBM澳大利亞研究院公開的基于圖像的表格識別數(shù)據(jù)集,包含了568k表格圖像以及相應(yīng)的HTML結(jié)構(gòu)化表示。在PubTabNet中,用“” “
常以準(zhǔn)確率作為性能指標(biāo)來評價(jià)表格結(jié)構(gòu)識別算法的好壞。正確的預(yù)測結(jié)果意味著一張表格內(nèi)所有結(jié)構(gòu)標(biāo)簽均與真實(shí)值相同。在PubTabNet中使用TEDS作為識別結(jié)果的度量方法,TEDS能夠同時識別結(jié)構(gòu)錯誤和單元內(nèi)容錯誤。筆者著重研究結(jié)構(gòu)識別算法,且單元內(nèi)容可由不同OCR算法進(jìn)行識別,考慮到OCR的識別誤差可能影響比較結(jié)果,因此參照文獻(xiàn)[11,15]中的工作,除了準(zhǔn)確率外,文中將忽略單元內(nèi)容,使用TEDS?Struct作為評價(jià)方法。
文中使用在ImageNet上預(yù)訓(xùn)練的LCNet網(wǎng)絡(luò)參數(shù)進(jìn)行初始化以加快訓(xùn)練速度。訓(xùn)練過程中,采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)為0.001,并在50次迭代后調(diào)整為0.000 1,共進(jìn)行70次迭代。訓(xùn)練使用一塊NVIDIA 3090 GPU,訓(xùn)練批大小設(shè)為48。
3.2 訓(xùn)練集樣本數(shù)量對模型的影響
PubTabNet包含了大量數(shù)據(jù)集,從經(jīng)驗(yàn)來看,數(shù)據(jù)集數(shù)量越多,所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)性能越好。為了有效使用計(jì)算資源,對訓(xùn)練集樣本數(shù)量與準(zhǔn)確率之間的關(guān)系進(jìn)行評估。對原數(shù)據(jù)集的訓(xùn)練樣本進(jìn)行隨機(jī)采樣,產(chǎn)生6組數(shù)量不同的訓(xùn)練集,其樣本數(shù)量分別為9k、18k、36k、72k、108k、200k,在使用同樣卷積的情況下,分別使用了文獻(xiàn)[11]與文獻(xiàn)[16]的方法進(jìn)行測試,結(jié)果見表1。
神經(jīng)網(wǎng)絡(luò)模型性能通常與訓(xùn)練集樣本數(shù)量呈對數(shù)關(guān)系,參照文獻(xiàn)[17]所使用的建模方法,筆者通過最小二乘估計(jì)預(yù)測模型的性能,使用ln函數(shù)對其進(jìn)行擬合,擬合曲線如圖4虛線所示,擬合函數(shù)為y=0.0889ln x+0.8039,其中x為歸一化后的訓(xùn)練樣本數(shù)量,y為模型準(zhǔn)確率。根據(jù)擬合曲線,當(dāng)x=0.14時,曲線斜率為0.6,對應(yīng)訓(xùn)練樣本數(shù)
量為72k,此時訓(xùn)練集樣本數(shù)量的增加對模型性能的提升開始變得有限;x從0.2(108k)到0.4(200k)時,準(zhǔn)確率的提升約為0.05,在x超過0.4(200k)后,模型性能的提升沒有實(shí)質(zhì)性改善。因此,后續(xù)的對比實(shí)驗(yàn)將在訓(xùn)練集樣本數(shù)量為108k條件下進(jìn)行。
3.3 自適應(yīng)注意力的有效性
筆者對不同注意力機(jī)制對解碼效果的影響進(jìn)行了實(shí)驗(yàn),結(jié)果見表2,雖然使用LSTM的準(zhǔn)確率
較GRU有所下降,但整體而言,結(jié)合筆者提出的自適應(yīng)注意力機(jī)制能夠提升表結(jié)構(gòu)識別的準(zhǔn)確率。
表3展示了筆者所提方法與PubTabNet數(shù)據(jù)集上一些先進(jìn)方法的對比,如EDD、LGPMA[18]和SLANet??梢钥闯觯P者所提方法對SLANet的改進(jìn)基本保持了模型尺寸大小,但提升了準(zhǔn)確率。
3.4 注意力機(jī)制可視化分析
為更好地分析解碼器中自適應(yīng)注意力機(jī)制的工作原理,筆者對語義注意力分?jǐn)?shù)和圖像中的空間注意力分?jǐn)?shù)進(jìn)行了可視化。
圖5展示了各個標(biāo)簽的語義注意力分?jǐn)?shù),可以發(fā)現(xiàn),所有的“”標(biāo)簽均得到了很高的語義注意力分?jǐn)?shù)。除此之外,由于HTML標(biāo)簽的標(biāo)記規(guī)則,所有表格的“”和“
”之后必定跟隨““
“
圖6展現(xiàn)了在預(yù)測不同標(biāo)簽時,圖像特征中空間注意力機(jī)制對圖像各區(qū)域的關(guān)注程度。僅在預(yù)測“”時,空間注意力機(jī)制正確分辨出了表頭區(qū)域。當(dāng)預(yù)測單元格標(biāo)簽“ 模式,沒有傳達(dá)明確的行信息,導(dǎo)致注意力模塊始終關(guān)注圖像特征的局部信息,這也是后續(xù)工作中所要解決的問題。 如圖7所示,筆者從PubTabNet測試集中抽取了4張表格圖片進(jìn)行了最終的可視化展示??梢钥闯龉P者所提模型能夠準(zhǔn)確預(yù)測表格結(jié)構(gòu)和單元格坐標(biāo),雖然第2行圖像中,空單元格的坐標(biāo)偏差較大,但不影響實(shí)際應(yīng)用。 4 結(jié)束語 筆者探究了在表格結(jié)構(gòu)識別問題中訓(xùn)練集樣本數(shù)量對基于RNN預(yù)測模型的影響,實(shí)驗(yàn)結(jié)果表明,模型樣本準(zhǔn)確率與訓(xùn)練集樣本數(shù)量呈對數(shù)關(guān)系,最有性價(jià)比的訓(xùn)練樣本數(shù)量在70k~100k之間。同時,筆者提出了一種基于LSTM的表格結(jié)構(gòu)識別方法,在應(yīng)用圖像空間注意力機(jī)制的同時,拓展LSTM生成語義特征,并添加適應(yīng)性注意力機(jī)制,為結(jié)構(gòu)標(biāo)簽的預(yù)測提供語義特征上的選擇,使模型能夠自主選擇需要關(guān)注的特征類別,通過實(shí)驗(yàn)和可視化結(jié)果進(jìn)一步驗(yàn)證了自適應(yīng)注意力機(jī)制的有效性,與僅使用圖像特征的空間注意力相比,自適應(yīng)注意力機(jī)制提升了表格結(jié)構(gòu)預(yù)測的準(zhǔn)確性。 參 考 文 獻(xiàn) [1]??? CUI L,XU Y,LYU T,et al.Document AI:Benchmarks,Models and Applications[J].Journal of Chinese Information Processing,2022,36(6):1-19. [2]?? LI Y,HUANG Z,YAN J,et al.GFTE:Graph?Based Financial Table Extraction[C]//Pattern Recognition ICPR International Workshops and Challenges.Berlin:Springer,2021:644-658. [3]??? PRASAD D, GADPAL A, KAPADNI K,et al.Cascade? TabNet:An approach for end to end table detection and structure recognition from image?based documents[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE,2020:2439-2447. [4]?? ZHANG T,SUI Y,WU S Y,et al.Table Structure Recognition Method Based on Lightweight Network and Channel Attention[J].Electronics,2023,12(3):673. [5]??? XU K,BA J L,KIROS R,et al.Show,Attend and Tell:Neural Image Caption Generation with Visual Attention[C]//Proceedings of the 32nd International Conference on Machine Learning.Stroudsburg? PA,USA:Curran Associates Inc.,2015:2048-2057. [6]?? DENG Y T,KANERVISTO A,LING J,et al.Image?to?Markup Generation with Coarse?to?Fine Attention[C]//Proceedings of the 34th International Conference on Machine Learning.Sydney,NSW,Australia:JMLR.org,2017:980-989. [7]?? ZHONG X,SHAFIEIBAVANI E,JIMENO YEPES A. Image?Based Table Recognition: Data, Model, and Evaluation[C]//Computer Vision?ECCV 2020.Glasgow,UK:Spring,2020:564-580. [8]?? YEPES A J, ZHONG P,BURDICK D.ICDAR 2021 Competition on Scientific Literature Parsing[C]//International Conference on Document Analysis and Recognition.Lausanne, Switzerland:IAPR,2021:605-617. [9]??? YE J,QI X,HE Y,et al.PingAn?VCGroups Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B:Table Recognition to HTML[J/OL].arXiv,2021.https://doi.org/10.48550/arXiv.2105.01848. [10]?? VASWANI A,SHAZEER N,PARMAR N,et al.Atten? tion is all you need[C]//Proceedings of the 31st International Conference on Neural Information Proc? essing Systems.New York:Curran Associates Inc.,2017: 6000-6010. [11]?? LI C,GUO R,ZHOU J,et al.PP?StructureV2:A Stron? ger Document Analysis System[J/OL].arXiv,2022.https://doi.org/10.48550/arXiv.2210.05391. [12]?? CUI C,GAO T,WEI S,et al.PP?LCNet:A Lightweight CPU Convolutional Neural Network[J/OL].arXiv,2021.https://doi.org/10.48550/arXiv.2109.15099. [13]?? YU G H,CHANG Q Y,LV W Y,et al.PP?PicoDet:A Better Real?Time Object Detector on Mobile Devices [J/OL]. arXiv, 2021. https://doi. org/10.48550/arXiv.2111.00902. [14]?? GERS F,SCHMIDHUBER J,CUMMINS F.Learning to Forget:Continual Prediction with LSTM[C]//1999 Ninth International Conference on Artificial Neural Networks.Edinburgh,UK:IET,2000:850-855. [15]?? ZHENG X,BURDICK D,POPA L,et al.Global Table Extractor(GTE):A Framework for Joint Table Identi? fication and Cell Structure Recognition Using Visual Context[C]//2021 IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE,2021:697-706. [16]?? LU J,XIONG C,PARIKH D,et al.Knowing When to Look:Adaptive Attention via a Visual Sentinel for Image Captioning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2017:3242-3250. [17]?? SHAHINFAR S,MEEK P,F(xiàn)ALZON G.“How many images do I need?” Understanding how sample size per class affects deep learning model performance metrics for balanced designs in autonomous wildlife monitoring[J]. Ecological Informatics, 2020, 57:101085. [18]?? QIAO L,LI Z,CHENG Z,et al.LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment[C]//Document Analysis and Recognition. Switzerland:ICDAR,2021:99-114. (收稿日期:2023-05-12,修回日期:2024-03-04) Table Structure Recognition Model Based on Adaptive Attention Mechanism ZHENG Jian?feng1,2, ZHANG Guang?tao1,2, LIU Ying?li1,2 (1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology; 2. Yunnan Key Laboratory of Computer Technologies Applications) Abstract?? Aiming at recognizing table structure in images, an encoder?decoder architecture based on adaptive attention mechanism was proposed to predict tables HTML tags in images. Lightweight LCNet and CSP?PAN were adopted as feature coding networks to obtain global image features. In addition, an adaptive attention mechanism was designed for the decoder, and semantic features were added at each time step of the decoder so that the model can self?select to focus on the image information or semantic features. For purpose of improving research efficiency, the relationship between the number of training images and the accuracy of the model was studied to show that, the appropriate number of images stays between 70k and 100k. Training 100k images randomly selected from the public dataset PubTabNet shows that, the marks of TEDS?Struct of the model can reach 95.1%. Key words?? table structure recognition, attention mechanism, document AI, deep learning, pattern recognition, image description”時,空間注意力僅能正確關(guān)注列區(qū)域,但無法分辨表格中各行的差異,注意力機(jī)制始終在第1行的空間范圍內(nèi)選擇關(guān)注區(qū)域,筆者認(rèn)為原因在于表格的HTML標(biāo)簽在不斷重復(fù)“ ”的…