• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      DPENet:輕量化文檔姿態(tài)估計網(wǎng)絡

      2022-11-20 13:59:08呂學強張祥祥
      計算機工程與應用 2022年22期
      關鍵詞:熱圖角點高斯

      韓 晶,呂學強,張祥祥,郝 偉,張 凱

      1.北京信息科技大學 網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室,北京 100101

      2.首都師范大學 中國語言智能研究中心,北京 100048

      紙質(zhì)文檔承載著大量有用的信息,這些信息在人們的日常工作與生活中起著至關重要的作用。隨著移動智能手機、便攜相機等設備的日益普及,用戶可以通過拍照實現(xiàn)紙質(zhì)文檔的數(shù)字化[1]。然而,由于相機的姿態(tài)、文檔放置狀態(tài)等不確定因素,移動設備采集文檔會出現(xiàn)透視傾斜變形,往往導致文檔信息無法被準確提取,故需要進行圖像矯正處理。對這類變形普遍采用“四點法”進行矯正,即通過變形文檔上的四個點與矯正后一一對應的四個點求單應矩陣進而實現(xiàn)矯正,不同的方法區(qū)別在于如何尋找對應的四組點[2]。

      2017年,Abbas等人[3]提出一種基于深度卷積神經(jīng)網(wǎng)絡的文檔角點定位網(wǎng)絡,該網(wǎng)絡末端使用單層全連接實現(xiàn)文檔角點坐標的回歸,具有端到端可微的特性,但回歸方法對卷積層輸出的特征圖進行了拉伸操作,丟失了特征圖的空間特性,導致泛化性較差。同時由于該模型體量大,模型的參數(shù)量大,故推理速度較慢。

      同年,Javed等人[4]提出一種先檢測再遞歸調(diào)用的方法實現(xiàn)文檔角點的定位。該方法設計了兩個有先后調(diào)用順序的深度卷積神經(jīng)網(wǎng)絡,第一個網(wǎng)絡使用目標檢測方法檢測文檔的角點,第二個網(wǎng)絡被遞歸調(diào)用,以回歸角點坐標。該方法非端到端可微,且后一步的角點坐標回歸依賴于前者的文檔角點檢測,當前者未能檢測出文檔角點區(qū)域,后者角點坐標回歸必然失效。同時,后一步的全連接回歸坐標方式同樣存在坐標泛化性差的問題。另外,計算過程中第二個模型需要被多次調(diào)用,算法推理速度較慢。

      2019年,Korber[5]基于Abbas等人[3]的工作提出一種由Xception網(wǎng)絡[6]改進的角點定位網(wǎng)絡。該網(wǎng)絡采用深度可分離卷積實現(xiàn)一定程度的輕量化,但該模型在實現(xiàn)輕量化特性的同時損失了一定的精度。另外,由于該模型也采用全連接方式進行坐標的預測,故模型的泛化性也較差。

      隨著深度學習與姿態(tài)估計技術的發(fā)展,基于深度學習的姿態(tài)估計技術被廣泛地應用在人體姿態(tài)估計[7]、人臉姿態(tài)估計與人臉對齊[8]、手指姿態(tài)估計[9]、動物體態(tài)估計[10]等領域。這些領域的研究證明了姿態(tài)估計定位的高精度性與技術成熟性,而文檔的角點可以看作文檔圖像中“文檔個體”的四個姿態(tài)點,即可通過姿態(tài)估計技術實現(xiàn)文檔角點的定位。

      本文從姿態(tài)估計的角度尋求解決文檔角點定位的更佳的解決方案,主要貢獻有:(1)提出一種輕量化的、端到端的、高精度的文檔姿態(tài)估計網(wǎng)絡DPENet(lightweight document pose estimation network),相比于之前的基于深度學習的角點定位模型,具有角點定位精度高、角點坐標定位泛化性好、抗干擾性強、模型體量小、計算量小、推理速度快等優(yōu)點;(2)針對回歸方法角點定位精度低的問題,通過引入DSNT(differentiable spatial to numerical transform)結構[11]實現(xiàn)Heatmap方法[12]與坐標回歸方法[13]的融合,既獲得了回歸模型端到端可微的特性,又得到了Heatmap方法良好的坐標泛化性,實現(xiàn)了優(yōu)于回歸方法與Heatmap方法的角點高精度的定位與端到端的文檔姿態(tài)估計和矯正處理。

      1 相關工作

      1.1 MobileNet V2

      目前的文檔圖像矯正應用一般部署在移動手機端或嵌入式邊緣計算設備之上,而移動手機與嵌入式設備一般計算性能有限,則體積比較龐大、占用內(nèi)存多、推理速度慢的模型一般不能適用,訓練的模型即使精度很高也不具有良好的實用性。MobileNet V2[14]為針對移動端設備而精心設計的深度卷積神經(jīng)網(wǎng)絡,廣泛應用在面向嵌入式邊緣計算的設備中[15-16],可在保持精度的情況下大量降低模型參數(shù)、模型計算量以及模型大小,并且可以兼顧速度與精度。故本文選擇MobileNet V2作為DPENet的主干網(wǎng)絡。

      1.2 DSNT

      在現(xiàn)有的基于深度學習的坐標回歸任務中,一般采用全連接層直接進行回歸并輸出關鍵點的坐標,或者使用高斯熱圖回歸再通過求取熱圖中最值的位置來獲取關鍵點的坐標。這兩種方法均不夠理想,前者是端到端可微的,可以直接輸出關鍵點的坐標值,且速度較快,但全連接破壞了特征圖的空間特征,故該方法空間泛化性不足,得到的坐標精度一般較低,且模型一般比較依賴訓練數(shù)據(jù)的場景分布,對新數(shù)據(jù)的適應性差,容易過擬合。后者輸出的是關鍵點的高斯熱圖,由于沒有破壞特征圖的空間特征,故該方法的空間泛化性較好,輸出的坐標精度較高,但坐標精度與輸出的高斯熱圖尺度大小有關,且存在上限,一般需要進行高斯熱圖多級監(jiān)督,當坐標回歸的精度要求較高時,就必須保證足夠的上采樣層與足夠大的網(wǎng)絡輸出尺度與多級監(jiān)督,會造成模型體積大、模型結構復雜、參數(shù)量多、訓練速度慢、推理速度慢、內(nèi)存消耗大等問題。另外高斯熱圖回歸不是端到端的模型,坐標值的輸出需要在輸出的高斯熱圖之上進行進一步處理。

      DSNT是針對以上兩者的優(yōu)缺點而提出的一種全新的通用型解決方案,不僅具有前者端到端、推理速度快的特點,還具有后者良好的空間泛化能力,且在使用上簡單便捷,即插即用。DSNT核心思想是將關鍵點的坐標值的求解轉(zhuǎn)化為坐標期望值的優(yōu)化問題,將高斯熱圖各個像素位置的值進行歸一化,作為對應坐標位置的值的權重使用,再構建兩個與高斯熱圖大小相同的常量坐標矩陣,矩陣的每個元素值對應為該元素的軸向坐標值。然后將兩個常量矩陣與歸一化后的高斯熱圖按像素位相乘并求和,輸出關鍵點的坐標x與y,即用數(shù)學期望的方法求解關鍵點的坐標。這樣得到的最終坐標值與高斯熱圖的最值位置相互對應,在深度學習框架中形成了端到端可微的坐標期望優(yōu)化問題。因為高斯熱圖的值的浮點性,即坐標值權重的浮點性,所以DSNT在小尺度的高斯熱圖上可以回歸出高精度的浮點坐標值。因此,DSNT可以保持端到端可微的情況下兼顧精度與模型大小,這是單一的全連接坐標回歸與單一的高斯熱圖回歸所不能具備的。本文引入DSNT算法來預測文檔角點的坐標,實現(xiàn)文檔角點的高精度定位。

      2 DPENet模型設計

      本文從姿態(tài)估計的角度,將文檔圖像中的單一文檔視為一個姿態(tài)估計對象,將文檔的四個角點視為姿態(tài)估計點,采用輕量化設計的MobileNet V2作為主干網(wǎng)絡提取角點特征,再經(jīng)上采樣得到分別對應四個角點的高斯熱圖,利用DSNT結構對高斯熱圖進行處理,輸出角點的高精度相對坐標,最后使用“四點法”實現(xiàn)透視變形文檔圖像的矯正處理。本文所提出的DPENet模型結構如圖1所示,主要從模型結構、損失函數(shù)兩方面進行詳細介紹。

      2.1 DPENet模型結構

      DPENet網(wǎng)絡結構可分為五部分,依次為:(1)輸入部分(Input);(2)主干網(wǎng)絡部分(MobileNet V2 backbone);(3)上采樣部分(Upsample);(4)DSNT部分;(5)輸出部分。輸入部分采用文獻[3]中的輸入尺寸設計,具體尺寸為384×256×3(H×W×C);輸出部分采用歸一化坐標預測,輸出四個姿態(tài)估計點的浮點型相對坐標,可有效避免整形坐標帶來的誤差,保證了DPENet的高精度。主干網(wǎng)絡部分、上采樣部分、DSNT部分具體細節(jié)如下。

      2.1.1 主干網(wǎng)絡部分

      如圖1中的標識為“MobileNet V2 backbone”的部分所示,MobileNet V2結構中,由淺層到深層,通道數(shù)逐漸增加,特征圖尺度逐漸減小,與后面的上采樣結構構成編/解碼器結構,因此主干網(wǎng)部分可稱為DPENet的編碼器模塊。MobileNet V2的默認輸入尺度為224×224×4,此處根據(jù)DPENet的輸入部分的尺度設計修改為384×256×3,經(jīng)過1個卷積層,17個瓶頸殘差塊,再接1個卷積層,最后的輸出尺度為12×8×1 280,即DPENet主干網(wǎng)絡的輸出尺寸。詳細結構參數(shù)如表1所示。其中,瓶頸殘差塊(Bottleneck)設計為線性瓶頸和倒置殘差的結構,如圖2所示。

      表1 特征模塊結構細節(jié)Table 1 Details of features module structure

      線性瓶頸結構使用1×1的卷積替代ReLU對3×3卷積和ReLU6后的特征圖進行“激活”操作,可以在一定程度上減少ReLU6非線性變換帶來的信息損失。

      倒置殘差結構在殘差連接上與標準殘差結構[17]一致,但在通道數(shù)設計上,先用1×1卷積核進行通道升維操作,再用3×3的卷積核進行通道數(shù)固定的卷積操作,最后用1×1的卷積進行通道降維操作,使前后層級的通道數(shù)比中間的通道數(shù)少。其中,中間層采用深度可分離卷積實現(xiàn),大大降低了參數(shù)量,這是MobileNet V2輕量化的主要原因。在COCO數(shù)據(jù)上與SSD模型進行的性能比較實驗[14]中,MobileNet V2+SSDLite的結構僅以4.3×106的參數(shù)量實現(xiàn)了22.1%的mAP,較SSD300僅低1.1%,而SSD300的參數(shù)量高達3.61×107,充分說明以MobileNet V2為主干網(wǎng)絡,可以在付出極小的精度損失代價下大幅減少模型參數(shù)量。另外,倒置殘差結構中采用的激活函數(shù)為ReLU6,它與ReLU的區(qū)別在于其輸出包含上限,上限值為6,使得MobileNet V2具有更強的魯棒性。

      2.1.2 上采樣部分

      經(jīng)過DPENet的主干網(wǎng)絡,圖像的特征信息被“編碼”,特征圖尺度變小,通道數(shù)變多,要想得到更高精度的姿態(tài)點位估計,還需進行“解碼”操作,則上采樣部分可稱為DPENet的解碼器模塊。

      如圖1與表2所示,上采樣部分共分為五層,第一層為普通的1×1卷積層,對上一部分輸出的特征圖進行通道維度上的低維度投影,特征圖尺度保持不變,通道數(shù)降為256,為上一部分與本部分的銜接層;第二、三、四層為三個連續(xù)的反卷積層,每經(jīng)過一層,特征圖尺度擴大一倍,通道數(shù)減半;第五層為上采樣部分與下一層的銜接層,輸入輸出特征圖尺寸不變,即96×64,輸出通道數(shù)為4,分別對應文檔圖像的四個角點的高斯熱圖,即高斯熱圖的分辨率為輸入圖像尺寸(384×256)的兩倍下采樣尺度,為主干網(wǎng)絡編碼結果(12×8)的三倍上采樣尺度,處于一個適中的尺度,這保證了算法在精度與參數(shù)量之間的權衡。如圖3所示偽彩色高斯熱圖,顏色由藍色到紅色,像素顏色越靠近紅色,表示該點是文檔圖像角點的概率越高。明顯可以看出,高斯熱圖中熱點的相對位置與原圖中角點的相對位置高度吻合。

      表2 上采樣結構細節(jié)Table 2 Details of upsample structure

      第一層除了基本卷積外,模型中還加入了批歸一化操作與特征圖激活操作,使用的激活函數(shù)為ReLU函數(shù)[18]。

      2.1.3 DSNT部分

      如圖4所示,DSNT部分為高斯熱圖向姿態(tài)坐標點的轉(zhuǎn)換模塊,分兩步實現(xiàn)。

      第一步,對上一部分輸出的四張高斯熱圖進行激活操作,將高斯熱圖中的數(shù)值歸一化至0~1內(nèi),此時整張高斯熱圖中所有元素值的和為1,即每個元素的值轉(zhuǎn)化為該元素所在位置的概率值。此處使用Softmax2d進行激活操作,如式(1)所示,其中w=64,h=96。

      第二步,構建兩個歸一化的常量坐標矩陣,分別記為X與Y,一個代表x坐標,一個代表y坐標,兩個常量矩陣的尺度與高斯熱圖的尺度一致且在位置上一一對應,各元素值可由式(2)計算得到,然后按式(3)進行Hadamard乘積再求和,得預測坐標(xp,yp),其中Hi,j、Hm,n表示高斯熱圖H在對應二維索引位置的元素值。

      2.2 損失函數(shù)

      如圖1所示,DPENet模型的總損失函數(shù)L由Euclidean損失Leuc和高斯熱圖規(guī)范化損失Lreg組成,Lreg由超參數(shù)λ因子進行帶權約束,總的損失反映DPENet模型的整體性能。

      Leuc為真實文檔圖像姿態(tài)坐標點與模型預測坐標點之間的損失,銜接在DPENet網(wǎng)絡結構的尾端,直接反映模型姿態(tài)估計的精度;Lreg采用JS散度構造,用于度量兩個概率分布的相似度,此處Lreg度量預測的二維高斯熱圖與真實的二維高斯熱圖在分布上的相似度,可對高斯熱圖的分布起約束作用。Lreg直接反映模型預測的高斯熱圖的準確性,同時間接對DSNT與坐標預測起優(yōu)化所用。

      Leuc、Lreg、總損失函數(shù)L依次由式(4)、式(5)和式(7)表示。

      其中,Cp、Cgt分別表示預測的坐標與真實的坐標標簽。

      其中,Hp、Hgt分別表示預測的高斯熱圖與真實的高斯熱圖標簽。DJS(·||·)、DKL(·||·)分別為JS散度與KL散度的公式表示。JS散度為KL散度的變體,此處JS散度由KL散度表示,KL散度如式(6)所示。綜上所述,本文以透視傾斜變形文檔圖像為研究對象,以本領域普遍使用的“四點法”為矯正手段,提出輕量型文檔姿態(tài)估計網(wǎng)絡DPENet,來解決文檔四個角點的坐標的準確性問題。由于DPENet采用輕量化的主干網(wǎng)絡MobileNet V2,整個模型的參數(shù)量大大降低的同時保留較高的精度,實現(xiàn)了DPENet的輕量化;引入DSNT模塊對文檔角點進行姿態(tài)估計,將文檔四個角點的坐標值的求解轉(zhuǎn)化為坐標期望值的優(yōu)化問題,從而得到文檔四個角點精確的相對坐標,且這種方法得到的坐標為浮點型坐標,相對于直接以高斯熱圖極值點回歸坐標的方法得到的坐標更加精確,這也是DPENet擁有高精度和高準確性的根本。

      3 實驗與分析

      3.1 實驗準備

      3.1.1 實驗環(huán)境

      本文的實驗環(huán)境主要分為兩種,模型的訓練與測試在含有GPU的服務器環(huán)境下進行,而文檔圖像的矯正測試在個人筆記本電腦上進行,環(huán)境細節(jié)見表3。

      表3 實驗環(huán)境Table 3 Experiment environment

      3.1.2 模型訓練配置

      DPENet模型及相關的對比模型均在單GPU環(huán)境下訓練,batch size統(tǒng)一設為128;均采用Adam[19](β1=0.9,β2=0.999,?=10-8)優(yōu)化器進行網(wǎng)絡優(yōu)化;均采用

      ReduceLROnPlateau(mode=“min”,factor=0.5,patience=20)算法進行學習率的動態(tài)調(diào)節(jié);初始學習率根據(jù)具體的模型情況進行探索性設定,保證該模型在具體的環(huán)境下可訓練出更好的結果。

      3.1.3 算法評估標準

      本文主要從文檔圖像的姿態(tài)估計精度、矯正效果、姿態(tài)估計速度與矯正速度四方面對本文所提算法進行評估。

      對于文檔姿態(tài)估計的精度,本文使用文檔四個角點的姿態(tài)估計坐標與真實坐標之間的平均位移誤差(mean displacement error,MDE)進行評估,單位為像素(pixel),MDE越小表示姿態(tài)估計精度越高。記N為姿態(tài)估計點的數(shù)量,本文中N=4,則MDE可由式(8)表示,其中(xGiT,yiGT)與(xPi,yiP)分別表示真實的坐標標簽與姿態(tài)估計坐標。

      矯正效果主要用矯正成功的數(shù)量與矯正成功率評估,矯正成功的數(shù)量越多,矯正成功率越大,模型的矯正效果越好。記P、NR、NA分別為矯正成功率、矯正成功的數(shù)量、測試集數(shù)據(jù)總量,則算法的矯正成功率可由式(9)表示。

      姿態(tài)估計的速度與矯正的速度均以單張文檔圖像的平均處理時間進行評估,平均處理時間越短,速度越快。

      3.2 消融實驗

      3.2.1 模型結構可行性實驗

      為了獲得最佳的模型結構,本文在設計模型時,對多種模型結構進行了對比分析,如表4所示。本文共分析了六種模型結構,這六種模型的主干網(wǎng)絡均采用MobileNet V2;上采樣部分,模型(1)~(3)使用DUC結構[20],模型(4)~(6)使用反卷積結構;坐標回歸部分,模型(1)(4)、(2)(5)、(3)(6)分別使用全連接回歸結構、高斯熱圖回歸結構、DSNT結構,其中高斯熱圖回歸結構使用的是最簡單的單級監(jiān)督模式,即僅對模型的尾部輸出的特征圖求損失。

      表4 六種模型對比Table 4 Comparison of six models

      對比模型(1)(4)、(2)(5)、(3)(6)可知,在相同層數(shù)與通道數(shù)的情況,DUC結構與Deconv2d結構在精度上基本相近,但DUC結構的模型在模型大小、模型參數(shù)量、計算量以及姿態(tài)估計速度上均高于Deconv2d的模型,說明Deconv2d結構可以在保證同等精度的情況下保持更好的模型輕量化特性。

      通過模型(1)、(2)、(3)與模型(4)、(5)、(6)之間的對比可知,全連接結構的模型體量最大,高斯熱圖回歸結構與DSNT結構體量相等;姿態(tài)估計速度上三者的推理速度比較相近,DSNT結構低于高斯熱圖結構;在精度方面DSNT結構精度最高,全連接次之,高斯熱圖回歸模型精度最低且遠遠低于前兩者的精度。

      DSNT結構模型與高斯熱圖回歸結構模型相比僅增加一個DSNT結構塊,但不增加模型參數(shù),因此兩者體量相當;但DSNT結構模型多一步坐標期望計算,因此推理速度略慢;全連接結構打破了特征圖的空間信息,因而精度低;高斯熱圖得出的坐標為熱圖對應的坐標位置,在上采樣還原至原始圖像尺度時存在理論誤差上限,因此高斯熱圖回歸結構精度較低。

      DSNT結構為全連接結構與高斯熱圖結構的綜合,既保證了特征圖的空間信息不被打破,又可像全連接結構一樣直接輸出文檔角點的坐標值,同時坐標值為浮點坐標,不存在上限,故其精度最高。

      本文在合成數(shù)據(jù)集[3]和SmartDoc-QA數(shù)據(jù)集[21]上對DPENet進行測試,并對姿態(tài)估計結果進行高斯熱圖可視化展示,如圖5所示,第1行為合成數(shù)據(jù)集上的結果,第2~4行為SmartDoc-QA上的結果,依次為大、中、小三種尺度。左側第1列為樣本原圖,第2~5列分別為DPENet輸出的文檔左上、右上、左下、右下角點的高斯熱圖,第6列圖片為高斯熱圖渲染結果。DPENet輸出的高斯熱圖與原始文檔圖像的文檔角點具有精準的位置對應關系,其不僅在訓練的驗證集上表現(xiàn)良好,在新數(shù)據(jù)上依然有良好的姿態(tài)估計結果,這說明DPENet對新數(shù)據(jù)具有良好的適應性。且新數(shù)據(jù)具有大、中、小三種不同的尺度,故DPENet對姿態(tài)點的預測具有良好的空間泛化能力。

      綜上所述,由MobileNet V2、Deconv2d與DSNT構成的DPENet模型為實驗中的最優(yōu)模型,具有模型小、參數(shù)量小、計算量大、推理速度快、精度高、數(shù)據(jù)適應性強、空間泛化能力強等優(yōu)點。

      3.2.2 超參數(shù)消融實驗

      由式(7)可知,權重λ會影響模型的訓練結果。為了設置合適的λ值,本文對8組λ值(1、5、8、9、10、11、12、15)進行實驗分析。

      如圖6所示,λ=5時總的損失值最小,但Leuc與Lreg并未達到最??;λ=11時Leuc與Lreg均達到最小值,但總的損失未達到最小值。由式(7)的形式可知,當λ值較大時,即使Leuc與Lreg均較小,總的損失值亦可能較大,而在DPENet中Leuc直接反映模型的姿態(tài)估計的精度,因此,本文以Leuc為主要參考對λ值進行最終的選定,此處λ值最終設定為11。

      如圖7所示,對λ=11的模型共訓練了24輪,最終在驗證集上測得Leuc=0.016 7,此時得到本實驗中最好的模型訓練結果。

      3.3 對比實驗

      本文將DPENet與當前面向文檔圖像矯正處理的模型(文獻[3]、文獻[4]、文獻[5])在SmartDoc-QA數(shù)據(jù)集[21]上進行了對比,結果如表5所示。

      表5 不同模型性能指標對比Tabel 5 Comparison of performance indexes of different models

      在模型大小、參數(shù)量、計算量方面,文獻[4]模型處于最優(yōu)狀態(tài),這是因為其采用的主干網(wǎng)絡為早期在計算資源受限時使用的小型模型AlexNet[22],DPENet雖比文獻[4]模型的體量大,但與文獻[3]模型和文獻[5]模型相比,DPENet的體量遠遠低于兩者。

      在精度方面,文獻[3]模型為個人復現(xiàn),MDE=2.74,原文獻中MDE=2.45,存在細微的差別;文獻[4]模型與文獻[5]模型為開源實現(xiàn)。DPENet的精度最高,MDE僅為1.28,性能較文獻[3]模型提升53.3%。

      在矯正速度上,文獻[4]模型處于最優(yōu)狀態(tài),文獻[5]模型次之,DPENet第三。文獻[4]模型雖速度較快,但由于其由兩個模型組成,且第二模型一般需要多次且不定次數(shù)的調(diào)用,一般數(shù)據(jù)難度低時速度快、難度高時速度慢,此處可參考文獻[23]中醫(yī)療文檔圖像數(shù)據(jù)的矯正速度(1.21 s>0.37 s),其矯正時間隨數(shù)據(jù)的變化而變化,不具有穩(wěn)定性。文獻[5]模型矯正速度快是因為其使用了速度更快的深度學習框架Keras。而DPENet的矯正速度不因數(shù)據(jù)的變化而變化,既具有穩(wěn)定性又能保持較快的矯正速度。

      對于矯正成功數(shù)量、矯正成功率,DPENet模型均處于最優(yōu)狀態(tài),遠遠優(yōu)于其他三種模型,較文獻[4]模型提升44.4%,體現(xiàn)了DPENet優(yōu)越的準確性。

      圖8為不同模型的圖像矯正效果對比,其中第1列為SmartDoc-QA數(shù)據(jù)集中的樣例原圖,分別為大、中、小三種尺度,第2~5列分別為文獻[3]模型、文獻[4]模型、文獻[5]模型、DPENet的矯正結果。從空間泛化性看,四種模型對大尺度的樣本均有較好的矯正效果,其中在DPENet的矯正結果中文檔背景殘留最??;在對中、小尺度樣本進行矯正時,在文獻[5]模型的矯正結果中出現(xiàn)大面積的背景殘留,而文獻[3]模型的矯正結果中不僅有背景殘留,還出現(xiàn)內(nèi)容殘缺的現(xiàn)象,文獻[4]模型的矯正結果中也存在一定的背景殘留,而DPENet的矯正結果中無內(nèi)容殘缺,且背景殘留也最小,這說明DPENet具有更好的矯正效果和更好的空間泛化性。

      綜上所述,DPENet可以在平衡速度和體量的條件下實現(xiàn)最優(yōu)的矯正準確性和精度,并具有更好的矯正效果和空間泛化性,這得益于DPENet對文檔角點的良好的估計效果。

      4 結束語

      本文針對當前基于深度學習的文檔圖像角點定位與矯正算法的不足,結合當前的姿態(tài)估計技術,引入姿態(tài)估計算法來對文檔圖像進行角點的定位與矯正處理,提出一種文檔姿態(tài)估計網(wǎng)絡DPENet,并在開源數(shù)據(jù)集上進行測試,與當前主流的深度學習方法進行對比分析。實驗結果表明,DPENet在保持輕量化的條件下?lián)碛凶罡叩木龋粌H具有全連接坐標回歸的端到端的特性,還具有高斯熱圖回歸方法的良好的空間泛化性、高精度等特性,可以高精度且實時地實現(xiàn)透視變形文檔圖像的姿態(tài)估計與矯正處理。但DPENet也有不足之處,DPENet中的DSNT模塊的第一步操作為Softmax2d,則姿態(tài)估計坐標被限定在特征圖所對應的輸入文檔圖像的坐標范圍之內(nèi),故DPENet不能處理缺角的文檔圖像。如何對缺角文檔圖像進行姿態(tài)估計與矯正處理將是下一步的研究內(nèi)容。

      猜你喜歡
      熱圖角點高斯
      小高斯的大發(fā)現(xiàn)
      天才數(shù)學家——高斯
      基于FAST角點檢測算法上對Y型與X型角點的檢測
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      基于邊緣的角點分類和描述算法
      電子科技(2016年12期)2016-12-26 02:25:49
      熱圖
      基于圓環(huán)模板的改進Harris角點檢測算法
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      有限域上高斯正規(guī)基的一個注記
      南靖县| 南皮县| 磴口县| 广灵县| 镇平县| 定日县| 辽阳县| 屯昌县| 陇南市| 庆元县| 孝感市| 汕尾市| 陈巴尔虎旗| 昔阳县| 富民县| 周至县| 健康| 怀柔区| 三都| 策勒县| 伊宁市| 桃源县| 中方县| 全南县| 崇仁县| 洞头县| 桂东县| 建宁县| 三河市| 巴青县| 宜章县| 泰来县| 屏东市| 合江县| 兖州市| 连州市| 界首市| 扬州市| 浑源县| 海伦市| 中江县|