• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于遷移學(xué)習(xí)的發(fā)票號碼識別研究

      2021-06-25 14:17:58黃為新張繼超
      軟件導(dǎo)刊 2021年6期
      關(guān)鍵詞:印刷體發(fā)票準(zhǔn)確率

      黃為新,陶 楊,張繼超,蘇 笛,牛 硯

      (1.吉林大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院;2.吉林大學(xué) 數(shù)學(xué)學(xué)院,吉林 長春 130012)

      0 引言

      發(fā)票數(shù)字識別本質(zhì)上屬于光學(xué)字符識別領(lǐng)域中的一個分支——印刷體數(shù)字識別。光學(xué)字符識別技術(shù)被廣泛應(yīng)用于各方面,如鐵軌路牌識別[1]、快遞單號識別、身份證號碼識別[2]等,對人們的日常生產(chǎn)和生活產(chǎn)生了重要影響。而對印刷體數(shù)字識別的研究也有很多,如孟巖等[3]總結(jié)了印刷體數(shù)字識別基本流程,提出采用攝像頭而非掃描儀并結(jié)合數(shù)字圖像處理技術(shù)和光學(xué)字符識別(Optical Character Recognition,OCR)的方法將成為該領(lǐng)域研究的主流方向;卿東升等[4]對通過結(jié)構(gòu)特征識別數(shù)字的方法作進(jìn)一步改進(jìn),提出一種基于二進(jìn)制的算法。近年來的研究主要圍繞神經(jīng)網(wǎng)絡(luò)技術(shù),周澤華等[5]提出設(shè)計結(jié)構(gòu)合理、收斂性強(qiáng)的BP 神經(jīng)網(wǎng)絡(luò),識別率較高。

      印刷體數(shù)字識別是將圖片中0~9 的數(shù)字轉(zhuǎn)變?yōu)橛嬎銠C(jī)可識別的信息,而發(fā)票號碼識別要做的工作更加具體。傳統(tǒng)的發(fā)票信息獲取絕大多數(shù)依靠人力,由于涉及對數(shù)字敏感的金融領(lǐng)域,這要求對單個數(shù)字的識別率很高。因此,設(shè)計出一套可以智能快速準(zhǔn)確地識別發(fā)票單號的系統(tǒng)尤為必要。

      一個完整成熟的數(shù)字識別系統(tǒng)包括:圖像獲取、圖像預(yù)處理、圖像字符切割、字符識別。本文通過網(wǎng)絡(luò)爬蟲技術(shù),從互聯(lián)網(wǎng)上獲取發(fā)票圖像樣本;通過噪聲處理、圖像二值化等方法對圖像作初步處理;通過投影法進(jìn)行字符切割,從而獲取獨(dú)立的數(shù)字;最后是本文的核心工作——發(fā)票數(shù)字識別。與發(fā)票數(shù)字識別最接近的是手寫體數(shù)字識別。一般而言,手寫數(shù)字的處理更加復(fù)雜,目前手寫數(shù)字識別問題已得到很好地解決。柳回春等[6]分析了手寫數(shù)字識別情況,從而給人以啟發(fā)——可以將其運(yùn)用到印刷體數(shù)字識別上。這里不得不提及一個有名的數(shù)據(jù)集——MNIST手寫字符數(shù)據(jù)集,它由LeCun 等[7]建立,包含10 個阿拉伯?dāng)?shù)字(0~9)一共60 000 張訓(xùn)練圖片和10 000 張測試圖片。在通過MNIST 數(shù)據(jù)集訓(xùn)練完備的手寫數(shù)字神經(jīng)網(wǎng)絡(luò)Lenet上測試的準(zhǔn)確率已達(dá)0.993 2,但在導(dǎo)入搜集好的印刷體數(shù)字圖片并進(jìn)行測試后,發(fā)現(xiàn)準(zhǔn)確率僅為0.810 0,沒有達(dá)到預(yù)期效果。直接將手寫數(shù)字網(wǎng)絡(luò)用于發(fā)票數(shù)字識別并不是一種好的解決方案,但這種嘗試給予人一定啟發(fā),即可以對訓(xùn)練好的手寫數(shù)字神經(jīng)網(wǎng)絡(luò)進(jìn)行調(diào)整,例如網(wǎng)絡(luò)參數(shù)和結(jié)構(gòu),從而提高印刷體數(shù)字識別準(zhǔn)確率。

      當(dāng)訓(xùn)練和測試的樣本域分布不同時,需采用遷移學(xué)習(xí)相關(guān)算法加以實現(xiàn),本文采用的3 種方法都是建立在前人提出的比較完善的理論體系之上。例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)用于圖像識別的方法比較常用,是利用數(shù)據(jù)樣本構(gòu)造一個“黑盒子”,將待測圖片輸入其中便可以得到它的類別。Li 等[8]提出一種高效卷積神經(jīng)網(wǎng)絡(luò)的前向和后向傳播算法,用于對圖像進(jìn)行像素級分類并且消除了所有冗余計算;Pan 等[9]系統(tǒng)總結(jié)了遷移學(xué)習(xí)相關(guān)理論,與傳統(tǒng)機(jī)器學(xué)習(xí)不同的是,它無需對目標(biāo)任務(wù)進(jìn)行重新訓(xùn)練;Ganin 等[10]提出的神經(jīng)網(wǎng)絡(luò)領(lǐng)域?qū)褂?xùn)練理論是在一般神經(jīng)網(wǎng)絡(luò)訓(xùn)練中加入新的梯度反轉(zhuǎn)層,自適應(yīng)地完成深特征提取任務(wù),實現(xiàn)在相似但分布不同數(shù)據(jù)集之間的訓(xùn)練與測試;Dan 等[11]提出的Tradaboost是遷移學(xué)習(xí)的一種算法,它指當(dāng)源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集處于不同分布時,同時利用帶有標(biāo)簽的源數(shù)據(jù)集和帶有標(biāo)簽的目標(biāo)數(shù)據(jù)集,通過不同分布的訓(xùn)練數(shù)據(jù)訓(xùn)練出一個分類器,用于目標(biāo)數(shù)據(jù)分類。上述文獻(xiàn)為本實驗提供了理論依據(jù)和指導(dǎo),本文將幾種遷移學(xué)習(xí)方法模型綜合運(yùn)用于發(fā)票數(shù)字識別,以尋求較優(yōu)解決辦法。本文結(jié)合了MNIST 數(shù)據(jù)集,通過網(wǎng)絡(luò)爬蟲獲取和處理手造發(fā)票數(shù)字的樣本集,并積極改進(jìn)Lenet-5 的網(wǎng)絡(luò)結(jié)構(gòu)以適應(yīng)該數(shù)據(jù)集。實驗結(jié)果表明,運(yùn)用Lenet-5 提取發(fā)票數(shù)字特征并用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行訓(xùn)練的方法,準(zhǔn)確率較高,且穩(wěn)定性較好。

      1 發(fā)票數(shù)字?jǐn)?shù)據(jù)集獲取與預(yù)處理

      實驗所用的發(fā)票圖片樣本均采用網(wǎng)絡(luò)爬蟲技術(shù)從各大搜索引擎網(wǎng)站爬取,類似百度、搜狐。但原始的發(fā)票圖片不能直接運(yùn)用于后續(xù)數(shù)字識別實驗?zāi)K,要經(jīng)過一系列處理步驟,如框定發(fā)票號碼區(qū)域、灰度化和二值化、投影法分割、人工篩選,得到單個數(shù)字的圖片用于后續(xù)訓(xùn)練。

      發(fā)票單號識別系統(tǒng)具有交互性,可以人為框定發(fā)票號碼區(qū)域,通過鼠標(biāo)按下、拖動、松開以確定框選區(qū)域,同時計算機(jī)追蹤鼠標(biāo)按下和松開位置,再截出對應(yīng)的發(fā)票單號區(qū)域,也稱為“感興趣”區(qū)域。灰度化和二值化可以簡化處理,提高算法分割效率?;叶然褂肞ython-opencv 包自帶函數(shù),而二值化方法有自適應(yīng)閾值二值化、均值二值化、最大類間方差法等。通過多次試驗和比較,分割算法中最大類間方差法效率最高、準(zhǔn)確率最好。二值化后,采用投影法進(jìn)行分割,數(shù)字的圖片是白底黑字,只有兩種像素,從垂直和水平方向分別得到像素分布,黑色像素個數(shù)發(fā)生較大變化說明接近有數(shù)字的區(qū)域,如此可以大致確定數(shù)字位置。結(jié)合兩個方向黑色像素分布的直方圖就可以給該數(shù)字框定一個矩形并截取出來。雖然得到的數(shù)字圖片大小不一,但可以在周圍填充空白,并使用雙線性差值形成預(yù)期大小為28×28 PX 的數(shù)字圖片,用來形成樣本集。發(fā)票圖片預(yù)處理過程如圖1 所示。

      Fig.1 The preprocessing process of invoice pictures圖1 發(fā)票圖片預(yù)處理過程演示

      為了形成統(tǒng)一的發(fā)票印刷體數(shù)字圖片數(shù)據(jù)集,需進(jìn)行一定的人工篩選。保證數(shù)據(jù)集要具有以下特點(diǎn):各類樣本比例平衡,數(shù)字要清晰得足以用肉眼分辨,數(shù)字標(biāo)簽要準(zhǔn)確。最終形成的數(shù)據(jù)集一共2 000 張圖片,包括0~9,大小為28×28 PX。發(fā)票數(shù)字?jǐn)?shù)據(jù)集示例如圖2 所示。

      Fig.2 An example of the invoice number dataset圖2 發(fā)票數(shù)字?jǐn)?shù)據(jù)集示例

      2 數(shù)字識別模塊實現(xiàn)

      本文采用上述發(fā)票數(shù)字?jǐn)?shù)據(jù)集進(jìn)行實驗,選取測試時間、識別時間和準(zhǔn)確率作為評價標(biāo)準(zhǔn)。測試平臺配置如下:操作系統(tǒng):Windows 10;使用語言:Python 3.6;深度學(xué)習(xí)框架:Tensorflow(1.14.0);硬件環(huán)境:CPU Intel i5-7200U 2.50GHz,內(nèi)存8GB。實驗結(jié)果表明,3 種方法均可用于發(fā)票印刷體數(shù)字識別,但準(zhǔn)確度有差異,穩(wěn)定性有高低。研究發(fā)現(xiàn),通過CNN 提取特征并用于SVM 的方法準(zhǔn)確率較高、識別時間較短,能夠很好地滿足發(fā)票數(shù)字識別要求,具有很好的通用性和魯棒性。

      2.1 Tradaboost 算法實現(xiàn)

      印刷體數(shù)字識別訓(xùn)練是多分類學(xué)習(xí)過程,本文采用一對一(One-Versus-One,OVO)的算法,將印刷體數(shù)字0~9一共10 個類別兩兩配對,產(chǎn)生10*9/2=45 個分類器,最后由每個分類器分類結(jié)果投票產(chǎn)生。在算法中,弱分類器選擇二分類的SVM,迭代次數(shù)設(shè)為5,采用3 次多項式核,最終分類器為每次迭代中分類器的加權(quán)和。算法的核心在于每個弱分類器都會分配一個初始權(quán)重并隨著迭代和計算誤差進(jìn)行調(diào)整。

      印刷體數(shù)字圖片大小為28×28 PX,輸入SVM 的向量大小即為784×1。訓(xùn)練圖片數(shù)量為61 200 個,其中60 000個來自于MNIST 手寫數(shù)字集,1 200 個為0~9 的帶有標(biāo)簽的印刷體數(shù)字訓(xùn)練數(shù)據(jù)。經(jīng)過測試,準(zhǔn)確率達(dá)0.967 5,訓(xùn)練和測試時間共為8 244.866 7s。

      2.2 Lenet-5 微調(diào)方法

      相比于MNIST 手寫數(shù)字集,印刷體數(shù)字樣本數(shù)量較少。但兩種數(shù)據(jù)集是相似的,具有共同特征。Lenet-5 采用MNIST 這種大型的數(shù)據(jù)集進(jìn)行訓(xùn)練,本身就具備了提取事物基礎(chǔ)特征和整體抽象特征的能力。鑒于此,考慮采用微調(diào)辦法,可以減少訓(xùn)練時間和資源,有效地提高準(zhǔn)確率,降低出現(xiàn)模型過擬合、不收斂風(fēng)險。

      Lenet-5 是用于手寫字符識別的卷積神經(jīng)網(wǎng)絡(luò),準(zhǔn)確率高、效果好。由于搜集的印刷體數(shù)字圖片大小為28×28 PX,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次需要隨之改變。本實驗中Lenet-5 的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

      Fig.3 Lenet-5 network structure in this experiment圖3 本實驗中Lenet-5 網(wǎng)絡(luò)結(jié)構(gòu)

      第一層卷積層輸入的是原始圖像,大小為28×28×1;其輸出是第二層輸入,是一個28×28×32 的節(jié)點(diǎn)矩陣;第三層卷積層的輸入矩陣大小為14×14×32,第四層池化層輸入矩陣大小為14×14×64,第五層全連接層在Lenet-5 相關(guān)文獻(xiàn)中被稱為卷積層,但實質(zhì)上與全連接層并無區(qū)別,如果將輸入矩陣中的7×7×64 的節(jié)點(diǎn)拉成一個向量,則輸入節(jié)點(diǎn)變?yōu)? 136 個,輸出節(jié)點(diǎn)為512 個;第六層全連接層輸出節(jié)點(diǎn)個數(shù)為10 個。每一層的參數(shù)個數(shù)可以用式(1)計算。

      在微調(diào)中,所有層的參數(shù)都參與訓(xùn)練,以達(dá)到更好的訓(xùn)練效果。準(zhǔn)備好的印刷體數(shù)字訓(xùn)練集用來訓(xùn)練60 次,而每一次訓(xùn)練中大小設(shè)為50,通過損失函數(shù)與學(xué)習(xí)率之間的函數(shù)關(guān)系圖,學(xué)習(xí)率確定最優(yōu)為5e-5。該實驗準(zhǔn)確率經(jīng)過反復(fù)測試,為0.997 5,整個實驗訓(xùn)練時間達(dá)165.807 6s,測試400 個樣本的時間為0.531 1s,模型可準(zhǔn)確且實時地給出發(fā)票單號識別結(jié)果。

      2.3 卷積神經(jīng)網(wǎng)絡(luò)提取特征并用于SVM

      實驗中采取第3 種方法即在Lenet-5 提取特征后,用SVM 預(yù)測獲得結(jié)果。在構(gòu)造的Lenet-5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,兩層全連接層的輸入都是一個向量。向量是由Lenet-5 的特征提取器所提取到的特征,相比而言對樣本的其它變換方法更加科學(xué),因而更不容易出現(xiàn)過擬合,還可以降低訓(xùn)練維數(shù)。使用SVM 的優(yōu)勢在于能夠解決小樣本、高維度以及卷積神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)局部極小值的問題。兩者優(yōu)勢互補(bǔ),有效減少計算復(fù)雜性,加快訓(xùn)練[12]。本文選取第一層全連接輸出、長度為512 的特征向量,而原來的樣本維數(shù)是28×28=784,起到減少訓(xùn)練時間的作用。對于印刷體數(shù)字識別十分類問題,SVM 依舊采取一對一策略,以二分類器的結(jié)果集成獲得最終多分類結(jié)果,核函數(shù)采用線性核。具體訓(xùn)練步驟如圖4 所示。

      Fig.4 The specific steps of CNN feature extraction and SVM training圖4 CNN 特征提取并用SVM 訓(xùn)練具體步驟

      該方法達(dá)到的平均準(zhǔn)確率為99.75%,與第二種方法微調(diào)的準(zhǔn)確率幾近相同,但不同的是其平均訓(xùn)練時間為0.900 2s,遠(yuǎn)遠(yuǎn)小于后者,當(dāng)輸入測試樣本時,測試時間也僅為0.303 3s。這樣的反應(yīng)速度能夠決定發(fā)票識別系統(tǒng)的實時性,再結(jié)合其準(zhǔn)確度高、魯棒性好的優(yōu)勢,符合系統(tǒng)既定目標(biāo)。經(jīng)過分析發(fā)現(xiàn),在小樣本訓(xùn)練集的情況下,這種方法優(yōu)勢更加明顯,且特征提取更加科學(xué),能在SVM 中發(fā)揮重要作用。

      3 結(jié)語

      本文主要實現(xiàn)并比較了3 種運(yùn)用在發(fā)票數(shù)字識別上的遷移學(xué)習(xí)算法。在工作前期搜集發(fā)票圖片,進(jìn)行一系列預(yù)處理步驟,獲取到用于訓(xùn)練的發(fā)票數(shù)字?jǐn)?shù)據(jù)集,高可靠度在一定程度上提高了數(shù)字識別效率。此外,經(jīng)過大量測試發(fā)現(xiàn),Tradaboost 算法準(zhǔn)確率略低于其它方法;Lenet-5的微調(diào)算法準(zhǔn)確率高,但訓(xùn)練時間和識別時間較長。而運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)Lenet-5 提取發(fā)票數(shù)字的特征并用于SVM進(jìn)行訓(xùn)練的方法,其準(zhǔn)確度高、穩(wěn)定性和實時性好,具有良好識別效果,這種算法適合用來構(gòu)建一套完整可靠的發(fā)票數(shù)字識別系統(tǒng)。本實驗靈活運(yùn)用了各種適用于小樣本數(shù)據(jù)集的遷移學(xué)習(xí)方法,在訓(xùn)練集樣本數(shù)量較小的情況下,結(jié)果已經(jīng)較優(yōu)。下一步將擴(kuò)大訓(xùn)練集,使模型具有較好穩(wěn)定性和更高準(zhǔn)確率。

      猜你喜歡
      印刷體發(fā)票準(zhǔn)確率
      電子發(fā)票全面推廣
      基于改進(jìn)LeNet-5卷積神經(jīng)網(wǎng)絡(luò)的發(fā)票識別研究
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      西夏文楷書和草書手寫體探微
      淺談小學(xué)英語字母手寫體與印刷體的教學(xué)
      關(guān)于發(fā)票顯示額外費(fèi)用的分歧
      中國外匯(2019年21期)2019-05-21 03:04:22
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      高考的時候,把字寫得像印刷體有用嗎
      东山县| 延川县| 周宁县| 景东| 长岛县| 凤庆县| 锡林浩特市| 仙游县| 拜泉县| 阳高县| 泗洪县| 沭阳县| 湟源县| 离岛区| 城步| 尚志市| 霍州市| 化隆| 普陀区| 高陵县| 平原县| 石首市| 南陵县| 广西| 浦东新区| 津南区| 琼海市| 汽车| 招远市| 阿拉善左旗| 南溪县| 德安县| 辽宁省| 湘西| 义乌市| 阳高县| 商水县| 阳泉市| 宁南县| 湘潭县| 赣榆县|