• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于MATLAB的票據(jù)自動(dòng)報(bào)賬系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

      2018-11-19 11:44:40趙懿琨馬劼聰陳仰麗余曉佳黃國偉
      現(xiàn)代農(nóng)業(yè)研究 2018年10期
      關(guān)鍵詞:自動(dòng)化

      趙懿琨 馬劼聰 陳仰麗 余曉佳 黃國偉

      【摘 要】 目前,國內(nèi)會(huì)計(jì)師仍采用人工方式進(jìn)行票據(jù)數(shù)據(jù)錄入,完成賬目的處理,錯(cuò)誤率高且效率低,針對該問題,本系統(tǒng)開發(fā)出一款對發(fā)票實(shí)現(xiàn)自動(dòng)化信息識(shí)別并報(bào)賬的軟件,實(shí)現(xiàn)從數(shù)據(jù)采集到報(bào)賬完成一體的自動(dòng)化服務(wù)。本系統(tǒng)在MATLAB軟件上運(yùn)行,結(jié)合光學(xué)識(shí)別OCR引擎Tesseract軟件實(shí)現(xiàn)功能,基礎(chǔ)功能包括:票據(jù)圖像的無線收發(fā)、票據(jù)圖像信息提取處理與識(shí)別,自動(dòng)生成財(cái)務(wù)報(bào)表等功能。此外,為了提高系統(tǒng)的可靠性,增加了如多段關(guān)鍵信息截取、圖像的傾斜校正、數(shù)學(xué)形態(tài)學(xué)處理等技術(shù)。

      【關(guān)鍵詞】 自動(dòng)化;Tesseract;OCR;MATLAB

      [Abstract] At present, domestic accountants still use manual way to input bill data and complete the account processing. The error rate is high and the efficiency is low. Aiming at this problem, this system develops a software to realize automatic information identification and account reporting for invoices, which realizes the automation service from data collection to account reporting. The system runs on MATLAB software and combines with Tesseract software of optical recognition 0C engine to realize the functions. The basic functions include: wireless receipt and dispatch of bills image, information extraction and recognition of bills image, automatic generation of financial statements and other functions. In addition, in order to improve the reliability of the system, such as multi-segment key information interception, Image tilt correction, mathematical morphology processing and other technologies are added.

      [Keywords] automation; tesseract ; OCR; MATLAB

      1 系統(tǒng)整體概述

      本軟件主要在PC 及其兼容機(jī)上運(yùn)行,使用WINDOWS 7以上操作系統(tǒng)。成功安裝軟件并配置相應(yīng)的系統(tǒng)環(huán)境后,在MATLAB上運(yùn)行,利用FTP傳輸協(xié)議接收票據(jù)圖像,根據(jù)用戶需要制作不同票據(jù)圖像模板,自動(dòng)批量準(zhǔn)確提取相關(guān)區(qū)域圖像,對圖像進(jìn)行預(yù)處理后,結(jié)合光學(xué)識(shí)別引擎Tesseract軟件,對圖像中的字符信息進(jìn)行識(shí)別,并將結(jié)果制成匯總表格,根據(jù)《小企業(yè)會(huì)計(jì)準(zhǔn)則》和手工報(bào)賬標(biāo)準(zhǔn)生成財(cái)務(wù)報(bào)表。

      票據(jù)自動(dòng)報(bào)賬系統(tǒng)軟件利用MATLAB進(jìn)行編程,核心部分包括票據(jù)圖像的無線收發(fā)、信息提取處理與識(shí)別,自動(dòng)生成財(cái)務(wù)報(bào)表等功能。票據(jù)圖像信息提取處理與識(shí)別部分包括票據(jù)圖像自動(dòng)化分類、圖像的傾斜校正、關(guān)鍵信息的截取、圖像二值化和數(shù)學(xué)形態(tài)學(xué)處理以及對票據(jù)信息的OCR識(shí)別,并儲(chǔ)存在TXT文件中;自動(dòng)報(bào)賬部分用于完成最后的報(bào)賬任務(wù),遵循《小企業(yè)會(huì)計(jì)準(zhǔn)則》的做賬原則,按一定規(guī)律進(jìn)行報(bào)賬,同時(shí)提供導(dǎo)出功能便于輸出紙質(zhì)報(bào)表和核查財(cái)務(wù)數(shù)據(jù)。項(xiàng)目整體系統(tǒng)框圖如圖1所示。

      2 系統(tǒng)實(shí)現(xiàn)部分

      2.1 票據(jù)圖像的無線收發(fā)

      2.1.1 圖像輸入讀取 在filezilla軟件的服務(wù)器端開放“download”及“upload”接收、傳送圖像??梢允褂胕mread,dir函數(shù)檢測指定目錄下圖像的張數(shù),設(shè)置for循環(huán)函數(shù)自動(dòng)讀取完目錄下所有圖像。

      在此過程中,需要檢測圖像是否正向讀取,若不可取,則反饋給圖像輸入模塊,若可取,則進(jìn)行下一步操作。在這個(gè)過程中,當(dāng)圖像不被讀取反饋回去時(shí),下一步操作中將出現(xiàn)圖像空缺,在下一級(jí)讀取圖像時(shí),添加判別出錯(cuò)算法。

      2.1.2 圖像初級(jí)處理 基于無線接收到的圖像可直接根據(jù)MATLAB處理匹配的命名方式進(jìn)行批量命名和文件建立,需要考慮圖像是否可用,接收到的圖像基于以下三種處理方式進(jìn)行觸及處理:

      (1)正反面(顛倒):根據(jù)對發(fā)票右上角的“二維碼”進(jìn)行定位判斷,可通過canny算子提取“二維碼”邊緣,計(jì)算統(tǒng)計(jì)得出灰度值的平均值,可連接起被分隔開的區(qū)域,判斷該區(qū)域是否存在對應(yīng)寬度信息,以此判斷圖像是正面或顛倒,如果判定結(jié)果為顛倒,可以通過imrotate語句將圖像旋轉(zhuǎn)180度保存以便下一步處理。

      (2)里外面:如果發(fā)票的上下方位都檢測不到“二維碼”區(qū)域,則表明該圖像放置反了,可以反饋回硬件系統(tǒng),提醒翻轉(zhuǎn)。

      (3)拍攝模糊:當(dāng)將圖像進(jìn)行二值化、中值濾波后,發(fā)現(xiàn)無法清晰讀取所提取的“二維碼”,則該圖像拍攝模糊,反饋給硬件系統(tǒng),提醒硬件重拍。

      2.1.3 圖像識(shí)別反饋 以帶有“二維碼”的增值稅票據(jù)圖像為例,將左上角的“二維碼”識(shí)別結(jié)果作為判定票據(jù)放置是否正確的依據(jù),利用閾值分割提取出“二維碼”所在區(qū)域,通過掃描得到“二維碼”的邊角坐標(biāo)。

      調(diào)用MATLAB中“width”函數(shù)對100張票據(jù)“二維碼”所在區(qū)域的測算得到“二維碼”區(qū)域平均寬度值為385像素,定義識(shí)別到圖像中黑色邊角寬度像素區(qū)間位于375~400時(shí),票據(jù)圖像放置正確,圖像質(zhì)量合格,儲(chǔ)存進(jìn)“upload”文件夾,當(dāng)識(shí)別到像素區(qū)間不符合要求時(shí),將該票據(jù)圖像儲(chǔ)存進(jìn)“待反饋文件夾”。

      將不合格的票據(jù)圖像序號(hào)通過filezilla無線傳輸發(fā)送到上一級(jí)的票據(jù)圖像輸入模塊。將“upload”文件夾圖像的序號(hào)儲(chǔ)存成txt文檔,通過filezilla平臺(tái)反饋回上一級(jí)。

      2.2 票據(jù)圖像信息提取處理與識(shí)別

      2.2.1 票據(jù)圖像信息提取處理 無線接收票據(jù)圖像后,軟件利用MATLAB批量處理票據(jù),首先截取有效票據(jù)區(qū)域,然后截取票據(jù)中有效數(shù)據(jù)區(qū)域;接著逐漸增加角度調(diào)整函數(shù),自動(dòng)調(diào)整圖片,不同票據(jù)用同一算法實(shí)現(xiàn);再對截取部分進(jìn)行灰度化,腐蝕膨脹處理,以便于識(shí)別。

      2.2.2 識(shí)別 本設(shè)計(jì)通過第三方j(luò)TessBoxEditor工具訓(xùn)練字庫,字符識(shí)別過程中OCR也在進(jìn)行自適應(yīng)學(xué)習(xí),不斷拓展字庫,識(shí)別更多的字符,從而提高識(shí)別率。通過tesseract平臺(tái)上的jTessBoxEditor工具來處理修正字庫,通過不斷識(shí)別更新字庫,積累字庫的信息。

      2.3 自動(dòng)生成財(cái)務(wù)報(bào)表

      這一步分為四個(gè)模塊,分別是數(shù)據(jù)導(dǎo)入模塊、數(shù)據(jù)識(shí)別模塊、數(shù)據(jù)判斷模塊和表格生成模塊。

      總工作流程:如圖2所示,首先導(dǎo)入存放OCR識(shí)別結(jié)果的txt文本,將這些信息匯總成表格,然后在匯總表的基礎(chǔ)上,加入會(huì)計(jì)科目等類別,對收集到的信息進(jìn)行分類處理,完善匯總表格成為會(huì)計(jì)信息總表,最后在會(huì)計(jì)信息總表上提取數(shù)據(jù),經(jīng)過統(tǒng)計(jì)歸類,按實(shí)際需求,編制財(cái)務(wù)表格。

      數(shù)據(jù)導(dǎo)入模塊設(shè)計(jì):在本模塊中,txt文件分為七類,對應(yīng)發(fā)票上的七類有效信息。因?yàn)镺CR識(shí)別對字符和數(shù)字的編碼方式不同,七類txt文件中會(huì)出現(xiàn)兩種編碼格式,一種是ANSI,另一種是utf-8。針對不同的編碼格式,MATLAB在將txt文件里的內(nèi)容導(dǎo)入到匯總表格時(shí),需要運(yùn)行不同的處理語句,確保txt文件里的內(nèi)容能被正確導(dǎo)入。

      數(shù)據(jù)識(shí)別模塊設(shè)計(jì):本模塊的功能是在匯總表上處理錯(cuò)誤的數(shù)據(jù),完成對匯總表的自動(dòng)修正。完成數(shù)據(jù)的導(dǎo)入后,因?yàn)镺CR識(shí)別可能存在錯(cuò)誤,所以數(shù)據(jù)識(shí)別模塊的工作就是識(shí)別并且定位匯總表格上錯(cuò)誤的數(shù)據(jù)?;诒驹O(shè)計(jì)對于報(bào)賬系統(tǒng)自動(dòng)化的目標(biāo),在構(gòu)想處理方案時(shí),希望做到的是發(fā)現(xiàn)錯(cuò)誤并且能夠自動(dòng)改正錯(cuò)誤。因此也引入了相似度算法,對可能出現(xiàn)的一些錯(cuò)誤實(shí)現(xiàn)自動(dòng)糾正,或者是為使用者手動(dòng)糾正提供參考。

      數(shù)據(jù)判斷模塊:在匯總表的基礎(chǔ)上,通過對表上數(shù)據(jù)的分析判斷得到借貸關(guān)系和會(huì)計(jì)科目。判斷會(huì)計(jì)科目時(shí)額外需要關(guān)系數(shù)據(jù)庫的輔助。得到這兩項(xiàng)信息后,即完成了由匯總表到會(huì)計(jì)信息總表的過程。

      表格生成模塊設(shè)計(jì):在本設(shè)計(jì)中,輸出的財(cái)務(wù)表格有三種,分別是資產(chǎn)負(fù)債表、科目余額表和利潤表。在會(huì)計(jì)信息總表的基礎(chǔ)上,對表格上的金額依照會(huì)計(jì)科目和借貸關(guān)系進(jìn)行統(tǒng)計(jì)和歸類,將統(tǒng)計(jì)歸類后的信息分別輸出到三種財(cái)務(wù)表格的相應(yīng)模板上,完成財(cái)務(wù)表格的編制。如果在以上模塊中識(shí)別出錯(cuò)誤并無法修正時(shí),則需要人工參與修正。

      3 系統(tǒng)測試部分

      3.1 識(shí)別部分測試結(jié)果

      漢字89%、符號(hào)98%、字母98%、數(shù)字96%,通過測試結(jié)果分析可以看出,數(shù)字的識(shí)別準(zhǔn)確率已比較高,但文字識(shí)別準(zhǔn)確率還有待提高,ocr識(shí)別字庫需要不斷訓(xùn)練積累,需要一定的時(shí)間,需要不斷擴(kuò)充識(shí)別字庫來滿足需求。二維碼測試結(jié)果:發(fā)票二維碼內(nèi)的信息都是符號(hào)和數(shù)字,符號(hào)和數(shù)字識(shí)別率已到達(dá)96%。

      識(shí)別速度達(dá)到OCR識(shí)別每張圖片2.1s,二維碼識(shí)別每張圖片1.95s

      3.2 票據(jù)提取部分測試結(jié)果

      經(jīng)過測試發(fā)現(xiàn)并解決問題,測得本設(shè)計(jì)圖像處理平均時(shí)間為396秒

      4 總結(jié)

      本課題通過使用Matlab軟件與Tesseract開源OCR引擎進(jìn)行設(shè)計(jì)研究,對會(huì)計(jì)人員沒有完整的自動(dòng)化發(fā)票單據(jù)報(bào)賬軟件這一問題做出嘗試,通過對OCR引擎的熟悉與訓(xùn)練,通過使用Matlab軟件進(jìn)行程序的開發(fā),實(shí)現(xiàn)了從發(fā)票單據(jù)的圖片輸入、輸入圖片處理、有效數(shù)據(jù)的截取、數(shù)據(jù)的錄入到通過程序進(jìn)行自動(dòng)報(bào)賬,這樣一系列完整的功能,證明了全流程的自動(dòng)化報(bào)賬軟件實(shí)現(xiàn)是非常有前景的。

      參考文獻(xiàn):

      [1] 安然.基于OCR技術(shù)的原始憑證電子化管理系統(tǒng)的設(shè)計(jì)與 實(shí)現(xiàn)[D].吉林:吉林大學(xué),2016.

      [2] 陳東霞.淺談高校財(cái)務(wù)預(yù)約報(bào)賬系統(tǒng)的構(gòu)建[J].會(huì)計(jì)之友, 2012,(35):127-128.

      [3] 陳隆偉,張曉瓊,黃昌勇.會(huì)計(jì)電算化全通用理論與會(huì)計(jì)軟 件的全通用[A].財(cái)會(huì)月刊,2005,(1):5-6.

      [4] 鄧?yán)^忠,張?zhí)X.數(shù)字圖像處理技術(shù)[M].廣州:廣東科技出 版社,2005.

      [5] 吳狄,張冠偉.基于二維碼識(shí)別技術(shù)的工業(yè)企業(yè)設(shè)備管理 系統(tǒng)的開發(fā)與應(yīng)用[J]].數(shù)字技術(shù)與應(yīng)用,2015,06.

      [6] 祝錫萍,企業(yè)財(cái)務(wù)系統(tǒng)[M].杭州:浙江大學(xué)出版社,2009: 2-3.

      猜你喜歡
      自動(dòng)化
      國內(nèi)焊接設(shè)備市場現(xiàn)狀及發(fā)展趨勢研究
      供電企業(yè)電力自動(dòng)化主站系統(tǒng)研究
      錦界煤礦連采膠帶機(jī)集控系統(tǒng)的介紹
      供熱站自動(dòng)控制系統(tǒng)中PLC的應(yīng)用
      AGV小車在白酒行業(yè)自動(dòng)化立體倉庫中的應(yīng)用
      中國市場(2016年36期)2016-10-19 03:40:15
      電氣工程及其自動(dòng)化問題與對策
      我國機(jī)械設(shè)計(jì)制造及其自動(dòng)化的現(xiàn)狀及發(fā)展趨勢
      淺論節(jié)能設(shè)計(jì)理念在機(jī)械制造與自動(dòng)化中的應(yīng)用
      簡析火力發(fā)電廠熱工自動(dòng)化儀表應(yīng)用及故障排除方法
      配網(wǎng)自動(dòng)化實(shí)用化模式建設(shè)及系統(tǒng)運(yùn)行
      闽侯县| 永福县| 都江堰市| 湘潭县| 福海县| 和田市| 大石桥市| 阿拉尔市| 中西区| 文成县| 恩施市| 广汉市| 龙口市| 兴业县| 汶川县| 瓮安县| 忻城县| 黄梅县| 九江县| 凤阳县| 云和县| 伊春市| 河曲县| 明星| 宕昌县| 靖远县| 抚宁县| 那曲县| 黔江区| 繁昌县| 玉田县| 米易县| 黑河市| 疏附县| 南充市| 浙江省| 同心县| 许昌市| 盐山县| 张家界市| 逊克县|