■喬冰琴 郝全梅 陸 洋
“大智移云物區(qū)”等現(xiàn)代信息技術(shù)不斷推動會計工作從核算場景向業(yè)務(wù)前端擴展和延伸。在會計信息化時代,會計人員需要憑借人的智慧制作憑證,然后再手工錄入到會計信息系統(tǒng)。通常制作憑證的流程始于對票據(jù)的整理、辨析、分類、驗證等過程,根據(jù)票據(jù)反映的業(yè)務(wù)進行會計核算,編制記賬憑證。由于票據(jù)種類眾多、數(shù)量巨大,會計程序復(fù)雜、合規(guī)稽核耗時,憑證編制專業(yè)性強、人工編制速度慢等原因,這種人工制作憑證的方式已成為數(shù)智時代下會計信息系統(tǒng)快速記賬、動態(tài)生成報表的瓶頸。
票據(jù)是一種融合表格、圖形、文本、數(shù)字、加密文本等多種要素在內(nèi)的紙質(zhì)文件或電子文件,從票據(jù)中高效、準(zhǔn)確提取有效信息是票據(jù)識別技術(shù)的首要任務(wù)。
最初的票據(jù)識別主要基于傳統(tǒng)OCR(OpticalCharacterRecognition,光學(xué)字符識別)技術(shù)實現(xiàn),而傳統(tǒng)OCR技術(shù)主要基于機器學(xué)習(xí)算法進行。傳統(tǒng)OCR技術(shù)包括對輸入圖像進行預(yù)處理、字符分割、特征提取等環(huán)節(jié)。其中,特征提取是傳統(tǒng)OCR技術(shù)的重點,它經(jīng)歷了從統(tǒng)計特征提取到結(jié)構(gòu)特征提取的演變?;诮y(tǒng)計特征的OCR技術(shù)在字符細分類識別中表現(xiàn)較差,而基于結(jié)構(gòu)特征的OCR技術(shù)雖然識別準(zhǔn)確率較高,但算法更復(fù)雜、識別速度更慢。此階段的OCR技術(shù)主要用于印刷體字符的識別場景,對于企業(yè)業(yè)務(wù)涉及到的各種復(fù)雜背景的票據(jù)識別顯得力不從心。
隨著深度學(xué)習(xí)技術(shù)在圖像識別領(lǐng)域的快速崛起,OCR票據(jù)識別技術(shù)也進入到票據(jù)識別的春天。相比基于機器學(xué)習(xí)的OCR識別技術(shù),基于深度學(xué)習(xí)的OCR識別技術(shù)在票據(jù)識別場景中有更加出色的表現(xiàn)。這種新型OCR票據(jù)識別技術(shù)不僅識別效率高,而且支持手機、高拍儀等設(shè)備拍攝的對焦不準(zhǔn)、高噪聲、低分辨率、強光影等復(fù)雜背景下的票據(jù)識別,非常適合采集企業(yè)日常業(yè)務(wù)的相關(guān)票據(jù)信息。
深度學(xué)習(xí)OCR票據(jù)識別技術(shù)通常將票據(jù)識別分為兩步:文字區(qū)域檢測和字符識別。前者負責(zé)檢測圖片中的文字區(qū)域,后者負責(zé)識別文字區(qū)域中的字符。對于企業(yè)業(yè)務(wù)票據(jù)而言,為了能夠更好地將非結(jié)構(gòu)化票據(jù)信息轉(zhuǎn)換為會計憑證中的數(shù)據(jù),還需要將識別出的字符文本轉(zhuǎn)存為結(jié)構(gòu)化信息。
依據(jù)票據(jù)識別結(jié)果對票據(jù)進行自動票種分類,這是典型的基于深度學(xué)習(xí)的圖像分類算法的應(yīng)用。自動票種分類要求事先對大量覆蓋企業(yè)內(nèi)外、各類業(yè)務(wù)不同種類的票據(jù)進行深度學(xué)習(xí)訓(xùn)練,形成分類效果精確、分類速度快的深度學(xué)習(xí)票種分類模型,以支持實際業(yè)務(wù)場景中票據(jù)掃描時高效準(zhǔn)確的票據(jù)版面識別和種類劃分。
利用基于深度學(xué)習(xí)的OCR票據(jù)識別技術(shù)識別出票據(jù)種類和票面信息后,進一步對票據(jù)進行合規(guī)性和合法性檢查,包括但不限于對增值稅票據(jù)驗真、住宿標(biāo)準(zhǔn)和交通標(biāo)準(zhǔn)查驗、人員歸屬部門檢查、票據(jù)稽核、報銷核驗、發(fā)票重復(fù)報銷、是否本體企業(yè)票據(jù)等。
確定票據(jù)種類和票面信息后,從票據(jù)類別判斷、業(yè)務(wù)類別判斷、業(yè)務(wù)場景判斷,直到會計憑證生成的流程中,各環(huán)節(jié)都貫穿了基于會計業(yè)務(wù)規(guī)則的專家系統(tǒng)的實現(xiàn)原理。
從票據(jù)到憑證的過程中,會計人員需要依據(jù)國家相關(guān)政策和法規(guī)來編制記賬憑證,這體現(xiàn)了人類的智慧。從票據(jù)到自動生成憑證需要依賴財會專家的專業(yè)領(lǐng)域知識和會計核算方法的定義,基于行業(yè)財會專家的最佳實踐和語義分析技術(shù),提煉從票據(jù)到憑證的專家系統(tǒng)模型和業(yè)務(wù)規(guī)則,實現(xiàn)依據(jù)票據(jù)信息自動確定與業(yè)務(wù)對應(yīng)的借貸方科目、明細科目、發(fā)生額及輔助賬核算等信息。
圖1給出了基于票據(jù)識別自動生成憑證的設(shè)計思路。當(dāng)一筆經(jīng)濟業(yè)務(wù)發(fā)生時,從企業(yè)取得或開具票據(jù)開始,經(jīng)歷票據(jù)影像環(huán)節(jié)的文本自動識別、自動票種分類后,再依據(jù)專家規(guī)則將票據(jù)歸入不同的票據(jù)類型、業(yè)務(wù)類型、業(yè)務(wù)場景,再與憑證模板進行匹配,在為每張票據(jù)各自生成分錄的基礎(chǔ)上,利用智能分析方法對多筆分錄進行抵消和合并,形成最終的記賬憑證。
圖1 基于票據(jù)識別自動生成憑證的設(shè)計思路
基于智能票據(jù)識別自動生成憑證的流程始于企業(yè)取得或開具的原始票據(jù),對原始票據(jù)影像進行票種自動分類、票據(jù)文本提取、業(yè)務(wù)校驗后,進入專家系統(tǒng)的規(guī)則匹配階段。若未建立票據(jù)規(guī)則匹配模型,則進入規(guī)則模型建立子流程;若已建立票據(jù)規(guī)則匹配模型,則進入業(yè)務(wù)票據(jù)憑證生成子流程?;谥悄芷睋?jù)識別自動生成憑證的流程如圖2所示。(本流程僅針對企業(yè)中有票據(jù)的經(jīng)濟業(yè)務(wù)進行憑證自動生成流程設(shè)計,不涉及無票據(jù)經(jīng)濟業(yè)務(wù)的憑證生成。)
圖2 基于智能票據(jù)識別自動生成憑證流程圖
票種判定是將當(dāng)前所識別的票據(jù)劃分到系統(tǒng)預(yù)設(shè)票種中,這是基于深度學(xué)習(xí)技術(shù)自動對票據(jù)進行票種劃分的過程。通常企業(yè)取得或開具的票據(jù)有增值稅專用發(fā)票、增值稅普通發(fā)票、增值稅電子普通發(fā)票、銀行回單、行程單、動車票、報銷單、入庫單、收款收據(jù)等,這些票據(jù)的模板均事先內(nèi)置在系統(tǒng)中。當(dāng)進行票據(jù)識別時,基于事先訓(xùn)練好的深度學(xué)習(xí)票種判定算法就可將該票據(jù)劃分到系統(tǒng)預(yù)定義的某個票種。
提取票據(jù)文本前,需要先精準(zhǔn)定位票據(jù)欄位。例如,增值稅專用發(fā)票欄位包括發(fā)票代碼欄位、發(fā)票抬頭欄位、發(fā)票號碼欄位、發(fā)票聯(lián)次欄位、銷售方名稱欄位、銷售方賬號欄位、采購方名稱欄位、采購方賬號欄位、金額欄位、稅額欄位、價稅合計欄位等。在票據(jù)欄位定位的基礎(chǔ)上,利用深度學(xué)習(xí)OCR票據(jù)識別技術(shù)將各欄位中的具體文本進行提取,并將提取到的文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化信息,形成最終的票據(jù)識別結(jié)果。
針對提取到的票據(jù)信息,進一步進行票據(jù)驗真、業(yè)務(wù)邏輯檢驗、取值校驗、平衡校驗等操作,確保所提取票據(jù)信息的正確性。
在根據(jù)票據(jù)識別結(jié)果自動生成憑證前,需要先根據(jù)企業(yè)日常業(yè)務(wù)及對應(yīng)票據(jù)的特征進行業(yè)務(wù)票據(jù)規(guī)則建模。業(yè)務(wù)票據(jù)規(guī)則模型一旦建立完成,以后就可以通過對業(yè)務(wù)票據(jù)的識別,依據(jù)業(yè)務(wù)票據(jù)規(guī)則模型自動生成憑證。
業(yè)務(wù)票據(jù)規(guī)則建模本質(zhì)是將人類專家的憑證生成方法輸入到計算機中,形成憑證生成規(guī)則。建模過程包括票據(jù)類別定義、業(yè)務(wù)類別定義、業(yè)務(wù)場景定義及憑證模板定義四個環(huán)節(jié)。
1.票據(jù)類別定義本質(zhì)是設(shè)置票據(jù)篩選規(guī)則,以判斷某票據(jù)是否是本體企業(yè)的相關(guān)票據(jù)。
2.業(yè)務(wù)類別定義是將業(yè)務(wù)與相關(guān)票據(jù)建立對應(yīng)關(guān)系,當(dāng)系統(tǒng)識別到相關(guān)票據(jù)時,系統(tǒng)就能自動判斷出發(fā)生了該筆經(jīng)濟業(yè)務(wù)。
3.業(yè)務(wù)場景定義將實際經(jīng)濟業(yè)務(wù)與系統(tǒng)中預(yù)定義的業(yè)務(wù)類別進行關(guān)聯(lián),實際發(fā)生的某筆業(yè)務(wù)可能涉及系統(tǒng)的多個業(yè)務(wù)類別,業(yè)務(wù)場景定義可將一個或多個業(yè)務(wù)類別組合到一個業(yè)務(wù)場景下,為后續(xù)針對此業(yè)務(wù)場景自動生成憑證作好準(zhǔn)備。
4.每一個業(yè)務(wù)場景都應(yīng)有對應(yīng)的憑證模板,憑證模板將為業(yè)務(wù)場景生成具體的憑證。憑證模板定義流程包括定義憑證頭、定義會計分錄、定義輔助核算、定義分錄合并及排序方式等。根據(jù)實際業(yè)務(wù)需要還可以定義輔助核算項,例如客戶、供應(yīng)商、部門、職員、項目等,其取值都可自動地直接從相應(yīng)的票據(jù)信息中進行提取。
業(yè)務(wù)票據(jù)憑證生成流程包括匹配票據(jù)類型、匹配業(yè)務(wù)類型、關(guān)聯(lián)業(yè)務(wù)場景、調(diào)用憑證模板等環(huán)節(jié),最后進行智能合并形成最終的記賬憑證。
1.匹配票據(jù)類型是根據(jù)識別到的票據(jù)信息與事先定義好的票據(jù)類別進行對比,以將該票據(jù)歸入某種票據(jù)類別。
2.匹配業(yè)務(wù)類型是根據(jù)票據(jù)信息和所屬票據(jù)類別信息與事先定義好的業(yè)務(wù)類別進行對比,以將該票據(jù)歸入某種業(yè)務(wù)類別。
3.關(guān)聯(lián)業(yè)務(wù)場景是將某業(yè)務(wù)及相應(yīng)票據(jù)與事先定義好的業(yè)務(wù)場景進行匹配,以確定該經(jīng)濟業(yè)務(wù)對應(yīng)的業(yè)務(wù)場景。
4.調(diào)用憑證模板是調(diào)用與業(yè)務(wù)場景對應(yīng)的憑證模板,根據(jù)事先定義好的憑證模板生成對應(yīng)的憑證。
5.智能合并形成最終的記賬憑證。根據(jù)票據(jù)識別結(jié)果進行憑證模板匹配時,一般一張票據(jù)就會形成一筆分錄,多張票據(jù)會形成多筆分錄。在涉及由多張票據(jù)形成一筆憑證的情況下或者在批量生成憑證時,智能合并功能可按票據(jù)批次對多筆分錄進行合并,最終形成對應(yīng)不同業(yè)務(wù)的憑證。
現(xiàn)以差旅費報銷業(yè)務(wù)為例,說明智能票據(jù)識別自動生成憑證技術(shù)的應(yīng)用成效。假設(shè)某商貿(mào)有限公司行政部職員張某和吳某分別于2020年9月某日前往北京和天津出差參加會議,并于當(dāng)月進行差旅費報銷。財務(wù)部共收到12張原始單據(jù):4張增值稅普通發(fā)票、2張動車票、2張行程單、2張差旅費報銷單及2張的士票。若差旅費報銷業(yè)務(wù)的業(yè)務(wù)票據(jù)規(guī)則建模活動已完成,則依據(jù)智能票據(jù)識別技術(shù)自動生成憑證的流程和結(jié)果如下。
首先對本次兩個差旅費報銷業(yè)務(wù)的票據(jù)進行手工批次標(biāo)注(例如,批次號分別為A和B),以區(qū)別不同經(jīng)辦人的報銷業(yè)務(wù)。然后對本次取得的12張原始單據(jù)進行智能票據(jù)識別,識別結(jié)果如圖3所示。
圖3 業(yè)務(wù)票據(jù)識別結(jié)果
對智能票據(jù)識別的結(jié)果進行審核,審核通過后,系統(tǒng)將自動批量生成差旅費報銷憑證,如圖4所示。
圖4 自動批量生成的憑證
智能票據(jù)識別自動生成憑證的原理是利用深度學(xué)習(xí)OCR票據(jù)識別技術(shù)從票據(jù)中提取票據(jù)信息,并根據(jù)票據(jù)信息自動生成憑證。從識別好的票據(jù)信息到憑證生成利用了財會專家的領(lǐng)域知識和規(guī)則匹配技術(shù),根據(jù)事先定義好的票據(jù)類別、業(yè)務(wù)類型、業(yè)務(wù)場景和憑證模板的種種規(guī)則,逐步把票據(jù)歸入對應(yīng)的票據(jù)類別,再歸入對應(yīng)的業(yè)務(wù)類型,再匹配對應(yīng)的業(yè)務(wù)場景,最后再調(diào)用對應(yīng)的憑證模板,直到憑證生成。憑證生成時,一張票據(jù)對應(yīng)生成一筆分錄。對于由多張票據(jù)形成一張憑證的業(yè)務(wù),需要對生成的多筆分錄進行借貸抵消和合并,最后形成一張記賬憑證。如果要批量生成多張憑證,可先對票據(jù)進行批次標(biāo)注后再進行識別,然后對生成的分錄按批次進行合并,就可自動生成多張憑證。智能票據(jù)識別自動生成憑證技術(shù)借助人工智能的深度學(xué)習(xí)技術(shù)和專家系統(tǒng)規(guī)則匹配技術(shù),構(gòu)建了一種依據(jù)票據(jù)自動生成會計憑證的系統(tǒng),實現(xiàn)了從票據(jù)到憑證這一過程的流程化、透明化、自動化和智能化,大幅減輕會計人員的低級重復(fù)性勞動,提高會計記賬工作效率,高效履行會計核算職能,促進核算業(yè)務(wù)的高速化和低成本化;同時,這一技術(shù)規(guī)范了會計憑證的生成,減少會計工作中的錯賬現(xiàn)象和違規(guī)行為,有利于會計人員騰出精力轉(zhuǎn)型管理會計,從事更有意義的管理事務(wù),參與企業(yè)決策;并且,這一技術(shù)還有利于業(yè)務(wù)流程與財務(wù)核算流程的打通和銜接,在企業(yè)業(yè)財數(shù)字化改造的基礎(chǔ)上,促進從業(yè)務(wù)到財務(wù)的智能一體化財務(wù)的形成。