• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)驅動的審計知識庫建設與應用

      2022-02-28 02:04:09黃佳佳李鵬偉徐超
      財會月刊·上半月 2022年2期
      關鍵詞:知識圖譜大數(shù)據(jù)

      黃佳佳 李鵬偉 徐超

      【摘要】國家審計的數(shù)據(jù)基礎和審計方式隨著大數(shù)據(jù)的發(fā)展而發(fā)生改變, 其中文本分析技術逐漸深入應用到審計工作中。 由于審計行業(yè)的領域專業(yè)性, 有必要構建審計知識庫以提高文本挖掘的準確性和可解釋性。 以大規(guī)模審計文本數(shù)據(jù)為驅動、以專家指導思想為基礎、以自然語言處理為技術手段構建審計知識庫, 該知識庫包括審計領域詞典、領域文本訓練語料與詞向量模型、審計領域知識圖譜, 進而探討審計知識庫在審計工作中的具體應用。

      【關鍵詞】審計知識庫;大數(shù)據(jù);領域詞典;詞向量;知識圖譜

      【中圖分類號】 F239.1? ? ?【文獻標識碼】A? ? ? 【文章編號】1004-0994(2022)03-0101-7

      一、引言

      在信息爆炸的時代背景下, 審計對象所產(chǎn)生的數(shù)據(jù)量日益龐大, 進而對現(xiàn)有審計數(shù)據(jù)基礎和審計分析方法提出了新要求。 國家審計署相關領導也指出, 應推進以大數(shù)據(jù)為核心的審計信息化建設, 構建大數(shù)據(jù)審計工作模式, 積極開展審計大數(shù)據(jù)的綜合利用[1] 。 討論和運用大數(shù)據(jù)思想與技術創(chuàng)新當前審計工作模式就不可避免地涉及對審計文本大數(shù)據(jù)的處理。 現(xiàn)有關于大規(guī)模文本數(shù)據(jù)的研究和應用大多是采用互聯(lián)網(wǎng)文本, 如微博、新聞、網(wǎng)絡評論等, 而采用審計領域相關文本的研究相對較少。 人工智能領域專家認為, 有效利用大數(shù)據(jù)價值的主要任務不是獲取越來越多的數(shù)據(jù), 而是從數(shù)據(jù)中挖掘知識, 對知識進行有效的組織關聯(lián), 并用其解決實際問題[2] 。 從大數(shù)據(jù)技術與不同領域結合應用的效果來看, 大數(shù)據(jù)技術的應用效果也與領域高度相關, 即當擁有領域相關知識支撐時, 往往文本挖掘技術的應用效果更佳。 本文總結分析了審計文本數(shù)據(jù)的來源及特點, 認為審計文本具有領域特殊性, 因此有必要構建審計領域知識庫, 使得采用大數(shù)據(jù)分析方法和人工智能文本分析方法分析審計文本時準確性更高、可理解性更強。

      在大數(shù)據(jù)時代, 知識圖譜不僅改變了搜索模式, 也改變了文本分析技術。 知識圖譜與語義分析相結合可使得語義搜索更加準確、智能推薦更稱心如意, 也可以實現(xiàn)自動問答、人機對話等新智能體驗。 審計作為一項具有較多專家經(jīng)驗參與其中的工作, 基于大數(shù)據(jù)構建的審計知識圖譜可以幫助審計人員快速排查審計風險點、有效提升審計工作效率、降低審計風險, 進而實現(xiàn)審計智能化。 基于此, 本文提出了一種大數(shù)據(jù)驅動的審計領域知識庫構建方法(該審計知識庫可對外開放共享), 并探討了其在審計業(yè)務中的應用方式。

      二、文獻綜述

      學者們普遍認為審計所用的數(shù)據(jù)早已超越了統(tǒng)計和抽樣調查, 審計數(shù)據(jù)具備海量、異構、多樣等大數(shù)據(jù)特性[1,3] 。 秦榮生[4] 認為大數(shù)據(jù)有助于實現(xiàn)審計監(jiān)督全覆蓋, 而數(shù)據(jù)綜合分析可幫助提升解釋審計問題和風險的深度與廣度。 在審計技術方面, 有學者開始考慮文本挖掘在審計領域的應用。 張志恒等[5] 構建了審計領域的文本挖掘框架, 并探討了若干種文本挖掘方法在審計領域的應用, 為文本數(shù)據(jù)審計提供了新方向和新思路。 此外, 也有學者將文本挖掘方法應用到審計實務中, 主要包括文本關鍵詞抽取與標簽云展示、文本相似度計算、文本情感分析、關聯(lián)規(guī)則挖掘等[3,6] , 采用這些技術的目的是從被審計單位的相關文件中發(fā)現(xiàn)審計疑點、總結投訴人員特點、評估被審計單位政策執(zhí)行情況、評估銀行信貸申請報告的情感傾向、挖掘上市公司的交易網(wǎng)絡和審計費用與盈余質量的關系等[3,6,7] 。

      當前審計文本數(shù)據(jù)挖掘主要是直接利用現(xiàn)有文本挖掘算法, 鮮有研究深入考慮審計領域專業(yè)性對文本挖掘方法的挑戰(zhàn)。 顧圣杰等[8] 探討了知識圖譜在審計風險識別方面的應用價值, 認為基于專家先驗知識的知識圖譜能夠提升審計效率、實現(xiàn)審計智能化和審計風險點全覆蓋。 在通用領域, 國內外學者已構建的代表性知識庫包括Freebase[9] 、WordNet[10] 等。 但這些知識庫并非為審計領域專門構建的, 因而其可能沒有包含審計領域專業(yè)詞匯, 以及這些詞匯/概念的語義信息及相互之間的關系。

      三、審計大數(shù)據(jù)與文本數(shù)據(jù)審計

      大數(shù)據(jù)時代的到來給政府和企業(yè)的財務管理和審計工作都帶來了巨大變化。 這種變化不僅意味著審計數(shù)據(jù)規(guī)模越來越大, 而且意味著審計技術與方法具有大數(shù)據(jù)特征。

      1. 審計大數(shù)據(jù)。 多數(shù)學者認為, 進入大數(shù)據(jù)時代后, 審計環(huán)境、審計數(shù)據(jù)與審計技術等都需要或者正在發(fā)生較大變革, 審計正在進入審計大數(shù)據(jù)時代[1] 。 那么, 什么是審計大數(shù)據(jù)? 呂天陽等[1] 認為, 審計大數(shù)據(jù)是“在大數(shù)據(jù)時代開展審計監(jiān)督所需的審計對象自身或與其相關對象的各類數(shù)據(jù)及其分析手段的統(tǒng)稱”。

      由于審計對象自身提供的財務數(shù)據(jù)可能存在造假等問題, 因而無法滿足審計需求。 當前的合規(guī)性審計所需數(shù)據(jù)越來越多樣化、多源化。 此外, 國家審計也在關注績效審計、政策落實跟蹤審計等。 這些審計內容涉及的數(shù)據(jù)來源范圍廣、覆蓋面大, 使得國家審計需要在原有審計數(shù)據(jù)基礎上進一步擴大數(shù)據(jù)來源, 綜合使用不同部門提供的數(shù)據(jù), 如財政部、商務部、國家統(tǒng)計局等。

      可以說審計大數(shù)據(jù)的數(shù)據(jù)來源是以領域政務大數(shù)據(jù)為基礎, 并包括與各審計對象相關的社會大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)。 這些數(shù)據(jù)來源不同、類型各異, 整合和有效利用大規(guī)模的審計數(shù)據(jù)變得更加困難, 進而對審計技術提出了更高的要求, 即以關系數(shù)據(jù)為基礎的傳統(tǒng)SQL查詢分析手段已顯得捉襟見肘。 趙琛[11] 認為, 面向非結構化文本、面向對象間網(wǎng)狀關系的智能分析方式是未來審計技術創(chuàng)新的重要方向。

      2. 文本數(shù)據(jù)審計。 在審計大數(shù)據(jù)時代, 海量的多源異構數(shù)據(jù)極大地拓展了審計數(shù)據(jù)的范圍。 例如, 在企業(yè)內部審計中, 審計對象已不再局限于與被審計單位財務相關的數(shù)據(jù), 被審計單位內部的規(guī)章制度、會議記錄、合同通知等文本數(shù)據(jù)也是重點審計對象; 此外, 與被審計單位相關的互聯(lián)網(wǎng)文本, 如單位新聞、股票評論等也具有重要的輔助價值[5] 。 通過對非結構化文本的分析挖掘, 可以更加全面地評估被審計單位的內部控制情況、違法違規(guī)問題等。

      在面向文本數(shù)據(jù)的審計工作中, 常用的文本挖掘技術包括文本檢索、關聯(lián)特征挖掘、分類、聚類、提取關鍵詞、構建文本摘要、結果可視化等。 例如: 通過文本檢索技術可使審計人員快速找到相關法律法規(guī), 也可快速檢索到被審計對象的相關文檔, 如通知公告、政策文件等; 通過文本相似性分析(如聚類、分類)技術分析銀行信貸客戶的調查報告可迅速評估報告編寫員工的履職情況, 進而有效降低內部控制合規(guī)風險[6] 。

      四、審計知識庫建設

      審計知識庫構建框架如圖1所示, 其構建過程包含如下幾個步驟: ①審計領域專業(yè)詞典收集與標注: 基于專家指定的小規(guī)模種子詞匯迭代式獲取百科文本超鏈接詞匯, 最后人工標注出專業(yè)詞匯。 ②審計專業(yè)詞典的語義向量訓練: 基于審計領域詞典的大規(guī)模百科文本及領域的其他文本資料, 利用深度學習算法訓練審計專業(yè)詞匯的詞向量。 ③審計領域知識圖譜構建: 邀請審計領域專家構建審計領域本體知識框架, 利用百科文本的infobox信息抽取審計三元組構建審計知識圖譜。

      1. 審計領域詞匯表構建。 在文本挖掘中, 一般首先需要對文本進行分詞, 然后才能實施關鍵詞檢索、分類、聚類等。 分詞就是將連續(xù)的句子單元分割成若干個詞匯。 例如, 對“切實加強領導干部經(jīng)濟責任審計工作, 對規(guī)范權力運行、促進依法行政、推進國家治理體系和治理能力現(xiàn)代化具有重要意義”這一文本, 需分割成“切實 加強 領導干部經(jīng)濟責任審計 工作 規(guī)范 權力 運行 促進依法行政 推進 國家治理體系 治理能力 現(xiàn)代化 具有 重要 意義”。 由于審計文本具有較強的領域專業(yè)性, 即存在較多專業(yè)詞匯, 如“領導干部經(jīng)濟責任審計”“國家治理體系”等, 直接使用當前的通用文本挖掘軟件(如HanLP、Jieba等)往往無法識別這些詞匯。 例如: 使用HanLP對上述句子進行分詞時, 會將“領導干部經(jīng)濟責任審計”這一專業(yè)名詞分割成“領導”“干部”“經(jīng)濟”“責任”“審計”5個詞匯。 這些零散的詞匯難以表達原來專業(yè)術語的語義內涵, 進而降低了后續(xù)文本挖掘方法的準確性。

      因此, 本文認為, 提高文本挖掘技術在審計領域應用效果的首要工作即為構建審計領域專業(yè)詞典。 為此, 本文通過一種貪心式爬蟲技術從百度百科詞條中自動獲取審計領域相關詞匯, 具體而言包括如下步驟: ①請審計領域專業(yè)人員人工構建一個較小規(guī)模的審計領域核心種子詞匯(共500個詞匯), 包括“中華人民共和國審計署”“政府審計”“三公經(jīng)費”等詞匯。 ②利用網(wǎng)絡爬蟲技術從百度百科中爬取這些詞匯的超鏈接詞匯, 如從“中華人民共和國審計署”的百度百科信息中可獲得超鏈接詞匯“審計署”“中國審計報社”“審計署外交外事審計局”“侯凱”“中華人民共和國審計法”等詞條。 ③將上述超鏈接詞匯加入到種子詞匯集中, 繼續(xù)爬取這些詞匯的超鏈接詞匯。 ④經(jīng)過3輪爬蟲, 即可獲得數(shù)十萬條候選審計領域專業(yè)詞匯及其百度百科文本。 此外, 我們也從互聯(lián)網(wǎng)上搜索到審計專業(yè)詞匯的中英文對照表, 進而獲得擴展候選詞表。 ⑤針對上述候選詞匯, 邀請3位審計領域專家進行人工標注并剔除不相干詞匯。 若2位以上專家認為該詞匯非領域相關詞匯, 則剔除該詞匯。 最后, 共獲得28792個審計領域相關詞匯。 此外, 在人工標注過程中, 我們還對相關詞匯進行了分類, 類別包括領域專有名詞、領域核心詞匯、人名、機構名和相關詞匯, 匯總信息如表1所示。

      表1中, 領域核心詞匯僅指審計領域常用的核心詞, 而領域專有名詞主要包含審計領域各類法律法規(guī)及準則名稱, 人名主要包括審計、會計、經(jīng)濟管理領域著名的人物姓名, 機構名包括我國各審計機關、國內外銀行、國內外知名企業(yè)及大學等, 相關詞匯主要包括審計、會計、經(jīng)濟管理領域常用的詞匯。

      2. 審計領域詞向量訓練。 在當前基于深度學習的文本挖掘技術中, 使用詞向量(Word embedding)作為詞匯的語義表達形式已成為一種共識。 基于Harris[12] 提出的分布假說, 詞向量即上下文相似的詞匯, 其語義也相似。 基于神經(jīng)網(wǎng)絡語言模型, 如CBOW和Sikp-gram模型[13] , 在大規(guī)模文本上訓練出的詞向量可有效表達詞匯之間的語義相似性, 進而更加有效地度量文本之間的相似性, 從而提高文本分類、文本聚類等任務的準確性。

      詞向量所表達的語義與訓練該向量的文本語料密切相關。 例如, 與通用語料(維基百科語料)相比, 利用本文構建的審計領域語料訓練出的詞向量模型與審計專業(yè)詞匯最相似的詞匯集合并不一致(這里對兩種語料進行分詞時, 均導入了本文構建的審計領域詞表)。 表2展示了在兩種語料下分別訓練出的詞向量中, 部分審計領域詞匯中排名前五的最相似詞匯的差異。

      從表2可以看出, 對于一些在通用領域和審計領域共用但語義差距較大的詞匯, 使用審計領域文本語料訓練出的詞向量更能表達這些詞匯在審計領域的語義概念, 這些詞匯的相似詞匯也均為審計領域詞匯, 而通用語料訓練出的詞向量無法準確度量這些領域詞匯之間的語義相似性; 對于審計和會計領域詞匯, 通用語料訓練出的詞向量更能表達審計領域經(jīng)常共同出現(xiàn)的詞匯, 這對提高審計領域文本搜索準確性而言意義重大。

      因此, 有必要收集審計領域專業(yè)文本來訓練審計領域專業(yè)詞匯的詞向量。 本文在標注審計專業(yè)詞匯后, 將這些專業(yè)詞匯對應的百度百科文本也保留下來作為部分訓練語料, 共包括2403條百科詞條。 此外, 本文還收集了審計領域的其他文本數(shù)據(jù)來構建訓練語料庫, 包括審計和會計電子教材、各審計機關網(wǎng)站的新聞和公告等、審計/會計等法律準則。 語料統(tǒng)計信息如表3所示。

      對上述收集到的原始文本語料進行文本清洗等預處理, 共獲得53695條審計領域文本語料。 將上文構建的審計領域專業(yè)詞匯表導入分詞軟件jieba中, 對上述語料進行分詞、剔除停用詞處理。 將處理完成后的語料投入到詞向量模型CBOW中, 即可訓練出包含審計專業(yè)詞匯的詞向量模型。 將該模型訓練出的詞向量應用于審計文本挖掘任務, 如關鍵詞檢索、相似文本搜索等任務, 可提高這些挖掘任務的精準度。

      3. 審計領域知識圖譜構建。 以知識圖譜為代表的知識庫是將人類知識組織成結構化的知識系統(tǒng), 其是推動人工智能學科發(fā)展和應用(如智能檢索、智能推薦、智能問答等)的重要基礎技術[14] 。 知識圖譜使用三元組描述客觀世界中概念、實體及它們之間的關系。 三元組中的概念/實體表示為圖譜中的邊, 概念/實體之間的關系表達為圖譜中點之間的連邊。 例如, 表4所示的三元組可構建成圖2所示的圖譜。

      構建知識圖譜的代價較大, 且并非一氣呵成, 需要循序漸進地從零到有、從小到大不斷擴充, 以保證知識的準確性和有效性。 此外, 完全依賴自動化方法構建的知識圖譜往往準確性難以保證, 一般需要人工構建基礎本體知識, 然后在此基礎上自動化擴建圖譜。

      (1)本體建設。 本體即“一種概念化的精確的規(guī)格說明”[15] , 用于描述某個領域內概念與概念之間的關系。 一般情況下, 構建本體需要本領域相關專家的指導[16] 。 針對審計知識圖譜的構建, 我們首先邀請審計領域專家構建了審計概念框架, 如圖3所示。 然后在該框架的基礎上, 進一步構建和擴充相關概念的子概念。 例如: 在“資源環(huán)境審計”概念下構建關系“審計內容”, 包括實體“財務審計”“合規(guī)審計”等; 在“審計客體”概念下擴充子概念“農(nóng)業(yè)審計”“社會保障審計”等。

      通過上述人工構建本體的方法, 共構建本體三元組878個。 該本體庫主要描述審計領域重要概念與概念之間的隸屬關系, 是整個知識圖譜的“骨架”。 其他抽取出的實體均屬于該“骨架”的下級概念或實體。

      (2)結構化信息抽取。 利用百科infobox中的結構化信息從零到有構建知識圖譜是常用手段。 例如, 從圖4的“中華人民共和國審計署”百度詞條的infobox信息中可抽?。ā爸腥A人民共和國審計署”, “成立時間”, “ 1983年9月15日”)、 (“中華人民共和國審計署”, “機關隸屬”, “中華人民共和國國務院”)等三元組。

      通過上述自動化抽取方式, 共抽取出74802條三元組。 這些三元組來自審計領域中專業(yè)詞匯的百度詞條infobox, 因而信息來源可靠、準確性較高, 可填充到本體庫中, 構建出審計知識圖譜的基礎版本。 此外, 根據(jù)這些詞條與本體庫的對應關系, 可將抽取出的三元組映射到本體網(wǎng)絡的子節(jié)點上。 例如: 從“資源環(huán)境審計”詞條中抽取的相關三元組可歸并到“資源環(huán)境審計”概念下; 根據(jù)關鍵詞“準則”可將“中國注冊會計師執(zhí)業(yè)準則”相關三元組映射到“準則”概念下。

      除了從infobox中抽取的信息, 本文還從其他渠道收集審計領域結構化信息, 如會計科目編號、會計/審計專業(yè)名詞中英文對照表、審計法律法規(guī)準則列表、審計機構列表、審計人物、審計機關領導信息等, 將其填充入基礎知識圖譜中, 這部分結構化數(shù)據(jù)約包含2萬條三元組。

      基于上述構建的本體框架和從結構化信息中抽取出的三元組, 本文共構建了包含約10萬條三元組的審計領域知識圖譜, 并使用圖形數(shù)據(jù)庫neo4j框架為該知識圖譜設計了一款具有可視化界面的審計知識圖譜系統(tǒng)。 該系統(tǒng)包括圖譜本體目錄索引和圖譜實體查詢功能, 分別如圖5和圖6所示。

      該審計知識圖譜并非一次建成、永久不變。 由于被審計單位千差萬別, 被審計單位的各項信息也在實時更新, 因此構建出的基礎版知識圖譜應具有動態(tài)更新、手動/自動添加三元組等功能。 具體而言: 使用者可在該圖譜基礎上動態(tài)更新圖譜中節(jié)點/邊的信息; 可將從其他文本/結構化數(shù)據(jù)中獲得的審計三元組加入到本圖譜中; 可在該圖譜框架下導入其他領域知識圖譜, 如地理信息圖譜、企業(yè)投資圖譜等, 以便應用于具體審計業(yè)務。

      五、審計知識庫應用探討

      在當前數(shù)字化審計方式中, 常采用“總體分析、發(fā)現(xiàn)疑點、分散核查、系統(tǒng)研究”的審計思路。 下文將以陳偉等[3] 討論的扶貧審計為例, 探討如何將審計知識庫與上述審計思路相結合, 進一步提升審計線索挖掘的準確性和可解釋性。

      1. 審計領域詞典在標簽云分析中的應用。 審計領域詞典是提高審計文本挖掘準確性的重要基石。 在對審計文本進行分詞和剔除停用詞時, 導入該領域詞典可提高審計領域詞匯分割的準確性, 為特征抽取與展示、文本分類/聚類、關聯(lián)規(guī)則挖掘等任務提供基礎保障。

      以扶貧審計為例, 當獲得某地扶貧審計相關數(shù)據(jù)后, 為快速了解被審計單位對扶貧政策的總體執(zhí)行情況, 可對該單位相關扶貧項目文本文件進行關鍵詞抽取, 并使用標簽云方式展示[3] 。 在關鍵詞抽取之前, 需要對文本進行分詞, 若分詞結構不合理, 即不能將審計領域專用名詞識別出來, 則展示出的詞標簽往往具有一定的迷惑性。 例如, “道路硬化”→(“道路”“硬化”)、“危房改造”→(“危房”“改造”)。 因此, 一個可行思路是對審計文本進行分詞時導入本文建設的審計領域詞匯表作為分詞軟件的自定義詞表, 從而提高分詞結果的準確性和可解釋性。

      2. 詞向量在審計關鍵詞/文本相似性分析中的應用。 相似詞匯可能使用不同的字符表達, 這在傳統(tǒng)的詞袋子模型下被認為是不同的特征, 進而增加了特征維度, 使得基于特征的文本分析算法準確性降低。 使用詞向量度量詞匯之間的相似性可將表達相似或含義相同的詞匯歸并為一個特征, 進而提高特征詞抽取和文本相似度度量的準確性。 以扶貧審計標簽云為例, 原始標簽中出現(xiàn)的相似詞匯, 如“活動室”和“活動場所”、“幫扶”和“扶持”可分別歸并為一個詞匯, 以進一步提高標簽云可視化結果的可解釋性和信息量。

      在文本相似度度量方面, 引入詞向量可將每個文本表達成特征空間中詞向量的拼接或者在詞向量基礎上使用深度學習技術, 如循環(huán)神經(jīng)網(wǎng)絡、fasttext[17] 等, 構建文本向量, 再計算文本相似度, 將會提高相似度度量的準確性。

      以了解被審計單位對扶貧政策的執(zhí)行情況為例, 對每一年的扶貧項目文件進行相似度分析, 以檢測扶貧項目的變化情況[3] 。 在計算文本相似度時, 一般以整個文本集的重要詞語作為特征空間, 并以詞匯的TF-IDF作為其在空間中的權重。 這樣每個文本即表達成特征空間中的向量, 文本之間的相似性即為兩個向量之間的歐氏距離或余弦相似度。 這種做法存在兩個問題: 一是特征空間高維稀疏, 即一個文本只在若干個特征維度上有非零值, 而在其他維度上值為零; 二是特征相互獨立, 某些相似的詞匯依舊被認為具有兩個不相干的特征。 這兩個問題都會導致對文本相似度的計算不夠準確, 使用詞向量構建的句子向量來度量句子相似度將會提高其計算的準確性。

      3. 審計知識圖譜在審計實務中的應用。 知識圖譜通過三元組這一簡潔的知識表示形式, 既能提高數(shù)據(jù)表達效率, 又能通過圖譜可視化提高數(shù)據(jù)表現(xiàn)能力。 使用審計知識圖譜可輔助審計人員快速發(fā)現(xiàn)審計疑點以及這些疑點之間的關聯(lián)關系; 此外, 基于審計知識圖譜可構建更加精準的審計領域搜索引擎, 以便在審計工作中快速準確地搜索到與搜索詞相關的審計/會計準則/法規(guī)、審計方法、審計底稿模板等信息。

      以扶貧資金使用情況審計為例, 在通過關鍵詞提取和標簽云可視化分析后, 發(fā)現(xiàn)了相關疑點, 如扶貧資金使用方面包含“餐費”“高爾夫”“中介費”“煙酒”等支出。 那么, 如何從這些線索中快速找到審計證據(jù)? 一個思路是在已有的審計知識圖譜的基礎上, 從被審計單位的相關扶貧資金支出數(shù)據(jù)中抽取出包含上述線索詞的三元組并整合到圖譜中, 構建出當前被審計單位的臨時知識圖譜, 即可分析出這些費用的使用金額、報銷人、收款單位/人、支出項目等情況。

      以扶貧內容合理性審計為例, 在通過關鍵詞獲得扶貧項目內容中存在“制革”“有色”“冶煉”等關鍵詞, 那么怎樣快速判斷被審計單位是否投資了高污染、高能耗等國家禁止的行業(yè)項目呢? 一個思路是利用詞向量從被審計單位的相關投資文件中抽取出包含上述關鍵詞或與上述關鍵詞相似的命名實體, 以進一步確認被審計單位投資項目的具體名稱。 若投資項目中確實包含國家禁止的項目, 則可在當前知識圖譜的基礎上接入企業(yè)投資關系知識圖譜, 進一步確認這些投資項目的法定代表人、注冊資本等信息。

      六、結束語

      本文討論了如何構建審計知識庫, 探究了該知識庫在審計實務工作中的示范應用。 本文所構建的審計知識庫包括三部分內容, 分別是審計領域詞典、審計領域詞匯的詞向量及訓練詞向量的領域文本語料、審計領域知識圖譜。 該知識庫的運用將有助于提升面向審計文本數(shù)據(jù)挖掘的準確性和可理解性。 未來可使用深度學習方法從非結構化文本中深入挖掘包含審計領域詞匯的三元組信息, 以進一步擴充該知識圖譜。 此外, 還應進一步將該知識庫與審計應用實務有機結合, 例如在知識庫基礎上構建審計準則、審計方法等智能檢索功能, 為審計業(yè)務查詢提供便利。

      【基金項目】國家自然科學基金項目(項目編號: 61802194、61902190、71972102);江蘇省高等學校自然科學研究項目(項目

      編號:19KJB520040);南京審計大學校級基金項目(項目編號:2021SZZD008、XG202103)

      【作者單位】南京審計大學信息工程學院, 南京 211815

      【 主 要 參 考 文 獻 】

      [1] 呂天陽,楊蘊毅,邱玉慧.審計大數(shù)據(jù)的提出、特征及挑戰(zhàn)[ J].財會月刊,2018(5):142 ~ 150.

      [2] 林海倫,王元卓,賈巖濤等.面向網(wǎng)絡大數(shù)據(jù)的知識融合方法綜述[ J].計算機學報,2017(1):1 ~ 27.

      [3] 陳偉,勾東升,徐發(fā)亮.基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計方法研究[ J].中國注冊會計師,2018(11):80 ~ 84+3.

      [4] 秦榮生.大數(shù)據(jù)、云計算技術對審計的影響研究[ J].審計研究,2014(6):23 ~ 28.

      [5] 張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計數(shù)據(jù)分析框架[ J].會計之友,2017(16):117 ~ 120.

      [6] 楊兆群,蔡潤柱,郭嘉玲.基于關鍵詞檢索的非結構化數(shù)據(jù)審計應用研究[ J].中國內部審計,2020(4):36 ~ 42.

      [7] 武凱文.上市公司的關系網(wǎng)絡和事務所審計行為——基于公司年報文本分析的經(jīng)驗證據(jù)[ J].上海財經(jīng)大學學報,2019(3):74 ~ 90.

      [8] 顧圣杰,王宸,劉涵璐等.基于知識圖譜的審計風險點識別研究[ J].商訊,2021(4):138 ~ 139.

      [9] Bollacker K.. Freebase: A collaboratively created graph database for structuring human knowledge[Z].International Conference on Management of Data,2008.

      [10] Miller G. A.. WordNet: A lexical database for English[ J].Communications of the ACM,1995(11):39 ~ 41.

      [11] 趙琛.審計對象關系網(wǎng)絡構建方法研究[ J].審計研究, 2016(6):36 ~ 41.

      [12] Harris Z. S.. Distributional structure[ J].Word,1981(2-3):146 ~ 162.

      [13] Mikolov T., Sutskever I., Chen K., et al.. Distributed representations of words and phrases and their compositionality[A].New York: Proceedings of the 26th International Conference on? Neural Information Processing Systems,2013.

      [14] 劉知遠,孫茂松,林衍凱等.知識表示學習研究進展[ J].計算機研究與發(fā)展,2016(2):247 ~ 261.

      [15] Thomas R. Gruber. Towards principles for the design of ontologies used for knowledge sharing[ J].International Journal of Human-Computer Studies,1993(5-6):907 ~ 928.

      [16] Han J., Xiang Y.. A survey on ontology building[ J].Computer Applications and Software,2007(9):21 ~ 23.

      [17] Le Q., Mikolov T.. Distributed representations of sentences and documents[A].Beijing:Proceedings of the 31st International Conference on International Conference on Machine Learning,2014.

      (責任編輯·校對: 喻晨? 陳晶)

      猜你喜歡
      知識圖譜大數(shù)據(jù)
      國內圖書館嵌入式服務研究主題分析
      國內外政府信息公開研究的脈絡、流派與趨勢
      近十五年我國小學英語教學研究的熱點、問題及對策
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      智富時代(2016年12期)2016-12-01 16:28:41
      基于知識圖譜的智慧教育研究熱點與趨勢分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術發(fā)展
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      保康县| 石泉县| 襄垣县| 青州市| 宁武县| 增城市| 吴忠市| 苍山县| 宁城县| 成安县| 东丽区| 临朐县| 肥东县| 永城市| 老河口市| 马山县| 祁阳县| 邹平县| 微山县| 桐庐县| 顺昌县| 闸北区| 新巴尔虎右旗| 偏关县| 翁源县| 东至县| 乌兰察布市| 大安市| 军事| 平南县| 建宁县| 彩票| 揭西县| 宜阳县| 金沙县| 龙游县| 鹤岗市| 玉林市| 梓潼县| 乌鲁木齐市| 孝感市|