• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)爬蟲技術(shù)在大數(shù)據(jù)審計中的應(yīng)用

      2019-05-31 01:43:59張露
      合作經(jīng)濟(jì)與科技 2019年7期
      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集

      張露

      [提要] 在大數(shù)據(jù)審計面臨著諸多機(jī)遇和挑戰(zhàn)的大背景下,有效清晰的數(shù)據(jù)在審計過程中發(fā)揮著重大作用,本文分析不同的審計數(shù)據(jù)的特點以及采集審計數(shù)據(jù)的方法。在傳統(tǒng)數(shù)據(jù)采集方法基礎(chǔ)上研究如何基于Python利用網(wǎng)絡(luò)爬蟲采集審計數(shù)據(jù),以為大數(shù)據(jù)審計技術(shù)的發(fā)展提供支持。

      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;數(shù)據(jù)采集;審計分析;Python

      本文為2017年安徽財貿(mào)職業(yè)學(xué)院“內(nèi)涵提升全員行動計劃”科學(xué)研究項目(人文社科):“大數(shù)據(jù)在審計分析程序中的運(yùn)用研究”(項目編號:2017nhrwc15)

      中圖分類號:F239 文獻(xiàn)標(biāo)識碼:A

      收錄日期:2019年1月18日

      一、引言

      無論是國家審計還是民間審計,在當(dāng)今社會經(jīng)濟(jì)發(fā)展過程中都起到了十分重要的作用,為經(jīng)濟(jì)發(fā)展“保駕護(hù)航”。大數(shù)據(jù)目前也是各國研究的重點和熱點,并將大數(shù)據(jù)的研究和應(yīng)用上升到了戰(zhàn)略層次。美國注冊會計師協(xié)會(AICPA)在2014年就對大數(shù)據(jù)可能對審計產(chǎn)生的影響進(jìn)行了分析。在全球信息化的大背景下,如何利用大數(shù)據(jù)降低審計風(fēng)險,提高審計效率仍然是一個非常重要的命題。2015年中共中央辦公廳、國務(wù)院辦公廳《關(guān)于完善審計制度若干重大問題的框架意見》及配套文件中明確提出“構(gòu)建大數(shù)據(jù)審計工作模式,構(gòu)建國家審計數(shù)據(jù)系統(tǒng)和數(shù)字化審計平臺,探索建立審計實時監(jiān)督系統(tǒng),實施聯(lián)網(wǎng)審計”。劉國城、王會金(2017)將大數(shù)據(jù)審計平臺分拆為采集、預(yù)處理、分析和可視化四個子平臺,基于方法支撐、過程建模和運(yùn)行機(jī)理等方面對各個子平臺作以專項研究,旨在為大數(shù)據(jù)審計實踐提供建設(shè)性思路。秦榮生(2014)指出大數(shù)據(jù)、云計算技術(shù)的產(chǎn)生和發(fā)展,正在逐漸影響審計技術(shù)和方法的發(fā)展。

      大數(shù)據(jù)具有數(shù)據(jù)體量巨大、處理速度快、數(shù)量種類多和商業(yè)價值高的特點。被審計對象的信息化促使審計人員在審計方法上更加的信息化,如果將這些大量的、散落的、無序的數(shù)據(jù)進(jìn)行集中化、結(jié)構(gòu)化,將其變成能夠方便獲得可讀取的審計數(shù)據(jù),并通過審計分析程序發(fā)現(xiàn)更加有效和清晰的審計線索,那么大數(shù)據(jù)將會發(fā)揮重大的商業(yè)價值。由此可見,數(shù)據(jù)是審計分析的重要前提,獲取高質(zhì)量數(shù)據(jù)往往能夠幫助審計人員快速發(fā)現(xiàn)風(fēng)險點進(jìn)行應(yīng)對,大大提高審計的效率和效果。目前,尚未有成熟的審計大數(shù)據(jù)收集與整理技術(shù),這影響了大數(shù)據(jù)在審計中使用的效率。本文將基于目前大數(shù)據(jù)的研究現(xiàn)狀,主要探討審計人員應(yīng)當(dāng)如何利用網(wǎng)絡(luò)爬蟲技術(shù)從網(wǎng)絡(luò)渠道獲取所需審計數(shù)據(jù),從而擴(kuò)充審計數(shù)據(jù)的范圍,獲得更多的審計線索,提高審計分析效果。

      二、審計大數(shù)據(jù)采集分析

      (一)審計大數(shù)據(jù)類型。大數(shù)據(jù)審計區(qū)別于傳統(tǒng)的審計模式,傳統(tǒng)審計模式傾向于依據(jù)被審計單位提供的相關(guān)資料去鑒證其是否真實可靠。而大數(shù)據(jù)審計是一種實時審計,強(qiáng)調(diào)審計人員應(yīng)當(dāng)主動地去獲取企業(yè)內(nèi)部和企業(yè)外部的數(shù)據(jù),企業(yè)內(nèi)部的業(yè)務(wù)數(shù)據(jù)主要依靠被審計單位提供,而外部數(shù)據(jù),比如法律、銀行、稅務(wù)、供應(yīng)商、客戶、物流等其他數(shù)據(jù)需要審計人員去挖掘和分析。從目前來看,審計大數(shù)據(jù)可以分為兩類:一類是結(jié)構(gòu)化數(shù)據(jù),它由明確定義的數(shù)據(jù)類型組成,比如數(shù)字、貨幣、日期等,其模式可以使其易于搜索。這種數(shù)據(jù)一般儲存在數(shù)據(jù)庫里,比如企業(yè)ERP系統(tǒng)中的銷售數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、財務(wù)數(shù)據(jù)等;另一類是非結(jié)構(gòu)化數(shù)據(jù),是指那些不方便用數(shù)據(jù)庫二維邏輯來表現(xiàn)的數(shù)據(jù),如辦公文檔、文本、圖片、HTML圖像等,審計人員需要的外部數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)類型居多。

      圖1 基于Python 的網(wǎng)絡(luò)爬蟲代碼示例

      (二)審計大數(shù)據(jù)采集方法

      1、直接拷貝讀取。審計人員首先判斷出自己需要的審計數(shù)據(jù),然后根據(jù)被審計單位使用的財務(wù)軟件(如金蝶、用友)的使用特點,利用軟件數(shù)據(jù)庫已經(jīng)預(yù)設(shè)好的指令去提取轉(zhuǎn)換審計人員所需要的數(shù)據(jù),并將其保存為Excel等格式。

      2、開放數(shù)據(jù)互聯(lián)(ODBC)。如果被審計單位與審計人員使用的是可以對接的數(shù)據(jù)庫,可以通過相關(guān)的數(shù)據(jù)訪問接口訪問被審計單位所使用的業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫,并將數(shù)據(jù)進(jìn)行還原后轉(zhuǎn)出,成為審計人員可以直接利用的數(shù)據(jù)。

      3、中間文件采集。指審計人員與被審計單位約定好數(shù)據(jù)的格式,被審計單位按照要求將自己的相關(guān)數(shù)據(jù)轉(zhuǎn)換成約定的格式,比如說文本文件格式,這種大部分?jǐn)?shù)據(jù)庫都能夠直接讀取的格式,從而省去了兩種不同數(shù)據(jù)庫對接的問題。

      4、網(wǎng)上采集。除了被審計單位或者上級審計機(jī)關(guān)提供的相關(guān)數(shù)據(jù)以外,審計人員仍然需要從被審計單位外部獲得相關(guān)的工商、稅務(wù)、行業(yè)、媒體等公開數(shù)據(jù)以進(jìn)行多方面的審計分析,這些數(shù)據(jù)并不是被直接提供的結(jié)構(gòu)化數(shù)據(jù),需要審計人員采用一定的方法從網(wǎng)上進(jìn)行采集。

      目前,審計數(shù)據(jù)采集大部分采用的是上述的前三種方法,往往依托一定的數(shù)據(jù)庫基礎(chǔ),能夠獲得的信息大多基于被審計單位,最后一種網(wǎng)上采集數(shù)據(jù)的方法由于沒有統(tǒng)一的方法和技術(shù),耗費(fèi)大量時間和經(jīng)歷,往往難以實現(xiàn),這大大限制了審計人員進(jìn)行審計分析的范圍,同時也使審計的取證率難以達(dá)到預(yù)期,從某種程度上提高了審計風(fēng)險。在大數(shù)據(jù)審計背景下,審計人員執(zhí)行分析程序不能僅僅將眼光局限于內(nèi)部數(shù)據(jù),更應(yīng)當(dāng)從網(wǎng)絡(luò)公開數(shù)據(jù)中獲取更加全面的信息,但是這些信息大多以網(wǎng)頁等格式存在,難以被審計人員直接用于分析,所以本文提出可以利用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁上的信息,并整理成一定的格式,方便審計人員從海量數(shù)據(jù)中發(fā)現(xiàn)審計線索,使審計分析程序發(fā)揮更大的效用。

      表1 基于Python 的網(wǎng)絡(luò)爬蟲結(jié)果示例

      猜你喜歡
      網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
      鐵路客流時空分布研究綜述
      基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
      軟件工程(2016年8期)2016-10-25 15:54:18
      通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:52:53
      基于開源系統(tǒng)的綜合業(yè)務(wù)數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
      基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
      淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
      中國市場(2016年23期)2016-07-05 04:35:08
      武功县| 巫山县| 云浮市| 丘北县| 天台县| 平定县| 晋中市| 宝应县| 新兴县| 南丰县| 襄城县| 桃江县| 天全县| 玉屏| 内黄县| 汕头市| 高密市| 芦溪县| 全椒县| 咸丰县| 盐亭县| 白朗县| 秦皇岛市| 台南市| 大姚县| 军事| 封开县| 德安县| 永济市| 临清市| 翁牛特旗| 尉犁县| 资兴市| 克山县| 昂仁县| 崇左市| 抚宁县| 广州市| 宜宾县| 桓台县| 清涧县|