• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Python技術(shù)在大數(shù)據(jù)審計中的應(yīng)用

      2021-05-26 00:49羅苑瑋李春友邱晨煒
      企業(yè)科技與發(fā)展 2021年4期
      關(guān)鍵詞:數(shù)據(jù)挖掘

      羅苑瑋 李春友 邱晨煒

      【摘 要】大數(shù)據(jù)時代,數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)應(yīng)用于各行各業(yè)已成為趨勢。為提高審計工作的效率和質(zhì)量,有效且清晰的數(shù)據(jù)信息顯得尤為重要。因此,文章探討如何利用Python技術(shù)在大數(shù)據(jù)分析中的各種優(yōu)勢,實現(xiàn)審計數(shù)據(jù)的采集并快速分析數(shù)據(jù)結(jié)果。同時,為進一步展示數(shù)據(jù)挖掘的實際應(yīng)用效果,文章以對數(shù)字資產(chǎn)進行審查的相關(guān)工作為案例,為研究大數(shù)據(jù)審計的應(yīng)用與發(fā)展提供支持。

      【關(guān)鍵詞】python;大數(shù)據(jù)審計;數(shù)據(jù)挖掘

      【中圖分類號】TP311.13 【文獻標識碼】A 【文章編號】1674-0688(2021)04-0086-03

      0 引言

      大數(shù)據(jù)時代的到來,使各行業(yè)的發(fā)展走向信息化,審計工作涉及行業(yè)廣泛,被審計單位的運行越來越依賴于信息化,審計工作也由原來傳統(tǒng)的以賬簿查賬為主的方式逐步向數(shù)據(jù)化、信息化、無紙化方向發(fā)展。大數(shù)據(jù)時代如何提高審計效率、降低審計風險是一個非常重要的命題。近年來,國家出臺了相關(guān)的政策,2015年中共中央辦公廳、國務(wù)院辦公廳正式印發(fā)《關(guān)于完善審計制度若干重大問題的框架意見》及配套文件中明確提出“構(gòu)建大數(shù)據(jù)審計工作模式,構(gòu)建國家審計數(shù)據(jù)系統(tǒng)和數(shù)字化審計平臺,探索建立審計實時監(jiān)督系統(tǒng),實施聯(lián)網(wǎng)審計”?!凹哟蟠髷?shù)據(jù)技術(shù)的應(yīng)用,創(chuàng)新審計方法,更好地發(fā)揮審計作用”的觀點,也在2016年金磚國家最高審計機關(guān)領(lǐng)導(dǎo)人會議上被提出。2018年,習近平總書記也在中央審計委員會第一次會議上指出,要堅持科技強審,加強審計信息化建設(shè)。

      在這樣的背景下,如何與時俱進地改變現(xiàn)有審計模式,在審計過程中通過大數(shù)據(jù)技術(shù)獲取相關(guān)審計數(shù)據(jù)深入分析,降低審計風險是審計部門和審計機構(gòu)面臨的挑戰(zhàn)之一。大數(shù)據(jù)時代,如果能將被審計對象原有無序的、零散的、體量巨大的數(shù)據(jù)以數(shù)據(jù)清洗和數(shù)據(jù)整理的方式將其結(jié)構(gòu)化、集中化,讓其成為易于讀取的審計信息,最后通過審計程序發(fā)現(xiàn)數(shù)據(jù)中更加清晰和有效的線索。獲取高質(zhì)量數(shù)據(jù)可以更有效率地幫助審計師發(fā)現(xiàn)風險點,提高審計效率。目前,基于數(shù)據(jù)挖掘的審計盡管有專家學者提出了相關(guān)概念,但是沒有形成既定的理論體系,而實務(wù)中的應(yīng)用并未廣泛展開,但是基于審計技術(shù)發(fā)展的迫切需求,該領(lǐng)域無論是在大數(shù)據(jù)審計分析框架、多種技術(shù)應(yīng)用于審計方法等方面都仍然有很多值得深入研究的方向。Python開源式語言的出現(xiàn),使得數(shù)據(jù)挖掘更具效率。本文將從Python語言的視角入手,探索Python在大數(shù)據(jù)審計中的應(yīng)用,對大數(shù)據(jù)時代下提高審計監(jiān)督職能和審計工作效率具有重要的理論意義和社會價值。

      1 大數(shù)據(jù)審計的特征分析

      大數(shù)據(jù)的概念于2008年首次在《Nature》雜志上被提出。麥肯錫(2011)將大數(shù)據(jù)定義為大小超出常規(guī)數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集,并認為大數(shù)據(jù)包含大量、迅捷、多樣性和真實性幾個特點[1]。在眾多關(guān)于大數(shù)據(jù)審計的研究成果中,大多數(shù)的研究學者認為大數(shù)據(jù)審計是大數(shù)據(jù)技術(shù)在審計方式方面的延伸和創(chuàng)新,主要包括兩個方面:電子數(shù)據(jù)審計和計算機信息系統(tǒng)審計。王會金、劉國城(2017)提出了大數(shù)據(jù)審計的構(gòu)建思路,按照采集、預(yù)處理、分析和可視化4個子平臺組成大數(shù)據(jù)審計平臺。在大數(shù)據(jù)環(huán)境下,被審計單位有大量非格式化數(shù)據(jù),如何處理這些非格式化數(shù)據(jù)并在這些非結(jié)構(gòu)化數(shù)據(jù)中尋找疑點信息,是眾多研究的重點。大數(shù)據(jù)的4大特點給大數(shù)據(jù)審計帶來新的審計思路和審計方法,同時也帶來一些新的挑戰(zhàn)。

      在數(shù)據(jù)來源方面,在如今的審計過程中,雖然被審計單位提供的數(shù)據(jù)類型主要是以結(jié)構(gòu)化的數(shù)據(jù)為主,但是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的占比也在不斷增加。不易于分析的半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相比,具有高價值、大體量、多樣化等特點,這就對審計模型的處理能力提出了更高的要求。

      在數(shù)據(jù)采集方面,主流的大數(shù)據(jù)的采集方法包括直接拷貝讀取、開放數(shù)據(jù)互聯(lián)、中間文件采集等,但是這些用于挖掘和收集大數(shù)據(jù)的方法,要求被審計單位有一定的數(shù)據(jù)庫基礎(chǔ),并且所獲得的這些數(shù)據(jù)也大多來自被審計單位。在大數(shù)據(jù)審計的環(huán)境下,審計人員的目光不能僅限于被審計單位的內(nèi)部,還應(yīng)該更多地關(guān)注網(wǎng)絡(luò)中公開的海量信息,只有這樣,才能更加全面且完整地了解被審計單位。所以,為了獲取高質(zhì)量的審計數(shù)據(jù),對審計手段的多樣化提出了更高要求。

      在應(yīng)用實踐方面,深度挖掘?qū)徲嬀€索是具體的表現(xiàn)之一,對跨部門、多行業(yè)、深層次采集到的海量數(shù)據(jù)進行清理轉(zhuǎn)化,以審計業(yè)務(wù)需求為導(dǎo)向,依托清理轉(zhuǎn)化后的信息數(shù)據(jù),構(gòu)建標準化和可操作的審計分析模型,進而在模型中發(fā)現(xiàn)審計疑點,最終通過核查這些疑點得出審計結(jié)論。

      大數(shù)據(jù)技術(shù)在助推實現(xiàn)審計全覆蓋的同時也推進了現(xiàn)行制度的完善和改革,即通過挖掘某種社會現(xiàn)象的潛在規(guī)律,作為政策制定的依據(jù),針對問題進行大數(shù)據(jù)分析、不斷完善政策,推動國家治理現(xiàn)代化[2]。

      2 Python技術(shù)的工作原理與優(yōu)勢

      2.1 Python的工作原理

      Python是一種面向?qū)ο蟮挠嬎銠C程序設(shè)計語言,它具有簡單、解釋型、交互式和可移植的特點。Python最大的功能是可以按照程序員設(shè)計的程序或者腳本自動抓取語言。意味著可以從網(wǎng)絡(luò)上標準資源額地址中,以匹配的方法實現(xiàn)網(wǎng)頁中信息的抓取,使用戶持續(xù)不斷地獲得自己想搜索的信息。

      在審計過程中Python可以切入被審單位的數(shù)據(jù)庫,通過Python爬蟲技術(shù)爬取底層數(shù)據(jù),比如發(fā)票、合同等原始憑證信息,探究被審單位各項財務(wù)數(shù)據(jù)的真實性;還可以利用當今強大的大數(shù)據(jù)關(guān)聯(lián)信息,從外部網(wǎng)站獲取第三方證據(jù),如“瑞幸咖啡事件”中,調(diào)查人員利用了大數(shù)據(jù)信息搜集瑞幸咖啡所有門店的日流量以作為調(diào)查結(jié)論的佐證。從被審計單位外部獲取的審計數(shù)據(jù),相比于被審計單位提供的更充分、可靠,能幫助審計人員獲得更高質(zhì)量的審計證據(jù)。

      審計人員可以利用Python的爬蟲技術(shù)獲取各類相關(guān)審計數(shù)據(jù),主要有如下幾個步驟:?譹?訛確定目標,根據(jù)審計目標確定想要獲取的目標數(shù)據(jù),明確數(shù)據(jù)所分布的url網(wǎng)頁位置。?譺?訛網(wǎng)頁分析,主要對目標網(wǎng)頁的數(shù)據(jù)訪問路徑和邏輯進行分析。?譻?訛獲取數(shù)據(jù),基于對網(wǎng)頁的結(jié)構(gòu)分析,抓取數(shù)據(jù)。?譼?訛數(shù)據(jù)的篩選和清洗,對所獲得的數(shù)據(jù)進行可視化的呈現(xiàn),通過編輯建模分析語言,可以呈現(xiàn)出Excel分析結(jié)果,同時借助SQL查詢,獲取最終的審計數(shù)據(jù)。

      2.2 優(yōu)勢

      盡管能應(yīng)用于大數(shù)據(jù)挖掘與分析的軟件有很多,但是Python編程語言的通用性、擴展庫開源性及使用的簡便度相較于其他軟件具有一定的優(yōu)勢。對于審計數(shù)據(jù)的基礎(chǔ)工作,Python都可勝任。

      Python相比其他的數(shù)據(jù)分析軟件,具有如下優(yōu)勢(如圖1所示)。

      2.2.1 語法簡單,功能強大

      Python語言最大的優(yōu)勢之一就是語法簡單清晰,通俗易懂,對軟件使用者的編程水平門檻較低,操作人員能很快學會使用,獲得想要的結(jié)果。Python還具有強大的語法功能,由于Python內(nèi)置中有很多常見網(wǎng)絡(luò)協(xié)議,能夠支持Socket、urllib等端口,兼容性較強,因此可以應(yīng)用到圖形處理、數(shù)據(jù)挖掘、網(wǎng)絡(luò)開發(fā)等應(yīng)用控制中。Python數(shù)據(jù)分析及信息獲取中具有較強的資源優(yōu)勢,并進行信息分析和利用。

      我們在審計過程中經(jīng)常需要從Word、Excel文件中獲取指定的內(nèi)容,應(yīng)用Python內(nèi)置函數(shù)讀取文件內(nèi)容可以實現(xiàn)對既定要求的數(shù)據(jù)和文本的準確抓取。Python的數(shù)據(jù)庫接口適用性較強,審計人員可以鏈接底層數(shù)據(jù)庫,根據(jù)需求下載不同的數(shù)據(jù)包,通過執(zhí)行SQL語句等方式完成數(shù)據(jù)查找和存儲。例如:Pandas是Python的一個數(shù)據(jù)包,只需要不到 10 s即可完成審計數(shù)據(jù)的函數(shù)處理和數(shù)據(jù)分析。

      2.2.2 開源通用

      由于考慮到成本問題,很多軟件并非開源,因此限制了軟件的可使用范圍,使得軟件應(yīng)用的廣泛性受到影響。Python的開源特性使得多個計算平臺和操作系統(tǒng)都可以兼容Python編寫的數(shù)據(jù)分析代碼。例如:Windows、MacOS、Linux、Andorid、iOS等。并且,在云服務(wù)平臺中,Python能夠與C語言很好地兼容,能在各類庫工具中快速滿足平臺服務(wù)的要求,減少項目開發(fā)周期及成本,從數(shù)據(jù)抽取、數(shù)據(jù)收集整理、數(shù)據(jù)分析挖掘到數(shù)據(jù)展示的整個過程中,不需要其他輔助工具或資源庫的幫助[3]。

      Python是一門真正的通用設(shè)計語言,很多數(shù)據(jù)分析軟件設(shè)計的初衷是為交互使用,想要這些數(shù)據(jù)分析軟件實現(xiàn)完全自動化是不太適合的,但Python的代碼可用于整個數(shù)據(jù)分析過程,實現(xiàn)完全自動化,可以不受限制地重復(fù)使用。相比JAVA、C+、Matlab等軟件,Python的腳本語言應(yīng)用更廣;可以加載很多組件和擴展包;能兼容多個平臺的操作系統(tǒng);并且,軟件所占空間小,在一個簡單的編輯器上就能完成操作。

      2.2.3 兼容性較強,可快速實現(xiàn)數(shù)據(jù)可視化

      Python具備人工智能、神經(jīng)網(wǎng)絡(luò)等各種資源,在數(shù)據(jù)調(diào)取、挖掘、整理和分析整個過程,能在Python中一并完成,無須其他輔助工具。這就避免了開發(fā)程序的切換和數(shù)據(jù)分析轉(zhuǎn)化,提高了數(shù)據(jù)分析的效率。相比傳統(tǒng)的開發(fā)語言,Python具有較強的學習能力,使網(wǎng)頁運轉(zhuǎn)系統(tǒng)建設(shè)和程序開發(fā)的效率大大提升。除此之外,Python還能實現(xiàn)可視化,無論是2D還是3D圖表,使得數(shù)據(jù)結(jié)果可以更科學、直觀地呈現(xiàn)出來。例如:Matplotlib可視化模塊就能很好地運用在審計過程中。審計人員可以利用該模塊,繪制象散點圖、柱狀圖等二維圖片,把復(fù)雜的數(shù)據(jù)轉(zhuǎn)化成直觀的圖片分析數(shù)據(jù),提高信息使用者決策的速度。

      在大數(shù)據(jù)審計中,Python一般會應(yīng)用Pandas、Matplotlib、Numpy等模塊。Pandas主要用于金融和財務(wù)數(shù)據(jù)分析;Matplotlib用于實現(xiàn)數(shù)據(jù)可視化;而Numpy是一個提供矩陣運算的科學計算庫,適合進行數(shù)據(jù)清洗和整理。對于大數(shù)據(jù)審計,Python完全能滿足大數(shù)據(jù)審計數(shù)據(jù)挖掘和分析中對軟件的需求且極具推廣性。

      3 基于Python技術(shù)的大數(shù)據(jù)審計案例與應(yīng)用

      對于各大娛樂公司來說,流量明星自帶的“流量”,即在各社交媒體中的粉絲數(shù)量和發(fā)出動態(tài)后所獲得的點贊和評論數(shù)量,其實也是公司的數(shù)字資產(chǎn)。一位熱度高的流量明星除了能獲取更高的知名度、廣告代言費用和片酬,還能夠給其經(jīng)紀公司帶來豐厚的經(jīng)濟利益。所以,各大經(jīng)紀公司投資方、廣告商、電影或電視劇的出品方,甚至是部分粉絲,就會利用一些技術(shù)手段對大量點贊和評論的數(shù)據(jù)進行造假。海量的粉絲與評論數(shù)據(jù)難以被傳統(tǒng)的方式所記錄,更是難以用傳統(tǒng)的審查手段對“流量”資產(chǎn)進行全面或抽樣驗證。數(shù)字資產(chǎn)的出現(xiàn),使審計內(nèi)容與模式發(fā)生改變。

      3.1 審查方法設(shè)計

      流量明星在登上微博熱搜或在微博發(fā)表動態(tài)后,其大部分的真實粉絲都會進行評論、轉(zhuǎn)發(fā)或點贊;而另一部分的評論(通過非常規(guī)渠道購買的評論數(shù)),在每條微博下多數(shù)會使用重復(fù)ID多次評論;通過分析重復(fù)用戶ID的情況,作為虛假流量而去除,這樣就可以辨別真實粉絲的數(shù)量和實際評論和點贊量。

      通過使用爬蟲軟件,選取微博某流量明星的3個熱搜事件的微博(A、B、C)進行相互對比分析。為盡量避免用戶反復(fù)進行評論提高熱度行為,使用Python軟件分別剔除掉微博評論下一級與次級評論重復(fù)的用戶,就能得出實際評論的用戶;再將經(jīng)過篩選的結(jié)果與相對應(yīng)的3條微博下的非重復(fù)評論用戶進行對比,最終得出重復(fù)活躍的用戶數(shù)量。

      3.2 實施步驟

      隨機抽取某流量明星2020年1月至12月的3條高熱度微博,分別命名為A、B、C。代碼設(shè)置隨機爬取該微博下的一級評論和次級評論,爬取數(shù)量分別設(shè)置為1 000。引用Pandas數(shù)據(jù)集,進行數(shù)據(jù)篩選。根據(jù)篩選結(jié)果,所爬取的A微博下的“一級+次級”評論中,在剔除重復(fù)評論的用戶后,實際有效用戶占所有用戶的比重約77%。用相同方法分別爬取B微博與C微博下的評論后,所得出的結(jié)果分別約62%和69%??傆嬙u論的非重復(fù)用戶占總評論用戶的比重約75%;而重復(fù)活躍的用戶數(shù)占審查總用戶數(shù)的比重約7%。

      3.3 結(jié)果與分析

      通過上述的對比可看出,在統(tǒng)籌隨機抽取流量明星所發(fā)的熱門事件的3條微博下的用戶評論數(shù)后,到設(shè)定的審查截止時間期間,通過數(shù)據(jù)爬取與分析,出現(xiàn)的總有效用戶數(shù)占總評論用戶比重約75%;重復(fù)活躍的用戶數(shù)占審查總用戶數(shù)的比重約7%。管中窺豹,可見一斑??梢栽O(shè)想,在眾多社交媒體上坐擁千萬粉絲的流量明星,也許其背后真實的活躍粉絲數(shù)遠低于其平臺上所反映的粉絲數(shù)量,其背后的網(wǎng)絡(luò)流量是否與其背后的數(shù)字資產(chǎn)價值相等也許也要打上一個問號。流量明星作為互聯(lián)網(wǎng)時代的“熱銷商品”,他們本身也是公司的資產(chǎn),在眾多互聯(lián)網(wǎng)、娛樂公司中也有著顯著的商業(yè)意義,對于會計、審計而言,如何監(jiān)督并識別這些資產(chǎn)十分必要[4]。

      4 結(jié)語

      本文通過分析大數(shù)據(jù)審計的特征,針對Python的工作原理和優(yōu)勢,引入案例研究Python在大數(shù)據(jù)審計的應(yīng)用,為大數(shù)據(jù)審計中的應(yīng)用技術(shù)研究提供了支持。不同于以往的審計模式,Python技術(shù)使審計從驗證性分析變?yōu)橥诰蛐苑治?,提高了?shù)據(jù)搜集的效率,彌補了數(shù)據(jù)收集的缺陷;有利于風險預(yù)判,使審計從事后控制轉(zhuǎn)向了全過程控制。但是,Python在使用過程中也存在一些技術(shù)壁壘,需要審計人員加強自身學習,更新審計技術(shù)與方法。大數(shù)據(jù)的運用必將是未來趨勢。大數(shù)據(jù)不僅代表的是數(shù)據(jù)集、是技術(shù)的革新,更是一種新的思維方式。審計人員不僅要對數(shù)據(jù)技術(shù)充分利用,更應(yīng)具備大數(shù)據(jù)思維,才能在審計過程中發(fā)現(xiàn)數(shù)據(jù)的價值,提升審計質(zhì)量。

      參 考 文 獻

      [1]陽秋林,唐倩倩.大數(shù)據(jù)環(huán)境下對審計的探究[J].中國管理信息化,2020(1):72-75.

      [2]孫夢蝶.基于Python的大數(shù)據(jù)審計方法探討[J].現(xiàn)代企業(yè),2018(4):38-39.

      [3]胡曉燕.基于Python的可視化數(shù)據(jù)分析平臺設(shè)計與實現(xiàn)[J].信息與電腦,2018(17):96-97.

      [4]杜云.基于python的流量明星數(shù)字資產(chǎn)真實性審查方法初探[J].全國流通經(jīng)濟,2020(29):165-167.

      猜你喜歡
      數(shù)據(jù)挖掘
      數(shù)據(jù)挖掘技術(shù)在內(nèi)河航道維護管理中的應(yīng)用研究
      數(shù)據(jù)挖掘綜述
      軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
      基于R的醫(yī)學大數(shù)據(jù)挖掘系統(tǒng)研究
      一本面向中高級讀者的數(shù)據(jù)挖掘好書
      长治县| 克山县| 敦化市| 赣榆县| 图片| 淳化县| 浙江省| 阿拉善盟| 孟连| 颍上县| 漠河县| 万宁市| 大田县| 江川县| 那坡县| 新蔡县| 巩义市| 晋州市| 祁东县| 和硕县| 醴陵市| 互助| 石家庄市| 凌云县| 曲周县| 高安市| 昭觉县| 阿鲁科尔沁旗| 渭南市| 台北县| 博野县| 贵溪市| 胶南市| 保山市| 永安市| 庆云县| 蒲江县| 桐梓县| 扎赉特旗| 赤水市| 大同市|