• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于R語言的大數(shù)據(jù)審計方法研究

      2016-12-27 12:12:29羌雨
      中國管理信息化 2016年21期
      關(guān)鍵詞:大數(shù)據(jù)審計數(shù)據(jù)可視化大數(shù)據(jù)

      羌雨

      [摘 要] 大數(shù)據(jù)時代的到來,給國家審計模式、取證方法等方面都帶來一定程度的改變,大數(shù)據(jù)審計也因此應(yīng)運而生。研究內(nèi)容旨在從數(shù)據(jù)可視化角度出發(fā),以專門將統(tǒng)計計算與繪圖功能集于一身的R作為分析工具,探索其在分析數(shù)據(jù)時的原理、優(yōu)勢,以及R在審計領(lǐng)域應(yīng)用的可行性,為審計人員更直觀、便利地分析數(shù)據(jù)提供基礎(chǔ)的理論參考。

      [關(guān)鍵詞] 大數(shù)據(jù);大數(shù)據(jù)審計;數(shù)據(jù)可視化;R

      doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 21. 022

      [中圖分類號] F239.1 [文獻標識碼] A [文章編號] 1673 - 0194(2016)21- 0046- 04

      0 引 言

      隨著信息技術(shù)的發(fā)展,大數(shù)據(jù)(Big Data)時代的到來為大數(shù)據(jù)審計的開展帶來了機遇和挑戰(zhàn)。因為隨著被審計單位信息化的日益普及,審計對象的信息化使得審計信息化成為必然,審計信息化對審計人員和審計工作的開展也因此提出了更高的要求。對我國來說,在信息化環(huán)境下如何審計被審計單位的電子數(shù)據(jù),發(fā)現(xiàn)大案、要案,是國家審計的一項重要任務(wù)。本文將通過研究R分析數(shù)據(jù)時的原理,同時與其他分析工具進行比較,總結(jié)R自身特點以及優(yōu)勢,探究R在實施大數(shù)據(jù)審計中的實際應(yīng)用價值,為審計人員更直觀地分析大數(shù)據(jù)提供支持。

      1 大數(shù)據(jù)審計的主要技術(shù)方法

      1.1 大數(shù)據(jù)技術(shù)的分類

      由于信息化水平的提高,國家審計人員能否獲得審計線索越來越依賴于他們所接觸到的被審計單位數(shù)據(jù),因為在分析數(shù)據(jù)過程中,審計人員通過對數(shù)據(jù)的篩查、比對和分析,可以通過發(fā)現(xiàn)明顯不同尋常的數(shù)據(jù)或分析數(shù)據(jù)之間的相關(guān)關(guān)系,進而獲得審計線索或確立審計重點,而因此提高審計效率效果。而相關(guān)審計線索的獲得依賴于大數(shù)據(jù)技術(shù)的應(yīng)用??偟膩碚f,大數(shù)據(jù)技術(shù)主要分為8類:數(shù)據(jù)采集、數(shù)據(jù)存儲、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、模型預(yù)測以及結(jié)果呈現(xiàn)。

      而按照不同的計算模式,大數(shù)據(jù)技術(shù)又可以以批處理、流處理以及交互分析分為三類。

      1.1.1 離線批處理(Batch Processing)技術(shù)

      批處理是指數(shù)據(jù)分析者將一批作業(yè)提交給操作系統(tǒng)后就不再干預(yù),由操作系統(tǒng)控制它們自動運行。這類數(shù)據(jù)處理技術(shù)以MapReduce和Hadoop系統(tǒng)為代表。

      1.1.2 實時流處理(Stream Processing)技術(shù)

      流處理是應(yīng)對流數(shù)據(jù)(大多是日志流)實時分析的數(shù)據(jù)處理模式,包括數(shù)據(jù)實時采集到數(shù)據(jù)實時計算,以及最終實現(xiàn)實時查詢服務(wù)三個階段,代表系統(tǒng)有Yahoo的S4系統(tǒng)、Twitter的Storm系統(tǒng)等。

      1.1.3 交互式分析(Interactive Analysis)技術(shù)

      應(yīng)用交互式分析技術(shù)可允許使用者以圖表的方式查詢、比較以及分析數(shù)據(jù),方便數(shù)據(jù)使用者更直觀地獲取數(shù)據(jù)所傳達的信息,具有前瞻性,以谷歌的Dremel系統(tǒng)、R等為代表。

      大數(shù)據(jù)技術(shù)眾多,大數(shù)據(jù)分析工具更是不勝枚舉。本文旨在針對大數(shù)據(jù)可視化技術(shù),對R語言的原理、特點等進行分析,特別是探索其在審計領(lǐng)域中對數(shù)據(jù)可視化方面的實際應(yīng)用價值。

      眾所周知,伴隨著信息化水平的不斷提高,大數(shù)據(jù)時代的不可逆轉(zhuǎn),審計人員面對著日益龐雜的數(shù)據(jù),如何從已獲得的原始數(shù)據(jù)中提煉分析其背后隱藏的信息,獲得所需要的審計證據(jù),這成為當(dāng)今審計工作的熱議話題。包括筆者有幸參與的審計署駐濟南特派員辦事處的審計工作中,在開展審計項目時,審計項目組會成立專門的數(shù)據(jù)分析組,同時審計人員都首先從數(shù)據(jù)分析過程中查找問題,并因此作為審計線索或確立審計重點,為后續(xù)的審計工作樹立了更明確的目標。

      可視化技術(shù)是大數(shù)據(jù)應(yīng)用的重點之一。研究表明,人類從外界獲得的信息約有80%以上來自于視覺系統(tǒng),當(dāng)大數(shù)據(jù)以圖形的方式直觀地呈現(xiàn)在審計人員面前時,無論從審計效率還是審計效果角度來說,二者都得到進一步的提高,可視化審計分析方式能夠以其直觀的展現(xiàn)方式幫助審計人員快速有效地交互分析大量的數(shù)據(jù),所提供的洞察力有助于審計人員更快、更準確地從復(fù)雜的被審計數(shù)據(jù)中發(fā)現(xiàn)審計線索。

      2 R語言的原理、特點及其優(yōu)勢

      2.1 R語言進行數(shù)據(jù)分析的原理

      R(官網(wǎng):http://www.r-project.org)是S語言(S語言是由AT&T?貝爾實驗室開發(fā)的一種用來進行數(shù)據(jù)探索、統(tǒng)計分析、作圖的解釋型語言)的一種實現(xiàn),最初S語言的實現(xiàn)版本主要是S-PLUS,但S-PLUS作為一種商業(yè)統(tǒng)計軟件,因其昂貴的價格并不被廣泛接受。后來由Auckland大學(xué)的Robert Gentleman和Ross Ihaka及其他志愿者開發(fā)出R語言,作為S語言的另一種實現(xiàn)并免費供數(shù)據(jù)分析者使用共享。此外,R作為軟件包統(tǒng)計軟件,目前已包含多達5 000+的包(packages)供使用者選擇運行不同功能。同時任何人都可以在R平臺開發(fā)包,提交給R語言官方,通過測試后便可發(fā)布網(wǎng)絡(luò)供全球的R語言使用者分享。包的功能包羅萬象,涵蓋數(shù)學(xué)算法、數(shù)據(jù)挖掘、生物學(xué)、社會學(xué)、神經(jīng)網(wǎng)絡(luò)等不同領(lǐng)域,可在鏡像(CRAN)上根據(jù)需要自行下載使用,CRAN除了可以下載R本身軟件包以外,也可以下載各種擴展包。

      圖1描述了數(shù)據(jù)分析的基本流程以及各個環(huán)節(jié)所需的基礎(chǔ)技術(shù)方法,以圖示箭頭方向,首先通過對原始數(shù)據(jù)的獲取,儲存至數(shù)據(jù)倉庫或者數(shù)據(jù)集市(指規(guī)模較小的數(shù)據(jù)倉庫)中,之后利用統(tǒng)計學(xué)、查詢等分析方法,進行數(shù)據(jù)挖掘,獲取重要信息,展現(xiàn)最終結(jié)果,比如可視化技術(shù)的應(yīng)用,以圖表或者報表的呈現(xiàn)方式供信息使用者進行分析決策。而數(shù)據(jù)分析與數(shù)據(jù)挖掘的最大區(qū)別在于:前者所應(yīng)用的統(tǒng)計學(xué)方法清楚,分析目標比較明確,而后者因為其目標、技術(shù)、手段等的模糊而增大了處理難度。

      R進行數(shù)據(jù)分析時,主要涉及圖1中,數(shù)據(jù)分析—數(shù)據(jù)挖掘—數(shù)據(jù)展示三個步驟。在進入大數(shù)據(jù)時代的今天,R能將其分析結(jié)果通過圖形方式展現(xiàn),因其強大的數(shù)據(jù)可視化功能而備受關(guān)注。

      2.2 R語言的特點及其處理大數(shù)據(jù)的優(yōu)勢

      在2016年第17屆KDNuggets網(wǎng)站(數(shù)據(jù)挖掘的專業(yè)網(wǎng)站,專門用于大數(shù)據(jù)、數(shù)據(jù)挖掘以及分析信息等方面知識共享)年度投票選舉最佳數(shù)據(jù)分析軟件中,所拋出的一個問題:在過去的12個月中,你所使用的用于數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)科學(xué)、機器學(xué)習(xí)等項目的分析工具是什么?該項投票吸引了很多參與者,包括數(shù)據(jù)分析和數(shù)據(jù)挖掘等社區(qū)網(wǎng)站的學(xué)者專家以及一些軟件供應(yīng)商等,參與的2 895人將從多達102種不同軟件的列表中選出他們所青睞使用的工具。相比較Python、SQL、Excel等常用統(tǒng)計軟件,R以49%的投票結(jié)果高居榜首,2015年KDNuggets網(wǎng)站投票結(jié)果中,R同樣成為最受青睞的數(shù)據(jù)分析工具。

      雖然選取的參與人群或者選取規(guī)??赡茉谝欢ǔ潭壬嫌惺H,但其投票結(jié)果畢竟代表了在數(shù)據(jù)分析、數(shù)據(jù)挖掘領(lǐng)域的分析工具的不同流行程度,尤其在語言角度代表了某一人群的使用偏好。從投票結(jié)果來看,R以大比重的優(yōu)勢穩(wěn)居第一,與其強大的數(shù)據(jù)分析以及數(shù)據(jù)可視化能力是分不開的。

      大數(shù)據(jù)時代,海量的政府服務(wù)數(shù)據(jù)在云端匯集,層出不窮的大數(shù)據(jù)使得審計人員在開展審計工作時很容易就陷入信息盲區(qū)。如何有效處理和理解這些數(shù)據(jù),成為人們無法回避的挑戰(zhàn)之一。目前市場上存在各種挖掘軟件,主流的商用挖掘工具如Unica、SAS/EM、Insightful Miner、IBM IM和SPSS等,這些軟件面向通用挖掘問題,功能較為完善,具備較好的性能。但一般都存在可擴展性不強、成本較高等缺點。同時,目前市場上也還沒有針對審計專用的可視化數(shù)據(jù)分析軟件,當(dāng)前可視化數(shù)據(jù)分析軟件往往側(cè)重于具體的應(yīng)用領(lǐng)域。比如Excel操作簡單,提供了基本二維圖形分析能力,但能處理的數(shù)據(jù)量有限。而R軟件是一款集成了數(shù)據(jù)操作、統(tǒng)計和可視化功能的優(yōu)秀開源軟件,有效克服了商用數(shù)據(jù)挖掘工具的缺點,同時具備強大的數(shù)據(jù)可視展現(xiàn)能力。R軟件的一大優(yōu)勢是分析人員可利用簡單的R程序語言描述處理過程,構(gòu)建強大的分析功能,并應(yīng)用其可視化技術(shù)以更直觀地方式展示分析結(jié)果。總結(jié)來說,R具備以下特征:

      (1)R是完全免費的共享資源。由于日前數(shù)據(jù)的急速膨脹,對數(shù)據(jù)分析工具的需求也隨之增長,但市場上一些商業(yè)軟件由于其高昂的價格常常讓許多數(shù)據(jù)分析者望而卻步。R語言作為免費資源,同時以其強大的數(shù)據(jù)分析以及圖表展現(xiàn)的強大功能而廣受好評;

      (2)R 軟件有RGui和RStudio兩種不同的常用界面,足以滿足不同數(shù)據(jù)分析者的使用偏好。與RGui比較而言,RStudio的使用界面相對較為友好,使用也較為方便,而RGui界面則較為精簡,使用者能夠依據(jù)自身喜好進行不同選擇。

      (3)R的軟件包短小精悍,R只需占50Mb左右的內(nèi)存,相比之下,很多商業(yè)統(tǒng)計軟件都非常龐大,下載有2-3G之大,占較多內(nèi)存空間的同時,給系統(tǒng)運行也帶來一定負荷。

      (4)R作為開源軟件,開放性好,此外,R與其他程序的兼容性也非常理想。比如,使用者可通過C語言、Java開發(fā)R的一些子程序,這些子程序又可在R里面無障礙運行。同時,R的開放性也反映在具有不同功能的包上,比如目前同樣使用廣泛的具有強大查詢功能的SQL語句,對于有SQL背景的R語言學(xué)習(xí)者而言,R的sqldf包可幫助使用者在R中使用SQL命令。此外,R的函數(shù)和各種包的透明性極好,使用者只需調(diào)出各種包的使用說明,便可掌握該包的基礎(chǔ)運行操作。

      (5)作為本就專門為統(tǒng)計和數(shù)據(jù)分析目的而開發(fā)的R軟件,除了具備各種強大的不同功能的包以及函數(shù)幫助運行程序進行數(shù)據(jù)分析之外,R還可繪出很多漂亮且靈活的圖形,具備強大的可視化功能,為便利使用者更直觀地分析數(shù)據(jù)。

      R的可視化功能強大源于其擁有眾多的繪圖軟件包,比如被廣泛接受且使用的“ggplot2”包?!癵gplot2”由一系列獨立的圖形部件組成,并能以多種不同的方式進行組合,這使得“ggplot2”不會局限于一些已經(jīng)定義好的統(tǒng)計圖形,而是可以根據(jù)使用者不同的需要量身定做。在具備繪制很多美觀的圖形之外,“ggplot2”還可以避免諸多繁瑣的細節(jié),例如添加圖例等。用“ggplot2”繪圖時,圖形的每個部分可以依次進行構(gòu)建,之后還可以進行編輯。此外,“ggplot2”還精心挑選了一系列預(yù)設(shè)圖形,因此在大部分的情形下使用者可以快速地繪制出許多高質(zhì)量的圖形。如果在格式上還有額外的需求,也可以利用“ggplot2”中的主題系統(tǒng)進行定制。R因其功能強大、設(shè)計人性化的軟件包,使得R在實際應(yīng)用中作為數(shù)據(jù)可視化的工具越來越被數(shù)據(jù)分析者所廣泛認同及青睞。

      在數(shù)據(jù)日益龐雜的今天,審計領(lǐng)域也受到大數(shù)據(jù)的沖擊。如果審計人員掌握數(shù)據(jù)可視化技術(shù),從視覺角度直觀感知,利用圖形展現(xiàn)數(shù)據(jù)之間相關(guān)關(guān)系,更能做到對獲取的數(shù)據(jù)一個整體、宏觀的把握。而R語言就作為一門專門用于統(tǒng)計計算和作圖的工具,能夠滿足審計人員對于數(shù)據(jù)分析的諸多基礎(chǔ)預(yù)期。通過R的數(shù)據(jù)可視化處理技術(shù)可將被審計數(shù)據(jù)轉(zhuǎn)化為審計人員可以分析觀察的圖形和圖像,同時審計人員再結(jié)合自己的審計背景知識,通過視覺系統(tǒng)對可視化的圖形和圖像進行分析、觀察和認知,從而從總體上系統(tǒng)地理解和分析被審計數(shù)據(jù)的內(nèi)涵和特征。另外,審計人員交互地改變輸出的可視化圖形和圖像,從不同的方面獲得對被審計數(shù)據(jù)的理解,從而全面地分析被審計數(shù)據(jù)。

      3 結(jié) 語

      由于經(jīng)濟社會的不斷發(fā)展,數(shù)據(jù)可視化技術(shù)的優(yōu)勢及其需求被不斷放大,同樣,在審計領(lǐng)域,也越來越受到國家審計的高度重視。筆者在參與的多個審計署視頻會議以及工作培訓(xùn)中,培訓(xùn)中都談到R語言在可視化方面所創(chuàng)造的巨大價值,在實際審計應(yīng)用工作中,審計人員通過R語言建模,對數(shù)據(jù)分析結(jié)果所繪制出的精美圖形,足以讓人眼前一亮,審計線索也更加清晰明了,無疑給審計工作的開展提供了強有力的支持。當(dāng)然,R語言擁有眾多其他統(tǒng)計軟件無法匹及的優(yōu)勢之外,也有自身固有的缺陷,但它與其他工具之間良好的兼容性足以彌補這些不足,而且R獨特且堪稱完美的數(shù)據(jù)可視化功能也足以使其成為數(shù)據(jù)分析者青睞的理由。雖然,日前R語言應(yīng)用于審計實踐的案例還不是很多,但有理由相信,它完全可以憑借其勢不可當(dāng)?shù)膬?yōu)勢在審計行業(yè)中得到越來越多的推廣與使用。

      主要參考文獻

      [1]陳偉.計算機輔助審計原理及應(yīng)用[M].北京:清華大學(xué)出版社,2016.

      [2]陳明奇.大數(shù)據(jù)國家發(fā)展戰(zhàn)略呼之欲出——中美兩國大數(shù)據(jù)發(fā)展戰(zhàn)略對比分析[J].人民論壇,2013(15):28-29.

      [3]張卓,宣蕾,郝樹勇.可視化技術(shù)研究與比較[J].軟件學(xué)報,2003(10):1717-1727.

      [4]任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014(9):1909-1936.

      [5]陳偉,SMIELIAUSKAS Wally.大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計:機遇、挑戰(zhàn)與方法[J].計算機科學(xué),2016(1):8-13.

      猜你喜歡
      大數(shù)據(jù)審計數(shù)據(jù)可視化大數(shù)據(jù)
      大數(shù)據(jù)時代審計風(fēng)險再思考
      試探財務(wù)共享服務(wù)模式下的大數(shù)據(jù)審計
      會計之友(2017年6期)2017-03-18 23:56:06
      大數(shù)據(jù)時代背景下本科教學(xué)質(zhì)量動態(tài)監(jiān)控系統(tǒng)的構(gòu)建
      可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計研究
      我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
      科技傳播(2016年19期)2016-12-27 14:53:29
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      大數(shù)據(jù)審計在“三農(nóng)”工作中的應(yīng)用分析
      中國市場(2016年28期)2016-07-15 05:25:34
      數(shù)據(jù)可視化在新聞生產(chǎn)中的應(yīng)用研究
      今傳媒(2016年3期)2016-03-28 00:30:43
      大數(shù)據(jù)時代的企業(yè)內(nèi)審變革
      延吉市| 定西市| 二连浩特市| 平阴县| 密云县| 丰都县| 临武县| 绍兴县| 武穴市| 正定县| 广南县| 博客| 宜城市| 大关县| 龙胜| 拜泉县| 简阳市| 阳东县| 克什克腾旗| 保德县| 锦州市| 田东县| 原阳县| 获嘉县| 闸北区| 普陀区| 疏勒县| 定边县| 宾川县| 辽阳市| 郧西县| 陇川县| 泸州市| 公安县| 九台市| 个旧市| 突泉县| 大渡口区| 德庆县| 陇西县| 奉节县|