• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘技術在發(fā)掘?qū)徲嬕?guī)律中的應用研究

      2022-02-22 01:38:54劉洋田富軍
      經(jīng)濟師 2022年1期
      關鍵詞:大數(shù)據(jù)審計網(wǎng)絡爬蟲數(shù)據(jù)可視化

      劉洋 田富軍

      摘 要:習近平總書記在中央審計委員會第一次會議上指出:要堅持科技強審,加強審計信息化建設。為探索實現(xiàn)審計方法由“數(shù)據(jù)驗證型”向“數(shù)據(jù)挖掘型”轉(zhuǎn)變,審計目標從“查糾錯弊”向“風險控制”轉(zhuǎn)變,文章以主題網(wǎng)絡爬蟲和數(shù)據(jù)可視化分析技術為基礎,設計了審計大數(shù)據(jù)采集分析框架,而后以軍隊采購網(wǎng)為對象進行實例分析,挖掘軍隊招標采購中易發(fā)、頻發(fā)問題的規(guī)律,為今后審計工作實現(xiàn)“精確制導”提供有力支撐,充分展示大數(shù)據(jù)信息技術在提升審計效率,助力審計高質(zhì)量創(chuàng)新發(fā)展具有重要意義。

      關鍵詞:大數(shù)據(jù)審計 網(wǎng)絡爬蟲 數(shù)據(jù)可視化 審計規(guī)律

      中圖分類號:F239.1

      文獻標識碼:A

      文章編號:1004-4914(2022)01-115-02

      大數(shù)據(jù)審計的總體思路是“總體分析、系統(tǒng)研究、發(fā)現(xiàn)疑點、分散核實、精確打擊”,目前,利用大數(shù)據(jù)技術搜尋審計證據(jù)、確定審計事實的“分散核實”研究較多,但是利用大數(shù)據(jù)技術發(fā)掘?qū)徲媶栴}規(guī)律,提供方向指引的“總體分析、系統(tǒng)研究”卻很少,實例應用研究更是少見。因此,研究運用大數(shù)據(jù)信息技術打破“信息孤島、數(shù)據(jù)繭房”桎梏,推動大數(shù)據(jù)審計由“數(shù)據(jù)驗證型”向“數(shù)據(jù)挖掘型”轉(zhuǎn)變具有重要研究意義和現(xiàn)實意義。

      一、技術背景

      1.主題網(wǎng)絡爬蟲。網(wǎng)絡爬蟲技術是一種面向萬維網(wǎng),通過運行預設的程序或腳本,實現(xiàn)客戶端(瀏覽器)和服務端(服務器)之間自動交互,完成對萬維網(wǎng)特定網(wǎng)頁特定內(nèi)容自動、精準、大范圍抓取的一種技術。網(wǎng)絡爬蟲主要有通用型、主題(聚集)型、優(yōu)先型、增量型、深層型等不同類型。有別于通用網(wǎng)絡爬蟲,主題網(wǎng)絡爬蟲不是漫無目的地在網(wǎng)絡上爬取足夠多的頁面,而是根據(jù)設定目標,根據(jù)網(wǎng)頁中標題、關鍵詞、文本內(nèi)容等具有代表性的信息,結合適當?shù)木W(wǎng)頁篩選策略,過濾掉與主題無關的網(wǎng)頁,將與主題相關的鏈接存入待爬取的URL隊列進行爬取。運用PageRank、HillTop等搜索策略,使爬蟲有次序、有目的地搜索,保證主題爬蟲選擇更合理的爬行路徑,高效地完成網(wǎng)頁爬取任務。獲取到網(wǎng)頁源文件后,根據(jù)需求篩選網(wǎng)頁上有效數(shù)據(jù),結合數(shù)據(jù)處理的難易程序,選擇適當?shù)母袷酱鎯?shù)據(jù),常見的存儲格式有CSV、Excel、Html等。實現(xiàn)網(wǎng)絡爬蟲的工具主要有兩類:可編程的工具,如R、Python等;另一類是現(xiàn)成的爬蟲工具,如:八爪魚。

      2.數(shù)據(jù)可視化。象形文字的出現(xiàn)表明:通過圖形圖像獲取信息是人類獲取信息最原始、最直觀、最高效的方式,常言道:一圖勝千言。大數(shù)據(jù)可視化分析技術是從人作為分析主體和需求的視角出發(fā),強調(diào)基于人機交互的、符合人的認知規(guī)律的分析方法,目的是將人所具備的、機器并不擅長的認知能力融入數(shù)據(jù)分析過程中。大數(shù)據(jù)可視化分析技術包括文本可視化技術、多維數(shù)據(jù)可視化技術、網(wǎng)絡可視化技術、時空可視化技術等,其主要表現(xiàn)方式有標簽云、柱狀圖、折線圖、散點圖、氣泡圖、熱力圖、雷達圖等。常用的大數(shù)據(jù)可視化分析工具主要有兩類:一類是開源的、可編程的工具,如R、Python等;另一類是商業(yè)化軟件分析工具,如Tableau、SAS等。

      二、審計數(shù)據(jù)采集分析框架構建

      審計數(shù)據(jù)采集分析框架主要包含:審計數(shù)據(jù)采集模塊、審計數(shù)據(jù)可視化展示、審計規(guī)律分析三個模塊。

      1.審計數(shù)據(jù)采集模塊。審計數(shù)據(jù)采集前,需要以審計計劃、審計目標需求為牽引,對需要采集的目標數(shù)據(jù)進行預定義,確定采集方向,以確保采集數(shù)據(jù)準確有效,避免浪費人力物力。比如,在審計中需要核實參與軍隊采購投標人的資質(zhì)是否符合要求,就需要從工商、稅務、行政處罰等數(shù)據(jù)為目標進行采集。在確定了采集的目標后,需尋找能夠完成審計目標的可靠數(shù)據(jù)來源,如:官方發(fā)布的可靠數(shù)據(jù),軍隊、政府部門的公開網(wǎng)站(如:工商、稅務、政府、軍隊行政處罰等),民間有公信力的數(shù)據(jù)提供方(如:天眼查、企查查),企業(yè)的官方網(wǎng)站等。確定了數(shù)據(jù)來源之后,需要對目標網(wǎng)站的結構特征進行分析,根據(jù)網(wǎng)站的個性,編寫爬蟲程序,然后根據(jù)網(wǎng)頁的特點,結合審計需求,抓取有效數(shù)據(jù)。最后,將所獲取的數(shù)據(jù)根據(jù)下步使用需要,采取不同的方式進行存儲。

      2.審計數(shù)據(jù)可視化展示模塊。大數(shù)據(jù)環(huán)境下,采集來的審計數(shù)據(jù)在數(shù)量和復雜程度上都對審計數(shù)據(jù)分析帶來巨大挑戰(zhàn),如何從包含大量干擾因素的數(shù)據(jù)中提煉有效信息,揭示未知的或驗證已知的規(guī)律,為審計人員做出審計決策提供數(shù)據(jù)支持,實現(xiàn)“精確制導”下的“精確打擊”,是大數(shù)據(jù)時代背景下審計工作必須解決的問題。數(shù)據(jù)可視化技術助于審計人員探索分析和解釋復雜的海量數(shù)據(jù),將采集到的審計數(shù)據(jù)轉(zhuǎn)化為圖形和圖像后,審計人員可結合自身的審計知識和實踐經(jīng)驗,通過直觀感知,進而從總體上系統(tǒng)理解和分析所獲取的審計數(shù)據(jù)的內(nèi)涵特征。此外,審計人員還可交互地改變可視化軟件的設置,輸出不同類別的圖形、圖像,多角度地分析審計數(shù)據(jù)。

      3.審計規(guī)律分析模塊。在經(jīng)過采集數(shù)據(jù)的可視化展示后,根據(jù)數(shù)據(jù)分析展示的結果的直觀感受結合自身的審計知識與審計實踐經(jīng)驗,從中分析出數(shù)據(jù)所蘊含其中的規(guī)律,從而根據(jù)發(fā)現(xiàn)的規(guī)律把握今后審計工作的方向,有力提升審計效率,指導審計實踐。

      三、基于軍隊采購網(wǎng)實例運用

      “軍隊采購網(wǎng)”是中央軍委后勤保障部針對部隊集中采購量大、采購需求分散等難題,專門建立的網(wǎng)上采購平臺,該平臺堅持“公正公開,陽光透明,服務部隊,保障打贏”的原則,為提升部隊戰(zhàn)斗力發(fā)揮積極作用,通過幾年的運行,軍隊采購網(wǎng)積累了相當數(shù)量的數(shù)據(jù),具備了大數(shù)據(jù)分析基礎。在實際運行中,少部分無良供應商采用違規(guī)手段非法獲取訂單,給部隊戰(zhàn)斗力提升帶來不利影響,為此主管部門主動作為,懲處了采購活動中的違法失信行為,并在“軍隊采購失信名單”欄目公示了近幾年來所有的違法失信行為查處情況。若能對近幾年所有違法失信行為進行“總體分析、系統(tǒng)研究”,發(fā)掘具有傾向性的高發(fā)、頻發(fā)違法失信行為,并以分析結果為錨定問題線索,將為“精確打擊”提供有效指引。下面以Python語言為工具,運用審計數(shù)據(jù)采集分析框架來實現(xiàn)預期目標。

      1.審計數(shù)據(jù)采集。根據(jù)審計目標需求,以軍隊采購網(wǎng)為目標網(wǎng)站,以“軍隊采購失信名單”網(wǎng)頁數(shù)據(jù)為目標數(shù)據(jù),分析違法失信行為,發(fā)掘具有傾向性的問題規(guī)律,確定初始URL為:https://www.plap.cn/supplierCr/common/list.html。通過對該網(wǎng)頁進行分析發(fā)現(xiàn)該網(wǎng)頁設置了反爬措施,無法直接獲取相關數(shù)據(jù),本次數(shù)據(jù)獲取需采用偽裝成真實用戶訪問網(wǎng)頁的方式獲取數(shù)據(jù)。通過調(diào)用request.post方法獲取網(wǎng)頁源文本并實現(xiàn)自動翻頁,而后調(diào)用BeatifulSoup來解析獲取到的源文本,根據(jù)網(wǎng)頁數(shù)據(jù)排列特征,篩選出<tr>標簽下的信息,最后將獲取數(shù)據(jù)按Excel格式存儲。

      2.審計數(shù)據(jù)可視化分析展示。(1)文本可視化。經(jīng)綜合考量,本次實例分析采用文本可視化技術最為合適。大數(shù)據(jù)環(huán)境下,大量的文本數(shù)據(jù)使審計人員進行分析的難度越來越大,傳統(tǒng)的瀏覽和篩選等方法無法滿足大數(shù)據(jù)環(huán)境下非結構化數(shù)據(jù)審計的需要。將文本的內(nèi)容或規(guī)律以視覺符號的形式展示給審計人員,有助于審計人員利用視覺感知的優(yōu)勢來快速獲取大數(shù)據(jù)中蘊含的重要信息,從而發(fā)現(xiàn)審計線索。文本可視化技術的意義在于能夠?qū)⑽闹兄刑N含的語義特征(如詞頻、重要程度、動態(tài)演化規(guī)律、邏輯結構等)直觀地展示出來。標簽云(tag cloud)是一種典型的文本可視化技術,可以將關鍵詞根據(jù)詞頻或其他規(guī)則進行排序,按照一定的規(guī)律進行布局排列,用字體大小、顏色深淺等易于視覺感知的圖形屬性對關鍵詞進行可視化展示,進而快速直觀地掌握文本的要點,發(fā)現(xiàn)審計線索。(2)設置停用詞庫。在實際的分析展示中發(fā)現(xiàn),直接以源文本生成標簽云詞圖,部分詞頻較高,卻無法體現(xiàn)具體的違法失信行為的無效詞會出現(xiàn)在云詞圖中,干擾標簽云詞圖展示效果,致使真正違法失信具體行為被掩蓋,如:“根據(jù)”“公司”“依據(jù)”“違規(guī)違紀”“相互”“提供”等詞。為此,為實現(xiàn)分析目的,本次分析建立了無效詞集合的停用詞庫,在分析中統(tǒng)計詞頻時屏蔽停用詞庫內(nèi)的詞語,排除無效詞干擾,得到更加精準有效的展示效果,實現(xiàn)預期分析目標。(3)生成標簽去詞圖。以獲取到的“嚴重違法失信行為的具體情形”為源文本,調(diào)用jieba分詞庫,把源文本的句子全部切分為單獨的詞語,形成一個由詞語組成的文件,而后統(tǒng)計詞頻。根據(jù)分詞及詞頻統(tǒng)計結果,調(diào)用wordcloud庫生成標簽云詞圖。

      3.審計規(guī)律分析。(1)通過爬蟲得到采集數(shù)據(jù)結果,可以看出,主題爬蟲腳本成功實現(xiàn)了目標數(shù)據(jù)獲取,得到軍隊采購失信名單欄目數(shù)據(jù),為下步分析,提供數(shù)據(jù)支撐。同時,獲取的失信公司名稱,處罰結果等數(shù)據(jù)對于審計工作也有較大現(xiàn)實意義,比如:在審計中若對參加的投標人、投標公司是否因曾經(jīng)受過處理或在處罰影響期內(nèi)違規(guī)參加采購招標活動有疑問,可快速檢索比對實現(xiàn),進而發(fā)現(xiàn)是否違規(guī)。(2)通過生成的標簽云詞圖,可以直觀明了地發(fā)現(xiàn):“虛假”“串通”“圍標”“串標”這幾個詞語明顯大于其他詞語,色彩鮮艷,對比度高,直入眼簾,表明:在軍隊招投標采購中使用虛假文件,投標人之間圍標、串標,招標人與投標人相互串通是最主要、最普遍、最易發(fā)、高發(fā)的違規(guī)失信行為,在今后的招標采購審計中可以上述幾個問題重要錨點進行審計,重點關注此類的問題。其次,“核減”“工程造價”“上限”“轉(zhuǎn)包”“虛高”等詞語也較為突出,表明在工程造價超上限,違規(guī)轉(zhuǎn)包,價格虛高等問題還一定程度存在,在今后的審計中也應該關注此類情形。(3)通過數(shù)據(jù)分析展示,得到了可靠的結果,較好地貫徹了大數(shù)據(jù)審計“總體分析、系統(tǒng)研究、發(fā)現(xiàn)疑點、分散核實、精確打擊”的思路。實現(xiàn)了審計方向從依靠審計人員依靠長期審計實踐小樣本經(jīng)驗的“經(jīng)驗導向型”審計向依托大數(shù)據(jù)分析發(fā)掘規(guī)律的“數(shù)據(jù)支撐型”審計的轉(zhuǎn)變,拓寬了大數(shù)據(jù)信息技術的在審計實踐中的應用邊界,有力驗證了審計數(shù)據(jù)采集分析框架的有效性。

      四、總結與展望

      隨著大數(shù)據(jù)時代的深入發(fā)展,審計必將從“查糾錯弊式的回頭看”向“風險預警式的提前管”發(fā)展,這些發(fā)展必將以高質(zhì)量的數(shù)據(jù)采集分析為基礎。“工欲善其事,必先利其器”,大數(shù)據(jù)信息技術就是這樣一把“利器”。面對現(xiàn)實中更加復雜的審計實踐,還需大力推進人工智能、5G、物聯(lián)網(wǎng)、量子科技、區(qū)塊鏈、高性能計算等信息技術與審計深度融合賦能,向前沿信息技術要審計戰(zhàn)斗力,解決當前審計面臨的矛盾和痛點,開創(chuàng)智能化主導、融合式聚變新局面,不斷推進新時代審計高質(zhì)量發(fā)展。

      參考文獻:

      [1] 徐超.大數(shù)據(jù)背景下審計數(shù)據(jù)采集技術與方法研究[J].會計之友,2020(19):114-119.

      [2] 吳則建.主題網(wǎng)絡爬蟲在商業(yè)銀行內(nèi)部審計中的應用[J].中國內(nèi)部審計,2019(11):50-53.

      [3] 陳偉.基于大數(shù)據(jù)可視化技術的信息系統(tǒng)AC審計[J].會計之友,2020(1):120-121.

      [4] 陳偉,居江寧.基于大數(shù)據(jù)可視化技術的審計線索特征挖掘方法研究[J].審計研究,2018(1):16-21.

      [5] 孟兵,李杰臣.零基礎學Python爬蟲、數(shù)據(jù)分析與可視化從入門到精通[M].機械工業(yè)出版社,2020:1-200.

      [6] 張寶剛.基于Python的網(wǎng)絡爬蟲與反爬蟲技術的研究[J].電子世界,2021(4):86-87.

      (作者單位:中國人民解放軍陸軍勤務學院 重慶 400000)

      (責編:賈偉)

      猜你喜歡
      大數(shù)據(jù)審計網(wǎng)絡爬蟲數(shù)據(jù)可視化
      試探財務共享服務模式下的大數(shù)據(jù)審計
      會計之友(2017年6期)2017-03-18 23:56:06
      大數(shù)據(jù)時代背景下本科教學質(zhì)量動態(tài)監(jiān)控系統(tǒng)的構建
      可視化:新媒體語境下的數(shù)據(jù)、敘事與設計研究
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設計與實現(xiàn)
      我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
      科技傳播(2016年19期)2016-12-27 14:53:29
      基于R語言的大數(shù)據(jù)審計方法研究
      基于社會網(wǎng)絡分析的權威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡爬蟲的實現(xiàn)研究
      大數(shù)據(jù)審計在“三農(nóng)”工作中的應用分析
      中國市場(2016年28期)2016-07-15 05:25:34
      淺析如何應對網(wǎng)絡爬蟲流量
      中國市場(2016年23期)2016-07-05 04:35:08
      马尔康县| 钟山县| 庆元县| 朝阳县| 河北省| 黄龙县| 潞西市| 香格里拉县| 河北省| 永定县| 新晃| 瑞安市| 海兴县| 遵义市| 枣庄市| 永济市| 梁河县| 竹北市| 玉林市| 虹口区| 保康县| 维西| 竹溪县| 根河市| 利川市| 且末县| 峡江县| 临潭县| 晋江市| 永川市| 铁岭市| 汉川市| 德兴市| 三台县| 维西| 兰州市| 普洱| 盘锦市| 德令哈市| 蛟河市| 安平县|