• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)數(shù)據(jù)分析上的應(yīng)用

      2010-11-15 01:32:36
      巢湖學院學報 2010年6期
      關(guān)鍵詞:稅務(wù)系統(tǒng)巢湖數(shù)據(jù)倉庫

      曹 騫 許 磊

      (1巢湖學院計算機系,安徽 巢湖,238000)

      (2中國科技大學計算機學院,安徽 合肥,230000)

      (3巢湖學院物理系,安徽 巢湖,238000)

      數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)數(shù)據(jù)分析上的應(yīng)用

      曹 騫1,2許 磊3

      (1巢湖學院計算機系,安徽 巢湖,238000)

      (2中國科技大學計算機學院,安徽 合肥,230000)

      (3巢湖學院物理系,安徽 巢湖,238000)

      本文主要介紹了巢湖市地稅局稅務(wù)系統(tǒng)的系統(tǒng)結(jié)構(gòu)和關(guān)鍵技術(shù)。該系統(tǒng)主要運用數(shù)據(jù)倉庫、ETL、數(shù)據(jù)挖掘等關(guān)鍵技術(shù)。

      數(shù)據(jù)分析系統(tǒng);數(shù)據(jù)倉庫;ETL

      1 引言

      巢湖市地稅局稅務(wù)系統(tǒng)管理中心以稅務(wù)處理系統(tǒng)為基礎(chǔ),開發(fā)了一系列的增值業(yè)務(wù)。隨著稅務(wù)系統(tǒng)的運行,納稅企業(yè)稅單越來越多,系統(tǒng)累積的各種數(shù)據(jù)規(guī)模越來越大,累積的數(shù)據(jù)中包含著豐富的有價值信息,能夠幫助巢湖市地稅局更好的處理稅務(wù)的征收,與稅務(wù)的稽查。因此,在管理中心的日常業(yè)務(wù)中,對稅務(wù)系統(tǒng)中各種數(shù)據(jù)的各種分析需求已經(jīng)逐漸顯露出來。

      目前解決分析需求的辦法是,需要有專門的技術(shù)人員對最底層的核心數(shù)據(jù)庫進行手工操作,,用手工導出大量的相關(guān)的用戶數(shù)據(jù),稅務(wù)記錄數(shù)據(jù),然后通過相應(yīng)的工具軟件制作相應(yīng)的報表。這樣是能找出大量的數(shù)據(jù),但是無法對取得的數(shù)據(jù)進行全面深入的分析,很難在海量的數(shù)據(jù)中找到潛在的有價值的信息,同時操作復雜繁瑣,數(shù)據(jù)間的相關(guān)性很難找到,響應(yīng)時間長,報表制作周期長,容易出錯,而且由于直接對底層數(shù)據(jù)庫進行操作,對于數(shù)據(jù)的安全性和系統(tǒng)的安全性是一種潛在的威脅。怎樣解決目前的問題呢?方法是稅務(wù)系統(tǒng)的基礎(chǔ)上,構(gòu)建一個能提供多種對數(shù)據(jù)深入分析方法,擴展當前系統(tǒng)使之具有靈活簡單的報表定制功能,同時為系統(tǒng)平臺的安全性提供完整的解決方案,為數(shù)據(jù)建立綜合的稅務(wù)分析平臺。找出相關(guān)的數(shù)據(jù)的邏輯性,與關(guān)聯(lián)性,為稅務(wù)的核查,提供相應(yīng)的幫助,本文主要從總體設(shè)計、數(shù)據(jù)倉庫建模、ETL、系統(tǒng)功能等方面來論述,將系統(tǒng)建設(shè)重點放在內(nèi)層數(shù)據(jù)倉庫建設(shè),并在數(shù)據(jù)倉庫分離分析和業(yè)務(wù)環(huán)境的基礎(chǔ)上,建立一個基于Web的B/S架構(gòu)的企業(yè)級數(shù)據(jù)分析框架,滿足本稅務(wù)征收和稅務(wù)稽查等部門的工作業(yè)務(wù)分析需求。

      2 總體設(shè)計

      2.1 體系結(jié)構(gòu)

      稅務(wù)系統(tǒng)綜合數(shù)據(jù)分析平臺采用了基于瀏覽器的三層結(jié)構(gòu)(B/S架構(gòu)),體系結(jié)構(gòu)如圖1所示。系統(tǒng)需要定期(每周/月/季度/年)從業(yè)務(wù)系統(tǒng)(稅務(wù)系統(tǒng)、稅務(wù)部門網(wǎng)站服務(wù)器、系統(tǒng)日志等)里抽取分析平臺所需要的分析數(shù)據(jù),增量式地更新稅務(wù)系統(tǒng)綜合數(shù)據(jù)倉庫SMMAIL-DW,這部分抽取工作對底層的原始數(shù)據(jù)的視圖進行操作。保護了原始數(shù)據(jù)的安全性。SMMAIL-DW存儲了以客戶為中心的特征數(shù)據(jù)和行為數(shù)據(jù),以網(wǎng)頁為中心的web訪問數(shù)據(jù)等,應(yīng)用服務(wù)器定期(每周/日/年)對這些數(shù)據(jù)進行處理(匯總、聚合、統(tǒng)計、分類等),同時應(yīng)用服務(wù)器提供還提供相應(yīng)的查詢和分析的接口,對分析結(jié)果數(shù)據(jù)提供基于WEB的展示的接口,最后應(yīng)用服務(wù)器定期(每周/日/年)生成各類數(shù)據(jù)分析報表。WEB服務(wù)器端通過ASP.Net程序調(diào)用應(yīng)用服務(wù)器的各種功能,用戶通過瀏覽器直接訪問本系統(tǒng)。

      圖1

      2.2 系統(tǒng)組成

      根據(jù)上述體系結(jié)構(gòu),的整個系統(tǒng)組成如下所示:

      1)ETL:包括原始數(shù)據(jù) ETL、參數(shù)設(shè)置、系統(tǒng)檢錯等功能;

      2)業(yè)務(wù)邏輯:包括數(shù)據(jù)處理、查詢分析、數(shù)據(jù)挖掘建模、結(jié)果顯示等功能;

      3)前端應(yīng)用:包括納稅企業(yè)分析、稅務(wù)分析、Web分析、系統(tǒng)運行分析、系統(tǒng)管理等功能。

      3 關(guān)鍵技術(shù)

      3.1 數(shù)據(jù)倉庫設(shè)計

      數(shù)據(jù)倉庫總體結(jié)構(gòu)如圖2:

      圖2

      原始稅務(wù)業(yè)務(wù)數(shù)據(jù)視圖通過ETL程序自動導入到數(shù)據(jù)倉庫中的事實表中。除了事實表,數(shù)據(jù)倉庫中還包括了企業(yè)信息、稅單信息,賬單信息等維表。在數(shù)據(jù)倉庫的基礎(chǔ)上,為了滿足各種數(shù)據(jù)分析需求,再為不同的分析主題中建立相應(yīng)的數(shù)據(jù)集市。

      對于數(shù)據(jù)倉庫中的按月匯總的明細事實數(shù)據(jù),由于其數(shù)據(jù)量會非常大,可以按照保持一個時間周期(比如一年)之后自動按上一級時間粒度匯總的策略來保存歷史數(shù)據(jù),這樣在明細表中就可以始終保持一個時間周期的細節(jié)數(shù)據(jù)。如圖3所示:

      圖3

      4 ETL設(shè)計

      4.1 ETL高層設(shè)計

      ETL高層設(shè)計是指將數(shù)據(jù)倉庫中的數(shù)據(jù)模型與其涉及到的OLTP系統(tǒng)中的相關(guān)數(shù)據(jù)表建立起對應(yīng)關(guān)系,設(shè)計表級數(shù)據(jù)的初始導入及增量導入規(guī)則,將訂納稅企業(yè)信息、稅單的處理、企業(yè)的地理信息、系統(tǒng)日志、、網(wǎng)站內(nèi)容訪問數(shù)據(jù)等以視圖的方式導入。

      4.2 聚合策略設(shè)計

      聚合是指在某一周期(如一個月,一年等)對事實表中的數(shù)據(jù)做按照一定規(guī)則的匯總,以減小數(shù)據(jù)量,提高絕大部分查詢的速度;同時將歷史數(shù)據(jù)中最能體現(xiàn)信息,最有保存價值的數(shù)據(jù)做保留,提高數(shù)據(jù)庫的使用效率。

      在聚合維度的選取上我們要遵循的原則:維度頻度頻繁訪問原則:只有那些被經(jīng)常需要使用到的維度,才有做聚合的意義;可選度小原則:指維度中可選用的值較少,只有這樣,聚合后才可能大規(guī)模的減小數(shù)據(jù)量。

      具體實施中,我們將用軟件對各個事實表的數(shù)據(jù)量進行一個大致的計數(shù),然后根據(jù)以上原則自動調(diào)用事先寫好的聚合的相應(yīng)具體算法策略。

      4.3 ETL異常處理機制

      當ETL執(zhí)行過程中發(fā)生異常時,ETL程序要記錄發(fā)生異常的詳細錯誤信息,發(fā)生錯誤的文件,錯誤的SQL語句,錯誤數(shù)據(jù)所在的行和列和發(fā)生錯誤的時間,同時根據(jù)數(shù)據(jù)的類型,根據(jù)提前指定的軟件糾錯機制,程序自動執(zhí)行相應(yīng)的操作,保證系統(tǒng)的運行,對于沒有預測到的錯誤,系統(tǒng)會將錯誤記錄分別歸類成異常數(shù)據(jù)文件,異常數(shù)據(jù)文件按照不同的數(shù)據(jù)類別進行分類存放。這樣用戶就可以快速的定位到有錯誤的數(shù)據(jù),同時制定相應(yīng)的解決方案,使之方便對異常數(shù)據(jù)文件進行集中處理。

      在定位到錯誤位置并找出錯誤原因以后,通過修改源數(shù)據(jù),增加糾錯程序方案,再次通過ETL程序增量導入到數(shù)據(jù)倉庫中。

      4.4 ETL流程設(shè)計

      ETL流程包括初始化導入和增量導入。初始化導入包括手工維護維度裝載、緩慢變化維表數(shù)據(jù)裝載、事實表數(shù)據(jù)裝載。增量導入包括緩慢變化維表數(shù)據(jù)裝載、事實表數(shù)據(jù)裝載階段、數(shù)據(jù)匯總和聚合以及異常情況處理。

      5 系統(tǒng)功能

      5.1 納稅企業(yè)分析

      首先要提供一個統(tǒng)一的納稅企業(yè)數(shù)據(jù)視圖,通過這個視圖,可以對一個那納稅企業(yè)的多個層次信息同時進行反映,包括基本信息、企業(yè)相關(guān)的各種賬務(wù)報表信息。

      在統(tǒng)一的納稅企業(yè)數(shù)據(jù)視圖基礎(chǔ)上,平臺能夠提供多種可視化查詢和多維分析手段,對納稅企業(yè)數(shù)據(jù)進行查詢、切片、旋轉(zhuǎn)、鉆取等操作,從多個不同的角度查看數(shù)據(jù)。

      在查詢和多位分析的基礎(chǔ)上,平臺提供更深入的數(shù)據(jù)挖掘技術(shù)對納稅企業(yè)進行深入分析,包括根據(jù)企業(yè)基本信息和稅單信息進行企業(yè)細分,需要稽查的潛在企業(yè)分析,根據(jù)企業(yè)財務(wù)報表信息進行企業(yè)分析。有分析數(shù)據(jù)作出企業(yè)大致的經(jīng)營情況為稅務(wù)的稽查,提供一定的范圍的幫助。

      所有統(tǒng)計、查詢和數(shù)據(jù)挖掘分析的結(jié)果都能夠生成基于Web的報表,包括固定格式報表和用戶自定義報表兩種形式。

      5.2 權(quán)限管理

      本平臺的用戶基本分為三個層次:稅務(wù)管理層面;稅務(wù)和稽查局長;技術(shù)部工程師,不同層次的用戶具有不同的操作權(quán)限。因此系統(tǒng)要提供完整的“操作許可(Permission)-角色(Role)-用戶(User)-機構(gòu)(Group)”的四層權(quán)限模型。 首先提供用戶管理功能,可以增加、刪除、修改用戶信息;其次建立所有的操作許可;然后在操作許可上建立不同的角色,一個角色可以有多個不同的操作許可;最后將角色分配給用戶。保障系統(tǒng)原始數(shù)據(jù)的安全與保密性。

      5.3 系統(tǒng)監(jiān)控

      從實時系統(tǒng)運行日志和網(wǎng)絡(luò)設(shè)備日志數(shù)據(jù)中采集標志性數(shù)據(jù),從而反映整個系統(tǒng)運行的情況,比如所有納稅企業(yè)、當前以納稅企業(yè),需要納稅企業(yè),減稅企業(yè)等等。系統(tǒng)提供用戶可定制的基于Web的系統(tǒng)監(jiān)控報表;

      在系統(tǒng)運行數(shù)據(jù)采集和查詢的基礎(chǔ)上,需要進一步對系統(tǒng)運行狀態(tài)進行預測分析,即根據(jù)采集到的系統(tǒng)日志、網(wǎng)絡(luò)設(shè)備日志等數(shù)據(jù),對系統(tǒng)的運行狀態(tài)建立預測模型,從而在檢查系統(tǒng)運行狀態(tài)的同時,能夠?qū)ο到y(tǒng)下一步可能出現(xiàn)的情況進行預測分析。對于所有的預測模型,平臺能夠自動定時的根據(jù)采集的日志數(shù)據(jù)進行重新訓練和優(yōu)化,從而不斷提升模型精度。

      6 小結(jié)

      巢湖市地稅局稅務(wù)分析系統(tǒng)根據(jù)上述系統(tǒng)框架,基于數(shù)據(jù)挖掘等關(guān)鍵技術(shù)開發(fā)而成。數(shù)據(jù)倉庫設(shè)計采用PowerDesigner 6.0,構(gòu)件技術(shù)采用基于COM的標準,數(shù)據(jù)分析采用了復旦德門DMiner智能分析平臺提供的二次開發(fā)函數(shù)DMiner SDK,開發(fā)語言采用ASP.Net1.1。

      目前該系統(tǒng)已經(jīng)在巢湖市地稅局正式上線運行,運行狀態(tài)良好,稅務(wù)工作人員通過該信息分析平臺獲得很多有用的信息。

      [1]王志海等譯.數(shù)據(jù)倉庫[M].北京:機械工業(yè)出版社,2000.

      [2]Jiawei Han,Micheline Kamber著,Data Mining Concepts and Techniques[M].北京:機械工業(yè)出版社,2006.

      [3]Kim J.Iterated grid search on unimodal criteria[D].PhD dissertation,Department of Statistics,Virginia Tech,1997.

      [4]Keogh E,Chakrabarti K,Pazzani M&Mehrotra.Dimenslonality reduction for fast similarity search in large time series databases[J].Journal of Knowledge and Information Systems,2000:263-286.

      THE APPLICATION OF DATA MINING ON THE INFORMATION ANALYSIS OF CHAOHU BUREAU IN THE TAX SYSTEM

      CAO Qian1,2XU Lei3
      (1 Department of Computer,Chaohu University,Anhui Chaohu 238000)
      (2 School of Computer,University of Science and Technology of China,Anhui Hefei 230000)
      (3 Department of Physics,Chaohu University,Anhui Chaohu 238000)

      This article mainly introduced the system of tax bureau chaohu system structure and key technology of this system is mainly used.Data warehouse and data mining,the ETL key technology.

      Data Analysis System;Data Warehouse;ETL

      TP311

      A

      1672-2868(2010)06-0017-04

      2010-08-20

      巢湖學院自然科學研究資助項目(XLY-201012)

      曹騫(1981-),男,安徽安慶人。巢湖學院計算機系教師,研究方向:數(shù)據(jù)挖掘。

      責任編輯:陳 侃

      猜你喜歡
      稅務(wù)系統(tǒng)巢湖數(shù)據(jù)倉庫
      稅務(wù)系統(tǒng)基層黨組織運用監(jiān)督執(zhí)紀第一種形態(tài)的實踐
      基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
      巢湖頌歌
      分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
      電子制作(2016年15期)2017-01-15 13:39:15
      探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
      Oracle分區(qū)表技術(shù)在稅務(wù)系統(tǒng)中的應(yīng)用
      稅務(wù)系統(tǒng)行政管理權(quán)內(nèi)控機制信息化淺論
      基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
      加強稅務(wù)系統(tǒng)新媒體運營管理:微信公眾平臺發(fā)展現(xiàn)狀
      新聞傳播(2015年12期)2015-07-18 11:02:40
      春季和夏季巢湖浮游生物群落組成及其動態(tài)分析
      广元市| 襄城县| 潼关县| 图们市| 芜湖市| 孝昌县| 邻水| 青川县| 青阳县| 卢氏县| 衡水市| 股票| 盐源县| 濮阳市| 麻江县| 曲靖市| 晴隆县| 志丹县| 曲周县| 六盘水市| 西藏| 深州市| 互助| 阳西县| 娄烦县| 柳林县| 石狮市| 榕江县| 长海县| 玉龙| 陇西县| 万载县| 龙海市| 玉环县| 扶风县| 万载县| 桐柏县| 洛浦县| 金门县| 萍乡市| 蒙自县|