汪東起 王 珂
?
稅務(wù)大數(shù)據(jù)分析的技術(shù)和典型應(yīng)用
汪東起 王 珂
浪潮軟件集團(tuán)有限公司,山東 濟(jì)南 250101
主要說明了如何搭建適合于稅務(wù)業(yè)務(wù)應(yīng)用的大數(shù)據(jù)分析平臺,并進(jìn)一步分析了運(yùn)用大數(shù)據(jù)開展業(yè)務(wù)應(yīng)用的過程、建模方法和數(shù)據(jù)處理方法。通過對比大數(shù)據(jù)與傳統(tǒng)信息化建設(shè)方式的差異,說明了大數(shù)據(jù)將為稅務(wù)機(jī)關(guān)的信息化建設(shè)帶來全新的突破,提供更為有力的業(yè)務(wù)創(chuàng)新手段。
稅務(wù);大數(shù)據(jù);技術(shù)架構(gòu);數(shù)據(jù)分析
稅務(wù)機(jī)關(guān)是我國信息化建設(shè)起步較早的領(lǐng)域,特別是隨著以“金稅工程”為代表的信息系統(tǒng)的實(shí)施,各省稅務(wù)機(jī)關(guān)基本上都實(shí)現(xiàn)了業(yè)務(wù)信息化的全覆蓋,積累了龐大的數(shù)據(jù)資源。以云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)為代表的新一代信息技術(shù),提供了全新的技術(shù)、渠道和方法。通過與傳統(tǒng)業(yè)務(wù)的融合創(chuàng)新,正在給世界帶來巨大變化。這些新技術(shù)也為優(yōu)化稅務(wù)業(yè)務(wù)帶來了新的發(fā)展機(jī)遇。
傳統(tǒng)的信息技術(shù)主要是輔助業(yè)務(wù),而大數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了技術(shù)領(lǐng)域,其力量體現(xiàn)在與業(yè)務(wù)相結(jié)合,優(yōu)化現(xiàn)有的業(yè)務(wù),甚至進(jìn)行顛覆性的創(chuàng)新[1]。這樣的案例每天都在各個(gè)領(lǐng)域發(fā)生。稅務(wù)機(jī)構(gòu)同樣可以利用大數(shù)據(jù)預(yù)知未來的發(fā)展動(dòng)態(tài),推動(dòng)業(yè)務(wù)的轉(zhuǎn)型升級,優(yōu)化管理和服務(wù)模式。大數(shù)據(jù)平臺的總體框架分為:數(shù)據(jù)源層、數(shù)據(jù)處理層、應(yīng)用支撐層、業(yè)務(wù)應(yīng)用層。
大數(shù)據(jù)分析不僅需要稅務(wù)機(jī)關(guān)內(nèi)部的業(yè)務(wù)系統(tǒng)數(shù)據(jù),而且需要豐富多彩的外部機(jī)構(gòu)數(shù)據(jù),這些數(shù)據(jù)有助于解決更為廣泛的業(yè)務(wù)問題。
稅務(wù)機(jī)關(guān)內(nèi)部的數(shù)據(jù)通過數(shù)據(jù)同步/抽取工具匯集到數(shù)據(jù)中心;外部機(jī)構(gòu)的數(shù)據(jù)通過對應(yīng)的采集工具,交換到稅務(wù)機(jī)關(guān)內(nèi)部的數(shù)據(jù)中心。為了應(yīng)對呈指數(shù)增長的非結(jié)構(gòu)化數(shù)據(jù),在云平臺上搭建NoSQL數(shù)據(jù)庫,用于存儲和處理龐大的數(shù)據(jù)。
按照業(yè)務(wù)分析的要求,建立相應(yīng)的數(shù)據(jù)模型,在平臺中封裝了各種分析算法組件和展示模板;為支撐不同的業(yè)務(wù)應(yīng)用場景,提供基礎(chǔ)的分析工具(如數(shù)據(jù)挖掘、網(wǎng)絡(luò)分析、可視化等),提供統(tǒng)一的管理工具(如基礎(chǔ)數(shù)據(jù)管理、數(shù)學(xué)模型管理、標(biāo)簽管理、運(yùn)行維護(hù)等)。
針對具體的業(yè)務(wù)場景,建立眾多基于大數(shù)據(jù)平臺的“小應(yīng)用”,解決具體的業(yè)務(wù)問題;各個(gè)“小應(yīng)用”具有各自的分析功能和展示界面,甚至與社會服務(wù)渠道相融合,針對不同的用戶對象提供相應(yīng)的功能。
隨著“金稅工程”的不斷深入,稅務(wù)數(shù)據(jù)資源的種類不斷豐富,數(shù)據(jù)量快速增長,特別是近年來飛速增長的電子票據(jù)、視頻、網(wǎng)頁等非結(jié)構(gòu)化數(shù)據(jù),已經(jīng)超出了目前的處理能力。如何采集、存儲和利用龐大的涉稅數(shù)據(jù),進(jìn)而從海量的數(shù)據(jù)中挖掘有價(jià)值的信息,已然成為稅收信息化面臨的一個(gè)重大課題。從結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)向大數(shù)據(jù)是下一步發(fā)展的必然選擇。稅務(wù)機(jī)關(guān)在選擇大數(shù)據(jù)平臺時(shí),主要應(yīng)考慮與具體業(yè)務(wù)應(yīng)用場景相關(guān)的一些因素,具體情況如下:
大部分廠商的大數(shù)據(jù)平臺都是建立在Hadoop之上的發(fā)行版,附加了一些工具和服務(wù)支持。不同于結(jié)構(gòu)化數(shù)據(jù)庫,大數(shù)據(jù)工具的選擇取決于要處理哪種數(shù)據(jù),不可幻想有一個(gè)大數(shù)據(jù)平臺能夠適應(yīng)各種應(yīng)用場景。另外,政府機(jī)構(gòu)還必須把是否國產(chǎn)軟件列入考慮因素。
很多大數(shù)據(jù)平臺非常適合非結(jié)構(gòu)化數(shù)據(jù)處理,但是在結(jié)構(gòu)化數(shù)據(jù)處理方面卻遠(yuǎn)遜于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫[2]。目前稅務(wù)機(jī)構(gòu)的業(yè)務(wù)數(shù)據(jù)主要是海量結(jié)構(gòu)化數(shù)據(jù),對結(jié)構(gòu)化數(shù)據(jù)的處理效率是必須關(guān)注的一個(gè)重點(diǎn)問題。
稅務(wù)領(lǐng)域的業(yè)務(wù)應(yīng)用場景非常廣泛,涉及的數(shù)據(jù)類型和來源也非常豐富,因此對數(shù)據(jù)的加工處理、分析挖掘能力的要求也比較高。
稅務(wù)領(lǐng)域的數(shù)據(jù)源非常廣泛,很多應(yīng)用場景需要進(jìn)行實(shí)時(shí)分析,但是數(shù)據(jù)源經(jīng)常會發(fā)生變化,直接影響采集的數(shù)據(jù)質(zhì)量,因而需要有工具監(jiān)測數(shù)據(jù)源和采集數(shù)據(jù)的異常情況,及時(shí)采取糾正措施。
經(jīng)過20多年的信息化建設(shè),某省稅務(wù)局目前正在使用的應(yīng)用系統(tǒng)超過100個(gè),主要的系統(tǒng)有金三系統(tǒng)、社保系統(tǒng)、發(fā)票在線、自助終端、12366服務(wù)熱線等,基本覆蓋了稅務(wù)管理各方面的工作內(nèi)容[3]。其中,金三系統(tǒng)、社保系統(tǒng)等每天都會產(chǎn)生數(shù)百萬筆業(yè)務(wù)數(shù)據(jù)。另外,稅務(wù)業(yè)務(wù)還涉及工商、質(zhì)監(jiān)、交易中心等政府部門的共享數(shù)據(jù)以及來自移動(dòng)互聯(lián)網(wǎng)、網(wǎng)絡(luò)社交媒體等方面的外部數(shù)據(jù)。數(shù)據(jù)格式覆蓋了文件、地理信息、日志、圖片、流媒體等多種形態(tài)。豐富的數(shù)據(jù)源,為開展大數(shù)據(jù)分析奠定了堅(jiān)實(shí)的基礎(chǔ),而眾多五花八門、來源各異的數(shù)據(jù)源,也帶來了非常復(fù)雜的數(shù)據(jù)清洗工作。信息化建設(shè)較為發(fā)達(dá)的省級稅務(wù)局一般都建立了數(shù)據(jù)中心,實(shí)時(shí)將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)(大部分是結(jié)構(gòu)化數(shù)據(jù))同步到數(shù)據(jù)中心,大部分非結(jié)構(gòu)化數(shù)據(jù)則存儲在原業(yè)務(wù)系統(tǒng)中,局外的數(shù)據(jù)通過數(shù)據(jù)交換接口傳輸?shù)絻?nèi)網(wǎng),集中存儲到數(shù)據(jù)中心。具體的業(yè)務(wù)分析應(yīng)用,通過數(shù)據(jù)接口將涉及的數(shù)據(jù)從省級數(shù)據(jù)中心抽取出來,對這些多源、異構(gòu)、海量的原始業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、對碰等預(yù)處理,將數(shù)據(jù)存儲到大數(shù)據(jù)庫,形成針對不同業(yè)務(wù)分析的數(shù)據(jù)集。
大數(shù)據(jù)與稅務(wù)業(yè)務(wù)相融合,應(yīng)用的范圍和發(fā)揮的作用都遠(yuǎn)超以往信息化建設(shè)的成果,成為帶動(dòng)稅務(wù)深化改革的利器。例如,納稅人涉稅風(fēng)險(xiǎn)評估、稅收政策效果測度、面向納稅人的精準(zhǔn)服務(wù)、辦稅流程優(yōu)化等。以前很多情況都是憑借經(jīng)驗(yàn)做出決策,而采用大數(shù)據(jù)技術(shù)和方法,就可以根據(jù)積累的數(shù)據(jù),分析得出采取某項(xiàng)措施后可能帶來的影響。在某省稅務(wù)局的大數(shù)據(jù)分析項(xiàng)目中,利用大數(shù)據(jù)技術(shù)和方法小試牛刀,在采集整合各業(yè)務(wù)系統(tǒng)、各辦稅服務(wù)渠道和外部機(jī)構(gòu)數(shù)據(jù)的基礎(chǔ)上,構(gòu)建能夠?qū)崟r(shí)、全程、多元反映納稅服務(wù)運(yùn)行狀態(tài)的業(yè)務(wù)模型,完成了政策影響分析、辦稅事項(xiàng)業(yè)務(wù)量預(yù)測、面向納稅人的精準(zhǔn)服務(wù)等應(yīng)用場景,取得了非常好的效果。
綜上所述,大數(shù)據(jù)在稅務(wù)領(lǐng)域的應(yīng)用,目前還處于起步階段,在項(xiàng)目中只是在大數(shù)據(jù)分析方面做了很小的嘗試,還有非常豐富的業(yè)務(wù)場景有待發(fā)掘。
[1]于眾.大數(shù)據(jù)環(huán)境下稅收數(shù)據(jù)深度利用探索[J].經(jīng)濟(jì)研究導(dǎo)刊,2016(13):78-79.
[2]維克托·邁爾,舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
[3]孫懿.大數(shù)據(jù)時(shí)代對稅務(wù)工作的挑戰(zhàn)與對策[J].學(xué)術(shù)交流,2015(6):133-139.
Technology and Typical Application of Big Data Analysis
Wang Dongqi Wang Ke
Inspur Software Group Co., Ltd., Shandong Jinan 250101
The paper mainly explains how to build big data analysis platform suitable for tax business application, and further analyzes the process, modeling method and data processing method of using big data to carry out business application. By comparing the difference between big data and traditional information construction mode, it shows that big data will bring new breakthroughs to information construction of tax authorities, and provide more effective means of business innovation.
tax; big data; technical architecture; data analysis
F812.42;TP311.13
A
1009-6434(2017)12-0080-02