• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于SVM的稅務(wù)稽查選案自動(dòng)識(shí)別方法研究

      2016-05-30 10:48:04趙嶺峰
      關(guān)鍵詞:支持向量機(jī)機(jī)器學(xué)習(xí)

      趙嶺峰

      摘要:支持向量機(jī)是20世紀(jì)90年代中期發(fā)展起來(lái)的機(jī)器學(xué)習(xí)技術(shù),在眾多分類算法中,支持向量機(jī)因其出色的學(xué)習(xí)能力,成為機(jī)器學(xué)習(xí)界的研究熱點(diǎn)。著重于介紹支持向量機(jī),先把采集來(lái)的企業(yè)申報(bào)數(shù)據(jù)隨機(jī)分為訓(xùn)練樣本和測(cè)試樣本,然后通過臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)副教授開發(fā)設(shè)計(jì)的支持向量機(jī)工具LIBSVM,用訓(xùn)練樣本獲得SVM模型,并用這個(gè)SVM模型預(yù)測(cè)測(cè)試樣本企業(yè)是否有問題,通過已知結(jié)果得到模型預(yù)測(cè)的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果說(shuō)明該方法是一種有效的方法,完全可以作為稅務(wù)稽查選案的參考。

      關(guān)鍵詞:稅務(wù)稽查選案;支持向量機(jī);機(jī)器學(xué)習(xí)

      中圖分類號(hào):F810.42 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-7394(2016)02-0022-04

      稅務(wù)稽查選案,即通過計(jì)算機(jī)、人工或兩者相結(jié)合的方法,對(duì)各類稅務(wù)信息進(jìn)行歸集分類處理,在眾多納稅人、扣繳義務(wù)人中選定最有可能有問題的對(duì)象。稅務(wù)稽查選案目前廣泛應(yīng)用方法是以信息化手段調(diào)取指標(biāo)偏差厲害的納稅人,然后逐戶分析可能存在的問題,通過人工篩選,依靠以往的稽查和征管工作經(jīng)驗(yàn),確定檢查方向和檢查對(duì)象。

      在本文中我們將嘗試使用另一種方法(20世紀(jì)90年代中期發(fā)展起來(lái)的機(jī)器學(xué)習(xí)技術(shù)——支持向量機(jī)),來(lái)分析判斷企業(yè)是否存在問題。支持向量機(jī)是一種機(jī)器學(xué)習(xí)的方法,它從訓(xùn)練資料中學(xué)習(xí)并建立一個(gè)模型,并通過此模型推測(cè)新的實(shí)例,可以廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析。目前,這一機(jī)器學(xué)習(xí)方法已在多個(gè)方向上得到應(yīng)用,如人臉檢測(cè),汽輪發(fā)電機(jī)組的故障診斷,文本挖掘,手寫體相似字識(shí)別,巖爆預(yù)測(cè)的支持向量機(jī)等。

      1 SVM簡(jiǎn)介

      支持向量機(jī)(Support Vector Machine,SVM)是Corinna Cortes和Vapnik8等于1995年首先提出的,它通過尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來(lái)提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而達(dá)到在統(tǒng)計(jì)樣本量較少的情況下,亦能獲得良好統(tǒng)計(jì)規(guī)律的目的。因?yàn)樗诮鉀Q小樣本、非線性及高維模式識(shí)別中表現(xiàn)出的許多特有的優(yōu)勢(shì),所以研究發(fā)展迅速,現(xiàn)在已經(jīng)在許多領(lǐng)域(生物信息學(xué),文本和手寫識(shí)別等)都取得了成功的應(yīng)用。

      支持向量機(jī)是一種機(jī)器學(xué)習(xí)的方法,它從訓(xùn)練資料中學(xué)習(xí)并建立一個(gè)模型,并通過此模型預(yù)測(cè)任何可能出現(xiàn)的輸入的值的輸出。訓(xùn)練資料是由輸入(如企業(yè)申報(bào)數(shù)據(jù))和預(yù)期輸出(如稽查結(jié)果,有無(wú)問題)所組成。

      SVM的主要思想可以概括為兩點(diǎn):它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。

      SVM是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測(cè)度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計(jì)方法。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡(jiǎn)化了通常的分類和回歸等問題。

      SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。而少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡(jiǎn)單,而且具有較強(qiáng)的健壯性。例如增、刪非支持向量樣本對(duì)模型幾乎沒有影響,下面我們的實(shí)驗(yàn)也會(huì)體現(xiàn)這一點(diǎn)。

      2 實(shí)驗(yàn)分析

      2.1 實(shí)驗(yàn)?zāi)康?/p>

      驗(yàn)證通過svm分類算法建立的企業(yè)模型,對(duì)未知企業(yè)是否有問題的預(yù)測(cè)準(zhǔn)確性。

      2.2 樣本來(lái)源

      筆者通過便利條件,直接從數(shù)據(jù)庫(kù)按年抽取了某市2009到2012年所有稽查過的制造業(yè)企業(yè),同時(shí)匹配一些相關(guān)年度申報(bào)數(shù)據(jù)(如銷售收入,應(yīng)納增值稅稅額,存貨平均數(shù),主營(yíng)業(yè)務(wù)利潤(rùn)等),然后在這些企業(yè)中通過excel隨機(jī)函數(shù),隨機(jī)抽取了2000戶作為實(shí)驗(yàn)樣本。實(shí)驗(yàn)樣本數(shù)據(jù)如表1。

      2.3 實(shí)驗(yàn)涉及的工具說(shuō)明

      采用臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)副教授等開發(fā)設(shè)計(jì)的軟件包LIBSVM,該軟件包提供了簡(jiǎn)單易用和快速有效的SVM模式識(shí)別與回歸方法,這使得我們不必要花費(fèi)大量的時(shí)間理解SVM算法的深?yuàn)W數(shù)學(xué)原理和計(jì)算機(jī)程序設(shè)計(jì)。該軟件包可以在http://www.csie.ntu.edu.tw/-cjlin/免費(fèi)獲得。

      2.4 詳細(xì)實(shí)驗(yàn)步驟

      2.4.1 產(chǎn)生符合軟件要求的數(shù)據(jù)文件

      將樣本隨機(jī)劃分為1500戶企業(yè)的訓(xùn)練樣本和500戶企業(yè)的測(cè)試樣本,并按照LIBSVM軟件要求將訓(xùn)練樣本和驗(yàn)證樣本分別格式化成文件train和文件test。

      按照LIBSVM軟件要求,將文件格式化成如下格式:

      0 1:14 871 030.39,2:27 256.24。3:2 965 841.805.4:1 532 128.27

      1 1:950 897.44,2:57 423.99,3:30 925.5,4:2 546.66

      0 1:210 508 744.31.2:5454 538.9,3:15 784 275.23.4:1 130 826.74

      1 1:2 802 448.68,2:102 103.41,3:86 128,4:136 084.47

      0 1:21 472 084.19.2:1 101 170.56.3:3 204 356.755.4:118 902.49

      0 1:6 275 138 578.79。2:-372 343 321.62,3:461 957 600.77.4:993 078 657.52

      1 1:1 577 484.9,2:40 859.68,3:101 973.92,4:33 422.62

      0 1:301 643 912.2,2:2 690 974.51,3:4 500 019.87.4:5 520 681.07

      其中第一個(gè)數(shù)字,表示該稽查下來(lái)是否有問題,1代表有問題0,代表無(wú)問題。

      冒號(hào)前的1,2,3,4代表序號(hào),可以是不連續(xù)的。

      1,2,3,4冒號(hào)后的值分別代表銷售收入,應(yīng)納增值稅稅額,存貨平均數(shù),主營(yíng)業(yè)務(wù)利潤(rùn)。

      2.4.2 對(duì)數(shù)據(jù)文件進(jìn)行縮放

      為了避免一些特征值范圍過大而另一些特征值范圍過小,以及避免在訓(xùn)練時(shí)為了計(jì)算核函數(shù)而計(jì)算內(nèi)積的時(shí)候引起數(shù)值計(jì)算的困難,因此通常將數(shù)據(jù)縮放到[-1,1]或者是[0,1]之間。

      本步驟通過svm-scale.exe訓(xùn)練樣本train自動(dòng)產(chǎn)生縮放規(guī)則range和縮放后的訓(xùn)練樣本train.scale,然后通過縮放規(guī)則range產(chǎn)生縮放后的驗(yàn)證文件test.scale。以下為實(shí)例命令:

      svm-scale.exe-s range train>train.scale

      svm-scale.exe-r range test>test.scale

      2.4.3 獲得SVM模型

      本步驟通過svm-train.exe實(shí)現(xiàn)對(duì)縮放后的訓(xùn)練樣本train.scale的訓(xùn)練,獲得SVM模型model。

      svm-train.exe train.scale model

      2.4.4 驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確率

      本步驟通過svm-predict.exe根據(jù)訓(xùn)練獲得的模型model,對(duì)縮放后的驗(yàn)證樣本test.scale進(jìn)行分析,生成結(jié)果集result。

      svm-predict.exe test.scale model resuh

      程序返回:Accuracy=81.2%f406/5001(classi-fication)

      說(shuō)明我們預(yù)測(cè)的準(zhǔn)確率為81.2%。

      2.5 實(shí)驗(yàn)分析

      在1 500戶企業(yè)的訓(xùn)練樣本和500戶企業(yè)的測(cè)試樣本下測(cè)試改變屬性值數(shù)量對(duì)分類的影響,4個(gè)屬性值時(shí),反饋預(yù)測(cè)準(zhǔn)確率81.2%,6個(gè)屬性值時(shí),反饋預(yù)測(cè)準(zhǔn)確率81%,8個(gè)屬性值時(shí),反饋預(yù)測(cè)準(zhǔn)確率81.2%,10個(gè)屬性值時(shí),反饋預(yù)測(cè)準(zhǔn)確率81.2%,可見屬性數(shù)量的增加確實(shí)會(huì)影響預(yù)測(cè)準(zhǔn)確性,但是影響不大。數(shù)據(jù)分類屬性越多,問題的復(fù)雜程度就越厲害,SVM引入了核函數(shù)來(lái)應(yīng)付樣本的屬性數(shù),使得樣本的屬性可以很多,而且效率上面并沒有多大變化。

      改變樣本數(shù)量,在測(cè)試樣本均為500企業(yè)情況下,訓(xùn)練樣本為300企業(yè),反饋預(yù)測(cè)準(zhǔn)確率81.2%,訓(xùn)練樣本為600企業(yè),反饋預(yù)測(cè)準(zhǔn)確率81.2%,訓(xùn)練樣本為1000企業(yè),反饋預(yù)測(cè)準(zhǔn)確率81.2%,訓(xùn)練樣本為1500企業(yè),反饋預(yù)測(cè)準(zhǔn)確率81.2%,實(shí)驗(yàn)結(jié)果驗(yàn)證了SVM的健壯性,增、刪非支持向量樣本對(duì)模型幾乎沒有影響,小樣本數(shù)據(jù)即可取得很好的效果。

      3 結(jié)語(yǔ)

      隨著信息化的快速發(fā)展,稅收分析在稅收工作中越來(lái)越重要。新技術(shù)的學(xué)習(xí)和使用是提高分析水平的重要途徑和手段之一,本文拋磚引玉,提出使用機(jī)器學(xué)習(xí)方法,利用支持向量機(jī)來(lái)分析判斷企業(yè)是否有問題,實(shí)驗(yàn)結(jié)果表明識(shí)別準(zhǔn)確率達(dá)到81.2%,完全可以作為稅務(wù)稽查選案的又一參考。

      責(zé)任編輯 祁秀春

      猜你喜歡
      支持向量機(jī)機(jī)器學(xué)習(xí)
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于SVM的煙草銷售量預(yù)測(cè)
      動(dòng)態(tài)場(chǎng)景中的視覺目標(biāo)識(shí)別方法分析
      論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      罗甸县| 泉州市| 本溪市| 通许县| 柳州市| 宾阳县| 澄迈县| 通江县| 通河县| 浪卡子县| 古田县| 花莲市| 弥勒县| 区。| 大方县| 永善县| 余江县| 宁明县| 周至县| 蓝田县| 金昌市| 泽库县| 巴马| 新津县| 延寿县| 耒阳市| 南江县| 依兰县| 庆云县| 闵行区| 汾阳市| 河西区| 商南县| 蒙阴县| 翼城县| 延庆县| 麻栗坡县| 涞水县| 固阳县| 望江县| 桃园县|