◆賴慧慧
內(nèi)容提要:運(yùn)用時間序列模型預(yù)測未來的稅收變化,對稅收收入的組織、規(guī)劃和決策具有重要的意義。為探索一種更為有效的方法來提高季節(jié)性行業(yè)的消費(fèi)稅預(yù)測準(zhǔn)確率,文章采用基于可分解(趨勢+季節(jié)+節(jié)假日)的Prophet模型,對2014—2019年不同排量乘用車消費(fèi)稅數(shù)據(jù)進(jìn)行訓(xùn)練和測試,并運(yùn)用2019年7—12月的乘用車消費(fèi)稅數(shù)據(jù)進(jìn)行推算預(yù)測和實(shí)證分析,三類不同排量乘用車預(yù)測的平均誤差分別為24.97%、5.70%、39.85%;若剔除12月,則平均誤差分別為2.86%、4.90%、8.48%。這就給分行業(yè)分品目的稅收預(yù)測提供了一種新思路。
稅收預(yù)測是指運(yùn)用統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)等原理和方法,通過分析一定階段的稅收歷史數(shù)據(jù),對未來稅收收入的發(fā)展趨勢及規(guī)律的預(yù)見和推斷。從微觀上看,稅收預(yù)測有利于提高組織收入的科學(xué)性,堵塞征管漏洞,降低稅收流失率;從宏觀上看,精準(zhǔn)的稅收預(yù)測有利于完善財(cái)稅體制,合理安排財(cái)政預(yù)算,有效發(fā)揮稅收在國家治理中的基礎(chǔ)性、支柱性和保障性作用。近年來,隨著大數(shù)據(jù)技術(shù)的運(yùn)用,大量數(shù)據(jù)模型被應(yīng)用到稅收預(yù)測中,但大多集中在宏觀層面,即總體的稅收收入、分稅種收入等;在中觀層面,即通過研究行業(yè)的運(yùn)行規(guī)律來預(yù)測分行業(yè)、分品目稅收收入的文獻(xiàn)較少。隨著稅收信息化建設(shè)的不斷推進(jìn),稅務(wù)部門掌握了大量的稅收歷史數(shù)據(jù),使得分行業(yè)分品目的稅收預(yù)測成為可能。相比其他稅種,消費(fèi)稅收入較為穩(wěn)定,尤其是在汽車制造業(yè),由于技術(shù)和投資壁壘高,企業(yè)進(jìn)入和退出成本高昂,一旦建成投產(chǎn),產(chǎn)能穩(wěn)定,往往能成為當(dāng)?shù)刂攸c(diǎn)稅源企業(yè),提供穩(wěn)定而充足的稅源。同時,乘用車消費(fèi)稅收入屬于時間序列數(shù)據(jù),是同一屬性在不同時間上的相繼觀察值排列而成的數(shù)列,但乘用車消費(fèi)的變化趨勢中季節(jié)性和節(jié)假日的影響也比較明顯。如果能找到適合季節(jié)性和節(jié)假日的模型預(yù)測該行業(yè)的消費(fèi)稅,就能給分行業(yè)分品目的稅收預(yù)測提供一種新思路。
通過研究時間序列,我們能夠描述事物過去的狀態(tài),分析事物發(fā)展變化的規(guī)律,并對未來進(jìn)行預(yù)測。時間序列預(yù)測一直是預(yù)測當(dāng)中的難點(diǎn),人們很難找到一個適用場景豐富的通用模型。這是因?yàn)楝F(xiàn)實(shí)中每個預(yù)測問題的背景知識往往是不同的,即使是同一類問題,影響這些預(yù)測值的因素也往往不同,使得時間序列預(yù)測問題變得尤其復(fù)雜。1968年Box和Jenkins提出了一套比較完善的時間序列建模理論和分析方法。這些經(jīng)典的數(shù)學(xué)方法通過建立隨機(jī)模型,如自回歸模型、自回歸滑動平均模型、求和自回歸滑動平均模型和季節(jié)調(diào)整模型等,進(jìn)行時間序列的預(yù)測。這些模型只適用于平穩(wěn)時間序列,本質(zhì)上只能捕捉線性關(guān)系,而不能捕捉非線性關(guān)系。
當(dāng)前,時間序列預(yù)測主要采用的方法有支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、ARMA模型等。支持向量機(jī)通過核函數(shù)實(shí)現(xiàn)樣本空間到高維特征空間的非線性映射,主要處理小樣本的數(shù)據(jù)。王革麗(2008)基于支持向量機(jī)的“升維”思想對時變控制參數(shù)條件下Lorenz系統(tǒng)產(chǎn)生的非平穩(wěn)時間序列進(jìn)行研究。針對稅收收入預(yù)測不穩(wěn)定、非線性、動態(tài)開放性的特點(diǎn),常青(2007)和張玉尹(2011)提出了支持向量機(jī)的稅收收入預(yù)測方法,并應(yīng)用于實(shí)際稅收收入情況的預(yù)測。
神經(jīng)網(wǎng)絡(luò)的方法包括模糊神經(jīng)網(wǎng)絡(luò)、徑向基函數(shù)(RBF)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)以及積單元神經(jīng)網(wǎng)絡(luò)等,主要通過學(xué)習(xí)進(jìn)行非線性逼近,也往往用于時間序列數(shù)據(jù)的預(yù)測。沈存根(2011)運(yùn)用BP神經(jīng)網(wǎng)絡(luò)建立稅收預(yù)測模型,分析了產(chǎn)業(yè)增加值、固定資產(chǎn)投資總額、進(jìn)出口總額、財(cái)政支出總量、居民消費(fèi)水平等若干經(jīng)濟(jì)指標(biāo)的變化對稅收收入的影響。劉巖(2014)采用神經(jīng)網(wǎng)絡(luò)模型研究吉林省國稅收入與地區(qū)生產(chǎn)總值、工業(yè)增加值、固定資產(chǎn)投資、社會消費(fèi)品零售總額影響因子之間的關(guān)系,挖掘出影響吉林省國稅收入的主要因素,并預(yù)測吉林省國稅收入。
自回歸移動平均模型ARMA是擬合平穩(wěn)序列的模型,可分為AR模型、MA模型和ARMA模型三大類。賴慧慧(2019)運(yùn)用ARMA模型對增值稅銷項(xiàng)稅額進(jìn)行預(yù)測,首先是對原始數(shù)據(jù)取對數(shù)、差分和分解的平穩(wěn)性檢測,發(fā)現(xiàn)分解能使序列達(dá)到平穩(wěn)性要求,再將數(shù)據(jù)分解為殘差、趨勢和季節(jié),通過白噪聲檢驗(yàn),最后用加法模型得到原序列的預(yù)測序列。王靜靜等(2019)提出基于小波ARMA模型的預(yù)測方法,首先采用小波變換方法對非平穩(wěn)離散的增值稅銷項(xiàng)稅額時間序列進(jìn)行消噪處理,并對去噪信號序列差分處理和平穩(wěn)性校驗(yàn),最后根據(jù)預(yù)測序列的自相關(guān)序列、偏自相關(guān)序列對小波ARMA模型進(jìn)行初步定階,對模型的適應(yīng)性進(jìn)行檢驗(yàn),得到增值稅銷項(xiàng)稅額的最優(yōu)小波ARMA模型。
然而,這三類方法對于具有季節(jié)性和節(jié)假日的數(shù)據(jù)預(yù)測效果不是很理想。因此,本文采用Facebook公司近年開發(fā)的基于STL分解思想的時間序列預(yù)測模型Prophet模型,對2014—2019年的乘用車三個品目消費(fèi)稅應(yīng)征數(shù)進(jìn)行分析,若剔除12月,預(yù)測的平均誤差均小于10%,證明該模型在稅收收入數(shù)據(jù)的預(yù)測中有著良好的效果。
本文采用了一種基于STL分解思想的Prophet預(yù)測模型,該模型是Facebook公司近年開發(fā)的時間序列預(yù)測模型,采用廣義加法模型擬合平滑和預(yù)測函數(shù),運(yùn)行速度快,適用于具有明顯內(nèi)在規(guī)律的商業(yè)行為數(shù)據(jù)。Prophet預(yù)測模型還擅長處理具有異常值和趨勢變化的周期數(shù)據(jù),而乘用車銷售數(shù)量具有很強(qiáng)的季節(jié)性。因此,本文采用Prophet預(yù)測模型對從2014年1月到2019年6月乘用車消費(fèi)稅進(jìn)行訓(xùn)練,并對2019年7—12月數(shù)據(jù)進(jìn)行預(yù)測。
STL分解是分解時間序列的預(yù)測模型,將時間序列分解為周期項(xiàng)(Season)、趨勢項(xiàng)(Trend)、節(jié)假日項(xiàng)(Holiday)等。模型寫成三部分之和(根據(jù)數(shù)據(jù)的內(nèi)在機(jī)理),再擬合實(shí)際數(shù)據(jù)求解模型參數(shù)。本文使用的Prophet模型就是基于STL分解思路,模型可分解為三個主要組成部分:趨勢、季節(jié)性和節(jié)假日。它們按如下公式組合:
其中:g(t)為趨勢項(xiàng),使用了兩種趨勢模型:飽和增長模型和分段線性模型,通過選擇變化點(diǎn)來預(yù)測趨勢變化,用于擬合時間序列中的分段線性增長或邏輯增長等非周期變化;s(t)是周期項(xiàng),描述各種周期變化趨勢,如每周或每年的季節(jié)性;h(t)有效納入非規(guī)律性節(jié)假日效應(yīng),將特殊影響時間作為先驗(yàn)知識進(jìn)行融合;∈t是服從正態(tài)分布的噪聲因子,作為誤差項(xiàng)反映未在模型中體現(xiàn)的異常變動。
圖1是Prophet的整體框架,整個過程分為四部分:Modeling、Forecast Evaluation、Surface Problems以及Visually Inspect Forecasts。從整體上看,這是一個循環(huán)結(jié)構(gòu),而這個結(jié)構(gòu)又可以根據(jù)虛線分為分析師操縱部分與自動化部分。因此,整個過程就是分析師與自動化過程相結(jié)合的循環(huán)體系,也是一種將問題背景知識與統(tǒng)計(jì)分析融合起來的過程,這種結(jié)合大大增加了模型的適用范圍,提高了模型的準(zhǔn)確性。按照上述的四個部分,Prophet的預(yù)測過程為:
(1)Modeling:建立時間序列模型。分析師根據(jù)預(yù)測問題的背景選擇一個合適的模型。
(2)Forecast Evaluation:模型評估。根據(jù)模型對歷史數(shù)據(jù)進(jìn)行仿真,在模型的參數(shù)不確定的情況下,我們可以進(jìn)行多種嘗試,并根據(jù)對應(yīng)的仿真效果評估哪種模型更適合。
(3)Surface Problems:呈現(xiàn)問題。如果嘗試了多種參數(shù)后,模型的整體表現(xiàn)依然不理想,這個時候可以將誤差較大的潛在原因呈現(xiàn)給分析師。
(4)Visually Inspect Forecasts:以可視化的方式反饋整個預(yù)測結(jié)果。當(dāng)問題反饋給分析師后,分析師考慮是否進(jìn)一步調(diào)整和構(gòu)建模型。
圖1 Prophet的整體框架
實(shí)驗(yàn)流程如圖2,將原始數(shù)據(jù)集進(jìn)行預(yù)處理,分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),對Prophet預(yù)測模型進(jìn)行訓(xùn)練和測試,完成訓(xùn)練后可用于乘用車消費(fèi)稅的預(yù)測。
圖2 實(shí)驗(yàn)流程
在獲取某地區(qū)2014年1月至2019年6月乘用車3個品目的消費(fèi)稅應(yīng)征數(shù)后,首先進(jìn)行數(shù)據(jù)預(yù)處理:對原始數(shù)據(jù)取自然對數(shù),以縮小數(shù)據(jù)的絕對數(shù)值,使數(shù)據(jù)更加平穩(wěn),消弱數(shù)據(jù)的波動性。使用集訓(xùn)練、測試、優(yōu)化為一體的Prophet模型,并用樣本集測試訓(xùn)練得到模型效果。
品目1:2014年1月至2019年6月,1.0升<?xì)飧兹萘俊?.5升的乘用車消費(fèi)稅
品目2:2014年1月至2019年6月,1.5升<?xì)飧兹萘俊?.0升的乘用車消費(fèi)稅
品目3:2015年3月至2019年6月,2.0升<?xì)飧兹萘俊?.5升的乘用車消費(fèi)稅
使用Prophet模型對品目1進(jìn)行分解,圖3顯示了品目1的分解序列。圖3中上圖是使用分段線性函數(shù)擬合得到的時間序列非周期變化曲線,表示增長趨勢,顯示稅收穩(wěn)步增長;下圖是時間序列周期變化曲線,即每年的季節(jié)性變化周期。圖4是品目1的時間序列擬合和預(yù)測圖。
圖3 品目1序列分解
圖4 品目1序列擬合和預(yù)測
同樣,圖5、圖6分別是品目2的序列分解圖、序列擬合和預(yù)測圖,圖7、圖8分別是品目3的序列分解圖、序列擬合和預(yù)測圖。
圖5 品目2序列分解
圖6 品目2序列擬合和預(yù)測
圖7 品目3序列分解
圖8 品目3序列擬合和預(yù)測
為了檢驗(yàn)Prophet模型在乘用車消費(fèi)稅預(yù)測中是否有效,在運(yùn)用2014年1月至2019年6月的數(shù)據(jù)進(jìn)行訓(xùn)練建模后,對2019年7—12月的乘用車消費(fèi)稅進(jìn)行預(yù)測,將預(yù)測值與實(shí)際值進(jìn)行比較,計(jì)算出預(yù)測相對誤差,作為衡量該模型的預(yù)測準(zhǔn)確性的依據(jù),結(jié)果見表1。
表1 2019年7月—12月分品目乘用車消費(fèi)稅預(yù)測相對誤差
從各月預(yù)測情況來看,2019年12月的誤差明顯較2019年7—11月的誤差大。這一方面是由于預(yù)測的月份越久,精度越差;另一方面也和年底調(diào)控因素有關(guān)。若剔除12月,從平均相對誤差來看,品目1的準(zhǔn)確性最高,誤差最小,品目2次之,品目3的誤差最大。三個品目的平均預(yù)測誤差均在10%之內(nèi),其中品目1和品目2的誤差在5%之內(nèi),而品目3的誤差稍大。原因如下:一是品目3從2015年3月才有消費(fèi)稅收入,較品目1、品目2數(shù)據(jù)量更少;二是品目3較品目1、品目2的消費(fèi)稅收入基數(shù)更??;三是品目3屬于大排量高檔車,價(jià)格高,消費(fèi)彈性大,和品目1、品目2的實(shí)用型中低檔車相比,消費(fèi)稅收入更加不穩(wěn)定。
文章運(yùn)用了Facebook公司開發(fā)的Prophet模型,分析2014年1月至2019年6月的乘用車三個品目消費(fèi)稅收入數(shù)據(jù),建立模型,預(yù)測了2019年7—12月消費(fèi)稅收入,得到乘用車三個品目消費(fèi)稅收入預(yù)測的平均相對誤差分別為24.97%、5.70%、39.85%;考慮到最后一個月的調(diào)控因素,如剔除12月,則平均誤差分別為2.86%、4.90%、8.48%,均在10%之內(nèi),證明Prophet模型具有較好的泛化能力,在具有季節(jié)性和節(jié)假日特征的稅收預(yù)測上精度較高,具有優(yōu)勢。但也發(fā)現(xiàn),對于數(shù)據(jù)樣本小、收入不穩(wěn)定的品目,預(yù)測精度有所下降。因此,Prophet模型更適用于全國或全省分稅種、分行業(yè)、分品目的稅收預(yù)測,而且應(yīng)以盡可能多年份的歷史數(shù)據(jù)為基礎(chǔ)建立數(shù)據(jù)模型。
未來可以考慮使用Bagging思想,采用多個時間序列預(yù)測模型的集成,然后進(jìn)行表決,進(jìn)一步提升預(yù)測準(zhǔn)確率。也可以對某一稅種的所有行業(yè)進(jìn)行分類,并對每種類型采用精度最高的時間序列預(yù)測模型,最后加總預(yù)測出該稅種收入甚至全部稅收收入。與以稅基變量為基礎(chǔ)的“自上而下”的稅收預(yù)測相比,這種“自下而上”的稅收預(yù)測方法,數(shù)據(jù)的可獲得性更高,適應(yīng)性更好,基礎(chǔ)數(shù)據(jù)的質(zhì)量也更容易評估,因此在稅務(wù)部門有廣闊的應(yīng)用前景。