摘 要:時間序列預(yù)測方法仍是數(shù)據(jù)挖掘的主要方法之一,在應(yīng)用方面,軟件SAS Forcast Studio(簡稱FS)能夠同時對多個產(chǎn)品、快速進(jìn)行預(yù)測,建立快速、批量、自動的時間序列預(yù)測模型群;極大地提高了數(shù)據(jù)挖掘的處理效率和預(yù)測準(zhǔn)確率。然而單純的原始時間序列直接投入FS里的效果不及對數(shù)據(jù)先處理后理想,需要對時間序列先進(jìn)行數(shù)據(jù)處理,其中分類處理是其中一個必要的環(huán)節(jié)。因此,本文基于SAS 的時間序列模塊軟件FS來探析多產(chǎn)品銷量數(shù)據(jù)分類方法,從而提高FS預(yù)測模型的準(zhǔn)確率。
關(guān)鍵詞:多產(chǎn)品;SAS Forcast Studio;時間序列;數(shù)據(jù)分類方法
隨著社會的發(fā)展和計算機(jī)技術(shù)的進(jìn)步,數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛,已在經(jīng)濟(jì)、氣象、地質(zhì)、歷史文化、軍事、新聞、醫(yī)藥、農(nóng)業(yè)等領(lǐng)域產(chǎn)生了顯著的經(jīng)濟(jì)效益和社會效益。主要是從海量數(shù)據(jù)中挖掘潛在的知識、信息,包括聚類分析、分類預(yù)測(如決策樹、神經(jīng)網(wǎng)絡(luò)、LOGISTIC等)、生存分析、時間序列預(yù)測、回歸分析等。時間序列預(yù)測方法仍然是數(shù)據(jù)挖掘的主要方法之一,其主要思想是:找出歷史數(shù)據(jù)揭示現(xiàn)象隨時間變化的規(guī)律,將這種規(guī)律延伸到未來,從而對該現(xiàn)象的未來作出預(yù)測。為了提高預(yù)測計劃質(zhì)量,應(yīng)對公司業(yè)務(wù)的規(guī)模發(fā)展,除了借助依據(jù)業(yè)務(wù)流程形成的各類預(yù)測方法,還需要主觀干預(yù)較少的科學(xué)預(yù)測方法--讓數(shù)據(jù)說話的科學(xué)統(tǒng)計預(yù)測方法,借助SAS數(shù)據(jù)分析軟件,實現(xiàn)科學(xué)的預(yù)測,為公司業(yè)務(wù)整體預(yù)測計劃和資源效率的提升提供堅實的基礎(chǔ)。因此,本文基于SAS的時間序列模塊軟件FS來探析多產(chǎn)品銷量數(shù)據(jù)分類方法,以此提高FS預(yù)測模型的準(zhǔn)確率。
一、FS在時間序列分析方法中的應(yīng)用概述
SAS FS能夠同時對多個產(chǎn)品、快速進(jìn)行預(yù)測,建立快速、批量、自動的銷量預(yù)測模型群;挖掘人員可結(jié)合各種業(yè)務(wù)場景設(shè)計多種策略實現(xiàn)精細(xì)化建模;開發(fā)各種接口支撐模型的可調(diào)節(jié)、可拓展性;并采用后評估方式為建模人員模型優(yōu)化提供支撐,通過BI平臺實現(xiàn)資源共享。FS能夠利用事件、日歷、廣告促銷和因果變量等各類銷量影響因素并融合這些因素進(jìn)行建模預(yù)測,而且能自動識別數(shù)據(jù)模式,生成預(yù)測結(jié)果,實現(xiàn)預(yù)測模型自動化。通過FS輸出的預(yù)測結(jié)果,公司和企業(yè)相關(guān)人員可根據(jù)銷售目標(biāo)和其他約束條件進(jìn)行調(diào)整,從而制訂合理的采購策略。
二、時間序列數(shù)據(jù)分類方法
由于多產(chǎn)品間存在相關(guān)關(guān)系,有轉(zhuǎn)化性、競爭性。部分產(chǎn)品因某些特殊因素導(dǎo)致銷量波動較大,但結(jié)合相關(guān)產(chǎn)品整體數(shù)據(jù)來看比較穩(wěn)定。因此對于多產(chǎn)品銷量數(shù)據(jù)先進(jìn)行分類是必要的。最常見大體有以下幾種分類方式,以某奶粉公司產(chǎn)品為例:(1)從轉(zhuǎn)化性來看,按產(chǎn)品系列打包調(diào)節(jié)預(yù)測,如金裝1-4打包,超金1-4打包等;(2)按產(chǎn)品品牌內(nèi)替代性打包調(diào)節(jié)預(yù)測,如金裝1、超金1、超呵1、呵護(hù)1打包等;(3)按產(chǎn)品品牌間替代性打包調(diào)節(jié)預(yù)測,如素加與好嬰兒奶粉打包等。
1.按波動性分類
由于各產(chǎn)品銷量方差(或極差)可用來衡量其波動范圍的大小,因此,可通過構(gòu)建該統(tǒng)計量來對產(chǎn)品銷量波動性進(jìn)行描述,然后再利用k倍δ的原理對數(shù)據(jù)分類,k值可以根據(jù)用戶需求自己定義。其思路可以歸納如下:
(1)針對單個產(chǎn)品,利用最近一年的產(chǎn)品實際銷量值求解其方差δ2;
(2)針對所有產(chǎn)品,利用所得的方差δi2求解[-kδ0,+kδ0];
(3)根據(jù)(2)求得的區(qū)間將原始數(shù)據(jù)分為三類,將大于區(qū)間上限值的歸為一類,將小于區(qū)間下限值的歸為一類,將大于區(qū)間下限值小于區(qū)間上限值的歸為一類。
2.按銷量大小分類
四分位數(shù)方法:四分位數(shù)是統(tǒng)計學(xué)中把所有數(shù)值由小到大排列并分成四等份,處于三個分割點位置的數(shù)值。該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字為Q1,該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字為Q2,該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字為Q3。利用四位數(shù)方法將原始數(shù)據(jù)分成四類,分別為:<25%、25%~50%、50%~75%、>75%。
對于產(chǎn)品銷量數(shù)據(jù),各產(chǎn)品銷量中位數(shù)可用來衡量其銷量大概所處的位置,因此,通過構(gòu)建該統(tǒng)計量來對產(chǎn)品銷量大小進(jìn)行分類。
3.按歷史數(shù)據(jù)長度
根據(jù)提供的銷量數(shù)據(jù)的長度,以歷史數(shù)據(jù)為2013.03~2015.06為例,按歷史數(shù)據(jù)長度分別為小于1年,1年~2年,2年以上,將產(chǎn)品分為3類。
4.綜合分類方法
在FS建模時,有多種調(diào)節(jié)層級的方法,不同的層級調(diào)節(jié)可以生成不同的預(yù)測模型,為了得到最優(yōu)預(yù)測模型,因此需要綜合考慮波動分類、銷量大小、序列長度等組合的影響因素。
三、實驗過程
根據(jù)中國某信息與通信解決方案以及智能終端生產(chǎn)企業(yè)的各產(chǎn)品每天的銷量數(shù)據(jù)來進(jìn)行時間序列預(yù)測分析,共1220個產(chǎn)品item,產(chǎn)品種類多,數(shù)據(jù)量大。將數(shù)據(jù)集分成擬合數(shù)據(jù)集、測試集兩部分,選擇其中一部分?jǐn)?shù)據(jù)作為預(yù)測模型的輸入,另一部分?jǐn)?shù)據(jù)作為驗證,以評估預(yù)測模型的優(yōu)劣。例如:有24個月的歷史銷售數(shù)據(jù),我們可以選擇前18個月的數(shù)據(jù)作為輸入,另外6個月的數(shù)據(jù)作為驗證,從而評出最優(yōu)模型。
對原始數(shù)據(jù)集分別采用不打包分類處理、3倍δ原理分類、四分位數(shù)原理分類等方法進(jìn)行處理。對FS生成的結(jié)果模型利用模型評分函數(shù)E的大小來衡量優(yōu)劣。
Error=,MAPE=|真實值均值-預(yù)測值均值|/真實值均值
其中,MAPE1和MAPE2分別表示擬合數(shù)據(jù)集與測試集的均值絕對誤差百分比;N1和N2分別表示擬合數(shù)據(jù)集與測試集分別小于0.2(該閾值可自定義)和0.4(該閾值可自定義)的點的個數(shù)。
利用SAS的FS處理后,根據(jù)模型結(jié)果對比表明,對數(shù)據(jù)進(jìn)行分類打包后會生成更優(yōu)模型,預(yù)測會更有規(guī)律和更接近真實值。文中僅列出其中一種產(chǎn)品的結(jié)果來說明,從圖一中可以看出預(yù)測值在未打包處理前不同模型生成的預(yù)測數(shù)據(jù)偏差及波動極大,而處理后預(yù)測數(shù)據(jù)較穩(wěn)定,并且數(shù)據(jù)準(zhǔn)確率更高。
四、結(jié)束語
在用FS處理類似于銷量數(shù)據(jù)的時間序列數(shù)據(jù)集時,對數(shù)據(jù)進(jìn)行分類打包后會生成更優(yōu)模型,實驗表明分類處理比不分類處理,預(yù)測更準(zhǔn)確,但不同的分類方法對模型的影響程度不一樣,用戶可以根據(jù)實際需要選擇一種合適的分類方法。若一些序列周期長或者數(shù)據(jù)序列較短,我們還可以分別利用滾動預(yù)測和曲線擬合的方法來調(diào)和。
參考文獻(xiàn):
[1]李雄飛等.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].高等教育出版社,2010.
[2]王麗娜,肖冬榮.基于ARMA模型的經(jīng)濟(jì)非平穩(wěn)時間序列的預(yù)測分析[M].武漢理工大學(xué)學(xué)報(交通科學(xué)與工程版).Vol.28 No.1 Feb,2004.
[3]賈俊平.統(tǒng)計學(xué)(第六版)[M].中國人民大學(xué)出版社,2015(01).
[4]SAS(r) Forecast Studio14.1.User's Guide.
[5]劉曉冬,景睿等.殘差自回歸模型及SAS程序?qū)崿F(xiàn)[M].中國衛(wèi)生統(tǒng)計,2008年10月第25卷第5期.
作者簡介:高春姣(1988- ),女,漢族,湖北荊州,在讀碩士,廣州大學(xué)經(jīng)濟(jì)與統(tǒng)計學(xué)院,研究方向:經(jīng)濟(jì)預(yù)測與決策