馬 健
(亳州職業(yè)技術(shù)學院信息工程系 安徽 亳州 236800)
在人們生活中存在許多的時間序列,涉及到多個領(lǐng)域。從事科研考察、人文地理觀測等科學研究;醫(yī)生對病人的治療過程中記錄的病例、儀器檢查等數(shù)據(jù);人們比較關(guān)注的股票信息及股票日常交易量;企業(yè)對產(chǎn)品在市場中銷售的記錄及產(chǎn)品生產(chǎn)數(shù)據(jù)記錄;農(nóng)戶對農(nóng)產(chǎn)品種植的過程的數(shù)據(jù)記錄以及對農(nóng)產(chǎn)品種植產(chǎn)量的數(shù)據(jù)記錄等都是時間序列數(shù)據(jù)[1]。時間序列則是將原始的數(shù)據(jù)利用各種時間序列模型建立預(yù)測線,并利用該模式建立的預(yù)測線來預(yù)測未來可能發(fā)生的情況。
空間序列規(guī)則是一種建立在時間序列的基礎(chǔ)上,隨著時間的變化,結(jié)合空間序列規(guī)則自身的特點,在空間數(shù)據(jù)庫中對其某一數(shù)據(jù)找出其變化的規(guī)律。將空間數(shù)據(jù)的預(yù)測結(jié)合時間序列分析方法應(yīng)用到亳州白芍產(chǎn)量上,可以對亳州白芍產(chǎn)品進行序列規(guī)則挖掘,能夠有效地處理亳州白芍產(chǎn)量的數(shù)據(jù),從而得到亳州白芍種植產(chǎn)量的預(yù)測,為今后亳州白芍的種植和銷售起到了重要數(shù)據(jù)參考。
隨著信息技術(shù)的飛速發(fā)展,通過將物聯(lián)網(wǎng)技術(shù)與白芍種植進行結(jié)合,應(yīng)用計算機技術(shù)對白芍的種植和產(chǎn)量進行跟蹤,從而產(chǎn)生大量的時間序列數(shù)據(jù),為今后的數(shù)據(jù)挖掘提供了有力的數(shù)據(jù)依據(jù)。
傳統(tǒng)的序列模型給決策者的信息非常有限,例如某產(chǎn)品被購買的先后順序關(guān)系,并無法告知決策者這些被購買的事件相距的時間,因此大大降低決策者的決策能力。在時間序列型數(shù)據(jù)庫中,提出周期性挖掘(segment-wise periodicity),將挖掘的過程限定在某個時間范圍之內(nèi),反而會更有意義[2]。時間序列分析經(jīng)過幾十年的發(fā)展,已經(jīng)在各個方面得到體驗,可以對數(shù)據(jù)進行系統(tǒng)分析、預(yù)測。
2.1 基于ARMA模型的序列匹配方法。ARMA模型在產(chǎn)量預(yù)測過程中既要考慮種植的白芍每年的產(chǎn)量指標在時間序列的依存性,又要考慮受外界環(huán)境影響產(chǎn)生的波動的干擾性,是一種較為平穩(wěn)的短期預(yù)測和準確率較高的方法,目前在股票預(yù)測、市場分析等方面得到廣泛應(yīng)用[3]。ARMA模型主要應(yīng)用在平穩(wěn)序列,在對非平穩(wěn)序列進行預(yù)測,則需要對其處理,從而產(chǎn)生一個平穩(wěn)的序列擬合模型,對產(chǎn)品進行預(yù)測,提取相關(guān)有用的信息。
2.2 基于離散傅里葉變換(DFT)對時間序列匹配方法。離散傅里葉變換主要是對數(shù)據(jù)進行變換處理,在固定的區(qū)域時間序列對數(shù)據(jù)分析尤為重要[4]。如果采用離散傅里葉變換對白芍產(chǎn)量進行預(yù)測,要考慮到序列的取值問題,序列之間相似包括兩種情況,一種是整體序列匹配,一種是子序列匹配,在某種條件下,發(fā)現(xiàn)兩種序列的取值相差較大,而趨勢走勢相差較小。這種情況離散傅里葉變換就要進行偏移和調(diào)整,然后再對時間序列的子序列和整體序列匹配進行分析,從而提高精確度。
2.3 基于人工神經(jīng)網(wǎng)絡(luò)方法。人工神經(jīng)網(wǎng)絡(luò)是一個由一些被稱為神經(jīng)元的處理單元所組成的網(wǎng)絡(luò),而神經(jīng)元可以被用于確定一個復(fù)雜過程中的輸入、輸出關(guān)系[5]。它是一種非線性的統(tǒng)計數(shù)據(jù)的建模工具,現(xiàn)有很多應(yīng)用采用了人工神經(jīng)網(wǎng)絡(luò)進行預(yù)測,但是在對時間序列預(yù)測方面還存在若干個缺點,不能對挖掘質(zhì)量得到保障,預(yù)測的結(jié)果可能會出現(xiàn)偏差。
時間序列是指按照時間順序獲得的一系列觀測值,不僅可以從數(shù)量的角度來分析某一現(xiàn)象產(chǎn)生的規(guī)律,也可以從變化的角度在近年來,在股票預(yù)測價格、網(wǎng)絡(luò)流量等方面研究取得了一些成果[6]。時間序列預(yù)測根據(jù)時間變化建立相應(yīng)的預(yù)測模型,常用的幾種模型有自回歸模型和移動平均模型以及在此基礎(chǔ)上進行改進的自回歸移動平均模型和自回歸求和移動平均模型等,依據(jù)這些模型對數(shù)據(jù)進行分析和預(yù)測。
根據(jù)上式可以得出結(jié)論,關(guān)于在AR(p)模型中,可以看出ACF的值是按照指數(shù)率來決定,隨著時刻的變化,在運行過程中某時刻之后不能為零,而是慢慢衰減。
一般形式的ARMA(p,q)的描述如下:
ARIMA模型預(yù)測的原理來源于數(shù)學模型,是由BOX和Jenkins在70年代提出的一種在時間序列過程中對某預(yù)測對象進行預(yù)測的方法。ARIMA主要是通過時間變化對某一對象進行監(jiān)測,產(chǎn)生一系列的變化的數(shù)據(jù),然后利用數(shù)學模型對其變化的數(shù)據(jù)進行分析和描述,通過模型的建立和數(shù)據(jù)的分析產(chǎn)生的序列的數(shù)據(jù)對將來依據(jù)該模型產(chǎn)生的數(shù)據(jù)進行預(yù)測。
(1)ARIMA方法預(yù)測的步驟。
首先對數(shù)據(jù)進行采集,對原始數(shù)據(jù)進行預(yù)處理,去除冗余部分數(shù)據(jù),然后選擇一個數(shù)據(jù)模型對數(shù)據(jù)進行識別,分析其數(shù)據(jù)隨時間變化而產(chǎn)生的規(guī)律,通過估計模型中參數(shù)的設(shè)置來對序列進行檢驗,通過檢驗,直接輸出結(jié)果,對未來的數(shù)據(jù)進行預(yù)測,如果輸入?yún)?shù)不能通過檢驗,則需要返回到模型識別模塊,對其重新識別,直到檢測通過,可以對未來的數(shù)值進行預(yù)測,才能應(yīng)用到實際工作中。建模流程如圖1所示。
時間序列是指在某一種情況下,隨著不同時間產(chǎn)生的一組數(shù)據(jù)。設(shè)為一個在等間隔時間采集得到的時間序列,t為第t個時間點,xt為xt時刻亳芍產(chǎn)量的時間序列值。
圖1 建模流程圖
(2)ARIMA(p,d,q)模型 ARIMA(p,d,q)模型的一般形式為
實驗數(shù)據(jù)來源于安徽亳州某種植基地提供的5年起的白芍產(chǎn)量數(shù)據(jù)。本文將1998~2013年亳州某種植基地種植的白芍產(chǎn)量數(shù)據(jù)作為初始數(shù)據(jù),通過數(shù)據(jù)的預(yù)處理,再通過模型建立和模型靈敏度分析。將 2011~2013年的數(shù)據(jù)用于模型檢驗。實驗數(shù)據(jù)如表1所示。
表1 1998-2013年白芍產(chǎn)量統(tǒng)計表
對原始數(shù)據(jù)做時間序列圖,如圖 2所示,從圖2可以看出,白芍產(chǎn)量在過去的15年間雖然有一定的波動性,但在總體分為兩個階段,1998年到2004年期間是呈上升趨勢,2005-2013年期間呈下降趨勢,白芍的產(chǎn)量為非平穩(wěn)時間序列。
圖2 1998-2013年白芍產(chǎn)量
模型識別是要根據(jù)需預(yù)測對象在某時間序列中產(chǎn)生的特點,來選擇相應(yīng)的類型,本文針對亳州白芍產(chǎn)量的數(shù)據(jù)進行分析,選取的時間序列自相關(guān)和偏相關(guān)等函數(shù)均是拖尾的。
為了解決白芍產(chǎn)量非平穩(wěn)時間序列問題,消除其線性趨勢,就要對其數(shù)據(jù)進行差分平穩(wěn)化處理,結(jié)合亳州白芍產(chǎn)量的實際情況,本文采用序列為ARIMA(p,d,q)序列。經(jīng)判別 p、d、q 適合的數(shù)值,選擇一些特定的 ARIMA 模型,接著便可估計模型中自我回歸及移動平均項的系數(shù),這可使用最小平方法或最大概似估計法計算求得,目前皆可借用統(tǒng)計軟件來處理,根據(jù) Akaike于 1976年提出的 BIC準則來判定模型的最佳階數(shù),使得AIC或BIC值達到最小的模型是最優(yōu)模型。經(jīng)過兩種模型的對比,得出在收斂標準的最大值為10、參數(shù)為0.001%的平方的情況下,設(shè)置參數(shù)(p,d,q)=(1,2,1)時,AIC值(270.121)和BIC值(272.792)達到最小,此模型相對最優(yōu)。
建立一個能夠?qū)π蛄兄袛?shù)據(jù)進行有效提取的模型,是具有關(guān)鍵性作用,可以擬合殘差序列不再蘊含任何相關(guān)信息,稱之為白噪聲序列。通過模型的建立和參數(shù)估計,利用SASS系統(tǒng)的x2檢驗和單樣本K-S檢驗的方法,對本文建立的模型識別產(chǎn)生的序列進行適應(yīng)性檢驗,
4.4.1 實際擬合
通過圖 3 1998-2013 預(yù)測與實際對比圖可以看出,ARIMA(1,2,1)模型預(yù)測的白芍的產(chǎn)量與實際白芍產(chǎn)量的擬合效果較好,可以使用該模型預(yù)測未來亳州白芍的產(chǎn)量。
圖3 1998-2013 預(yù)測與實際對比圖
4.4.2 預(yù)測檢驗
運用ARIMA(1,2,1)模型預(yù)測2013-2015年的白芍產(chǎn)量,所得的值與實際值的比較結(jié)果如表2所示。
表2 2013-2015年的白芍產(chǎn)量對比值
通過對1998-2003亳州白芍產(chǎn)量的實際擬合,利用ARIMA(1,2,1)模型預(yù)測對2013-2015年白芍產(chǎn)量進行預(yù)測,由表2可以看出,2013-2015三年的白芍產(chǎn)量的實際值與根據(jù)ARIMA(1,2,1)模型得到的預(yù)測值之間的誤差很小,相對誤差均控制在6%以內(nèi),達到了預(yù)測的目的。因此,可以使用該模型進一步對亳州白芍未來的產(chǎn)量進行預(yù)測。
亳州是中國四大藥都之首,種植中草藥面積已有100萬畝以上,亳州白芍種植占有主體地位。本文針對亳州白芍種植產(chǎn)量的情況,結(jié)合現(xiàn)有的數(shù)據(jù)挖掘技術(shù),對亳州白芍產(chǎn)量進行預(yù)測。通過對時間序列分析和時間序列預(yù)測模型的建立及識別的研究,應(yīng)用到白芍產(chǎn)量上進行預(yù)測。實驗結(jié)果表明,采用時間序列數(shù)據(jù)挖掘方法對白芍產(chǎn)量進行趨勢預(yù)測,預(yù)測的可信度較高,該方法具有可行性,可以對亳州白芍未來的產(chǎn)量進行預(yù)測,同時更好的監(jiān)控市場上亳州白芍價格和庫存等銷售問題,為亳州中草藥發(fā)展提供了科學依據(jù)。