易燕飛,郝藝達
(長春工業(yè)大學(xué),長春 130000)
?
基于ARMA模型的時間序列挖掘
易燕飛,郝藝達
(長春工業(yè)大學(xué),長春 130000)
[摘 要]數(shù)據(jù)挖掘作為時下IT等領(lǐng)域研究的重點與難點,對其重要內(nèi)容之一的時間序列進行分析與挖掘很有必要。實踐表明,利用ARMA模型來分析與挖掘時間序列能取得較好效果。因此,本文在詳細介紹時間序列基本概念和ARMA模型相關(guān)內(nèi)容的基礎(chǔ)上,對基于ARMA模型時間序列的挖掘進行了深入探究。
[關(guān)鍵詞]ARMA模型;時間序列;挖掘
對數(shù)據(jù)挖掘進行研究有利于人們對數(shù)據(jù)及其潛在價值進行充分利用,有利于推動IT等相關(guān)行業(yè)的快速發(fā)展。而時間序列作為數(shù)據(jù)挖掘的一個重要分支,在其中所具有的重要地位不言而喻。目前,很多領(lǐng)域都涉及時間序列分析,如教育、金融、工業(yè)、醫(yī)療等。隨著時間序列分析的不斷深入,利用ARMA模型對其進行挖掘既是時代發(fā)展的必然趨勢,也是對ARMA模型優(yōu)勢的一種充分體現(xiàn)。
所謂時間序列,指的是按照時間先后順序?qū)δ硞€變量進行觀測所得到的一組觀測值。根據(jù)該定義可知,任何一個時間序列都可用若干個二元組(時間變量,觀測變量)來表示,根據(jù)觀測時間間隔的不同,時間變量可是時、分、秒等,也可是一些單調(diào)遞增的物理量,如溫度。觀測變量反映的是時間序列所具有的實際意義,如電壓、血壓、銷售數(shù)量等。
相關(guān)研究學(xué)者提出,可根據(jù)時間序列的值建立一個參數(shù)數(shù)學(xué)模型,但要保證所建參數(shù)化模型能真實準確反映出時間序列的基本特征,以為后續(xù)時間序列的分類、聚類等操作提供必要的依據(jù)和參考。該模型即為ARMA模型(自回歸移動平均模型),其基本思想是任何一個變量當(dāng)前的取值,不僅會受它本身過去取值的影響,而且會受過去與現(xiàn)在各種隨機因素的共同影響。依照該思想,可建立出相應(yīng)的數(shù)學(xué)模型。目前,較為常用的平穩(wěn)時間序列參數(shù)化模型主要包括AR模型(自回歸模型),MA模型(移動平均模型)和ARMA模型(自回歸移動平均模型)。
3.1時間序列基本特征提取
在今天的社會環(huán)境下,基于ARMA模型對數(shù)據(jù)挖掘中的時間序列分析是當(dāng)前該領(lǐng)域應(yīng)用十分普遍的一種分析方法。利用ARMA模型對時間序列進行挖掘與分析需要提取時間序列的基本特征,具體提取步驟如下。首先,借助相關(guān)工具繪制出時間序列的時序圖,通過時序圖對待分析時間序列的基本特征仔細觀察,包括時間序列的周期性、趨勢變化等,觀察后對該時間序列是否為平穩(wěn)序列初步判定。如果初步判定該時間序列為非平穩(wěn)序列,則可利用差分運算來將此時間序列本身的周期性與趨勢變化消除。接著,對原始時間序列的自相關(guān)函數(shù)和偏相關(guān)函數(shù)進行計算,并對自相關(guān)函數(shù)的衰減速度認真觀察,同時通過ADF檢驗來確定時間序列的平穩(wěn)性,若時間序列為非平穩(wěn)序列,則需要利用差分運算將這種不平穩(wěn)性消除,使之變成平穩(wěn)時間序列。然后,對變換后時間序列的自相關(guān)函數(shù)和偏相關(guān)函數(shù)仔細觀察,同時結(jié)合赤池信息量準則(AIC)和貝葉斯信息準則(BIC),對ARMA模型與自回歸和移動平均相關(guān)的兩個階數(shù)數(shù)值進行準確確定。最后,利用最小二乘法計算出ARMA模型兩階數(shù)的估計值,并用該估計值來表示時間序列。
3.2時間序列的聚類
在數(shù)據(jù)挖掘研究當(dāng)中,聚類算法是一種非常重要的分析方法,目前已被廣泛應(yīng)用到醫(yī)學(xué)、心理學(xué)等諸多領(lǐng)域。若序列中的數(shù)據(jù)隨時間變化而變化,則這種數(shù)據(jù)稱為動態(tài)數(shù)據(jù)。反之,稱為靜態(tài)數(shù)據(jù)。顯然,時間序列屬于一種典型的動態(tài)數(shù)據(jù),而其所具有的最顯著特征即為時域性。目前,時間序列的聚類分析主要有兩種思路:通過一定處理將時間序列映射到靜態(tài)數(shù)據(jù)上,以數(shù)據(jù)轉(zhuǎn)換或特征提取等方式實現(xiàn)時間序列的聚類分析,修改靜態(tài)數(shù)據(jù)聚類分析方法,使之也能對時間序列進行聚類分析。
基于ARMA模型對時間序列進行聚類分析的一般過程為:首先,利用ARMA模型對時間序列進行模擬擬合,即將時間序列用一組向量表示出來,確定模擬擬合后時間序列的序列個數(shù);然后,對系數(shù)向量進行標準化處理,以系數(shù)向量的歐氏距離作為相似度測量,再利用同樣的方法得到首次聚類結(jié)果,從結(jié)果中得出每一序列數(shù)據(jù)在聚類分析中的貢獻率,計算前n個貢獻率達到一定數(shù)值的權(quán)重,并將其與模擬擬合得到的參數(shù)向量相乘;最后,將新得到的系數(shù)向量進行標準化處理,利用同樣的聚類方法得出最后的聚類結(jié)果。
由上文分析可知,利用ARMA模型來分析時間序列,既方便快捷又高效準確。而基于ARMA模型的時間序列分析在醫(yī)療、金融、經(jīng)濟等各行業(yè)中的應(yīng)用,能有效促進各行業(yè)發(fā)展,提高各行業(yè)相關(guān)計算與檢測的準確率,是今后數(shù)據(jù)挖掘領(lǐng)域研究的重中之重。
主要參考文獻
[1]孫承杰,劉豐,林磊,等.基于時間序列聚類和ARMA模型的檢索量預(yù)測[J].華南理工大學(xué)學(xué)報:自然科學(xué)版,2011(4).
[2]馬亮亮.一種基于Hilbert-Huang變換和ARMA模型的時間序列預(yù)測方法[J].江漢大學(xué)學(xué)報:自然科學(xué)版,2014(1).
[3]曹凈,丁文云,趙黨書,等.基于LSSVM-ARMA模型的基坑變形時間序列預(yù)測[J].巖土力學(xué),2014(2).
[4]韓曉飛,丁曉光,張永奇,等.基于ARMA模型的GPS基準站坐標時間序列分析[J].測繪與空間地理信息,2014(12).
[收稿日期]2015-12-04
[中圖分類號]TP311.13
[文獻標識碼]A
[文章編號]1673-0194(2016)02-0164-01
doi:10.3969/j.issn.1673 - 0194.2016.02.126