張人上,安俊娥
(1.山西財(cái)經(jīng)大學(xué)信息管理學(xué)院,太原 030006;2.中國(guó)電子科技集團(tuán)第三十三研究所,太原 030006)
基于智能集成架構(gòu)的時(shí)間序列數(shù)據(jù)挖掘算法研究*
張人上1,安俊娥2
(1.山西財(cái)經(jīng)大學(xué)信息管理學(xué)院,太原 030006;2.中國(guó)電子科技集團(tuán)第三十三研究所,太原 030006)
針對(duì)單一算法在處理復(fù)雜時(shí)間序列數(shù)據(jù)時(shí)存在缺陷以致無(wú)法挖掘全部信息的問(wèn)題,提出了智能集成架構(gòu),給出了4種集成結(jié)構(gòu),并分析了它們的適用情況。針對(duì)一類(lèi)隨機(jī)噪聲干擾的時(shí)間序列數(shù)據(jù),采用并聯(lián)嵌套建模結(jié)構(gòu),提出嵌套雙種群粒子群算法的自回歸滑動(dòng)平均(ARMA)模型,用于挖掘數(shù)據(jù)中的隨機(jī)性趨勢(shì);提出基于概率密度控制(PDF)的最小二乘支持向量機(jī)(LSSVM),用于挖掘數(shù)據(jù)中的確定性趨勢(shì),兩種模型并聯(lián)補(bǔ)集成實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的充分挖掘。通過(guò)一組實(shí)驗(yàn)驗(yàn)證了所提方法的效果。
時(shí)間序列,支持向量機(jī),智能集成,自回歸滑動(dòng)平均
隨著信息時(shí)代的到來(lái),大數(shù)據(jù)分析已成為各個(gè)領(lǐng)域愈來(lái)愈重視與依賴的技術(shù)手段。通過(guò)時(shí)間序列數(shù)據(jù)挖掘,能夠掌握事物的發(fā)展規(guī)律,從而對(duì)其未來(lái)趨勢(shì)進(jìn)行預(yù)測(cè)。
本文提出了智能集成架構(gòu),針對(duì)一類(lèi)隨機(jī)噪聲干擾的時(shí)間序列數(shù)據(jù),采用并聯(lián)嵌套建模結(jié)構(gòu),提出嵌套雙種群粒子群算法的自回歸滑動(dòng)平均模型,用于挖掘數(shù)據(jù)中的隨機(jī)性趨勢(shì);提出基于概率密度控制的最小二乘支持向量機(jī),用于挖掘數(shù)據(jù)中的確定性趨勢(shì),兩種模型并聯(lián)補(bǔ)集成實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的充分挖掘。通過(guò)一組實(shí)驗(yàn)驗(yàn)證了所提方法的效果。
智能集成模式挖掘方法的形式與結(jié)構(gòu)主要包括4種:
第1種稱為并聯(lián)補(bǔ)集成,其結(jié)構(gòu)包括兩個(gè)子模型,兩個(gè)模型沒(méi)有主次之分,且相互之間互為補(bǔ)充。該結(jié)構(gòu)中的兩個(gè)子模型通常由兩種建模方法得到,單一建模方法能夠挖掘時(shí)間序列數(shù)據(jù)中的部分信息以獲知對(duì)應(yīng)規(guī)律,但由于方法所限,無(wú)法獲知數(shù)據(jù)中的全部信息,因此,依靠?jī)煞N建模方法互為補(bǔ)充以充分挖掘數(shù)據(jù)中隱含的規(guī)律或模式。
疊加形式分為相加與相乘兩種。并聯(lián)疊加集成結(jié)構(gòu)如圖1、圖2所示。圖中X1為模型1的輸入,Y1為模型1的輸出,Y1=f1(X1)。X2為模型2的輸入,δ為模型2的輸出,δ=f2(X2)。在圖1中Y=Y0+δ,在圖2中Y=δY0。
圖1 相加形式的并聯(lián)補(bǔ)結(jié)構(gòu)
圖2 相乘形式的并聯(lián)補(bǔ)結(jié)構(gòu)
第2種稱為加權(quán)疊加集成,該結(jié)構(gòu)由多個(gè)子模型加權(quán)后疊加構(gòu)成,其中每個(gè)子模型對(duì)應(yīng)的權(quán)重大小決定了它在集成模型中所起的作用。該結(jié)構(gòu)中的多個(gè)子模型通常由多種建模方法得到,單一建模方法能夠挖掘時(shí)間序列數(shù)據(jù)中的部分信息以獲知對(duì)應(yīng)規(guī)律,但由于方法所限,無(wú)法獲知數(shù)據(jù)中的全部信息,因此,依靠多種建模方法互為補(bǔ)充以充分挖掘數(shù)據(jù)中隱含的規(guī)律或模式。
圖3 加權(quán)并集成結(jié)構(gòu)
第3種為串聯(lián)集成,該結(jié)構(gòu)包括兩個(gè)或多個(gè)子模型,其中一個(gè)子模型的輸出為另一個(gè)子模型的輸入。非線性動(dòng)態(tài)系統(tǒng)通常采用這種形式,比如采用神經(jīng)網(wǎng)絡(luò)反映系統(tǒng)靜態(tài)時(shí)的非線性特性,采用NARMX(具有外生變量的非線性自回歸滑動(dòng)平均)表征動(dòng)態(tài)特性。串聯(lián)集成結(jié)構(gòu)如圖4所示。
第4種為模型嵌套集成,該結(jié)構(gòu)包括至少兩個(gè)子模型,其中一個(gè)稱為基模型,用來(lái)對(duì)工業(yè)過(guò)程的主體結(jié)構(gòu)進(jìn)行建模,其他子模型則嵌套在基模型中,用來(lái)對(duì)基模型中的未知參數(shù)建模,如圖5所示。比如將蟻群算法、粒子群優(yōu)化算法、遺傳算法等仿生算法應(yīng)用到系統(tǒng)辨識(shí)中,用來(lái)實(shí)現(xiàn)模型中的參數(shù)估計(jì)。
圖4 串聯(lián)集成結(jié)構(gòu)
圖5 模型嵌套集成
ARMA時(shí)間序列模型理論非常完善,對(duì)于一個(gè)平穩(wěn)、零均值的時(shí)間序列,如采取合適的階次與系數(shù),能保證擬合出的模型預(yù)報(bào)殘差為零均值噪聲。
本文提出雙種群粒子群優(yōu)化算法(cPSO),其中一個(gè)子群執(zhí)行自適應(yīng)網(wǎng)格粒子搜索,以保持種群的多樣性,提高算法的全局搜索能力;另外一個(gè)子群按照快速收縮粒子群算法搜索,具有非常出色的收斂性能。采用cPSO算法優(yōu)化確定ARMA模型的階次與系數(shù)以最小化模型預(yù)報(bào)殘差。
算法步驟如下:
第1步:采用單位根檢驗(yàn)法(ADF)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行平穩(wěn)性檢驗(yàn),如果序列為零均值平穩(wěn)序列則直接用于ARMA模型建模,否則需要對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行平穩(wěn)化處理;
第2步:設(shè)置模型階次與系數(shù)優(yōu)化準(zhǔn)則為模型預(yù)報(bào)的均方根誤差最小化;
第3步:采用cPSO算法擬合ARMA模型系數(shù)與階次。
cPSO算法原理如圖6所示,算法步驟如下:
圖6 cPSO算法流程
A、劃分網(wǎng)格
將每一維決策變量平均分成gp段。
B、劃分子種群
將整個(gè)種群分為兩個(gè)子群即自適應(yīng)網(wǎng)格搜索子群(簡(jiǎn)稱網(wǎng)格子群)與收縮PSO子群(簡(jiǎn)稱PSO子群),兩個(gè)子種群的粒子個(gè)數(shù)分別為Popz與Pops。
C、種群初始化
在每一個(gè)格子內(nèi)都隨機(jī)生成一個(gè)粒子pxq∈R2,從而構(gòu)成網(wǎng)格子群,{pxq|q=1,…,Popz}。另外,在整個(gè)決策空間內(nèi)隨機(jī)生成Pops個(gè)粒子,從而得到PSO子群{pxq|q=Popz+1,…,Popz+Pops}。令PSO子群的初始速度為0,第k個(gè)粒子的初始個(gè)體向?qū)bestq為自身即pbestq=pxq,q=Popz+1,…,Popz+Pops,初始全局向?qū)best為隨機(jī)選擇的某個(gè)粒子位置。
D、向?qū)д{(diào)整
根據(jù)優(yōu)化準(zhǔn)則即模型預(yù)報(bào)誤差均方根最小化評(píng)估每個(gè)粒子,得到 feval(pxq),q=Popz+1,…,Popz+Pops,并按照下式調(diào)整PSO子群的個(gè)體向?qū)c全局向?qū)В?/p>
E、網(wǎng)格調(diào)整
根據(jù)gbest所在格子(這里稱為向?qū)ЬW(wǎng)格)的位置調(diào)整每個(gè)網(wǎng)格粒子的搜索范圍。調(diào)整后使所有網(wǎng)格粒子的搜索范圍都包括向?qū)ЬW(wǎng)格區(qū)間。如圖7所示,為了表述簡(jiǎn)單,假設(shè)將每一維決策變量范圍分成3段,兩維空間,因此,總共分割成9個(gè)網(wǎng)格,其中g(shù)best位于第5個(gè)網(wǎng)格內(nèi)。在調(diào)整前粒子1的搜索范圍為網(wǎng)格1,調(diào)整后粒子1的搜索范圍變?yōu)榫W(wǎng)格1、2、4、5構(gòu)成的空間。同樣,在調(diào)整前粒子2的搜索范圍為網(wǎng)格2,調(diào)整后粒子2的搜索范圍變?yōu)榫W(wǎng)格2、網(wǎng)格5構(gòu)成的空間。
圖7 網(wǎng)格調(diào)整實(shí)例
F、網(wǎng)格子群位置更新
網(wǎng)格子群的位置pxq(q=1,…,Popz)按照下式進(jìn)行更新:
G、PSO子群位置更新
收縮 PSO子群的位置 pxq(q=Popz+1,…,Popz+Pops)按照下式進(jìn)行更新:
第4步:驗(yàn)證所建立的時(shí)間序列ARMA模型。
提出了一種新的LSSVM模型參數(shù)選擇準(zhǔn)則即使模型殘差PDF逼近給定的高斯分布,以提高數(shù)據(jù)分析與預(yù)測(cè)的精度與泛化性。PDF調(diào)整與控制思想起源于隨機(jī)控制領(lǐng)域,其目標(biāo)是使系統(tǒng)輸出的概率密度函數(shù)跟蹤一個(gè)給定的分布形狀。
算法原理如下:
LSSVM將優(yōu)化問(wèn)題描述如下:
其中,ζj∈R是殘差,C是懲罰系數(shù)。
建立Lagrangian函數(shù),并根據(jù)Karush-Kuhn-Tuc ker(KKT)條件,得到:
消除ω,ζ后,得到線性方程:
核函數(shù)取高斯徑向基函數(shù)
則,待求LSSVM回歸模型為:
其中,αj,b由方程組式(8)求解得到。
在LSSVM回歸建模過(guò)程中,懲罰系數(shù)C和核函數(shù)參數(shù)σ是可調(diào)參數(shù),一旦選擇出這兩個(gè)參數(shù),則可以獲得最小二乘支持向量機(jī)模型。
基于殘差PDF控制的LSSVM數(shù)據(jù)分析與預(yù)測(cè)原理是利用系統(tǒng)輸入輸出的數(shù)據(jù),在模型結(jié)構(gòu)確定的基礎(chǔ)上,調(diào)整模型內(nèi)部參數(shù)使模型誤差方差最小且具有零均值。因此,在系統(tǒng)的輸入、輸出存在隨機(jī)干擾時(shí),該方法仍然能夠保證建模精度。如果隨機(jī)干擾為高斯分布,因此,調(diào)整模型參數(shù)的目標(biāo)是使得模型殘差概率密度函數(shù)(PDF)越窄越好。如果隨機(jī)干擾為非高斯分布,以模型可調(diào)參數(shù)為輸入,模型殘差的概率密度函數(shù)為輸出分布,通過(guò)建立關(guān)于輸入的在線調(diào)整算法,實(shí)現(xiàn)輸出概率密度函數(shù)跟蹤一個(gè)定義在一個(gè)窄區(qū)間上的零均值高斯分布。下面詳細(xì)介紹這一參數(shù)選擇準(zhǔn)則,并采用標(biāo)準(zhǔn)網(wǎng)格搜索算法[20]確定LSSVM模型參數(shù)的過(guò)程。
殘差ξ可以表示為:
進(jìn)一步可以寫(xiě)成如下函數(shù)形成:
設(shè)殘差ξ的概率密度分布為γξ,則γξ為可調(diào)參數(shù)懲罰系數(shù)C和核函數(shù)參數(shù)σ的函數(shù),即γξ(x,y,C,σ),因此,可以通過(guò)調(diào)整C和來(lái)使γξ接近于一目標(biāo)高斯分布。
設(shè)目標(biāo)高斯分布概率密度函數(shù)γtarget為:
定義參數(shù)選擇準(zhǔn)則:
針對(duì)一類(lèi)隨機(jī)噪聲干擾的時(shí)間序列數(shù)據(jù),本文采用上述并聯(lián)嵌套建模結(jié)構(gòu),采用子模型嵌套cPSO的ARMA模型挖掘數(shù)據(jù)中的隨機(jī)性趨勢(shì);采用基于PDF的LSSVM挖掘數(shù)據(jù)中的確定性趨勢(shì),兩種模型并聯(lián)補(bǔ)集成實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的充分挖掘。
以選礦生產(chǎn)過(guò)程時(shí)間序列數(shù)據(jù)為收集對(duì)象,該數(shù)據(jù)集受到嚴(yán)重的工業(yè)噪聲干擾。
分別采用本文所提方法(ARMA-LSSVM)與單純的PDF-LSSVM分別對(duì)上述工業(yè)對(duì)象進(jìn)行數(shù)據(jù)分析與預(yù)測(cè),給定的目標(biāo)高斯概率密度函數(shù)的均值μ=0,方差σ2G=7.5。模型驗(yàn)證結(jié)果顯示在圖8~下頁(yè)圖13中。
圖8PDF-LSSVM與ARMA-LSSVM模型訓(xùn)練結(jié)果與樣本數(shù)據(jù)對(duì)比
圖9PDF-LSSVM與ARMA-LSSVM模型預(yù)報(bào)結(jié)果與測(cè)試數(shù)據(jù)對(duì)比
圖10PDF-LSSVM與ARMA-LSSVM模型訓(xùn)練殘差
圖8顯示了PDF-LSSVM與ARMA-LSSVM模型訓(xùn)練結(jié)果于訓(xùn)練樣本數(shù)據(jù)的擬合程度,圖10反映了PDF-LSSVM與ARMA-LSSVM模型訓(xùn)練精度。由圖8可以發(fā)現(xiàn),兩個(gè)方法的模型訓(xùn)練結(jié)果都能近似擬合上訓(xùn)練樣本數(shù)據(jù),圖10結(jié)果顯示兩個(gè)方法的模型訓(xùn)練精度都能滿足要求,并且ARMA-LSSVM具有一定的優(yōu)勢(shì)。
圖11PDF-LSSVM與ARMA-LSSVM模型預(yù)報(bào)殘差
圖12PDF-LSSVM與ARMA-LSSVM訓(xùn)練模型殘差的自相關(guān)分析
圖13PDF-LSSVM與ARMA-LSSVM預(yù)報(bào)殘差的自相關(guān)分析
圖9為PDF-LSSVM與ARMA-LSSVM模型預(yù)報(bào)結(jié)果與測(cè)試數(shù)據(jù)的對(duì)比,圖11為PDF-LSSVM與ARMA-LSSVM模型預(yù)報(bào)精度。根據(jù)圖9、圖11,ARMA-LSSVM建模方法的預(yù)報(bào)精度要高于PDF-LSSVM建模方法,這說(shuō)明ARMA-LSSVM的泛化性要高于PDF-LSSVM建模方法,因此,其建模結(jié)果更具有實(shí)際應(yīng)用價(jià)值。
圖12、圖13為PDF-LSSVM及ARMA-LSSVM模型訓(xùn)練殘差、預(yù)報(bào)殘差的自相關(guān)分析。根據(jù)該圖,可以發(fā)現(xiàn)PDF-LSSVM模型的訓(xùn)練殘差與預(yù)報(bào)殘差均不為白噪聲,即PDFLSSVM所建模型沒(méi)有提取出建模對(duì)象的全部信息,造成模型精度不高、泛化性差等問(wèn)題。與之相比,ARMA-LSSVM模型的訓(xùn)練殘差與預(yù)報(bào)殘差近似為白噪聲,因此,其模型結(jié)果具有更高精度與應(yīng)用價(jià)值。
[1]孫翔,王景成.基于回歸模型的城市長(zhǎng)期水量預(yù)測(cè)[J].微型電腦應(yīng)用,2010,38(11):7-9.
[2]才讓加.化學(xué)數(shù)據(jù)的一元線性回歸分析[J].青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,29(2):13-15.
[3]姚偉.稅收組合預(yù)測(cè)仿真研究[J].計(jì)算機(jī)仿真,2012,39(10):374-377.
[4]葉宗裕.非線性回歸模型參數(shù)估計(jì)方法研究-以C-D生產(chǎn)函數(shù)為例[J].統(tǒng)計(jì)與信息論壇,2010(1):41-45.
[5]張金旺,劉紅,華琳,等.非線性回歸模型擬合生存資料分析[J].數(shù)理醫(yī)藥學(xué)雜志,2009,29(6):641-642.
[6]Ratkowsky D A.Nonlinear Regression Modeling-a Unified Practical Approach[M].Marcel Dekker Inc,1983.
[7]張新波.時(shí)間序列模型在稅收預(yù)測(cè)中的應(yīng)用[J].湖南稅務(wù)高等專(zhuān)科學(xué)校學(xué)報(bào),2010,25(4):30-32.
[8]林錦朗.時(shí)間序列模型在海關(guān)稅收預(yù)測(cè)中的應(yīng)用[J].統(tǒng)計(jì)與咨詢,2009,28(1):26-27.
[9]王時(shí)繪,周健.時(shí)間序列數(shù)學(xué)模型在稅收分析中的應(yīng)用[J].科技廣場(chǎng),2011,31(7):150-154.
[10]張伏生,汪鴻,韓悌,等.基于偏最小二乘回歸分析的短期負(fù)荷預(yù)測(cè)[J].電網(wǎng)技術(shù),2003,25(3):27-31.
[11]肖蘇,熊炎.基于灰度統(tǒng)計(jì)和神經(jīng)網(wǎng)絡(luò)的物流稅收預(yù)測(cè)模型[J].物流技術(shù),2013,35(23):131-132.
Research on Time Series Data Mining Algorithm Based on Intelligent Integrated Architecture
ZHANG Ren-shang1,AN Jun-e2
(1.Shanxi University of Finance and Economics,Taiyuan 030006,China;
2.The Thirty-third Research Institute of China Electronic Technology Group Corporation,Taiyuan 030006,China)
Aiming for the setbacks that a single algorithm can't dig all information in dealing with complex time-series data defects,the intelligent integrated architecture is proposed,providing four kinds of integration architecture,and analyzing their application.Time-series data for one category of random noise,utilizing series nested modeling structure,proposes Auto Regressive Moving Average model(ARMA)nested with double population particle swarm optimization algorithm for date mining,and figures out its stochastic trends;a probability density control based on support vector machine is provided,aimed to determine the trend of data mining,two categories of model of parallel compensation are set to implement the objective of thoroughly data mining,via a series of experiments that revealed the effectiveness of the proposed method.
time series,Support Vector Machine(SVM),intelligent integrated,ARMA
TP393
A
1002-0640(2015)03-0067-05
2014-01-18
2014-03-27
山西省自然科學(xué)基金資助項(xiàng)目(20120005)
張人上(1978- ),男,山西忻州人,碩士,講師。研究方向:計(jì)算機(jī)應(yīng)用、網(wǎng)絡(luò)安全。