葉秋生, 陳曉云
(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350116)
加權(quán)極限學(xué)習(xí)機(jī)的多變量時(shí)間序列預(yù)測(cè)方法
葉秋生, 陳曉云
(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州350116)
摘要:提出一種基于樣本分布的極限學(xué)習(xí)機(jī)預(yù)測(cè)模型WELMSD. 該模型先用kN近鄰密度估計(jì)方法估計(jì)出樣本的密度值,再用估計(jì)出的密度值給傳統(tǒng)ELM的經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)加權(quán),克服傳統(tǒng)ELM在對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)時(shí)忽略樣本分布的缺點(diǎn). 基于Rossler混沌時(shí)間序列和上證、 深證股票數(shù)據(jù)的實(shí)驗(yàn)仿真結(jié)果證明了所提算法的有效性,且當(dāng)近鄰參數(shù)kN取值較小時(shí),所提模型對(duì)參數(shù)不敏感,是一種更優(yōu)的多變量時(shí)間序列預(yù)測(cè)模型.
關(guān)鍵詞:加權(quán)極限學(xué)習(xí)機(jī); 多變量時(shí)間序列; 預(yù)測(cè); kN近鄰密度估計(jì)
0引言
時(shí)間序列預(yù)測(cè)技術(shù)被廣泛應(yīng)用于金融、 交通、 電力等領(lǐng)域,例如股票漲跌、 交通流量、 電力負(fù)荷的預(yù)測(cè)等. 但是,許多實(shí)際時(shí)間序列都是非平穩(wěn)和非線性的,使得傳統(tǒng)時(shí)間序列預(yù)測(cè)模型(如AR, ARMA, ARIMA等線性模型)的應(yīng)用受到極大的限制. 非線性時(shí)間序列預(yù)測(cè)方法能夠較好地處理非線性問(wèn)題,從而得到更深入的研究和更廣泛的應(yīng)用[1].
極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)是Huang等[2]根據(jù)廣義逆矩陣?yán)碚摵蛡鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)提出的一種新算法,該算法既保留傳統(tǒng)神經(jīng)網(wǎng)絡(luò)能夠較好地處理非線性問(wèn)題的優(yōu)點(diǎn),又克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)需要繁瑣迭代的缺點(diǎn),僅通過(guò)一步計(jì)算就能求出隱節(jié)點(diǎn)的輸出權(quán)值. 同傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,ELM極大地提高了網(wǎng)絡(luò)的學(xué)習(xí)速度和泛化能力,近年來(lái)被廣泛應(yīng)用于時(shí)間序列的預(yù)測(cè)并取得良好的預(yù)測(cè)效果[3]. 但多數(shù)ELM時(shí)間序列預(yù)測(cè)方法在訓(xùn)練ELM模型時(shí)同等地看待滑動(dòng)窗口內(nèi)的樣本[4-5],這顯然是不合理的. 實(shí)際情況下, 滑動(dòng)窗口內(nèi)的樣本對(duì)預(yù)測(cè)點(diǎn)的影響是有差異的[6]. 文獻(xiàn)[6]認(rèn)為與預(yù)測(cè)點(diǎn)時(shí)間上較近的樣本對(duì)預(yù)測(cè)點(diǎn)的影響較大,賦予較大的權(quán)重,而時(shí)間上較遠(yuǎn)的樣本對(duì)預(yù)測(cè)點(diǎn)的影響較小,賦予較小的權(quán)重. 但是,該思想憑經(jīng)驗(yàn)而來(lái),缺乏一定的理論支持,預(yù)測(cè)精度可能會(huì)因數(shù)據(jù)的不同而有較大的差異.
基于以上不足,將傳統(tǒng)ELM算法和kN近鄰密度估計(jì)方法結(jié)合起來(lái),提出基于樣本分布的加權(quán)極限學(xué)習(xí)機(jī)算法(weighted extreme learning machine based on sample distribution, WELMSD). WELMSD算法先通過(guò)kN近鄰密度估計(jì)方法估計(jì)出樣本的密度值,再用估計(jì)出的密度值給傳統(tǒng)ELM的經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)加權(quán),從而考慮樣本點(diǎn)的分布情況,提高了模型的預(yù)測(cè)性能.
1極限學(xué)習(xí)機(jī)分析
1.1極限學(xué)習(xí)機(jī)(ELM)預(yù)測(cè)模型[4]
(1)
其中: h(xi)=(g(w1, b1, xi), …, g(wL, bL, xi))為隱含層關(guān)于xi的輸出向量; L為隱節(jié)點(diǎn)的個(gè)數(shù); wj為第j個(gè)隱節(jié)點(diǎn)的輸入權(quán)值; bj為第j個(gè)隱節(jié)點(diǎn)的偏差; β為隱含層的輸出權(quán)值; g(wj, bj, xj)為第j個(gè)隱節(jié)點(diǎn)的激勵(lì)函數(shù),可在“Sigmoid”,“Sine”,“RBF”中選擇.
根據(jù)拉格朗日乘子法和KKT最優(yōu)條件,得[4]:
(2)
其中
(3)
從而可求得預(yù)測(cè)模型
(4)
1.2樣本分布對(duì)傳統(tǒng)ELM模型的影響
在機(jī)器學(xué)習(xí)中,通常用期望風(fēng)險(xiǎn)R[f]來(lái)評(píng)價(jià)一個(gè)決策函數(shù)f(x)的優(yōu)劣性,期望風(fēng)險(xiǎn)R[f]表達(dá)式[7]為:
(5)
其中:P(x,y)為分布函數(shù);c(x,y,f(x))為損失函數(shù).
通常情況下,P(x,y)是未知的,期望風(fēng)險(xiǎn)無(wú)法直接計(jì)算. 常用下式去逼近期望風(fēng)險(xiǎn):
(6)
式(6)稱(chēng)為經(jīng)驗(yàn)風(fēng)險(xiǎn).
在傳統(tǒng)ELM模型中,決策函數(shù)為:
(7)
損失函數(shù)為:
(8)
經(jīng)驗(yàn)風(fēng)險(xiǎn)為:
(9)
圖1 樣本分布對(duì)ELM的影響Fig.1 The effect of sample distribution on ELM
2加權(quán)極限學(xué)習(xí)機(jī)的多變量時(shí)間序列預(yù)測(cè)方法
2.1kN近鄰密度估計(jì)方法[8]
要估計(jì)數(shù)據(jù)集X={x1, …,xN}的概率密度,應(yīng)先給定近鄰樣本數(shù)kN,再根據(jù)要估計(jì)密度的樣本xi的第kN個(gè)近鄰與該樣本的距離計(jì)算出小艙的體積Vi, 則樣本xi的概率密度估計(jì)值為:
(10)
2.2加權(quán)極限學(xué)習(xí)機(jī)的多變量時(shí)間序列預(yù)測(cè)模型
圖2 樣本概率密度對(duì)ELM的影響Fig.2 The effect of Sample probability density on ELM
傳統(tǒng)的ELM算法忽略樣本概率密度對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)的影響,直接用經(jīng)驗(yàn)風(fēng)險(xiǎn)去逼近期望風(fēng)險(xiǎn),這樣會(huì)使得密度較小的樣本的預(yù)測(cè)值與實(shí)際值偏差較大. 為減小小密度樣本的預(yù)測(cè)誤差,提出基于樣本分布的加權(quán)極限學(xué)習(xí)機(jī)算法.
如圖2所示,當(dāng)N<<∞時(shí),在y值分布較為密集(密度值較大)的xj處,小矩形的寬能夠適當(dāng)?shù)胤糯蠖挥绊懶【匦蚊娣e對(duì)曲線c(x, y, f(x))和坐標(biāo)軸所圍的幾何圖形面積的逼近. 而在密度較小(密度值較小)的xi處,寬應(yīng)適當(dāng)?shù)刈冃? 基于此,將圖1所示的小矩形的寬由1/N修改為pi, 其中,pi(i=1, …, N)為訓(xùn)練樣本的密度估計(jì)值. 則傳統(tǒng)ELM的經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)Remp[f]變?yōu)?/p>
(11)
因此,基于樣本分布的加權(quán)極限學(xué)習(xí)機(jī)算法的目標(biāo)函數(shù)為:
(12)
式(12)同樣可采用拉格朗日乘子法求解:
(13)
其中,αi(i=1, …,N)為拉格朗日乘子. 根據(jù)KKT最優(yōu)條件可解得:
(14)
(15)
(16)
由式(14)、 (15)、 (16)可得
(17)
從而可得預(yù)測(cè)模型
(18)
3實(shí)驗(yàn)與結(jié)果分析
3.1實(shí)驗(yàn)數(shù)據(jù)
為驗(yàn)證方法的有效性,將其應(yīng)用到Rossler混沌系統(tǒng)、 上證指數(shù)(代碼000001)和深證指數(shù)(代碼399001)時(shí)間序列預(yù)測(cè)中. Rossler映射產(chǎn)生的混沌時(shí)間序列方程為:
(19)
其中,a, b和c都是常數(shù). 實(shí)驗(yàn)時(shí)取a=0.15, b=0.20, c=10.0, x(0)=0.1, y(0)=0.1, z(0)=0.1,步長(zhǎng)h=0.01,生成1 000個(gè)時(shí)間序列數(shù)據(jù).
上證指數(shù)(代碼000001)和深證指數(shù)(代碼399001)時(shí)間序列數(shù)據(jù)從Yahoo Finance獲得. 其中,上證指數(shù)的時(shí)間跨度為2009年1月5日到2014年2月28日; 深證指數(shù)的時(shí)間跨度為2010年1月4日到2014年2月28日. 實(shí)驗(yàn)時(shí),每個(gè)數(shù)據(jù)集的前2/3作為訓(xùn)練集,后1/3作為測(cè)試集. 并將本文WELMSD算法與ELM[4]、 加權(quán)極限學(xué)習(xí)機(jī)(weighted extreme learning machine,WELM)(WELM的加權(quán)方法同文獻(xiàn)[6])以及加權(quán)最小二乘支持向量機(jī)[6](weighted least squares support vector machines,WLSSVM)進(jìn)行比較. 為定量比較不同預(yù)測(cè)方法的預(yù)測(cè)性能,采用均方根誤差(root mean square error,RMSE)作為評(píng)價(jià)指標(biāo):
(20)
實(shí)驗(yàn)所用硬件平臺(tái):CPU為Pentium(R)Dual-CoreE5300,主頻2.60GHz,2GB內(nèi)存. 軟件平臺(tái):Matlab7.11.0(R2010b).
3.2實(shí)驗(yàn)結(jié)果分析
3.2.1各預(yù)測(cè)方法在不同數(shù)據(jù)上的RMSE值對(duì)比
實(shí)驗(yàn)過(guò)程中,ELM、WELM以及WELMSD的參數(shù)C=1,隱節(jié)點(diǎn)個(gè)數(shù)L=20或L=30[9],WELMSD的kN近鄰數(shù)為3; 激勵(lì)函數(shù)g(wj,bj,xi)為“Sigmoid”; WLSSVM的參數(shù)C和σ由粒子群優(yōu)化算法搜索取得. 由于ELM、 WELM和WELMSD隱節(jié)點(diǎn)的輸入權(quán)值w和偏差b都是隨機(jī)給出,而w和b對(duì)實(shí)驗(yàn)結(jié)果有一定的影響; 粒子群算法有時(shí)會(huì)陷入局部最優(yōu),而局部最優(yōu)解往往有多個(gè),從而對(duì)WLSSVM的預(yù)測(cè)結(jié)果產(chǎn)生影響. 為了更有效地比較各方法的性能,每個(gè)方法的RMSE取10次實(shí)驗(yàn)結(jié)果的平均. 實(shí)驗(yàn)采用滑動(dòng)窗口法去獲取訓(xùn)練集的輸入、 輸出以及測(cè)試集的輸入、 輸出.
滑動(dòng)窗口具體做法為: 先將滑動(dòng)窗口置于數(shù)據(jù)集X的始端,然后逐步向后滑動(dòng),每次滑動(dòng)的時(shí)間跨度為1,處于窗口內(nèi)的數(shù)據(jù)即為訓(xùn)練集或測(cè)試集的輸入,而窗口外的后一個(gè)數(shù)據(jù)即為訓(xùn)練集或測(cè)試集的輸出. 當(dāng)滑動(dòng)窗口從數(shù)據(jù)集X的始端滑到末端時(shí),就會(huì)產(chǎn)生N-n個(gè)輸入和N-n個(gè)輸出,其中,N為數(shù)據(jù)集X的樣本個(gè)數(shù),n為滑動(dòng)窗口的大小,實(shí)驗(yàn)取n=10[10]. 在Rossler混沌時(shí)間序列上用變量x,y,z對(duì)變量z進(jìn)行預(yù)測(cè),在上證、 深證股票數(shù)據(jù)上,用開(kāi)盤(pán)指數(shù)、 最高指數(shù)、 最低指數(shù)和收盤(pán)指數(shù)對(duì)收盤(pán)指數(shù)進(jìn)行預(yù)測(cè). 表1給出了ELM、 WELM、 LSSVM以及WELMSD算法在各數(shù)據(jù)集上預(yù)測(cè)的RMSE值的對(duì)比.
從表1可以看出,在RMSE指標(biāo)下,ELM、 WELM以及WELMSD算法在三組數(shù)據(jù)中的預(yù)測(cè)精度都隨著隱節(jié)點(diǎn)個(gè)數(shù)L的增大而提高,這是因?yàn)長(zhǎng)變大時(shí),ELM、 WELM以及WELMSD能夠更好地?cái)M合時(shí)間序列的軌跡. 當(dāng)然,L并不是越大越好,L過(guò)大時(shí),ELM、 WELM以及WELMSD算法將會(huì)出現(xiàn)過(guò)擬合現(xiàn)象. 在Rossler數(shù)據(jù)集中,L=20或L=30時(shí),WELM的預(yù)測(cè)精度都高于ELM的預(yù)測(cè)精度. 而在深證數(shù)據(jù)集中,WELM的預(yù)測(cè)精度卻低于ELM算法,這是因?yàn)閃ELM算法認(rèn)為時(shí)間上離預(yù)測(cè)點(diǎn)較近的點(diǎn)對(duì)預(yù)測(cè)點(diǎn)的影響較大,然而這只是直觀上的猜測(cè),并沒(méi)有理論依據(jù),與預(yù)測(cè)點(diǎn)時(shí)間上較遠(yuǎn)的點(diǎn)對(duì)預(yù)測(cè)點(diǎn)有大的影響這種情況在實(shí)際上也是可能出現(xiàn)的.
表1 各預(yù)測(cè)方法在Rossler、 上證、 深證時(shí)間序列的預(yù)測(cè)結(jié)果對(duì)比
圖3 Rossler預(yù)測(cè)結(jié)果對(duì)比Fig.3 Comparison of prediction results on Rossler
從總體上看,WELMSD算法的預(yù)測(cè)精度是最高的,并且相對(duì)于WELM算法更為穩(wěn)健,證明在預(yù)測(cè)時(shí)將樣本的分布情況考慮進(jìn)去是合理的.
圖3~5直觀地展現(xiàn)了各方法的預(yù)測(cè)值與實(shí)際值的對(duì)比效果,相對(duì)于其他算法,WELMSD在測(cè)試數(shù)據(jù)上的預(yù)測(cè)曲線能夠更好地?cái)M合實(shí)際曲線,特別是在z值(Rossler時(shí)間序列)或收盤(pán)指數(shù)(股票時(shí)間序列)分布較為稀疏的地方,WELMSD算法的預(yù)測(cè)曲線與真實(shí)曲線擬合得更好,充分說(shuō)明考慮樣本的分布情況能夠減小稀疏樣本的擬合誤差.
圖4 上證股票預(yù)測(cè)結(jié)果對(duì)比Fig.4 Comparison of prediction results on Shanghai Component Index
圖5 深證股票預(yù)測(cè)結(jié)果對(duì)比Fig.5 Comparison of prediction results on Shenzhen Component Index
3.2.2kN近鄰法的參數(shù)對(duì)預(yù)測(cè)結(jié)果的影響
表2 kN對(duì)預(yù)測(cè)結(jié)果的影響
4結(jié)論
針對(duì)多變量時(shí)間序列預(yù)測(cè)問(wèn)題提出一種基于樣本分布的極限學(xué)習(xí)機(jī)預(yù)測(cè)模型WELMSD,該模型克服了傳統(tǒng)ELM忽略樣本分布從而導(dǎo)致預(yù)測(cè)誤差較大的缺點(diǎn). 基于Rossler混沌時(shí)間序列和上證、 深證股票數(shù)據(jù)的實(shí)驗(yàn)仿真結(jié)果證明了所提算法的有效性,且當(dāng)kN的取值不超過(guò)20時(shí),方法的預(yù)測(cè)結(jié)果對(duì)近鄰參數(shù)kN不敏感,是一種更優(yōu)的多變量時(shí)間序列預(yù)測(cè)模型.
參考文獻(xiàn):
[1] 江田漢,束炯. 基于LSSVM的混沌時(shí)間序列的多步預(yù)測(cè)[J]. 控制與決策, 2006, 21(1): 77-80.
[2] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1): 489-501.
[3] SINGH R, BALASUNDARAM S. Application of extreme learning machine method for time series analysis[J]. International Journal of Intelligent Technology, 2007, 2(4): 361-367.
[4] HUANG G B, ZHOU H, DING X,etal. Extreme learning machine for regression and multiclass classification[J]. IEEE Transactions on Systems, Man, and Cybernetics Part B: Cybernetics, 2012, 42(2): 513-529.
[5] 毛力,王運(yùn)濤,劉興陽(yáng),等. 基于改進(jìn)極限學(xué)習(xí)機(jī)的短期電力負(fù)荷預(yù)測(cè)方法[J]. 電力系統(tǒng)保護(hù)與控制, 2012, 40(20): 140-144.
[6] GUO Y M, RAN C B, LI X L,etal. Weighted prediction method with multiple time series using multi-kernel least squares support vector regression[J]. Eksploatacja I Niezawodno, 2013, 15(2): 188-194.
[7] 鄧乃揚(yáng), 田英杰. 數(shù)據(jù)挖掘中的新方法: 支持向量機(jī)[M]. 北京: 科學(xué)出版社, 2004.
[8] 張學(xué)工. 模式識(shí)別 [M]. 3版. 北京: 清華大學(xué)出版社, 2010.
[9] ZOMG W, HUANG G B, CHEN Y. Weighted extreme learning machine for imbalance learning[J]. Neurocomputing, 2013, 101(3): 229-242.
[10] GUO Z Q, WANG H Q, LIU Q. Financial time series forecasting using LPP and SVM optimized by PSO[J]. Soft Computing, 2013, 17(5): 805-818.
(責(zé)任編輯: 洪江星)
Multivariate time series prediction based on weighted extreme learning machine
YE Qiusheng, CHEN Xiaoyun
(College of Mathematics and Computer Science,F(xiàn)uzhou University,F(xiàn)uzhou,F(xiàn)ujian 350116,China)
Abstract:Put forward a kind of extreme learning machine prediction model based on sample distribution which is called WELMSD. WELMSD estimates the density of the sample set by the kN nearest neighbor density estimation firstly, and then weighted for the traditional extreme learning machine by the estimated density. WELMSD overcome the shortcoming of traditional extreme learning machine ignore the sample distribution when it is used for time series prediction. The effectiveness of WELMSD is demonstrated by simulation results on Rossler chaotic time series, Shanghai Composite Index and Shenzhen Component Index. In addition, the prediction results are not sensitive to the parameters of kN nearest neighbor density estimation method when kN is small. It proves that the new model is a better prediction model for multivariate time series.
Keywords:weighted extreme learning machine; multivariate time series; prediction; kN nearest neighbor density estimation
DOI:10.7631/issn.1000-2243.2016.03.0437
文章編號(hào):1000-2243(2016)03-0437-06
收稿日期:2014-03-31
通訊作者:陳曉云(1970-),教授,主要從事數(shù)據(jù)挖掘、 模式識(shí)別、 機(jī)器學(xué)習(xí)等方面的研究,c_xiaoyun@21cn.com
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(71273053); 福建省自然科學(xué)基金資助項(xiàng)目(2014J01009)
中圖分類(lèi)號(hào):TP311
文獻(xiàn)標(biāo)識(shí)碼:A