王威娜,闞中勛
(1.吉林化工學(xué)院理學(xué)院,吉林 吉林 132022;2.中石油東北煉化工程有限公司吉林設(shè)計(jì)院 設(shè)備室,吉林 吉林132002)
從統(tǒng)計(jì)意義上講,所謂時(shí)間序列就是將某一個(gè)指標(biāo)在不同時(shí)間上的不同數(shù)值,按照時(shí)間的先后順序排列而成的數(shù)列.時(shí)間序列分析是根據(jù)歷史數(shù)據(jù)的相互關(guān)系和變化趨勢預(yù)測未來的行為和特征,它在股票和醫(yī)療等眾多不同的領(lǐng)域都有著廣泛的應(yīng)用[1-4].
1993年Song和Chissom[5-7]首先提出了模糊時(shí)間序列模型,由于該模型利用模糊邏輯理論,能夠在不確定環(huán)境下處理不完整和含糊的數(shù)據(jù),使得其在經(jīng)濟(jì)、社會生活等領(lǐng)域得到廣泛應(yīng)用[8-10].
發(fā)展節(jié)約型社會已是我國重要的戰(zhàn)略之一,因此如何能準(zhǔn)確的預(yù)測能源消耗,確保能源供應(yīng),已成為現(xiàn)今社會迫切需要解決的問題.針對這一問題,學(xué)者們已將神經(jīng)網(wǎng)絡(luò)、回歸分析、遺傳算法及時(shí)間序列分析模型引入到能源需要的預(yù)測中.本文結(jié)合模糊C-均值(FCM)算法提出一個(gè)新的模糊時(shí)間序列模型,并將其應(yīng)用到中國的能源預(yù)測中,實(shí)驗(yàn)結(jié)果表明了該方法的可行性和有效性.
FCM是一種經(jīng)典的聚類算法,是目前被廣泛采用的一種聚類算法,它能夠給出每個(gè)樣本隸屬于某個(gè)聚類的隸屬度,它通過對目標(biāo)函數(shù)迭代優(yōu)化從而使得聚類結(jié)果體現(xiàn)出每一個(gè)數(shù)據(jù)對聚類中心的隸屬程度[11-12].
假設(shè) X={x1,x2,…,xn}是n個(gè)數(shù)據(jù)點(diǎn),并將其分成c類,聚類中心表示為v={v1,v2,…,vc},u={uij}是隸屬度矩陣,uij表示xj屬于第i類的隸屬度.FCM算法通過最小化目標(biāo)函數(shù)來獲得數(shù)據(jù)樣本的最優(yōu)劃分,也即是尋求合適的隸屬度和聚類中心,使得目標(biāo)函數(shù)最小.FCM目標(biāo)函數(shù)表達(dá)形式為
其中目標(biāo)函數(shù)J(U,V)的值越小聚類效果越好.m是隸屬度的模糊加權(quán)指數(shù),決定了聚類結(jié)果的模糊程度,典型值取m=2,d(xj,vi)=||xj- vi||2表示xj到聚類中心vi的歐式聚類.式(1)滿足如下約束條件
模糊C-均值聚類算法的具體步驟如下:
步驟一:初始化聚類中心V0,給定聚類類別數(shù)C,設(shè)置算法停止閾值ε.
步驟二:根據(jù)公式(3)更新隸屬度矩陣Ut
步驟四:如果滿足||Vt+1-Vt||≤ε,則算法達(dá)到停止條件,算法結(jié)束并輸出聚類中心V和隸屬度矩陣U;否則令t=t+1,算法轉(zhuǎn)向步驟二.
本文基于FCM聚類算法提出一個(gè)新的時(shí)間序列預(yù)測模型.模型分為三個(gè)階段:首先,將觀察的時(shí)間序列轉(zhuǎn)化為w維的時(shí)間序列數(shù)據(jù)集;然后,利用FCM算法對構(gòu)造的時(shí)間序列數(shù)據(jù)集進(jìn)行聚類;最后,根據(jù)聚類結(jié)果進(jìn)行預(yù)測.得到預(yù)測值以后,可以反饋給時(shí)間序列繼續(xù)進(jìn)行預(yù)測,這使得提出的模型能夠進(jìn)行長期預(yù)測.模型的流程如圖1所示.
圖1 算法流程圖
具體步驟如下:
步驟一:設(shè)時(shí)間序列為 Z={z1,z2,……,zn},給定時(shí)間窗口的長度為w,構(gòu)造時(shí)間序列數(shù)據(jù)集
步驟二:由于FCM算法需要預(yù)先指定聚類數(shù)C,所以先利用PBMF有效性指標(biāo)確定最優(yōu)的聚類數(shù).PBMF有效性指標(biāo)定義如下:
PBMF有效性指標(biāo)由1/c,E1/Jm和Dc三個(gè)部分組成,其中1/c是用聚類數(shù)協(xié)調(diào)有效性指標(biāo),E1/Jm和Dc分別反應(yīng)了聚類的緊致性和分離性.因此,VPBMF的最大值對應(yīng)最優(yōu)的聚類數(shù).
然后根據(jù)確定的最優(yōu)聚類數(shù)C,利用FCM算法對時(shí)間序列數(shù)據(jù)集進(jìn)行聚類,得到每個(gè)數(shù)據(jù)的類標(biāo)號.
步驟三:根據(jù)預(yù)測點(diǎn)的鄰近數(shù)據(jù) xn-w+1=[zn-w+1,zn-w+2,……,zn]的類標(biāo)號,找到與之同類的所有數(shù)據(jù)及其對應(yīng)的鄰接時(shí)間序列點(diǎn),把這些時(shí)間序列點(diǎn)的平均值作為n+1時(shí)刻zn+1的預(yù)測值,如圖2所示.
圖2 預(yù)測示意圖
步驟四:判斷是否需要繼續(xù)預(yù)測,如需要繼續(xù)預(yù)測則把預(yù)測值反饋給時(shí)間序列,執(zhí)行步驟一,否則算法終止.
為了驗(yàn)證提出算法的可行性和有效性,該算法應(yīng)用于中國能源消耗數(shù)據(jù)的預(yù)測中.本文用到從1957年到2007年的中國能源消耗數(shù)據(jù),共51個(gè)觀察值,其中從1961年到1998年的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)(38個(gè)觀察值),從1999年到2007年的數(shù)據(jù)作為測試數(shù)據(jù)(9個(gè)觀察值).
本文利用均方根誤差來度量預(yù)測精度,即
其中,F(xiàn)f(t)和Fr(t)分別代表t時(shí)刻的預(yù)測值和真實(shí)值,n代表待預(yù)測的數(shù)據(jù)個(gè)數(shù).
從表1可以看出,本文提出的算法的預(yù)測精度要優(yōu)于傳統(tǒng)的時(shí)間序列模型-ARIMA,即預(yù)測的誤差小于ARIMA模型,從而表明了此算法的可行性和有效性.
表1 預(yù)測值及預(yù)測誤差
本文首先利用模糊C-均值(FCM)算法對構(gòu)造的時(shí)間序列數(shù)據(jù)進(jìn)行聚類,然后結(jié)合模糊時(shí)間序列模型構(gòu)造出一個(gè)模糊預(yù)測模型,并將此模型應(yīng)用到了中國能源預(yù)測中.實(shí)驗(yàn)表明該方法優(yōu)于傳統(tǒng)的時(shí)間序列模型,進(jìn)一步驗(yàn)證了該方法的可行性和有效性.該模型還可以應(yīng)用到其它領(lǐng)域,例如經(jīng)濟(jì)、醫(yī)療和天氣預(yù)報(bào)等方面,因此具有較高的實(shí)用意義.
[1] Chen S.-M.,Kao P.-Y..TAIEX forecasting based on fuzzy time series,particle swarm optimization techniques and support vector machines[J].Information Sciences,2013,247:62-71.
[2] Pai P.-F.,Lin C.-S..A hybrid ARIMA and support vector machines model in stock price forecasting[J].Omega,2005,33(6):497-505.
[3] Catalano R.,Hansen H.-T..Using time-series analyses to detect the health effects of medical care reforms:a Norwegian example[J].Social Science & Medicine,2001,53(8):1037-1043.
[4] Aach J.,Church G..Aligning gene expression time series with time warping algorithms[J].Bioinfor-matics,2001,17:495-508.
[5] Song Q.,Chissom B.S..Fuzzy time series and its models[J].Fuzzy Sets Syst.,1993,54:269-277.
[6] Song Q.,Chissom B.S..Forecasting enrollments with fuzzy time series-Part I[J].Fuzzy Sets Syst.,1993,54:1-10.
[7] Song Q.,Chissom B.S..Forecasting enrollments with fuzzy time series-Part II[J].Fuzzy Sets Syst.,1993,52:1-8.
[8] Yolcu U.,Aladag C.H..Egrioglu E.,et al.Time series forecasting with a novel fuzzy time series approach:an example for Istanbul stock market[J].J.Stat.Comput.Simul.,2013,83(4):597-610.
[9] Yu T.H.K.,Huarng K.H..A bivariate fuzzy time series model to forecast the TAIEX[J].Expert Syst.Appl.,2008,34:2945-2952.
[10] Lee L.W.,Wang L.H.,Chen S.M..Temperature prediction and TAIFEX forecasting based on high-order fuzzy logical relationships and genetic simulated annealing techniques [J].ExpertSyst.Appl.,2008,34:328-336.
[11] Bezdek J.C..Fuzzy mathematics in pattern classification[D].Ph.D.Dissertation,Cornell University,Ithaca,NY,1973.
[12] Dave R.N.,Bhaswan K..Adaptive fuzzy c-shells clustering and detection of ellipses[J].IEEE Trans.Neural Networks,1992,3(5):643-662.