劉合香 ,簡茂球
(1.廣西師范學(xué)院數(shù)學(xué)科學(xué)學(xué)院,廣西 南寧 530023;2.中山大學(xué)環(huán)境科學(xué)與工程學(xué)院大氣科學(xué)系,廣東 廣州 510275)
近30年來,非線性智能計(jì)算方法被廣泛應(yīng)用于數(shù)學(xué)、大氣、經(jīng)濟(jì)、物理化學(xué)等學(xué)科[1-4]。隨著非線性智能計(jì)算方法的不斷發(fā)展,各種線性和非線性因子處理方法以及各類非線性模型,已越來越多地被人們所認(rèn)識(shí),尤其是如何選擇適當(dāng)?shù)囊蜃犹幚矸绞脚c建立的數(shù)學(xué)模型進(jìn)行優(yōu)化組合,是改進(jìn)預(yù)測模型、提高預(yù)測精度的重要途徑。Jin 等[5]針對神經(jīng)網(wǎng)絡(luò)方法在預(yù)測建模中存在的“過擬合”(over fitting)現(xiàn)象和提高泛化性能(gentralitation capability)問題,提出了采用主成分分析構(gòu)造神經(jīng)網(wǎng)絡(luò)低維學(xué)習(xí)矩陣的預(yù)測建模方法。Yao等[6]針對季風(fēng)指數(shù)具有顯著的非線性變化特點(diǎn)及采用一般人工神經(jīng)網(wǎng)絡(luò)方法進(jìn)行預(yù)測建模難以客觀確定預(yù)測模型的網(wǎng)絡(luò)結(jié)構(gòu)問題,采用非線性遺傳神經(jīng)網(wǎng)絡(luò)集成預(yù)測建模方法進(jìn)行了月季時(shí)間尺度的季風(fēng)強(qiáng)度指數(shù)預(yù)測方法研究。吳建生等[7]針對于BP神經(jīng)網(wǎng)絡(luò)在實(shí)際預(yù)測應(yīng)用中,網(wǎng)絡(luò)結(jié)構(gòu)難以確定以及網(wǎng)絡(luò)極易陷入局部解問題,提出一種基于神經(jīng)網(wǎng)絡(luò)的粒子群集成學(xué)習(xí)算法的預(yù)測模型。萬中英等[8]分析了遺傳算法和粒子群算法的優(yōu)缺點(diǎn),將兩者有效地結(jié)合在一起,建立了遺傳-粒子群的投影尋蹤模型,解決了投影方向的尋優(yōu)問題。
然而,上述這些方法在因子處理的控制過程中,或采取線性的自然正交展開方法、或采用粒子尋蹤方法,都難以全面提取因子中所含的線性和非線性的信息。本文通過研究自然正交展開、粒子群-投影尋蹤和遺傳-神經(jīng)網(wǎng)絡(luò)模型的特點(diǎn),利用自然正交展開和粒子尋蹤,將高維非線性的數(shù)據(jù),投影到低維空間,濃縮并析取高維非線性數(shù)據(jù)的線性和非線性信息,再將其作為遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測模型的輸入,構(gòu)建一種新的非線性預(yù)測模型,并將該模型應(yīng)用于影響華南臺(tái)風(fēng)頻數(shù)預(yù)測試驗(yàn)。
在進(jìn)行預(yù)測建模研究時(shí),本文嘗試對選擇的預(yù)測因子進(jìn)行線性降維(自然正交展開)和非線性降維(粒子群-投影尋蹤),同時(shí)進(jìn)行預(yù)測信息的挖掘計(jì)算。
自然正交展開是一種可以將多維向量空間場資料壓縮到少數(shù)幾個(gè)主要模態(tài)的特征提取方法,主要包括以下步驟:
1)設(shè)預(yù)測因子距陣
(1)
將(1)分解成時(shí)間函數(shù)Z和空間向量V兩部分:
X=VZ
(2)
V是列向量構(gòu)成的特征向量矩陣,Z是所有主成分序列為行向量構(gòu)成的矩陣。
2)計(jì)算協(xié)方差矩陣
(3)
其中,XT為X的轉(zhuǎn)置。
通過計(jì)算實(shí)對稱矩陣S的特征值λ1,λ2,…,λm(λ1≥λ2≥…≥λm)和特征向量V=(v1,v2,…,vm),各主成分為原因子變量的線性組合為:
ξi=υi1x1+υi2x2+···+υinxn
(4)
3)進(jìn)一步標(biāo)準(zhǔn)化主成分:
Z=VTX=(ξ1,ξ2,···,ξn)T
(5)
采用上述主成分計(jì)算方法,將原來的大量因子壓縮成少數(shù)幾個(gè)與預(yù)測量相關(guān)高的主成分因子,將此作為預(yù)測模型輸入的一部分。
由于變量ξi與ξj是相互獨(dú)立的,從而協(xié)方差Cov(ξi,ξj)=0,進(jìn)而,相關(guān)系數(shù)ρ(ξi,ξj)=0,說明變量ξi與ξj不相關(guān),即主成分各因子變量之間是正交的,所以不會(huì)產(chǎn)生復(fù)共線性影響。
投影尋蹤是用來處理高維空間里一些非正態(tài)分布和非線性數(shù)據(jù)的統(tǒng)計(jì)方法。它能夠?qū)ふ曳从掣呔S空間數(shù)據(jù)的結(jié)構(gòu)或特征的投影方向,將高維數(shù)據(jù)投影到低維空間,達(dá)到在低維空間研究和分析高維空間數(shù)據(jù)的目的。以往的研究[9-11]都是采用遺傳算法尋找最佳的投影方向,但遺傳算法對初始種群的選擇有一定的依賴性,而且收斂速度慢,可行解不一定是最優(yōu)解。粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法是由Kennedy and Eberhart于1995年提出的全局優(yōu)化進(jìn)化算法[12-13],Bonabeau et al.[14]通過對蟻群的研究,完善了該算法。該算法中有一個(gè)被優(yōu)化函數(shù)決定的適應(yīng)值,根據(jù)每一個(gè)粒子的位置和速度決定搜索方向,各個(gè)粒子通過相互之間的作用,記憶、追隨當(dāng)前的最優(yōu)粒子,在解空間中不斷地搜索復(fù)雜空間的最優(yōu)區(qū)域,如果找到較好的解,將會(huì)以此為依據(jù)來尋找下一個(gè)解。用粒子群算法優(yōu)化投影方向的具體過程如下:
設(shè)預(yù)測的因子矩陣如式(1),投影方向矩陣為:
R={rij;i=1,2,…m,j=1,2,…p}
(p (6) 通過 Z=X·R={zij;i=1,2,…,n,j=1,2,…,p} (7) 把原數(shù)據(jù)綜合成低維子空間的數(shù)據(jù)。通過計(jì)算投影值的標(biāo)準(zhǔn)差 (8) 和投影值的局部密度: ·u(t)·(K-dij) (9) 進(jìn)一步構(gòu)造投影指標(biāo)函數(shù): QR=Sz·Dz (10) 從而使局部投影點(diǎn)密集并凝結(jié)成團(tuán),以確定投影方向。 由于傳統(tǒng)方法難以求解復(fù)雜的非線性優(yōu)化問題,所以,定義粒子群算法的適應(yīng)度函數(shù) Fit(rij)=QR (11) 利用粒子群優(yōu)化算法求解投影方向: maxQR=Sz·Dz rj≥0 (12) 具體實(shí)施如下: ① 初始化粒子群。每個(gè)粒子看作解空間的一個(gè)點(diǎn),在[0,1]上隨機(jī)產(chǎn)生N個(gè)隨機(jī)數(shù)作為個(gè)體,用m×p個(gè)浮點(diǎn)數(shù)表示粒子位置和速度的投影系數(shù)矩陣; ②通過式(11)和(12),計(jì)算每個(gè)粒子的適應(yīng)度Fit(rij),設(shè)第i(i=1,2,…,N)個(gè)粒子的速度為Vi,位置為Xi,它經(jīng)歷的最好位置為pb(i),群體中最好粒子的位置為pgb(i); ③對每個(gè)粒子,用它的適應(yīng)度Fit(rij)與個(gè)體所經(jīng)歷的最好位置的適應(yīng)度pb(i)比較,如果Fit(rij)>pb(i),就用Fit(rij)替換pb(i);然后,用Fit(rij)與全局所經(jīng)歷的最好位置的適應(yīng)度pgb(i)比較,如果Fit(rij)>pgb(i),用Fit(rij)替換pgb(i); ④根據(jù)粒子進(jìn)化方程: Vi+1=ω·Vi+c1r1[pb(i)-Xi]+c2r2[pgb(i)-Xi]Xi+1=Xi+Vi+1 更新第i(i=1,2,…,N)個(gè)粒子的速度和位置。其中,c1,c2為學(xué)習(xí)因子,r1,r2是[0,1]間的隨機(jī)數(shù),ω為慣性權(quán)重; ⑤ 重復(fù)②-④步,直至適應(yīng)度達(dá)到進(jìn)化代數(shù)的要求; ⑥ 從進(jìn)化到最后一代中選取k個(gè)適應(yīng)度較高的個(gè)體,得到k個(gè)較優(yōu)投影方向R={rij,i=1,2,…,n,j=1,2,…,k},新的因子矩陣為: (13) 遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測模型是采用進(jìn)化計(jì)算的遺傳算法和人工神經(jīng)網(wǎng)絡(luò)技術(shù)集成的模型構(gòu)建方法[6,15-16]。其主要思想和過程是利用進(jìn)化計(jì)算的遺傳算法結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)生成m個(gè)(數(shù)10個(gè))神經(jīng)網(wǎng)絡(luò)模型,然后利用每個(gè)預(yù)測模型個(gè)體的預(yù)測結(jié)果做集成,得到最終的集合預(yù)測結(jié)果。集合預(yù)測個(gè)體的神經(jīng)網(wǎng)絡(luò)模型是采用較為通用的三層前饋網(wǎng)絡(luò)模型[17-18]。該網(wǎng)絡(luò)模型的基本算法可以歸結(jié)為: 1)隨機(jī)給出網(wǎng)絡(luò)模型輸入層到隱層,隱層到輸出層的連接權(quán)和閾值,設(shè)定模型的總體收斂誤差,利用式(14): γhi+θi) (14) 計(jì)算輸入層到隱含層的激勵(lì)值(bi),其中rhi為輸入層到隱含層的連接權(quán),ah為相應(yīng)的輸入樣本,θi為相應(yīng)的閾值。進(jìn)一步利用式(15): ηj) (15) f(x)=1/(1+e-x) (16) 2)根據(jù)學(xué)習(xí)矩陣樣本,對網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練,計(jì)算由式(15)得到的模型輸出與期望輸出的誤差,并調(diào)整輸入層到隱含層和隱含層到輸出層的連接權(quán)系數(shù)、閾值。 3)當(dāng)模型的計(jì)算收斂誤差大于設(shè)定的收斂誤差時(shí),轉(zhuǎn)到b,否則學(xué)習(xí)結(jié)束,并根據(jù)網(wǎng)絡(luò)模型的連接權(quán)、閾值和預(yù)測樣本的輸入因子,得出模型輸出值。 上述計(jì)算過程簡單給出了作為集合預(yù)測個(gè)體的單個(gè)神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)過程。而如何構(gòu)造m個(gè)神經(jīng)網(wǎng)絡(luò)模型個(gè)體,本文是采用了進(jìn)化計(jì)算的遺傳算法(Genetic Algorithms)[15,18]。該算法是一種由選擇(繁殖),交叉(重組)和變異(突變)三個(gè)遺傳算子組成的全局搜索進(jìn)化算法。由遺傳算法生成神經(jīng)網(wǎng)絡(luò)集合個(gè)體的計(jì)算主要可歸結(jié)為3個(gè)部分: 1) 采用二進(jìn)制和實(shí)數(shù)的混合編碼方法,將每個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測模型個(gè)體的連接權(quán),閾值按順序排成一串,形成一個(gè)染色體作為一個(gè)遺傳個(gè)體。初始時(shí)段,采用隨機(jī)數(shù)生成m個(gè)神經(jīng)網(wǎng)絡(luò)遺傳個(gè)體,得到一個(gè)用于進(jìn)化計(jì)算的神經(jīng)網(wǎng)絡(luò)預(yù)測模型遺傳種群。 2)通過對遺傳種群個(gè)體解碼,利用前面的式(14)和式(15)計(jì)算遺傳種群中每個(gè)神經(jīng)網(wǎng)絡(luò)個(gè)體輸入層到隱層的輸出和隱層到輸出層的輸出值。進(jìn)一步利用: (17) 計(jì)算各個(gè)神經(jīng)網(wǎng)絡(luò)個(gè)體的總體誤差。并將總體誤差的倒數(shù)定義為適應(yīng)度函數(shù): (18) 3)對由隨機(jī)數(shù)生成的初始遺傳種群(設(shè)由m個(gè)遺傳個(gè)體組成遺傳種群),采用選擇,交叉和變異三個(gè)遺傳算子,對初始遺傳種群進(jìn)行進(jìn)化計(jì)算操作,其中,① 選擇算子操作:該算子是采用輪盤選擇方法,先將遺傳種群的每個(gè)個(gè)體解碼,并根據(jù)式(18)計(jì)算每個(gè)遺傳個(gè)體的適應(yīng)度值,再計(jì)算出全部遺傳個(gè)體的適應(yīng)度總和以及每個(gè)遺傳個(gè)體被選擇的概率: (19) 以保證在輪盤選擇中具有較大適應(yīng)度的遺傳個(gè)體有更大的可能被遺傳到下一代。 ② 交叉算子操作:交叉算子操作是采用多點(diǎn)交叉方法,它是對經(jīng)過選擇算子操作后,除了被選擇操作算子選擇到下一代遺傳種群以外的其它遺傳個(gè)體,以交叉概率pc對遺傳個(gè)體作多點(diǎn)交叉的基因變換,形成新的遺傳個(gè)體。 ③ 變異算子操作:變異算子也是對輪盤選擇,選擇下一代遺傳種群以外的其它遺傳個(gè)體,以概率pm對遺傳個(gè)體的基因與另一個(gè)遺傳個(gè)體作等位基因替換形成新的遺傳個(gè)體。 利用以上3個(gè)遺傳算子對初始遺傳種群進(jìn)行進(jìn)化計(jì)算,形成新一代遺傳種群。并以此進(jìn)行反復(fù)的進(jìn)化計(jì)算,每進(jìn)行一次進(jìn)化計(jì)算,遺傳種群就進(jìn)化一代,一直進(jìn)化到預(yù)先設(shè)定的第N代,進(jìn)化計(jì)算結(jié)束。將遺傳種群的每個(gè)遺傳個(gè)體解碼,得到m個(gè)神經(jīng)網(wǎng)絡(luò)模型個(gè)體,這m個(gè)模型個(gè)體即為集合預(yù)測的集合個(gè)體。本文采用等權(quán)方法,對m個(gè)集合個(gè)體成員賦予相同的權(quán)重,進(jìn)行集合預(yù)測建模,即對每一個(gè)神經(jīng)網(wǎng)絡(luò)個(gè)體賦予相同的權(quán)重,將m個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測模型的預(yù)測值作累加并計(jì)算平均值,得出遺傳-神經(jīng)網(wǎng)絡(luò)集合預(yù)測模型的集合預(yù)測值。 大量的研究和實(shí)踐表明,預(yù)測對象和預(yù)測因子之間存在著十分復(fù)雜的線性和非線性關(guān)系,因此,要提高預(yù)測模型的精度,既要設(shè)法提取和濃縮原始因子序列中所包含的線性信息,同時(shí),也要析取其中的非線性信息。通過自然正交展開,可以較好地提取和濃縮原始數(shù)據(jù)中的線性信息,而粒子尋蹤則具有提取和濃縮非線性信息的特點(diǎn)。綜合以上兩種方法,可以較為全面地提取和濃縮原始數(shù)據(jù)序列中的有用信息。此外,非線性模型的泛化性能也是評價(jià)模型優(yōu)劣的另一關(guān)鍵因素。與普通的神經(jīng)網(wǎng)絡(luò)預(yù)測模型不同,遺傳-神經(jīng)網(wǎng)絡(luò)集成數(shù)學(xué)模型,不僅可以客觀地確定網(wǎng)絡(luò)結(jié)構(gòu),還具有非常好的泛化性能。 鑒于自然正交展開、粒子尋蹤以及遺傳-神經(jīng)網(wǎng)絡(luò)集成模型的優(yōu)點(diǎn),提出基于粒子尋蹤和遺傳-神經(jīng)網(wǎng)絡(luò)集成相結(jié)合的非線性預(yù)測模型,建模的具體步驟:① 對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,形成新的數(shù)據(jù)序列。② 將標(biāo)準(zhǔn)化處理后形成的新數(shù)據(jù)序列進(jìn)行自然正交展開,提取若干因子。③同時(shí),通過粒子尋蹤對標(biāo)準(zhǔn)化處理后形成的新數(shù)據(jù)序列做降維處理,提取若干因子。④將第②③步得到的因子作為遺傳-神經(jīng)網(wǎng)絡(luò)集成模型的輸入。⑤ 進(jìn)行遺傳-神經(jīng)網(wǎng)絡(luò)集成訓(xùn)練,并建立數(shù)學(xué)模型。 華南沿海(廣東,廣西和海南省沿海)是我國沿海熱帶氣旋活動(dòng)最頻繁、出現(xiàn)個(gè)數(shù)最多、影響程度最嚴(yán)重、全年受影響期最長的區(qū)域之一。但年影響的頻數(shù)變幅大,最多時(shí)9個(gè),最少時(shí)1個(gè)。影響頻數(shù)的因子與頻數(shù)存在十分復(fù)雜的線性和非線性關(guān)系,很多學(xué)者提出了許多預(yù)測模型[15,19-21],但是,目前尚未見有利用粒子群-投影尋蹤算法將高維空間上的因子進(jìn)行逐次降維計(jì)算,進(jìn)一步利用非線性人工智能技術(shù)建模,進(jìn)行臺(tái)風(fēng)頻數(shù)預(yù)測的研究工作報(bào)道。本節(jié)應(yīng)用上一節(jié)所構(gòu)造的模型進(jìn)行華南臺(tái)風(fēng)頻數(shù)的遺傳-神經(jīng)網(wǎng)絡(luò)預(yù)測試驗(yàn),探索臺(tái)風(fēng)頻數(shù)預(yù)測的新方法。 本文研究的數(shù)據(jù)來源于臺(tái)風(fēng)年鑒(1949-1988年)和熱帶氣旋年鑒(1989-2009),選取了1949-2009年影響華南的臺(tái)風(fēng)頻數(shù)。并以1949-2004年56個(gè)樣本作為預(yù)測的建模樣本,2005-2009年5個(gè)樣本作為獨(dú)立的預(yù)測樣本。 以NCEP再分析資料的500 hPa月平均高度場及月平均的海溫場作為基本的預(yù)測因子場。統(tǒng)計(jì)計(jì)算了臺(tái)風(fēng)頻數(shù)序列與前期(當(dāng)年1月至5月,上一年6-12月)各月預(yù)測因子場的相關(guān)關(guān)系。以臺(tái)風(fēng)頻數(shù)與前期各月預(yù)測因子場的相關(guān)系數(shù)絕對值≥0.20(達(dá)到0.02相關(guān)顯著性水平)的格點(diǎn)作為一個(gè)預(yù)測因子區(qū),再對相關(guān)區(qū)內(nèi)的格點(diǎn)進(jìn)行自然正交展開,進(jìn)一步計(jì)算臺(tái)風(fēng)頻數(shù)與自然正交展開后各分量的相關(guān)關(guān)系,提取高相關(guān)的各主分量,保證預(yù)測因子的高相關(guān)性。表1給出了臺(tái)風(fēng)頻數(shù)序列(樣本長度為56)與月平均海溫、月平均500hPa的高度場前期各月相關(guān)普查計(jì)算后的高相關(guān)預(yù)測因子區(qū),進(jìn)行自然正交展開后計(jì)算得出的臺(tái)風(fēng)頻數(shù)與各主分量的相關(guān)系數(shù),取相關(guān)系數(shù)絕對值≥0.20的27個(gè)(其中海溫場的5個(gè),500 hPa高度場22個(gè))初選因子做建模樣本和預(yù)測試驗(yàn)。 表1 兩個(gè)物理量場高相關(guān)區(qū)自然正交展開后各主分量與臺(tái)風(fēng)頻數(shù)的相關(guān)系數(shù) 對上述27個(gè)因子采用逐步回歸方法,取F=3,從27個(gè)因子中篩選出9個(gè)因子,再對這9個(gè)預(yù)測因子作自然正交展開計(jì)算,并以方差貢獻(xiàn)大(分別是18.73%、15.6%、11.36%)、且與預(yù)測量相關(guān)高(分別為0.62、-0.36和0.26)的3個(gè)主分量作為預(yù)測因子。同時(shí),為了進(jìn)一步有效挖掘預(yù)測因子的有用預(yù)測信息,再對27個(gè)因子中篩選的9個(gè)因子采用粒子群優(yōu)化投影方法逐次降成1維(1維預(yù)測因子與預(yù)測量的相關(guān)系數(shù)為0.204)。利用3個(gè)主分量預(yù)測因子和1個(gè)粒子群投影尋蹤降維因子共4因子作為模型輸入,采用前面第3節(jié)的遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測建模方法建立臺(tái)風(fēng)頻數(shù)的預(yù)測模型。其中進(jìn)化計(jì)算的遺傳種群數(shù)取100,進(jìn)化代數(shù)為100代,遺傳操作的交叉概率為0.9,變異概率取0.05,加權(quán)系數(shù)下限取0.1、上限取0.9,投影維數(shù)取3,學(xué)習(xí)因子取1.5,位置下限取0、上限取1,速度下限取0、上限取1。并以神經(jīng)網(wǎng)絡(luò)輸入節(jié)點(diǎn)的0.5~1.5倍作為網(wǎng)絡(luò)模型結(jié)構(gòu)的搜索空間。網(wǎng)絡(luò)訓(xùn)練次數(shù)為200次,進(jìn)化計(jì)算結(jié)束后,對100個(gè)遺傳個(gè)體解碼,得到100個(gè)神經(jīng)網(wǎng)絡(luò)集成預(yù)測個(gè)體,再采用平均集成算法,得到臺(tái)風(fēng)頻數(shù)的遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測模型。利用該預(yù)測模型,對2005-2009年進(jìn)行了逐年的獨(dú)立樣本的預(yù)測試驗(yàn),預(yù)測結(jié)果見表2。由表2可以看出,這種新建的預(yù)測模型對臺(tái)風(fēng)頻數(shù)有較好的預(yù)測效果,5 年預(yù)測的平均絕對誤差為0.81個(gè),相對誤差為13%。 表2 基于自然正交展開和粒子尋蹤的遺傳-神經(jīng)網(wǎng)絡(luò)集成的臺(tái)風(fēng)頻數(shù)預(yù)測結(jié)果 本文提出的臺(tái)風(fēng)頻數(shù)預(yù)測方法,在前期物理量預(yù)測因子處理方法和預(yù)測模型輸入的設(shè)計(jì)構(gòu)造上進(jìn)行了新的嘗試,這種新的設(shè)計(jì)和計(jì)算處理方法是否有優(yōu)越性,需要作進(jìn)一步的分析比較。首先,分析在遺傳-神經(jīng)網(wǎng)絡(luò)的集合預(yù)測模型輸入中,如果不采用粒子群優(yōu)化投影方向,將高維非線性數(shù)據(jù)投影到低維空間,來構(gòu)造臺(tái)風(fēng)頻數(shù)系統(tǒng)的影響因子,而是利用月平均海溫場、500 hPa高度場經(jīng)過自然正交展開后得出的3個(gè)主分量預(yù)測因子,作為集合預(yù)測模型輸入,同樣建立一個(gè)遺傳-神經(jīng)網(wǎng)絡(luò)的臺(tái)風(fēng)頻數(shù)預(yù)測模型。并且在預(yù)測建模過程中,進(jìn)化計(jì)算的遺傳種群數(shù)等各項(xiàng)參數(shù)全部與3.2節(jié)一樣。利用該預(yù)測模型同樣對2005-2009年5年獨(dú)立樣本作預(yù)測試驗(yàn)。預(yù)測結(jié)果見表3。由表3結(jié)果可以看到,該預(yù)測模型的5 a獨(dú)立樣本預(yù)測平均絕對誤差為1.10,平均相對誤差為0.22,預(yù)測誤差明顯大于3.2節(jié)表2的預(yù)測結(jié)果。由此對比分析可以看出,用粒子群投影尋蹤降維方法進(jìn)一步挖掘預(yù)測信息是有效的。 表3 基于自然正交展開的遺傳-神經(jīng)網(wǎng)絡(luò)集成的臺(tái)風(fēng)頻數(shù) 另外,為了更進(jìn)一步客觀地分析評價(jià)預(yù)測模型輸入的降維處理計(jì)算方法和遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測模型的預(yù)測性能,將這種預(yù)測建模方法與常規(guī)的逐步回歸預(yù)測建模方法進(jìn)行了預(yù)測比較試驗(yàn)。首先仍然以前面計(jì)算得出的月平均海溫場5個(gè)相關(guān)因子區(qū), 500 hPa月平均的高度場22個(gè)相關(guān)因子區(qū),共27個(gè)高相關(guān)預(yù)測因子作為初選預(yù)測因子。為了作客觀的比較,根據(jù)這27個(gè)預(yù)測因子我們分別取F=2、3、4、5時(shí),由逐步回歸方法自動(dòng)從這27個(gè)預(yù)測因子中篩選出13個(gè),10個(gè),9個(gè)和6個(gè)預(yù)測因子建立4個(gè)逐步回歸預(yù)測方程(預(yù)測方程的建模樣本長度同樣為56)。分別用這4個(gè)回歸方程對2005-2009年5年的獨(dú)立樣本進(jìn)行預(yù)測試驗(yàn)。從表4的結(jié)果可以看出,采用常規(guī)的逐步回歸預(yù)測方法和選擇預(yù)測因子的方法,所建立的預(yù)測模型,其獨(dú)立樣本的預(yù)測精度均明顯差于本文提出的這種新的預(yù)測因子處理和預(yù)測建模方法。進(jìn)一步對比分析可以看出,在4個(gè)逐步回歸方程中,對5年獨(dú)立樣本預(yù)測精度最高的是F=4時(shí)10個(gè)預(yù)測因子的回歸方程,其5年獨(dú)立樣本的平均絕對誤差為0.92 ,平均相對誤差為0.17,誤差明顯大于表3的0.81和0.13。而4個(gè)回歸方程中預(yù)測最差的(F=5,6個(gè)因子的預(yù)測方程)方程對5年獨(dú)立樣本的預(yù)測平均絕對誤差和相對誤差,更是達(dá)到2.52和0.42。另外,當(dāng)F=3時(shí),逐步回歸方程選出的9個(gè)預(yù)測因子,就是表2和表3預(yù)測方法依據(jù)的相同的9個(gè)預(yù)測因子。從結(jié)果比較可以看出,相同的9個(gè)預(yù)測因子,采用回歸方法,同樣5年的獨(dú)立樣本預(yù)測平均絕對誤差和平均相對誤差分別為1.19和0.19,誤差明顯偏大。而從總體的對比分析可以看到,4個(gè)逐步回歸方程所依據(jù)的初選得出的27個(gè)預(yù)測因子與表2預(yù)測模型所依據(jù)的預(yù)測因子是完全一樣的,4個(gè)回歸方程也完全是客觀計(jì)算得到的。因此,可以看出,由本文提出的這種預(yù)測因子的計(jì)算處理方法和預(yù)測建模方法,在預(yù)測初選因子相同,獨(dú)立預(yù)測樣本相同情況下,預(yù)測精度是有明顯提高的。這表明本文提出的這種預(yù)測因子的處理方法,對于挖掘預(yù)測因子的預(yù)測信息,提高預(yù)測模型的預(yù)測性能是十分有益的。 表4 逐步回歸方法預(yù)測模型的臺(tái)風(fēng)頻數(shù)預(yù)測結(jié)果1) 本文根據(jù)預(yù)測對象和預(yù)測因子存在復(fù)雜的線性和非線性關(guān)系的特點(diǎn),在數(shù)學(xué)建模上,通過自然正交展開的線性降維計(jì)算處理和粒子群-投影尋蹤方法的非線性預(yù)測因子降維處理,將高維非線性數(shù)據(jù)投影到低維空間,構(gòu)造遺傳-神經(jīng)網(wǎng)絡(luò)集合預(yù)測模型,對華南臺(tái)風(fēng)頻數(shù)進(jìn)行了預(yù)測試驗(yàn),并進(jìn)一步將預(yù)測結(jié)果與常規(guī)的線性統(tǒng)計(jì)預(yù)測方法進(jìn)行了對比分析。結(jié)果表明,本文提出的這種新的非線性集合預(yù)測模型,比常規(guī)方法預(yù)測效果均有明顯的改進(jìn),主要是因?yàn)檫@種新的預(yù)測建模方法,不僅能從預(yù)測因子中,充分挖掘初選預(yù)測因子的有用預(yù)測信息,為預(yù)測模型提供更多有用的預(yù)測信息。并且在預(yù)測建模方法上,采用的遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測方法,該方法的激勵(lì)函數(shù)為非線性Sigmoid函數(shù),這種非線性預(yù)測方法可能比線性的逐步回歸方法更適合臺(tái)風(fēng)頻數(shù)的非線性年變化特征。本文為進(jìn)一步探索研究其他預(yù)測對象(如自然災(zāi)害、經(jīng)濟(jì)金融等領(lǐng)域)預(yù)測建模提供了新的思路和方法,但是由于采用自然正交展開和粒子群算法與投影尋蹤方法相結(jié)合來挖掘預(yù)測因子的預(yù)測信息是一種有效的新嘗試,如何合理地確定粒子群-投影尋蹤降維的維數(shù)還需要依據(jù)不同預(yù)測對象作進(jìn)一步深入研究。 參考文獻(xiàn): [1]趙占蕓,羅躍虎,沈世鎰.特征向量計(jì)算的神經(jīng)網(wǎng)絡(luò)方法[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),2000,23(2):233-239. [2]TANG Y,HSIEH W.Coupling neural networks to incomplete dynamical systems via variational data assimilation[J].Mon Wea Rev,2001,129(4): 818-83. [3]蘇順華,蘇順兵.中國上市公司企業(yè)規(guī)模的模糊神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)[J].模糊系統(tǒng)與數(shù)學(xué),2007,21(1):150-158. [4]鄧勇,杜志敏,陸燕妮.神經(jīng)網(wǎng)絡(luò)優(yōu)化組合預(yù)測模型在油氣產(chǎn)量預(yù)測中的應(yīng)用[J].高校應(yīng)用數(shù)學(xué)學(xué)報(bào),2008,23(1):1-6. [5]JIN L,KUANG X Y,HUANG H H.Study on the overfitting of the artificial neural network forecasting model[J].Acta Meteorologica Sinica,2005,19(2): 90-99. [6]YAO C,JIN L,ZHAO H S.Ensemble prediction of monsoon index with a genetic neural network model[J].Acta Meteorologica Sinica,2009,23(6):701-712 . [7]吳建生,劉麗萍,金龍.粒子群-神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)算法氣象預(yù)測建模研究[J].熱帶氣象學(xué)報(bào),2008,24(6):679-686. [8]萬中英,廖海波,王明文.遺傳-粒子群的投影尋蹤模型[J].計(jì)算機(jī)工程與應(yīng)用,2010,46 (20): 210-212,240. [9]劉合香,徐慶娟.區(qū)域洪澇災(zāi)害風(fēng)險(xiǎn)的模糊綜合評價(jià)與預(yù)測[J].災(zāi)害學(xué),2007,22(4): 38-42. [10]劉合香,徐慶娟.基于r維正態(tài)擴(kuò)散的區(qū)域熱帶氣旋災(zāi)害模糊風(fēng)險(xiǎn)分析[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2011,41(3):150-159. [11]LIU H X,ZHANG D L.Analysis and prediction of hazard risks caused by tropical cyclones in Southern China with fuzzy mathematical and grey models[J].Applied Mathematical Modelling.doi:10.1016/j.apm.2011.07.024 36 (2012) 626-637. [12]KENNEDY J,EBERHART R C.Particle swarm optimization[C]//Pro IEEE International Conference on Neural Networks Vol.IV:1942-1948.IEEE Service Center,Piscataway,NJ,1995. [13]EBERHART R C,KENNEDY J.A new optimizer using Particle swarm theory[C]//Proceedings of the Sixth International Symposium on Micro Machine and Human Science: 39-43.IEEE service center,Piscataway,NJ Nagoya,Japan,1995. [14]BONABEAU E,DORIGO M,THERAULAZ G.Inspiration for optimization from social insect behavior[J].Nature,2000,406(6):39-42. [15]姚才,金龍,黃明策等.遺傳算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的熱帶氣旋強(qiáng)度預(yù)報(bào)方法試驗(yàn)[J].海洋學(xué)報(bào),2007,29(4):11-19. [16]金龍,吳建生,林開平等.基于遺傳算法的神經(jīng)網(wǎng)絡(luò)短期氣候預(yù)測模型[J].高原氣象,2005,24(6):981-987. [17]周明,孫樹棟.遺傳算法原理及應(yīng)用[M].國防工業(yè)出版社,2002. [18]JIN L,JU W M,LIAO Q L.Study on Ann-based Mutti-step Prediction Model of Short-term Climate Variation[J].Advances in Atmospheric Sciences,2000,17(1): 157-164. [19]尹宜舟,羅勇,GEMMER Marco,等.基于BP神經(jīng)網(wǎng)絡(luò)技術(shù)的西北太平洋熱帶氣旋年頻數(shù)預(yù)測[J].熱帶氣象學(xué)報(bào),2010,26(5):614-619. [20]陸虹,金龍,繆啟龍,等.影響廣西熱帶氣旋年頻數(shù)的神經(jīng)網(wǎng)絡(luò)預(yù)測模型[J].南京氣象學(xué)院學(xué)報(bào),2003,26(1):56-62. [21]應(yīng)明,萬日金.影響我國的熱帶氣旋年頻數(shù)預(yù)測[J].應(yīng)用氣象學(xué)報(bào),2011,22(1):66-76.2 非線性預(yù)測模型的構(gòu)建
2.1 遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測模型
2.2 基于粒子群-投影尋蹤和遺傳神經(jīng)網(wǎng)絡(luò)集成的預(yù)測模型
3 實(shí)例分析與比較
3.1 數(shù)據(jù)來源與數(shù)據(jù)處理
3.2 華南臺(tái)風(fēng)頻數(shù)的預(yù)測試驗(yàn)
3.3 預(yù)測模型的性能分析
4 結(jié) 論