王 平,師 青
(1.武漢工程大學(xué) 管理學(xué)院,武漢430071;2.中南財經(jīng)政法大學(xué) 公共管理學(xué)院,武漢430073)
支持向量機[1]是近年來發(fā)展起來的一種有效的非線性問題處理工具,它以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ),以結(jié)構(gòu)風(fēng)險最小化為目標(biāo),因此能夠克服BP神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)統(tǒng)計方法的諸多缺點,在訓(xùn)練樣本有限的情況下,可很好地控制學(xué)習(xí)機器的推廣能力。支持向量機作為一種新的機器學(xué)習(xí)方法,其理論體系完備,而且能夠逼近任意復(fù)雜系統(tǒng),因此在模式識別和數(shù)據(jù)挖掘領(lǐng)域得到了廣泛的應(yīng)用,但用于對復(fù)雜的時間序列進(jìn)行預(yù)測則不多見,尤其是在房地產(chǎn)預(yù)警領(lǐng)域的運用目前還未曾見到,本文將支持向量機回歸方法用來進(jìn)行房地產(chǎn)單指標(biāo)預(yù)測,并和BP神經(jīng)網(wǎng)絡(luò)預(yù)測法進(jìn)行比較。
設(shè)線性函數(shù)為f(x)=(wx)+b,則對ε不敏感函數(shù)逼近問題可轉(zhuǎn)化為以下優(yōu)化問題:
其中C=1/λ,為便于求解,將該二次規(guī)劃(優(yōu)化)問題轉(zhuǎn)換為其對偶問題:
對于非線性逼近,基本思想是先通過非線性變換x→φ(x),將輸入空間映射成高維的特征空間(Hilbert空間)[3],然后在特征空間中進(jìn)行線性逼近,即f(x)=(w·φ(x))+b,這樣目標(biāo)函數(shù)式就變?yōu)椋?/p>
高維特征變換空間的內(nèi)積運算即為支持向量機的核函數(shù):
通過上面的分析可知,要求變量在高維空間的內(nèi)積,只需在原低維空間計算其核函數(shù)即可,對凸二次規(guī)劃問題進(jìn)行求解,可得到如下非線性映射:
通常,上式中系數(shù)(α-α?)只有一小部分不等于0,而這些系數(shù)不為0所對應(yīng)的數(shù)據(jù)點就被稱為支持向量。
由Kolmogro定理可知,對于任意一個時間序列,我們都可以把它看成一個系統(tǒng),其輸入、輸出由非線性機制所決定。從這個意義上說,對時間序列進(jìn)行預(yù)測,實質(zhì)上就是根據(jù)歷史數(shù)據(jù)求出映射f:Rm→Rn,然后用該映射來逼近數(shù)據(jù)中的非線性機制F,因此映射f就可以作為預(yù)測器使用[4]。
給定一個時長為N的時間序列{xt},其中xt=x(t),t=1,2,…,N,由于系統(tǒng)的演化規(guī)律可以在一個高維的相空間中恢復(fù),因此,我們可以在短期內(nèi)對時間序列{xt}進(jìn)行預(yù)測。如果在某種條件下對滿足特定條件的m,可以找到一個光滑映射f:Rm→R,使下面的等式成立:
xt=f(xt-m,xt-m+1,…,xt-1)
那么,我們把m稱作嵌入維,而最小嵌入維則是使上式成立的最小的m取值。對時間序列進(jìn)行預(yù)測,就是根據(jù)N-m 個Rm中的點Xt=(xt-m,xt-m+1,… ,xt-1)和Yt=xt組成樣本對(Xi,Yi),(i=m+1,m+2,…,N),利用這些樣本估計映射f,從而給出Xn+1的近似值。
為了降低建模誤差,對原始數(shù)據(jù)首先進(jìn)行零處理以及數(shù)據(jù)的歸一化,然后根據(jù)Takens理論進(jìn)行相空間重構(gòu)操作,也就是把一維的時間序列轉(zhuǎn)化成矩陣形式,得出數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,從而能得到盡可能多的信息量。為了使重構(gòu)的相空間能較充分而細(xì)致的反映系統(tǒng)運動特征,恰當(dāng)?shù)倪x取嵌入維m的大小是相空間重構(gòu)的關(guān)鍵。
這樣,原始的一維時間序列經(jīng)過變形后可以得到用于預(yù)測學(xué)習(xí)的樣本。
給定時間序列{xt},其中xt=x(t),t=1,2,…,N,我們可以把數(shù)據(jù)分成兩部分,一部分用于模型訓(xùn)練,而另一部分則用來測試。其中,我們把前Ntr個數(shù)據(jù)用來做訓(xùn)練,而后NNtr個數(shù)據(jù)用來做檢驗和測試。按照嵌入維數(shù)m進(jìn)行滑動,則可以得到N-m個Rm中的點,也就是Xt={xt-m,xt-m+1,…,xt-1}及其映射值Yt=xt組成的樣本對(Xi,Yi),(i=m+1,m+2,...,N),對前Ntr-m個數(shù)據(jù)進(jìn)行訓(xùn)練,可以對映射f:Rm→R進(jìn)行模擬估計,而后N-Ntr個數(shù)據(jù)則用來做測試,用來對建立的回歸模型的預(yù)測效果進(jìn)行檢驗。根據(jù)訓(xùn)練樣本建立的SVM回歸函數(shù)為:
則可以得到一步預(yù)測模型為:
而進(jìn)一步則L步預(yù)測模型為:
對于以上建立的基于支持向量機回歸的時間序列預(yù)測模型,首先要確定時間序列嵌入維數(shù)m,而m的確定目前尚未完備的理論基礎(chǔ),一般都是通過試驗選擇使預(yù)測誤差最小的m,其次就是要確定支持向量機的主要參數(shù),包括核函數(shù)形式的確定、模型正則化參數(shù)C和回歸逼近誤差控制參數(shù)g。而這些參數(shù)一旦確定后,支持向量數(shù)也即隱層節(jié)點數(shù)SV則可以自動確定該預(yù)測模型的網(wǎng)絡(luò)結(jié)構(gòu),連接權(quán)也可由算法自動確定[3]。
對構(gòu)建的支持向量回歸預(yù)測模型可以用如下統(tǒng)計量檢驗其擬合效果和預(yù)測。
平均絕對百分誤差:
MAPE為相對數(shù),一般而言,在時間序列預(yù)測中MAPE的值落在20%-40%就能夠滿足要求,而在具體分析時,其值越小,說明預(yù)測值和實際值越接近,預(yù)測模型的精度越高。
根據(jù)前面建立的支持向量機回歸預(yù)測模型,我們可以對組成房地產(chǎn)預(yù)警系統(tǒng)的各項指標(biāo)的未來值進(jìn)行短期預(yù)測,以武漢市房地產(chǎn)為例利用WEKA軟件進(jìn)行分析,由于組成房地產(chǎn)預(yù)警指標(biāo)體系的指標(biāo)較多,考慮到篇幅,僅以土地轉(zhuǎn)讓面積為例進(jìn)行預(yù)測。
在用支持向量機回歸模型做預(yù)測前,必須對指標(biāo)進(jìn)行歸一化處理,使指標(biāo)值在[-1 1]內(nèi)變動,這樣使得處理后的數(shù)據(jù)更容易訓(xùn)練和學(xué)習(xí),本文的數(shù)據(jù)因為在前面進(jìn)行指標(biāo)選擇時已經(jīng)進(jìn)行了處理,所以在這可直接進(jìn)行試驗。
根據(jù)前面分析,要對土地轉(zhuǎn)讓面積2010年的增長率進(jìn)行預(yù)測,首先要對增長率進(jìn)行相間重構(gòu),嵌入維數(shù)m考慮到數(shù)據(jù)的個數(shù)不多,參考了其他文獻(xiàn)[3-4],在多次實驗的基礎(chǔ)上,確定為m=4,也就是從第一年開始,前四年作為輸入,第五年為輸出,接著滑動窗口,從第二年開始,2、3、4、5年作為輸入,第六年作為輸出,如此循環(huán)下去,則共有10組數(shù)據(jù)。在建模時,為了保證模型的泛化性,把樣本分成5份,采用5折交叉驗證。
表1 土地轉(zhuǎn)讓面積增長率實際值與預(yù)測值比較 (%)
對以上10組數(shù)據(jù)建立模型,RBF函數(shù)因其優(yōu)秀的局部逼近特性在SVM中應(yīng)用最為廣泛,本文的核函數(shù)選擇RBF函數(shù),經(jīng)過反復(fù)試驗,確定C=1,g=0.008,并進(jìn)行誤差分析和檢驗。我們對同一組數(shù)據(jù)分別用BP神經(jīng)網(wǎng)絡(luò)和支持向量機這兩種方法來建立模型,具體比較結(jié)果如表1。
利用支持向量機對已知的歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),建立模型,通過檢驗滿足誤差要求后就可以利用建好的模型來對該指標(biāo)的未來值進(jìn)行預(yù)測,按照同樣的格式對數(shù)據(jù)進(jìn)行整理,即根據(jù)2010年之前的前四年的增長率來推算2010年土地轉(zhuǎn)讓面積增長率,支持向量機會根據(jù)前面的模型,進(jìn)行自動學(xué)習(xí),得出2010年土地轉(zhuǎn)讓面積增長率的值,通過weka軟件的運算結(jié)果,可得到2010年武漢市土地轉(zhuǎn)讓面積增長率為15.6%。
由預(yù)測結(jié)果得知,2010年武漢市土地增長率和2009年相比,將會上升,這與武漢市房地產(chǎn)發(fā)展的實際相符合,MAPE為16.6%,精度滿足預(yù)測要求,且精度明顯高于BP神經(jīng)網(wǎng)絡(luò),,說明基于支持向量機回歸的房地產(chǎn)單指標(biāo)預(yù)測模型表現(xiàn)出了較強的泛化能力,得到令人滿意的結(jié)果。
[1] Tay FEH,Cao LJ.Application of Support Vector Machines in Financial Forecasting[J].Omega,2001,9(4).
[2] 許建華,張學(xué)工,李衍達(dá).支持向量機的新發(fā)展[J].控制與決策,2004,
19(5).
[3] 崔萬照,朱長純,保文信星.混沌時間序列的支持向量機測定與預(yù)測[J].物理學(xué)報,2004,53(10).
[4] 周佩玲等.相空間重構(gòu)在股票短期預(yù)測中的應(yīng)用[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,1999,(29).