彭博韜 彭禮燁 賈奕輝
摘要:近期,國家出臺針對海南的經(jīng)濟利好政策,建立了海南自貿(mào)區(qū)與自貿(mào)港,海南省主要城市的經(jīng)濟也隨之提升,房價也迅速提高。海南省政府隨即出臺了相應房價調(diào)控政策。房價是民生的重要指標,本文通過搜集過往數(shù)據(jù)并仔細研究相關背景,建立基于主成分分析的支持向量機模型,對海南房價問題進行分析,及未來短期價格的預測。
關鍵詞:主成分分析,支持向量機,商品住宅價格預測
隨著國家對海南省出臺的一系列相關促進其經(jīng)濟發(fā)展的重大利好政策,海南省的經(jīng)濟不斷提升,海南省的旅游業(yè)迅速發(fā)展,海南省的房價也不斷攀升。
1影響海南省房價的指標分析
本文選取了影響海南?。ㄖ饕獮楹??、三亞市)房地產(chǎn)價格的11個指標,如表1.所示,結(jié)合在海南省相關網(wǎng)站以及年鑒上搜集到這11個指標的歷史數(shù)據(jù),對這11個指標兩兩進行相關性分析。由于這11個指標的歷史數(shù)據(jù)分布不明,故本文采用Spearman相關分析方法來得出指標之間的相關程度。SPSS提供了Spearman分析功能,通過其輸出的相關性表并結(jié)合相關程度對應表即得出指標之間的相關程度。
1.1 相關性分析
Spearman相關檢驗法是從量變量x與y是否具有同步性(例如同時增加)來檢驗量變量之間是否存在相關性[1]。對于n對觀察數(shù)據(jù)(xi,yi)(i=1,2,...,n),按照每個變量的n個數(shù)據(jù)的大小次序,分別由小到大編上等級(秩次),對重復數(shù)據(jù)取平均等級,再檢驗兩個變量的等級或秩之間是否相關[1]。
設Ri和Qi分別表示xi和yi的秩次,則Spearman秩相關系數(shù)定義為:
當相同秩次較多時,計算校正的秩相關系數(shù)應該采用下式:
式中, mx和my的計算公式,均為 ? ? ? ? ? ? ? 。在計算mx時, mi為變量x的相同秩次數(shù);在計算my時,mi為變量y的相同秩次數(shù)。
SPSS輸出的相關性表中,Sig. (雙尾)值小于0.01說明兩個指標之間時相關的,結(jié)合參照相關程度對應表可得11項指標數(shù)據(jù)之間的相關程度結(jié)果如表2. 所示.
結(jié)果顯示,進一步得出房價與所選指標之間都有較強的相關性。
1.2 主成分分析法降維
為了防止指標維度過高致使在高維空間出現(xiàn)維度災難的情況,我們采用PCA(Principal Components analysis,主成分分析法)對指標進行合理降維,使較少指標能表現(xiàn)出豐富的數(shù)據(jù)信息,并且能夠較好地處理數(shù)據(jù)之間的冗雜信息。
基于眾多影響海南省商品住宅價格的變量及其取值,從中提取出比較全面地反映海南省房價水平的若干個公共因素Cj和系數(shù)nij,其中Cj表示基于若干影響海南省商品住宅價格指標變量抽象化的公共因子,而nij反映了公共因子對影響海南省房價水平的指標變量的影響能力。
對于一個包含n個變量的影響海南省房價指標數(shù)據(jù)集,現(xiàn)在需要抽象化出能夠充分反映這n個變量內(nèi)涵的若干個公共因子,則可以進行以下假設:
首先,假設n個指標變量依次為X1、X2、……、Xm,其最終的公共因子為 C1、C2、……,即Cj,那么對于第i個變量Xj,可以表示全體預設公共因子Cj共同作用的結(jié)果。即可以描述為如式(1)所示的方程[1]:
其中,Xi是指影響海南省房價指標數(shù)據(jù)集中的第i 個變量,Ei則是數(shù)據(jù)集中指標的數(shù)值與計算值(即期望值)的差。Cj是未知的公共屬性,而nij是針對變量Xj在第j個公共因素Cj上的系數(shù)。這個公共因素的系數(shù)nij反映了此公共屬性對變量Xi的影響力,稱為因素載荷。
對于數(shù)據(jù)集中的每個待分析變量Xi,都能獲得一個形如式(1)的方程式。因此,對于整個影響海南省房價指標數(shù)據(jù)集,就能獲得一個關于公共因子系數(shù)的矩陣。利用這個公共因子矩陣,可以分析各個公共因子對所有影響海南省房價指e標變量的總貢獻,找到貢獻量比較大的公共因子,用它們來描述海南省房價水平的絕大多數(shù)性質(zhì)。
2 基于PCA的SVM模型的建立與求解
2.1模型的建立
支持向量機方法(Support Vector Machine)是基于統(tǒng)計學習理論中的結(jié)構(gòu)風險最小化和VC維理論的一種機器學習方法,由于SVM具有很好的處理小樣本的能力,并且能夠有效降低過擬合的程度,處理非線性問題,其預測效果在國際上引發(fā)了極大關注[1]。
SVM回歸實際上是一種先行約束的凸二次規(guī)劃優(yōu)化的求解問題,基于Mercer核展開定理,通過非線性映射ψ,把控件樣本數(shù)據(jù)映射到高維空間G中,在高維空間G中引入不敏感損失函數(shù),定義最優(yōu)線性回歸超平面,把尋找最優(yōu)線性回歸超平面的算法歸結(jié)為求解一個凸約束條件下的凸二次規(guī)劃問題,因此所得解為全局唯一最優(yōu)解[1]。
設定樣本數(shù)據(jù) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ,其中yi為期望值,n為樣本量。SVM用y=g(x)=(ω·φ(x)+b)來估計函數(shù),其中φ(x)是輸入空間到高維特征空間的非線性映射, ω,b是系數(shù)?;貧w支持向量機(SVR)的原始最優(yōu)化問題是:
在支持向量的訓練過程中,尤其是非線性可分的情況下,樣本內(nèi)積的計算是一項非常耗費時力的工作。使用核函數(shù)可以將非線性可分的樣本數(shù)據(jù)在高維空間內(nèi)轉(zhuǎn)化為線性可分。本文模型使用的核函數(shù)如下:
核函數(shù)的選擇對于SVM的性能具有很大的作用,考慮到樣本數(shù)和提取出的樣本數(shù)個數(shù),本文選取如上的高斯核函數(shù),這是一種泛化能力強的,常用核函數(shù)。
2.2 模型的結(jié)果與檢驗
核函數(shù)的選擇對于SVM的性能具有很大的作用,考慮到樣本數(shù)和提取出的樣本數(shù)個為了測試所建立數(shù)學模型的預測能力,我們需要對模型進行數(shù)據(jù)集上的預測能力檢驗,即將數(shù)據(jù)集分為訓練集與測試集,為了簡化方法,我們采用傳統(tǒng)的留出法進行檢驗。
由于所搜集的數(shù)據(jù)量較小,我們隨機的將61個樣本劃分為約為9:1,即用6個樣本進行模型的測試。
得到訓練的預測結(jié)果和真實房價對比情況,如下所示:
其中,藍色的數(shù)據(jù)集1為真實房價,而紅色的數(shù)據(jù)集2為預測值。
3結(jié)論與分析
由模型結(jié)果及檢驗可知,所建立的數(shù)學模型在預測結(jié)果上接近于真實值,具有較好的預測能力與穩(wěn)定性,很好地預測了房屋的價格變化。
參考文獻:
[1]李 航,統(tǒng)計學習方法,北京:清華大學出版社,2012年