鄔嘉怡 王思玉 史宏煒 李虎森 樓凱達 崔麗鴻
(北京化工大學(xué) 理學(xué)院, 北京 100029)
近年來,房價問題日漸升溫,人們在關(guān)注房價問題的過程中,最關(guān)注的是房價的未來走勢。但是,由于房價在歷史時點上的數(shù)據(jù)波動巨大且具有信噪比低、信噪難以分離的特點,另外,影響房屋價格的不僅有時間,還有房屋面積、所處區(qū)域、房屋配置等指標(biāo),導(dǎo)致房屋指標(biāo)與房價關(guān)系難以用傳統(tǒng)預(yù)測方法構(gòu)造,更難以給出有效的預(yù)測方法。因此如何高效處理房價數(shù)據(jù)使其適用于擬合和預(yù)測,具有重要的研究價值。
以往的研究主要立足于房價預(yù)測。楊楠等[1]采用灰色馬爾可夫模型和n次多項式模型預(yù)測了全國房屋年平均價格;李佳音[2]提出市場比較法來預(yù)測房價;閆妍等[3]提出了基于TEI@I方法論的房價預(yù)測方法;Anglin[4]引入平均房價增長率及CPI等指標(biāo)建立VAR模型來預(yù)測多倫多房價。但對于我國的房產(chǎn)市場,上述方法各有其適用范圍和局限性?;疑R爾科夫模型只能預(yù)測短期趨勢;基于TEI@I方法論的方法只適用于中短期預(yù)測;市場比較預(yù)測方法及國外模型只能比較成熟程度高、運作完善的房產(chǎn)市場,中國房產(chǎn)市場顯然不具備類似條件。
有效的數(shù)據(jù)分析處理工具是探究我國房產(chǎn)市場發(fā)展規(guī)律和預(yù)測房價的關(guān)鍵。在諸多數(shù)據(jù)處理方法中,小波變換是一種信號的時間- 尺度分析方法,它具有多分辨率分析的特點,能夠在時、頻兩域較好地呈現(xiàn)信號的局部特征?;谛〔ê瘮?shù)的多尺度特性,可以將歷史房價看作特定的信號,通過小波分析將其分解重構(gòu),再進行降噪處理,從而降低房價數(shù)據(jù)的非平穩(wěn)性,使其能夠運用傳統(tǒng)預(yù)測模型來進行預(yù)測。但是除了Haar小波之外,現(xiàn)有研究常用的單小波不能同時滿足正交、對稱及緊支性(在實數(shù)范圍內(nèi)),而多小波可同時擁有這些應(yīng)用上所需要的優(yōu)良性質(zhì)。因此本文提出基于多小波的方法,結(jié)合支持向量機預(yù)測模型,對北京市房屋市場價格進行分析預(yù)測。實驗結(jié)果表明,相對于單小波,理論性質(zhì)優(yōu)越的多小波在應(yīng)用上也表現(xiàn)出良好的特性。
多小波分析(multi wavelet analysis,MWA)是小波理論的新發(fā)展,單小波由一個母函數(shù)(基本函數(shù))通過伸縮平移得到的小波基構(gòu)成,而多小波的基本母函數(shù)不止一個,因此其同時具有對稱性、正交性、插值性、緊支性和高階消失矩等特點,在理論上是優(yōu)于單小波的一種數(shù)據(jù)分析方法。
基于多分辨率分析的定義,φ(t)∈V0?V1和φ(t)∈W0?V1都可以用V1空間的一個基{φ(2t-k)}k∈Z表示,即雙尺度方程[6]
(1)
式中,hk=〈φ(t),φ(2t-k)〉,gk=〈ψ(t),φ(2t-k)〉。從信號分析的角度,h是與φ對應(yīng)的低通濾波器,g是與ψ對應(yīng)的高通濾波器,{h,g}為濾波器組。
類似地,由MRA可以推出r重分辨率分析(MRAr)的定義[7],構(gòu)造相似的雙尺度方程
(2)
對任意的輸入信號,有小波分解公式
(3)
基于式(1)可知,多分辨率分析的主要思想是將L2(R)分解為一串具有不同分辨率的子空間序列,將L2(R)中的函數(shù)f(t)描述為具有一系列近似函數(shù)的逼近極限[8],其中每一個近似函數(shù)都是f(t)在不同分辨率子空間上的投影,從而通過分析這些投影來獲得近似函數(shù)的形態(tài)和特征。
本文將價格信號分成5層,其小波分解樹示意圖如圖1所示。
圖1 5層小波分解樹示意圖Fig.1 A five-layer wavelet decomposition tree diagram
從圖中可以看出,通過小波分解可得到逼近分量系數(shù)(低頻部分)和細節(jié)分量系數(shù)(高頻部分),其分解具有以下關(guān)系
f(t)=A1+D1+D2+D3+D4+D5
(4)
式中,A1為第一層分解的低頻部分分量系數(shù),Di為第i層分解的高頻部分分量系數(shù)。
通常,有用信號表現(xiàn)為低頻部分,噪聲信號表現(xiàn)為高頻部分。本文對小波分解的高頻系數(shù)進行門限閾值量化處理,然后根據(jù)小波分解的第5層低頻系數(shù)和經(jīng)過量化后的1~5層高頻系數(shù)進行小波重構(gòu),達到消除噪聲的目的。由于本文的研究對象是價格變化,其在時間尺度下呈連續(xù)趨勢,所以采用能夠平滑化處理的軟閾值進行量化去噪。
支持向量機(SVM)[9]是一種分類機器學(xué)習(xí)算法,其基本原理是利用核函數(shù)將輸入樣本空間映射到高維特征空間,然后在這個高維空間中求解最優(yōu)分類面,得到輸入與輸出變量的非線性關(guān)系。
在SVM算法中,給定特征空間上的訓(xùn)練樣本
T={(x1,y1),(x2,y2),…,(xn,yn)},xi∈Rn,yi∈R,i=1,…,n
(5)
式中,n表示樣本實例個數(shù),xi表示第i個特征向量,yi為第i個預(yù)測值。
對于訓(xùn)練樣本,存在一個分類面(w·x)+b=0,通過引入松弛變量ξi,構(gòu)建的最優(yōu)分類面滿足
yi((w·xi)+b)≥1-ξi,ξi≥0,i=1,2,…n
(6)
式中,w為權(quán)值向量,b為偏差項。
為了使預(yù)測值落入不同的分類面,要保證分類間隔最大,即目標(biāo)函數(shù)O(w,ξi)值最小,此時最優(yōu)分類面構(gòu)造問題即轉(zhuǎn)化為二次規(guī)劃問題式(7)
(7)
式中,C是定義為常數(shù)變量的懲罰參數(shù)。
同時,引入核函數(shù)K(x,y)=φ(x)φ(y),利用Lagrange乘子法以及KKT定理,將式(7)轉(zhuǎn)化為對偶二次規(guī)劃問題
(8)
由式(8)得到非線性分類問題的判別函數(shù)
(9)
根據(jù)式(6)判別x的類別,即為預(yù)測值。
收集北京市房屋市場2010—2018年的421 891條相關(guān)數(shù)據(jù),包括每天每筆成交的單價、面積、戶型、朝向、裝修類別、電梯數(shù)、樓層、總層數(shù)、建造年代、房屋結(jié)構(gòu)、所處區(qū)域等相關(guān)指標(biāo),刪除其中有缺失值的記錄。
由于收集的數(shù)據(jù)來自于每天成交網(wǎng)站,考慮到房價的時間成本,將單價以0.7%的貼現(xiàn)率按季度貼現(xiàn)成現(xiàn)值。處理后的房價數(shù)據(jù)原始狀態(tài)散點圖如圖2所示。
圖2 北京市房價與時間散點圖Fig.2 Beijing house price and time scatter chart
由圖2可以看出,在本預(yù)測模型中,房價數(shù)據(jù)信噪比低,信噪難以有效分離;且數(shù)據(jù)維數(shù)高、波動大,不能直接應(yīng)用于預(yù)測模型。
利用小波變換可將任一時間段內(nèi)的數(shù)據(jù)高頻部分和低頻部分分離,用高頻部分反映房屋市場的短期變化趨勢,低頻部分反映中、長期變化趨勢,使數(shù)據(jù)適用于傳統(tǒng)預(yù)測模型。
小波基可以用較少非零小波系數(shù)有效逼近實際函數(shù),這一特性被廣泛應(yīng)用于數(shù)據(jù)壓縮、信號去噪以及快速計算中,所以選擇小波基應(yīng)以最大量產(chǎn)生接近于零的小波系數(shù)為最優(yōu)[10]。在小波分析的應(yīng)用中,不同的小波基或小波函數(shù)的選取會產(chǎn)生不同的結(jié)果,要把握小波函數(shù)的特征,包括消失矩、正則性、緊支性、對稱性以及正交性和雙正交性等,根據(jù)應(yīng)用的需要選擇合適的小波基。
表1簡要概括了常用小波基的特點[11]。本文基于小波基的特點選取了最簡單的Haar小波基函數(shù)以及目前應(yīng)用最廣的Daubechies(Db)系列小波進行研究。
表1 常用小波基特點
Haar小波基函數(shù)是所有母函數(shù)中最簡單的一種,也是唯一有對稱和反對稱的單小波,但Haar小波的消失矩為1,對大于一次多項式的函數(shù)的消失效果不好。Db小波基系列函數(shù)是基于消失矩構(gòu)造的p階消失矩的小波,同時具有良好的正則、正交和緊支性性質(zhì),因此應(yīng)用十分廣泛,本文選取Db5作為母函數(shù)。
2.3.1GHM多小波
GHM多小波是由Geronimo等[12]通過分形插值函數(shù)的方法給出的多小波系統(tǒng),其支集長度為4。GHM多小波的尺度函數(shù)和小波函數(shù)都具有緊支性,其支集分別為[0,1]和[0,2],因此具有良好的局域性;其尺度函數(shù)和小波函數(shù)具有對稱性,尺度函數(shù)是整數(shù)的平移正交,變換后能夠保持能量恒定;同時系統(tǒng)存在二階逼近。
2.3.2CL多小波
CL多小波是Chui等[13]利用對稱性給出的支集為[0,2]和[0,3]的多小波系統(tǒng),包括CL3多小波(支集長度為3)和CL4多小波(支集長度為4),其中CL3多小波位于區(qū)間[0,2]上,CL4多小波位于區(qū)間[0,3]上。CL多小波的尺度函數(shù)和小波函數(shù)都具有緊支性,兩個尺度函數(shù)分別與兩個小波函數(shù)對稱和反對稱,保證了其線性相位;CL多小波同時具有正交性;系統(tǒng)存在三階逼近,其逼近性能優(yōu)于GHM多小波。
以小波分析分解重構(gòu)后的數(shù)據(jù)作為樣本,建立SVM預(yù)測模型,預(yù)測后通過特征系數(shù)重構(gòu)給出最終預(yù)測結(jié)果。
由于預(yù)測結(jié)果不能保證其線性,使用非線性SVM和核函數(shù)將變量映射到高維空間,選取了高斯核[14]
K(x,y)=exp (-γ|x-y|2)
(10)
對收集的房價數(shù)據(jù)進行小波去噪處理,選取其中一個區(qū)域的約5 000個數(shù)據(jù)進行降噪,比較Haar小波、Db小波、GHM多小波以及CL多小波的重構(gòu)效果,然后用小波處理后的數(shù)據(jù)及其影響因子進行SVM房價預(yù)測,比較不同方法處理數(shù)據(jù)對預(yù)測結(jié)果的影響。
選取不同的單小波和多小波作為小波基對數(shù)據(jù)進行去噪,用Matlab編程,運行后分別得到基于Haar單小波、Db5單小波、GHM多小波及CL多小波軟閾值去噪前后的散點對比圖,如圖3所示。
圖3 不同方法小波去噪前后數(shù)據(jù)散點對比Fig.3 Comparison of data scatter points before and after wavelet denoising using different methods
圖3中黑、白色點分別為原始數(shù)據(jù)散點和去噪后散點。通過對比可以看到,無論是單小波還是多小波,去噪后數(shù)據(jù)的整體趨勢與原始數(shù)據(jù)一致,說明小波去噪能保留數(shù)據(jù)的長期變化特征。
為了說明單小波以及多小波分解重構(gòu)對信號的影響,選取處理前后的數(shù)據(jù)標(biāo)準(zhǔn)誤差、中位標(biāo)準(zhǔn)誤差和平均標(biāo)準(zhǔn)誤差對重構(gòu)結(jié)果進行評價,結(jié)果如表2所示。
表2 小波分析誤差比較
由表2數(shù)據(jù)綜合比較看出,采用GHM多小波進行信號的分解、重構(gòu),能夠較好地保留原始信號中的特征信息,且從該組數(shù)據(jù)來看,多小波的分解重構(gòu)能力強于單小波。
根據(jù)北京市房價的特點,將單小波(Haar、Db5)處理后數(shù)據(jù)以及多小波(GHM、CL)處理后數(shù)據(jù)相對應(yīng)的5 000個樣本代入SVM模型進行預(yù)測,并與原始數(shù)據(jù)直接預(yù)測的結(jié)果進行對比。將實際樣本落入的等級稱為“原始等級”,預(yù)測值落入“原始等級”且誤差在20%區(qū)間內(nèi)的預(yù)測結(jié)果可以接受。將落入可接受區(qū)間內(nèi)的占比作為預(yù)測準(zhǔn)確率,預(yù)測效果對比如表3所示??梢钥闯?,用CL多小波處理后的數(shù)據(jù)預(yù)測準(zhǔn)確率最高,預(yù)測效果最好,說明基于CL多小波的去噪處理能夠相對最大程度地保留原始房價數(shù)據(jù)特征,且降低數(shù)據(jù)波動性,適合用于此類預(yù)測。
表3 SVM預(yù)測準(zhǔn)確率比較
(1)基于多小波的對稱性、正交性、緊支性等優(yōu)點,比較了以 Haar、Db5為母函數(shù)的單小波分析,以及經(jīng)過采樣預(yù)處理的GHM和CL多小波分析的重構(gòu)效果,證明小波去噪可以保留房價的變化趨勢;通過重構(gòu)誤差分析發(fā)現(xiàn)多小波分析處理信號效果誤差優(yōu)于單小波,多小波分析更能保持原有信息的特征。
(2)SVM模型房屋價格預(yù)測結(jié)果表明,CL多小波分析處理后數(shù)據(jù)的預(yù)測結(jié)果準(zhǔn)確率最高;在非平穩(wěn)序列的預(yù)測中,小波分析處理數(shù)據(jù)能夠優(yōu)化傳統(tǒng)預(yù)測結(jié)果,而多小波分析預(yù)測準(zhǔn)確率高于單小波分析。