基于多小波的北京市房屋市場價格的分析預(yù)測

2019-10-16 09:00:40鄔嘉怡王思玉史宏煒李虎森樓凱達崔麗鴻

北京化工大學(xué)學(xué)報(自然科學(xué)版) 2019年5期

鄔嘉怡王思玉史宏煒李虎森樓凱達崔麗鴻

(北京化工大學(xué) 理學(xué)院，北京 100029)

引言

近年來，房價問題日漸升溫，人們在關(guān)注房價問題的過程中，最關(guān)注的是房價的未來走勢。但是，由于房價在歷史時點上的數(shù)據(jù)波動巨大且具有信噪比低、信噪難以分離的特點，另外，影響房屋價格的不僅有時間，還有房屋面積、所處區(qū)域、房屋配置等指標(biāo)，導(dǎo)致房屋指標(biāo)與房價關(guān)系難以用傳統(tǒng)預(yù)測方法構(gòu)造，更難以給出有效的預(yù)測方法。因此如何高效處理房價數(shù)據(jù)使其適用于擬合和預(yù)測，具有重要的研究價值。

以往的研究主要立足于房價預(yù)測。楊楠等[1]采用灰色馬爾可夫模型和n次多項式模型預(yù)測了全國房屋年平均價格；李佳音[2]提出市場比較法來預(yù)測房價；閆妍等[3]提出了基于TEI@I方法論的房價預(yù)測方法；Anglin[4]引入平均房價增長率及CPI等指標(biāo)建立VAR模型來預(yù)測多倫多房價。但對于我國的房產(chǎn)市場，上述方法各有其適用范圍和局限性?；疑R爾科夫模型只能預(yù)測短期趨勢；基于TEI@I方法論的方法只適用于中短期預(yù)測；市場比較預(yù)測方法及國外模型只能比較成熟程度高、運作完善的房產(chǎn)市場，中國房產(chǎn)市場顯然不具備類似條件。

有效的數(shù)據(jù)分析處理工具是探究我國房產(chǎn)市場發(fā)展規(guī)律和預(yù)測房價的關(guān)鍵。在諸多數(shù)據(jù)處理方法中，小波變換是一種信號的時間- 尺度分析方法，它具有多分辨率分析的特點，能夠在時、頻兩域較好地呈現(xiàn)信號的局部特征?；谛〔ê瘮?shù)的多尺度特性，可以將歷史房價看作特定的信號，通過小波分析將其分解重構(gòu)，再進行降噪處理，從而降低房價數(shù)據(jù)的非平穩(wěn)性，使其能夠運用傳統(tǒng)預(yù)測模型來進行預(yù)測。但是除了Haar小波之外，現(xiàn)有研究常用的單小波不能同時滿足正交、對稱及緊支性(在實數(shù)范圍內(nèi))，而多小波可同時擁有這些應(yīng)用上所需要的優(yōu)良性質(zhì)。因此本文提出基于多小波的方法，結(jié)合支持向量機預(yù)測模型，對北京市房屋市場價格進行分析預(yù)測。實驗結(jié)果表明，相對于單小波，理論性質(zhì)優(yōu)越的多小波在應(yīng)用上也表現(xiàn)出良好的特性。

1 基本理論

1.1 小波分析及其分解重構(gòu)算法

多小波分析(multi wavelet analysis,MWA)是小波理論的新發(fā)展，單小波由一個母函數(shù)(基本函數(shù))通過伸縮平移得到的小波基構(gòu)成，而多小波的基本母函數(shù)不止一個，因此其同時具有對稱性、正交性、插值性、緊支性和高階消失矩等特點，在理論上是優(yōu)于單小波的一種數(shù)據(jù)分析方法。

基于多分辨率分析的定義，φ(t)∈V0?V1和φ(t)∈W0?V1都可以用V1空間的一個基{φ(2t-k)}k∈Z表示，即雙尺度方程[6]

(1)

式中，hk=〈φ(t),φ(2t-k)〉,gk=〈ψ(t),φ(2t-k)〉。從信號分析的角度，h是與φ對應(yīng)的低通濾波器，g是與ψ對應(yīng)的高通濾波器，{h,g}為濾波器組。

類似地，由MRA可以推出r重分辨率分析(MRAr)的定義[7]，構(gòu)造相似的雙尺度方程

(2)

對任意的輸入信號，有小波分解公式

(3)

基于式(1)可知，多分辨率分析的主要思想是將L2(R)分解為一串具有不同分辨率的子空間序列，將L2(R)中的函數(shù)f(t)描述為具有一系列近似函數(shù)的逼近極限[8]，其中每一個近似函數(shù)都是f(t)在不同分辨率子空間上的投影，從而通過分析這些投影來獲得近似函數(shù)的形態(tài)和特征。

本文將價格信號分成5層，其小波分解樹示意圖如圖1所示。

圖1 5層小波分解樹示意圖Fig.1 A five-layer wavelet decomposition tree diagram

從圖中可以看出，通過小波分解可得到逼近分量系數(shù)(低頻部分)和細節(jié)分量系數(shù)(高頻部分)，其分解具有以下關(guān)系

f(t)=A1+D1+D2+D3+D4+D5

(4)

式中，A1為第一層分解的低頻部分分量系數(shù)，Di為第i層分解的高頻部分分量系數(shù)。

通常，有用信號表現(xiàn)為低頻部分，噪聲信號表現(xiàn)為高頻部分。本文對小波分解的高頻系數(shù)進行門限閾值量化處理，然后根據(jù)小波分解的第5層低頻系數(shù)和經(jīng)過量化后的1～5層高頻系數(shù)進行小波重構(gòu)，達到消除噪聲的目的。由于本文的研究對象是價格變化，其在時間尺度下呈連續(xù)趨勢，所以采用能夠平滑化處理的軟閾值進行量化去噪。

1.2 支持向量機

支持向量機(SVM)[9]是一種分類機器學(xué)習(xí)算法，其基本原理是利用核函數(shù)將輸入樣本空間映射到高維特征空間，然后在這個高維空間中求解最優(yōu)分類面，得到輸入與輸出變量的非線性關(guān)系。

在SVM算法中，給定特征空間上的訓(xùn)練樣本

T={(x1,y1),(x2,y2),…,(xn,yn)},xi∈Rn,yi∈R,i=1,…,n

(5)

式中，n表示樣本實例個數(shù)，xi表示第i個特征向量，yi為第i個預(yù)測值。

對于訓(xùn)練樣本，存在一個分類面(w·x)+b=0，通過引入松弛變量ξi，構(gòu)建的最優(yōu)分類面滿足

yi((w·xi)+b)≥1-ξi,ξi≥0,i=1,2,…n

(6)

式中，w為權(quán)值向量，b為偏差項。

為了使預(yù)測值落入不同的分類面，要保證分類間隔最大，即目標(biāo)函數(shù)O(w,ξi)值最小，此時最優(yōu)分類面構(gòu)造問題即轉(zhuǎn)化為二次規(guī)劃問題式(7)

(7)

式中，C是定義為常數(shù)變量的懲罰參數(shù)。

同時，引入核函數(shù)K(x,y)=φ(x)φ(y)，利用Lagrange乘子法以及KKT定理，將式(7)轉(zhuǎn)化為對偶二次規(guī)劃問題

(8)

由式(8)得到非線性分類問題的判別函數(shù)

(9)

根據(jù)式(6)判別x的類別，即為預(yù)測值。

2 模型建立

2.1 數(shù)據(jù)處理及分析

收集北京市房屋市場2010—2018年的421 891條相關(guān)數(shù)據(jù)，包括每天每筆成交的單價、面積、戶型、朝向、裝修類別、電梯數(shù)、樓層、總層數(shù)、建造年代、房屋結(jié)構(gòu)、所處區(qū)域等相關(guān)指標(biāo)，刪除其中有缺失值的記錄。

由于收集的數(shù)據(jù)來自于每天成交網(wǎng)站，考慮到房價的時間成本，將單價以0.7%的貼現(xiàn)率按季度貼現(xiàn)成現(xiàn)值。處理后的房價數(shù)據(jù)原始狀態(tài)散點圖如圖2所示。

圖2 北京市房價與時間散點圖Fig.2 Beijing house price and time scatter chart

由圖2可以看出，在本預(yù)測模型中，房價數(shù)據(jù)信噪比低，信噪難以有效分離；且數(shù)據(jù)維數(shù)高、波動大，不能直接應(yīng)用于預(yù)測模型。

利用小波變換可將任一時間段內(nèi)的數(shù)據(jù)高頻部分和低頻部分分離，用高頻部分反映房屋市場的短期變化趨勢，低頻部分反映中、長期變化趨勢，使數(shù)據(jù)適用于傳統(tǒng)預(yù)測模型。

2.2 小波基的選擇

小波基可以用較少非零小波系數(shù)有效逼近實際函數(shù)，這一特性被廣泛應(yīng)用于數(shù)據(jù)壓縮、信號去噪以及快速計算中，所以選擇小波基應(yīng)以最大量產(chǎn)生接近于零的小波系數(shù)為最優(yōu)[10]。在小波分析的應(yīng)用中，不同的小波基或小波函數(shù)的選取會產(chǎn)生不同的結(jié)果，要把握小波函數(shù)的特征，包括消失矩、正則性、緊支性、對稱性以及正交性和雙正交性等，根據(jù)應(yīng)用的需要選擇合適的小波基。

表1簡要概括了常用小波基的特點[11]。本文基于小波基的特點選取了最簡單的Haar小波基函數(shù)以及目前應(yīng)用最廣的Daubechies(Db)系列小波進行研究。

表1 常用小波基特點

Haar小波基函數(shù)是所有母函數(shù)中最簡單的一種，也是唯一有對稱和反對稱的單小波，但Haar小波的消失矩為1，對大于一次多項式的函數(shù)的消失效果不好。Db小波基系列函數(shù)是基于消失矩構(gòu)造的p階消失矩的小波，同時具有良好的正則、正交和緊支性性質(zhì)，因此應(yīng)用十分廣泛，本文選取Db5作為母函數(shù)。

2.3 多小波的選取

2.3.1GHM多小波

GHM多小波是由Geronimo等[12]通過分形插值函數(shù)的方法給出的多小波系統(tǒng)，其支集長度為4。GHM多小波的尺度函數(shù)和小波函數(shù)都具有緊支性，其支集分別為[0,1]和[0,2]，因此具有良好的局域性；其尺度函數(shù)和小波函數(shù)具有對稱性，尺度函數(shù)是整數(shù)的平移正交，變換后能夠保持能量恒定；同時系統(tǒng)存在二階逼近。

2.3.2CL多小波

CL多小波是Chui等[13]利用對稱性給出的支集為[0,2]和[0,3]的多小波系統(tǒng)，包括CL3多小波(支集長度為3)和CL4多小波(支集長度為4)，其中CL3多小波位于區(qū)間[0,2]上，CL4多小波位于區(qū)間[0,3]上。CL多小波的尺度函數(shù)和小波函數(shù)都具有緊支性，兩個尺度函數(shù)分別與兩個小波函數(shù)對稱和反對稱，保證了其線性相位；CL多小波同時具有正交性；系統(tǒng)存在三階逼近，其逼近性能優(yōu)于GHM多小波。

2.4 核函數(shù)和參數(shù)的選擇

以小波分析分解重構(gòu)后的數(shù)據(jù)作為樣本，建立SVM預(yù)測模型，預(yù)測后通過特征系數(shù)重構(gòu)給出最終預(yù)測結(jié)果。

由于預(yù)測結(jié)果不能保證其線性，使用非線性SVM和核函數(shù)將變量映射到高維空間，選取了高斯核[14]

K(x,y)=exp (-γ|x-y|2)

(10)

3 結(jié)果與討論

對收集的房價數(shù)據(jù)進行小波去噪處理，選取其中一個區(qū)域的約5 000個數(shù)據(jù)進行降噪，比較Haar小波、Db小波、GHM多小波以及CL多小波的重構(gòu)效果，然后用小波處理后的數(shù)據(jù)及其影響因子進行SVM房價預(yù)測，比較不同方法處理數(shù)據(jù)對預(yù)測結(jié)果的影響。

3.1 整體趨勢

選取不同的單小波和多小波作為小波基對數(shù)據(jù)進行去噪，用Matlab編程，運行后分別得到基于Haar單小波、Db5單小波、GHM多小波及CL多小波軟閾值去噪前后的散點對比圖，如圖3所示。

圖3 不同方法小波去噪前后數(shù)據(jù)散點對比Fig.3 Comparison of data scatter points before and after wavelet denoising using different methods

圖3中黑、白色點分別為原始數(shù)據(jù)散點和去噪后散點。通過對比可以看到，無論是單小波還是多小波，去噪后數(shù)據(jù)的整體趨勢與原始數(shù)據(jù)一致，說明小波去噪能保留數(shù)據(jù)的長期變化特征。

3.2 分解重構(gòu)效果

為了說明單小波以及多小波分解重構(gòu)對信號的影響，選取處理前后的數(shù)據(jù)標(biāo)準(zhǔn)誤差、中位標(biāo)準(zhǔn)誤差和平均標(biāo)準(zhǔn)誤差對重構(gòu)結(jié)果進行評價，結(jié)果如表2所示。

表2 小波分析誤差比較

由表2數(shù)據(jù)綜合比較看出，采用GHM多小波進行信號的分解、重構(gòu)，能夠較好地保留原始信號中的特征信息，且從該組數(shù)據(jù)來看，多小波的分解重構(gòu)能力強于單小波。

3.3 房價預(yù)測效果

根據(jù)北京市房價的特點，將單小波(Haar、Db5)處理后數(shù)據(jù)以及多小波(GHM、CL)處理后數(shù)據(jù)相對應(yīng)的5 000個樣本代入SVM模型進行預(yù)測，并與原始數(shù)據(jù)直接預(yù)測的結(jié)果進行對比。將實際樣本落入的等級稱為“原始等級”，預(yù)測值落入“原始等級”且誤差在20%區(qū)間內(nèi)的預(yù)測結(jié)果可以接受。將落入可接受區(qū)間內(nèi)的占比作為預(yù)測準(zhǔn)確率，預(yù)測效果對比如表3所示?？梢钥闯?，用CL多小波處理后的數(shù)據(jù)預(yù)測準(zhǔn)確率最高，預(yù)測效果最好，說明基于CL多小波的去噪處理能夠相對最大程度地保留原始房價數(shù)據(jù)特征，且降低數(shù)據(jù)波動性，適合用于此類預(yù)測。

表3 SVM預(yù)測準(zhǔn)確率比較

4 結(jié)論

(1)基于多小波的對稱性、正交性、緊支性等優(yōu)點，比較了以 Haar、Db5為母函數(shù)的單小波分析，以及經(jīng)過采樣預(yù)處理的GHM和CL多小波分析的重構(gòu)效果，證明小波去噪可以保留房價的變化趨勢；通過重構(gòu)誤差分析發(fā)現(xiàn)多小波分析處理信號效果誤差優(yōu)于單小波，多小波分析更能保持原有信息的特征。

(2)SVM模型房屋價格預(yù)測結(jié)果表明，CL多小波分析處理后數(shù)據(jù)的預(yù)測結(jié)果準(zhǔn)確率最高；在非平穩(wěn)序列的預(yù)測中，小波分析處理數(shù)據(jù)能夠優(yōu)化傳統(tǒng)預(yù)測結(jié)果，而多小波分析預(yù)測準(zhǔn)確率高于單小波分析。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看