基于隨機森林模型的房價預(yù)測

2016-11-19 17:16:09陳世鵬金升平

科技創(chuàng)新與應(yīng)用 2016年4期

陳世鵬　金升平

摘要：根據(jù)襄陽2012年的房貸數(shù)據(jù)，考慮影響房價的各種特征變量，嘗試建立隨機森林模型，利用其優(yōu)秀的集成學(xué)習(xí)能力和泛化能力對測試樣本進行房價預(yù)測，并與學(xué)者應(yīng)用較多的ARMA模型及經(jīng)典的多元線性回歸模型預(yù)測的房價和實際房價進行對

比，取得了較好的效果。

關(guān)鍵詞：隨機森林；房價；ARMA模型；多元線性回歸模型

1 傳統(tǒng)的房價預(yù)測模型簡介

1.1 ARMA模型

ARMA即自回歸滑動平均模型，是研究時間序列的重要方法，可以研究并預(yù)測房價隨時間的變化，由AR（Auto-Regressive）和MA（Moving-Average）兩個部分組成，若時間序列yt服從（p，q）階的ARMA模型，則其滿足形式為：

1.2 多元線性回歸模型

多元線性回歸模型經(jīng)常用來刻畫一個變量受多個變量影響時的情況，適用于自變量與因變量之間呈現(xiàn)密切的線性相關(guān)且自變量之間具有一定的互斥性的情形，其基本模型如下：

2 隨機森林模型的建立

2.1 隨機森林建模的步驟

隨機森林在建立模型及預(yù)測的流程如圖1所示：

其基本思想是通過自助法重采樣技術(shù)從原始訓(xùn)練樣本集中抽取樣本生成新的訓(xùn)練樣本集合，由此生成多棵決策樹組成隨機森林，分類數(shù)采取投票方式、回歸數(shù)利用均值來進行結(jié)果預(yù)測，具體步驟為：（1）確定生成一棵決策樹時用到的特征變量個數(shù)m（

助樣本集，并由此構(gòu)建K棵決策樹，每次未被抽到的樣本組成k個袋外數(shù)據(jù)，即out-of-bag（OOB）；（3）每個自助樣本集生長為單棵決策樹，每個節(jié)點處按照節(jié)點不純度最小原則選取特征進行充分生長，不進行剪枝操作；（4）根據(jù)生成的決策樹分類器對預(yù)測集進行預(yù)測，對每棵樹的預(yù)測結(jié)果求均值即為最終預(yù)測結(jié)果[3]。

2.2 模型的建立與優(yōu)化

整合2012年襄陽房貸數(shù)據(jù)，得到6354條有效數(shù)據(jù)，其中特征變量有房子所在樓層、總樓層、所在區(qū)域、房子面積、交易時間等，解釋變量為每平方米單價（千元）。以總數(shù)據(jù)的75%作為訓(xùn)練集構(gòu)造隨機森林，剩下的25%數(shù)據(jù)作為測試集用來檢驗?zāi)Ｐ汀Ｃ看纬槿∪舾蓴?shù)據(jù)和特征變量，以信息增益或基尼指數(shù)作為衡量標(biāo)準(zhǔn)來選擇節(jié)點處特征，然后進行充分生長構(gòu)建決策樹。

隨機森林中最重要的兩個參數(shù)有樹節(jié)點預(yù)選的特征變量個數(shù)、隨機森林中決策樹的個數(shù)。特征變量個數(shù)決定了每棵樹的規(guī)模，太多會導(dǎo)致每棵決策樹差別不大，產(chǎn)生過擬合現(xiàn)象；太少則不能從數(shù)據(jù)中有效學(xué)習(xí)模型。同理，決策樹數(shù)量太多會浪費很多時間進行計算，太少則預(yù)測效果很差。

圖2中a圖是利用R語言計算的默認(rèn)的特征變量個數(shù)為1時的絕對累積誤差和，可以發(fā)現(xiàn)當(dāng)決策樹的數(shù)量大于150以后，模型累積誤差趨于穩(wěn)定；對特征變量的個數(shù)進行遍歷，可以發(fā)現(xiàn)預(yù)選個數(shù)為2時誤差和最小，如b圖所示。

3 預(yù)測結(jié)果的對比

根據(jù)整合的房貸數(shù)據(jù)，由訓(xùn)練集建立模型，利用測試集來對房價進行預(yù)測，隨機森林與傳統(tǒng)的ARMA模型和多元線性回歸模型預(yù)測的部分房價（單位：千元/平方米）數(shù)據(jù)如表1所示。

4 結(jié)果分析

由預(yù)測結(jié)果可以看出，隨機森林模型取得了較好的預(yù)測效果，基于OOB數(shù)據(jù)和測試集數(shù)據(jù)的絕對誤差均值分別為大約0.08（千元/平方米）和0.2（千元/平方米），相對誤差分別只有1.6%和4%，雖然上述預(yù)測結(jié)果相對于ARMA等傳統(tǒng)模型優(yōu)勢并不明顯，這是由于文章采用的數(shù)據(jù)特征變量數(shù)較少所導(dǎo)致的。實際中影響房子價格的可能還有小區(qū)的停車位、環(huán)境、運動設(shè)施、物業(yè)管理費用，周邊的交通如公交線路、地鐵線路的數(shù)量，到醫(yī)院、學(xué)校、銀行、商場、菜市場、CBD的距離等因素[4]，隨機森林的優(yōu)勢在當(dāng)特征變量數(shù)增加時會更加明顯，其預(yù)測精度會進一步提升。

參考文獻

[1]常振海，劉薇.基于非參數(shù)自回歸模型的房價預(yù)測[J].天水師范學(xué)院學(xué)報，2010，3（2）：56-58.

[2]劉忠璐.ARIMA模型在房價預(yù)測中的應(yīng)用[J].決策與信息，2011（4）：3-4.

[3]黃文，王正林.數(shù)據(jù)挖掘：R語言實戰(zhàn)[M].電子工業(yè)出版社，2014：220-241.

[4]孫憲華，張臣曦.房屋質(zhì)量及其對房地產(chǎn)價格指數(shù)的影響[J].統(tǒng)計與信息論壇，2009（9）：43-47.

作者簡介：陳世鵬，男，武漢理工大學(xué)碩士，研究方向：最優(yōu)化理論與計算。

金升平，男，教授，碩士生導(dǎo)師，研究方向：金融統(tǒng)計計算與隨機模擬。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于隨機森林模型的房價預(yù)測