潘楚文 王佩琪 溫嘉琪
摘 要:隨著我國(guó)社會(huì)經(jīng)濟(jì)不斷發(fā)展,房地產(chǎn)行業(yè)也逐漸發(fā)展擴(kuò)大。但如今一手房房?jī)r(jià)過(guò)高,而二手房房?jī)r(jià)適中且地理位置較好,因此人們更傾向購(gòu)買(mǎi)二手房。本文以廣州市天河區(qū)的普通二手房為研究對(duì)象,選取了15個(gè)變量來(lái)建立指標(biāo)體系以此研究影響二手房的房?jī)r(jià)因素。本文利用集搜客收集二手房信息資料、R-Studio清洗數(shù)據(jù),并使用python編程語(yǔ)言建立評(píng)估模型從而研究分析影響二手房?jī)r(jià)格的因素。
關(guān)鍵詞:集成學(xué)習(xí)模型;統(tǒng)計(jì)機(jī)器算法;二手房?jī)r(jià)格;房?jī)r(jià)影響因素;
如今,我國(guó)房地產(chǎn)行業(yè)的被越來(lái)越多的人關(guān)注,迫切需要建立一套科學(xué)合理的房地產(chǎn)評(píng)估模型,為二手房的購(gòu)買(mǎi),銷(xiāo)售、和其他行為提供有價(jià)值的參考。從“中國(guó)房?jī)r(jià)行情”官網(wǎng)中發(fā)現(xiàn)二手房平均價(jià)格基本呈上升趨勢(shì);從2019年3月到2019年6月價(jià)格上升趨勢(shì)穩(wěn)定在約5萬(wàn)元/平米。隨著科學(xué)技術(shù)的不斷創(chuàng)新發(fā)展,研究人員已將機(jī)器學(xué)習(xí)算法應(yīng)用于房地產(chǎn)評(píng)估模型,并在實(shí)踐中不斷優(yōu)化算法。如王勇勝[1]首先構(gòu)建線(xiàn)性回歸模型、時(shí)間序列等五種單一評(píng)估模型,田一梅[2]首先采用灰色系統(tǒng)對(duì)某市生活用水量進(jìn)行預(yù)測(cè),其次將預(yù)測(cè)結(jié)果作為輸入,代入偏最小二乘法回歸(PLS)模型,結(jié)果表明預(yù)測(cè)誤差更低。因此,本文將基于集成學(xué)習(xí)模型來(lái)研究分析二手房影響因素。
1.數(shù)據(jù)收集與預(yù)處理
首先分析歸納二手房交易網(wǎng)站,主要有房屋基本信息、社區(qū)配套設(shè)施和社區(qū)概況等信息,本文提取部分?jǐn)?shù)據(jù)信息[3]。為了收集本文所需更為詳細(xì)的天河區(qū)二手房數(shù)據(jù),運(yùn)用集搜客GooSeeKer的層級(jí)采集獲取天河區(qū)二手房房源詳細(xì)資料。依據(jù)內(nèi)在規(guī)則在第一層數(shù)據(jù)采集下,挖掘第二層詳細(xì)數(shù)據(jù),通過(guò)MS謀數(shù)臺(tái)與DS打數(shù)機(jī)運(yùn)行工作,搜集天河區(qū)的第二層數(shù)據(jù)資料,此次收集共有1100個(gè)數(shù)據(jù)。
同時(shí),為了提高數(shù)據(jù)挖掘的質(zhì)量,使用R語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行清理。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量并減少實(shí)際挖掘所需的時(shí)間。
2.理論基礎(chǔ)
2.1隨機(jī)森林算法
隨機(jī)森林被稱(chēng)為當(dāng)前最好的算法之一,2001年Breiman Leo[4]等人提出了隨機(jī)森林算法,不僅減少預(yù)測(cè)誤差,還可以衡量特征變量的重要性。近年來(lái),它以被廣泛應(yīng)用于經(jīng)濟(jì)、管理等領(lǐng)域。
隨機(jī)森林算法的基本步驟如下[5;6]:
2)采用Bootstrap方法,從訓(xùn)練集中隨機(jī)抽取n個(gè)樣本作為新的數(shù)據(jù)集;
3)基于新數(shù)據(jù)集構(gòu)建決策樹(shù),并對(duì)決策樹(shù)的每個(gè)節(jié)點(diǎn),重復(fù)一下步驟,直到節(jié)點(diǎn)的樣本數(shù)達(dá)到設(shè)定的最小值nmin: 從P個(gè)特征值中隨機(jī)取m(m
4)根據(jù)基尼系數(shù)或信息增益率準(zhǔn)則,從m個(gè)隨機(jī)特征變量中選擇最終要的特征變量,分為兩個(gè)部分;
輸出B棵樹(shù),針對(duì)分類(lèi)和回歸不同問(wèn)題的預(yù)測(cè),對(duì)新樣本X*在每棵樹(shù)進(jìn)行預(yù)測(cè),記第b棵樹(shù)的新樣本點(diǎn)X*預(yù)測(cè)為:
分類(lèi)對(duì)新樣本點(diǎn)X*的預(yù)測(cè)結(jié)果為:
2.2梯度提升算法
1)初始化:
2)for m=1 to M
計(jì)算負(fù)數(shù)梯度:
2.3極限樹(shù)算法
Extra-Trees(Extremely randomized trees,極端隨機(jī)樹(shù))算法與隨機(jī)森林算法非常相似,并且由許多決策樹(shù)組成。極限樹(shù)與隨機(jī)森林的主要區(qū)別:
1)Random Forest應(yīng)用的是Bagging模型,Extra Tree使用的所有的樣本,只是特征是隨機(jī)選取的,因?yàn)榉至咽请S機(jī)的,所以結(jié)果在某種程度上要比隨機(jī)森林好。
2)隨機(jī)森林在隨機(jī)子集中獲得最好的分支屬性,而Extra Tree完全隨機(jī)地獲得分支值,從而實(shí)現(xiàn)決策樹(shù)的分支。
當(dāng)特征屬性為類(lèi)別的形式時(shí),隨機(jī)選擇具有某些類(lèi)別的樣本為左分支,將具有其他類(lèi)別的樣本作為右分支;當(dāng)特征屬性是數(shù)值的形式時(shí),隨機(jī)選擇一個(gè)處于該特征屬性的最大值和最小值之間的任意數(shù),當(dāng)樣本的該特征屬性值大于該值時(shí),作為左分支,當(dāng)小于該值時(shí),作為右分支。這樣就實(shí)現(xiàn)了在該特征屬性下把樣本隨機(jī)分配到兩個(gè)分支上的目的。然后計(jì)算此時(shí)的分叉值(如果特征屬性為類(lèi)別的形式,可以應(yīng)用基尼指數(shù);如果特征屬性是數(shù)值的形式,可以應(yīng)用均方誤差)。遍歷節(jié)點(diǎn)內(nèi)的所有特征屬性,按上述方法得到所有特征屬性的分叉值,我們選擇分叉值最大的那種形式實(shí)現(xiàn)對(duì)該節(jié)點(diǎn)的分叉。從上面的介紹可以看出,該方法比隨機(jī)森林更具隨機(jī)性。
2.4極端梯度提升
XGBoost(eXtreme Gradient Boosting)全名叫極端梯度提升,xgboost歸根到底屬于boost集成學(xué)習(xí)方法最終的學(xué)習(xí)器表示如下:
2.5模型組合Stacking
1992年Wolpert提出集成學(xué)習(xí)Stacking算法,主要組合多個(gè)不同學(xué)習(xí)器提高預(yù)測(cè)效果。Stacking算法分為初級(jí)學(xué)習(xí)器和次級(jí)學(xué)習(xí)器。集成學(xué)習(xí)Stacking算法首先數(shù)據(jù)集分為訓(xùn)練集(Training Data)和測(cè)試集(Test Data)。
第一層初級(jí)學(xué)習(xí)器:訓(xùn)練集采用5折交叉驗(yàn)證,其中訓(xùn)練模型數(shù)據(jù)集(Learn)占4/5,驗(yàn)證模型數(shù)據(jù)集(Predict)占1/5,首先選擇第一個(gè)評(píng)估模型Model 1 ,用數(shù)據(jù)集(Learn)訓(xùn)練模型,將訓(xùn)練好的模型對(duì)數(shù)據(jù)集(Predict)進(jìn)行預(yù)測(cè),在第一次交叉驗(yàn)證后,預(yù)測(cè)結(jié)果記為a1,同理訓(xùn)練集對(duì)測(cè)試集(Test Data)進(jìn)行預(yù)測(cè)結(jié)果為b1,這樣經(jīng)過(guò)五次交叉驗(yàn)證,訓(xùn)練集得到的預(yù)測(cè)結(jié)果為(a1、a2、a3、a4、a5),將其合并為一列多行的矩陣A;測(cè)試集的預(yù)測(cè)結(jié)果為(b1、b2、b3、b4、b5),對(duì)各部分預(yù)測(cè)值對(duì)應(yīng)相加求平均值,結(jié)果記為矩陣B,以上步驟為Stacking中第一個(gè)基本學(xué)習(xí)器為Model 1的完整算法流程。
第二層次級(jí)學(xué)習(xí)器:矩陣A為訓(xùn)練集,矩陣B為測(cè)試集,構(gòu)建簡(jiǎn)單的多元線(xiàn)性回歸模型,其中第j個(gè)單一評(píng)估模型Model j對(duì)第i個(gè)訓(xùn)練樣本點(diǎn)的預(yù)測(cè)值,作為新的訓(xùn)練集中第i個(gè)樣本的第j個(gè)特征值,即解釋變量為不同模型的預(yù)測(cè)值,被解釋變量是實(shí)際因變量值。
3.各階段二手房重要影響變量
本文參照安居客等二手房網(wǎng)站,將房地產(chǎn)評(píng)估的相關(guān)文獻(xiàn)與天河區(qū)的內(nèi)涵和特征相結(jié)合,選擇總價(jià)格、房齡、面積、朝向、樓層與層數(shù)、裝修程度、房子單價(jià)、容積率、物業(yè)費(fèi)用、臥室、客廳、衛(wèi)生間、參考首付、參考月供、綠化率共15個(gè)指標(biāo),進(jìn)而將特征指標(biāo)分為定性變量與定量變量細(xì)分。
采用箱線(xiàn)圖方法研究房齡對(duì)房?jī)r(jià)的影響程度,如圖1所示:
從圖1可知,不同房齡階段的房?jī)r(jià)變化趨勢(shì)比較明顯。1900年到1993年的房齡對(duì)房?jī)r(jià)的影響尚未穩(wěn)定,而1995-1997年、19998-2000年房?jī)r(jià)則相對(duì)穩(wěn),但對(duì)比前三年房?jī)r(jià)有下跌趨勢(shì),隨后2001年到2009年都是逐步回升的狀態(tài),且房?jī)r(jià)保持穩(wěn)定,而到了2010年到2019年房?jī)r(jià)略有下降趨勢(shì)。由此可知,購(gòu)房者可能偏向于01-09年的二手房。
采用直方圖方法研究二手房房?jī)r(jià),如圖2所示:
為了研究在不同階段影響二手房?jī)r(jià)格的因素。本文首先將房?jī)r(jià)離散化。其中通過(guò)圖2可以看出,說(shuō)明天河區(qū)房?jī)r(jià)主要集中在50K/平方-70k/平方。
同時(shí),由于隨機(jī)森林具有更好的準(zhǔn)確性和穩(wěn)健性,為了研究所選特征變量是否很好解釋并將房?jī)r(jià)劃分,因此本文使用隨機(jī)森林,對(duì)變量重要性度量,利用R語(yǔ)言“RandomForest”包構(gòu)建模型,進(jìn)行相關(guān)因素的離散化。
3.1影響二手房房?jī)r(jià)重要因素
顏色越深代表重要性以及影響程度越大,顏色越淺代表重要性以及影響程度越小。特征變量的重要程度主要分為3種,如圖3所示:
3.2影響二手房房?jī)r(jià)相關(guān)因素
從圖可以看出特征變量的相關(guān)程度主要分為6種,如圖4所示:
3.3影響二手房變量重要性
采用隨機(jī)森林對(duì)變量重要性的度量,測(cè)量的特征變量重要性程度不同,其十分重要特征和一般程度的特征如圖5所示:
4.總結(jié)
本文得出的結(jié)論為天河區(qū)的二手房房?jī)r(jià)主要集中在50k/平方-70k/平方。通過(guò)15個(gè)變量來(lái)建立指標(biāo)體系以此研究影響二手房的房?jī)r(jià)因素。房齡、樓層與房?jī)r(jià)為負(fù)相關(guān),地段的繁華程度則與房?jī)r(jià)呈正比。通過(guò)相關(guān)關(guān)系散點(diǎn)圖得出總價(jià)、地段與參照首付是消費(fèi)者首要考慮最重要的因素。其次,房型與綠化率也和房?jī)r(jià)有相關(guān)關(guān)系,房型的面積的大小與房?jī)r(jià)呈正比關(guān)系。隨著生活質(zhì)量的提高,人們也越來(lái)越注重有氧生活,因此,綠化率也會(huì)成為參考首選之一。除了以上的因素外,房子的朝向、物業(yè)費(fèi)用、容積率等因素也對(duì)房?jī)r(jià)有重要的影響。
本文以廣州市天河區(qū)二手房?jī)r(jià)格為例,基于天河區(qū)的特征變量建立評(píng)估模型,進(jìn)而得出每一種因素的相關(guān)影響程度。由于采用單一評(píng)估模型可能不具有一致性,而采用模型stacking算法則有效解決這一問(wèn)題。但是,本文也存在不足,由于本文搜集的數(shù)據(jù)是二手房網(wǎng)站的掛牌數(shù)據(jù),無(wú)法獲取最終交易價(jià)格,因此收集到的數(shù)據(jù)受到限制,構(gòu)建的評(píng)估模型可能會(huì)受到一些影響。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)作為統(tǒng)計(jì)學(xué)領(lǐng)域的新生事物,它的強(qiáng)操作性預(yù)示了它不是一個(gè)循規(guī)蹈矩、墨守成規(guī)的形式與手段,更是為統(tǒng)計(jì)學(xué)的長(zhǎng)遠(yuǎn)發(fā)展帶來(lái)了新的曙光與希望。
參考文獻(xiàn):
[1]王勇勝,薛繼亮.基于多種模型組合的我國(guó)2015年人口總數(shù)預(yù)測(cè)[J].西北農(nóng)林科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2009,9(1):75-79
[2]田一梅,汪泳,遲海燕.偏最小二乘與灰色模型組合預(yù)測(cè)城市生活需水量[J].天津大學(xué)學(xué)報(bào).2004,37(4):322-325.
[3]張漢中,張倩,董起航等,大數(shù)據(jù)下基于房屋交易網(wǎng)站的數(shù)據(jù)獲取的二手房?jī)r(jià)格走勢(shì)分析——以上海為例[J].黑龍江科技信息.2017(21):142-143.
[4]Breiman L.Radom forests[J].Machine Learning.2001,45(1):5-32
[5:6]呂曉玲,宋捷.大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)[M].北京:中國(guó)人民大學(xué)出版社.2016.
作者簡(jiǎn)介:
潘楚文(1999-), 女,廣東省廣州人,廣東培正學(xué)院2017級(jí)經(jīng)濟(jì)學(xué)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)在讀學(xué)生。
王佩琪(1998-), 女,廣東省廣州人,廣東培正學(xué)院2017級(jí)經(jīng)濟(jì)學(xué)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)在讀學(xué)生。
溫嘉琪(1998-), 女,廣東省江門(mén)人,廣東培正學(xué)院2017級(jí)經(jīng)濟(jì)學(xué)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)在讀學(xué)生。