黃明宇 夏典
[提要] 房地產(chǎn)價格變化一向是社會關(guān)注的熱點。本文從鏈家二手網(wǎng)站上爬取了近萬組合肥市截止到2018年3月的最新二手房交易數(shù)據(jù),據(jù)此建立因變量為二手房售價,自變量分別為建筑面積、使用年限、戶型等11個變量的多元線性回歸模型,并對模型進行優(yōu)化,最終得到較優(yōu)的二手房價預(yù)測模型,為合肥二手房交易各方提供一種有實用價值的房價定價工具。
關(guān)鍵詞:合肥二手房價格;房價預(yù)測模型;逐步回歸
本文為云南師范大學(xué)研究生核心課程建設(shè)項目(項目編號:YH2018-C08);指導(dǎo)老師:郭民之
中圖分類號:F293.3 文獻標(biāo)識碼:A
收錄日期:2019年2月25日
一、引言
住房是我國城鄉(xiāng)居民的一個基本生活需求,房屋價格一向是社會熱點話題。2016年內(nèi)合肥房屋均價漲幅為48.4%,漲幅排名全球第一,受到了國內(nèi)外特別關(guān)注。本文選用了涉及建筑面積、戶型、區(qū)域均價等13個影響因素共9,185組合肥市二手房相關(guān)交易數(shù)據(jù),據(jù)此建立二手房售價預(yù)測模型,并對模型進行優(yōu)化,為合肥二手房交易各方提供了一種有實際價值房價定價工具。
二、數(shù)據(jù)預(yù)處理
本文數(shù)據(jù)主要來自鏈家二手房網(wǎng)(https://hf.lianjia.com),全部為介于2017年3月至2018年3月合肥二手房交易相關(guān)數(shù)據(jù),首先對原始數(shù)據(jù)進行拆分、歸類和缺失值處理,共得到9,185組有效數(shù)據(jù),每組數(shù)據(jù)中Price(房價)為因變量,其余13個變量為自變量,分別為:Avep(區(qū)域均價)、Deco(裝修程度)、Towards(房屋朝向)、HT(戶型)、HA(建筑面積)、TF(該樓層高度)、KF(樓層段)、HY(使用年限)、Focus(網(wǎng)絡(luò)關(guān)注人數(shù))、Visit(看房人數(shù))、Ad(信息發(fā)布時間)、HCY(房產(chǎn)證是否滿五年唯一)、NTS(是否靠近地鐵站)。例如變量區(qū)域均價Avep就包括政務(wù)區(qū)、濱湖區(qū)、蜀山區(qū)、廬陽區(qū)、包河區(qū)、瑤海區(qū)六個城區(qū)的二手房均價、裝修程度分為精裝、簡裝、毛坯和其他四類;其余自變量類似處理,這里略。本文主要考慮二手房交易中常規(guī)的交易數(shù)據(jù),故將原始數(shù)據(jù)中價格超高的數(shù)據(jù)(超過1,000萬)直接刪除。
三、多元線性回歸模型
(一)模型定義。多元線性回歸模型通常用來描述因變量y與p(p≥1)個自變量x1,x2,…,xp之間的線性相關(guān)關(guān)系,模型形式為:
y=?茁0+?茁1x1+…+?茁pxp+?著
其中,?茁0,?茁1,…,?茁p是回歸系數(shù),?著~N(0,?滓2)是隨機誤差。
(二)建立模型。本文借助R軟件中線性回歸函數(shù)lm()給出模型回歸系數(shù)的最小二乘估計,并對回歸方程和回歸系數(shù)進行顯著性檢驗,程序輸出結(jié)果見表1,從中看出檢驗統(tǒng)計量F所對應(yīng)的p值為2.2×10-16,說明回歸方程是非常顯著的,但是對諸回歸系數(shù)的t檢驗所對應(yīng)的p值顯示自變量Towards、KF不顯著,其余自變量和常數(shù)項顯著;判定系數(shù)R2等于0.8349,擬合程度較高。(表1)
下面,用R軟件中的逐步回歸函數(shù)step()對上面建立的線性回歸方程進行變量篩選和優(yōu)化,程序輸出結(jié)果見表2所示。(表2)
結(jié)果顯示采用全部自變量作回歸(即
現(xiàn)用R軟件中函數(shù)summary()函數(shù)觀察Price關(guān)于Avep、Deco、HT(不包括Towards、KF變量)等11個變量的回歸模型的信息,并同樣做逐步回歸,結(jié)果如表3所示。(表3)
從表3中,看出檢驗統(tǒng)計量F所對應(yīng)的p值幾乎為零,說明回歸方程是非常顯著的,對諸回歸系數(shù)的t檢驗所對應(yīng)的p值顯示全部11個自變量和常數(shù)項均顯著;判定系數(shù)R2等于0.8349,模型擬合效果較好。
綜上所述,我們得到了較優(yōu)模型:
Price=-168+0.009849×Avep+2.99Deco+1.49×HT+1.754×HA+0.2396×TF-0.6414×HY-0.3608×Focus+0.3472×Visit-0.4947×Ad-2.587×HCY+2.01×NTS
從模型中可以看出,因變量Price與Avep、Deco、HT、HA、TF、Visit、NTS等7個自變量成正相關(guān)關(guān)系(區(qū)域均價上漲、或裝修程度越高、或住房面積越大、或戶型越好等必然會導(dǎo)致房價越高),因變量Price與Focus、Ad、HY、HCY等4個自變量成負相關(guān)關(guān)系(網(wǎng)絡(luò)關(guān)注度高(但無人買),或發(fā)售日期長,或使用年限長,或待售房產(chǎn)“滿五唯一”,會導(dǎo)致房價下降)。可見,本文所得到的房價預(yù)測模型與二手房交易的實際意義是相符合的。
四、模型的交叉驗證及實際預(yù)測示例
用十折交叉驗證法對模型預(yù)測結(jié)果做交叉驗證,其平均標(biāo)準化均方誤差(NMSE)為0.1659765,遠小于1,模型交叉驗證效果較好。
再隨機抽取鏈家二手網(wǎng)上已經(jīng)成交的10套房的房價與模型預(yù)測的房價作對比如表4所示。(表4)
預(yù)測模型使用說明:合肥某人有一房產(chǎn),一個月前在鏈家二手交易市場中發(fā)布房屋出售信息,信息如下:房屋地處政務(wù)區(qū),3室2廳,建筑面積為120平方米,簡裝房,共2層,房屋使用2年,網(wǎng)絡(luò)關(guān)注有2人,0人參觀,房產(chǎn)證沒有滿五年,靠近地鐵站。將上述信息量化后帶入到模型中,計算出的房價為255.49萬元。于是買賣雙方可在255.49萬元這個參考價格進行議價,最終完成交易過程。
五、總結(jié)與評價
本文中最終得出了擬合度較高的房價預(yù)測模型,為合肥市二手房交易提供了一個有實用價值的房價參考定價工具,買賣雙方或中介公司只要將模型中所需的變量值帶入,就可得出相對應(yīng)的二手房價,在這個參考房價上雙方可以商議具體房屋交易價格。
當(dāng)然,模型也存在著一些問題。根據(jù)經(jīng)驗,建立模型時去除的自變量Towards(房屋朝向)和KF(樓層處于哪段),在二手房交易中往往也是不能忽略的因素。另外,由于數(shù)據(jù)是從網(wǎng)絡(luò)收集到的,有的重要數(shù)據(jù)資料難于收集,比如是否為學(xué)區(qū)房、房屋建筑的安全系數(shù)等。所以,模型還可以結(jié)合實際數(shù)據(jù)作進一步的優(yōu)化。
主要參考文獻:
[1]中商情報網(wǎng).http://www.askci.com/news/dxf/20170119/
16085988495.shtml,2017.1.19.
[2]合肥鏈家網(wǎng).https://hf.lianjia.com/.
[3]南方財富網(wǎng).http://www.southmoney.com/paihangbang/201712/1834628.html,2017.12.
[4]費宇.郭民之.陳貽娟.多元統(tǒng)計分析——基于R[M].北京.中國人民大學(xué)出版社,2014.
[5]郭會利.多元回歸分析的逐步回歸預(yù)測模型[J].考試周刊,2009(26).