楊智璇 張繼瑜
摘要:隨著城市面積的快速擴(kuò)張,市中心土地市場供應(yīng)的愈發(fā)緊缺,房地產(chǎn)交易市場已由新房向二手房轉(zhuǎn)變,準(zhǔn)確的房地產(chǎn)評估對于指導(dǎo)人們買賣房產(chǎn),政府稅收,制定經(jīng)濟(jì)發(fā)展戰(zhàn)略都有十分重要的作用。21世紀(jì)計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展,人們在房地產(chǎn)評估的方式上不再局限于傳統(tǒng)的人工評估方式。在房地產(chǎn)評估方法研究中,伴隨大數(shù)據(jù)技術(shù)和人工智能的進(jìn)步,利用大數(shù)據(jù)技術(shù)來進(jìn)行房地產(chǎn)評估逐漸成為了新的研究焦點(diǎn)。采用最新的機(jī)器學(xué)習(xí)算法結(jié)合房地產(chǎn)評估理論探索數(shù)據(jù)驅(qū)動房地產(chǎn)評估的可行性,經(jīng)過實(shí)證證明相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,采用CatBoost算法進(jìn)行房地產(chǎn)批量評估準(zhǔn)確率高,具有極高的社會應(yīng)用價(jià)值。
關(guān)鍵詞:批量評估;大數(shù)據(jù);機(jī)器學(xué)習(xí);Catboost
中圖分類號:F293 文獻(xiàn)標(biāo)識碼:A
文章編號:1001-9138-(2022)05-0054-06 收稿日期:2022-04-03
作者簡介:楊智璇,東北財(cái)經(jīng)大學(xué)投資工程管理學(xué)院碩士生導(dǎo)師。
張繼瑜,東北財(cái)經(jīng)大學(xué)投資工程管理學(xué)院碩士研究生。
基金項(xiàng)目:教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目“高校房地產(chǎn)本科專業(yè)體系改革與建設(shè)研究”(202102133002);
遼寧省教育廳科學(xué)研究經(jīng)費(fèi)項(xiàng)目“空間信息協(xié)同下的智慧城市治理路徑”(LN2020Q32)。
1 引言
在房屋交易中,二手房因配套較為完善以及價(jià)格更為低廉等優(yōu)勢,交易中愈發(fā)受到人們的青睞?,F(xiàn)實(shí)中房地產(chǎn)轉(zhuǎn)讓、租賃、抵押、稅收、征收、征用、司法拍賣、分家析產(chǎn)、損害賠償、保險(xiǎn)等活動對房地產(chǎn)評估均有需要。在這種情況下,政府、中介、買賣人對完善的二手房市場信息和準(zhǔn)確的二手房價(jià)格需求越來越迫切。
傳統(tǒng)的房地產(chǎn)估價(jià)方法以成本法、市場法、收益法為主,這些方法具有理論成熟,使用簡單,應(yīng)用案例廣泛的優(yōu)點(diǎn)。創(chuàng)新型的房地產(chǎn)評估方法如黃臻(2021)基于模糊實(shí)物期權(quán)法在房地產(chǎn)價(jià)格評估中的應(yīng)用,也取得了較高的評估準(zhǔn)確性。但上述研究方法適用于單宗評估,歷史數(shù)據(jù)使用較少,對于批量評估工作來說評估效率低,難以滿足大量業(yè)務(wù)的需求。
2 數(shù)據(jù)驅(qū)動房地產(chǎn)估價(jià)的理論框架
2.1 大數(shù)據(jù)驅(qū)動房地產(chǎn)估價(jià)的基本理論
大數(shù)據(jù)技術(shù)作為一種抽象的概念,簡單來說就是對海量數(shù)據(jù)進(jìn)行信息挖掘和數(shù)據(jù)分析來發(fā)掘數(shù)據(jù)的應(yīng)用價(jià)值。21世紀(jì)大數(shù)據(jù)技術(shù)在硬件的加持下飛速發(fā)展,在短短數(shù)年的時間里,大數(shù)據(jù)就實(shí)現(xiàn)了從概念到落地的過程,直接帶動了全行業(yè)的技術(shù)變革。全球各行各業(yè)產(chǎn)生的數(shù)據(jù)總量已經(jīng)呈現(xiàn)爆炸式增長,我們正快速經(jīng)歷著數(shù)字轉(zhuǎn)型,如何有效利用海量數(shù)據(jù)為社會帶來貢獻(xiàn)是大數(shù)據(jù)時代至關(guān)重要的事情。
大數(shù)據(jù)技術(shù)為各行各業(yè)的發(fā)展提供了新的動力和方法。房地產(chǎn)的相關(guān)數(shù)據(jù)形成了一定的規(guī)模并逐漸公開、透明,結(jié)合計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫技術(shù)的儲存和運(yùn)算能力,建立房地產(chǎn)自動評估模型進(jìn)行房地產(chǎn)評估也越來越可行,利用自動評估模型可以實(shí)現(xiàn)房地產(chǎn)價(jià)格的更快速評估且評估的準(zhǔn)確率更高。
劉辰翔等(2020)回溯了AVM的起源,并與傳統(tǒng)評估模式進(jìn)行對比分析,展現(xiàn)了房地產(chǎn)自動估價(jià)模型在中國廣闊的應(yīng)用前景。沈宏亮等(2021)得出研究結(jié)論,新冠疫情后房地產(chǎn)估價(jià)行業(yè)將會受到“互聯(lián)網(wǎng)+大數(shù)據(jù)”前所未有的沖擊。評估企業(yè)應(yīng)主動出擊,做好數(shù)字轉(zhuǎn)型,迎接大數(shù)據(jù)時代的到來。
2.2 房地產(chǎn)大數(shù)據(jù)概述
傳統(tǒng)的房地產(chǎn)評估方法存在較強(qiáng)的主觀性,難以科學(xué)準(zhǔn)確地揭示房地產(chǎn)市場的真實(shí)價(jià)值情況。大數(shù)據(jù)技術(shù)有利于改進(jìn)傳統(tǒng)理論和方法的不足,通過合理篩選和利用已成交房屋的交易數(shù)據(jù),結(jié)合估價(jià)房地產(chǎn)所在區(qū)位特征,通過批量評估的方式,科學(xué)評估房地產(chǎn)在評估價(jià)值時點(diǎn)的價(jià)值。通過大數(shù)據(jù)技術(shù)與經(jīng)典房地產(chǎn)估價(jià)理論和方法的融合,實(shí)現(xiàn)精準(zhǔn)估價(jià)的目的。
尹延鈞等(2021)對大數(shù)據(jù)挖掘中常用的分類算法進(jìn)行分析,當(dāng)前在大數(shù)據(jù)分析和數(shù)據(jù)挖掘階段經(jīng)典的分類算法主要有決策樹、樸素貝葉斯、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)分類算法等。關(guān)于大數(shù)據(jù)房地產(chǎn)估價(jià)技術(shù),國內(nèi)開展較晚,最新研究方法主要采用數(shù)學(xué)模型、回歸分析、模糊數(shù)學(xué)、灰色預(yù)測、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等梳理統(tǒng)計(jì)分析方法。究其原理,是將房地產(chǎn)屬性因素進(jìn)行量化,定量分析房地產(chǎn)價(jià)格的影響因素,并以此為依據(jù)進(jìn)行房地產(chǎn)價(jià)格評估,這些方法的關(guān)鍵是依賴數(shù)據(jù)屬性信息量化。由于受到行業(yè)數(shù)據(jù)的限制,難以應(yīng)用和推廣。
最早的批量評估研究始于Carbone和Longini(1977)基于多元線性回歸方程建立AVMs(Automated Valuation Models)自動評估模型,進(jìn)行房地產(chǎn)批量評估。近三年的研究主要集中于隨機(jī)森林模式和Catboost等新興算法研究,例如,李宇琪(2018)選用基于決策樹的隨機(jī)森林模型,對獲取的房價(jià)數(shù)據(jù)進(jìn)行清洗、歸一等預(yù)處理,從信息增益等角度出發(fā)尋找影響房價(jià)的主要因素,從而訓(xùn)練獲得了較為準(zhǔn)確的房地產(chǎn)評估結(jié)果。CatBoost算法出現(xiàn)時間較晚,在各應(yīng)用領(lǐng)域的研究還不夠廣泛。
在文獻(xiàn)整理中發(fā)現(xiàn),多數(shù)研究集中在運(yùn)用機(jī)器學(xué)習(xí)算法模型進(jìn)行房地產(chǎn)批量評估的研究,但是,對于眾多機(jī)器學(xué)習(xí)算法,哪類或者哪種方法更加精準(zhǔn)卻鮮有研究。本文的研究將對比多元線性回歸模型、隨機(jī)森林模型和Catboost模型,通過實(shí)證檢驗(yàn)方法揭示模型的精準(zhǔn)性。
3 模型構(gòu)建
3.1 數(shù)據(jù)驅(qū)動房地產(chǎn)批量評估模型構(gòu)建
房地產(chǎn)批量評估是基于以往發(fā)生交易的價(jià)格數(shù)據(jù),對尚未發(fā)生交易的房地產(chǎn)價(jià)格進(jìn)行合理預(yù)測。在構(gòu)建數(shù)據(jù)驅(qū)動房地產(chǎn)批量評估模型中,需要注重?cái)?shù)據(jù)類型、數(shù)據(jù)集、數(shù)據(jù)擬合度和準(zhǔn)確性等,此類因素將決定估算結(jié)果正確性(見圖1)。
通常情形下,大數(shù)據(jù)建模應(yīng)遵循以下步驟:一是房地產(chǎn)交易信息搜集和屬性信息數(shù)據(jù)化,二是構(gòu)建房地產(chǎn)批量評估模型,三是計(jì)算評估結(jié)果。
3.1.1 多元線性回歸建模
唐文廣等(2019)對多元線性回歸模型在房地產(chǎn)評估中的應(yīng)用展開研究,多元線性回歸分析是指兩個或兩個以上的自變量的回歸分析。
多元線性回歸的優(yōu)點(diǎn):
(1)建模速度快,不需要很復(fù)雜的計(jì)算,在數(shù)據(jù)量大的情況下依然運(yùn)行速度很快。
(2)與一元線性回歸相比,更加接近現(xiàn)實(shí),增強(qiáng)對因變量分析估計(jì)的貼合性。
多元線性回歸進(jìn)行房地產(chǎn)估價(jià)方法較簡單,效率較快。但現(xiàn)實(shí)生活中房地產(chǎn)價(jià)格的影響因素較為復(fù)雜,各因素對房價(jià)的影響不盡相同,只簡單進(jìn)行回歸評估其結(jié)果缺乏可靠性。
3.1.2 隨機(jī)森林建模
隨機(jī)森林是基于Bagging算法中的自助抽樣技術(shù)將分類樹進(jìn)行組合,提出的一種使用靈活且精確度較高的機(jī)器學(xué)習(xí)算法。在實(shí)踐應(yīng)用中,隨機(jī)森林算既可以應(yīng)用于解決分類問題也可以應(yīng)用于解決預(yù)測問題,隨著研究深入,其在醫(yī)學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)等眾多領(lǐng)域應(yīng)用均有優(yōu)異的表現(xiàn)。
隨機(jī)森林算法對多元線性不敏感,對缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較不敏感,同時還克服了決策樹分類器產(chǎn)生過擬合現(xiàn)象,在特征維度較高解釋變量多達(dá)幾千條的時候,也能得到非常好的預(yù)測結(jié)果,因此被稱為最好的機(jī)器學(xué)習(xí)算法之一。
隨機(jī)森林有很多優(yōu)點(diǎn):
(1)相比于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,其在處理數(shù)據(jù)量較復(fù)雜時,也可以有較高的精準(zhǔn)度。
(2)隨機(jī)森林可以處理大量的變量問題,一個x類的名義變量可以用x-1分叉樹來記錄,并且可以隨機(jī)選擇部分?jǐn)?shù)據(jù)來分類。
(3)其可以在決定類別時,通過編程調(diào)用來評估變量在分類中的重要性。
(4)在建造森林時,隨機(jī)選擇決策樹節(jié)點(diǎn)劃分特征,這樣在樣本特征特度較高時,仍然能較高效率的訓(xùn)練模型。
(5)隨機(jī)森林建模速度快,對部分?jǐn)?shù)據(jù)缺失不敏感。
隨機(jī)森林算法相比于線性回歸算法更加復(fù)雜,對影響因素的考察更為全面,是現(xiàn)今大數(shù)據(jù)估價(jià)研究中研究較深的一種算法。曾雙(2021)研究表明采用隨機(jī)森林模型評估相比于傳統(tǒng)的房地產(chǎn)評估方法,預(yù)測精度更高,具有較大的適用性。
3.1.3 CatBoost建模
2017年,俄羅斯搜索巨頭Yandex首次公布了CatBoost算法,CatBoost算法是在GBDT算法框架下進(jìn)行改進(jìn)的,其相對于改進(jìn)前的算法在準(zhǔn)確率方面有了很大的提升,實(shí)際應(yīng)用中表現(xiàn)也更加優(yōu)秀。由于該算法目前較新,在各個領(lǐng)域的研究擴(kuò)展深度尚淺,尚待探索。
CatBoost算法基于對稱決策樹為基礎(chǔ)學(xué)習(xí)器,使用簡單,調(diào)節(jié)參數(shù)較少,準(zhǔn)確率極高。有別于其他的機(jī)器學(xué)習(xí)算法,CatBoost算法最大的特點(diǎn)是可以高效處理類別型特征。除此之外,它還對GBDT框架的機(jī)器學(xué)習(xí)算法進(jìn)行了優(yōu)化,解決了機(jī)器學(xué)習(xí)中常見的梯度偏差和預(yù)測偏移問題,大大降低了模型過度擬合的發(fā)生,提高了算法的泛化能力。
CatBoost主要有三大創(chuàng)新之處:
(1)程序中嵌入了自動類別型特征數(shù)值化處理,不需要進(jìn)行數(shù)據(jù)的預(yù)處理工作。
(2) CatBoost算法還利用了特征間的聯(lián)系進(jìn)行組合,豐富了數(shù)據(jù)之間的組合類型和維度。
(3)采用排序提升的方法對抗訓(xùn)練集中的噪聲點(diǎn),從而避免梯度估計(jì)的偏差,進(jìn)而解決預(yù)測偏移的問題。
近來CatBoost算法在各個行業(yè)領(lǐng)域均展開了研究,且取得了不錯的應(yīng)用結(jié)果。但其在房地產(chǎn)評估領(lǐng)域的研究尚未展開,本次研究采用CatBoost算法訓(xùn)練出評估模型進(jìn)行估價(jià)并與前兩種算法進(jìn)行準(zhǔn)確率對比,探索該算法在房地產(chǎn)估價(jià)領(lǐng)域的應(yīng)用價(jià)值。
4 實(shí)證檢驗(yàn)
4.1 數(shù)據(jù)選取和預(yù)處理
4.1.1 樣本選擇
本研究以大連市 2021年10月二手房網(wǎng)站公布的二手房掛牌信息為研究對象,通過Python爬蟲技術(shù)來獲取非典型的100個小區(qū)近6000條房屋掛牌信息為數(shù)據(jù)基礎(chǔ)進(jìn)行實(shí)證分析。由于網(wǎng)上公布的房屋屬性數(shù)據(jù)種類繁多,因此在數(shù)據(jù)分析前要明確建模需要獲得的房屋屬性信息。
房價(jià)的影響因素主要可從個體因素、鄰里環(huán)境、區(qū)位因素三個方面進(jìn)行選擇,在公開房屋價(jià)格屬性的基礎(chǔ)上,選取了房屋交易過程中,價(jià)格影響較大的屬性作為目標(biāo)屬性。這些屬性的選取符合房地產(chǎn)評估的原理,包含的屬性有單價(jià)、房齡、臥室、客廳、衛(wèi)生間、樓層、總層數(shù)、面積、類型、建筑類型、朝向、裝修、梯戶比、電梯、用途、綠化、容積率、物業(yè)費(fèi)、區(qū)域共計(jì)20條屬性信息。
4.1.2 數(shù)據(jù)預(yù)處理
由于獲取的數(shù)據(jù)是從網(wǎng)頁中抓取的,數(shù)據(jù)的分布和房屋的屬性信息并沒有完全公布,存在數(shù)據(jù)缺失和數(shù)據(jù)異常情況,因此在訓(xùn)練前要進(jìn)行數(shù)據(jù)的預(yù)處理。數(shù)據(jù)的預(yù)處理內(nèi)容主要包括補(bǔ)充缺失值、修正異常值和量綱一致處理等。
常用的數(shù)據(jù)缺失和異常處理的方法有刪除法、替換法、插值法。而對于數(shù)據(jù)量綱不一致問題常用的處理辦法有零均值標(biāo)準(zhǔn)化、最小最大規(guī)范法、對數(shù)變換法等。數(shù)據(jù)分析時應(yīng)根據(jù)數(shù)據(jù)的特征來靈活選擇合適的數(shù)據(jù)處理方法。
用計(jì)算機(jī)統(tǒng)計(jì)預(yù)處理后的數(shù)據(jù),被評估房屋共計(jì)5208例,其中,自變量屬性20條,因變量屬性1條。接下來將80%的數(shù)據(jù)即有4166例房屋數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)集,剩余20%比例即有1042例房屋數(shù)據(jù)作為模型的測試數(shù)據(jù)集來驗(yàn)證模型的評估效果。
數(shù)據(jù)集劃分完成后,將訓(xùn)練數(shù)據(jù)集帶入算法中推出評估模型,再將測試數(shù)據(jù)集中的數(shù)據(jù)帶入評估模型中輸出預(yù)測結(jié)果,對預(yù)測結(jié)果進(jìn)行指標(biāo)分析(見圖2)。
4.2 結(jié)果分析
4.2.1 回歸模型評價(jià)指標(biāo)分析
本研究使用多元線性回歸、隨機(jī)森林回歸、CatBoost回歸這三個算法進(jìn)行建模預(yù)測,需要對預(yù)測結(jié)果進(jìn)行比較,來衡量三種方法評估結(jié)果的好壞,主要從模型的準(zhǔn)確率和預(yù)測效果兩部分來考慮。對于本研究房地產(chǎn)評估的問題屬于機(jī)器學(xué)習(xí)中回歸型問題,衡量模型的預(yù)測能力,主要是從兩方面考察,首先考察三種模型的擬合度,即模型評估的準(zhǔn)確率,其次通過對比測試集的測試指標(biāo),即平均絕對誤差(Mean Absolute Error, MAE)、均方誤差(Mean Squared Error,MSE)、均方根誤差(Root Mean Squared Error,RMSE)來比較三種回歸方法的優(yōu)劣(見表1)。
通過回歸評價(jià)指標(biāo)對比表可以看出,在二手房價(jià)格評估結(jié)果中,隨機(jī)森林回歸模型在各項(xiàng)評價(jià)指標(biāo)中均優(yōu)于多元線性回歸模型,這說明相比于傳統(tǒng)的多元線性回歸模型,隨機(jī)森林模型具有較強(qiáng)的評估優(yōu)勢,能夠很好地解決非線性問題。其可以在回歸擬合時表現(xiàn)良好,也可以在外展預(yù)測時確保較好的擴(kuò)展能力。
同時也可以看出在二手房價(jià)格評估中CatBoost回歸模型在各項(xiàng)指標(biāo)表現(xiàn)上大幅優(yōu)于多元線性回歸模型和隨機(jī)森林模型,這說明CatBoost回歸模型具有更優(yōu)的非線性擬合的優(yōu)勢,能夠更好地解決房屋價(jià)格評估問題。其不光可以在回歸擬合時使得模型表現(xiàn)更佳,并且在外展預(yù)測時可以確保較好的擴(kuò)展能力,獲得更優(yōu)的二手房評估準(zhǔn)確率。但同時在構(gòu)建模型的過程中,CatBoost算法建模的工作量要明顯低于隨機(jī)森林模型。
4.2.2 回歸模型評價(jià)指標(biāo)分析
將預(yù)測集的房地產(chǎn)進(jìn)行評估,通過運(yùn)行程序,輸出評估房價(jià)和真實(shí)掛牌房價(jià)的擬合圖。
通過對比三種模型擬合優(yōu)度圖形,可以明顯的看出,CatBoost模型評估預(yù)測值與真實(shí)值貼合度更高,具有更高的評估準(zhǔn)確性(見圖3、圖4、圖5)。
5 結(jié)論
通過對回歸模型的預(yù)測精度、平均絕對誤差、方誤差、均方根誤差等的比較,可以確定CatBoost回歸模型相比其他的機(jī)器學(xué)習(xí)方法,評估效果更加優(yōu)良。在CatBoost回歸模型中,其預(yù)測精度達(dá)到了99%,是其他機(jī)器學(xué)習(xí)方法難以企及的,是當(dāng)前研究中最優(yōu)的以數(shù)據(jù)驅(qū)動的房地產(chǎn)批量評估方法。
參考文獻(xiàn):
1.黃臻.基于模糊實(shí)物期權(quán)法在房地產(chǎn)價(jià)格評估的研究——以天津市為例.中國資產(chǎn)評估.2021.10
2.劉辰翔 王卓 胡永強(qiáng).大數(shù)據(jù)時代:從傳統(tǒng)評估到自動估價(jià)系統(tǒng).中國資產(chǎn)評估.2020.04
3.李宇琪.基于隨機(jī)森林的房價(jià)預(yù)測模型.通訊世界.2018.09
4.苗豐順 李巖 高岑.基于CatBoost算法的糖尿病預(yù)測方法.計(jì)算機(jī)系統(tǒng)與應(yīng)用.2019.28 (9)
5.沈宏亮 徐志革.后疫情時代房地產(chǎn)評估行業(yè)發(fā)展的應(yīng)對策略探討——基于波特五力模型的分析.中國資產(chǎn)評估.2021.10
6.唐文廣 王夢茹.多元線性回歸模型在房地產(chǎn)評估中的應(yīng)用.科技和產(chǎn)業(yè).2019.19 (06)
7.尹廷鈞 李靈慧 周蕊.大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述.數(shù)字技術(shù)與應(yīng)用.2021.39 (01)
8.曾雙.隨機(jī)森林模型在房地產(chǎn)評估中的適用性分析.中國管理信息化. 2021.24 (19)
9.Carbone R,Longini R L.A Feedback Model for Automated Real Estate Assessment.Management Science.1977.24 (3)
10.Guomin Huang,Lifeng Wu,Xin Ma,et al.Evaluation of CatBoost method for prediction of reference evapotranspiration in humid regions.Journal of Hydrology.2019