• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于集成學習的武漢二手房估價模型研究

      2019-09-10 01:16:05姚沖閉鑫業(yè)
      商訊·公司金融 2019年10期
      關鍵詞:集成學習隨機森林

      姚沖 閉鑫業(yè)

      摘要:本文通過集成學習方法對武漢市二手房的數(shù)據(jù)進行分析和研究。本文構建了三種二手房房價估值模型:一、決策樹集成的隨機森林模型:二、通過AdaBoost,采用多層感知器神經(jīng)網(wǎng)絡構建了神經(jīng)網(wǎng)絡集成模型;三、用XGBoost方法建模,并對三種模型進行分析對比,結果顯示使用AdaBoost算法建立的模型更準確。

      關鍵詞:武漢二手房:集成學習:隨機森林:XCBoost

      隨著全國二手房關注度的提高,與二手房交易相關的抵押等交易越來越豐富,而買賣前的二手房估價是非常重要的環(huán)節(jié)。現(xiàn)有運用數(shù)理模型進行房價預估的研究中較為常見的是采用最小二乘法擬合多元線性回歸法。這種方法在建模的中一般要求誤差項要符合零均值并且獨立同分布的設想。此外,這些方法通常用t檢驗來檢測回歸系數(shù)的顯著性,用F檢驗來檢測模型整體水平的顯著性。但是如果數(shù)據(jù)不能夠滿足正態(tài)性條件,t檢驗與F檢驗的方法相對不滿足正態(tài)分布的數(shù)據(jù)來說沒有多大意義。在對相對復雜的數(shù)據(jù)進行建模時,簡單的線性回歸算法會有欠擬合和模型解釋能力較低的問題。為了避免以上評估方法的限制,尋找到更好的評估方法,本文使用集成學習的方法,用隨機森林、AdaBoost、XGBoost三種方法進行建模,分別得到隨機森林、AdaBoost、XGBoost三個模型,用測試集數(shù)據(jù)進行測試,再進行調參,用MAE(平均絕對誤差)評估模型的適用程度。

      一、數(shù)據(jù)探索

      (一)數(shù)據(jù)來源

      1.原始數(shù)據(jù)

      本次報告所采用的數(shù)據(jù)源來自“鏈家網(wǎng)”中的武漢二手房相關數(shù)據(jù)f如圖l所示 2.數(shù)據(jù)清洗 如圖l所示,數(shù)據(jù)不僅結構混亂,且含有缺失值,不匹配的記錄。首先,刪去不匹配的、缺失值內容太多的記錄:其次,利用Python將混合字段拆分成獨立的字段;最后,利用替換功能,將特殊字符、單位去掉變?yōu)閿?shù)值型數(shù)據(jù),并將變量的數(shù)據(jù)統(tǒng)一化處理。經(jīng)過處理后,研究的變量為武漢二手房每平方米的價格,影響因素包括武漢二手房的建房年份、面積、樓層位置、樓層總高度、臥室數(shù)量、所在區(qū)域、裝修情況、戶型結構、產權年限、是否配備電梯等因素。

      (二)描述性分析

      1.武漢市二手房房價分布

      根據(jù)上述處理過的數(shù)據(jù),利用Pvthon繪圖工具包mat-plotlib和seahorn分析工具可得出二手房單位價格大多處于10000 - 30000元之間,且集中在50平方米至150平方米區(qū)間內,分布帶有輕微的有偏性,但大致服從正態(tài)分布,高價位和低價位的二手房數(shù)都相對較少,且最高不超過5萬/平方米。

      二手房相對于新的商品住宅來說,樓房建造時間對價格影響較大,武漢市二手房建造年份主要是在2000年左右,相對較新:而2000年之前的老房子掛牌銷售的較少。

      2.武漢市二手房房價影響因素分析

      對二手房房價影響的因素有很多,如樓房是否有電梯,房子所在區(qū)域,樓層結構,產權年限以及裝修程度等因素。

      首先,影響價格因素最大的是區(qū)域。武漢市在售的二手房在洪山區(qū)、武昌區(qū)、江岸區(qū)等區(qū)域的房價較高,而蔡甸、新洲地區(qū)房價相對較低。

      其次,武漢市在售的二手房中影響次要原由樓層結構,裝修程度等。在售房中,主要樓層結構有平層、復式、錯層、躍層,其中復式價格相對較高,而平層是購房較多的購房結構。產權年限對價格的影響也比較大,一般選擇70年產權比較符合大多數(shù)人的情況。裝修方式對房價的影響也比較顯著,其中精裝的武漢二手房房價相對較高,其余裝修方式對應的房價依次按照簡裝、毛坯的順序遞減。

      最后,電梯對二手房價格有較明顯的影響,有電梯的二手房房價集中偏高于20000元每平方米,而沒有電梯的二手房房價則明顯低于有電梯的。

      綜上所述,最受關注的武漢二手房,其每平方米的價格大概是20000元左右,面積普遍都在50平方米至200平方米之間,高樓層,樓型為板樓,建筑時問在2000年以后。并且,處于武昌、江漢區(qū)等繁華地區(qū)、裝修方式為精裝、樓型為板塔結合、社區(qū)有電梯的二手房房價相對較高。

      二、武漢市二手房建模及評估

      (一)建模流程

      1.建模思路

      經(jīng)過數(shù)據(jù)清洗后,將清洗后的數(shù)據(jù)分為訓練集、測試集,分別為變量訓練集X_train、變量測試集X test、因變量訓練集y_train、因變量測試集y_test,分別得到以隨機森林、AdaBoost、XGBoost為算法的模型,進行調參,選取最好的結果,對這三個模型進行比較,選中較好的模型作為預測模型。

      2.基礎算法與集成算法

      本文對數(shù)據(jù)進行集成算法訓練前也對基礎算法進行訓練,有線性回歸、邏輯回歸、決策樹回歸等,對其進行建模,得到的MAE遠大于集成學習的評估,對此基礎算法對于該數(shù)據(jù)的二手房估價并不是很準確,因此選擇了集成學習算法進行構建估價模型。

      (二)隨機森林

      利用Python軟件中的sklearn庫的隨機森林算法,通過調節(jié)算法中的超參數(shù),讓模型達到最好的擬合效果。其中,需要調節(jié)的主要參數(shù)。

      n_estimators是指隨機森林算法中決策樹的數(shù)量,默認值為10,經(jīng)過不斷調試,n_estimators= 250時,MAE達到較好的效果。

      n_johs= -1為計算機使用最大核數(shù),只影響計算時間,不影響計算結果。

      random_state為隨機種子,這里的參數(shù)值為666,為了方便對比,不會因為訓練集所選的數(shù)據(jù)不一樣影響結果。

      max_samplessplit=4,所需的最少樣本數(shù)量作為分割內部節(jié)點,經(jīng)調試,等于4時效果最好。

      max_depth= 45,樹的最大深度,防止過擬合,該超參數(shù)力45時效果最好。

      經(jīng)過調節(jié)這些參數(shù)后計算出MAE= 2563.3151。

      f三)AdaBoost

      同樣的在Python中的sklearn中使用AdaBoost算法,其調整的參數(shù)類似與隨機森林,因為兩種算法都是以決策樹為基礎,參數(shù)意義基本相同。需要調節(jié)的主要參數(shù)。

      maxdepth= 15,樹的深度,防止過擬合,在此算法中,該超參數(shù)為15時效果最好。

      maxsamples_split=4,參數(shù)意義同隨機森林。

      random_state= 666,參數(shù)意義同隨機森林。

      n_estimators參數(shù)意義同隨機森林,默認值為10,經(jīng)過不斷調試,n estimators= 480時,MAE達到較好的效果。

      最后輸出的MAE= 2524.6871。

      (四)XC.Boost

      在Python中,使用XCBoost建模,其主要超參數(shù)。

      min_child_weight是最小葉子節(jié)點樣本的權重和。xc-Boost是這個參數(shù)是最小樣本權重的和,而CBM是最小樣本和,這個參數(shù)用于避免過擬合。min_childweight=6時MAE達到較好的效果。

      gamma是算法在節(jié)點分裂的時候,當分裂后損失函數(shù)的值下降了,才能分裂這個節(jié)點。Gamma指出節(jié)點分裂所用最小損失函數(shù)下降值。這個參數(shù)越大,算法相對保守。Gamma=0.1,效果最好。

      colsample_bylevel用來控制決策樹的每級的每次分裂,對列數(shù)特征的采樣的占比,colsample_bylevel=0.9時效果較好。

      lamhda權重的L2正則化項(Ridge regression類似)。參數(shù)是用來控制XCBoost的正則化部分,防止過擬合,lamhda=l時效果較好。

      最后輸出MAE= 2861.4871。

      (五)模型評估

      在使用集成學習算法構建成的模型,使用隨機森林建立起的模型進行估價,將會存在2563元左右的誤差,使用AdaBoost算法建立的模型,對該二手房數(shù)據(jù)的擬合更高,得到更好的估價模型。

      經(jīng)過調試三個模型,AdaBoost的模型效果比隨機森林和XCBoost更好,相對于武漢市二手房均價20000元/平方米的價格,AdaBoost的模型預測誤差MAE在2500元左右,是均價的12.6%左右,該模型可以對武漢市二手房做大致的估價(如表2所示)。

      三、結果與展望

      (一)分析總結

      本文通過對從鏈家網(wǎng)獲取的2985條武漢市二手房交易數(shù)據(jù)進行探索、集成學習的方式建立估價模型,得到以下結論。

      第一,從變量來看,房子的區(qū)域、大小、建造年份對價格影響比較大。武昌、江漢等區(qū)域二手房房價相對較高,江夏、蔡甸等區(qū)域則相反:房價每平方米的價格大概是20000元左右,面積普遍都在200平方米以下,位于高樓層,樓型為板樓,社區(qū)有電梯、建筑時問在2000年以后等特點。

      第二,對于二手房價格估價模型,集成學習優(yōu)勢高于單個算法建立的模型,在隨機森林、AdaBoost、XCBoost這三個模型中,AdaBoost擬合效果最好,能更好地對二手房進行估價。

      第三,在房地產估價中,人T-智能以及機器學習的介入,可以幫助該行業(yè)迅速發(fā)展。當二手房中介建立估價模型時,應當使用大量二手房交易數(shù)據(jù),信息越詳細通過機器學習訓練出來的模型,才能更準確地對房價進行估算。

      (二)研究的不足與展望

      本文不足主要在數(shù)據(jù)獲取方面,首先,因為計算機性能、軟件、二手房網(wǎng)站信息不全等方面的影響,收集到的數(shù)據(jù)較少,缺失較大,信息不詳細,用于建模的數(shù)據(jù)噪音較大,以至于影響最后結果。其次,沒有在文本挖掘方面提取其他信息,比如是否靠近地鐵,是否是學區(qū)房等因素。最后,二手房市場的價格容易受政策的干預,應該進一步考慮到政策的影響。

      參考文獻:

      [1]吳姍撕.基于BP神經(jīng)網(wǎng)絡的南京市房價預測[J].市場周刊.2016.

      [2]袁秀芳,鄭伯川,焦偉超.基于SVR的上海市商品房價格預測『J].西華師范大學,2016.

      [3]霍妹宇,王春萍,史朝陽.基于聚類分析技術的昆明二手房源價格分析[J].中國集體經(jīng)濟,2016.

      [4]王智超.基于數(shù)據(jù)挖掘的房價預測分析[J].四川大學.2017.

      [5]劉冰,金躍強,王書營.南京市二手房房價影響因素的多元線性回歸分析[J].南京工業(yè)技術學院,2017.

      猜你喜歡
      集成學習隨機森林
      基于局部有效性的選擇性決策樹集成
      基于集成學習的高送轉股票研究
      時代金融(2016年36期)2017-03-31 05:44:10
      基于稀疏編碼器與集成學習的文本分類
      基于屬性權重的Bagging回歸算法研究
      隨機森林在棉蚜蟲害等級預測中的應用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預報的隨機森林模型及應用
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于改進的LogitBoost算法的垃圾網(wǎng)頁檢測研究
      科技視界(2015年27期)2015-10-08 11:01:28
      基于隨機森林算法的B2B客戶分級系統(tǒng)的設計
      酉阳| 双江| 德保县| 眉山市| 宜章县| 巍山| 繁峙县| 凉城县| 滦平县| 洛川县| 石门县| 唐海县| 志丹县| 洪泽县| 南城县| 华蓥市| 阿拉善盟| 宜州市| 许昌县| 惠安县| 海林市| 屏东县| 宽城| 瑞丽市| 莲花县| 依安县| 葫芦岛市| 唐河县| 迁西县| 林州市| 五峰| 昭通市| 隆安县| 收藏| 阜康市| 新龙县| 淮滨县| 绥德县| 娄底市| 柳林县| 江达县|