• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于集成學習的房價預測模型

      2017-11-14 16:36:28楊博文曹布陽
      電腦知識與技術 2017年29期
      關鍵詞:集成學習隨機森林

      楊博文+曹布陽

      摘要:隨著國民生活水平的提高,人們對房產(chǎn)的需求不斷增加,對房價的關注度也持續(xù)變高。房價作為多指標影響因子,受到很多條件的影響[2-4][11]?,F(xiàn)有房價預測模型多屬于單一預測算法,預測精度不理想,當數(shù)據(jù)噪聲較大時又容易出現(xiàn)過擬合現(xiàn)象。針對這些問題,提出基于集成學習的房價預測模型。選用預測效果較好的Extra Trees,Random Forest,GBDT,XGB算法作為基礎預測模型,分別訓練并對四種基礎模型進行stacking[1][5]集成,最終得到集成學習的房價預測模型。在加州房價數(shù)據(jù)集上試驗表明,本方法相比于單一預測模型能夠有效提高預測的準確率及穩(wěn)定性,證實了本模型的有效性。

      關鍵詞:集成學習;房價預測;極度隨機樹; 隨機森林;GBDT;XGB; Stacking

      中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)29-0191-04

      1 概述

      房地產(chǎn)不僅是國民經(jīng)濟的支柱產(chǎn)業(yè),更和民生問題密不可分,隨著房產(chǎn)越炒越熱,人們對于房價的關注度也持續(xù)變高,因此能夠較為精準地對房價進行預測也變得越來越有意義。房價作為多指標影響因子,不僅受時間,區(qū)域的影響,房屋年齡、附近地理條件、人文、交通等等因素也同樣會對房價產(chǎn)生不同程度的影響?,F(xiàn)有的預測模型多屬于單一預測算法預測,預測精度并不理想,如人工神經(jīng)網(wǎng)絡,當數(shù)據(jù)量不夠龐大時預測效果得不到保證;而簡單的集成模型如隨機森林,當噪音較大時會出現(xiàn)過擬合,對于不同級別的屬性的數(shù)據(jù),級別劃分較多的屬性也會對隨機森林產(chǎn)生很大的影響?;谝陨蠁栴},本研究提出一種基于集成學習的房價預測模型,該模型集成了多個單一集成預測模型,包括極度隨機樹(ET), 隨機森林(RF), GBDT, XGB。利用集成學習方法中的stacking集成方法,首先對數(shù)據(jù)集進行劃分,利用每個預測模型(學習器)對房價特征進行提取并在第一個訓練集分別訓練,在第二個訓練集上測試這幾個學習器,把得到的測試結(jié)果作為輸入,正確回應作為輸出,訓練一個高層學習器作為我們最終的預測模型。實驗采用加州房價數(shù)據(jù)進行訓練與預測,通過不斷訓練和調(diào)參,利用均方誤差對單一預測模型與基于集成學習的房價預測模型進行誤差對比分析,實驗結(jié)果較為理想,證明了本研究方法的有效性和可行性。

      1.1 相關技術及現(xiàn)狀簡介

      本研究主要使用到四種基本預測模型,分別是Extra Trees,RF,GBDT,XGB。但現(xiàn)存的這四種較優(yōu)的預測模型具有優(yōu)點的同時也存在著不足:

      1.1.1 隨機森林模型[7]

      隨機森林是以決策樹為基本單元,通過集成學習的思想將多棵樹集成的一種算法。

      相比于簡單的決策樹,隨機森林有以下幾個優(yōu)點:

      1) 在當前的很多數(shù)據(jù)集上,相比其他算法有很大的優(yōu)勢,表現(xiàn)良好;

      2) 由于特征子集是隨機選擇的,因此它能夠處理很高維度的數(shù)據(jù),并且不用做特征選擇;

      3) 在生成過程中能夠獲得到內(nèi)部生成誤差的一種無偏估計,泛化能力好;

      不足體現(xiàn)在:

      1) 隨機森林在某些噪音較大的分類或回歸問題上會過擬合;

      2) 對于有不同取值的屬性的數(shù)據(jù),取值劃分較多的屬性會對隨機森林產(chǎn)生更大的影響。

      1.1.2 極度隨機樹模型

      Extra Trees, 也叫Extremely Randomized Trees, 是一種決策樹的組合方法。與隨機森林類似,同樣的bootstrap了樣本,隨機選取部分特征來構(gòu)造一棵樹,但相較于隨機森林,極度隨機樹對于劃分點的選擇更為隨機。優(yōu)點體現(xiàn)在:

      1) 相比于標準的隨機森林來說,極度隨機樹使得決策的邊界更加平滑;

      2) 極度隨機樹使用訓練樣本直接構(gòu)建隨機數(shù),對bagging的方式進行了修正,因此,當數(shù)據(jù)噪聲較大或數(shù)據(jù)量較大時極度隨機樹表現(xiàn)要優(yōu)于隨機森林。

      不足體現(xiàn)在:由于樣本劃分點更為隨機,可能存在選取結(jié)果不是最優(yōu)的情況,受數(shù)據(jù)的影響預測結(jié)果有時具有隨機性,容易不穩(wěn)定。

      1.1.3 梯度提升決策樹模型

      GBDT (Gradient Boosting Decision Tree)[8], 是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結(jié)論累加起來做最終答案,被認為是一種泛化能力較強的算法。組成GBDT的樹是回歸樹,因此,GBDT大多用來做回歸預測。

      優(yōu)點明顯:它的非線性變換比較多,表達能力強,而且不需要做復雜的特征工程和特征變換。缺點主要體現(xiàn)在:Boost是一個串行過程,不好并行化,而且計算復雜度高,同時不太適合高維洗漱特征。

      基于以上目前較優(yōu)的預測算法模型的分析,當前模型對于預測大多存在,數(shù)據(jù)量噪聲大時容易過擬合、預測結(jié)果不穩(wěn)定、預測精度低等不足,因此基于這些問題,考慮進行集成學習訓練處一個較優(yōu)的集成預測模型。

      2 集成學習的房價預測模型

      基于集成學習預測模型可以對多特征的單一時間或空間數(shù)據(jù)進行穩(wěn)定的預測。但這里只針對加州房價數(shù)據(jù)進行訓練,使其能夠作為房價預測的一個穩(wěn)定的預測模型。圖1表示了整個實驗的模型訓練及集成過程。

      2.1 數(shù)據(jù)預處理

      本研究采用加州房價數(shù)據(jù)作為模型訓練與檢驗的數(shù)據(jù)集。通過對原始數(shù)據(jù)集進行分析發(fā)現(xiàn),數(shù)據(jù)不僅包括經(jīng)緯度、房屋面積、房屋年齡等這些數(shù)值數(shù)據(jù),還包括是在海岸附近還是內(nèi)地的非數(shù)值數(shù)據(jù);同時數(shù)據(jù)中還存在一些空數(shù)據(jù)。因此在對模型進行訓練之前要首先對數(shù)據(jù)進行清洗,對于選取的特征的非數(shù)值數(shù)據(jù)進行數(shù)值化處理,同時對空數(shù)據(jù)進行替換;處理結(jié)果如表1,表2所示。

      通過清洗好的數(shù)據(jù)進行分析,我們得到了15個屬性特征,由于數(shù)據(jù)集包含20000條左右的數(shù)據(jù),特征太多容易導致預測結(jié)果過擬合,因此還需要對數(shù)據(jù)進行降維處理,以避免過擬合情況的發(fā)生,這里我們采用主成分分析(PCA)的方法對數(shù)據(jù)進行降維。首先構(gòu)建樣本矩陣X, 基于特征維數(shù)及數(shù)據(jù)個數(shù)構(gòu)建一個15*20000的樣本矩陣X=[x1,x2,…,xn]15*20000, 作為樣本;然后,我們求這個樣本的協(xié)方差矩陣C,通過計算求出協(xié)方差矩陣C應該有15個特征值和特征向量,因此我們根據(jù)特征值的大小進行排序并由此調(diào)整特征向量的排布 D =sort(D); V=sort(V); 保留排序最靠前的特征值, 根據(jù)公式計算降維后的新樣本矩陣Y作為最終的訓練樣本。endprint

      2.2 單一預測算法訓練

      本研究基于stacking[9-10]集成學習方法進行集成,因此首先要對選取的ET, RF, GBDT, XGB算 法分別進行訓練,采用四種算法相對應的回歸模型,利用上一步降維后得到的新樣本矩陣Y作為四種算法的訓練樣本進行輸入;我們對數(shù)據(jù)樣本進行了切分,采用總數(shù)據(jù)樣本的99.5%作為訓練集,0.5%作為測試集,以驗證預測結(jié)果的有效性,從而對模型參數(shù)做出調(diào)整以達到各自模型預測的最好效果。通過多次試驗測試對各個模型參數(shù)進行調(diào)整,結(jié)果如表3所預測效果最優(yōu)。

      調(diào)整參數(shù)后對測試集進行預測,并與真實數(shù)據(jù)進行對比,四種模型預測結(jié)果分別如圖2所示。

      通過均方誤差計算各自的損失函數(shù)結(jié)果如表4所示。

      通過損失函數(shù)結(jié)果分析,GBDT和XGB兩種模型的預測效果要優(yōu)于ET和RF。接下來我們將對四種模型進行集成,并用同樣的方法來評估結(jié)果,以證明集成的有效性

      2.3 模型集成及訓練

      在前一節(jié),我們已經(jīng)對選用的四種基本模型進行了訓練,并得到了相應的預測模型及預測結(jié)果,因此,我們在此基礎上對模型進行stacking集成,以得到最終的集成模型。這個訓練過程主要分為兩層:假設給定的樣本數(shù)據(jù)集L包含n個樣本,這里選取的加州房價數(shù)據(jù)包含20000個樣本,即L={{ xi, yi }, i=1,2,…,n }, 其中xi是第i個樣本的特征值通過降維后的條件值,yi是第i個樣本的房價真實值,n=20000, 一共有4個不同算法的學習器。為了防止過擬合的情況,在構(gòu)造第二層數(shù)據(jù)集時采用了交叉驗證的思想,即將原始數(shù)據(jù)集隨機分成數(shù)目大致相等的K個部分L1, L2, … , Lk, 定義Lk和L^-k = L — Lk, k= 1,2, … , k分別為第k折交叉驗證的測試集和訓練集,在訓練集上分別訓練這4個算法,得到4個模型,然后在測試集上進行預測得到預測值,記為Zij, 表示第i個樣本經(jīng)過第j個算法的預測。這個過程重復K次,則原始數(shù)據(jù)集每一個樣本都有t個與之對應的預測值,這些預測值與對應樣本的真實值組成第二層數(shù)據(jù)集Lcv = {( Zi1, Zi2,…, Zit,yi), i = 1,2,…,n}。即集成訓練的訓練集為前一步所有預測結(jié)果與原始樣本真實值組成的新的數(shù)據(jù)集,在Lcv上再次學習得到最終的集成預測模型。

      通過上一節(jié)結(jié)果對比發(fā)現(xiàn)GDBT模型對于預測效果較為理想,因此我們再次選用GDBT作為訓練模型,同樣的也對n_estimators, learning_rate, subsample, verbose等參數(shù)進行調(diào)整并當取得穩(wěn)定最優(yōu)解時作為選取的參數(shù)值,最終得到n_estimators=100, learning_rate=0.05, subsample=0.75, verbose=20時預測結(jié)果最優(yōu)。至此,基于集成學習的房價預測模型訓練并構(gòu)建完成,接下來將對此模型進行評估以驗證其有效性。

      2.4 結(jié)果分析

      與四種基本模型相似,我們同樣做出集成模型在預測集上的預測房價與實際房價的對比圖如圖3所示。

      其中坐標橫軸表示房價各種特征降維后的一維值,縱軸表示房價值;藍色表示實際房價,橙色表示預測房價。由于預測差異細微,通過對比圖不能很直觀地看出集成模型的效果,因此我們依然利用損失函數(shù),通過均方誤差的方法來評估每個模型的預測效果,結(jié)果如表5所示。

      通過均方誤差結(jié)果進行對比分析可以看出,利用集成學習預測模型預測,相比于其他四種基礎的預測模型的預測結(jié)果,均方誤差降低了6.7%左右,預測效果優(yōu)于四種基礎模型中的任意一種。實驗結(jié)果表明,基于集成學習的房價預測模型對于提高房價的預測效果是有效的。

      3 結(jié)論

      本研究提出了一種集成學習的房價預測模型,該模型通過stacking的集成學習方法,集成了ET, RF, GBDT, XGB四種基本的算法,使用加州房價數(shù)據(jù),提取多個有效特征,對目標數(shù)據(jù)降維并分別進行訓練,將各自的預測結(jié)果作為集成模型的輸入進行二次訓練得到最終的預測模型。該模型的優(yōu)點在于可以在一定程度上提高房價的預測效果,并能夠有效避免當數(shù)據(jù)噪聲較大或特征較多時過擬合的情況發(fā)生。相比于其他的預測算法,雖然預測效果不一定在所有情況下都優(yōu)于單一算法預測模型,但通過多算法集成互補的思想極大提高了模型的穩(wěn)定性,通過多次實驗證明其預測效果穩(wěn)定,同時預測精度也較為理想。下一步工作中,將采用更多不同特征數(shù)據(jù)對該模型進行測試,進一步優(yōu)化該集成模型,以提高模型的性能及預測準確度。

      參考文獻:

      [1] 周志華. 機器學習[M].北京:清華大學出版社, 2016.

      [2] 李東月. 房價預測模型的比較研究[J]. 工業(yè)技術經(jīng)濟, 2006, 25(9):65-67.

      [3] 陳世鵬, 金升平. 基于隨機森林模型的房價預測[J]. 科技創(chuàng)新與應用, 2016 (4):52-52.

      [4] Rajan U, Seru A, Vig V. The failure of models that predict failure: Distance, incentives, and defaults[J]. Journal of Financial Economics, 2015, 115(2):237-260.

      [5] Burger E M, Moura S J. Building Electricity Load Forecasting via Stacking Ensemble Learning Method with Moving Horizon Optimization[J]. 2015.

      [6] Chen T, He T. Xgboost: extreme gradient boosting[J]. R package version 0.4-2, 2015.

      [7] 李欣海. 隨機森林模型在分類與回歸分析中的應用[J]. 應用昆蟲學報, 2013, 50(4):1190-1197.

      [8] Liu J, Wu C. A gradient-boosting decision-tree approach for firm failure prediction: an empirical model evaluation of Chinese listed companies[J]. JOURNAL OF RISK MODEL VALIDATION, 2017, 11(2):43-64.

      [9] Sikora R. A modified stacking ensemble machine learning algorithm using genetic algorithms[M]//Handbook of Research on Organizational Transformations through Big Data Analytics. IGI Global, 2015: 43-53.

      [10] Sikora R. A modified stacking ensemble machine learning algorithm using genetic algorithms[M]//Handbook of Research on Organizational Transformations through Big Data Analytics. IGI Global, 2015: 43-53.

      [11] Glaeser E L, Nathanson C G. An extrapolative model of house price dynamics[J]. Journal of Financial Economics, 2017.endprint

      猜你喜歡
      集成學習隨機森林
      基于局部有效性的選擇性決策樹集成
      基于集成學習的高送轉(zhuǎn)股票研究
      時代金融(2016年36期)2017-03-31 05:44:10
      基于稀疏編碼器與集成學習的文本分類
      基于屬性權(quán)重的Bagging回歸算法研究
      隨機森林在棉蚜蟲害等級預測中的應用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預報的隨機森林模型及應用
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      基于改進的LogitBoost算法的垃圾網(wǎng)頁檢測研究
      科技視界(2015年27期)2015-10-08 11:01:28
      基于隨機森林算法的B2B客戶分級系統(tǒng)的設計
      商南县| 兴仁县| 木兰县| 永仁县| 定日县| 云霄县| 乃东县| 南安市| 金秀| 白河县| 绩溪县| 弥渡县| 安宁市| 清涧县| 普兰县| 巴林右旗| 锦屏县| 宜城市| 石首市| 来宾市| 桐梓县| 吉木萨尔县| 鸡泽县| 奉新县| 资兴市| 甘泉县| 吴江市| 来安县| 漳浦县| 务川| 二手房| 合阳县| 平乐县| 南通市| 英山县| 金华市| 辽宁省| 信阳市| 漾濞| 伊川县| 阿合奇县|