• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)的XGBoost模型在短租房?jī)r(jià)格預(yù)測(cè)中的應(yīng)用

      2021-04-28 00:52:10穆新宇
      關(guān)鍵詞:房主房源位數(shù)

      鄭 列, 穆新宇

      (湖北工業(yè)大學(xué)理學(xué)院, 湖北 武漢 430068)

      在線短租房得到了空前的發(fā)展,并催生了途家、小豬、榛果民宿等知名短租平臺(tái)[1]。從公開信息出發(fā),建立在線短租房的價(jià)格預(yù)測(cè)模型,有助于在線短租產(chǎn)業(yè)的發(fā)展。XGBoost模型自提出以來備受關(guān)注,不僅眾多學(xué)者對(duì)其展開深入研究與改進(jìn)[2-3],而且在工業(yè)界取得了不錯(cuò)的成果[4-5]。相較于傳統(tǒng)統(tǒng)計(jì)模型,XGBoost無論在分類還是回歸問題中均能取得較好效果,但是其解釋性相對(duì)較差,不利于實(shí)際問題的具體分析。為解決這一弊端,本文在使用XGBoost預(yù)測(cè)短租房?jī)r(jià)格時(shí),考慮先使用傳統(tǒng)統(tǒng)計(jì)模型對(duì)問題做出較好的解釋,再挑選表現(xiàn)較佳的變量構(gòu)建預(yù)測(cè)模型。該模型能夠?yàn)樾录尤攵套馄脚_(tái)的房源提供具有參考價(jià)值的定價(jià)范圍,也能夠幫助短租平臺(tái)監(jiān)管房源價(jià)格的異常情況,并及時(shí)做出調(diào)整,營造出公平合理的短租商業(yè)氛圍。

      1 數(shù)據(jù)來源及預(yù)處理

      1.1 數(shù)據(jù)來源

      本文的研究數(shù)據(jù)來源于阿里云天池大數(shù)據(jù)競(jìng)賽[6],該數(shù)據(jù)是Airbnb公司于2019年4月17日公開的北京地區(qū)房源數(shù)據(jù)集。Airbnb是全球知名的民宿短租平臺(tái),其房源范圍覆蓋191個(gè)國家和地區(qū),以Airbnb平臺(tái)的數(shù)據(jù)研究相關(guān)問題具有重要的參考價(jià)值。目前,在線短租業(yè)務(wù)主要分布在一線和省會(huì)城市,北京作為首都具有代表性,以其房源信息作為研究對(duì)象相對(duì)合理。

      原始數(shù)據(jù)集包含28452個(gè)樣本和106個(gè)屬性,每一個(gè)樣本對(duì)應(yīng)一個(gè)房源,而每一個(gè)屬性代表房源的一個(gè)特征,不過該數(shù)據(jù)集并未指定哪一個(gè)屬性作為研究目標(biāo),因此為相關(guān)問題的研究提供了更多的可能性。本文擬研究在線短租房的價(jià)格影響因素及其預(yù)測(cè)模型,故將price屬性作為目標(biāo)變量,其原始值為數(shù)值型,表示房源的價(jià)格,而將其它屬性作為房源的固有特征,其中包括數(shù)值型、分類型和文本型,主要涉及房源基本情況、房主情況和房客評(píng)價(jià)等方面。

      1.2 數(shù)據(jù)預(yù)處理

      在原始數(shù)據(jù)集中,存在缺失值和異常值,需要進(jìn)行適當(dāng)?shù)臄?shù)據(jù)清洗,對(duì)于缺失值一般采用樣本填充法或?qū)傩詣h除法,如果某一屬性的缺失值比例不大,那么會(huì)選擇對(duì)有缺失值的樣本進(jìn)行填充,數(shù)值型數(shù)據(jù)采用均值填充,分類型數(shù)據(jù)采用眾數(shù)填充,文本型數(shù)據(jù)暫不填充,而如果某一屬性的缺失值比例較大,那么會(huì)選擇刪除該屬性對(duì)應(yīng)的所有數(shù)值。對(duì)于異常值的處理一般采用樣本刪除法,異常值會(huì)對(duì)后續(xù)分析產(chǎn)生很大干擾,可以根據(jù)3σ原則進(jìn)行識(shí)別,進(jìn)而刪除存在異常值的樣本。本文數(shù)據(jù)預(yù)處理的最終樣本量為23364,保留屬性有82個(gè)。

      2 特征體系構(gòu)建

      在線短租房是一種新興產(chǎn)業(yè),其發(fā)展模式介于傳統(tǒng)酒店與傳統(tǒng)租房之間,所以在研究短租房?jī)r(jià)格的影響因素時(shí),既要借鑒對(duì)傳統(tǒng)酒店價(jià)格的研究,又要考慮短租房自身的特點(diǎn)。

      本文查閱多篇有關(guān)短租房?jī)r(jià)格的文獻(xiàn)[7-9],綜合多個(gè)方面對(duì)短租房?jī)r(jià)格的影響因素構(gòu)建了合理的特征體系。特征體系包括5個(gè)類別,分別為房源的基礎(chǔ)設(shè)施、房源的基本屬性、房主的基本情況、在線預(yù)定規(guī)則和房客的評(píng)論情況,共計(jì)23個(gè)變量,其詳細(xì)的名稱和含義見表1。

      表1 短租房?jī)r(jià)格及其影響因素的描述

      從表1可以看出,5類特征涵蓋了房源、房主和房客三個(gè)方面的信息,考慮的影響因素比較全面,而且23個(gè)變量中有11個(gè)數(shù)值型變量,12個(gè)二分類型變量。二分類型變量主要通過短租平臺(tái)的在線信息獲取,體現(xiàn)了短租產(chǎn)業(yè)以互聯(lián)網(wǎng)為重要媒介的特點(diǎn)。

      3 影響因素分析

      在線短租房的價(jià)格會(huì)受很多因素的影響,為了清楚地了解各影響因素對(duì)價(jià)格的影響程度和方向,需要建立合適的模型進(jìn)行分析,本文主要采用傳統(tǒng)統(tǒng)計(jì)模型中的OLS回歸與分位數(shù)回歸,其中OLS回歸可以分析各因素對(duì)房源價(jià)格的綜合影響情況,分位數(shù)回歸可以分析各因素對(duì)不同價(jià)位房源的影響情況。

      3.1 OLS回歸

      OLS回歸,即最小二乘回歸,它會(huì)將誤差的平方和最小化,以此確定目標(biāo)變量與影響因素之間的最佳線性關(guān)系,是各個(gè)學(xué)科研究中普遍使用的標(biāo)準(zhǔn)統(tǒng)計(jì)模型,其模型表達(dá)式為

      yi=β0+β1xi+εi

      (1)

      其中:yi被稱作因變量;xi被稱作自變量;β0,β1是需要用最小二乘法確定的參數(shù),也被稱作回歸系數(shù);εi被稱作隨機(jī)誤差項(xiàng)。

      使用OLS回歸要求數(shù)據(jù)必須滿足以下統(tǒng)計(jì)假設(shè):①正態(tài)性,即對(duì)于固定的自變量值,因變量值成正態(tài)分布;②獨(dú)立性,即個(gè)體之間相互獨(dú)立;③線性相關(guān),即因變量和自變量之間是線性相關(guān)的;④同方差性,即因變量的方差不隨自變量的水平不同而變化,也就是說因變量的方差是恒定的。

      OLS回歸因其思路簡(jiǎn)單、方便實(shí)現(xiàn)等特點(diǎn),在各個(gè)學(xué)科廣泛應(yīng)用,不過它主要關(guān)注各影響因素與目標(biāo)變量的條件均值之間的關(guān)系,沒有充分考慮目標(biāo)變量條件分布的整體性。

      3.2 分位數(shù)回歸

      為了彌補(bǔ)OLS回歸的局限性,18世紀(jì)中期Boscovich首次提出中位數(shù)回歸,在此基礎(chǔ)上,Roger Koenker與Gilbert Bassett在1978年提出更具一般性的分位數(shù)回歸,其模型表達(dá)式為

      yi=β0(p)+β1(p)xi+εi(p)

      (2)

      其中,0

      yi在特定值xi下的第p條件分位數(shù)為Q(p)(yi|xi)=β0(p)+β1(p)xi,由此可知該模型要求誤差項(xiàng)的第p分位數(shù)等于0[10]。

      分位數(shù)回歸一般用來研究自變量與因變量的條件分位數(shù)之間的關(guān)系,得到的模型可以用前者來估計(jì)后者。它不是僅分析因變量的條件期望,而是比較全面地解釋因變量的條件分布。

      和OLS回歸相比,分位數(shù)回歸的使用條件更加寬泛,所獲得的信息量更多,能夠捕捉到條件分布形狀對(duì)因變量的影響,可以全面地表現(xiàn)分布的情況,而且回歸系數(shù)的估計(jì)更加穩(wěn)健。

      3.3 回歸結(jié)果與分析

      Python是一門簡(jiǎn)潔易懂的編程語言,其中有專門用于統(tǒng)計(jì)分析的封裝庫,對(duì)于統(tǒng)計(jì)分析非常方便,通過輸入相關(guān)數(shù)據(jù)可以對(duì)在線短租房的價(jià)格及其影響因素做OLS回歸與分位數(shù)回歸,其中所選分位數(shù)依次為0.1、0.25、0.5、0.75和0.9,兩種結(jié)果的對(duì)比情況如表2所示。

      表2 OLS回歸與分位數(shù)回歸結(jié)果對(duì)比

      由表2可見,所有因素在OLS回歸中均顯著,但在分位數(shù)回歸中有個(gè)別因素不顯著。通過這些結(jié)果不僅可以分析每個(gè)因素對(duì)于房源價(jià)格的影響情況,還可以針對(duì)不同價(jià)位的房源給出不同的解釋。

      從房源的基礎(chǔ)設(shè)施來看,浴室數(shù)、臥室數(shù)、床數(shù)和可容納人數(shù)無論在OLS回歸中還是分位數(shù)回歸中均較為顯著,并且在分位數(shù)回歸中,分位數(shù)越大各因素對(duì)價(jià)格的影響程度越大。浴室數(shù)、臥室數(shù)和可容納人數(shù)對(duì)價(jià)格的回歸系數(shù)是正值,所以這些因素的值越大,房源的價(jià)格越高,而床數(shù)對(duì)價(jià)格的回歸系數(shù)是負(fù)值,說明房源的床數(shù)越多價(jià)格反而越低,這很可能是房主為吸引對(duì)價(jià)格敏感的房客而采用的營銷策略,試圖通過提供更多的入住機(jī)會(huì)來降低價(jià)格。

      從房源的基本屬性來看,是否精確定位和房產(chǎn)是否為公寓在低分位數(shù)回歸時(shí)沒有通過顯著性檢驗(yàn),說明這兩個(gè)特征對(duì)低價(jià)房源的價(jià)格并無顯著影響,不過在高分位數(shù)回歸中隨著分位數(shù)的增大對(duì)價(jià)格的影響程度遞增,且均為負(fù)向影響。其它因素在OLS回歸與分位數(shù)回歸中均較為顯著,且為正向影響,其中經(jīng)營時(shí)間越長價(jià)格會(huì)越高,說明房主在經(jīng)營經(jīng)驗(yàn)的基礎(chǔ)上可以打造出更有特色、更可靠的房源,另外,房源是否為整租對(duì)中等價(jià)位房源的價(jià)格影響程度最大,而是否在市區(qū)對(duì)高價(jià)房源的影響程度最大。

      從房主的基本情況來看,房主的身份是否通過驗(yàn)證在低分位數(shù)回歸時(shí)沒有通過顯著性檢驗(yàn),說明它對(duì)低價(jià)房源的價(jià)格并無顯著影響,因?yàn)榈蛢r(jià)房源的安全性要稍微低一些,房客不會(huì)過于關(guān)注房主的身份情況。房主擁有的房源數(shù)越多價(jià)格越高,說明此類房源的房主可能是從事短租產(chǎn)業(yè)的專業(yè)房主,可以給房客提供更好的服務(wù)。另外,超贊房主擁有和專業(yè)房主同樣的經(jīng)營優(yōu)勢(shì),房源價(jià)格自然會(huì)較高。

      從在線預(yù)定規(guī)則來看,是否有入住規(guī)則和是否可以隨時(shí)預(yù)定對(duì)中等價(jià)格房源的影響較為明顯,而是否需要清潔費(fèi)則對(duì)中等價(jià)位房源的價(jià)格無明顯影響。另外,需要押金的房源價(jià)格更高,說明此類房源的設(shè)施和服務(wù)應(yīng)該較好,價(jià)格自然攀升,而額外加人需要另收費(fèi)的房源價(jià)格較低,說明此類房源更傾向于按人數(shù)收費(fèi)。房源的最少入住天數(shù)越多價(jià)格越低,說明房主傾向于將房源租給長期房客,可以減少服務(wù)和溝通成本。

      從房客的評(píng)論情況來看,評(píng)論天數(shù)對(duì)于低價(jià)房源的價(jià)格影響不顯著,最近一年的評(píng)論數(shù)對(duì)于房源價(jià)格的整體影響均比較顯著。不過兩者對(duì)于房源價(jià)格的影響都是負(fù)向的,當(dāng)評(píng)論數(shù)和評(píng)論天數(shù)增加時(shí)房源價(jià)格會(huì)下降,評(píng)論數(shù)在一定程度上能夠反映房源的預(yù)定量,說明房主傾向于采用薄利多銷的經(jīng)營方式。

      4 價(jià)格預(yù)測(cè)模型

      房屋的價(jià)格預(yù)測(cè)有很多經(jīng)典的預(yù)測(cè)模型,但是在線短租房與傳統(tǒng)房屋在價(jià)格預(yù)測(cè)方面存在諸多不同,其中最主要的不同在于影響因素,模型的選擇也會(huì)產(chǎn)生差異。隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,目前傾向于選擇新穎的模型來解決問題。

      本文挑選出OLS回歸和分位數(shù)回歸中均有較強(qiáng)顯著性的因素來構(gòu)建價(jià)格預(yù)測(cè)模型,最終選取的是除is_location_exact、property_type_is_apart、host_identity_verified、instant_bookable和review_days5個(gè)之外的18個(gè)因素,主要采用XGBoost模型預(yù)測(cè)房源價(jià)格,并與線性回歸模型的效果作比較,可以突出XGBoost在未調(diào)參與調(diào)參后的預(yù)測(cè)精度,最后通過XGBoost算法給出所有特征的重要性排序。

      4.1 XGBoost模型

      XGBoost算法是對(duì)GBDT算法的改進(jìn)。原始的GBDT只利用了一階的導(dǎo)數(shù)信息,而XGBoost則是對(duì)損失函數(shù)進(jìn)行二階泰勒展開,并在損失函數(shù)之外加入了正則項(xiàng),可以針對(duì)整體計(jì)算最優(yōu)解,用來衡量損失函數(shù)的下降以及模型的復(fù)雜度,避免過擬合,提高了模型的求解效率。XGBoost算法的基本原理如下。

      (3)

      由于在第t輪迭代時(shí)t-1輪的預(yù)測(cè)結(jié)果固定,模型目標(biāo)函數(shù)的設(shè)定僅需考慮預(yù)測(cè)函數(shù)ft(xi),求解模型參數(shù)時(shí)最小化為如下目標(biāo)函數(shù):

      S(t)(β)=L(β)+D(ft)+C

      (4)

      其中,

      (5)

      (6)

      式(4)-(6)中:L(β)是測(cè)度模型擬合程度的損失函數(shù),D(ft)是測(cè)度模型復(fù)雜程度的正則化項(xiàng),C是常數(shù)項(xiàng);l(·)是測(cè)度樣本預(yù)測(cè)準(zhǔn)確性的損失函數(shù);T是決策樹葉子節(jié)點(diǎn)數(shù),ωj是葉子節(jié)點(diǎn)對(duì)應(yīng)的預(yù)測(cè)結(jié)果,γ和λ是對(duì)應(yīng)的調(diào)整系數(shù)。將損失函數(shù)泰勒展開至二次項(xiàng),利用貪婪算法或其它算法可以求解模型的參數(shù)[11]。

      XGBoost能夠獲得青睞,取決于其優(yōu)越性:1)支持二階泰勒展開式,不僅能夠增加精度,而且方便自定義損失函數(shù);2)損失函數(shù)中添加正則項(xiàng),能夠控制模型的復(fù)雜度,防止發(fā)生過擬合現(xiàn)象,使訓(xùn)練出來的模型相對(duì)簡(jiǎn)潔;3)允許列抽樣,既能夠防止過擬合,又能夠簡(jiǎn)化計(jì)算;4)支持并行計(jì)算,靈活性很強(qiáng)。

      4.2 模型建立與調(diào)參

      本文使用Python語言實(shí)現(xiàn)XGBoost算法。首先將預(yù)處理后的數(shù)據(jù)集23364個(gè)樣本以7∶3的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集,接著構(gòu)建XGBoost模型,然后使用網(wǎng)格搜索法對(duì)模型進(jìn)行調(diào)參,最后根據(jù)評(píng)價(jià)指標(biāo)選擇較優(yōu)的模型。

      建模過程中的調(diào)參環(huán)節(jié)本質(zhì)上是一個(gè)優(yōu)化過程,可以使用隨機(jī)搜索法、網(wǎng)格搜索法、遺傳算法等。本文選擇的網(wǎng)格搜索法需要給定參數(shù)的若干個(gè)值,然后將各參數(shù)的可能值進(jìn)行排列組合,并將各組參數(shù)用來訓(xùn)練模型,同時(shí)采用交叉驗(yàn)證的方式評(píng)估各種組合的表現(xiàn),選取效果最好的組合作為最優(yōu)參數(shù)。

      XGBoost算法建模時(shí)共有三類參數(shù):常規(guī)參數(shù)、基礎(chǔ)模型參數(shù)和學(xué)習(xí)任務(wù)參數(shù)[12],本文研究過程中對(duì)常規(guī)參數(shù)全部選擇默認(rèn)。由于研究目標(biāo)最終可以歸結(jié)為一個(gè)回歸問題,所以學(xué)習(xí)任務(wù)參數(shù)里的objective參數(shù)需要設(shè)置為“reg:linear”,其他選擇默認(rèn)即可,而基礎(chǔ)模型參數(shù)是對(duì)模型效果影響較大的部分,也是調(diào)參的重點(diǎn)。本文根據(jù)各參數(shù)在模型中的重要性依次調(diào)節(jié),結(jié)果見表3。

      表3 XGBoost建模調(diào)參結(jié)果

      4.3 模型評(píng)價(jià)

      模型的好壞需要根據(jù)評(píng)價(jià)指標(biāo)來評(píng)判,對(duì)于任何問題而言都沒有最優(yōu)的模型,但是可以在已有的模型中選擇較優(yōu)的那一個(gè)。在回歸預(yù)測(cè)問題中有一些常用的評(píng)價(jià)指標(biāo),比如:平均絕對(duì)誤差(MAE)、均方誤差(MSE)和擬合優(yōu)度(R2),它們的計(jì)算公式分別如下:

      (7)

      (8)

      (9)

      本文為了清楚地表現(xiàn)XGBoost模型的預(yù)測(cè)精度,與線性回歸模型進(jìn)行了對(duì)比,驗(yàn)證集上各指標(biāo)對(duì)比結(jié)果(表4)。

      表4 各回歸模型的預(yù)測(cè)精度對(duì)比

      由表4可知,利用線性回歸模型對(duì)在線短租房的價(jià)格進(jìn)行預(yù)測(cè)時(shí)精度較低,其R2值僅為0.38,而XGBoost模型在未調(diào)參時(shí)R2值可以達(dá)到0.50,通過網(wǎng)格搜索法調(diào)參可以達(dá)到0.60,而且MAE和MSE的值在XGBoost模型中也明顯下降,可見XGBoost模型相較于線性回歸模型來說,擬合效果得到了較大提升。圖1展示了XGBoost模型中各特征的重要性排序。

      通過圖1可以看出,在眾多影響因素中,浴室數(shù)和是否在市區(qū)對(duì)房源的價(jià)格影響最大,是否為整租、可容納人數(shù)和臥室數(shù)對(duì)房源的價(jià)格影響也比較大,可見房源的基礎(chǔ)設(shè)施和基本屬性對(duì)房源價(jià)格起著決定性作用。房東的基本情況、在線預(yù)訂規(guī)則和房客的評(píng)價(jià)信息雖然對(duì)房源價(jià)格有影響,但不會(huì)構(gòu)成主導(dǎo)因素,不過在擁有同等房源的情況下,房主提高這些軟實(shí)力必然會(huì)取得較好的收益。

      圖 1 XGBoost模型中各特征的重要性排名

      5 結(jié)束語

      本文通過OLS回歸和分位數(shù)回歸對(duì)短租房?jī)r(jià)格的影響因素展開研究,借鑒了傳統(tǒng)的分析手段,解釋性比較好,接著使用相比于線性回歸模型精確度更高、更優(yōu)越的XGBoost構(gòu)建價(jià)格預(yù)測(cè)模型,當(dāng)然還有其他機(jī)器學(xué)習(xí)算法值得探索。另外,在模型調(diào)參這個(gè)環(huán)節(jié)也有繼續(xù)研究的必要。本文使用的網(wǎng)格搜索法比較費(fèi)時(shí),得到的是局部最優(yōu)值,可以考慮使用其他優(yōu)化算法進(jìn)行調(diào)參,提高建模效率。

      猜你喜歡
      房主房源位數(shù)
      看門的小狗
      如何識(shí)別網(wǎng)上假房源
      五次完全冪的少位數(shù)三進(jìn)制展開
      從一句廣告詞看房地產(chǎn)經(jīng)紀(jì)的本質(zhì)
      在線民宿首次出租間隔時(shí)長影響因素研究
      ——基于信號(hào)理論視角
      為你的道歉負(fù)責(zé)
      為你的道歉負(fù)責(zé)
      愛你(2019年21期)2019-06-21 02:31:40
      適可而止
      遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
      “判斷整數(shù)的位數(shù)”的算法分析
      河南科技(2014年11期)2014-02-27 14:09:41
      栖霞市| 虎林市| 冕宁县| 神农架林区| 铜陵市| 布拖县| 阳曲县| 饶河县| 大渡口区| 叶城县| 彭水| 西乌| 兴海县| 页游| 元朗区| 城市| 城步| 西畴县| 潞西市| 新龙县| 陆丰市| 垦利县| 鲁山县| 集贤县| 措勤县| 太白县| 西充县| 韶山市| 商城县| 德州市| 长泰县| 靖边县| 于都县| 珲春市| 伊宁县| 汕尾市| 竹北市| 临沂市| 自治县| 古交市| 桦南县|