• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于XGBoost和LightGBM模型的房屋租賃價(jià)格研究

      2023-05-10 13:49:12胡國(guó)華
      中國(guó)市場(chǎng) 2023年10期

      摘?要:堅(jiān)持“房住不炒”原則,建立“租購(gòu)并舉”的住房制度,是保持房地產(chǎn)市場(chǎng)平穩(wěn)健康發(fā)展的重要舉措。文章利用LightGBM模型和XGBoost模型對(duì)月租金進(jìn)行預(yù)測(cè),結(jié)果顯示LightGBM模型的建模效果最好,并且預(yù)測(cè)后系統(tǒng)會(huì)自動(dòng)計(jì)算得分,可靠性更高。同時(shí)發(fā)現(xiàn)影響住房月租金的關(guān)鍵因素主要包括房屋面積、小區(qū)所在商圈位置、房屋距離地鐵的距離、房屋所在建筑的總樓層數(shù)和小區(qū)房屋出租數(shù)量等。

      關(guān)鍵詞:XGBoost模型;LightGBM模型;住房租金

      中圖分類號(hào):F274????文獻(xiàn)標(biāo)識(shí)碼:A?文章編號(hào):1005-6432(2023)10-0143-04

      DOI:10.13939/j.cnki.zgsc.2023.10.143

      1?引言

      據(jù)北京市統(tǒng)計(jì)年鑒數(shù)據(jù)顯示,北京市常住人口為2170.5萬(wàn)人,其中租住人口738萬(wàn),占比為34%。北京市常住外來(lái)人口約22.6萬(wàn)人,占常住人口的37.9%,其中大多數(shù)通過(guò)租賃住房解決居住問(wèn)題。住房租賃市場(chǎng)將在我國(guó)社會(huì)經(jīng)濟(jì)的發(fā)展中扮演重要角色,住房租金問(wèn)題也一直是研究人員關(guān)注的焦點(diǎn)?,F(xiàn)有研究文獻(xiàn)主要集中關(guān)注住房租賃制度和租金影響因素。在房屋租賃的相關(guān)研究中,魏凌、成立[1]提出中國(guó)房屋租賃市場(chǎng)將長(zhǎng)期保持多元市場(chǎng)結(jié)構(gòu),市場(chǎng)經(jīng)濟(jì)之公平與效率原則彼此分離。劉芮[2]指出中國(guó)房屋租賃制度存在承租人之優(yōu)先購(gòu)買權(quán)無(wú)法提現(xiàn)以及房屋租賃合同期限限制等短板。邵挺[3]在分析中國(guó)房屋租賃市場(chǎng)現(xiàn)狀之基礎(chǔ)上,指出出租房源供求不匹配、機(jī)構(gòu)化發(fā)展不完善、市場(chǎng)秩序混亂、立法遲滯等困境,并提出建立完善相關(guān)配套制度和政策的建議。

      伴隨城市化進(jìn)程的推進(jìn),房?jī)r(jià)的飛漲和租賃住房賣方市場(chǎng)的到來(lái)也是必經(jīng)之路。合理的租金價(jià)格對(duì)保護(hù)住房市場(chǎng)和國(guó)民經(jīng)濟(jì)的發(fā)展具有特殊的影響。因此,胡曉龍、邱知奕[4]深入分析目標(biāo)群體住房短板問(wèn)題與原因,以優(yōu)化解決方法。預(yù)測(cè)出租房屋租金的常用方法有多元回歸[5-6]、主成分分析和時(shí)間序列模型[7]。大數(shù)據(jù)時(shí)代下可利用平臺(tái)對(duì)事件數(shù)據(jù)進(jìn)行密度采樣,精確獲取事件全局?jǐn)?shù)據(jù)。并采取批處理方式集中計(jì)算或流處理方式實(shí)時(shí)計(jì)算,通過(guò)對(duì)歷史數(shù)據(jù)的分析進(jìn)行預(yù)測(cè)分析。文章選擇了LightGBM與XGBoost模型[8-11],在處理回歸任務(wù)數(shù)據(jù)的預(yù)測(cè)模型上具有優(yōu)勢(shì),通過(guò)爬取的租房市場(chǎng)數(shù)據(jù)與此兩種算法模型,幫助租賃雙方深層次挖掘出影響房屋租金的關(guān)鍵要素。

      2?模型建立

      文章使用Pearson相關(guān)系數(shù)和隨機(jī)森林進(jìn)行特征提取,并運(yùn)用LightGBM模型、XGBoost模型對(duì)數(shù)據(jù)進(jìn)行分析,最后以均方根誤差作為評(píng)價(jià)標(biāo)準(zhǔn)。相關(guān)系數(shù)可以定量客觀地表達(dá)變量之間的相關(guān)程度,易于操作和使用。因此,在特征選取時(shí)將考慮這種方法。

      2.1?LightGBM模型

      LightGBM是一個(gè)開源、快速、高效的基于決策樹算法的提升框架,支持高效的并行訓(xùn)練。梯度提升(Gradient?Boosting)思想是:一次性迭代變量,迭代過(guò)程中,逐一增加子模型,并保證損失函數(shù)不斷減小。

      梯度提升決策樹GBDT擁有梯度提升(GB)和決策樹(DT)的功能特性,具有訓(xùn)練效果好、不易過(guò)擬合等優(yōu)點(diǎn)。LightGBM模型是GBDT的一種,用于處理海量數(shù)據(jù)問(wèn)題。

      2.2?XGBoost模型

      XGBoost兼具線性規(guī)模求解器和樹學(xué)習(xí)算法,是對(duì)GBDT算法的改進(jìn),效率更高。步驟如下:

      給定數(shù)據(jù)集D={(x,?y):?i=1,?2,?…,?n,?x∈R,?y∈R},其中n為樣本個(gè)數(shù),每個(gè)樣本有P個(gè)特征。假設(shè)給定k個(gè)回歸樹,x表示第i個(gè)數(shù)據(jù)點(diǎn)的特征向量,f是一個(gè)回歸樹,F(xiàn)是回歸樹的集合空間,模型可表示為:

      y—i=∑Kk=1fk(xi)fk∈F(1)

      目標(biāo)函數(shù)定義如下:

      Obj=∑ni=1l(yi,?i)+∑Kk=1Ω(fk)(2)

      式中,?i為預(yù)測(cè)值,?yi為真實(shí)值;?Ω(fk)表示第k棵樹的正則項(xiàng),??Ω(fk)=γT+12w2,?T、?ω、?γ、?λ分別為樹葉子節(jié)點(diǎn)數(shù)、葉子權(quán)重值、懲罰系數(shù)、權(quán)重懲罰系數(shù)。

      2.3?住房租金預(yù)測(cè)建模分析

      首先對(duì)租房數(shù)據(jù)進(jìn)行預(yù)處理,然后使用Python語(yǔ)言建立XGBoost、LightGBM兩模型機(jī)器學(xué)習(xí)算法進(jìn)行網(wǎng)格搜索,最后通過(guò)準(zhǔn)確度預(yù)測(cè)的相較確定最優(yōu)預(yù)測(cè)模型。

      2.4?模型評(píng)價(jià)標(biāo)準(zhǔn)

      實(shí)驗(yàn)采用均方根誤差(RMSE)來(lái)度量預(yù)測(cè)模型的精確度,RMSE計(jì)算結(jié)果越小,預(yù)測(cè)越精準(zhǔn)。假設(shè)N為樣本個(gè)數(shù),Xobs,?i為第i個(gè)樣本實(shí)際值,Xmodel,i為第i個(gè)樣本預(yù)測(cè)值,定義:

      RMSE=1N∑ni=1(Xobs,?i-Xmodel,?i)2(3)

      3?數(shù)據(jù)預(yù)處理與變量選擇

      文章研究從微觀角度分析影響房屋租賃價(jià)格的因素,并分析各個(gè)影響因素與租價(jià)間的關(guān)系。選擇北京鏈家網(wǎng)來(lái)取一個(gè)地方4個(gè)月基本信息和房屋租賃價(jià)格等相關(guān)房屋租賃數(shù)據(jù)。

      將數(shù)據(jù)集結(jié)構(gòu)化后使用移動(dòng)平均法處理缺失值較少的樣本。數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。訓(xùn)練集為收集前3個(gè)月的數(shù)據(jù),共193736項(xiàng)。測(cè)試集為收集第4個(gè)月的數(shù)據(jù)。與訓(xùn)練集相較,測(cè)試集增加了一個(gè)“id”字段和沒(méi)有“月租”的字段,其他字段和訓(xùn)練集并無(wú)不同,共57284項(xiàng)。

      在租房月租金預(yù)測(cè)問(wèn)題中給出了15個(gè)特征和1個(gè)標(biāo)簽值(月租金),對(duì)于給定的特征進(jìn)行詳盡的數(shù)據(jù)分析,為下一步研究奠定基礎(chǔ)。訓(xùn)練集數(shù)據(jù)的缺失情況如表2所示。

      從表2可以看出,房屋裝修檔次缺失值最多,缺失率高達(dá)91.231%。所在區(qū)級(jí)行政單位和所在商圈的缺失值為0.023%與0.016%,相對(duì)較少。此外,表中列出的7個(gè)特征都沒(méi)有缺失數(shù)據(jù)。為了保證數(shù)據(jù)質(zhì)量,需要進(jìn)行數(shù)據(jù)清洗,而對(duì)于測(cè)試集處理方法相同。

      3.1?無(wú)效數(shù)據(jù)的去除

      可以看出訓(xùn)練集與測(cè)試集分別測(cè)試了17個(gè)特征值。其中,居住近況和裝修水平存在大量信息缺席,需要剔除。雖然分類變量住房方向并無(wú)數(shù)據(jù)丟失,但分析表明租金影響不大,機(jī)器學(xué)習(xí)處理更復(fù)雜,故文章選擇排除。

      3.2?補(bǔ)足缺失值與異常值刪除

      文章提供了房屋表面、房間數(shù)量、錯(cuò)誤數(shù)量和浴室數(shù)量之間關(guān)系的間接信息。文章使用決策樹來(lái)執(zhí)行值,到目前為止,對(duì)于17個(gè)特征值,文章僅保留了15個(gè)用于分析。數(shù)據(jù)驗(yàn)證和分析表明:存在違反規(guī)則的異常值,文章根據(jù)現(xiàn)有了解進(jìn)行排除。

      對(duì)于數(shù)據(jù),若去掉明顯變量,分析的流程將無(wú)法顯示。文章把數(shù)據(jù)樣本含M1、M2特征與否作為判別依據(jù),將原始數(shù)據(jù)集切分為5個(gè)數(shù)據(jù)集:數(shù)據(jù)集①剔除M1、M2特征;數(shù)據(jù)集②剔除M1、保留M2特征缺失的數(shù)據(jù);數(shù)據(jù)集③保留M1特征缺失、M2特征不缺失的數(shù)據(jù);數(shù)據(jù)集④保留M1不缺失、M2缺失的數(shù)據(jù);數(shù)據(jù)集⑤保留M1、M2特征都不缺失的數(shù)據(jù)。

      4?計(jì)算過(guò)程與結(jié)果分析

      4.1?準(zhǔn)備工作

      本研究的實(shí)驗(yàn)代碼基于Jupyter?Notebook平臺(tái)通過(guò)Python語(yǔ)言分析并建模。主要針對(duì)使用模型的內(nèi)置函數(shù)提取特征重要性,影響租金的主要特征可借此確定。

      4.2?模型的特征重要度百分比

      4.3?隨機(jī)森林

      表6中分?jǐn)?shù)代表隨機(jī)森林各個(gè)特征的相對(duì)顯著性水平。由于在提取特征時(shí)能夠看到每個(gè)特征的相對(duì)狀態(tài),故只能判斷重要性而無(wú)法判斷該特征是否無(wú)效。通過(guò)分別展示特征大于0.1與因子大于0.05的特征以形成和比較結(jié)果的優(yōu)劣。提取已知變量后,分別建立LightGBM模型和XGBoost模型,最終結(jié)果如表7所示。

      根據(jù)特征提取、模型選擇的方法不同,進(jìn)行組合之后,文章共建立了12個(gè)模型,結(jié)果如表7所示,其中得分為對(duì)模型優(yōu)劣之評(píng)價(jià)標(biāo)準(zhǔn)??砂l(fā)現(xiàn)LightGBM模型得分皆高于XGBoost模型,該得分為提交預(yù)測(cè)結(jié)果之后系統(tǒng)自動(dòng)計(jì)算而得到,高度可信。

      5?結(jié)論

      通過(guò)收集信息可發(fā)現(xiàn)特征M1、M3是影響租金的主要因素;在數(shù)據(jù)集④和包含M3特征(裝修水平、朝向方位、居住狀況、出租方式)的數(shù)據(jù)集中共有5個(gè)特征沒(méi)有顯示,由于M3沒(méi)有顯示該因子的主要特征,且在數(shù)據(jù)集③中,該數(shù)據(jù)集包含M1:房屋附近的地鐵線路和房屋距離地鐵的距離,均位于前列,說(shuō)明關(guān)于地鐵的M1特征也是影響租金的關(guān)鍵因素。XGBoost最低均方根誤差可達(dá)到1.8503;LightGBM最低均方根誤差可達(dá)到1.608。同時(shí)通過(guò)對(duì)三個(gè)預(yù)測(cè)模型中特征重要度排序,識(shí)別出面積因素和地段因素最重要,由此看來(lái)LightGBM模型在對(duì)房屋租賃影響因素的預(yù)測(cè)與評(píng)估中數(shù)據(jù)擬合效果比XGBoost模型更貼切。使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)住房收入旨在減少非必要經(jīng)濟(jì)損失,進(jìn)一步改善住房市場(chǎng)的健康狀況。

      參考文獻(xiàn):

      [1]魏凌,成立.我國(guó)住房租賃制度的發(fā)展與變革[J].城鄉(xiāng)建設(shè),2019(15):14-17.

      [2]劉芮.論中國(guó)住房租賃制度之改革[J].法學(xué)論壇,2019,34(1):136-143.

      [3]邵挺.中國(guó)住房租賃市場(chǎng)發(fā)展困境與政策突破[J].國(guó)際城市規(guī)劃,2020,35(6):16-22.

      [4]胡曉龍,邱知奕.大城市中、低收入高校畢業(yè)生租房影響因素指標(biāo)體系研究[J].南京農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014,14(3):98-104.

      [5]熊遠(yuǎn)南.基于改進(jìn)灰色-多元回歸組合預(yù)測(cè)模型的燃煤電廠智慧水務(wù)研究[J].化工進(jìn)展,2020,39(S2):393-400.

      [6]俞藝融.基于多元線性回歸的房屋租賃價(jià)格基本影響因素研究——以上海市房屋租賃市場(chǎng)為例[J].產(chǎn)業(yè)創(chuàng)新研究,2021(20):79-81.

      [7]商立群,王守鵬.改進(jìn)主成分分析法在火電機(jī)組綜合評(píng)價(jià)中的應(yīng)用[J].電網(wǎng)技術(shù),2014,38(7):1928-1933.

      [8]謝勇,項(xiàng)薇,季孟忠,等.基于XGBoost和LightGBM算法預(yù)測(cè)住房月租金的應(yīng)用分析[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(9):151-155,191.

      [9]張英婕,王洪強(qiáng),徐愉.一線城市房屋租賃價(jià)格影響因素研究——以上海市中心城區(qū)為例[J].價(jià)格理論與實(shí)踐,2020(11):72-75.

      [10]陳熙,張曉博.基于LightGBM的住房租金預(yù)測(cè)分析[J].產(chǎn)業(yè)與科技論壇,2020,19(6):103-105.

      [11]王芳杰,王福建,王雨晨,等.基于LightGBM算法的公交行程時(shí)間預(yù)測(cè)[J].交通運(yùn)輸系統(tǒng)工程與信息,2019,19(2):116-121.

      [基金項(xiàng)目]北方工業(yè)大學(xué)毓優(yōu)人才項(xiàng)目(項(xiàng)目編號(hào):107051360022XN708)。

      [作者簡(jiǎn)介]胡國(guó)華(1999—),男,漢族,北京人,研究方向:數(shù)理統(tǒng)計(jì)、隨機(jī)過(guò)程。

      怀化市| 巴林左旗| 子洲县| 十堰市| 县级市| 望奎县| 杨浦区| 乡城县| 静乐县| 赣州市| 元阳县| 吴忠市| 陵川县| 萨嘎县| 康平县| 罗山县| 蕲春县| 合水县| 汝城县| 凌云县| 张家川| 湖北省| 齐河县| 余江县| 沁水县| 迁安市| 孟津县| 龙门县| 乐业县| 德州市| 社会| 虎林市| 高平市| 星座| 巴塘县| 衢州市| 泌阳县| 盘锦市| 武城县| 乐至县| 集贤县|