• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于決策樹的住房租賃價(jià)格微觀影響因素研究

      2017-06-21 23:58:51范雅靜黃笛
      中國市場 2017年17期
      關(guān)鍵詞:決策樹

      范雅靜+黃笛

      [摘要]隨著我國經(jīng)濟(jì)水平飛速增長,城市間人口流動(dòng)日益頻繁,房屋租賃市場日趨繁榮,房屋的租金也受到越來越多的關(guān)注。而由于互聯(lián)網(wǎng)的發(fā)展,房東與租戶通常會(huì)在網(wǎng)絡(luò)上發(fā)布并獲取信息,因此租房網(wǎng)站中包含豐富的租房信息。文章利用網(wǎng)絡(luò)爬蟲技術(shù)從租房網(wǎng)站收集了北京市各區(qū)域共計(jì)三千余條租房信息,并將住房租賃價(jià)格作為被解釋變量,并選擇6個(gè)微觀因素作為解釋變量,基于特征價(jià)格理論建立決策樹模型,分析影響租房價(jià)格的關(guān)鍵因素,并為住房租賃價(jià)格定價(jià)及預(yù)測提供新的思路。

      [關(guān)鍵詞]住房租賃價(jià)格;微觀影響因素;決策樹

      [DOI]1013939/jcnkizgsc201717037

      1引言

      作為房地產(chǎn)市場體系兩個(gè)必不可少的重要組成部分,租賃市場與買賣市場,與北京市房地產(chǎn)市場的健康平穩(wěn)運(yùn)行有著密切的關(guān)系。持續(xù)提高的城鎮(zhèn)化水平意味著將有相當(dāng)數(shù)量的農(nóng)村剩余勞動(dòng)力及人口轉(zhuǎn)移到城市。北京地區(qū)的高房價(jià)客觀上也使購買商品房需要大量的資金。因此,越來越多的人選擇暫時(shí)放棄購房需求,并將目光由買賣市場轉(zhuǎn)向租賃市場,借助租賃市場將自身的住房需求解決。在此背景下,住房租賃價(jià)格由哪些因素確定成為了學(xué)者關(guān)注的問題。

      目前,已有大量學(xué)者對此進(jìn)行了研究。Marks(1984)用特征價(jià)格指數(shù)對溫哥華租賃住宅數(shù)據(jù)進(jìn)行研究,結(jié)果發(fā)現(xiàn)停車位提供、自動(dòng)洗衣店等相關(guān)變量均顯著影響住宅租金。Guntermannn(1987)的研究表明,游泳池、健身房的存在對租金有著顯著影響。此外,許多學(xué)者將研究重心放在配套設(shè)施對住宅的影響。George(1985)、Sirmans(1990)等則對住房內(nèi)的配套設(shè)施,如電視、洗衣機(jī)等對租金有正方向的影響作用。然而,住宅由于其私密性等問題,傳統(tǒng)的入戶調(diào)查方法成本較高且難以獲得較大數(shù)據(jù)。從國內(nèi)文獻(xiàn)看,學(xué)者大多集中在微觀因素對寫字樓等商用房屋租賃價(jià)格影響的研究。聶沖(2009)研究發(fā)現(xiàn)區(qū)位、建筑、商鋪和租約特征都是購物中心商鋪?zhàn)饨鸬闹匾獩Q定因素,但相對而言,區(qū)位特征最為重要。梁艷(2011)選取深圳市場上能獲得數(shù)據(jù)的四類20個(gè)解釋變量進(jìn)入租金模型。采用特征模型,對深圳市114棟寫字樓的要價(jià)租金均價(jià)進(jìn)行回歸分析,并發(fā)現(xiàn)大部分特征因素對寫字樓租金有顯著影響。全百松(2013)通過構(gòu)建寫字樓特征價(jià)格模型,發(fā)現(xiàn)不同城市發(fā)展水平下的寫字樓租金影響因素在顯著性及影響系數(shù)兩方而表現(xiàn)不同。

      然而,由于住宅私密性等問題,傳統(tǒng)的入戶調(diào)查方法成本較高且難以獲得較大數(shù)據(jù),若要避免入戶問題則只能對寫字樓等開放區(qū)域進(jìn)行調(diào)查。為彌補(bǔ)此缺陷,本文通過網(wǎng)絡(luò)爬蟲技術(shù)獲取到北京市住房租賃價(jià)格相關(guān)數(shù)據(jù),可以在較短時(shí)間內(nèi)獲得豐富的租房微觀數(shù)據(jù)。此外,本文通過建立決策樹模型對北京市住房租賃價(jià)格進(jìn)行分析,可利用決策樹的優(yōu)勢對住房租賃價(jià)格的微觀影響因素進(jìn)行深入分析,從而使各類租房人群能結(jié)合自身對房屋的需求,借助模型估算參考價(jià)格,同時(shí)對當(dāng)?shù)胤康禺a(chǎn)中介機(jī)構(gòu)合理評估住房租賃價(jià)格有一定的參考借鑒意義。

      2理論基礎(chǔ)

      21特征價(jià)格模型理論

      特征價(jià)格模型來源于特征價(jià)格理論。A T Court(1939)首次對汽車價(jià)格進(jìn)行了研究,認(rèn)為汽車價(jià)格是由汽車本身特征決定,并構(gòu)建了汽車價(jià)格指數(shù)。隨后,Lancaster(1966)提出消費(fèi)者偏好理論,認(rèn)為消費(fèi)者購買一個(gè)產(chǎn)品,是由于產(chǎn)品的特征符合消費(fèi)者的需求。Rosen(1974)則完善了Lancaster偏好理論,理論上構(gòu)建了特征價(jià)格供需特征模型,為特征價(jià)格模型奠定了基礎(chǔ)。該理論認(rèn)為,住房價(jià)格是由住房特征帶給人們的效用決定的,由于住宅特征的數(shù)量及組合方式不同,使得房地產(chǎn)的價(jià)格存在差異。因此,本文根據(jù)特征價(jià)格理論對住宅租賃價(jià)格的影響因素分解,分析各因素對房租的影響。

      22決策樹理論

      本文主要采用決策樹方法進(jìn)行建模。決策樹是一種監(jiān)督式的學(xué)習(xí)方法,產(chǎn)生一種類似流程圖的樹結(jié)構(gòu)。決策樹對數(shù)據(jù)進(jìn)行處理是利用歸納算法產(chǎn)生分類規(guī)則和決策樹,再對新數(shù)據(jù)進(jìn)行預(yù)測分析。樹的終端節(jié)點(diǎn)——葉節(jié)點(diǎn)(leaf nodes),表示分類結(jié)果的類別(class),每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)變量的測試,分枝(branch)為測試輸出,代表變量的一個(gè)可能數(shù)值。為達(dá)到分類目的,變量值在數(shù)據(jù)上測試,每一條路徑代表一個(gè)分類規(guī)則。

      在樹的每個(gè)節(jié)點(diǎn)上,使用信息增益選擇測試的變量,信息增益是用來衡量給定變量區(qū)分訓(xùn)練樣本的能力,選擇最高信息增益或最大熵(entropy)簡化的變量,將之視為當(dāng)前節(jié)點(diǎn)的分割變量,該變量促使需要分類的樣本信息量最小,而且反映了最小隨機(jī)性或不純性(impurity)(Han和Kamber,2001)。若某一事件發(fā)生的概率是p,令此事件發(fā)生后所得的信息量為I(p),若p=1,則I(p)=0,因?yàn)槟骋皇录欢〞?huì)發(fā)生,因此該事件發(fā)生不能提供任何信息。反之,如果某一事件發(fā)生的概率愈小,不確定性愈大,則該事件發(fā)生帶來的信息愈多,因此I(p)為遞減函數(shù),并定義I(p)=-log(p)。給定數(shù)據(jù)集S,假設(shè)類別變量A有m個(gè)不同的類別(c1, …, ci, …, cm)。利用變量A將數(shù)據(jù)集分為m個(gè)子集(s1, s2, …, sm),其中si表示在S中包含數(shù)值ci中的樣本。對應(yīng)的m種可能發(fā)生概率為(p1, …, pi, …, pm),因此第i種結(jié)果的信息量為-log(pi),則稱該給定樣本分類所得的平均信息為熵,熵是測量一個(gè)隨機(jī)變量不確定性的測量標(biāo)準(zhǔn),可以用來測量訓(xùn)練數(shù)據(jù)集內(nèi)純度(purity)的標(biāo)準(zhǔn)。熵的函數(shù)表示如下式:

      I(s1, s2, …, sm)=-[DD(]m[]i=1[DD)]pilog2(pi)

      其中pi是任意樣本屬于ci的概率,對數(shù)函數(shù)以2為底,因?yàn)樾畔⒂枚M(jìn)制編碼。變量分類訓(xùn)練數(shù)據(jù)集的能力,可以利用信息增益來測量。算法計(jì)算每個(gè)變量的信息增益,具有最高信息增益的變量選為給定集合S的分割變量,產(chǎn)生一個(gè)節(jié)點(diǎn),同時(shí)以該變量為標(biāo)記,對每個(gè)變量值產(chǎn)生分枝,以此劃分樣本。再根據(jù)變量的不同值建立樹的分枝,每個(gè)分枝子集中重復(fù)建樹的下層結(jié)果和分枝的過程,一直到完成建立整株決策樹。

      3數(shù)據(jù)說明、預(yù)處理與變量選擇

      31數(shù)據(jù)說明

      本文所使用的數(shù)據(jù)來源于58同城網(wǎng)站。58同城(http://58com)作為覆蓋全領(lǐng)域的生活服務(wù)平臺(tái),業(yè)務(wù)覆蓋招聘、房產(chǎn)、汽車、金融、二手及本地生活服務(wù)等各個(gè)領(lǐng)域。其網(wǎng)站內(nèi)含有海量的房產(chǎn)信息,也包括北京市的房屋出租信息。本研究采用C#語言并基于Net框架,建立一個(gè)租房信息采集程序,依據(jù)所設(shè)定的采集方案與規(guī)則,成功地實(shí)現(xiàn)了一定數(shù)量的租房信息自動(dòng)采集,同時(shí)將所采集到租房數(shù)據(jù)持續(xù)地添加到SQL Server數(shù)據(jù)庫中。

      本文隨機(jī)抓取了2015年期間發(fā)布的3606條北京市住房招租信息,并將數(shù)據(jù)導(dǎo)入至Excel表格文件中,原始數(shù)據(jù)主要包括城市、標(biāo)題、租賃價(jià)格、戶型、面積、裝修程度、所在樓層、原有設(shè)施種類、地址等。

      32數(shù)據(jù)預(yù)處理

      原始數(shù)據(jù)中數(shù)據(jù)格式比較特殊,多為對房屋進(jìn)行描述的語句。因此,本研究首先使用了R中的stringr以及jiebaR包,將每個(gè)樣本所在的城區(qū)、樓層、朝向、原有設(shè)施、裝修程度等關(guān)鍵詞一并提取。其次,由于租房信息中不能準(zhǔn)確描述樓層信息,通常用樓層范圍來表示,如“2層/6層”表示2~6層,因此本研究采用平均數(shù)估算其樓層;此外,由于房間數(shù)量也是影響房租的一個(gè)重要因素,因此對形如“3室2廳2衛(wèi)”的住宅類型數(shù)據(jù),提取“室”的數(shù)量作為房間數(shù)量指標(biāo);最后,租房信息中還對住宅內(nèi)配套設(shè)施加以描述,包括電視、洗衣機(jī)、冰箱等,由于設(shè)施種類較多,因此將設(shè)施種類數(shù)量作為單一指標(biāo)。

      33變量選擇

      基于特征價(jià)格模型理論,本文將住房租賃價(jià)格作為被解釋變量,將不同類別的微觀因素共19個(gè)指標(biāo)作為解釋變量,建立機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測。下表報(bào)告了選取的被解釋變量與解釋變量的詳細(xì)說明。

      4實(shí)證分析

      通過建立決策樹模型,得到結(jié)果如下圖所示。決策樹共有一個(gè)根節(jié)點(diǎn)、四個(gè)中間節(jié)點(diǎn)以及六個(gè)葉節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)上方的數(shù)值表示平均價(jià)格,下方百分比表示樣本所占比例,連接線上表示該節(jié)點(diǎn)的條件,節(jié)點(diǎn)顏色由淺到深表示該子樣本平均價(jià)格由低至高。由下圖可以看出,影響房租價(jià)格最主要的因素為所在城區(qū)。決策樹第一層將城區(qū)分為昌平、大興、房山、門頭溝、密云、平谷、順義、通州、西城區(qū)和朝陽、東城、豐臺(tái)、海淀、石景山,其中前者價(jià)格較低,此外,房山、密云的租房價(jià)格也比昌平、大興、門頭溝、順義、通州更低。除西城區(qū)外,其結(jié)果也較符合城區(qū)離北京市中心距離越遠(yuǎn)租房價(jià)格越低的實(shí)際情況。對于朝陽、東城、豐臺(tái)、海淀、石景山區(qū),決定房租價(jià)格的關(guān)鍵因素為住宅類型,如果是公寓類則價(jià)格較低,別墅、精裝修、平房、普通住宅、商住兩用類的平均價(jià)格較高。對于后者,其價(jià)格還取決于朝向,其中朝北的住宅價(jià)格較高,這也體現(xiàn)了居民對房屋風(fēng)水朝向的要求。由結(jié)果可以看出,平均價(jià)格最低的為房山、密云的住宅,最高的為朝陽、東城、豐臺(tái)、海淀、石景山朝向北的中高檔住宅。

      5結(jié)論

      本文利用從58同城網(wǎng)站抓取的北京市住房租賃數(shù)據(jù),將決策樹模型引入到租賃價(jià)格的分析、預(yù)測工作中,并分析影響住房租賃價(jià)格的微觀因素。北京的研究經(jīng)驗(yàn)表明,影響房租最關(guān)鍵的因素為所在城區(qū),其次為住房類別及朝向。未來,在對房租微觀影響因素進(jìn)行研究時(shí),為了提高分析的準(zhǔn)確度以及因素覆蓋范圍,應(yīng)結(jié)合其他領(lǐng)域技術(shù)提取更多的解釋變量,例如根據(jù)地址提取距地鐵站距離、距商圈距離等地理位置相關(guān)信息;同時(shí),還可利用其余學(xué)習(xí)方法,如神經(jīng)網(wǎng)絡(luò)等進(jìn)行分析預(yù)測,以更全面地分析房地產(chǎn)價(jià)格的圍觀影響因素。對

      猜你喜歡
      決策樹
      基于決策樹和神經(jīng)網(wǎng)絡(luò)的高血壓病危險(xiǎn)因素研究
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于改進(jìn)決策樹的故障診斷方法研究
      決策樹多元分類模型預(yù)測森林植被覆蓋
      電子制作(2017年24期)2017-02-02 07:14:23
      基于決策樹算法的數(shù)據(jù)挖掘應(yīng)用研究
      基于決策樹的出租車乘客出行目的識(shí)別
      基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      電測與儀表(2016年2期)2016-04-12 00:24:40
      基于模糊關(guān)聯(lián)規(guī)則和決策樹的圖像自動(dòng)標(biāo)注
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      天津市| 阿拉善左旗| 长岭县| 斗六市| 吉安县| 重庆市| 正安县| 湖南省| 洛浦县| 阿拉善盟| 攀枝花市| 鞍山市| 万荣县| 永新县| 县级市| 平江县| 桂林市| 贞丰县| 五原县| 桦甸市| 南平市| 贺兰县| 罗山县| 通许县| 新昌县| 辉南县| 准格尔旗| 芮城县| 宣武区| 民丰县| 新和县| 乐都县| 股票| 滕州市| 安陆市| 安塞县| 江城| 宜丰县| 蓝山县| 东至县| 新巴尔虎左旗|