吳莞姝, 胡龍超, 趙凱
(1. 華僑大學 建筑學院, 福建 廈門 361021;2. 華僑大學 數(shù)量經(jīng)濟研究院, 福建 廈門 361021)
房地產(chǎn)行業(yè)在國民經(jīng)濟中有著舉足輕重的地位,作為房地產(chǎn)價值體現(xiàn)的房價不僅關系到國民經(jīng)濟的健康、平穩(wěn)發(fā)展,其漲跌變動還關系到居民的財富及生活水平[1-2].影響房價的因素眾多,不僅受建筑特征的影響,還會因地區(qū)之間公共服務設施的資源配置不均衡而產(chǎn)生差異.人們根據(jù)對公共服務和設施的偏好選擇居住區(qū)域,特別是在物質生活水平日漸豐富的經(jīng)濟社會環(huán)境下,居民往往愿意支付較高的價格以獲得優(yōu)質的公共服務,而這部分優(yōu)質公共資源的價值就資本化于房價之中[3].
針對房價的研究多基于特征價格模型.Ridker等[4]采用特征價格法分析空氣污染對房價的影響.Xiao等[5]利用特征向量空間濾波方法消除空間自相關性后,發(fā)現(xiàn)北京周圍的設施對北京房價的影響參差不齊.張驥[6]以北京市二手市場上的商品住宅和非商品住宅為研究對象,利用基于特征價格的配對回歸模型,研究北京學區(qū)房交易價格,發(fā)現(xiàn)北京市的學區(qū)房溢價已高出24.3%.文獻[7-8]以北京為例,通過特征價格模型探尋房價影響因素,研究證實地鐵、公交等交通基礎設施及優(yōu)質教育資源、高水平的醫(yī)療機構、公園等公共服務設施對房價上漲皆具有明顯的正效應.Li等[9]則通過整合鏈家網(wǎng)站、Mobike網(wǎng)站及百度地圖興趣點的公開數(shù)據(jù),分析上海公寓價格的空間模式及其與當?shù)嘏涮讓傩缘年P聯(lián),研究發(fā)現(xiàn)公園、學校、醫(yī)院和銀行等公共服務設施及娛樂、購物等私人服務設施推高了市中心地區(qū)的房價.
利用特征價格模型構建房價分析模型需要“先驗”地設定函數(shù)形式,這往往容易損失房價與其特征變量之間的深層次關系.近年來,國內(nèi)外學者嘗試應用多種機器學習模型探討房價的變化趨勢和影響因素等問題.申瑞娜等[10]結合主成分分析和支持向量機,綜合考察影響上海住房價格的8種因素,并對上海房價進行預測.文獻[11-12]利用灰度GM(1,1)預測模型分別對福州市和周口市的房價走勢進行預測,并得到精準度較高的預測結果.張智鵬等[13]利用梯度提升樹(GBDT)算法對房價進行預測,實驗結果表明,公共設施、生活服務、學校、購物服務等是對房價產(chǎn)生明顯影響的因素.這些文獻均采用結構較為簡單的機器學習模型,并且分析數(shù)據(jù)的特征維度偏低.傳統(tǒng)機器學習方法難以全面且精確地挖掘特征因素和房價之間的聯(lián)系.
淺層BP神經(jīng)網(wǎng)絡模型(BPNN)在預測上優(yōu)于傳統(tǒng)機器學習模型,但仍存在學習速度慢、易陷入局部收斂等問題.而深度置信網(wǎng)絡采用無監(jiān)督訓練方式,具有較好的降維性能.一方面,深度置信網(wǎng)絡能有效克服傳統(tǒng)人工神經(jīng)網(wǎng)絡需要大量有監(jiān)督信號和易陷入局部極小等缺點;另一方面,深度置信網(wǎng)絡可高效處理高維的數(shù)據(jù)并挖掘變量之間的深層關系.此外,深度置信網(wǎng)絡解決了大規(guī)模數(shù)據(jù)計算耗時問題且精度較高,并成功應用于多種人工智能問題的研究,尤其在圖像處理、聲音辨識和智能網(wǎng)絡分析等方面的應用中成效顯著[14-15].由于深度置信網(wǎng)絡在運算時使用數(shù)據(jù)離散化方法進行特征提取,隱藏層和可見層節(jié)點均為伯努利值(0或1),這使深度置信網(wǎng)絡不適用于對連續(xù)型變量的高精度預測[16-17].為提高模型的預測精度,學者們將深度置信網(wǎng)絡進行改進,使其能夠有效處理連續(xù)型的輸入變量[18-19].
盡管深度置信網(wǎng)絡在人工智能領域特別是模式識別任務中取得了較好的成果,但將其應用于現(xiàn)實經(jīng)濟問題的研究仍較少見.基于此,本文嘗試將連續(xù)型深度置信網(wǎng)絡擴展至房價問題的研究中,依據(jù)特征房價理論并考慮到上海市二手房交易價格可能存在的空間相關性,構建空間計量模型以分析各特征變量對二手房交易價格的影響.在此基礎上,利用連續(xù)型深度置信網(wǎng)絡建立房價與多維影響因素之間的深度學習預測模型,深層挖掘其潛在規(guī)律.
由于上海是我國“超一線”城市,房地產(chǎn)市場發(fā)展較為成熟和完善,具有一定的代表性;同時,上海浦東和浦西在城市化建設和房屋價格上具有明顯的差異,這為探討建筑特征、區(qū)位特征和鄰里特征對二手房交易價格的影響效果提供了較好的素材,因此,選擇上海市作為研究區(qū)域.
房屋交易數(shù)據(jù)源于“鏈家二手房交易平臺”(https:∥m.lianjia.com),鏈家的樓盤數(shù)據(jù)庫管理著160多個城市1.1億套真實的房產(chǎn)數(shù)據(jù),依托互聯(lián)網(wǎng)對數(shù)據(jù)進行標準化管理,實現(xiàn)信息的無差別共享.
基于Python語言的爬蟲技術,按照不同行政區(qū)對鏈家上海市二手房交易平臺上的數(shù)據(jù)進行收集.利用Beautiful Soup對網(wǎng)頁返回結果進行重構,得到超文本標記語言(HTML)的樹狀結構,再使用正則表達式對所需信息進行提取,進而獲取變量數(shù)據(jù).最終,所爬取的數(shù)據(jù)涉及房屋交易額、交易單價、百度地理坐標(BD08)、房屋戶型、所在樓層、建筑面積、戶型結構、建筑類型、建成年代、裝修情況、梯戶情況等變量信息,共計45 131條原始信息.同時,搜集整理上海市全部40家三甲醫(yī)院(及其分院)、上海市34所重點中小學及上海市所有地鐵站出口的地理坐標數(shù)據(jù).上海市的主要三甲醫(yī)院及重點中小學的地理位置信息,如表1所示.
表1 上海市的主要三甲醫(yī)院及重點中小學的地理位置信息
上海市各行政區(qū)的原始數(shù)據(jù)交易時間跨度不一,為剔除時間跨度的影響,對各行政區(qū)數(shù)據(jù)進行切割,保留共同交易時間跨度的數(shù)據(jù)為研究樣本.另外,由于在房屋的交易權屬中個稅的收取不同,因而,刪除交易權屬中的售后公房.為避免極端價格對數(shù)據(jù)分析的影響,房屋用途中刪除別墅、車庫和商業(yè)辦公類房屋,只保留普通住宅.剔除含有缺失值的數(shù)據(jù)條目,最終獲得9 058個樣本,涉及房屋戶型、建筑面積、建成年代、所在樓層、裝修情況、配備電梯等變量.
房屋戶型變量的形式以字符數(shù)字組合為主,采用正則表達式將臥室、大廳、廚房和衛(wèi)生間這幾個數(shù)值提取出來,并分別作為建筑特征的變量.建筑面積的原始數(shù)據(jù)中帶有面積單位m2,利用正則表達式剔除該單位,并把面積值變?yōu)楦↑c型數(shù)據(jù).原始數(shù)據(jù)中建成年代為房屋建成年代,采用爬取數(shù)據(jù)的年份(2019年)減去建成年代的方式,計算房屋建成年數(shù).所在樓層的原始數(shù)據(jù)為高樓層、中樓層和低樓層.對所在樓層進行數(shù)值化處理,把高樓層、中樓層和低樓層分別賦值為2,1和0.裝修情況和配備電梯為二值數(shù)據(jù),裝修情況為已裝修或未裝修,配備電梯為有或無,利用1和0進行數(shù)值化處理.
鏈家官網(wǎng)的坐標數(shù)據(jù)來源于百度地圖,利用ArcGIS軟件將清洗后樣本數(shù)據(jù)的地理坐標轉化為WGS84坐標,其分布情況如圖1所示.
圖1 樣本數(shù)據(jù)的空間分布
借鑒以往研究,將二手房的特征梳理為建筑特征、區(qū)位特征和鄰里特征3類.二手房建筑特征為房屋本身的屬性,涉及的變量包括房屋戶型、所在樓層、建筑面積、建成年代、裝修情況及配備電梯.區(qū)位特征量化了二手房區(qū)位對整個城市的可達性,如出行成本等.
將二手房到城市中心的距離作為二手房的區(qū)位特征變量;以陸家嘴金融貿(mào)易中心區(qū)域的質心為城市中心點.鄰里特征通常指房屋周圍的環(huán)境及配套,如交通站點、學校、醫(yī)院等.選取到最近三甲醫(yī)院的距離、到最近重點中小學的距離及到最近地鐵站的距離體現(xiàn)鄰里特征.距離計算方式取大圓距離,大圓距離是將地球看作一個球形,計算球面上兩點的最短路徑.特征變量的相關說明,如表2所示.
表2 特征變量說明
清洗后數(shù)據(jù)的描述性統(tǒng)計,如表3所示.由表3可知:二手房成交單價最大值為147 668元·m-2,最小值為7 059元·m-2,均值為49 577元·m-2,偏度為1.011 452,屬于右偏數(shù)據(jù),大多數(shù)交易價格集中在50 000元·m-2左右.
表3 數(shù)據(jù)的描述性統(tǒng)計
繪制QQPlot分布圖,將數(shù)據(jù)分布與正態(tài)分布進行對比,結果如圖2所示.圖2中:S為標準正態(tài)值;Q代表數(shù)據(jù)的分位數(shù).由圖2可知:對數(shù)成交單價數(shù)據(jù)近似服從于正態(tài)分布.
圖2 對數(shù)化后的二手房成交單價分布
化后的利用空間趨勢分析將二手房成交單價投影到XZ和YZ平面上,繪制上海市二手房交易價格分布的空間趨勢,如圖3所示.圖3中:X為經(jīng)度;Y為緯度;Z為單價.由圖3可知:不論在東西方向還是南北方向,上海市二手房交易單價都呈現(xiàn)由中心向兩頭遞減的趨勢.綜上可知,上海市二手房市場具有中心高價的特點.
圖3 二手房成交單價的空間趨勢
(1)
由于二手房交易價格數(shù)據(jù)在空間上是點要素的形式,沒有多邊形的拓撲關系,在空間上的分布也較不均衡,故整體的空間關聯(lián)程度可以利用全局莫蘭指數(shù)判斷,莫蘭指數(shù)(I)的表達式為
(2)
計算得到全局空間自相關的檢驗結果如下:莫蘭指數(shù)I為0.236 862 3;統(tǒng)計量為-0.000 271;p近似為0.由檢驗結果可知:二手房交易價格的莫蘭指數(shù)顯著為正,說明上海市二手房交易價格具有空間集聚效應.
上海市二手房交易價格全局空間自相關散點圖,如圖4所示.通過莫蘭散點圖將空間自相關分為高-高集聚、高-低集聚、低-高集聚、低-低集聚這4種類型.圖4中:L為lnP的空間一階滯后;第1,3象限是高-高集聚、低-低集聚區(qū)域,即同質化明顯的區(qū)域;而第2,4象限是高-低集聚、低-高集聚區(qū)域,即異質性較強的區(qū)域.
圖4 上海市二手房交易價格全局空間自相關散點圖
由圖4可知:絕大多數(shù)樣本落入第1,3象限,少部分樣本落入第2象限,空間集聚特點較為明顯.
借助ArcGIS軟件繪制上海市二手房交易價格的LISA集聚狀況,如圖5所示.由圖5可知:中心城區(qū)的房價呈現(xiàn)高-高集聚的空間效應,且越靠近城市中心點,高-高集聚的特征越顯著;高-低集聚區(qū)域沿著高-高集聚區(qū)域的邊緣分布;而低-低集聚效應區(qū)域大多分布在上海周邊地區(qū).
圖5 LISA集聚狀況 圖6 冷熱點分布
進一步,通過局部空間自相關檢驗探討分析上海市二手房交易價格的空間異質性.局部空間自相關水平的冷熱點分布,如圖6所示.由圖6可知:熱點區(qū)域和冷點區(qū)域均在99%的置信水平上顯著.上海市二手房交易價格呈現(xiàn)“中間高、四周低”的空間格局,相較于LISA集聚,冷熱點分布更寬,涉及更多邊緣樣本.城市中部的浦西七區(qū)、寶山區(qū)及閔行區(qū)的二手房交易價格為高-高集聚,環(huán)繞四周的嘉定區(qū)、青浦區(qū)、松江區(qū)、奉賢區(qū)和浦東新區(qū)外環(huán)城區(qū)的二手房交易價格為低-低集聚.
上海市二手房交易價格具有空間關聯(lián)性,應選擇空間計量模型進行分析.拉格朗日乘數(shù)檢驗項L-Mlag,LMerr及其穩(wěn)健值R-LMlag,R-LMerr的檢驗結果,如表4所示.由于LMlag,LMerr均顯著,需進一步比較R-LMlag和R-LMerr的顯著性,又因為R-LMerr顯著而R-LMlag不顯著,故選擇空間誤差模型(SEM)進行分析.
表4 拉格朗日乘數(shù)的檢驗結果
基于特征價格法建立SEM,探討影響上海市二手房交易價格的可能因素.SEM回歸結果,如表5所示.表5中:ES為標準誤差;λ為空間自相關系數(shù);*,**,***分別表示在10%,5%,1%水平上影響有統(tǒng)計學意義.對數(shù)似然值為1 004.224;赤池信息準則AIC為-1 974.4.
由表5可知:除廚房數(shù)量外,其他特征變量對二手房交易價格的影響皆有統(tǒng)計學意義;已裝修、帶電梯、有客廳且洗手間數(shù)量較多的二手房交易價更高;臨近重點中小學、醫(yī)院和市中心的二手房交易價格較高;然而,臥室數(shù)量及建筑面積在一定程度上會對二手房交易價格產(chǎn)生一定的抑制作用,原因可能是上海市過高的單價抑制了人們對大面積住宅的需求;樓齡與樓層均在1%的顯著性水平下對房價有反向影響,但系數(shù)較小.
表5 SEM回歸結果
連續(xù)型深度置信網(wǎng)絡(CDBNN)改造于深度置信網(wǎng)絡(DBN).DBN是由多個受限玻爾茲曼機 (RBM)逐層堆疊而成,其核心思想是自底向上每一層RBM對輸入數(shù)據(jù)進行提取、抽象,盡可能保留重要信息,訓練過程一般采用貪婪無監(jiān)督方式,即逐層對DBN中的每一個RBM進行訓練.
RBM是一種基于能量的概率生成模型,生成模型是對特征和標簽之間的聯(lián)合分布進行建模.當可見層的狀態(tài)ν和隱藏層的狀態(tài)h確定后,RBM模型中的能量可以表示為
(3)
式(3)中:θ為參數(shù)向量;ai和bj分別為可見層第i個神經(jīng)元上的偏置和隱藏層第j個神經(jīng)元上的偏置;ωi,j為可見層神經(jīng)元和隱藏層神經(jīng)元之間的連接權重值.
基于能量函數(shù),可得ν和h的聯(lián)合概率分布為
上式中:z(θ)為歸一化函數(shù),使得概率之和為1.
依據(jù)聯(lián)合概率分布,可以得到在可見層狀態(tài)ν確定時,隱藏層每個神經(jīng)元被激活的概率,以及在隱藏層狀態(tài)h確定時,可見層每個神經(jīng)元被激活的概率分別為
(4)
(5)
一般采用梯度下降方法求取最優(yōu)參數(shù)值,過程中涉及難以求解的歸一化函數(shù)z(θ),常用吉布斯(Gibbs)采樣方法近似計算[20].CDBNN是在DBN的基礎上改進,對式(4),(5)和激活函數(shù)σ(x)進行改進,使其適用于連續(xù)型數(shù)據(jù),即
(6)
(7)
(8)
式(6)~(8)中:Ni(0,1),Nj(0,1)表示均值為0且方差為1的高斯隨機變量;φ為常量;θH和θL為漸近線,一般取樣本中的最大值和最小值.
由于連續(xù)型深度置信網(wǎng)絡是在深度置信網(wǎng)絡的基礎上衍生而來,因此,該方法同樣采用誤差反向傳播的算法進行網(wǎng)絡調優(yōu).CDBNN算法主要有以下8個步驟.
步驟1準備訓練數(shù)據(jù)D=(x1,x2,…,xn),共n個樣本,假設所有神經(jīng)元的狀態(tài)使用狀態(tài)集{Si}表示,隨機初始化所有神經(jīng)元的參數(shù),設訓練的最大次數(shù)為K次.
步驟4根據(jù)步驟3所得的Si,同步驟2,計算隱藏層的重構神經(jīng)元狀態(tài)Sj.
步驟5繼續(xù)隨機選擇下一個訓練樣本,返回步驟2,如果樣本集中的樣本都選完畢,則依據(jù)式(8)計算參數(shù)變化量,更新方式為wi,j(k+1)=wi,j(k)+Δw,ai(k+1)=ai(k)+Δai.
步驟6進行第k+1次訓練,當權重的變化量落入預定的范圍內(nèi),即|Δwi,j|<ε,其中,ε是預先設定的誤差范圍,或者訓練次數(shù)達到k次,則訓練停止.
步驟7將訓練好的RBM的輸出作為下一層RBM的輸入層輸入數(shù)據(jù),按照步驟1~6進行訓練,直到訓練完DBN的所有RBM層.
步驟8網(wǎng)絡調優(yōu):完成DBN的訓練后,需進一步優(yōu)化深度神經(jīng)網(wǎng)絡權值.將訓練好的DBN網(wǎng)絡作為網(wǎng)絡的初始狀態(tài),訓練得出的參數(shù)作為DBN的初始參數(shù);然后,使用反向傳播的方法,運用梯度下降法對網(wǎng)絡的整體權值進行有監(jiān)督的學習.
連續(xù)型深度置信網(wǎng)絡結構的確定實質上就是選擇深度置信網(wǎng)的超參數(shù).待確定的神經(jīng)網(wǎng)絡結構的超參數(shù)包括神經(jīng)網(wǎng)絡的層數(shù)、神經(jīng)網(wǎng)絡隱藏層的節(jié)點數(shù)、學習率的確定、高斯隨機變量中的方差值和樣本迭代次數(shù)的選擇及其他參數(shù)的選擇.
超參數(shù)調優(yōu)即選擇超參數(shù)使網(wǎng)絡結構達到最優(yōu)的效果,是訓練神經(jīng)網(wǎng)絡的核心任務.目前,常用的超參數(shù)調優(yōu)方法有網(wǎng)格搜索與隨機搜索.前者基于整個超參數(shù)空間進行搜索,速度較慢,但可獲得最優(yōu)的超參數(shù)組合.后者速度快,但可能會錯過搜索空間中最優(yōu)的超參數(shù)值.借鑒Snoek等[21]的思路,利用貝葉斯思想自動優(yōu)化超參數(shù),不僅能有效兼顧上述兩種方法的優(yōu)點,還能借助Python的hyperopt模塊輕松實現(xiàn)優(yōu)化超參數(shù).主要超參數(shù)的估計值,如表6所示.
表6 主要超參數(shù)的估計值
在建立連續(xù)型深度置信網(wǎng)絡的過程中,將所有樣本按7∶3的比例隨機分成訓練集和測試集,先通過訓練集對模型進行訓練,再使用訓練后的模型對測試集數(shù)據(jù)進行預測.將文中的預測結果與現(xiàn)有文獻采用的支持向量機(SVM)、集成模型(采用Adaboost算法)和BP神經(jīng)網(wǎng)絡模型的預測結果進行對比.連續(xù)型深度置信網(wǎng)絡、SVM、集成模型、BP神經(jīng)網(wǎng)絡的預測誤差分別為0.006 67,0.007 61,0.008 42,0.029 03.BP神經(jīng)網(wǎng)絡的預測誤差遠高于其他3個模型,這是由于隨機初始化使其難以達到全局最優(yōu)值.而連續(xù)型深度置信網(wǎng)絡可預先對BP神經(jīng)網(wǎng)絡進行預處理,有效緩解隨機初始化對最優(yōu)預測的阻礙.此外,CDBNN的預測結果也略優(yōu)于SVM和集成模型,表明CDBNN有更高的復雜度,能夠更加深入且全面地進行特征分析.
4種模型測試集樣本點的預測殘差絕對值,如圖7所示.圖7中:ε為殘差絕對值.由圖7可知:與其他模型相比,CDBNN的預測殘差總體情況更優(yōu),CDBNN能夠有效地解決BP神經(jīng)網(wǎng)絡在預測模型上存在的不足.
圖7 測試集樣本點的預測殘差絕對值 圖8 殘差絕對值與二手房交易價格的關系
通過繪制殘差絕對值,可對CDBNN模型的預測結果進行評價.殘差絕對值與二手房交易價格的關系,如圖8所示.由圖8可知:對于房價偏低或偏高的區(qū)域,影響上海市二手房交易價格的因素較為復雜,不僅局限于房屋建筑特征變量;房價偏低的區(qū)域大部分偏離市中心,距上海市重點中小學、三甲醫(yī)院以及地鐵站距離較遠,利用特征價格法選取的變量對房價偏低區(qū)域的房價預測能力相對較差.這些區(qū)域的二手房交易價格可能會更多地受到其所在區(qū)域的亞中心及該區(qū)域所配套的基礎設施的影響.對于二手房交易價格偏高的區(qū)域,預測的殘差絕對值相對較大,可以認為當房價過高(P≥80 000元·m-2)時,二手房交易價格的影響因素更加復雜.這其中除特征變量之外,還可能與購房者的購房目的等因素有關.對上海市高房價區(qū)域的購買者來說,房價彈性相對較低,他們對高房價并不敏感;高房價的購買者對房屋的消費不僅在于其本身的價值,而可能是出于政策便利性和高房價周圍的鄰里交際環(huán)境.
各行政區(qū)預測結果的殘差絕對值平方,如圖9所示.由圖9可知:崇明區(qū)、黃浦區(qū)和靜安區(qū)的預測結果的殘差絕對值較大;崇明區(qū)的二手房交易價格偏低,而交易價格偏高的區(qū)域大多集中在黃浦區(qū)和靜安區(qū)這兩個市中心區(qū)域;浦東新區(qū)預測結果的殘差絕對值較小,基于特征房價探討的變量對浦東新區(qū)這樣的非市中心的二手房交易價格的預測效果較好;楊浦區(qū)和浦東新區(qū)的預測結果的殘差絕對值很相近,而靜安區(qū)和黃埔區(qū)的殘差絕對值相對較大.這可能是因為楊浦區(qū)和浦東新區(qū)隔海相望,楊浦區(qū)的經(jīng)濟和浦東新區(qū)的經(jīng)濟相互影響較大,黃浦區(qū)和靜安區(qū)作為上海一直以來的市中心,其二手房交易價格的影響因素較為復雜;而浦東新區(qū)是改革開放后繁榮的區(qū)域,受上個世紀90年代開放的房地產(chǎn)市場影響較大,所以,預測效果較好,特征價格法所選的建筑特征、鄰里特征和區(qū)位特征對新區(qū)房價的解釋力度更強;對于黃浦區(qū)和靜安區(qū)這樣的老中心區(qū)域,其房價的解釋力度相對較小;黃浦區(qū)和靜安區(qū)的二手房交易市場的影響因素已經(jīng)超出特征價格變量的解釋范圍.
圖9 各行政區(qū)預測結果的殘差絕對值平方
以上海市二手房交易市場為例,通過空間自相關分析,發(fā)現(xiàn)上海市二手房交易單價在空間上具有顯著的自相關效應.二手房交易價格在上海市核心區(qū)域存在高-高集聚效應,在周邊區(qū)域呈現(xiàn)低-低集聚效應,而在核心與周邊交界地區(qū)存在高-低集聚和低-高集聚的負向空間效應.與此同時,基于連續(xù)型深度置信網(wǎng)絡對特征二手房交易價格進行分析預測,發(fā)現(xiàn)特征變量對價格偏高區(qū)域的二手房交易價格解釋力度較小,價格偏高區(qū)域的二手房交易價格影響因素較為復雜.從區(qū)域角度分析,除中心區(qū)域外,基于深度置信網(wǎng)絡的特征變量對上海市二手房交易價格預測能力良好.連續(xù)型深度置信網(wǎng)絡不僅能有效地解決BP神經(jīng)網(wǎng)絡在預測模型上存在的不足,而且與其他機器學習模型相比,連續(xù)型深度置信網(wǎng)絡能更精準地對房價進行預測,從而為政府部門進行房價預測提供理論支持和政策導引.
文中采用一種能夠處理大數(shù)據(jù)的深度學習模型,但由于獲取數(shù)據(jù)的難度大,僅選取十余個解釋變量.現(xiàn)實中,影響二手房交易價格的因素非常多,如加入更多的解釋變量,基于連續(xù)型深度置信網(wǎng)絡對特征二手房交易價格模型的預測將會更加精準.采用空間分析及深度學習技術對二手房交易價格進行研究,在各大城市均具有普遍適用性,可應用于其他城市的房價研究.
文中研究結果可為后續(xù)相關研究提供方法參考和模型借鑒.通過對上海市不同行政區(qū)及不同價格區(qū)間的房價預測模型效果進行差異性分析發(fā)現(xiàn),在價格偏高的區(qū)域和上海市中心區(qū)域的預測效果較差.這為后續(xù)相關研究提供兩方面借鑒:一方面,在預測房價時,需要考慮到空間異質性的影響,應針對不同區(qū)域構建不同的預測模型;另一方面,為進一步提高房價預測的精度,需要在建筑、區(qū)位、鄰里等特征變量的基礎上納入更多相關的社會經(jīng)濟要素,從而提升模型的預測能力.對房價走勢進行高精度預判,有助于政府制定調控政策.房地產(chǎn)市場調控一直是政府相關部門的工作重點,而穩(wěn)定房價是調控的主要目標.對房價走勢進行高精度預測具有一定的現(xiàn)實意義,可為政府相關部門完善房地產(chǎn)市場、優(yōu)化城市規(guī)劃設計提供一定的理論支持.