陳敏,李英冰
(1.武漢大學測繪學院,湖北 武漢 430079; 2.武漢大學測繪學院時空大數(shù)據(jù)研究中心,湖北 武漢 430079)
在房地產(chǎn)稅制改革和大數(shù)據(jù)的背景下,我國的房地產(chǎn)評估行業(yè)面臨新的挑戰(zhàn)[1]。許軍等指出我國房地產(chǎn)評估行業(yè)的目標應由“以房為本”、“服務開發(fā)”的模式轉變?yōu)椤耙匀藶楸尽?、“服務兩端”的模式[2]?!耙匀藶楸尽币髲南M者需求的角度出發(fā)考察影響房價的因素,將其作為房價評估依據(jù);“服務兩端”強調(diào)建立統(tǒng)一管理平臺,為消費者和政府相關部門提供經(jīng)濟、高效的優(yōu)質(zhì)信息服務。
目前,國外已經(jīng)有了基于CAMA (Computer Assisted Mass Appraisal)和GIS(Geography Information System)的房地產(chǎn)批量評估方法,而我國仍處于大數(shù)據(jù)系統(tǒng)的構建階段[2],缺少相關的技術、算法支持。特征價格理論認為住宅價格的確定不是基于作為整體的住宅本身,而等于住宅各個屬性的效用總和[3],呼應了“以人為本”的需求;人工神經(jīng)網(wǎng)絡作為一個強大的非線性變換系統(tǒng)[4],具有自組織、自學習的特點,能夠充分利用大數(shù)據(jù)優(yōu)勢,在實例研究中顯現(xiàn)出較傳統(tǒng)方法更高的準確率和效率[5~9],或許能在自動批量評估系統(tǒng)中發(fā)揮重要作用。因此,綜合特征價格理論和人工神經(jīng)網(wǎng)絡,探索更準確、效率更高的估價算法,能夠提高估價方法的科學性和前瞻性,并推動統(tǒng)一的房地產(chǎn)信息服務平臺的構建。
如圖1所示,研究區(qū)域為距離武漢市政府 15 km的武昌、江漢、洪山、青山、江岸、硚口、漢陽七個行政區(qū)內(nèi)的212個小區(qū)。各小區(qū)與市中心聯(lián)系緊密,基本在三環(huán)線內(nèi)。各小區(qū)平均二手房價格 3 714 元/m2~22 112 元/m2不等,小區(qū)內(nèi)不同房屋成交價也有差別。
圖1 研究區(qū)域及小區(qū)分布
特征價格模型的一般形式[4]為:
P=f(X1,X2,…,Xi)
(1)
其中P為住宅價格,Xi表示住宅特征,f為特征與價格之間的函數(shù)關系。
住宅特征(即房價影響因子)的選取十分重要,特征價格理論默認模型僅包含影響房價且量測精確的因素。但是,影響房價的因素十分復雜,且存在隨機波動;加上某些特征不能做到精確測量和量化,實際難以達到這一標準。
王娟娟等[10]統(tǒng)計了相關文獻中常用的特征變量及其顯著性,為特征變量的選取提供了參考。根據(jù)此參考及數(shù)據(jù)庫數(shù)據(jù),結合武漢市房地產(chǎn)市場特點,確定了參與評估的14個特征變量,如表1所示。
特征變量及數(shù)據(jù)來源 表1
量化數(shù)據(jù)時定量特征直接引用數(shù)值;定性特征則采用二元虛擬變量法、李克特量表法或綜合性指標法量化[11]。再手動補充、剔除缺失值、刪除虛假數(shù)據(jù)、剔除異常值,最終得到武漢市二手房數(shù)目多于200套的住宅小區(qū)212個,小區(qū)內(nèi)部二手房樣本 84 215條。
利用神經(jīng)網(wǎng)絡估計住宅價格,思路是把住宅的各個特征變量作為輸入,房價作為輸出,把各個特征變量與房價之間的關系模擬為各層神經(jīng)元之間連接的權值與閾值。通過大量樣本的監(jiān)督學習,得到合適的權值與閾值,即確定了特征變量與房價之間的關系。
部分利用神經(jīng)網(wǎng)絡進行估價的研究采用的訓練樣本體積偏小,并且只給出一個通用網(wǎng)絡模型,沒有考慮空間異質(zhì)性對模型精度的影響,如周圍是否有學校很大程度影響到購房決策[12]。不考慮小區(qū)間這類影響因子的差異,模型的泛化能力無法得到保證,難以應用于實際。考慮到隨著樣本體積增大,網(wǎng)絡訓練的速度降低,效率不高[13],本文設計了整體基準價和精確估價的兩級模型,結構如圖2所示。抽取研究區(qū)域的樣本訓練得到基準價網(wǎng)絡,再輸入需要估價的小區(qū)樣本進一步訓練得到適合該小區(qū)的精確估價網(wǎng)絡,希望在保證模型的泛化能力同時提高估價效率。
圖2 分級模型結構
基準價模型和精確估價模型的構建涉及網(wǎng)絡結構、激活函數(shù)確定,訓練算法選擇的工作。其中,隱層節(jié)點個數(shù)、激活函數(shù)以及學習速率可以基于經(jīng)驗和試湊法確定,通過隨機抽取5 000條樣本進行實驗,不斷調(diào)整學習速率,確定最優(yōu)隱層節(jié)點數(shù)為30,激活函數(shù)第一層為logsig,第二層tansig。網(wǎng)絡的訓練采用反向傳播的思想。對每一個樣本(x,y),(x為特征向量,y為價格)先進行前向傳遞,求每個神經(jīng)元的激活值a,得到估價h(x)。
a=∑σ(ωx+b)
(2)
再比較h(x)與真實價格,利用損失函數(shù)求損失C(函數(shù)cost通常是均方誤差)。
C=cost[h(x),y]
(3)
接著進行誤差反向傳播,從最后一層向前依次求各層誤差(鏈式法則),并調(diào)整權值和偏置(式(4)、式(5)運用的學習算法是梯度下降)。反復迭代至C足夠小,停止訓練。
(4)
(5)
反向傳播有梯度下降法、擬牛頓法、共軛梯度法和Levenberg-Marquardt法等經(jīng)典算法。不同訓練算法最小化損失函數(shù)的思想不同,在收斂速度、計算量、泛化能力上存在差異,因而針對不同參數(shù)規(guī)模的網(wǎng)絡應選取不同的訓練算法[14]。
圖3 網(wǎng)絡結構及訓練思路
本文影響因子數(shù)較少(14),網(wǎng)絡參數(shù)不多(481),但樣本體積較大(84 215)。 圖3展示了網(wǎng)絡結構和訓練思路,為確定最優(yōu)訓練算法,抽出“武漢天地御江璟城”小區(qū)數(shù)據(jù),將其余 83 871條樣本分為訓練組(80 000條)和測試組(3 871條)輸入網(wǎng)絡用不同算法分別訓練,綜合比較模型訓練時間、估價結果精度(如表2所示)得到合適的訓練算法。
模型評價采取擬合優(yōu)度R2和估價相對誤差RE、絕對誤差AE。擬合優(yōu)度評價模型對觀測值的擬合程度,越接近1效果越好;相對誤差與絕對誤差能更直觀地表現(xiàn)估價精度。
R2=(TSS-RSS)/TSS
(6)
AE=h(x)-y
(7)
RE=AE/y
(8)
其中,TSS為總誤差平方和,RSS為殘差平方和。
用不同訓練算法訓練基準價網(wǎng)絡得到估價結果,如表2所示,比較結果的擬合優(yōu)度、平均相對誤差、相對誤差在10%、20%內(nèi)的樣本比例,梯度下降法和共軛梯度法均陷入了局部最優(yōu)解,模型精度低;擬牛頓法精度雖高但不及L-M法,且訓練時間過長;L-M法估價精度高、收斂速度快,訓練時間適中,最合適。
基準價網(wǎng)絡不同算法估價結果 表2
在基準價網(wǎng)絡上進一步輸入特定小區(qū)的二手住宅樣本進行小區(qū)估價模型訓練,這里以兩個小區(qū)(如表3所示)為例,給出估價結果的相對誤差(如表4所示)。小區(qū)武漢天地御江璟城在江岸區(qū),所有樣本沒有參與基準價網(wǎng)絡訓練,小區(qū)世紀江尚在江漢區(qū),均價低于武漢天地,部分樣本參與了基準價網(wǎng)絡訓練。
小區(qū)價格分布及樣本數(shù)量 表3
小區(qū)估價模型精度比較 表4
如表4所示,小區(qū)模型的估價精度均優(yōu)于基準價模型,說明分級模型對精度有提高作用。在訓練世紀江尚的小區(qū)模型時,迭代10次便達到了表中的精度,證明在基準價網(wǎng)絡上訓練模型,能夠提高效率。世紀江尚的部分樣本參與了基準價模型訓練,用基準價模型直接估價時,平均相對誤差?。晃錆h天地的樣本沒有參與基準價網(wǎng)絡訓練,直接用基準價模型平均相對誤差達到了105.74%,說明將小區(qū)樣本納入基準價模型的必要性。整體上看,兩個小區(qū)模型估價結果的相對誤差在20%內(nèi)的比例均達到了95%以上,具備實際應用能力。
本文應用特征價格理論確定14個房價影響因子,與神經(jīng)網(wǎng)絡結合,建立了武漢市二手住宅估價的兩層分級模型。一方面,在基準價網(wǎng)絡基礎上訓練針對特定小區(qū)的網(wǎng)絡,訓練時間縮短,提高了效率;另一方面,通過將所有小區(qū)的部分樣本納入整體的基準價模型,可以保證模型的泛化能力,再訓練特定的小區(qū)估價模型,能夠提高估價精度。此分級模型為自動批量評估系統(tǒng)的實現(xiàn)提供了一種可行思路。
對于面向海量數(shù)據(jù)的房價自動評估系統(tǒng),要進一步提高估價精度,除探索效率更高的估價算法外,可從數(shù)據(jù)著手,提高輸入的數(shù)據(jù)質(zhì)量,這一點或可通過引入有效的異常點自動挖掘算法實現(xiàn)。