趙云柯
摘 ?要:最近十幾年里普通民眾對房價的漲跌始終保持著很高的關(guān)注度,而這一關(guān)注度或許可以通過百度搜索指數(shù)得到量化。
而另一個面向,我們相信房地產(chǎn)銷售額的波動會與多數(shù)民眾某些經(jīng)濟行為的特性發(fā)生關(guān)聯(lián)。這或許可以通過電影排片場次得到側(cè)面的體現(xiàn)。
基于上述思考,我們希望利用神經(jīng)網(wǎng)絡(luò),通過以某一周“上海房價”的百度搜索指數(shù)、上海電影排片場次和上海房地產(chǎn)平均單位面積銷售價格為自變量建立模型,來擬合計算得出該周上海房地產(chǎn)銷售額。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);機器學習;多元回歸;房地產(chǎn)
一、具體問題及分析
1)收集并整理從2016年到2019年每周“上海房價”百度搜索指數(shù)、每周上海電影排片場次、每周上海房地產(chǎn)單位面積平均售價,每周上海房地產(chǎn)銷售額的數(shù)據(jù),并制作樣本與測試集。
2)搭建并使用1)中的數(shù)據(jù)訓練基于深度學習的神經(jīng)網(wǎng)絡(luò)模型,利用均方差損失函數(shù)和梯度下降法擬合求解回歸模型。
3)在2)所得出的回歸模型當中,解釋結(jié)果模型的各自變量對上海房地產(chǎn)銷售額的影響,解釋其在現(xiàn)實生活中的含義并進行相關(guān)探討。
二、模型的假設(shè)
本文所要研究的是百度搜索指數(shù)、電影排片場次及平均銷售價格對于房地產(chǎn)銷售總額的影響。對于本文所考慮的問題,基礎(chǔ)的線性回歸問題不足以擬合出貼合度較好的函數(shù),因此我們將線性關(guān)系轉(zhuǎn)為高次的函數(shù)??紤]到三個自變量之間關(guān)聯(lián)度并不高,我們將模型定義為:
對應(yīng)索引i,即:
同線性回歸問題一致,我們采用平方誤差函數(shù)作為損失函數(shù),小批量隨機梯度下降法作為優(yōu)化算法。可以得出索引i的損失函數(shù)為:
因此同線性回歸問題,一次迭代中的平均損失函數(shù)為:
即:
顯然,每次迭代對于參數(shù)調(diào)整的優(yōu)化方法為:
對于超參數(shù)的設(shè)置,我將迭代次數(shù)定為100000次,初始學習率定為0.1。隨著迭代的進行,我使用了類似于離散下降的方式來動態(tài)調(diào)整學習率:當該次迭代損失函數(shù)優(yōu)于上次時,學習率增長上次的5%;當該次迭代損失函數(shù)劣于上次時,學習率減少上次的50%,且保證學習率的波動范圍一直處在0.01與0.8之間。如此設(shè)置,既保證了迭代的效率,使得模型能夠在有限次內(nèi)高效地得出較優(yōu)解,也確保了準確度,使得函數(shù)不會波動過于動蕩。
將所有數(shù)據(jù)進行整合后,我們令2016年1月4日到1月10日為第1周,將第1周至第200周的數(shù)據(jù)作為樣本,其余數(shù)據(jù)作為測試集。
三、模型擬合結(jié)果
我們設(shè)百度搜索指數(shù)為x1,電影排片場次為x2,單位面積平均售價為x3。通過python編程,可知w參數(shù)對應(yīng)不同自變量不同次項分別為:
四、回歸模型擬合結(jié)果分析
機器學習所得到的回歸模型平均損失函數(shù)值為0.000476。相比之下,沒有經(jīng)歷過任何優(yōu)化的初始模型損失函數(shù)值約為0.001,可以發(fā)現(xiàn)精確度得到了顯著的提升。對于樣本而言,我們的模型剔除了樣本中的極端值,預測結(jié)果的平均值與樣本因變量接近,而方差比樣本更小,相較于樣本更為平滑連貫,兩者的比對圖形如下圖1:
其中橫軸為周數(shù),縱軸為上海每周房地產(chǎn)總銷售額除以10,000后的商。藍色為實際值的函數(shù),黃色為預測值的函數(shù)。藍色幾個異常的極低點,都是發(fā)生在春節(jié)期間。由于在春節(jié)放假期間幾乎不會有任何房屋交易,所以在這一非經(jīng)濟和關(guān)注度條件的影響下,藍色曲線的值會異常的低。社會文化因素也導致藍色實際值出現(xiàn)了個別因變量極高的數(shù)據(jù),這些都無法被我們基于經(jīng)濟水平和大眾關(guān)注的模型預測出來。但依然,我們可以看出兩者的趨勢大致吻合,總體來說依舊具有一定的適用性。
而對于測試集所計算出的預測值與實際值,即使測試集中包含了2020年春節(jié)時期的數(shù)據(jù),具有顯著社會文化因素的影響,但兩者差距在5%顯著性對應(yīng)的z分數(shù)1.64個標準差之內(nèi)的占比依舊超過了80%??梢钥闯觯词箤τ谠跇颖緯r間段之外的測試集,我們的模型依舊擁有客觀的正確率。
五、結(jié)論與展望
本文針對百度搜索指數(shù)、電影排片場次及平均銷售價格對于房地產(chǎn)銷售總額的影響,提出了基于神經(jīng)網(wǎng)絡(luò)利用機器學習對各參數(shù)進行高次函數(shù)建模擬合的方法,并通過對百度搜索指數(shù)、電影排片場次、平均銷售價格與房地產(chǎn)銷售總額建立函數(shù)關(guān)系進行了應(yīng)用,為未來利用不同自變量對因變量的預測提供了指導。本文獲得的主要結(jié)論如下:
(1)基于單層神經(jīng)網(wǎng)絡(luò),采用平方誤差函數(shù)作為損失函數(shù),小批量隨機梯度下降法作為優(yōu)化算法,近似離散下降的方式動態(tài)調(diào)整學習率,進而建立了以百度搜索指數(shù)、電影排片場次及平均銷售價格為自變量,房地產(chǎn)銷售總額為因變量的5次函數(shù)。所建模型適用于與處理后單位相同,且位于上海的數(shù)據(jù)。
(2)以房地產(chǎn)銷售總額為對象,基于神經(jīng)網(wǎng)絡(luò)實踐了機器學習模型在互相之間關(guān)系較淺的多特征擬合問題的應(yīng)用。本文所建模型的預測值與實際值雖然有一定的誤差,但函數(shù)更為平緩,有利于對于樣本時期之外的數(shù)據(jù)進行預測。同時小批量隨機梯度下降法與動態(tài)調(diào)整學習率的使用使得模型效率較高,100000次迭代在普通的家用筆記本電腦上可以在約30分鐘內(nèi)完成。
當然,本文的模型由于僅僅考慮了經(jīng)濟水平與大眾購買意愿這兩個因素,在實際使用時出于社會文化因素等原因的影響會出現(xiàn)一定的偏差。若要完全了解并構(gòu)建出能夠精準預測房地產(chǎn)銷售額的多特征模型,我們?nèi)孕柙谖磥硗度氪罅康墓ぷ?,考慮更多的因素,并展開更深入的研究。
參考文獻
[1] ?基于MATLAB的房價預測與調(diào)控模型研究[J]. 成鴻飛,王江鵬,余琴.科協(xié)論壇(下半月). 2010(06)
[2] ?基于BP神經(jīng)網(wǎng)絡(luò)的房價預測[D]. 崔慶都.西南石油大學 2011
[3] ?動手學深度學習[M]. 阿斯頓·張.人民郵電出版社.2019