• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于網(wǎng)絡(luò)搜索數(shù)據(jù)與隨機(jī)森林模型的市場研究

      2022-07-10 13:45:45張大力林大川鄭一帆
      現(xiàn)代信息科技 2022年5期
      關(guān)鍵詞:關(guān)鍵字溫州百度

      張大力 林大川 鄭一帆

      摘 ?要:以溫州市房地產(chǎn)市場為研究對象,基于2011年1月至2020年12月間相關(guān)關(guān)鍵字的百度指數(shù)搜索數(shù)據(jù)和溫州新建商品房銷售價格,通過文本提取獲取初始關(guān)鍵字,并二次拓展關(guān)鍵詞庫,后續(xù)使用相關(guān)時差分析篩選先行且具有相關(guān)性的關(guān)鍵字,再利用隨機(jī)森林遞歸消除篩選出關(guān)鍵字,并根據(jù)篩選出的關(guān)鍵字建立隨機(jī)森林模型,分析并預(yù)測,預(yù)測誤差率在2.989%。

      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;隨機(jī)森林;溫州房地產(chǎn);網(wǎng)絡(luò)搜索

      中圖分類號:TP311 ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2022)05-0134-04

      Market Research Based on Web Search Data and Random Forest Model

      —Take Wenzhou Commercial Housing Market as an Example

      ZHANG Dali1, LIN Dachuan2, ZHENG Yifan2

      (1.Zhejiang college of Security Technology, Wenzhou ?325024, China; 2.College of Life Sciences, Zhejiang University, Hangzhou ?310027, China)

      Abstract: This paper takes the real estate market in Wenzhou as the research object, based on the Baidu index search data of relevant keywords from January 2011 to December 2020 and the sales price of new commercial houses in Wenzhou, and obtains the initial keywords through text extraction, and expands the key thesaurus twice. It uses the relevant time difference to analyze and screen the first and relevant keywords, and uses the recursive elimination of random forest to screen the keywords, and establishes the random forest model according to the selected keywords for analysis and prediction. The prediction error rate is 2.989%.

      Keywords: Web crawker; random forest; Wenzhou real estate; Web search

      0 ?引 ?言

      房地產(chǎn)市場是人民關(guān)注重點(diǎn),它的穩(wěn)定有序發(fā)展影響著地方經(jīng)濟(jì)和人民生活幸福。溫州地處東南,是東南沿海重要的商貿(mào)城市和區(qū)域中心城市。2011年溫州市房價位列全國第一,超過北京、上海等城市,但2021年溫州房價較十年前下降30%,溫州房地產(chǎn)市場的發(fā)展吸引著全國目光。大起伏的房價,對城市發(fā)展造成不可估量的傷害。目前針對溫州地區(qū)房地產(chǎn)市場相關(guān)研究較少,且時間久遠(yuǎn)。對溫州地區(qū)房地產(chǎn)市場進(jìn)行研究,能夠?qū)刂莘康禺a(chǎn)市場穩(wěn)定有序發(fā)展提供支持,以保證今后樓市的平穩(wěn)、健康發(fā)展。同時隨著互聯(lián)網(wǎng)的普及率日益增加,購房者買房前會往往會通過互聯(lián)網(wǎng)全面地搜索和了解信息,因此網(wǎng)絡(luò)搜索數(shù)據(jù)能體現(xiàn)用戶的需求和預(yù)期。搜索行為會在搜索平臺留下相關(guān)記錄,可以利用搜索關(guān)鍵字的數(shù)據(jù)來發(fā)現(xiàn)用戶的行為與房地產(chǎn)市場表現(xiàn)的規(guī)律。

      至2021年12月,我國網(wǎng)民規(guī)模數(shù)量達(dá)到10.11億,互聯(lián)網(wǎng)的普及率還在逐年增加。網(wǎng)民中使用最高的應(yīng)用為搜索引擎、網(wǎng)絡(luò)新聞等。其中搜索引擎的使用率,占比最高的是百度引擎,占我國互聯(lián)網(wǎng)搜索引擎使用率的81.26%。百度在2011年開始發(fā)布百度指數(shù)??紤]到百度引擎在我們網(wǎng)民中使用率高,本文將使用百度指數(shù)中關(guān)鍵字搜索數(shù)據(jù),通過尋找搜索數(shù)據(jù)與溫州市房地產(chǎn)價格之間的關(guān)系,從而建立模型,對溫州市房地產(chǎn)市場價格進(jìn)行預(yù)測分析。

      目前對于網(wǎng)絡(luò)搜索數(shù)據(jù)和房地產(chǎn)的研究,主要經(jīng)歷了以下階段,先是網(wǎng)絡(luò)搜索數(shù)據(jù)對其他經(jīng)濟(jì)領(lǐng)域的研究。劉穎,呂本富[1]運(yùn)用時差相關(guān)性分析法和Granger因果關(guān)系檢驗(yàn)法,研究網(wǎng)絡(luò)關(guān)鍵詞搜索量與上證指數(shù)的關(guān)系。任樂[2]通過證明了北京市搜索數(shù)據(jù)與月旅游客流量之間關(guān)系,并構(gòu)建北京市旅游客流量預(yù)測模型。網(wǎng)絡(luò)搜索數(shù)據(jù)與房地產(chǎn)市場的研究起步較晚,Wu L和Brynjolfsson E[3]引入Google提供的房屋搜索指數(shù)探求房屋搜索指數(shù)與商品房的銷量價格的關(guān)系。Van Dijk D W[4]等使用互聯(lián)網(wǎng)搜索數(shù)據(jù)來研究房地產(chǎn)市場的價格和流動性動態(tài)。國內(nèi)搜索數(shù)據(jù)的研究主要利用百度指數(shù)的搜索量數(shù)據(jù)。董倩[5]以百度搜索指數(shù)為數(shù)據(jù)基礎(chǔ),使用計(jì)量模型對16個城市的二手房價格和新房價格進(jìn)行了擬合和預(yù)測,預(yù)測的月度房地產(chǎn)價格能夠比官方數(shù)據(jù)發(fā)布提前約兩周時間。唐一丁[6]運(yùn)用聚類分析對百度搜索指標(biāo)關(guān)鍵詞進(jìn)行篩選和優(yōu)化后,通過主成分分析合成宏觀和微觀指標(biāo),建立北京新建住宅價格指數(shù)與網(wǎng)絡(luò)搜索數(shù)據(jù)間的回歸模型。盧小溪[7]分析房地產(chǎn)交易量與基于百度搜索關(guān)鍵詞構(gòu)建的網(wǎng)絡(luò)搜索指數(shù)之間的關(guān)系,并得出百度搜索數(shù)據(jù)更適用于商品房成交量的短期預(yù)測,能夠提高預(yù)測的時效性。

      當(dāng)前國內(nèi)研究房地產(chǎn)價格預(yù)測研究中主要存在以下問題:(1)數(shù)據(jù)大多為時效性較低的統(tǒng)計(jì)數(shù)據(jù),研究網(wǎng)絡(luò)搜索數(shù)據(jù)與房價關(guān)系的較少。(2)部分網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測房價研究時,僅考慮了二者之間的相關(guān)程度,忽視了時間序列數(shù)據(jù)的時滯性。(3)網(wǎng)絡(luò)搜索數(shù)據(jù)的關(guān)鍵字篩選較為主觀。(4)較多研究預(yù)測房地產(chǎn)價格時較使用計(jì)量經(jīng)濟(jì)模型。基于此,本文將選取溫州市作為研究對象,利用網(wǎng)絡(luò)搜索數(shù)據(jù)預(yù)測溫州房地產(chǎn)價格。通過選取溫州地區(qū)2011年1月至2020年12月的百度指數(shù)的相關(guān)搜索詞的數(shù)據(jù),利用時差相關(guān)分析,篩選出與溫州新房銷售價格先行且相關(guān)的關(guān)鍵詞,再利用隨機(jī)森林遞歸消除等降維方法,篩選得到最終的關(guān)鍵字?jǐn)?shù)據(jù);以2011年1月至2017年12月的數(shù)據(jù)作為訓(xùn)練集,2018年1月至2020年12月的數(shù)據(jù)作為訓(xùn)練集,利用隨機(jī)森林模型對訓(xùn)練集進(jìn)行訓(xùn)練,通過優(yōu)化獲取最優(yōu)模型,并用模型對溫州房地產(chǎn)價格進(jìn)行預(yù)測。

      1 ?變量描述與模型構(gòu)建

      1.1 ?論基礎(chǔ)

      房產(chǎn)存在價值高,流通性慢的特點(diǎn),因此消費(fèi)者產(chǎn)生購房需求后,會慎重考慮并獲取盡可能多的信息。消費(fèi)者對信息的收集方向反饋消費(fèi)者對房地產(chǎn)市場行為預(yù)期。同時房地產(chǎn)參與主體,面對外部政策變化都存在形成時間過程。互聯(lián)網(wǎng)絡(luò)搜索關(guān)鍵詞變化一定程度上反映了房地產(chǎn)市場所有參與者的行為預(yù)期,市場參與者的消費(fèi)或者供給行為會對市場價格進(jìn)行影響。該理論如圖1所示。

      1.2 ?變量與數(shù)據(jù)對象

      1.2.1 ?研究對象

      國家統(tǒng)計(jì)局從2011年1月份開始發(fā)布70個大中城市的新建商品房價格指數(shù),分別包括新建住宅銷售價格指數(shù)和新建商品住宅銷售價格。本文選取國家統(tǒng)計(jì)局發(fā)布的2011年1月至2020年12月的溫州新建商品房銷售住宅銷售價格作為研究對象。原始數(shù)據(jù)來自國家統(tǒng)計(jì)局官方發(fā)布的月度數(shù)據(jù)。

      1.2.2 ?數(shù)據(jù)描述

      百度指數(shù)是通過記錄用戶在百度搜索引擎上搜索的關(guān)鍵詞,收集檢索痕跡,統(tǒng)計(jì)不同搜索關(guān)鍵字信息在不同地區(qū)每日的檢索量,反映了相關(guān)關(guān)鍵詞在不同地區(qū)、不同時間段的相對關(guān)注度和趨勢。網(wǎng)絡(luò)搜索數(shù)據(jù)的獲取與處理,通過百度指數(shù)的服務(wù)實(shí)現(xiàn)。在百度指數(shù)輸入關(guān)鍵詞,可獲得該詞的搜索量,該搜索量為相對數(shù)據(jù),反映該詞匯在該地區(qū)相對關(guān)注度。獲取的網(wǎng)絡(luò)關(guān)鍵字的百度指數(shù)需要換算成月度數(shù)據(jù)。

      1.2.3 ?解釋變量

      解釋變量是與溫州新房價格相關(guān)的搜索關(guān)鍵字?jǐn)?shù)據(jù)。利用以下方法進(jìn)行網(wǎng)絡(luò)搜索關(guān)鍵字選擇。使用NLPIR系統(tǒng)對爬蟲獲得的百度、新浪網(wǎng)、騰訊新聞網(wǎng)、網(wǎng)易新聞等網(wǎng)站中搜索到的與溫州房價關(guān)聯(lián)度高的新聞進(jìn)行關(guān)鍵詞提取,刪去重復(fù)和無用的詞匯。同時結(jié)合運(yùn)用文獻(xiàn)研究法,參考相關(guān)類似研究所選的初步關(guān)鍵詞,并結(jié)合溫州地區(qū)網(wǎng)絡(luò)搜索數(shù)據(jù)的實(shí)際情況進(jìn)行關(guān)鍵詞的選取,并確定初始關(guān)鍵詞庫,共有7個關(guān)鍵字,分別為:房價、房地產(chǎn)、溫州樓市、商品房、房貸、房源、土地出讓。

      為確保后續(xù)對數(shù)據(jù)的篩選和優(yōu)化,構(gòu)建科學(xué)合理的初始數(shù)據(jù)庫,可以減少后續(xù)工作量。因此要確保拓展的網(wǎng)絡(luò)搜索數(shù)據(jù)足夠豐富,范圍廣泛。使用常見的網(wǎng)絡(luò)搜索數(shù)據(jù)拓展辦法,例如長尾挖掘法、二次搜索法和熱詞推薦等方法對初始關(guān)鍵詞庫進(jìn)行拓展。拓展后共獲得129個網(wǎng)絡(luò)搜索數(shù)據(jù)作為初始的語料庫,如圖2所示。

      初始關(guān)鍵詞 拓展關(guān)鍵字 共計(jì)數(shù)目

      房價 商品房價格,房價走勢,房價走勢圖,房價網(wǎng),房價點(diǎn)評網(wǎng),房價走勢最新消息,房價上漲,房價下跌,房價收入比,暴跌,未來房價走勢,房價會跌嗎,房價計(jì)算器,二手房價格,房價排行,房價評估,經(jīng)濟(jì)適用房價格,房價調(diào)控,房價漲幅,人民幣貶值對房價的影響,租房,房租,價格,人口 25

      房地產(chǎn) 房地產(chǎn)發(fā)展趨勢,房天下,搜房網(wǎng),房地產(chǎn)網(wǎng)站,房地產(chǎn)泡沫,投資性房地產(chǎn),房產(chǎn)投資,房地產(chǎn)交易,房地產(chǎn)中介,房地產(chǎn)開發(fā)商,房地產(chǎn)價格,房地產(chǎn)走勢,房地產(chǎn)新政,房地產(chǎn)崩盤,樓市,房地產(chǎn)市場,房產(chǎn)中介,網(wǎng)簽,溫州房產(chǎn)網(wǎng),炒房,買房政策,限購政策、二手房市場、開發(fā) 25

      溫州樓市 溫州樓市最新消息、溫州樓市新聞、溫州樓市論壇、溫州樓市泡沫、萬科、樓市調(diào)控、溫州房價、二線城市 9

      商品房 商品房買賣合同、商品房銷售管理辦法、商品房預(yù)售許可證、公寓、小產(chǎn)權(quán)房、房改房、樣板房、公租房、商品房買賣、商品房政策、商住房、商住樓、商住兩用房、住宅房和商品房有啥區(qū)別、商品房產(chǎn)權(quán)是多少年、商品房銷售網(wǎng)上管理系統(tǒng) 18

      房貸 房貸利率,房貸計(jì)算,房貸計(jì)算器,房貸提前還款計(jì)算器,房貸利率計(jì)算器,房貸利息,首付,首付比例,買房首付,二手房首付,二手房貸款,二手房貸款流程,公積金房貸計(jì)算器,小產(chǎn)權(quán)房能貸款嗎,銀行房貸,房貸收入證明,房貸首付,房貸政策,房貸利率上調(diào),房貸利息抵個稅,公積金貸款,公積金,降息,利率 25

      房源 房源app、房源網(wǎng)、房源信息一般在哪里看、房源信息發(fā)布平臺、房源詳情模板通用、房源查詢、58同城、房源信息網(wǎng)、房源信息、房源標(biāo)題、套內(nèi)使用面積、鏈家網(wǎng)、租房網(wǎng)站、樓盤查詢 15

      土地出讓 土地出讓金、土地出讓金征收標(biāo)準(zhǔn)、土地出讓流程、土地出讓金征收新政策、土地出讓方式、土地出讓金評估費(fèi)怎么算、土地買賣、土地出讓年限、土地招拍掛、土地招標(biāo)、土地報(bào)批 12

      1.2.4 ?變量篩選

      通過網(wǎng)絡(luò)爬蟲技術(shù),對129個關(guān)鍵字?jǐn)?shù)據(jù)對應(yīng)的百度指數(shù)數(shù)據(jù)進(jìn)行爬取,并對數(shù)據(jù)進(jìn)行以月度為單位進(jìn)行匯總。網(wǎng)絡(luò)搜索數(shù)據(jù)與房地產(chǎn)價格均為時間序列數(shù)據(jù),搜索行為與購買行為之間存在一定的時間差,只有搜索關(guān)鍵字領(lǐng)先于住宅市場價格的關(guān)鍵詞才具有研究價值。從相關(guān)性和領(lǐng)先性這兩個指標(biāo)進(jìn)行考慮,通過時差相關(guān)分析進(jìn)行篩選出與溫州新房銷售價格具有先行關(guān)系且相關(guān)性強(qiáng)的關(guān)鍵字。時差相關(guān)分析的數(shù)學(xué)表達(dá)式為:

      式中時間序列yi為第i期的溫州新房銷售價格;y為溫州新房銷售價格的平均值;時間序列xi為有某個搜索關(guān)鍵字的網(wǎng)絡(luò)搜索數(shù)據(jù);x為有關(guān)房地產(chǎn)價格的網(wǎng)絡(luò)搜索數(shù)據(jù)的平均值;l為時差數(shù)。篩選出l值小于0的關(guān)鍵字,l值小于0代表網(wǎng)絡(luò)搜索關(guān)鍵詞的搜索量變化相溫州新房價格變化具有提前性??紤]到現(xiàn)實(shí)需求,買房需求產(chǎn)生到做出決策大約是在兩個季度內(nèi)完成,因此關(guān)鍵字領(lǐng)先值l最多為8期。同時考慮rl值的大小。相關(guān)系數(shù)rl值的范圍是-1~1的數(shù),其絕對值越大證明相關(guān)性越大,篩選出相關(guān)系數(shù)絕對值大于0.4的所對應(yīng)的網(wǎng)絡(luò)關(guān)鍵字?jǐn)?shù)據(jù)。通過時差分析法,篩選出的具有先前并有較強(qiáng)相關(guān)性的關(guān)鍵字共有15個,分別為:房價走勢、房天下、房地產(chǎn)崩盤、網(wǎng)簽、炒房、買房政策、商品房買賣、商住樓、商住房、房貸利率計(jì)算器、二手房首付、房貸首付、房貸政策、房源、土地出讓。結(jié)果如圖3所示。

      通過時差相關(guān)分析法篩選出15個關(guān)鍵字,后續(xù)使用的模型是隨機(jī)森林模型,屬于機(jī)器學(xué)習(xí)模型,故未進(jìn)行平穩(wěn)性檢驗(yàn)、協(xié)整檢驗(yàn)等。但觀察現(xiàn)有樣本數(shù)據(jù)集,可知數(shù)據(jù)樣本量級不夠多,直接對15個關(guān)鍵字進(jìn)行擬合,容易出現(xiàn)過度解釋的現(xiàn)象,導(dǎo)致預(yù)測效果降低。因此需要對關(guān)鍵字更進(jìn)一步的篩選。此處結(jié)合隨機(jī)森林算法中重要性排序與隨機(jī)森林下的遞歸特征消除方法對15個關(guān)鍵字進(jìn)行篩選。

      首先利用隨機(jī)森林算法對關(guān)鍵詞的重要性進(jìn)行排序,計(jì)算原理為:(1)對所有決策樹根據(jù)袋外數(shù)據(jù)計(jì)算袋外數(shù)據(jù)誤差,記為errorobb1。(2)對所有樣本的特征加入噪聲干擾,再次計(jì)算此時袋外數(shù)據(jù)誤差,記為errorobb2,則特征的重要性可表示為:。使用Python先創(chuàng)建模型后,調(diào)用feature_importances_直接獲取15個關(guān)鍵字在隨機(jī)森林模型中的重要性,結(jié)果如圖4所示。

      根據(jù)重要性排序結(jié)果,篩選重要性系數(shù)大于0.05以上的關(guān)鍵字參數(shù)可知為有9個關(guān)鍵字參數(shù):商住房、房貸計(jì)算機(jī)、房貸政策、商住樓、炒房、網(wǎng)簽、房貸首付、房價走勢和房源。同時綜合考慮隨機(jī)森林下的遞歸特征消除法(RF-RFE算法篩選)。以下為RF-RFE算法的思路[8]:(1)首先使用隨機(jī)森林中feature_importances參數(shù)對現(xiàn)有特征的重要性進(jìn)行排列,重新排列特征順序后,遞歸消除,依次進(jìn)行減少1個特征數(shù)量,重新計(jì)算模型的精度。(2)在特征依次減少的過程中,對模型的精度進(jìn)行可視化選擇,以參數(shù)數(shù)量作為自變量,模型進(jìn)度精度為因變量。(3)選擇最優(yōu)的參數(shù)變量和參數(shù)數(shù)量,根據(jù)預(yù)測精準(zhǔn)度進(jìn)行選擇最優(yōu)參數(shù)的個數(shù)并篩選出特征。四、進(jìn)行重復(fù)交叉驗(yàn)證,保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性。運(yùn)行RF-RFE算法得到運(yùn)行結(jié)果如圖5所示。

      可知在4個關(guān)鍵字的情況下,預(yù)測效果最優(yōu)。4個關(guān)鍵字分別為:房價走勢、炒房、商住房、房貸計(jì)算器。觀察RF-RFE算法關(guān)鍵字運(yùn)行結(jié)果圖,可知RF-RFE方法在關(guān)鍵字精準(zhǔn)篩選過程中確實(shí)可以提高模型預(yù)測的精準(zhǔn)性。結(jié)合隨機(jī)森林變量重要性排序和遞歸特征消除方法進(jìn)行變量的篩選,最終選擇的關(guān)鍵字變量為:房價走勢、炒房、商住房、房貸計(jì)算器。

      2 ?模型建立與分析

      2.1 ?隨機(jī)森林模型

      隨機(jī)森林是一種經(jīng)典集成學(xué)習(xí)算法。隨機(jī)森林模型具有以下優(yōu)點(diǎn):(1)泛化能力高,如果存在較大部分的數(shù)據(jù)缺失,也能保持較好的預(yù)測準(zhǔn)確度。(2)訓(xùn)練速度快,學(xué)習(xí)過程迅速(3)對數(shù)據(jù)的平衡能力強(qiáng),能處理分布不均衡的樣本數(shù)據(jù)。(4)能處理高維度數(shù)據(jù),模型訓(xùn)練效果好。

      隨機(jī)森林模型在訓(xùn)練階段,使用bootstrap采樣從輸入訓(xùn)練數(shù)據(jù)集中采集多個不同的子訓(xùn)練數(shù)據(jù)集來訓(xùn)練多個不同決策樹;在預(yù)測處理回歸問題時隨,機(jī)森林將內(nèi)部多個決策樹的預(yù)測結(jié)果取平均得到最終的結(jié)果。

      文中隨機(jī)森林回歸模型的工作流程如圖6所示。首先對樣本進(jìn)行測試集和訓(xùn)練集的劃分,設(shè)定0.8的比例劃分樣本。然后在隨機(jī)森林模型中輸入訓(xùn)練集,使用機(jī)器學(xué)習(xí)中GridSearchCV篩選出最優(yōu)參數(shù),構(gòu)建隨機(jī)森林回歸樹。最后對模型進(jìn)行效果的預(yù)測,代入測試集數(shù)據(jù),每個回歸樹都會得出預(yù)測值,最終預(yù)測結(jié)果為n個回歸樹預(yù)測結(jié)果的平均值。最后對預(yù)測結(jié)果和真實(shí)結(jié)果進(jìn)行比較,對預(yù)測效果進(jìn)行評估。

      2.2 ?模型評價指標(biāo)

      使用RMSE(均方根誤差)和MPE(平均相對誤差)衡量模型的效果,模型的穩(wěn)定性由RMSE判定,平均相對誤差是相對誤差的絕對值的均值,能直觀地看出預(yù)測效果的優(yōu)劣。兩個評級指標(biāo)的數(shù)值都是越小越好,兩個指標(biāo)的公式為:

      2.3 ?實(shí)證分析

      將樣本數(shù)據(jù)按照比例劃分為訓(xùn)練集和測試集,訓(xùn)練集的時間區(qū)間為2011年1月至2018年1月,測試集的時間區(qū)間為2018年1月至2020年12月,以訓(xùn)練集來建立模型,以檢驗(yàn)集來檢驗(yàn)?zāi)P偷目煽啃?。將?shù)據(jù)導(dǎo)入到Python編程語言中,導(dǎo)入機(jī)器學(xué)習(xí)庫skearn中Random Forest Regressor實(shí)現(xiàn)隨機(jī)森林建模的過程。同時使用機(jī)器學(xué)習(xí)中Grid Search CV進(jìn)行最優(yōu)參數(shù)的篩選,得到最優(yōu)的參數(shù)為:n_estimators=500,bootstrap=True,random_state=0,max_depth=15,min_samples_leaf=1,min_samples_split=2。通過運(yùn)行程序?qū)τ?xùn)練集進(jìn)行擬合,同時計(jì)算出該模型的RMSE和MPE,結(jié)果如圖7所示。

      從表可看出隨機(jī)森林模型預(yù)測精度較高,在測試集中均方根誤差在0.137 3萬元,預(yù)測誤差率在2.989%。可得出結(jié)論,使用4個網(wǎng)絡(luò)搜索關(guān)鍵字?jǐn)?shù)據(jù)并結(jié)合隨機(jī)森林模型的預(yù)測模型,對溫州市新房市場價格有較好的預(yù)測效果,相對于傳統(tǒng)的計(jì)量模型具有一定的先前行。

      3 ?結(jié) ?論

      本文提出的網(wǎng)絡(luò)搜索關(guān)鍵詞的確定方法有較好的篩選作用,并結(jié)合隨機(jī)森林模型對溫州市新房市場價格預(yù)測具有一定的指導(dǎo)性。對溫州地域關(guān)鍵字網(wǎng)絡(luò)搜索數(shù)據(jù)與溫州新房價格數(shù)據(jù)的時差相關(guān)分析發(fā)現(xiàn),網(wǎng)絡(luò)關(guān)鍵字搜索數(shù)據(jù)與人的經(jīng)濟(jì)行為存在一定的相關(guān)關(guān)系,溫州市新房購房者在購買新房時會關(guān)注商住房、房貸利率、房價走勢、房貸政策、房貸首付等信息。將網(wǎng)絡(luò)搜索關(guān)鍵字與隨機(jī)森林模型相結(jié)合的溫州新房價格預(yù)測模型具有較好的預(yù)測效果,可領(lǐng)先官方數(shù)據(jù)公布,可監(jiān)控溫州地域百度搜索關(guān)鍵字?jǐn)?shù)據(jù)的實(shí)時變化對溫州新房市場進(jìn)行監(jiān)控,有很好的預(yù)警效果和時效性。

      參考文獻(xiàn):

      [1] 劉穎,呂本富,彭賡.網(wǎng)絡(luò)搜索對股票市場的預(yù)測能力:理論分析與實(shí)證檢驗(yàn) [J].經(jīng)濟(jì)管理,2011,33(1):172-180.

      [2] 任樂,崔東佳.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的國內(nèi)旅游客流量預(yù)測研究——以北京市國內(nèi)旅游客流量為例 [J].經(jīng)濟(jì)問題探索,2014(4):67-73.

      [3] BERACHA E,WINTOKI M B. Forecasting Residential Real Estate Price Changes from Online Search Activity [J].Journal of Real Estate Research,2013,35(3):283-312.

      [4] VAN DIJK D W,F(xiàn)RANCKE M K. Internet Search Behavior,Liquidity and Prices in the Housing Market [J].Real Estate Economics,2018,46(2):368-403.

      [5] 董倩,孫娜娜,李偉.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價格預(yù)測 [J].統(tǒng)計(jì)研究,2014,31(10):81-88.

      [6] 唐一丁.網(wǎng)絡(luò)搜索數(shù)據(jù)在預(yù)測房地產(chǎn)價格指數(shù)中的應(yīng)用研究 [D].長春:吉林大學(xué),2016:57.

      [7] 盧小溪.基于網(wǎng)絡(luò)搜索的商品房成交量預(yù)測效果研究 [D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2019.

      [8] 褚桂健.基于網(wǎng)絡(luò)搜索數(shù)據(jù)與隨機(jī)森林模型的房地產(chǎn)價格指數(shù)預(yù)測研究 [D].重慶:重慶交通大學(xué),2018.

      作者簡介:張大力(1995.02—),男,漢族,浙江溫州人,助教,碩士研究生,研究方向:大數(shù)據(jù)技術(shù)與應(yīng)用、金融大數(shù)據(jù);林大川(2000.12—)男,漢族,浙江溫州人,本科在讀,研究方向:生物信息;鄭一帆(2000.11—),男,漢族,浙江杭州人,本科在讀,研究方向:信息資源管理。

      猜你喜歡
      關(guān)鍵字溫州百度
      履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
      華人時刊(2022年1期)2022-04-26 13:39:28
      溫州瑞奧工貿(mào)有限公司
      模具制造(2022年3期)2022-04-20 09:17:06
      溫州瑞奧工貿(mào)有限公司
      模具制造(2022年1期)2022-02-23 01:13:30
      溫州,詩意的黃昏
      小讀者(2021年4期)2021-11-24 10:49:03
      Robust adaptive UKF based on SVR for inertial based integrated navigation
      成功避開“關(guān)鍵字”
      百度年度熱搜榜
      青年與社會(2018年2期)2018-01-25 15:37:06
      難忘九二溫州行
      中國篆刻(2017年6期)2017-07-18 11:09:55
      百度遭投行下調(diào)評級
      IT時代周刊(2015年8期)2015-11-11 05:50:22
      百度“放衛(wèi)星”,有沒有可能?
      太空探索(2014年4期)2014-07-19 10:08:58
      千阳县| 巴里| 双流县| 朔州市| 阿克陶县| 鄂托克前旗| 柘城县| 和龙市| 融水| 洛隆县| 新平| 台北市| 游戏| 万年县| 吴江市| 安泽县| 育儿| 修文县| 临高县| 新乡市| 宁都县| 南丰县| 当涂县| 垣曲县| 刚察县| 九龙坡区| 平原县| 河津市| 周至县| 罗山县| 古蔺县| 安达市| 驻马店市| 习水县| 普兰店市| 鄂伦春自治旗| 泽普县| 同仁县| 常州市| 鲜城| 广河县|