李帥文 劉繼
關(guān)鍵詞:房地產(chǎn);網(wǎng)絡(luò)輿情;情感指數(shù);最大互信息
中圖分類號:TP183 文獻標識碼:A
1 引言(Introduction)
隨著互聯(lián)網(wǎng)的發(fā)展,大量的文本評論信息走進研究者的視野,成為反映房地產(chǎn)關(guān)注者情感表達的重要方式?,F(xiàn)有的研究將文本評論的情感極性(積極或消極)作為反映市場狀態(tài)的指標,而本文通過研究發(fā)現(xiàn),文本評論所蘊含的情緒得分不能直接用于衡量百度指數(shù)的變化,此外文本評論信息屬于非結(jié)構(gòu)化的數(shù)據(jù),具備非線性、非平穩(wěn)性的特征[1],所以以往的量化投資方法應(yīng)用于房地產(chǎn)價格研究并不適用。
近年來,越來越多的研究者嘗試使用深度學(xué)習(xí)解決基于時序數(shù)據(jù)的房地產(chǎn)波動問題。但是,每天會產(chǎn)生很多的房地產(chǎn)評論信息,利用深度學(xué)習(xí)只能得到單個文本的情感極性,因此單一使用深度學(xué)習(xí)得到文本情感用于衡量百度地產(chǎn)指數(shù)走勢是有一定缺陷的。
針對上述問題,本文提出在深度學(xué)習(xí)模型的基礎(chǔ)上構(gòu)建情感指數(shù),通過情感指數(shù)將深度學(xué)習(xí)得到的文本情感進行每日量化,從而估計其對于百度地產(chǎn)指數(shù)的影響。
2 相關(guān)研究工作(Related research work)
現(xiàn)有的對房地產(chǎn)市場輿情的研究可以分為兩類:一類是基于數(shù)值分析;另一類是基于傳統(tǒng)數(shù)學(xué)方法從多角度解讀影響房地產(chǎn)價格波動的因素。
為了能直接利用數(shù)值、數(shù)據(jù),盡可能地了解數(shù)據(jù)背后的規(guī)則,張愛琳等[2]收集包頭市2015—2019年的年平均房價數(shù)據(jù),用其構(gòu)建預(yù)測房地產(chǎn)價格波動的GM(1,1)模型,從而預(yù)測包頭市房地產(chǎn)未來3年的價格變化趨勢。劉洋等[3]發(fā)現(xiàn)應(yīng)用幾何布朗運動模型研究房地產(chǎn)價格變化有一定的優(yōu)勢。幾何布朗運動模型僅單一考慮房地產(chǎn)價格數(shù)值信息,未考慮影響房地產(chǎn)價格變化的直接因素和間接因素。柳冬等[4]在進行房地產(chǎn)價格預(yù)測時,首先對影響房地產(chǎn)價格的因素進行分析,然后選取房地產(chǎn)行業(yè)的熱點問題,利用多種方法分析我國房地產(chǎn)市場價格的變化趨勢。趙怡爽[5]通過多元因子分析,從12個影響指標中挑選出重要性排名前兩位的影響指標,運用層次分析方法將上述指標進行加權(quán)賦值,得到最終綜合分數(shù),進而預(yù)測未來房地產(chǎn)價格變動。邵為爽等[6]利用數(shù)據(jù)挖掘理論,將屬性約簡算法使用到房地產(chǎn)價格影響因素提取上,從而將降維后的數(shù)據(jù)放入網(wǎng)絡(luò)訓(xùn)練并預(yù)測房地產(chǎn)價格走勢。這些方法都是基于影響房地產(chǎn)價格的因素,利用經(jīng)濟模型對房地產(chǎn)價格進行預(yù)測。多元因子分析和層次分析方法皆在基礎(chǔ)模型上加入了其他影響因素。
隨著對影響因素的研究逐漸深入,研究者發(fā)現(xiàn)文本情感信息對房地產(chǎn)價格的預(yù)測有非常重要的影響。因此,融合文本信息的房地產(chǎn)價格預(yù)測模型應(yīng)運而生。
何平等[7]通過構(gòu)建投資者情緒指數(shù),提取股民文本評論情緒用于研究股民的情感變化是否會影響股票市場價格波動。姜富偉等[8]通過專屬情感詞典計算媒體文本情緒指數(shù),發(fā)現(xiàn)媒體文本情緒指數(shù)具有代表性作用,可以作為預(yù)測股票價格變動的參考依據(jù)。由上述研究可知,文本情緒表達會間接干預(yù)經(jīng)濟變化。由于傳統(tǒng)情感分析方法在文本情感分類任務(wù)中耗時多且效率較低,繆亞林等[9]利用CNN和雙向GRU(門控循環(huán)單元)提取文本內(nèi)在特征信息,然后通過單層GRU降維,使用激活函數(shù)進行情感分類。BEHERA等[10]提出將循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)與CNN結(jié)合,發(fā)現(xiàn)CNN-BiLSTM混合模型兼具LSTM和CNN的優(yōu)點,可以使文本分類任務(wù)預(yù)測效果更好。上述研究驗證了深度學(xué)習(xí)在文本情感計算中的優(yōu)越性,隨后研究人員提出深度學(xué)習(xí)文本情感分類和金融預(yù)測聯(lián)合模型。例如,JIN等[11]提出了一種基于LSTM的股票市場預(yù)測模型,該模型考慮了投資者的情緒傾向。
這些現(xiàn)有的基于房地產(chǎn)的研究和利用文本信息預(yù)測股票走勢及提供股票投資建議,讓我們有了基于深度學(xué)習(xí)提取文本情感,將其運用于地產(chǎn)行業(yè)的想法。
3 投資者情感指數(shù)與地產(chǎn)走勢相關(guān)性分析模型(Correlation analysis model of investorsentiment index and real estate trend)
為了高效提取特征,提高預(yù)測精度,本文將CNN和B i L STM網(wǎng)絡(luò)融入一個統(tǒng)一的框架之中,提出了一個名為CNN-BiLSTM的情感分析模型。該模型可以充分利用文本信息,自動學(xué)習(xí)和提取其內(nèi)存特征。CNN-BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)模型如圖1所示。
在此模型中,首先通過Word2Vec(詞向量)模型訓(xùn)練好詞向量,其次使用CNN提取輸入文本的局部特征,再次利用雙向循環(huán)網(wǎng)絡(luò)提取上下文總體文本特征,在通過Softmax分類得到情感極性后,利用自定義情緒指數(shù)計算每天的情感得分,最后將其與地產(chǎn)百度指數(shù)做相關(guān)性分析。
3.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
CNN模型主要是由卷積層和池化層構(gòu)成,卷積之前需要利用文本輸入層提取文本特征,最后通過全連接層得到文本分類結(jié)果。在文本分類任務(wù)中,將文本訓(xùn)練得到的詞向量傳遞給輸入層,然后通過卷積層提取詞語內(nèi)部特征。卷積核的選取可以根據(jù)研究者的需求進行設(shè)置,然后通過池化進行運算,對文本特征做進一步處理,提取主要特征信息,將獲得的信息全部傳輸?shù)饺B接層,通過激活函數(shù)得到文本分類結(jié)果[12]。
設(shè)輸入詞向量為X,卷積神經(jīng)網(wǎng)絡(luò)使用卷積核提取文本信息,從而更好地獲得字詞之間的語義內(nèi)涵,其運算過程如下:
式(1)中, ?表示卷積運算,W和b表示權(quán)重和偏置,f (·)表示激活函數(shù)。把提取到的信息放入池化層,通過運算得到主要信息,運算過程如下:
最后將結(jié)果進行全連接運算。
4 實證分析(Empirical analysis)
4.1 實驗過程
房地產(chǎn)的價格走勢是一個二分類問題,市場參與主體如果持積極客觀的態(tài)度,看好市場未來發(fā)展,那么就可以判定房地產(chǎn)價格走勢極大概率會上升;反之則判定為下降。
本文實驗主要由三個部分構(gòu)成,過程示意圖如圖3所示。
步驟一,分別爬取百度指數(shù)和房地產(chǎn)評論數(shù)據(jù),對百度指數(shù)和房地產(chǎn)評論數(shù)據(jù)進行預(yù)處理,得到百度指數(shù)和房地產(chǎn)評論數(shù)據(jù)庫。
步驟二,對評論數(shù)據(jù)進行人工標注后,利用混合CNNBiLSTM建立評論情感分類模型。
步驟三,將預(yù)測部分評論數(shù)據(jù)輸入“步驟二”得到評論情感分值,利用自定義情緒指數(shù)計算每日最終情感得分,分析其與百度指數(shù)的相關(guān)性。
4.2 實驗數(shù)據(jù)與預(yù)處理
本實驗文本數(shù)據(jù)是相關(guān)房地產(chǎn)交易網(wǎng)頁中2020年1月初至2021年11月末有關(guān)新疆房地產(chǎn)評論文本數(shù)據(jù),首先經(jīng)過人工篩選剔除文本噪聲,其次對文本進行標簽標注,可以獲得11 961條有效數(shù)據(jù)用來對模型進行訓(xùn)練和測試。在本實驗中,研究人員將2020年1月初至2021年5月末共計9 468條數(shù)據(jù)用來訓(xùn)練模型,將2021年6月初至2021年11月末共計2 492條數(shù)據(jù)用來做預(yù)測分析。由于正負樣本不均衡,因此在此處采用下采樣方法做特殊出口。在構(gòu)建詞向量階段,由于缺乏新疆地域性房地產(chǎn)詞典,所以對文本進行分詞處理時,將搜狗網(wǎng)房地產(chǎn)11個詞庫做合并處理,構(gòu)建基礎(chǔ)分詞詞典,在詞基礎(chǔ)上利用結(jié)巴分詞,將人工篩選出的108條詞匯和根據(jù)TF-IDF(詞頻-逆文檔頻率)提取到的前2 000條詞匯添加到分詞詞典,從而完成新疆地區(qū)房地產(chǎn)詞典的構(gòu)建。
4.3 實驗參數(shù)設(shè)置
本實驗中,Keras(人工神經(jīng)網(wǎng)絡(luò)庫)被用作神經(jīng)網(wǎng)絡(luò)的框架,并使用Python編程語言實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)。實驗實現(xiàn)過程需要環(huán)境配置,實驗性能也需要預(yù)定義相關(guān)超參數(shù),環(huán)境配置與具體參數(shù)分別如表1和表2所示,其中Null表示該參數(shù)不需要設(shè)置。
4.4 實驗評價指標
為了直觀、定量地分析所提模型和情感指數(shù)性能,本實驗中采用準確率(Acc)、精準率(P)、召回率(R)和F1四類評價指標測度分類模型。下面給出了4類指標對應(yīng)的計算公式,其中Acc衡量了模型分類準確性,R代表召回率,P代表精準率,F(xiàn)是精確率和召回率的調(diào)和平均數(shù),當參數(shù)α =1時F就是F1測度。
上式中:TP表示預(yù)測的正向文本語料實際為正例;FP表示預(yù)測的正向文本語料實際為負例;TN表示預(yù)測的負向文本語料實際為負例;FN表示預(yù)測的負向文本語料實際為正例。
4.5 情感分類器實驗結(jié)果
為了驗證CNN-BiLSTM模型在文本情感分類的有效性,本文選擇五個對比模型(SVM、LSTM、TextCNN、BiLSTM、BiLSTM+Attention)與本文所提模型進行測試效果對比,其對比結(jié)果如表3所示。
從表3中可以看出,基于CNN-BiLSTM模型對房地產(chǎn)文本分類的準確率為93.38%,基于BiLSTM和BiLSTM+Attention模型的分類性能次之,基于SVM模型的分類效果最差。因此,本文選擇CNN-BiLSTM模型計算地產(chǎn)評論情感極性。
4.6 相關(guān)性分析
在CNN-BiLSTM模型得到情感極性后,通過本文設(shè)計的情感指數(shù)求得地產(chǎn)評論每日的情感得分(score)。首先為了驗證本文提出指標是符合實際的,則需要找出能夠代表新疆烏魯木齊房地產(chǎn)市場發(fā)展以及市場態(tài)度的指標測試指數(shù)。百度指數(shù)是由搜索百度引擎提出的,是基于互聯(lián)網(wǎng)大數(shù)據(jù)統(tǒng)計搜索量的一個指標。搜索量的數(shù)目可以體現(xiàn)投資者對市場的關(guān)注度,從而反映市場情緒變化。因此,選取百度指數(shù)作為檢驗指標,接著將計算出的情感得分和百度地產(chǎn)指數(shù)通過MIC分析相關(guān)性,得到MIC結(jié)果是23.08%,相關(guān)性較弱,繪制出的折線圖如圖4所示。
從圖4可以看出,情緒指數(shù)和百度指數(shù)走勢大致相同,但是MIC的結(jié)果和預(yù)想目標不太一致。通過移動平均值對數(shù)據(jù)做平滑處理,消除一部分噪聲。在對情緒指數(shù)和百度指數(shù)分別做30日的日均線,將情緒指數(shù)滯后5天,重新計算最大信息系數(shù)和繪制折線圖,繪制的折線圖如圖5所示。
計算得到MIC系數(shù)為67.84%,表現(xiàn)出較強相關(guān)性,從圖5中也可以看出情緒指數(shù)和百度指數(shù)趨勢基本一致,說明研究人員利用深度學(xué)習(xí)模型分析情感指數(shù)與百度指數(shù)具有較好的性能。根據(jù)市場情緒走勢,2021年7月,新疆烏魯木齊市投資者情緒高漲,樓市話題度較熱,其中2021年9月市場情緒指數(shù)和百度指數(shù)出現(xiàn)反常情況,這與市場大環(huán)境低迷等情況有關(guān)。2021年,住房和城鄉(xiāng)建設(shè)部提出把發(fā)展保障性租賃住房作為“十四五”住房建設(shè)重點任務(wù),并且提出“三孩”配套支持政策落地:實施差異化租賃和購買房屋優(yōu)惠政策,城市價值不斷凸顯導(dǎo)致情緒高漲,然而近年受某些因素的影響,幾乎所有行業(yè)受到?jīng)_擊,導(dǎo)致市場投資者情緒趨于悲觀趨勢,反映出投資者對房地產(chǎn)市場的擔憂?,F(xiàn)階段國家和房地產(chǎn)企業(yè)拿出各種促銷活動,吸引投資者眼球,使投資者對房地產(chǎn)關(guān)注度有所上升。
5 結(jié)論(Conclusion)
本文在構(gòu)建情緒指數(shù)的基礎(chǔ)上,引入深度學(xué)習(xí)提取文本情感極性分析房地產(chǎn)價格走勢,采用新疆烏魯木齊市房地產(chǎn)行業(yè)文本語料和百度地產(chǎn)指數(shù)對模型進行驗證,結(jié)果表明,通過CNN-BiLSTM模型提取的文本極性,通過構(gòu)建量化情感指數(shù)計算得到某一日情感得分,將其與百度指數(shù)擬合,最大互信息值為67.84%,相關(guān)程度非常高,并且對市場效應(yīng)進行分析,通過移動平滑可以讓二者走勢基本吻合。此模型既可以保證文本情感和房地產(chǎn)價格有較強的相關(guān)性,又可以保障二者走勢的可視化趨于一致,市場決策者可以根據(jù)此模型研究結(jié)論,通過實時測度房地產(chǎn)評論輿情走勢,為數(shù)字經(jīng)濟下市場決策者提供智力支持。
作者簡介:
李帥文(1997-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)智能分析,文本挖掘.
劉 繼(1974-),男,博士,教授.研究領(lǐng)域:數(shù)據(jù)智能分析,文本挖掘.