蘭州交通大學(xué)數(shù)理學(xué)院 龍江
股市不僅是衡量經(jīng)濟運行的指標(biāo),還可以為未來經(jīng)濟判斷提供重要參考。長期以來,股市一直受到“政策市場”“信息市場”和過度投機等問題的困擾,股市上充斥著各種各樣的新聞和評論。隨著“發(fā)布、傳播、影響”的過程,這些新聞和評論也影響著投資者在股市中的情緒,股民的情緒決定著交易行為,從而使股市中的新聞和評論迅速反映在股價上。散戶在股吧等載體的幫助下,釋放自己的建議和情緒,這些建議和觀點在網(wǎng)絡(luò)上迅速傳播和交融,最終影響人們的實際決策。許多學(xué)者提出了構(gòu)建投資者情緒指數(shù)等指標(biāo)分析股票波動的方法,從而將投資者情緒與股票變化聯(lián)系起來[1~3]。在現(xiàn)有的市場情緒研究中,有的學(xué)者通過選擇合適的情緒指標(biāo)來反映市場情緒[4,5],還有一些學(xué)者利用文本數(shù)據(jù)中的隱含信息來構(gòu)建情緒指標(biāo)[6~8]。魯曉鵬等[9,10]學(xué)者認為新聞文本數(shù)據(jù)中包含利空或利好的情感傾向,可以從中構(gòu)建情緒指標(biāo)。在研究投資者情緒對股票走勢的影響時,郭曉菲等[11]通過構(gòu)建情緒指數(shù)將股民的情緒量化,從而對兩者的關(guān)系進行實證分析。
(1)利用 Python軟件對上證指數(shù)股吧一段時間內(nèi)的評論文本數(shù)據(jù)進行爬取,并進行清洗及分詞處理。
(2)對抓取的評論進行情感傾向分析。利用情感詞典提供的情感詞匯對評論里所有的詞匯賦予情感權(quán)重,計算出每條評論最終的情感得分,再匯總每日所有評論情感值的均值作為反映投資者情緒的指標(biāo)。
(3)情緒指數(shù)與上證指數(shù)價格波動的關(guān)聯(lián)分析。對計算得到情緒指數(shù)與上證指數(shù)相關(guān)指標(biāo)進行相關(guān)性分析,并通過格蘭杰檢驗判斷情緒得分是否對上證指數(shù)走勢產(chǎn)生影響。
本文利用Python軟件中的Selenuim包和Lxml包對東方財富網(wǎng)上證指數(shù)吧版塊的評論信息進行爬取。獲取到2020年 5月21日到2021年5月18日的評論文本數(shù)據(jù),篩選出 10萬多條評論信息作為市場情緒的文本來源,并使用網(wǎng)易財經(jīng)網(wǎng)選取對應(yīng)時間的上證指數(shù)相關(guān)指標(biāo)作為研究對象。
爬取的股吧帖子里大多數(shù)評論是股民對股市行情的看法,但也存在一些無用帖,比如廣告帖等,這些帖子的內(nèi)容會對后續(xù)計算情感指數(shù)產(chǎn)生一定影響,需要去除這部分數(shù)據(jù)。文本去噪主要去掉以下幾類信息:(1)評論為空的帖子。(2)評論中只有數(shù)字、字母或者表情包的帖子。(3)重復(fù)的評論帖子。(4)與股票完全無關(guān)的評論帖子。
本文采用jieba分詞庫對清洗后的評論文本進行分詞處理,由于詞典的覆蓋面有限,故通過詞典與人工結(jié)合的雙重分詞方法,然后對分詞后的評論進行詞頻分析,截取詞頻排名前50的詞語,通過調(diào)用Python語言中的WordCloud進行詞云圖展示,如圖1所示。
圖1 詞云圖
在評論文本中有許多對情感分析毫無意義的詞,如“的”“你”“謝謝”“是”“老師”“狐貍”“說”“今天”等都沒有明確意義和明顯情感傾向的詞被稱為停用詞。由于評論中包含大量停用詞,為了提高效率和分析效果,需要將這類詞過濾。
停用詞刪除之后,本文使用BosonNLP情感詞典,將其與分詞后的文本進行匹配,從而對評論文本進行打分。投資者的情緒傾向是通過評論情感得分來判斷的,情感得分的范圍是0~1,得分越接近1,評論情感越積極,分數(shù)越接近0,評論就越負面。
將上證指數(shù)股吧的評論以日期劃分,基于情感詞典對每日市場情緒指數(shù)進行計算,計算公式如下:
其中,sentimenti表示每條評論的情感得分,情緒指數(shù)emotionsT計算公式表示在第T日所有評論的情感得分均值,情緒指數(shù)的范圍也在0~1。如果情緒指數(shù)趨近于0,表示市場反應(yīng)越低迷,若情緒指數(shù)趨近于1,則市場反應(yīng)越積極,情緒指數(shù)趨于0.5,則市場情緒越平穩(wěn)。每日情緒指數(shù)emotionsT反映了當(dāng)天市場的情感強度。
本文采用情感詞典的情緒指數(shù)構(gòu)建方法,計算了2020年5月21日—2021年5月18日上證指數(shù)的日情緒指數(shù),并繪制了日情緒指數(shù)與上證指數(shù)開盤價的時間序列,如圖2所示。
圖2 情緒指數(shù)與上證開盤價格趨勢圖
由圖2可以發(fā)現(xiàn),情緒指數(shù)的波動在一定程度上反映了上證指數(shù)開盤價格的波動趨勢。為了檢驗情緒指數(shù)對上證指數(shù)價格波動的影響,對日情緒指數(shù)和上證指數(shù)開盤價進行格蘭杰因果關(guān)系檢驗。原始假設(shè)H0表明,情緒指數(shù)的變化不是上證指數(shù)開盤價變化的格蘭杰原因。F統(tǒng)計值和P值用來驗證是否拒絕原假設(shè)H0,置信水平分別為1%、5%、10%,檢驗結(jié)果如表1所示。
表1 Granger因果檢驗
由表1可以看出:當(dāng)滯后階數(shù)為1、2、3時,在5%的置信水平上檢驗結(jié)果都拒絕原假設(shè)HO,說明情緒指數(shù)是上證指數(shù)開盤價格變化的格蘭杰原因,情緒指數(shù)的波動先于上證指數(shù)的價格波動。當(dāng)滯后階數(shù)為4、5時,在5%的置信水平上不能拒絕原假設(shè)H0。研究表明,情緒指數(shù)在短期內(nèi)對上證指數(shù)的開盤價格有一定的影響,但從長期來看,情緒指數(shù)的變化并不影響上證指數(shù)的波動。接著計算情緒指數(shù)與上證指數(shù)開盤價的相關(guān)系數(shù),結(jié)果如表2所示。
表2 相關(guān)系數(shù)
由表2可以看出:上證指數(shù)開盤價格和每日情緒指數(shù)的相關(guān)系數(shù)隨著時間滯后的增加而減少,表明情緒指數(shù)對上證指數(shù)價格波動影響具有一定的時效性,當(dāng)日股民情緒變化,對次日大盤影響最大,隨著時間的推移,情緒指數(shù)對后續(xù)市場的影響逐漸減小。
本文選取上證指數(shù)2020年5月21日—2021年5月18日的交易數(shù)據(jù),結(jié)合對應(yīng)時間里東方財富在線股吧中的股民點評文本數(shù)據(jù),構(gòu)建了情緒指數(shù)。對市場情緒變化與上證指數(shù)開盤價波動進行了相關(guān)分析和格蘭杰因果關(guān)系分析。研究結(jié)果表明:短期內(nèi),投資者情緒是上證指數(shù)價格波動的影響因素。在未來工作中,我們會嘗試探索新的情感詞典構(gòu)建方法以提高評論的情感識別精度,同時股吧里的評論者不能代表市場上的所有投資者,只是部分影響因素,后續(xù)會針對這些問題進一步優(yōu)化。