陳 玉,李述山
(山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,山東 青島 266590)
微博博主的專業(yè)性和微博內(nèi)容傳遞的廣泛性與快捷性使得微博信息成為影響消費(fèi)者信息評價(jià)的重要因素,微博情感分析可以顯示博主對當(dāng)前事件的情感和觀點(diǎn),張淯婷提出一種基于決策樹的微博情感度判斷方法[1]123-126,并對微博情感做了探索性空間分析,為中文微博平臺(tái)的海量文本規(guī)律研究提供一個(gè)新的視角。劉德喜提出與特定語言無關(guān)的基于分類思想的微博新情感詞抽取方法[2]1-23,并根據(jù)微博數(shù)據(jù)集和情感詞典自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù)、訓(xùn)練分類器并判別候選詞的情感極性,最后采用投票機(jī)制確定候選詞的情感極性。Keran(1971)在研究貨幣供給量與貨幣供給增長率、貨幣供給量與股票價(jià)格、貨幣供給增長率與股票價(jià)格之間的線性關(guān)系時(shí),在模型中額外加入利率作為一種影響因素[3]635-654。Hamburger與Kochin(1972)在Keran研究的基礎(chǔ)上額外加入公司債券利率和當(dāng)期價(jià)格水平,并以此識(shí)別貨幣供給量確實(shí)對股票價(jià)格波動(dòng)造成了直接的影響[4]27-34。
基于上述研究,本文擬利用情感傾向點(diǎn)互信息算法建立微博情感量化方法,以EGARCH—GED模型為基礎(chǔ),通過添加微博情感變量的方式建立模型,并采用實(shí)際微博數(shù)據(jù)及股市數(shù)據(jù)進(jìn)行實(shí)證研究,綜合考查微博情感對股票市場收益率、波動(dòng)率等方面的影響。
本文基于簡體中文情感極性詞典,通過SO—PMI算法篩選出部分領(lǐng)域情感詞并計(jì)算情感傾向點(diǎn)互信息[5]89-95,具體方法如下。
1.在新浪微博選取若干位在上證市場分析方具有較大影響力博主,粉絲量要在20萬以上。
2.假設(shè)某日(t-1日)的微博內(nèi)容能夠?qū)Φ诙?t日)的股市收益產(chǎn)生影響,根據(jù)博主在該天發(fā)布的微博內(nèi)容,將微博內(nèi)容進(jìn)行分詞法分析。
(1)建立數(shù)據(jù)集{set},包括積極基準(zhǔn)詞組Pword和消極基準(zhǔn)詞組Nword兩類;
(2)運(yùn)用情感傾向點(diǎn)互信息算法計(jì)算情感傾向。
首先,計(jì)算基準(zhǔn)詞word1和候選詞word2的點(diǎn)互信息(PMI),其計(jì)算公式為:
(1)
式(1)中PMI>0表示兩個(gè)詞正相關(guān),值越大,相關(guān)性越強(qiáng);PMI=0表示兩個(gè)詞是統(tǒng)計(jì)獨(dú)立的不相關(guān)也不互斥;PMI<0表示兩個(gè)詞負(fù)相關(guān);
其次,計(jì)算一個(gè)詞的情感傾向點(diǎn)互信息(SO—MI),其計(jì)算公式為:
(2)
式(2)中,word表示候選詞,Pword與Nword分別表示該文本的積極基準(zhǔn)詞組和消極基準(zhǔn)詞組,Pwords與Nwords分別表示積極詞集合和消極詞集合。
通常情況下,將0作為SO—PMI的閥值,相應(yīng)得到三種狀態(tài):SO—PMI>0表示該詞有正面傾向,即褒義詞;SO—PMI=0表示該詞有中性傾向,即中性詞;SO—PMI<0表示該詞有負(fù)面傾向,即貶義詞。
3.量化微博情感變量。本文采用如下方式量化微博情感:針對t-1日的微博,定義t日的微博情感變量WBt=
(3)
式(3)中,N表示博主(博文)的數(shù)量,gs與SO—PMIst分別表示第s博主(博文)的權(quán)重及t日的情感傾向點(diǎn)互信息,k表示博文中積極詞的個(gè)數(shù),l表示消極詞的個(gè)數(shù)。此時(shí),-1WBt1,-1WBt<0表達(dá)消極情感;WBt=0表達(dá)中立情感;0 經(jīng)典的ARMA(m, n)—EGARCH(p,q)具體結(jié)構(gòu)如下: (4) 將得到的微博情感變量作為外生變量加入EGARCH模型,以考察微博情感對股票市場的影響,參數(shù)估計(jì)采用極大似然估計(jì)法,相應(yīng)的假設(shè)檢驗(yàn)采用漸進(jìn)似然比檢驗(yàn)法。 1.在均值方程中加入微博情感變量,得到模型(5): (5) 在模型(5)中考慮檢驗(yàn)問題:原假設(shè)H0∶θ1=0,備擇假設(shè)為H0∶θ1≠0,如果拒絕原假設(shè),說明微博情感對市場收益有顯著影響。 2.在方差方程中加入微博情感,模型為: (6) 在模型(6)中考察檢驗(yàn)問題:原假設(shè)H0∶θ2=0,備擇假設(shè)為H0∶θ2≠0,如果拒絕原假設(shè),說明微博情感對市場的條件波動(dòng)率有顯著影響。 3.在均值方程和方差方程中均加入微博情感,模型的表達(dá)式為: 本文實(shí)證數(shù)據(jù)來源為網(wǎng)易財(cái)經(jīng),選取起始時(shí)間為2016年6月1日,截止時(shí)間為2017年12月31日,同時(shí)對數(shù)據(jù)進(jìn)行節(jié)假日處理,即非周末的休市日期,按照最近一個(gè)交易日的數(shù)據(jù)進(jìn)行補(bǔ)齊,最終處理指數(shù)是頻率為一周五天的日數(shù)據(jù),共388個(gè)對數(shù)收益率。選定楊德龍、水皮、李大霄、但斌、花榮5位博主的微博(388天),積極基準(zhǔn)詞和消極基準(zhǔn)詞如表1所示。 表2給出了上證指數(shù)對數(shù)收益率序列的ADF單位根檢驗(yàn)結(jié)果,對數(shù)收益率序列為平穩(wěn)序列。 利用赤池信息準(zhǔn)則,建立ARMA(1,1)模型,采用ARCH—LM檢驗(yàn)法對殘差序列進(jìn)行異方差性檢驗(yàn),認(rèn)為對數(shù)收益率序列存在ARCH效應(yīng),可以使用條件異方差模型進(jìn)行建模。由表3 可以看出,對數(shù)收益率的偏度值小于0,說明序列分布左偏;對數(shù)收益率峰度值高于正態(tài)分布的峰度值3,呈現(xiàn)出高峰厚尾形態(tài)。因此,我們采用基于廣義誤差分布的ARMA—EGARCH模型,結(jié)合赤池信息準(zhǔn)則最終建立ARMA(1,1)—EGARCH(1,1)—GED模型,其參數(shù)估計(jì)結(jié)果列于表4。 表1 積極和消極基準(zhǔn)詞表 積極基準(zhǔn)詞看漲、抄底、反彈、利好、利多、突破、中陽線、收復(fù)、反攻、牛市、慢牛、漲停、滿倉、加倉、攀升、上攻、上揚(yáng)、修復(fù)、止跌、穩(wěn)企、陽線、樂觀、上升、探底、高升、高走、井噴、補(bǔ)倉、補(bǔ)漲、回暖、看好、普漲、增量、強(qiáng)反消極基準(zhǔn)詞看跌、減倉、跌、跌破、利空、空頭、恐慌、低迷、筑底、危險(xiǎn)、熊市、悲觀、陰線、低、低開、解禁、空倉、回調(diào)、割肉、看空、跳水、下跌、跌停、弱勢、暴跌、沖高、砸盤、觀望、疲軟、被套、平倉、謹(jǐn)慎、調(diào)整、縮量、惡戰(zhàn)、觀察、歇整、走低 表2 ADF單位根的檢驗(yàn)結(jié)果 ADF值1% level5% level10% levelProb-11.18964-3.495677-2.890037-2.5820410.0000 表3 對數(shù)收益率統(tǒng)計(jì)性描述 均值標(biāo)準(zhǔn)差偏度峰度J-B檢驗(yàn)0.0011211.914941-0.1392397.402920785.8288 表4 基于模型(4)的參數(shù)估計(jì) φ0φ1η1ωα1β1γ1AIC0.00163(0.5700)0.92424(0.0125)-0.99648(0.0223)-0.248634(0.02095)-0.15456(0.05219)0.97307(0.19249)-0.2411(0.000)-6.5562 ARCH效應(yīng)檢驗(yàn)表明模型消除了 ARCH效應(yīng),因此模型的擬合效果良好。 鑒于ARMA(1,1)—EGARCH(1,1)—GED模型表現(xiàn)良好,故在該模型基礎(chǔ)上通過添加微博情感變量建立相應(yīng)模型,即分別在模型(5)、(6)、(7)中取m=n=p=q=1對微博情感對股票市場的影響進(jìn)行實(shí)證研究,參數(shù)估計(jì)及假設(shè)檢驗(yàn)結(jié)果分別列于表5、表6及表7。 表5 基于模型(5)的參數(shù)估計(jì) φ0φ1η1ωα1β1γ1θ1AIC-0.00147(0.53636)0.46955(0.0000)-0.66020(0.00000)-6.30497(0.00014)-0.65804(0.0064)0.33364(0.03429)0.08686(0.7799)1.20042(0.0106)-7.2352 表6 基于模型(6)的參數(shù)估計(jì) φ0φ1η1ωα1β1γ1θ2AIC0.00183(0.83970)0.75277(0.0110)-0.89709(0.1494)-8.21737(0.0082)-0.85752(0.0131)0.21804(0.4666)0.1314(0.7068)-0.00333(0.0000)-7.23279 表7 基于模型(7)的參數(shù)估計(jì) φ0φ1η1ωα1β1γ1θ1θ2AIC0.00135(0.3822)0.79505(0.0068)-0.92757(0.0278)-0.94276(0.0000)-0.14961(0.0323)0.89959(0.0000)-0.01539(0.6319)0.0026(0.0000)0.17628(0.0000)-7.23956 ARCH效應(yīng)檢驗(yàn)表明三個(gè)模型皆消除了 ARCH效應(yīng),因此模型的擬合效果很好。 由表5可以看出,微博情感變量的系數(shù)θ1的p值為0.0106,表明微博情感對股市收益有顯著的影響。其估計(jì)值顯著大于0,說明微博博主的市場分析與實(shí)際市場行為一致程度較高。 由表6可以看出,微博情感變量的系數(shù)θ2的p值為0.0000,說明對股市波動(dòng)有顯著的影響。其估計(jì)值顯著小于0,說明微博博主的市場分析有利于市場穩(wěn)定。 針對模型(7),經(jīng)計(jì)算檢驗(yàn)問題H0:θ1=0,θ2=0檢驗(yàn)的p值為0.0001,說明博情感對股市收益或股市波動(dòng)有顯著影響。 本文研究微博情感對股票市場的影響為目的,主要進(jìn)行了三方面工作。第一,以情感傾向點(diǎn)互信息 (SO—PMI)為基礎(chǔ)建立了一種微博情感的量化方法。第二,通過在EGARCH模型中添加微博情感變量作為外生變量的方法建立了三個(gè)考察微博情感對股票市場影響的計(jì)量模型。第三,使用上證市場的實(shí)際數(shù)據(jù)及實(shí)際的微博數(shù)據(jù)針對微博情感對股票市場的影響問題進(jìn)行實(shí)證研究,實(shí)證結(jié)果表明所建模型是有效的,專業(yè)人士的微博內(nèi)容對股票市場影響顯著,我國股市投資者具有跟風(fēng)的特點(diǎn),投資理念不強(qiáng),較易受到外界信息影響。 但本文的研究還存在一些不足之處。 第一,微博信息的利用方面還有待進(jìn)一步加強(qiáng)。本文實(shí)證分析中只是選擇了5位有影響的博主及其博文,尚不能較充分的利用微博信息。基于網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)挖掘方法的研究及應(yīng)用將能較好的破解信息利用不夠充分的問題。 第二,微博情感的量化方法方面還有待進(jìn)一步研究。微博情感信息的挖掘具有很強(qiáng)的專業(yè)性及很高的技術(shù)性,本文實(shí)證研究只是采用了一種較成熟的方法;另外在微博情感的量化方面僅僅給出了一種量化方法,尚需與專業(yè)人員配合并采用多種方法進(jìn)行量化比較。(二)加入微博情感的模型
二、實(shí)證分析
(一)數(shù)據(jù)來源
(二)EGARCH模型擬合
(三)微博情感對股票市場影響
三、結(jié)語
山東理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2019年5期