許天陽
(上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上?!?00030)
本文基于互聯(lián)網(wǎng)大數(shù)據(jù)視角,利用爬蟲技術(shù)獲取新浪股吧中帖子信息及新浪財(cái)經(jīng)多空調(diào)查數(shù)據(jù),通過文本分析和機(jī)器學(xué)習(xí)的方法構(gòu)建投資者情緒指標(biāo),并以上證指數(shù)為例,研究投資者情緒與證券市場之間的相互影響及預(yù)測作用。
行為金融學(xué)自20世紀(jì)90年代興起迅速發(fā)展至今,已有很多學(xué)者嘗試用各種手段,從不同角度定義并衡量投資者情緒指標(biāo),并發(fā)現(xiàn)其會(huì)對(duì)證券市場價(jià)格及波動(dòng)產(chǎn)生重要影響。
投資者情緒最先受到人們關(guān)注是Black(1986)在就任美國金融學(xué)會(huì)主席的演講中全面闡述了噪聲交易者的概念,他指出噪聲交易是金融市場存在的基礎(chǔ),但同時(shí)也提到了噪聲交易者的問題[1]。De, Shleifer, Summers and Waldman(1990)首次提出DSSW噪聲交易者模型,將投資者情緒引入證券市場,指出如果投資者情緒相互影響,噪音交易者可以獲得正的預(yù)期收益,套利者將無法消除非理性行為導(dǎo)致的錯(cuò)誤定價(jià),投資者情緒因而會(huì)成為影響金融資產(chǎn)均衡價(jià)格的系統(tǒng)性風(fēng)險(xiǎn)[2]。Barberis(1998)基于心理學(xué)實(shí)驗(yàn),發(fā)現(xiàn)投資者傾向于過度重視公司近期財(cái)務(wù)數(shù)據(jù)的變化,而無法及時(shí)修正自己的預(yù)測模型,從而解釋了投資者為何會(huì)對(duì)信息反應(yīng)不足或反應(yīng)過度[3]。Brown and Cliff(2004)認(rèn)為投資者情緒即投資者的投機(jī)傾向,或是對(duì)股票市場總體的樂觀、悲觀態(tài)度[4]。
對(duì)于投資者情緒的測度方法,目前學(xué)術(shù)界主要分為直接指標(biāo)和間接指標(biāo)。間接指標(biāo)是指從金融市場中選擇能夠間接反映投資者情緒的變量。Neal(1998)采用封閉式基金折價(jià)率、零股買賣比率及共同基金贖回率三個(gè)指標(biāo)作為投資者情緒的代理指標(biāo),發(fā)現(xiàn)其有助于預(yù)測股市的收益率,尤其是對(duì)于個(gè)人投資者持股比例較高的股票[5]。Kumar and Lee(2004)根據(jù)交易所提供的散戶交易記錄構(gòu)建情緒指標(biāo),發(fā)現(xiàn)低價(jià)股、小盤股及機(jī)構(gòu)投資者持股比例較低的股票往往有較高的超額收益率,且對(duì)投資者情緒變化較為敏感[6]。Baker and Stein(2004)利用換手率作為投資者情緒代理指標(biāo),指出投資者在樂觀時(shí)會(huì)提高股票交易的需求,使得換手率上升,而股價(jià)會(huì)在這個(gè)過程中被高估[7]。Baker and Wurgler(2006)在前人的基礎(chǔ)上,選取了股票換手率、封閉式基金折價(jià)率、IPO首日溢價(jià)率、IPO發(fā)行數(shù)量、股權(quán)融資比例及股利溢價(jià)等6個(gè)指標(biāo),運(yùn)用主成分分析的方法構(gòu)建了一個(gè)綜合投資者情緒指標(biāo),并發(fā)現(xiàn)情緒值對(duì)于小盤股、高成長性、非營利性、不分紅及波動(dòng)較高的股票影響更大[8]。國內(nèi)也有不少學(xué)者借鑒了BW方法,如易志高和茅寧(2009)添加了適合中國股市特色的指標(biāo),如新增投資者開戶數(shù)等,研究了投資者情緒與中國股票市場之間的關(guān)系[9]。
間接指標(biāo)通常來源于金融市場信息,數(shù)據(jù)簡單易得,具有較強(qiáng)的客觀性,但其缺陷在于作為投資者情緒的代理指標(biāo),不可避免地會(huì)存在較大誤差和滯后性。直接指標(biāo)則是通過調(diào)查問卷等形式獲得投資者對(duì)于股票市場的信息,或以政府機(jī)構(gòu)發(fā)布的投資者信心調(diào)查指數(shù)作為直接參考依據(jù)。Fisher and Statman(2000)根據(jù)投資者智慧將投資者情緒分為三類:個(gè)人投資者指數(shù)(AAII)、財(cái)經(jīng)新聞作者情緒指數(shù)、華爾街分析師情緒指數(shù),并發(fā)現(xiàn)前者與后兩者并不相關(guān),且三種指數(shù)都與股票未來走勢負(fù)向相關(guān)[10]。Lee(2002)采用IISI指數(shù)作為投資者情緒指標(biāo),通過與同期的NASDAQ、DJIA和S&P500指數(shù)進(jìn)行實(shí)證分析,發(fā)現(xiàn)其與三種指數(shù)收益率都存在正向相關(guān)性,得出了投資者情緒對(duì)于大盤股和小盤股均具有影響的結(jié)論[11]。國內(nèi)也有類似指標(biāo),例如央視看盤指數(shù)、好淡指數(shù),以及統(tǒng)計(jì)局發(fā)布的中國消費(fèi)者信心指數(shù)、企業(yè)景氣指數(shù)等。王美今、孫建軍(2004)以央視看盤指數(shù)作為投資者情緒指標(biāo)來源,發(fā)現(xiàn)投資者情緒的變化會(huì)顯著影響滬深兩市收益,并反向修正滬深兩市收益波動(dòng),指出滬深兩市均未達(dá)到弱勢有效[12]。程坤、劉仁和(2005)將好淡指數(shù)作為投資者情緒指標(biāo),研究發(fā)現(xiàn)投資者中期情緒指標(biāo)對(duì)股市收益率波動(dòng)的影響要強(qiáng)于投資者短期情緒指標(biāo)[13]。
隨著web2.0時(shí)代的到來,互聯(lián)網(wǎng)及社交媒體在人們生活中被廣泛應(yīng)用,基于互聯(lián)網(wǎng)大數(shù)據(jù)的社會(huì)經(jīng)濟(jì)行為預(yù)測已經(jīng)逐漸成為各領(lǐng)域?qū)W者研究的熱點(diǎn)。
Wysocki(1999)通過搜集Yahoo! Finance股票論壇上的帖子信息,發(fā)現(xiàn)過去一段時(shí)間擁有高回報(bào)、高PE或財(cái)務(wù)表現(xiàn)良好的公司通常發(fā)帖數(shù)更多,并運(yùn)用橫截面分析和時(shí)間序列分析的方法證明了在線股評(píng)數(shù)量可以預(yù)測次日股市的成交量和收益率[14]。Antweiler(2004)分析了Yahoo! Finance和Raging Bull論壇上的股評(píng)信息,并采用了樸素貝葉斯分類器將150萬條股評(píng)分為看多、看空、持平三類,研究發(fā)現(xiàn)在線股評(píng)信息能預(yù)測股市波動(dòng)率,并對(duì)收益率產(chǎn)生統(tǒng)計(jì)學(xué)上的顯著影響,但影響不大[15]。Sehgal(2007) 在分析論壇數(shù)據(jù)時(shí)引入了發(fā)帖者可信度作為情緒值的權(quán)重,發(fā)現(xiàn)情緒指數(shù)與股票市場表現(xiàn)具有相關(guān)性。Bollen, Mao and Zeng(2011)最早通過Twitter信息研究互聯(lián)網(wǎng)公眾情感與股市表現(xiàn),他們利用OpinionFinder和GPOMS工具對(duì)有關(guān)道瓊斯指數(shù)的微博進(jìn)行文本分析并提煉出不同維度的情感指標(biāo),結(jié)果發(fā)現(xiàn)平靜維度的情感在滯后三期后與道瓊斯工業(yè)指數(shù)顯著相關(guān)。
國內(nèi)學(xué)者基于互聯(lián)網(wǎng)信息與文本挖掘視角分析投資者情緒與股市關(guān)系的研究起步較晚。饒育蕾和王攀(2010)選取了246只首次公開發(fā)行的股票作為樣本,以百度指數(shù)作為媒體關(guān)注度的衡量指標(biāo),并指出媒體關(guān)注度通過影響投資者情緒,從而正向影響新股短期超額收益,但對(duì)長期收益會(huì)產(chǎn)生負(fù)面影響。俞慶進(jìn)和張兵(2012)采用百度指數(shù)作為投資者關(guān)注的代理變量,考察創(chuàng)業(yè)板股票市場的波動(dòng),發(fā)現(xiàn)短期內(nèi)的投資者關(guān)注對(duì)創(chuàng)業(yè)板股票具有正向驅(qū)動(dòng)作用,但這種作用很快會(huì)發(fā)生反轉(zhuǎn)。程琬蕓和林杰(2013)利用認(rèn)證機(jī)構(gòu)用戶的新浪微博數(shù)據(jù),對(duì)社交媒體中投資者情緒對(duì)證券市場的動(dòng)態(tài)影響進(jìn)行了分析,發(fā)現(xiàn)兩者存在正相關(guān),但投資者情緒對(duì)于股市的預(yù)測效果僅短期內(nèi)顯著。孟雪井(2016)對(duì)知網(wǎng)CSSCI期刊與新浪微博信息進(jìn)行了文本分析,采用時(shí)差相關(guān)系數(shù)法、隨機(jī)森林算法對(duì)搜索關(guān)鍵詞的百度指數(shù)進(jìn)行篩選,最終利用因子分析法構(gòu)建了投資者情緒指數(shù)。
綜上,國內(nèi)外已有不少學(xué)者針對(duì)投資者情緒與股市之間的關(guān)系展開了相關(guān)研究,但主要都是從傳統(tǒng)金融指標(biāo)出發(fā)來構(gòu)建投資者情緒。隨著互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來,國外學(xué)者率先開始嘗試從Web2.0數(shù)據(jù)中挖掘有價(jià)值信息,但大多是基于英語文本信息及歐美發(fā)達(dá)證券市場進(jìn)行實(shí)證分析。由于中文語言結(jié)構(gòu)與英語存在較大差異,且中國證券市場還處于發(fā)展階段,這方面研究相對(duì)還比較匱乏。目前,國內(nèi)學(xué)者在互聯(lián)網(wǎng)社交媒體及互聯(lián)網(wǎng)搜索角度來挖掘投資者情緒方面已經(jīng)做出了有益的嘗試,但是由于數(shù)據(jù)來源各不相同,情感分析方法相對(duì)較為粗糙,導(dǎo)致投資者情緒指標(biāo)的構(gòu)建不夠準(zhǔn)確,得出的結(jié)論也無法統(tǒng)一,說服力不強(qiáng)。
本文通過網(wǎng)絡(luò)爬蟲技術(shù)爬取新浪股吧及新浪財(cái)經(jīng)多空調(diào)查的數(shù)據(jù),嘗試?yán)脵C(jī)器學(xué)習(xí)的方法,提出較為科學(xué)嚴(yán)謹(jǐn)?shù)奈谋痉治黾扒楦蟹诸惙椒ǎ瑥亩鴺?gòu)建一個(gè)更為準(zhǔn)確的互聯(lián)網(wǎng)投資者情緒指標(biāo),對(duì)中國證券市場和投資者情緒之間的關(guān)系做出進(jìn)一步的驗(yàn)證。
本文主要基于互聯(lián)網(wǎng)社交媒體中在線股評(píng)信息及網(wǎng)絡(luò)投票數(shù)據(jù)進(jìn)行投資者情緒的挖掘和提煉。目前,我國各大門戶網(wǎng)站如新浪、搜狐的財(cái)經(jīng)板塊都開設(shè)了股票論壇,東方財(cái)富網(wǎng)、和訊網(wǎng)、雪球網(wǎng)等財(cái)經(jīng)類網(wǎng)站也都提供了股票論壇(股吧)供投資者交流討論。基于日均游客訪問量、發(fā)帖量及數(shù)據(jù)時(shí)間跨度等綜合因素,本文最終選擇新浪財(cái)經(jīng)股吧作為網(wǎng)絡(luò)社交媒體數(shù)據(jù)來源并從中提取投資者情緒指標(biāo)。
本文通過Python爬蟲程序,從新浪財(cái)經(jīng)的上證指數(shù)股吧抓取了2015年12月14日—2017年3月23日共465天的股市評(píng)論信息,除了帖子文本信息之外,還包括了點(diǎn)擊量、回復(fù)量、發(fā)帖人及發(fā)帖時(shí)間等信息,累計(jì)291 777條記錄。從抓取的數(shù)據(jù)來看,新浪上證指數(shù)股吧日均發(fā)帖量627條,交易日的日均發(fā)帖量更是超過800條,每天帖子的點(diǎn)擊量超過5萬次。由此可見,新浪股吧流量巨大,帖子信息能夠較為真實(shí)地反映網(wǎng)上投資者的情緒。
其次,自2008年起,新浪財(cái)經(jīng)還聯(lián)合《中國證券報(bào)》共同發(fā)布每日的股市多空調(diào)查。所有網(wǎng)民均可通過互聯(lián)網(wǎng)參與投票,投票內(nèi)容包括下一交易日大盤走勢判斷及倉位狀況調(diào)查等信息。該調(diào)查日均參與人數(shù)超過5 000人,具有一定代表性,能在一定程度上反映網(wǎng)上個(gè)人投資者對(duì)目前及未來大盤走勢的看法和情緒。本文同樣利用Python爬蟲程序,抓取了同一時(shí)間段內(nèi)的調(diào)查結(jié)果,由于數(shù)據(jù)量較大,所有股吧和多空調(diào)查數(shù)據(jù)均采用SQLite數(shù)據(jù)庫存儲(chǔ)以便后期處理。
另外,本文以上證指數(shù)作為我國證券市場的代表進(jìn)行研究,數(shù)據(jù)包含同一時(shí)間跨度內(nèi)每日收盤價(jià)、成交量及漲跌幅,剔除節(jié)假日及雙休日后共311個(gè)交易日,證券市場數(shù)據(jù)均來源于Wind數(shù)據(jù)庫。
隨著人工智能技術(shù)的發(fā)展,自然語言處理(NLP)成為目前學(xué)術(shù)界研究的熱點(diǎn),如何將非結(jié)構(gòu)化的文本信息轉(zhuǎn)變?yōu)橛?jì)算機(jī)能讀懂的結(jié)構(gòu)化信息,對(duì)于從股評(píng)信息中提取投資者情緒非常重要。
目前,文本情感分析主要有兩種方法,一是基于情感詞典的情感極性分類,即根據(jù)事先編纂好的情感極性詞典,通過匹配文本信息中有多少積極情緒詞和消極情緒詞,從而判斷文檔整體的情感傾向。這一方法操作簡單,受到許多學(xué)者的青睞,之前國內(nèi)相關(guān)的文獻(xiàn)大多采用此方法構(gòu)建情緒指標(biāo)。但這一方法存在如下缺陷:1.我國文本分析起步較晚,尚沒有形成一個(gè)非常完善的情感辭典。目前較為流行的有知網(wǎng)整理發(fā)布的Hownet辭典及臺(tái)灣大學(xué)發(fā)布的NTUSD辭典,但是由于金融領(lǐng)域尤其是股票市場特有的專業(yè)術(shù)語眾多,普通的情緒辭典無法涵蓋這些術(shù)語。2.由于中文語法與英語存在較大差異,以及一些否定詞、反問句的運(yùn)用,會(huì)使得整個(gè)句子情感傾向發(fā)生巨大變化?;谏鲜鲈颍瑔渭兪褂们楦修o典來判斷股評(píng)信息的情感傾向存在著較大誤差。
另一種情感分析方法是基于機(jī)器學(xué)習(xí)的算法,該方法目前已應(yīng)用在電影書籍、商品信息、餐廳酒店的評(píng)論中,并取得了良好的分類效果。其中,分類表現(xiàn)較好的有SVM、Na?ve Bayesian、kNN等算法。實(shí)驗(yàn)證明,機(jī)器學(xué)習(xí)算法得出的分類結(jié)果通常要優(yōu)于情感詞典方法。因此,本文在前人的研究基礎(chǔ)上,采取機(jī)器學(xué)習(xí)算法并選用SVM分類器,嘗試建立一個(gè)更準(zhǔn)確的情感極性計(jì)算方法,從而為構(gòu)建情緒指數(shù)打下堅(jiān)實(shí)的基礎(chǔ)。
在構(gòu)建情緒指數(shù)前,需要對(duì)每一條帖子進(jìn)行情感傾向的分類,具體步驟與方法如下:
1.數(shù)據(jù)預(yù)處理:對(duì)爬取的29萬條股吧評(píng)論按日期分類匯總,考慮到每天股市的開盤時(shí)間為9:30—15:00,我們認(rèn)為t-1日15:00到t日15:00之間發(fā)布的帖子信息反映了t日投資者的情緒。在剔除與股市信息無關(guān)的水貼如廣告、營銷信息后,最終剩下218 548條帖子記錄。
2.文本分詞:由于中文語句不像英語中每個(gè)詞之間有空格隔開,故需要對(duì)每條帖子進(jìn)行中文分詞處理。本文通過Python中Jieba分詞第三方包,對(duì)清理后的帖子文本進(jìn)行分詞。另外,由于中文句子中存在大量輔助語意表達(dá)的停用詞,如“的、是、了”等,它們對(duì)于情感分類算法沒有作用,故在特征選擇之前先刪去此類停用詞。本文采用哈工大自然語言處理實(shí)驗(yàn)室提供的停用詞表,共1 208個(gè)常用停用詞。
3.人工標(biāo)注訓(xùn)練數(shù)據(jù)集:從近22萬條股評(píng)帖子中隨機(jī)選擇2 000條進(jìn)行人工情感極性標(biāo)注,作為訓(xùn)練數(shù)據(jù)樣本。為避免個(gè)人主觀因素的影響,本研究邀請(qǐng)3名志愿者對(duì)文本的情感傾向進(jìn)行標(biāo)注,分為樂觀、悲觀兩類情緒,取3人的眾數(shù)作為分類結(jié)果。
4.特征表示:為了使計(jì)算機(jī)能夠識(shí)別文本,在進(jìn)行文本分析之前必須將文本表示成計(jì)算機(jī)可以識(shí)別的形式。本文采用目前學(xué)術(shù)界最常用的向量空間模型(VSM),又稱詞袋模型(BOW),作為文本表示方法。經(jīng)過分詞之后,帖子中每一個(gè)出現(xiàn)的詞都成為向量空間中的一個(gè)維度,每個(gè)維度的權(quán)值采用tf-idf算法得出,該方法用來評(píng)估某個(gè)詞語對(duì)于一個(gè)文檔的重要程度:
其中,n為所有特征的個(gè)數(shù),nk為含有特征tk的文檔數(shù),tf為詞頻,idf為逆向文檔頻率,N為訓(xùn)練數(shù)據(jù)中文檔總數(shù),freqitk為在文檔di中包含tk的個(gè)數(shù)。
5.特征選擇:經(jīng)統(tǒng)計(jì),出現(xiàn)在帖子中的詞有近10萬個(gè),如此龐大的維數(shù)必然會(huì)嚴(yán)重降低算法的分類效率。因此,在進(jìn)行機(jī)器學(xué)習(xí)之前,先要提取出對(duì)情感分類有價(jià)值的特征,進(jìn)行降維處理。本文首先剔除詞頻率低于3次及tf-idf值低于閾值的特征,刪去后VSM向量空間內(nèi)的維度下降了近60%。其次,本文采取效果較好的信息增益法(IG)進(jìn)一步進(jìn)行特征選擇,最終篩選出與投資者情緒表達(dá)最相關(guān)的2 500個(gè)詞,即2 500個(gè)維度。
6.運(yùn)用機(jī)器學(xué)習(xí)算法訓(xùn)練實(shí)驗(yàn)數(shù)據(jù):本文采用 10 折交叉驗(yàn)證方法,將實(shí)驗(yàn)數(shù)據(jù)集分成10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù),進(jìn)行訓(xùn)練測試。借助MATLAB中的LibSVM平臺(tái),本文利用SVM分類算法,最終得到的分類結(jié)果如表1所示??梢钥闯觯跈C(jī)器學(xué)習(xí)算法得到的分類準(zhǔn)確率和召回率都達(dá)到了80%左右,高于一般的情感詞典方法。
表1 基于機(jī)器學(xué)習(xí)的文本情感分類評(píng)價(jià)結(jié)果
在上一節(jié)中已經(jīng)得到了每條帖子的情感傾向,用1代表樂觀情緒的帖子,-1代表悲觀情緒的帖子。在將股評(píng)信息按日期分類匯總之后,可以統(tǒng)計(jì)出每天表達(dá)樂觀、悲觀情緒的帖子數(shù)量,分別記作Npos和Nneg。
對(duì)于新浪財(cái)經(jīng)—《中國證券報(bào)》聯(lián)合發(fā)起的多空調(diào)查數(shù)據(jù),我們將第t期看漲指數(shù)Vote_BSIt定義為看漲人數(shù)比例/(看漲+看跌人數(shù)比例),在雙休日的處理上同新浪股吧的方法。
由此,我們得到了兩種基于互聯(lián)網(wǎng)信息挖掘的投資者情緒的時(shí)間序列,分別是互聯(lián)網(wǎng)社交媒體中反映的投資者情緒Guba_BSI和網(wǎng)絡(luò)投票所反映的投資者情緒Vote_BSI。另外,我們還從Wind數(shù)據(jù)庫導(dǎo)出了上證指數(shù)漲跌幅R_SH和成交量Vol_SH的時(shí)間序列數(shù)據(jù)。
互聯(lián)網(wǎng)上投資者在受到證券市場交易活動(dòng)影響的同時(shí),他們針對(duì)股市當(dāng)前和未來走勢所發(fā)表的言論也會(huì)影響到網(wǎng)絡(luò)環(huán)境中其他參與者的投資決策行為。由于投資者瀏覽閱讀信息和進(jìn)行投資決策行為的時(shí)間并不相同,所以股票走勢和互聯(lián)網(wǎng)上投資者所表現(xiàn)的情緒可能在當(dāng)期和未來幾期都存在著相互影響。
因此,本文采用向量自回歸模型(VAR)來檢驗(yàn)網(wǎng)絡(luò)社交媒體及網(wǎng)絡(luò)投票所反映的投資者情緒與證券市場漲跌幅、成交量之間的動(dòng)態(tài)關(guān)系及時(shí)滯關(guān)系。VAR模型的原理是把系統(tǒng)中每一個(gè)內(nèi)生變量作為所有內(nèi)生變量滯后項(xiàng)的函數(shù)來構(gòu)造模型,從而將單變量自回歸模型推廣到由多元時(shí)間序列變量組成的向量自回歸模型。
表2 變量描述性統(tǒng)計(jì)
表2給出了所有變量的描述性統(tǒng)計(jì)信息。在2015年12月14日到2017年3月23日這個(gè)時(shí)間跨度內(nèi),我國證券市場經(jīng)歷了2015年年底的一波急速下跌,隨后在2016年3月逐漸企穩(wěn),到2017年3月間一直延續(xù)著震蕩反彈的格局。從兩種互聯(lián)網(wǎng)投資者的情緒指標(biāo)來看,平均值均大于0.5,說明這一時(shí)間窗口內(nèi)投資者情緒總體較為樂觀,這與股市的走勢基本相符。
通過變量相關(guān)系數(shù)表(表3)可以發(fā)現(xiàn),新浪股吧中反映的投資者情緒與上證指數(shù)日收益率呈58.5%的正相關(guān)性;網(wǎng)絡(luò)投票中反映的看漲指數(shù)與上證指數(shù)日漲跌幅呈43.9%正相關(guān)性,相關(guān)性稍弱于股吧情緒指數(shù)。另外,互聯(lián)網(wǎng)投資者情緒與證券市場成交量之間同樣存在正相關(guān)關(guān)系,相關(guān)性分別為19.5%與17.4%,相關(guān)性不及上證指數(shù)收益率。
表3 變量相關(guān)系數(shù)表
VAR模型以及Granger因果檢驗(yàn)都要求數(shù)據(jù)具有平穩(wěn)的時(shí)間序列,否則可能會(huì)出現(xiàn)偽回歸問題。因此,對(duì)投資者情緒指標(biāo)及證券市場變量進(jìn)行ADF平穩(wěn)性檢驗(yàn)。通過表4發(fā)現(xiàn),各變量均在1%的顯著性水平上拒絕了存在一個(gè)單位根的原假設(shè),說明所有時(shí)間序列都是平穩(wěn)的。
表4 平穩(wěn)性檢驗(yàn)結(jié)果
表5 VAR模型最優(yōu)滯后階數(shù)選擇結(jié)果
*indicates lag order selected by the criterion
表5顯示,根據(jù)VAR模型滯后階數(shù)的確定準(zhǔn)則,F(xiàn)PE、AIC、SC及HQ準(zhǔn)則都指向了滯后一階,因此,認(rèn)為該時(shí)間序列的最優(yōu)滯后階數(shù)為1階,后續(xù)分析均以VAR(1)模型進(jìn)行討論。通過VAR模型的AR根檢驗(yàn)可以發(fā)現(xiàn),所有單位根都落在單位圓內(nèi),說明VAR模型是穩(wěn)定的,可以對(duì)其進(jìn)行一個(gè)標(biāo)準(zhǔn)差的脈沖響應(yīng)函數(shù)分析。
本文利用Granger因果檢驗(yàn)對(duì)互聯(lián)網(wǎng)投資者情緒與證券市場收益率及成交量之間的相互作用關(guān)系做進(jìn)一步分析。如表6所示,在滯后一階的情況下可以發(fā)現(xiàn):1. Guba_BSI和Vote_BSI不是上證指數(shù)收益率的Granger原因均在1%的顯著性水平下被拒絕,而上證指數(shù)收益率不是兩種投資者情緒指標(biāo)的Granger原因則均被接受;2. Guba_BSI在5%的顯著水平下是成交量的Granger原因,反之則不成立。同樣,對(duì)于Vote_BSI來說,在10%顯著水平下是成交量的Granger原因,反之則不成立。
由此可見,在中國證券市場上,互聯(lián)網(wǎng)投資者情緒對(duì)股票市場收益率和成交量具有顯著影響,正確把握投資者情緒對(duì)于預(yù)測股票市場走勢是有幫助的。
表6 Granger因果關(guān)系檢驗(yàn)結(jié)果
Granger因果關(guān)系檢驗(yàn)僅說明一個(gè)變量是否有助于解釋另一個(gè)變量,但不能判斷變量之間作用的方向及影響時(shí)間。而脈沖響應(yīng)函數(shù)是通過在一個(gè)擾動(dòng)項(xiàng)上施加一個(gè)單位殘差的沖擊,用以研究對(duì)系統(tǒng)內(nèi)生變量當(dāng)前和未來值帶來的影響。因此,本文進(jìn)一步通過脈沖響應(yīng)函數(shù)考察互聯(lián)網(wǎng)投資者情緒與證券市場之間的關(guān)系。圖1中橫軸為脈沖響應(yīng)的追蹤期數(shù),縱軸為對(duì)一個(gè)單位殘差的影響程度,實(shí)線表示脈沖響應(yīng)函數(shù),虛線表示正負(fù)兩個(gè)標(biāo)準(zhǔn)差的置信區(qū)間。
圖1 脈沖響應(yīng)函數(shù)結(jié)果
研究發(fā)現(xiàn),當(dāng)受到股吧投資者情緒指數(shù)的一個(gè)正向沖擊,即股吧中投資者表達(dá)的言論較為積極時(shí),證券市場收益率會(huì)在下一期迅速提升,但這一現(xiàn)象僅能持續(xù)一天,隨即便會(huì)回落,在第三第四期上下震蕩后逐漸趨于0。新浪財(cái)經(jīng)多空調(diào)查中的投資者看漲指數(shù)同樣具有類似效果,即前一天投資者對(duì)于下一交易日股票走勢較為樂觀時(shí),收益率會(huì)在下一期產(chǎn)生明顯的正響應(yīng),隨即便迅速回落,作為對(duì)前一期的修正,并在第五期后趨于0。這說明互聯(lián)網(wǎng)投資者情緒對(duì)證券市場指數(shù)的收益具有短期正向影響,且主要集中在5個(gè)交易日內(nèi)。
其次,當(dāng)受到新浪股吧和新浪財(cái)經(jīng)多空調(diào)查中投資者情緒一個(gè)正向沖擊時(shí),成交量在當(dāng)期無明顯響應(yīng),但在第二期開始產(chǎn)生正向響應(yīng),到第三期達(dá)到最大值后逐漸減弱,其成交量的響應(yīng)時(shí)間通常超過10期,明顯長于對(duì)收益率的影響時(shí)間。
為了進(jìn)一步分析互聯(lián)網(wǎng)投資者情緒是否會(huì)影響股市漲跌,本文利用學(xué)術(shù)界較主流的FF三因子模型并加以擴(kuò)展來對(duì)中國股票市場進(jìn)行檢驗(yàn)。1993年,F(xiàn)ama和French通過研究美國股票市場中決定不同股票組合回報(bào)率差異的風(fēng)險(xiǎn)因素,發(fā)現(xiàn)上市公司的市值(ME)、賬面市值比(BE/ME)等因素可以解釋這一差異。
本文選取了上證50組合作為檢驗(yàn)的投資組合。首先,采用傳統(tǒng)的FF三因子模型對(duì)50支股票組成的投資組合收益率進(jìn)行擬合。此后,引入投資者情緒變量形成擴(kuò)展的FF四因子模型,觀察網(wǎng)絡(luò)投資者情緒是否會(huì)對(duì)投資組合超額收益率產(chǎn)生影響。FF三因子數(shù)據(jù)來源于國泰安數(shù)據(jù)庫(CSMAR),投資者情緒數(shù)據(jù)采用本文計(jì)算所得的Guba_BSI數(shù)據(jù)。兩個(gè)模型的計(jì)量表達(dá)式分別如下:
Rit-Rft=αi+βi*(Rmt-Rft)+si*SMBt+hi*HMLt+εit
(1)
Rit-Rft=αi+βi*(Rmt-Rft)+si*SMBt+hi*HMLt+γi*Sentimentt+εit
(2)
研究發(fā)現(xiàn),傳統(tǒng)FF三因子模型的擬合效果AdjustedR2達(dá)到90%以上,可以較好地解釋投資組合的收益率,但對(duì)于部分股市上漲或下跌期內(nèi)的擬合仍存在不同幅度的偏差。而引入投資者情緒之后的擴(kuò)展FF四因子模型相比而言擁有更強(qiáng)的解釋力(見表7),模型在1%的置信水平下通過F檢驗(yàn),AdjustedR2提高到了95.1%,情緒變量Sentiment在1%的置信水平下顯著且系數(shù)為正,進(jìn)一步驗(yàn)證了投資者情緒對(duì)于中國股市收益率存在正向影響。
表7 FF四因子模型回歸結(jié)果
本文基于新浪股吧的在線股評(píng)信息,以及新浪財(cái)經(jīng)每日多空調(diào)查數(shù)據(jù),運(yùn)用文本分析、機(jī)器學(xué)習(xí)等技術(shù)構(gòu)建了一個(gè)較為嚴(yán)謹(jǐn)?shù)幕ヂ?lián)網(wǎng)投資者情緒指標(biāo)體系,并通過VAR模型、Granger因果檢驗(yàn)及FF四因子模型等方法,研究了互聯(lián)網(wǎng)社交媒體及網(wǎng)絡(luò)投票中投資者情緒與上證指數(shù)日漲跌幅及成交量之間的動(dòng)態(tài)關(guān)系,得出以下結(jié)論:
1.用機(jī)器學(xué)習(xí)分類方法得出的文本情感分類準(zhǔn)確性要優(yōu)于之前國內(nèi)學(xué)者普遍采用的基于情感詞典的分類方法。
2.互聯(lián)網(wǎng)社交媒體中的投資者情緒是證券市場收益率Granger原因,即當(dāng)新浪股吧中發(fā)表的帖子情緒較為樂觀(悲觀)時(shí),上證指數(shù)下一期的收益率會(huì)上漲(下跌),但隨后又快速回落。新浪財(cái)經(jīng)多空調(diào)查中的看漲指數(shù)具有類似的效果,可見投資者情緒的預(yù)測效果僅在短期內(nèi)有效。這與國內(nèi)外一些學(xué)者得出的結(jié)論是一致的,也驗(yàn)證了我國股市存在“羊群效應(yīng)”,說明個(gè)人投資者容易受到社交媒體輿論和其他投資者情緒的影響,而盲目追漲殺跌。雖然在短期內(nèi)投資者情緒對(duì)股市有一定的預(yù)測作用,但證券市場走勢很快便會(huì)反轉(zhuǎn)回落。
3.互聯(lián)網(wǎng)投資者情緒是證券市場成交量的Granger原因,且市場成交量受投資者情緒影響的時(shí)間超過10天,長于對(duì)收益率的影響。即當(dāng)投資者情緒高漲(低落)時(shí),股票市場后續(xù)的交易活動(dòng)也會(huì)隨之活躍(低迷),這與實(shí)際情況也是相符的。
4.網(wǎng)絡(luò)投資者情緒的FF四因子模型對(duì)中國股票市場收益率的解釋效果要優(yōu)于傳統(tǒng)的FF三因子模型,進(jìn)一步說明了我國股市仍未達(dá)到弱勢有效,網(wǎng)絡(luò)輿論對(duì)股市漲跌的預(yù)測仍具有一定的指引作用。
隨著中國證券市場制度的日益完善,以及我國投資者與網(wǎng)民素質(zhì)的不斷提高,未來互聯(lián)網(wǎng)社交媒體與在線股評(píng)有望包含更多對(duì)股市有價(jià)值的信息,而文本分析和情感傾向分類技術(shù)的發(fā)展對(duì)于更準(zhǔn)確地提取網(wǎng)絡(luò)投資者情緒也起到了重要作用。本文的實(shí)證結(jié)論對(duì)投資者情緒與股市之間的相互影響提供了重要參考。但由于時(shí)間精力因素的局限,本文只爬取了新浪股吧作為互聯(lián)網(wǎng)社交媒體的代表,后續(xù)研究可以加入其他權(quán)威財(cái)經(jīng)網(wǎng)站如雪球網(wǎng)股民評(píng)論信息,另外在時(shí)間跨度上若能包含牛市、熊市和震蕩市的數(shù)據(jù),將進(jìn)一步驗(yàn)證和完善本文的結(jié)論。