張同輝,苑 瑩,曾 文
(1.東北大學(xué)工商管理學(xué)院,遼寧 沈陽 110169;2.中國科學(xué)技術(shù)信息研究所,北京 100038;3.瑞士蘇黎世聯(lián)邦理工學(xué)院管理技術(shù)與經(jīng)濟系,瑞士 蘇黎世 8952)
投資者對股市信息的關(guān)注是導(dǎo)致市場價格波動的前提和基礎(chǔ),“有效市場假說”認為參與市場交易的投資者是“理性、同質(zhì)的決策體”[1],投資者關(guān)注有限性引發(fā)的認知偏差并不會對市場價格波動產(chǎn)生影響。而事實上,由于市場中信息不對稱、交易摩擦等問題,大量投資者是非理性、異質(zhì)的,投資者行為對市場波動的影響并非如經(jīng)典假設(shè)般無足輕重。有限理性的投資者擁有不同的投資偏好、關(guān)注不同的市場信息,由此形成了不同的市場認知和未來預(yù)期。投資者對市場認知的偏差會通過交易行為反饋到市場價格的波動中。由于大量投資者認知和預(yù)期不同而產(chǎn)生的價格波動反映了投資者關(guān)注對股票市場的內(nèi)源性影響。
目前,大多數(shù)學(xué)者已經(jīng)認同異質(zhì)的投資者關(guān)注會對股票市場波動產(chǎn)生影響。但受制于投資者關(guān)注無法準確衡量,現(xiàn)有研究大多通過定義不同期限的市場累積波動率來模擬異質(zhì)投資者的行為。突破基于股市歷史價格數(shù)據(jù)研究市場波動的局限,將投資者關(guān)注對市場波動的直接影響考慮進市場波動率的相關(guān)研究中,不僅對明晰股票市場運行機制有一定的啟發(fā)性意義,對金融市場的實踐也具有重要的應(yīng)用價值。
現(xiàn)有市場波動率的研究大多基于GARCH 族和SV 族模型。但隨著高頻數(shù)據(jù)可獲得性的提高,基于日內(nèi)高頻數(shù)據(jù)研究市場波動率成為學(xué)術(shù)界和實務(wù)界的廣泛共識。Andersen和Bollerslev[2]提出的已實現(xiàn)波動率(realized volatility,RV)測度方法和Corsi[3]基于“異質(zhì)市場假說”構(gòu)建的異質(zhì)自回歸模型(HAR),逐漸成為普遍接受的市場波動率測度及建模方法。
其后,大量學(xué)者分別從對內(nèi)將已實現(xiàn)波動率進一步分解為連續(xù)性波動和跳躍性波動兩部分,對外通過引入杠桿效應(yīng)等其他變量對HAR 模型進行改進。例如:Andersen等[4]基于多種跳躍統(tǒng)計檢驗方法,建立了HAR-RV-J和HAR-RV-CJ模型,證實了分離已實現(xiàn)波動可以提高HAR-RV 模型的預(yù)測表現(xiàn)。Corsi等[5]利用修正的門限多次冪變差提出了HAR-RV-TCJ模型。Corsi和Reno[6]進一步將收益率負向沖擊的異質(zhì)結(jié)構(gòu)引入HAR 模型,構(gòu)建了LHAR 模型。此外,國內(nèi)學(xué)者馬鋒等[7]提出兩個含跳躍識別檢驗的符號跳躍變差,宋亞瓊和王新軍[8]提出考慮跳躍行為及杠桿效應(yīng)的LHARQ-CJ模型,羅嘉雯等[9]構(gòu)建包含杠桿效應(yīng)的HAR 貝葉斯時變模型等,都從內(nèi)外兩個角度對HAR 模型進行了不同程度的改進。
國內(nèi)外學(xué)者關(guān)于市場波動率模型的研究已十分豐富,但現(xiàn)有文獻均是基于市場交易的歷史數(shù)據(jù)來研究和預(yù)測未來市場波動率,即使如HAR 類模型,也未將投資者關(guān)注等因素有效的引入波動率模型之中。隨著行為金融學(xué)的興起,定量化研究投資者的關(guān)注行為,并進一步研究投資者關(guān)注對市場的影響成為新的研究熱點[10-12]。
傳統(tǒng)的投資者關(guān)注通常使用漲停板事件[13]、廣告費用[14]以及新聞報道[15]等間接代理變量。隨著互聯(lián)網(wǎng)的普及,基于海量在線搜索數(shù)據(jù)量化投資者關(guān)注行為成為新的可能。Da等[16]首次采用谷歌趨勢(Google Trends)研究投資者關(guān)注,發(fā)現(xiàn)與傳統(tǒng)間接代理變量相比,搜索引擎的搜索指數(shù)可以更直接的反映投資者對股票的關(guān)注程度。Aouadi等[17]在個股層面證實了以谷歌趨勢為代理變量的投資者信息需求與股票市場流動性存在正向相關(guān)關(guān)系。Joseph等[18]和Smith[19]的研究均表明,谷歌搜索強度可以可靠地預(yù)測股票回報和交易量。Hamid等[20]和Dimpfl等[21]利用谷歌趨勢預(yù)測道瓊斯工業(yè)平均指數(shù)的波動時也發(fā)現(xiàn),預(yù)測的準確性會隨著投資者關(guān)注的增強而顯著提高。Weng等[22]證實了納斯達克市場上市公司股票具有與市場指數(shù)相同的結(jié)論。Peilin[23]從跨期網(wǎng)絡(luò)搜索與市場波動的影響關(guān)系出發(fā),指出網(wǎng)絡(luò)搜索的增加可能預(yù)示著市場波動性的增加,并將降低后一期的股票回報率。Dzieliński等[24]進一步研究了投資者關(guān)注的非對稱性與市場波 動 間 的 關(guān) 系 問 題。Yu Lean 等[25]和Guan Hongjun等[26]則從網(wǎng)絡(luò)搜索角度對市場波動預(yù)測問題進行研究,指出與傳統(tǒng)波動率預(yù)測方法相比,考慮網(wǎng)絡(luò)搜索數(shù)據(jù)可以獲得更好的預(yù)測效果。
然而,與谷歌搜索相比,百度搜索引擎在中國市場具有更為廣泛的市場份額,成為研究中國市場投資者關(guān)注的重要數(shù)據(jù)來源。例如,俞慶進和張兵[27]利用百度指數(shù)代理投資者關(guān)注,發(fā)現(xiàn)投資者關(guān)注與同期股票收益率之間存在正向相關(guān)關(guān)系。Fan等[28]的研究也證實基于百度指數(shù)的投資者關(guān)注對未來市場價格表現(xiàn)存在正向壓力。趙龍凱等[29]利用百度指數(shù)研究了投資者關(guān)注與股票收益率之間的關(guān)系,發(fā)現(xiàn)高關(guān)注股票的收益率要顯著大于低關(guān)注股票。Wang Xiaolin等[30]基于股指期貨市場的研究發(fā)現(xiàn)百度搜索在短期內(nèi)存在反轉(zhuǎn)效應(yīng)。Shen Dehua等[31-33]通過系列研究證實了百度搜索信息流與市場收益率波動存在顯著的領(lǐng)先滯后關(guān)系。衛(wèi)強等[34]通過研究個股的百度搜索量和目標股票價格間的關(guān)系,提出了個股層面的交易策略。張誼浩等[35]、Kou Yi等[36]和陳聲利等[37]的研究都試圖證實基于百度指數(shù)的網(wǎng)絡(luò)搜索量具有預(yù)測未來股票市場的作用。
綜上所述,目前國內(nèi)外學(xué)者的研究已經(jīng)證實投資者關(guān)注與股票市場具有顯著的相互影響關(guān)系。但是較少學(xué)者深入探討投資者關(guān)注對未來市場波動的預(yù)測作用,也未提出系統(tǒng)的研究方法和模型,而且現(xiàn)有研究中投資者關(guān)注與市場波動在統(tǒng)計上的強相關(guān)性,也無法得出投資者關(guān)注就是導(dǎo)致市場波動的影響因素[38]。只有進一步揭示投資者關(guān)注是否存在對市場的預(yù)測能力,才能更好的理解二者之間的關(guān)系,也更具實踐意義?;诖?,本文以中國股票市場最具代表性的上證指數(shù)和深證成指為研究樣本,通過聚合多種網(wǎng)絡(luò)搜索指數(shù)數(shù)據(jù),分別構(gòu)建了上證指數(shù)和深證成指的投資者關(guān)注指標。然后基于時間延遲的去趨勢交叉相關(guān)性分析(DCCA)方法[39],克服現(xiàn)有研究中面臨的時間序列的不穩(wěn)定性和非線性特征等問題,深入探究投資者關(guān)注和股票指數(shù)序列間的交叉相關(guān)性及其領(lǐng)先滯后關(guān)系。
與以往研究相比,本文的主要貢獻在于:首先,本文將投資關(guān)注從個股層面轉(zhuǎn)向股票市場的整體,克服了個股層面投資者關(guān)注研究面臨的噪聲交易者和關(guān)注度不足的問題。其次,不同于現(xiàn)有利用搜索引擎絕對搜索量或?qū)?shù)處理的形式構(gòu)造投資者關(guān)注指標的方法,本文采用多種網(wǎng)絡(luò)搜索指數(shù)的相對變化率定義新的投資者關(guān)注代理變量,不僅彌補了已有方法的部分缺陷,而且在實證研究中驗證了新指標的有效性。再次,本文將投資者關(guān)注與股票市場的關(guān)系研究拓展到非線性的交叉相關(guān)性研究,并進一步揭示了二者的傳導(dǎo)方向和傳導(dǎo)強度,從而為投資者關(guān)注融入波動率預(yù)測模型掃清了障礙。最后,本文將投資者關(guān)注變量引入波動率預(yù)測模型,構(gòu)建了新的投資者關(guān)注波動率預(yù)測模型,并證實了在投資者高關(guān)注時期,引入投資者關(guān)注變量可以更加有效的預(yù)測中國股票市場。
本文選擇2011年1月4日至2016年11月10日上證指數(shù)(000001.sh)和深證成指(399001.sz)5分鐘高頻數(shù)據(jù)作為研究樣本。選擇上述研究樣本基于以下三點考慮:(1)上證指數(shù)和深證成指作為上海證券交易所和深圳證券交易所各自代表性指數(shù),能夠充分反映中國證券市場價格波動的整體態(tài)勢和運行狀況。(2)由于滬深兩地交易所上市公司規(guī)模的不同,上證指數(shù)和深證成指可以分別代表大盤股票和中小盤股票的波動性特征,進而提高研究的全面性和穩(wěn)健性。(3)百度指數(shù)提供自2011年1月1日之后的搜索數(shù)據(jù),剔除非交易日數(shù)據(jù),共可得到1422個交易日數(shù)據(jù),這一樣本區(qū)間涵蓋了中國證券市場相對完整的牛熊市波動周期。
上證指數(shù)和深證成指5 分鐘高頻數(shù)據(jù)來源于Wind數(shù)據(jù)庫,同期的網(wǎng)絡(luò)搜索數(shù)據(jù)通過抓取百度指數(shù)(http://index.baidu.com)官方網(wǎng)站獲得。上海和深圳證券交易所每個交易日有4個小時的交易時間,在5分鐘的采樣頻率下,每個交易日內(nèi)共有48個樣本點(不含開盤價)。本文采用已實現(xiàn)波動率衡量股票市場波動,與日收益率平方相比,這種方法可以有效降低噪聲及誤差對波動率估計量的影響。形式如下:
其中RVsz,t和RV sc,t分別代表第t日的上證指數(shù)和深證成指的已實現(xiàn)波動率。
本文選擇百度指數(shù)作為構(gòu)建投資者關(guān)注度代理變量的基礎(chǔ)。百度指數(shù)是根據(jù)百度每日海量用戶網(wǎng)絡(luò)搜索數(shù)據(jù)整理而成。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告(2017年7月)》和《2015 年中國網(wǎng)民搜索行為調(diào)查報告》及Stat Counter的統(tǒng)計數(shù)據(jù),在中國6.09億搜索引擎用戶中,百度搜索的品牌滲透率為93.10%,樣本期內(nèi)百度搜索月均市場占有率為69.03%。此外,上海證券交易所和深圳證券交易所統(tǒng)計年鑒也表明,中國網(wǎng)絡(luò)搜索用戶和股民的地區(qū)分布、年齡結(jié)構(gòu)、學(xué)歷層次具有高度耦合性,這說明百度作為占據(jù)市場主導(dǎo)地位的搜索引擎,亦是大多數(shù)投資者的首要信息檢索工具,因此以百度指數(shù)為基礎(chǔ)構(gòu)建投資者關(guān)注代理變量具有很好的代表性。
現(xiàn)有文獻大多采用百度指數(shù)絕對搜索量或?qū)?shù)數(shù)據(jù)作為投資者關(guān)注的代理變量。這種方法存在明顯的不足:(1)隨著互聯(lián)網(wǎng)的普及和手機搜索用戶的崛起,百度指數(shù)經(jīng)歷了井噴式的快速發(fā)展,現(xiàn)有文獻中采用的絕對搜索量和對數(shù)處理的方法已不能滿足數(shù)據(jù)平穩(wěn)性這一基本假設(shè)。(2)相對于搜索量的絕對變化,投資者每日關(guān)注的相對變化趨勢更能反映百度搜索存量用戶對股票市場的關(guān)注,因此蘊含了更有價值的關(guān)注信息。(3)由于百度指數(shù)自身量級的急劇變化,傳統(tǒng)方法在模型參數(shù)估計方面也面臨較大的困難。
此外,上證指數(shù)和深證成指作為中國最具代表性的股票市場指數(shù),不同區(qū)域投資者的語言偏好不同,可能會使用股指的全稱、簡稱、股指代碼等不同關(guān)鍵詞進行檢索。俞慶進和張兵[27]指出搜索證券簡稱和證券代碼的用戶,更可能是潛在的投資者。因此,本文在考慮不同搜索關(guān)鍵詞的同時采用了百度指數(shù)“需求圖譜”功能。該功能提供了樣本期內(nèi)不同搜索關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系及關(guān)聯(lián)強度。圖1展示了以“深證成指”和“399001”為搜索關(guān)鍵詞的百度需求圖譜。
從圖1可以看出:(1)上證指數(shù)和深證成指的百度指數(shù)搜索關(guān)鍵詞具有極強的搜索關(guān)聯(lián)性,這不僅說明滬深兩市的投資者具有高度耦合性,也說明將這兩只股指成對研究具有理論和實踐上的必要性。(2)“深證成指”和“深證指數(shù)”也具有較強的相關(guān)性,這說明同一股指在不同投資者群體中存在不同的簡稱。(3)股指簡稱和股指代碼互不為相似關(guān)鍵詞,這說明投資者使用百度搜索信息時具有較為固定的搜索習慣,較少投資者混用股指名稱和股指代碼進行搜索。因此,本文采用股指名稱和代碼的集合構(gòu)成相應(yīng)股指的網(wǎng)絡(luò)搜索指數(shù)。即,以“上證指數(shù)”、“000001”和“上證”的百度指數(shù)搜索集合定義上證搜索指數(shù)(BaiduSVsz),以“深證成指”、“399001”和“深證指數(shù)”的百度指數(shù)搜索集合定義深成搜索指數(shù)(BaiduSVsc)。進一步,通過每網(wǎng)絡(luò)搜索指數(shù)BaiduSVt的相對變化率定義投資者關(guān)注度代理變量(BIt):
其中BaiduSVi,t表示從百度指數(shù)獲取的第i只股指的第t日的網(wǎng)絡(luò)搜索指數(shù)。
圖1 百度搜索關(guān)鍵詞需求圖譜
通過對樣本期內(nèi)上證指數(shù)和深證成指市場表現(xiàn)的考察,本文以2014年10月28日為節(jié)點將樣本數(shù)據(jù)劃分為兩個子區(qū)間。圖2是上證指數(shù)已實現(xiàn)波動率和搜索指數(shù)的雙坐標圖,表1為樣本指數(shù)的基本統(tǒng)計特征。
從圖2可以看出,上證指數(shù)在樣本期內(nèi)的已實現(xiàn)波動率和搜索指數(shù)具有高度正向同步性,市場高漲時期的投資者網(wǎng)絡(luò)搜索指數(shù)也顯著升高,市場低迷時期的投資者網(wǎng)絡(luò)搜索指數(shù)也在低位震蕩徘徊。因此,根據(jù)市場波動強度和投資者關(guān)注水平劃分樣本區(qū)間,進而研究投資者關(guān)注與市場波動態(tài)勢間的影響關(guān)系,可以更好的揭示二者之間的相互作用機制。
由表1可知,在樣本期二時期,上證指數(shù)和深證成指已實現(xiàn)波動率的均值、標準差均顯著高于樣本一時期,說明滬深證券市場的波動強度在兩個子時期發(fā)生了改變。此外,樣本期內(nèi)的已實現(xiàn)波動率序列的偏度和峰度表明,與正態(tài)分布相比其形態(tài)表現(xiàn)為右偏性及尖峰特征;通過Jarque-Bera統(tǒng)計量也可以看出,波動率序列在1%的顯著性水平下拒絕了正態(tài)分布的假設(shè);ADF 單位根檢驗和滯后5、10、22期的Ljung-BoxQ檢驗表明,已實現(xiàn)波動率序列是存在自相關(guān)特征的平穩(wěn)序列。在兩個子樣本期內(nèi),投資者關(guān)注大部分的描述性統(tǒng)計特征與已實現(xiàn)波動率相似,也是存在自相關(guān)特征的非正態(tài)分布的平穩(wěn)序列。
圖2 上證指數(shù)已實現(xiàn)波動率和搜索指數(shù)雙坐標圖
表1 樣本指數(shù)已實現(xiàn)波動率和投資者關(guān)注統(tǒng)計量
本文采用基于時間延遲的DCCA 方法判定投資者關(guān)注和市場指數(shù)波動之間的影響關(guān)系及傳導(dǎo)方向。該方法在DCCA 方法的基礎(chǔ)上引入時間延遲變量τ,可以更好的判定不同時滯下序列的交叉?zhèn)鲗?dǎo)方向和領(lǐng)先滯后關(guān)系。為了更加清晰的展示各序列的傳導(dǎo)方向,參照文獻[40]定義傳導(dǎo)強度指標,形式如下:
圖3和圖4分別是樣本指數(shù)與投資者關(guān)注在不同時滯下的交叉相關(guān)關(guān)系圖。
圖3 不同時滯下上證指數(shù)與投資者關(guān)注交叉相關(guān)性圖
圖4 不同時滯下深證成指與投資者關(guān)注交叉相關(guān)性圖
從圖3(a)、(c)和圖4(a)、(c)可以看出,已實現(xiàn)波動率和投資者關(guān)注滯后1~22日的標度指數(shù)均大于0.5,表明二者之間存在顯著的長程相關(guān)性;而且,在第二個樣本時期內(nèi)的標度指數(shù)均顯著高于第一個樣本時期,表明隨著市場指數(shù)波動性的提高和投資者關(guān)注的顯著增強,這一時期表現(xiàn)出更強的聯(lián)動性特征。從圖3(b)、(d)和圖4(b)、(d)可以看出,當滯后1 期時,兩個樣本區(qū)間的和都顯著為負,表明市場指數(shù)波動對投資者關(guān)注的影響更強;同時,在兩個樣本區(qū)間內(nèi),隨滯后階數(shù)的增加呈現(xiàn)衰減趨勢,說明隨著市場波動時滯和投資者關(guān)注時滯的延長,投資者關(guān)注與市場指數(shù)波動間相互影響逐漸減弱,這可能是因為投資者進行交易決策時更加關(guān)注短期內(nèi)的市場信息和市場波動,受中長期市場表現(xiàn)的影響較??;此外,第二個樣本時期內(nèi)高于基線(零線)的數(shù)量要明顯多于第一個樣本時期,這說明在市場波動更為劇烈的時期,投資者關(guān)注對市場指數(shù)的波動存在更為持久的影響。
綜上,投資者關(guān)注與市場指數(shù)波動存在顯著的相關(guān)性,當投資者關(guān)注(市場指數(shù)波動)滯后時,會對當期市場指數(shù)波動(投資者關(guān)注)產(chǎn)生影響,并且這種影響會隨著滯后期的增大而逐漸衰減。因此,二者之間的傳導(dǎo)是雙向的。但是,從傳導(dǎo)強度來說,投資者關(guān)注對市場指數(shù)波動的傳導(dǎo)要始終強于反向的傳導(dǎo),而且傳導(dǎo)強度隨著市場波動性的提高而顯著增強。
ARMA 模型是一種較為成熟的波動率預(yù)測模型,由自回歸(AR)和移動平均(MA)兩部分構(gòu)成,標準的ARMA(p,q)模型如下:
但是,ARMA 模型沒有考慮金融資產(chǎn)普遍存在的長記憶性,即波動序列的自相關(guān)性;而ARFIMA模型中AR 部分表現(xiàn)出的緩慢的雙曲線衰減過程可以較好模擬波動時間序列的自相關(guān)行為,本文沿襲Andersen等[41]的建模思路,采用ARFIMA 模型對已實現(xiàn)波動率建模,ARFIMA(p,d,q)模型如下:
其中(1-L)d代表分數(shù)差分算子,μ為母體均值。
Corsi[3]將交易者分為三類:日交易者,周交易者及月交易者,分別代表短期、中期和長期交易,建立了HAR-RV 模型。HAR-RV 模型既具有長記憶特征又體現(xiàn)了波動信息異質(zhì)性,形式如下:
其中RV t、RVt-5和RV t-22分別代表日、周和月的已實現(xiàn)累積波動率。
Andersen等[4]的研究表明,將已實現(xiàn)波動率分解為持續(xù)性部分和跳躍性部分,進而構(gòu)造HARRV-J模型和HAR-RV-CJ模型,可以顯著提高HAR-RV 模型的預(yù)測精度。這兩種模型的表達形式如下:
其 中J t= max(RV t-BPV t,0),BPV t=是標準正態(tài)分布隨機變量Z絕對值的均值;Ct=I(Zt≤Φa)·RV t+I(Zt≥Φa)·BPV t,CJ t=I(Zt>Φa)·[RV t-BPV t],I(·)是示性函數(shù)。
為了考察“杠桿效應(yīng)”對未來波動的非對稱性影響,Corsi等[6]引 入變 量 來 構(gòu)建了LHAR-RV 模型,其表達形式如下:
從前文投資者關(guān)注與市場指數(shù)的關(guān)系研究可知,滯后的投資者關(guān)注對市場指數(shù)具有更強的影響。因此,對已有模型的一種自然改進就是將投資者關(guān)注變量BI t加入已有模型。
本文首先將投資者關(guān)注變量引入ARMA 類模型,在ARMAX 和ARFIMAX 模型范式的基礎(chǔ)上,分別建立ARMA-BI(p,q,b)模型和ARFIMABI(p,d,q,b)模型。以ARMA-BI為例,在ARMA 模型回歸中引入滯后b階的投資者關(guān)注變量BI t,具體形式如下:
其中H(L)=η1L+…+ηb L b代表滯后b階的滯后算子。
隨后,本文進一步將代表投資者累積關(guān)注的BI t、BIt-5和BIt-22變量引入HAR 模型,分別建立HAR-RV-BI、HAR-RV-JBI、HAR-RVCJBI、LHAR-RV-JBI和LHAR-RV-CJBI共5種投資者關(guān)注模型。為了更加清晰的表示HAR類模型,在下文中均省略模型名稱中的RV 部分,即上述5種改進模型在下文中分別簡寫為HAR-BI、HAR-JBI、HAR-CJBI、LHAR-JBI和LHARCJBI。以HAR-BI模型為例,其形式如下:
表2和表3分別是上證指數(shù)ARMA 類模型和HAR 類模型的參數(shù)估計結(jié)果。由于與上證指數(shù)結(jié)果相似,為節(jié)省篇幅,本文省略了深證成指的參數(shù)估計結(jié)果。
從表2和表3 可得到如下結(jié)論:(1)從表2 可知,ARFIMA 模型分整參數(shù)d的估計值顯著大于0,說明與ARMA 模型相比,ARFIMA 模型可以更好的擬合樣本序列具有的顯著長記憶性和分數(shù)維單整性質(zhì)。(2)從表3可知,代表短期、中期和長期已實現(xiàn)波動率的參數(shù)(βd、βw和βm)在大部分情況下都是顯著的,說明市場波動存在很強的持續(xù)性。此外,通過對比兩個樣本時期參數(shù)顯著性可以發(fā)現(xiàn),市場的跳躍行為和“杠桿效應(yīng)”在第二個樣本時期更為明顯,說明在市場波動較劇烈的階段更易發(fā)生并捕捉到上述行為。(3)綜合比較兩表的擬合優(yōu)度R2可知,預(yù)測模型在第二個樣本時期內(nèi)的樣本擬合能力要顯著優(yōu)于第一時期。在第一個樣本區(qū)間內(nèi),ARMA 類模型的樣本擬合能力要稍遜于HAR 類模型;在第二個樣本區(qū)間內(nèi),ARMA 類模型的樣本擬合能力大幅提升,尤其是ARFIMA-BI模型的R2超過本時期內(nèi)的其他預(yù)測模型。(4)對比包含投資者關(guān)注變量的改進模型和原始模型的參數(shù)估計結(jié)果可知,改進模型的擬合效果要明顯優(yōu)于原始模型。通過觀察投資者關(guān)注變量的t統(tǒng)計量值和顯著性水平也可以發(fā)現(xiàn),除樣本期一的上證指數(shù)HAR-BI模型外,其他改進模型中投資者關(guān)注變量的參數(shù)估計結(jié)果(η和βbid、βbiw、βbim)至少存在一個在10%的顯著性水平上顯著;而且,投資者關(guān)注變量的參數(shù)顯著性水平在樣本期二內(nèi)顯著提升。因此,投資者關(guān)注變量的加入更好的解釋了股票市場的波動性特征。
表2 上證指數(shù)ARMA類模型參數(shù)估計結(jié)果
表3 上證指數(shù)HAR 類模型參數(shù)估計結(jié)果
為進一步研究上述波動率模型的預(yù)測能力,本文采用“滑動時間窗”的樣本外預(yù)測方法,將樣本區(qū)間的前80%劃分為估計樣本,將余下的20%作為保留樣本。此外,由于目前對波動率預(yù)測模型的評價標準尚未有統(tǒng)一意見,因此本文采用了5種廣泛使用的損失函數(shù)指標作為判斷模型預(yù)測精度的標準。形式如下:
與此同時,為進一步增強檢驗結(jié)果的穩(wěn)健性,本文采用“模型信度設(shè)定”(MCS)檢驗[42]方法來提高檢驗結(jié)果的準確性。樣本指數(shù)的MCS檢驗結(jié)果分別在表4和表5中列示。
從表4可知:(1)不論在何種損失函數(shù)標準及MCS統(tǒng)計量下,除ARFIMA 模型的T SQ統(tǒng)計量外,其他ARMA 類模型都被檢驗剔除(p值小于0.1),即這兩類模型的預(yù)測效果明顯弱于HAR 類模型。(2)對比表中包含投資者關(guān)注變量的改進模型和原始模型的檢驗結(jié)果可知,總體來說,幸存的改進模型和原始模型的數(shù)量并未有顯著差異;但是,原始模型的損失函數(shù)值普遍低于改進模型,其對應(yīng)的p值也普遍高于改進模型。因此,在第一個樣本時期,加入投資者關(guān)注變量的改進模型并未表現(xiàn)出顯著的改進作用。(3)HAR-J、HAR-CJ、LHAR-J 和LHAR-CJ在14種模型中的波動率預(yù)測效果較為突出,每個模型至少在一種損失函數(shù)標準和MCS統(tǒng)計量下獲得了最小的損失函數(shù)值和最大的p值(p=1)。這一結(jié)果有力地證明了HAR 類模型在市場走勢的平穩(wěn)時期具有良好的預(yù)測能力。進一步,LHAR-CJ模型和LHAR-J模型各自在3 種損失函數(shù)標準(LHAR-CJ:MAE、HMAE、R2LOG,LHAR-J:HMSE、MAE、HMAE)及對應(yīng)的MCS統(tǒng)計量(p=1)下,被檢驗為樣本指數(shù)預(yù)測值的最優(yōu)模型。因此,與其他模型相比,這2種波動率預(yù)測模型的優(yōu)勢更為顯著。這也說明,雖然同處于第一個樣本時期,上證指數(shù)和深證成指的波動特征也存在細微的差異。
從表5可知:(1)與第一個樣本時期相比,ARMA 類模型在本時期的預(yù)測能力顯著提升。尤其是加入投資者關(guān)注變量的ARFIMA-BI模型,在五種損失函數(shù)標準和MCS統(tǒng)計量下獲得了最小的損失函數(shù)值和最大的p值(p=1);此外,上證指數(shù)的ARMA-BI模型也在MAE 標準及對應(yīng)的MCS統(tǒng)計量下,表現(xiàn)出更優(yōu)的預(yù)測能力。這說明,市場的劇烈波動吸引了更多投資者的加入,大量投資者在網(wǎng)絡(luò)上搜索市場信息使投資者關(guān)注變量的信息含量更為充分,因此加入投資者關(guān)注變量BIt可以顯著改善模型的預(yù)測能力。(2)通過10種HAR 類模型的檢驗結(jié)果可知,總體來說,HAR 類模型的預(yù)測能力要稍弱于ARMA 類模型;同時,加入投資者關(guān)注變量的改進模型的表現(xiàn)要稍強于原始模型,這一特征在MAE、HMAE 和R2LOG 三種標準下更為突出(改進模型的損失函數(shù)值更?。?。因此,雖然在市場平穩(wěn)時期的原始HAR 類模型表現(xiàn)出更優(yōu)的波動率預(yù)測能力;但是隨著市場逐漸從低谷期走向繁榮期,股市的繁榮吸引了眾多投資者的強烈關(guān)注,所以在本時期內(nèi)加入投資者關(guān)注變量的改進模型可以獲得比原始模型更優(yōu)的樣本外預(yù)測效果。
表4 上證指數(shù)和深證成指在樣本一時期的損失函數(shù)及MCS檢驗結(jié)果
表5 上證指數(shù)和深證成指在樣本期二時期的損失函數(shù)及MCS檢驗結(jié)果
注:表中數(shù)字為損失函數(shù)值,每種損失函數(shù)下的最小值用加粗表示;MCS檢驗的顯著性水平設(shè)定為90%,表中括號內(nèi)數(shù)字為進行了10 000次Bootstrap模擬的MCS檢驗p值,p值大于0.1(加粗和下劃線的數(shù)字)表示對應(yīng)模型通過MCS檢驗,TR和T SQ分別為范圍統(tǒng)計量(Range statistic)和半二次方統(tǒng)計量(Semi-quadratic statistic)。
本文采用連續(xù)等級概率評分(CRPS)方法來進一步檢驗實證結(jié)果的穩(wěn)健性。CRPS方法可以突破正態(tài)分布的假設(shè)限制,并且考慮到了分布的位置和形狀特征,在風險度量、資產(chǎn)配置等眾多對波動分布形態(tài)更為關(guān)注的領(lǐng)域,擁有更好的預(yù)測評價能力。CRPS衡量的是預(yù)測值與實際值累計分布函數(shù)的絕對誤差平均,具體形式如下:
其中F為累計分布函數(shù),I{·}是示性函數(shù)。CRPS是負導(dǎo)向的評分方法,即CRPS值越小,說明模型的預(yù)測精度越高。樣本指數(shù)的檢驗結(jié)果在表6中列示。
從表6可以看出,CRPS與MCS的檢驗結(jié)果基本一致,HAR 類模型和ARMA 類模型在兩個樣本時期依次顯示出更優(yōu)的預(yù)測能力。通過觀察成對排列的改進模型和原始模型,原始模型的CRPS值在樣本一時期均低于改進模型,而在樣本二時期高于改進模型。此外,在CRPS檢驗中,LHAR-CJ和LHAR-J模型分別為上證指數(shù)和深證成指在樣本期一的最優(yōu)模型,ARFIMA-BI模型為上證指數(shù)和深證成指在樣本期二的最優(yōu)模型。上述結(jié)果不僅證明了MCS檢驗結(jié)果的穩(wěn)健性,而且進一步驗證了投資者關(guān)注變量在市場劇烈波動時期具有更為優(yōu)異的預(yù)測能力。
表6 樣本指數(shù)CRPS檢驗結(jié)果
本文基于百度指數(shù)定義了新的投資者關(guān)注代理變量,以中國股市最具代表性的上證指數(shù)和深證成指為研究樣本,建立了新的投資者關(guān)注波動率預(yù)測模型。本文研究結(jié)果表明:投資者關(guān)注不僅可以提高現(xiàn)有波動率預(yù)測模型的樣本內(nèi)擬合能力,而且在投資者高關(guān)注時期,投資者關(guān)注可以顯著且穩(wěn)健的提高波動模型的樣本外預(yù)測能力。
本文的研究結(jié)果具有重要的實踐意義??紤]到中國的網(wǎng)絡(luò)規(guī)模和網(wǎng)絡(luò)用戶已躍居世界第一,在互聯(lián)網(wǎng)的覆蓋廣度和使用深度方面,具有其他國家無法比擬的獨特優(yōu)勢。而搜索引擎作為基礎(chǔ)的網(wǎng)絡(luò)服務(wù),記錄和保存了海量的信息檢索數(shù)據(jù)。充分挖掘這些檢索數(shù)據(jù)隱含的金融價值,對投資者來說,可以“先人一步”的把握市場發(fā)展趨勢,增加獲利機會;對監(jiān)管部門而言,可以更加高效的監(jiān)控市場動態(tài),強化市場監(jiān)管績效,加快形成完備有效的股票交易市場。