王春峰, 李嘉毅, 房振明
(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部, 天津 300072)
?
大數(shù)據(jù)下媒體關(guān)注度與股票收益關(guān)系研究
王春峰, 李嘉毅, 房振明
(天津大學(xué)管理與經(jīng)濟(jì)學(xué)部, 天津 300072)
摘要:互聯(lián)網(wǎng)的發(fā)展使得市場(chǎng)信息更容易獲得,互聯(lián)網(wǎng)已經(jīng)成為投資者獲取有價(jià)值信息的主要途徑,也對(duì)投資者行為逐漸產(chǎn)生影響。通過自主開發(fā)的金融數(shù)據(jù)挖掘系統(tǒng),采集了15個(gè)網(wǎng)站150多個(gè)與股票相關(guān)欄目的100余萬條媒體報(bào)道信息,并能夠?qū)崿F(xiàn)對(duì)信息更精細(xì)的統(tǒng)計(jì),使得媒體關(guān)注度能夠在日內(nèi)按照不同時(shí)間段進(jìn)行細(xì)分。在此基礎(chǔ)上,研究交易時(shí)間和非交易時(shí)間媒體關(guān)注度與股票收益之間的關(guān)系。結(jié)果表明,交易時(shí)間的媒體信息對(duì)部分股票收益率產(chǎn)生顯著影響,非交易時(shí)間媒體信息影響較小,雖然這種情況目前存在于部分股票中,但隨著互聯(lián)網(wǎng)進(jìn)一步發(fā)展,網(wǎng)絡(luò)信息將逐步成為需要考慮的風(fēng)險(xiǎn)因素。
關(guān)鍵詞:數(shù)據(jù)挖掘; 媒體關(guān)注度; 互聯(lián)網(wǎng)信息; 百度指數(shù)
互聯(lián)網(wǎng)使人們獲取信息的速度比以往更加便捷,也使得不同投資者之間擁有信息數(shù)量和質(zhì)量上的差距在不斷縮小,平面媒體的影響力逐漸減弱,個(gè)體投資者從以往關(guān)注報(bào)紙、電視報(bào)道轉(zhuǎn)向關(guān)注互聯(lián)網(wǎng)信息。然而,目前我國(guó)市場(chǎng)相比發(fā)達(dá)國(guó)家在成熟度上還有差距,普遍認(rèn)為國(guó)內(nèi)個(gè)體投資者缺乏對(duì)市場(chǎng)的宏觀認(rèn)識(shí),長(zhǎng)期投資較少,市場(chǎng)投機(jī)氛圍濃厚[1]。此外,個(gè)體投資者通過互聯(lián)網(wǎng)獲取宏觀經(jīng)濟(jì)形勢(shì)和個(gè)股的重要信息,并通過在線的討論與其他投資者之間交換信息,進(jìn)而逐步調(diào)整自身的投資,媒體對(duì)個(gè)股的報(bào)道也將會(huì)對(duì)投資者的投資決策產(chǎn)生影響[2]。
在大數(shù)據(jù)背景下,通過自主建立的數(shù)據(jù)挖掘和檢索系統(tǒng),對(duì)抓取的100多萬條數(shù)據(jù)進(jìn)行關(guān)鍵詞(股票代碼+股票名稱)檢索,將個(gè)股相關(guān)信息發(fā)布量直接作為媒體關(guān)注度指標(biāo)。國(guó)外在該領(lǐng)域的研究也處在探索階段,Vlastakis和Markellos(2012)通過google搜索引擎構(gòu)建每周個(gè)股的搜索量指標(biāo),研究信息需求、信息供給與市場(chǎng)波動(dòng)率之間的關(guān)系,并發(fā)現(xiàn)搜索量的增加會(huì)加劇股票的波動(dòng)[3]。
網(wǎng)絡(luò)媒體發(fā)布數(shù)據(jù)的獲取難度較大,國(guó)內(nèi)的研究主要基于平面媒體和搜索引擎。張雅慧、付雷鳴(2011)通過搜集富豪排行榜上榜事件,研究上榜前后時(shí)間窗口內(nèi)股票收益情況,發(fā)現(xiàn)上榜公司股票收益反而降低[4]。張永杰、張維(2011)利用搜索引擎文本挖掘算法研究了每日開源信息與個(gè)股收益率的關(guān)系,發(fā)現(xiàn)網(wǎng)站信息對(duì)部分股票有一定解釋力,但解釋力隨個(gè)股差異變化較大[5]。俞慶進(jìn)和張兵(2012)也利用百度指數(shù)觀察關(guān)鍵詞的檢索情況,并通過百度指數(shù)數(shù)據(jù)定義投資者關(guān)注,研究發(fā)現(xiàn)投資者關(guān)注能夠引起超額收益[6]。本研究準(zhǔn)確獲取了網(wǎng)站媒體發(fā)布信息的情況,將信息的時(shí)間精確度從日度提高到了分鐘,可以將交易時(shí)段和非交易時(shí)段的信息進(jìn)行準(zhǔn)確劃分,增加了數(shù)據(jù)的可信度。進(jìn)而研究收益率與媒體關(guān)注度的關(guān)系,并考慮了交易量、換手率等因素的影響,以檢驗(yàn)我國(guó)市場(chǎng)媒體關(guān)注度是否能夠作為資產(chǎn)定價(jià)因素。
一、 金融數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建
互聯(lián)網(wǎng)的數(shù)據(jù)挖掘是基于人工智能、自然語(yǔ)言處理、模式識(shí)別、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等,改進(jìn)傳統(tǒng)的數(shù)據(jù)挖掘分析技術(shù),從大量非結(jié)構(gòu)化、無結(jié)構(gòu)化數(shù)據(jù)源抽取關(guān)鍵短語(yǔ),表示數(shù)據(jù)的特征,按照數(shù)據(jù)的特征進(jìn)行分類、聚類、關(guān)聯(lián)等獲得有價(jià)值的信息[7]。在此項(xiàng)研究中搭建的金融數(shù)據(jù)挖掘系統(tǒng)從系統(tǒng)構(gòu)架上主要有數(shù)據(jù)層、指標(biāo)層和應(yīng)用層(見圖1),目前完成了數(shù)據(jù)層和指標(biāo)層的搭建。
數(shù)據(jù)層主要工作機(jī)制是:運(yùn)行爬蟲程序,讀取網(wǎng)頁(yè)文檔;再對(duì)已經(jīng)獲取的數(shù)據(jù)進(jìn)行過濾清洗,去掉不完整、重復(fù)、錯(cuò)誤數(shù)據(jù),例如只有標(biāo)題沒有內(nèi)容的數(shù)據(jù);然后對(duì)標(biāo)題、內(nèi)容、本身數(shù)據(jù)(瀏覽量、發(fā)布時(shí)間等)分別進(jìn)行存儲(chǔ),使采集結(jié)果可以結(jié)構(gòu)化輸出。利用分詞技術(shù)對(duì)內(nèi)容進(jìn)行分析,提取重要特征,建立索引,便于進(jìn)行關(guān)鍵詞檢索。
指標(biāo)層是在數(shù)據(jù)層的基礎(chǔ)上,確定研究的數(shù)據(jù)內(nèi)容,其中設(shè)定了媒體關(guān)注度、行業(yè)關(guān)注度、專家關(guān)注度等指標(biāo),媒體關(guān)注度由媒體發(fā)布的個(gè)股相關(guān)信息數(shù)量構(gòu)成,也是此次研究中使用的主要指標(biāo)。
應(yīng)用層則是在建立指標(biāo)層的基礎(chǔ)上運(yùn)用特定算法,對(duì)數(shù)據(jù)間的關(guān)聯(lián)和特征進(jìn)行分析。數(shù)據(jù)挖掘是一個(gè)高度專業(yè)的領(lǐng)域,和金融工程相結(jié)合,通過互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行金融領(lǐng)域的研究可以為預(yù)測(cè)提供新的工具和途徑。
二、 數(shù)據(jù)與模型設(shè)計(jì)
1. 樣本選擇
選取了中證500作為研究的股票樣本,中證500可以綜合反映滬深股市內(nèi)小市值公司的情況,選擇它作為研究樣本主要是考慮大市值公司的各類有關(guān)事件、消息發(fā)布較多,但可能與股票市場(chǎng)無關(guān),無法準(zhǔn)確反映媒體信息對(duì)股票收益的影響,而中小市值公司平時(shí)相關(guān)信息發(fā)布較少,一旦有信息發(fā)布容易引起投資者注意,進(jìn)而影響投資者的投資行為[8]。中證500的股票樣本中剔除了每月連續(xù)10天無交易的股票后,數(shù)據(jù)樣本為490家上市公司,數(shù)據(jù)包含了股票代碼、交易時(shí)間、每日成交量、換手率、日收益率,數(shù)據(jù)均來自國(guó)泰安數(shù)據(jù)庫(kù)。
樣本時(shí)間是從2012年1月4日到2012年12月31日,主要是因?yàn)閿?shù)據(jù)挖掘系統(tǒng)建立時(shí)間較短,雖可進(jìn)行實(shí)時(shí)數(shù)據(jù)采集,但回溯采集歷史數(shù)據(jù)難度較大,加之網(wǎng)站經(jīng)常進(jìn)行改版增大了系統(tǒng)采集難度,目前已經(jīng)采集到2012年1月1日至今的數(shù)據(jù),包括中國(guó)證券報(bào)、財(cái)經(jīng)網(wǎng)、21世紀(jì)經(jīng)濟(jì)報(bào)道等15家主要財(cái)經(jīng)金融網(wǎng)站150多個(gè)與股票相關(guān)欄目的所有新聞信息,共100余萬條數(shù)據(jù),信息內(nèi)容均與股票市場(chǎng)有關(guān)。因?yàn)橹饕芯總€(gè)股的媒體關(guān)注度與收益關(guān)系,因此為確保檢索信息與個(gè)股有直接關(guān)系,選擇了“股票名稱+股票代碼”的關(guān)鍵詞組合對(duì)已經(jīng)采集的信息進(jìn)行檢索統(tǒng)計(jì)[9],并按照每日0∶00~9∶00、9∶00~15∶00、15∶00~24∶00的3個(gè)時(shí)間段進(jìn)行分類,將15∶00~24∶00的信息并入次日數(shù)據(jù),作為第2天媒體關(guān)注的個(gè)股信息數(shù)量。
2. 模型設(shè)計(jì)
模型設(shè)計(jì)思路主要是將收益率作為解釋變量,利用回歸的方法檢驗(yàn)媒體關(guān)注度與個(gè)股收益之間是否存在相關(guān)關(guān)系,同時(shí)考慮了股票市場(chǎng)上與收益率有關(guān)的其他因素,如成交量[10]、換手率等。在中國(guó)市場(chǎng)上已經(jīng)有很多實(shí)證研究表明交易量與收益率存在顯著的相關(guān)性,并從個(gè)體投資者者與機(jī)構(gòu)投資者博弈、過度投機(jī)等角度進(jìn)行了解釋[11]。也有學(xué)者驗(yàn)證了換手率與收益率之間有著顯著的相關(guān)性,并隨著股票流通市值的不同而呈現(xiàn)差異,小市值股票的相關(guān)性更強(qiáng)[12]。
主要關(guān)注收益率(R)、超額收益率(A)、媒體關(guān)注度(M)、交易量(V)和日換手率(D)5個(gè)市場(chǎng)指標(biāo),并構(gòu)造了2個(gè)模型。首先根據(jù)張永杰(2011)對(duì)資產(chǎn)定價(jià)與開源信息關(guān)系的研究,檢驗(yàn)收益率與媒體關(guān)注度之間是否存在顯著相關(guān)性,并考慮了成交量因素,同時(shí)檢驗(yàn)了媒體關(guān)注度對(duì)成交量的解釋能力是否有影響。其次,還在考慮成交量、換手率等因素時(shí),將媒體關(guān)注度分為交易時(shí)間和非交易時(shí)間兩個(gè)類別,觀察不同交易時(shí)段的媒體關(guān)注度與收益率之間的關(guān)系。
模型Ⅰ為
(1)
模型Ⅱ?yàn)?/p>
(2)
(3)
三、 實(shí)證結(jié)果
1. 數(shù)據(jù)的描述性統(tǒng)計(jì)
此次研究,一共選取了490支股票,時(shí)間范圍是2012年1月4日到12月31日。首先統(tǒng)計(jì)每支股票在一年中產(chǎn)生的信息數(shù)量,得到一個(gè)個(gè)股信息量序列,并進(jìn)行描述。同時(shí)研究每日交易時(shí)間和非交易時(shí)間信息數(shù)量的差異,得到描述性統(tǒng)計(jì),并比較這兩個(gè)序列與股票信息序列的不同。最后對(duì)各支股票日收益率的情況進(jìn)行了統(tǒng)計(jì),并定性分析產(chǎn)生信息較多股票其收益率是否存在規(guī)律或特征。變量描述性指標(biāo)見表1。
表1 變量描述性統(tǒng)計(jì)
從數(shù)據(jù)的統(tǒng)計(jì)情況看,個(gè)股年度信息量均值較高,信息的數(shù)量較多,但不同股票間差異較大,日度非交易時(shí)間信息數(shù)量的標(biāo)準(zhǔn)差最大,說明每支股票不同日期在非交易時(shí)段產(chǎn)生的信息數(shù)量差別很大,但交易時(shí)間信息數(shù)量的標(biāo)準(zhǔn)差相對(duì)較小,即每日該時(shí)段信息數(shù)量波動(dòng)較小。個(gè)股信息量的峰度42大于正態(tài)分布的峰度3,偏度也較大,日度信息數(shù)據(jù)的峰度偏度都較小,說明個(gè)股之間存在較大差異,序列分布具有非對(duì)稱的特征。
在此基礎(chǔ)上還比較了個(gè)股日收益率均值與其信息總量之間的關(guān)系,發(fā)現(xiàn)日收益率最高的前100支股票,一年產(chǎn)生的網(wǎng)絡(luò)信息數(shù)量均值為625.05,而收益率最低的100支股票,該均值為372,低于個(gè)股年度信息量的中位數(shù)385,其中000750“國(guó)海證券”尤為顯著,年度產(chǎn)生的信息量為3 443,同時(shí)日均收益率為0.005,均為最大值。這些結(jié)果從定性的角度揭示了信息數(shù)量與收益率之間存在著正向的相關(guān)關(guān)系,在后面將利用模型進(jìn)一步探究互聯(lián)網(wǎng)媒體信息數(shù)量與收益率之間的相關(guān)性。
2. 與百度指數(shù)的比對(duì)
媒體關(guān)注度指標(biāo)反映了在一定時(shí)間內(nèi)與個(gè)股相關(guān)的網(wǎng)絡(luò)媒體信息數(shù)量,假設(shè)這些信息被投資者觀察到,并對(duì)其投資行為產(chǎn)生影響,為了驗(yàn)證這點(diǎn)需要將投資者的關(guān)注度與媒體關(guān)注度進(jìn)行對(duì)比。如果具有一致的趨勢(shì)說明兩者存在著一定聯(lián)系,同時(shí)也從另一個(gè)方面證實(shí)采集的數(shù)據(jù)是真實(shí)可信的。由于百度指數(shù)的數(shù)據(jù)無法被直接獲取,通過采取抽樣的方式對(duì)個(gè)股關(guān)注度進(jìn)行了檢驗(yàn),發(fā)現(xiàn)與媒體關(guān)注度變化趨勢(shì)基本一致。為了說明問題,分別給出年度信息量最大的股票和處于中位數(shù)水平的股票進(jìn)行說明。股票000750和600748的用戶關(guān)注度見圖2~圖5。
從上圖中可以看到抽取的兩支股票雖然產(chǎn)生的信息總量存在較大的差別,但就每支股票對(duì)應(yīng)的投資者關(guān)注度來看,基本與媒體關(guān)注度的變化趨勢(shì)一致,這說明兩者間存在聯(lián)系,而且也說明數(shù)據(jù)具有可用性,能夠反映出信息的真實(shí)情況。
3. 媒體關(guān)注度與收益率關(guān)系
從實(shí)證的描述性統(tǒng)計(jì)分析上看,收益與媒體關(guān)注度之間存在著正相關(guān)關(guān)系,日均收益率高的股票,每日平均媒體關(guān)注度也比較高。但實(shí)際情況中媒體關(guān)注度是否真的會(huì)影響股票日收益率?下面將利用模型Ⅰ和模型Ⅱ分別從不同的角度進(jìn)行檢驗(yàn)。在研究中沒有進(jìn)行面板數(shù)據(jù)處理,而是更多地關(guān)注了時(shí)間序列下關(guān)注度與收益率的關(guān)系。
在模型Ⅰ的實(shí)證檢驗(yàn)中,為了更好地比較媒體關(guān)注度的影響,分兩步進(jìn)行了回歸檢驗(yàn):第一步,直接對(duì)收益率和日交易量進(jìn)行回歸,發(fā)現(xiàn)490支股票中有439支表現(xiàn)出顯著的相關(guān)關(guān)系,這點(diǎn)和Karpoff的研究結(jié)論是吻合的;第二步,將媒體關(guān)注度作為風(fēng)險(xiǎn)因子加入模型中,通過回歸發(fā)現(xiàn)媒體關(guān)注度指標(biāo)M與個(gè)股收益率顯著相關(guān)的股票數(shù)量為20支,僅占所有股票數(shù)量的4%,由于數(shù)量較少,不能證明媒體關(guān)注度與收益之間存在直接的相關(guān)性,回歸結(jié)果見表2。
表2 模型Ⅰ的分步回歸結(jié)果統(tǒng)計(jì)
在模型Ⅰ的基礎(chǔ)上對(duì)信息進(jìn)行細(xì)分,分別考慮交易時(shí)間產(chǎn)生的信息和非交易時(shí)間產(chǎn)生的信息與收益率之間的關(guān)系,也因此發(fā)現(xiàn)了一個(gè)值得關(guān)注的現(xiàn)象。傳統(tǒng)的理論認(rèn)為,隔夜信息會(huì)對(duì)第2天的交易產(chǎn)生影響,形成開盤時(shí)的價(jià)格跳躍[13],但是互聯(lián)網(wǎng)使得信息的傳播速度更快,搜集信息的成本降低,使人們對(duì)信息的反映時(shí)間更短,當(dāng)有信息出現(xiàn)時(shí)就能快速做出反映。研究一個(gè)創(chuàng)新點(diǎn)就在于可以區(qū)分當(dāng)期交易時(shí)間與非交易時(shí)間產(chǎn)生的信息,從而更清晰地說明當(dāng)期較高的媒體關(guān)注度是否會(huì)帶來收益。
模型Ⅱ中發(fā)現(xiàn)部分股票的收益率與交易時(shí)間的媒體關(guān)注度顯著正相關(guān),但與非交易時(shí)間的媒體關(guān)注度無相關(guān)關(guān)系,從表2中可以看出,有159支股票的收益率與其交易時(shí)間的媒體關(guān)注度顯著相關(guān),說明交易時(shí)間產(chǎn)生的信息更容易對(duì)投資者產(chǎn)生影響,引起投資者關(guān)注進(jìn)而改變其交易行為。同時(shí)從描述性統(tǒng)計(jì)的結(jié)果表1來看,非交易時(shí)段的信息量超過了交易時(shí)間的信息量,結(jié)合模型Ⅰ的實(shí)證結(jié)果,就容易發(fā)現(xiàn)非交易時(shí)段的信息多數(shù)為噪音,按照交易時(shí)間和非交易時(shí)間對(duì)信息進(jìn)行劃分,使網(wǎng)絡(luò)媒體報(bào)道對(duì)股票收益的影響被揭示出來。
從媒體關(guān)注度與收益率顯著相關(guān)的159支股票中選取部分股票作為示例來揭示內(nèi)在的變化(見表3)。
表3 部分個(gè)股媒體關(guān)注度模型檢驗(yàn)示例
從表3 中可以看出,模型Ⅱ的R2好于模型Ⅰ,說明當(dāng)對(duì)不同時(shí)段的信息進(jìn)行細(xì)分時(shí),一部分股票交易時(shí)段產(chǎn)生的信息能夠解釋當(dāng)日的異常收益,同時(shí)也可以觀察到交易時(shí)段媒體關(guān)注與收益率正相關(guān),且顯著。而模型Ⅰ中每日媒體關(guān)注度與收益率未表現(xiàn)出顯著的相關(guān)性,這點(diǎn)也與趙龍凱等人的研究結(jié)果基本一致[14],即每日關(guān)注度指標(biāo)與日異常收益率之間不存在顯著關(guān)系。
從以上的研究中發(fā)現(xiàn)投資者,尤其是個(gè)體投資者在交易時(shí)間對(duì)各類有關(guān)市場(chǎng)和個(gè)股的信息更為關(guān)注,而在非交易時(shí)間主動(dòng)關(guān)注信息較少,這些信息對(duì)其影響較小,這也從另一個(gè)方面反映了中國(guó)市場(chǎng)投資者成熟度不高,缺乏長(zhǎng)遠(yuǎn)投資理念,而更多希望獲得利好消息進(jìn)行短線投資,因此對(duì)當(dāng)期信息更加關(guān)注。
四、 結(jié)語(yǔ)
在此項(xiàng)研究過程中自主開發(fā)了金融數(shù)據(jù)挖掘系統(tǒng),利用該系統(tǒng)獲得了媒體關(guān)注度數(shù)據(jù),并通過與百度指數(shù)比對(duì),證明了數(shù)據(jù)的可用性,也證實(shí)了研究思路,媒體關(guān)注度和投資者關(guān)注度具有一致性[15],在此基礎(chǔ)上開展了媒體關(guān)注度和收益率之間的關(guān)系研究。通過研究中證500中小企業(yè)股,發(fā)現(xiàn)日度媒體關(guān)注度與收益率之間目前尚不存在顯著的正相關(guān)關(guān)系,又對(duì)媒體關(guān)注度在日內(nèi)交易時(shí)間進(jìn)行了細(xì)分,分為交易時(shí)間媒體關(guān)注度和非交易時(shí)間媒體關(guān)注度,發(fā)現(xiàn)部分股票的交易時(shí)段媒體關(guān)注度與收益率之間有顯著相關(guān)性,媒體關(guān)注度越高,當(dāng)期異常收益越高,這是一個(gè)重要的創(chuàng)新點(diǎn),說明部分股票的媒體信息中已經(jīng)包含了有效信息,能夠?qū)ν顿Y者行為產(chǎn)生影響,而非交易時(shí)間媒體信息對(duì)投資者影響很小,這也與中國(guó)投資者的投機(jī)行為有關(guān)。
研究沒有采用百度指數(shù)來研究,而是從媒體信息的角度出發(fā),對(duì)日內(nèi)的關(guān)注度進(jìn)行更細(xì)的劃分,發(fā)現(xiàn)更多有價(jià)值的問題,也希望為信息與資產(chǎn)價(jià)格行為之間的研究提供一個(gè)全新的視角。國(guó)內(nèi)互聯(lián)網(wǎng)信息在金融領(lǐng)域的研究也處于探索階段,此項(xiàng)研究也存在一定的局限性,第一,由于百度指數(shù)的不易獲得,只能通過抽樣的方式對(duì)媒體關(guān)注度與百度指數(shù)進(jìn)行對(duì)比,之間的相關(guān)性還有待進(jìn)一步嚴(yán)格檢驗(yàn)。第二,研究對(duì)象主要是中小企業(yè)股,大公司股票需要進(jìn)一步研究。第三,主要從時(shí)間序列層面進(jìn)行了研究,而橫截面上不同行業(yè)或不同特點(diǎn)的股票表現(xiàn)出來的特征將是下一步研究的重點(diǎn),同時(shí)將利用金融數(shù)據(jù)挖掘系統(tǒng)在投資者關(guān)注度層面做深入研究。
參考文獻(xiàn):
[1]張健,劉憲.我國(guó)股票市場(chǎng)的投機(jī)特征[J].價(jià)格理論與實(shí)踐, 2010(4): 67-68.
[2]Carretta A, Farina V, Martelli D, et al. The impact of corporate governance press news on stock market returns[J].EuropeanFinancialManagement, 2011,17(1):100-119.
[3]Vlastakisa N, Markellosb R N. Information demand and stock market volatility[J].JournalofBankingandFinance, 2012,36(6): 1808-1821.
[4]張雅慧,萬迪,付雷鳴. 基于投資者關(guān)注的媒體報(bào)道影響投資行為的實(shí)驗(yàn)研究[J].系統(tǒng)工程, 2012(10): 19-35.
[5]張永杰,張維.互聯(lián)網(wǎng)知道的更多么:網(wǎng)絡(luò)開源信息對(duì)資產(chǎn)定價(jià)的影響[J].系統(tǒng)工程理論與實(shí)踐, 2011(31): 577-586.
[6]俞慶進(jìn),張兵. 投資者有限關(guān)注與股票收益[J]. 金融研究, 2012(8): 152-165.
[7]王艷,張帆. 基于Web挖掘技術(shù)的信息檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 情報(bào)學(xué)報(bào),2007(3): 643-656.
[8]宋雙杰,曹暉,楊坤. 投資者關(guān)注和IPO異象:來自網(wǎng)絡(luò)搜索量的經(jīng)驗(yàn)證據(jù)[J].經(jīng)濟(jì)研究,2011(S1): 145-155.
[9]Zhi D, Engelberg J, Gao P J. The sum of all fears: Investor sentiment and asset prices. Ssrn elibrary[J].SocialScienceElectronicPublishing,2010(10): 43-59.
[10] 王燕輝,王凱濤. 股市交易量與收益率的關(guān)聯(lián)分析[J]. 系統(tǒng)工程, 2005(23):59-62.
[11] 鄭方鑣,吳超鵬,吳世農(nóng).股票成交量與收益率序列相關(guān)性研究:來自中國(guó)股市的實(shí)證證據(jù)[J].金融研究, 2007(3): 140-150.
[12] 周仁才,吳沖鋒.股票收益率對(duì)于換手率的影響及其動(dòng)因[J]. 上海交通大學(xué)學(xué)報(bào):自然科學(xué)版, 2009(4): 537-543.
[13] Chordia T, Shivakumar L. Momentum, business cycle, and time-varying expected returns[J].JournalofFinance, 2002,57(2): 985-1019.
[14] 趙龍凱,陸子昱,王致遠(yuǎn).眾里尋“股”千百度:股票收益率與百度搜索量關(guān)系的實(shí)證探究[J]. 金融研究, 2013(4): 183-195.
[15] Rubin A, Rubin E. Informed investors and the internet[J].JournalofBusinessFinanceandAccounting, 2010, 37(7-8): 841-865.
Relationship Between Media Attention and Stock Return Based on Big Data
Wang Chunfeng, Li Jiayi, Fang Zhenming
(College of Management and Economics, Tianjin University, Tianjin 300072, China)
Abstract:Thanks to the development of Internet, market information can be easier to obtain, and investors can get valuable information from it. Thus Internet gradually affects the investors’ behavior. One million media reports which are collected by financial data mining system including 15 websites and 150 columns about stocks could be accurately calculated. In this way, media attention can be subdivided according to different period of time in a day. Based on these researches, the author analyses the relationship between media attention and stock return during trading and no-trading hours. The result shows that media information could significantly affect the return for some stocks during trading hours, while less affect during no-trading hours. Internet information will be the important risk factor with the development of internet, though the state has only occurred in some stocks.
Keywords:data mining; media attention; Internet information; Baidu index
中圖分類號(hào):F830
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1008-4339(2016)02-103-06
通訊作者:李嘉毅, ljy@tju.edu.cn.
作者簡(jiǎn)介:王春峰(1966—),博士,教授.
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(71271146).
收稿日期:2014-11-25.