王春
摘? ?要:近幾十年來,資本市場中信息的作用機制與信息含量方面的研究成為行為金融的重要領(lǐng)域。這首先緣起于20世紀70年代紐約時報的標題定性研究,經(jīng)歷了簡單的新聞計數(shù)研究之后,開始探索計算機語言技術(shù)量化新聞內(nèi)容,訓練詞庫也從簡單的Harvard-IV4心理詞典到詞向量構(gòu)建。資本市場媒體信息作用的未來研究發(fā)展方向是使用機器學習技術(shù)訓練新聞文本內(nèi)容。
關(guān)鍵詞:資本市場;媒體;信息
中圖分類號:F830.9? ? ? 文獻標志碼:A? ? ? 文章編號:1673-291X(2021)35-0144-03
引言
近幾十年來,資本市場中信息的作用與信息含量方面的研究成為行為金融學者重要的研究領(lǐng)域。首先進行這方面研究的是Niederhoffer(1971),他分析的是具有世界性影響的事件,比如紐約時報中占用5—8個版面的具有足夠重要性的事件。他使用未經(jīng)訓練的觀測向量,將新聞標題分為20個類別,并按正面/負面標簽,以7分標記,得到有趣的發(fā)現(xiàn),即股票市場巨大的變化更可能發(fā)生于“世界性事件”之后,而不是平時。并提出股票市場信息效應量化研究的期待。
隨后,在股票市場信息效應的量化研究方面,涌現(xiàn)出許多相關(guān)的論文。例如,Mitchell和Mulherin(1994)研究了每日道瓊斯新聞的數(shù)量與新聞報道下公司股票的交易量及其股票收益。1970—2000年的30年間,許多研究人員運用粗糙且未經(jīng)處理的變量,如簡單的新聞數(shù)量以量化信息。直到Antweiler和Frank(2004)的研究,學者們才開始探索量化信息的內(nèi)容。Antweiler和Frank(2004)使用計算語言技術(shù),即樸素貝葉斯算法(Naive Bayes algorithm)來度量網(wǎng)絡聊天內(nèi)容的語義,并按牛熊予以區(qū)分。這篇論文在當時引起了廣泛的關(guān)注,當時紐約時報還邀請了Varian教授就此專題撰寫社論。從那時起,文本分析方法在金融領(lǐng)域的研究開始流行。接著開始出現(xiàn)程序化交易,計算語言和文本數(shù)據(jù)挖掘被越來越多地運用到金融經(jīng)濟領(lǐng)域。
媒體信息文本分析方法運用中,重要的研究突破是Tetlock(2007)。其文章運用文本語義分析軟件Harvard-IV4心理詞典,對華爾街日報著名的金融專欄內(nèi)容進行了量化。該文獲得了Journal of Finance Amundi Smith Breeden一等獎。值得注意的是,計算機輔助定量內(nèi)容分析軟件系統(tǒng)(General Inquirer)源于1960年代(Stone et al.,1962;Stone et al.,1966),這意味著金融領(lǐng)域研究人員經(jīng)歷了40多年才意識到這種工具在金融研究中的重要性。
自此,文本分析法在金融領(lǐng)域迅速發(fā)展,大量的論文探索運用此類新計算工具,從不同的角度研究資本市場中信息的作用。另一個具有標志性意義的突破是Loughran和McDonald(2011),他們認為Harvard-IV4詞典中73.8%的被歸為負面的詞匯,比如“稅收”、“成本”、“資本”等,在金融文本中并不真是負面的詞。因而,他們微調(diào)了Harvard-IV4詞典,使之與金融含義相關(guān),并將詞歸類為“負面”、“正面”、“不確定性”、“爭論性”、“約束性”、“奢侈性”、“趣味性”、“資本性”等八類詞向量。
另一個有代表性的量化文本情緒的是Jegadeesh和Wu(2013),他們通過詞向不同的角度衍生含義的做法,將Loughran和McDonald(2011)的正負詞進行拆分。LM詞向量由包含353個正面詞和2 337個負面詞,通過Jegadeesh和Wu(2013)方法,變?yōu)?23個正面詞和718個負面詞。他們對上市公司年報并未采用手工區(qū)分正面詞和負面詞,而是對每一個詞進行獨立評分。在上市公司年報披露包含某些特定詞時,他們基于文檔中每一個詞出現(xiàn)的權(quán)重計算異常收益率。類似將文本分析法應用于年報分析的是Chouliaras(2015b),他通過公司股票市場表現(xiàn)來預測上市公司年報收益。
當前,資本市場媒體信息研究的趨勢是廣泛使用機器學習技術(shù)。這類技術(shù)主要用于主題識別(LDA),具有代表性的是Blei等(2003)。他們將文檔視做主題,將文中的詞識別為各類不同的主題。
一、新聞信息的度量
盡管一些文獻致力于度量新聞內(nèi)容,以研究資本市場信息的影響,但仍有些文獻使用新聞的數(shù)量度量資本市場的信息。例如,F(xiàn)ang和Peress(2009)使用1993—2002年美國主要報紙(紐約時報、今日美國、華爾街日報和華盛頓郵報)中NASDAQ上市公司相關(guān)新聞的數(shù)量。作者使用LexisNexis相關(guān)度評分作為公司新聞的取舍,確保90%以上的相關(guān)度。作者發(fā)現(xiàn),未經(jīng)媒體平臺提及的股票比經(jīng)過媒體頻繁提及的股票表現(xiàn)更好,至于新聞的內(nèi)容,作者并未關(guān)心。但事實上,進一步了解新聞包含的內(nèi)容也是有必要的,比如,上市公司并未達成經(jīng)營目標,匯報巨大的損失又或者是涉及巨大的自然災害(如偶發(fā)性的飛機墜落、地震)等,這也可能受到媒體大量的報道。對于上市公司而言,還可能經(jīng)營不達預期,產(chǎn)生了一個重大發(fā)現(xiàn),又或者是產(chǎn)品銷售超過預期。Fang等(2014)發(fā)現(xiàn),共同基金傾向于購買媒體提及多次的股票,但遺憾的是,這些基金在年度的表現(xiàn)會較差。很可惜,他沒有就文章的語氣作進一步的文本分析,只是依據(jù)新聞信息發(fā)布當天股票收益為正或者為負來判別文章的語氣。雖然這樣做有一定的道理,但是實際上還是忽略了文章的內(nèi)容。作者承認無法度量文章的語氣,但也指出,如果能夠針對新聞的內(nèi)容作出度量的話,則會是非常有益的。
還有一篇使用新聞數(shù)量來度量信息的是Engelberg等(2015)的文章。這篇文章使用了金融研究文獻中的97個異象,問題是這些收益異象在盈余公告時是否不同呢?作者研究表明,在盈余公告的日子,收益異象高達7倍,且在公司新聞發(fā)布日高達2倍。在本研究中,作者計算了489 996個盈余公告和超過600萬條道瓊斯新聞。然而,作者并沒有研究新聞的內(nèi)容,并不清楚在盈余公告日業(yè)績超預期還是未達預期。
二、信息、文本分析與機構(gòu)投資者
金融研究文獻還未提及的領(lǐng)域是機構(gòu)投資者如何使用資本市場中信息的。除了Fang等(2014)論及機構(gòu)投資者使用公司新聞的數(shù)量作為信息的代理變量外,沒有其他研究提及這類問題。一個例外是Solomon等(2014)發(fā)現(xiàn),當基金持有媒體關(guān)注的前期高收益的股票時,會導致更多的交易。還有其他涉及信息對機構(gòu)交易影響的是Chouliaras(2015a),他考察上市公司年報語義對機構(gòu)持股和分析師薦股的影響??傮w來看,關(guān)于信息對機構(gòu)投資者交易影響的研究在當前文獻研究中,略顯不夠。
三、提取上市公司相關(guān)新聞的技術(shù)
在眾多的研究文獻中,有沒有以相同的方法提取上市公司相關(guān)新聞的呢?不同的論文使用了不同的方法。例如,Tetlock(2008)從道瓊斯以及華爾街日報中提取了超過35萬條上市公司新聞,這其中包含超過1億個詞匯。其中上市公司新聞的選擇要求是,在前25個單詞中至少要提及上市公司名稱1次,且要求在文章全文中公司名稱至少被提及2次,至少有50個詞屬于“正面”、“負面”詞庫。Chen等(2014)采用了類似的方法。他們要求道瓊斯新聞服務的文章(DJNS)在開始的50個詞內(nèi)至少提及CRSP上市公司1次。當然,研究人員也承認這種方法也有不完美之處,即新聞可能提及的是子公司而非控股公司,也有可能提及的是產(chǎn)品而非上市公司(比如提及凱美瑞而非Toyota)。這類選擇新聞相關(guān)公司的問題,廣泛存在于DJNS新聞庫中。然而,LexisNexis似乎并不存在這類問題,因為它采用的是新聞相關(guān)度評分法,研究人員可以選取相關(guān)度90%以上的文章,如Fang和Peress(2009)、Fang等(2014)。Chen等(2014)通過尋找阿爾法網(wǎng)站(seekingalpha.com),利用相關(guān)股票的價格變動,獲取網(wǎng)絡意見和評論。還有一種獲取相關(guān)新聞的方法是通過新聞題目和文章內(nèi)容關(guān)鍵詞來選擇,比如Chouliaras和Grammatikos(2015)。
四、資本市場媒體信息的影響效應
當前有大量的文獻是圍繞媒體信息與股票市場進行的相關(guān)研究。一些文獻試圖揭示兩者的因果聯(lián)系。其中,Engelberg和Parsons(2011)從經(jīng)紀商那里獲得交易數(shù)據(jù),這使得他們可以將當?shù)亟灰着c本地媒體報道覆蓋聯(lián)系起來。他們發(fā)現(xiàn),當?shù)孛襟w對于盈余公告的報道能夠顯著影響當?shù)亟灰?,因而確立了媒體與資本市場之間的關(guān)系。另一個例子是Dougal等(2012),他們固定各種不同雜志對于道瓊斯工業(yè)股票指數(shù)(DJIA)效應,以研究華爾街日報股票專欄,因為外生的變動來源于財經(jīng)記者的變動,結(jié)論是財經(jīng)記者的寫作風格在一定程度上有助于解釋股票收益,這證實了媒體和股票市場之間的關(guān)系。
五、文本情緒分析的未來方向
使用金融詞典的方法在金融領(lǐng)域得到廣泛應用,收到了較好的效果。這種方法源于Tetlock(2007)文本語義分析軟件Harvard-IV4心理詞典,后來發(fā)展成詞庫的運用Loughran和McDonald(2011)。即使這些方法不能完美地獲取文本語義,但看起來效果也還可以。目前的難點是需要解決文本的語法和詞的權(quán)重(當前負面詞/正面詞的權(quán)重相等)。一個可能的途徑是依靠別的學科發(fā)展,如計算機科學技術(shù),以促進當前金融情緒的度量。具體來說,比較流行的情緒分析方法應用的是Python自然語言分析平臺,因為它不僅考慮了句子的內(nèi)容,還考慮了句法結(jié)構(gòu)。這種工具的缺點是使用了消費者評價和電影評價的語料庫。然而,在金融環(huán)境下,這類語料庫并非有效(Chouliaras,2015c)。比較折中的辦法是使用Python NLTK工具,但是結(jié)合類似Loughran和McDonald(2011)的語料庫,效果似乎更好。
從更廣闊的視角來看,資本市場中信息相互作用有五類主體:分析師、上市公司、機構(gòu)投資者、個人投資者和媒體。分析師主要提供買、賣和目標價等建議。上市公司通過公司報告、會議以及接待提供信息。媒體通過文章、訪談等形式提供信息。每一個參與主體提供的信息都相互影響。那么,信息從一類主體傳到另一類主體,并產(chǎn)生影響的機制是什么?是否存在這樣一類參與主體,它的績效優(yōu)于同行(如明星分析師和明星基金經(jīng)理)?這種超出同行的業(yè)績能力是否與較好接受信息或者處理信息有關(guān)呢?投資者有很強的動力處理信息,這能夠讓他們在資本市場獲利。此外,僅分析機構(gòu)投資者還是個人投資者是不夠的,因為各類投資者還存在異質(zhì)性,如共同基金、套利基金、高頻交易、算法交易等等。投資者信息處理能力是否是他們在資本市場成功的重要因素?投資者投資信息基礎(chǔ)設(shè)施、雇傭頂級高校畢業(yè)的成績優(yōu)良、有頂刊發(fā)表記錄的具有博士學位的畢業(yè)生是否能發(fā)揮作用?互聯(lián)網(wǎng)在其中發(fā)揮什么作用?其他社交媒體,比如推特或者Facebook,研究在同一時間、在同一大學畢業(yè)的學生可能通過交談影響他們的投資決策。
六、結(jié)論
近年來,關(guān)于資本市場媒體信息作用的研究受到了廣泛的關(guān)注。從人工區(qū)分新聞的“好”與“壞”,到量化研究新聞的內(nèi)容,媒體信息的研究取得了巨大的進步。這類文章的代表是Tetlock(2007),Garcia(2013),季度收益(Tetlock,等,2008),年報(Loughran和McDonald,2011),機構(gòu)投資者交易(Solomon,等,2014),研究資本市場異象的代表作(Engelberg,等,2015;Hillert,等,2014)以及并購方面(Ahern和Sosyura,2014;Ahern和Sosyura,2015)。
隨之發(fā)展的是區(qū)分文章的標題(Niederhoffer,1971),使用心理詞典(Tetlock,2007),繼而使用金融詞典(Loughran和McDonald,2011)。其他的技術(shù)包括文本相似性(Hanley和Hoberg,2010),繼而采用主題模型的機器學習技術(shù)(Latent Dirichlet Allocation)(Hoberg和Lewis,2015)。當然,隨著我國大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,在這個領(lǐng)域的智能信息傳播方面還有很多值得進一步研究的問題。借用Niederhoffer(1971)的寄語,“希望在資本市場信息效用研究方面,能夠引起更多的量化研究參與”。
參考文獻:
[1]? ?Ahern,K. R.,and D. Sosyura. Who Writes the News? Corporate Press Releases During Merger Negotiations[J].Journal of Finance,2014,(69):241,291.
[2]? ?Antweiler, W., and M. Z. Frank. Is All that Talk Just Noise? the Information Content of Internet Stock Message Boards[J].Journal of Finance,2004,(59):1259,1294.
[3]? ?Blei, D. M., A. Y. Ng, and M. I. Jordan. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993,1022.
[4]? ?Fang, L. H., J. Peress, and L. Zheng. Does Media Coverage of Stocks Affect Mutual Funds’ Trading and Performance?[J].Review of Financial Studies,2014,(27):3441,3466.
[5]? ?Garcia, D. Sentiment During Recessions[J].Journal of Finance,2013,(68):1267,1300.
[6]? ?Hanley, K. W., and G. Hoberg. the Information Content of Ipo Prospectuses[J].Review of Financial Studies,2010,(23):2821,2864.
[7]? ?Jegadeesh, N., and D. Wu. Word Power: A New Approach for Content Analysis[J].Journal of Financial Economics,2013,(110):712,729.
[8]? ?Loughran, T., and B. McDonald. When is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-ks[J].Journal of Finance,2011,(66):35,65.
[9]? ?Mitchell, M. L., and J. H. Mulherin. the Impact of Public Information on the Stock Market[J].Journal of Finance,1994,(49):923,950.
[10]? ?Niederhoffer, V. the Analysis of World Events and Stock Prices[J].The Journal of Business,1971,(44):193,219.
[11]? ?Solomon, D. H., E. Soltes, and D. Sosyura. Winners in the Spotlight: Media Coverage of Fund Holdings as a Driver of Flows[J].Journal of Financial Economics,2014,(113):53,72.
[12]? ?Tetlock, P. C. Giving Content to Investor Sentiment: the Role of Media in the Stock Market[J].Journal of Finance,2007,(62):1139,1168.
[責任編輯? ?若? ?云]