• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT模型的投資者情緒指數(shù)建模及與價格關(guān)系分析

      2020-08-31 14:58:44林杰江晨曦
      上海管理科學(xué) 2020年4期
      關(guān)鍵詞:期貨市場

      林杰 江晨曦

      摘 要: 基于BERT模型,應(yīng)用21家期貨公司行情預(yù)測分析文本數(shù)據(jù),構(gòu)建了期貨市場投資者情緒指數(shù);在此基礎(chǔ)上,運用格蘭杰因果檢驗分析了期貨市場價格與市場情緒指數(shù)的相互影響作用。研究結(jié)果表明,BERT模型相較基于經(jīng)典分類算法模型在各評價指標(biāo)上均有約10%的提升。同時,投資者情緒指數(shù)與期貨收盤價之間存在相互影響,期貨收盤價對投資者情緒的影響程度更大,影響持續(xù)時間更短。

      關(guān)鍵詞: 投資者情緒指數(shù);BERT模型;期貨市場;文本情感分類

      中圖分類號: F 830.9 ? 文獻(xiàn)標(biāo)志碼: A

      Abstract: Based on the BERT model, the text data of 21 futures companies market prediction and analysis was used to construct an investors sentiment index for the futures market. On this basis, Granger causality test was used to analyze the interaction between the futures market price and the market sentiment index. The research results show that the BERT model has improved about 10% in various evaluation indicators compared with the model based on the classic classification algorithm. At the same time, there is a mutual influence between the investors sentiment index and the futures closing price. The futures closing price has a greater degree of influence on investors sentiment and has a shorter duration.

      Key words: investors sentiment index; BERT model; futures market; sentiment classification of text

      研究發(fā)現(xiàn),在方法上,利用文本數(shù)據(jù)構(gòu)建投資者情緒指數(shù)時,多數(shù)學(xué)者使用的是向量空間模型結(jié)合分類算法來進(jìn)行情感分類。該方法的缺陷在于運用該方法產(chǎn)生的特征向量無法表達(dá)語義,僅僅是文本的數(shù)字編號,這對情感分類的準(zhǔn)確性將產(chǎn)生較大影響。隨著深度學(xué)習(xí)的迅速發(fā)展,許多新的語言模型脫穎而出,目前運用這些語言模型進(jìn)行投資者情緒度量的研究仍處于起步階段,且由于中文語料和英文語料之間存在差別,探究如何準(zhǔn)確且高效地度量投資者情緒具有一定的理論意義。

      與此同時,在應(yīng)用領(lǐng)域中,國內(nèi)外的投資者情緒研究主要集中在股票市場,鮮有對期貨市場投資者情緒的關(guān)注。期貨市場與股票市場在交易規(guī)則和交易體量上的差別,導(dǎo)致在文本數(shù)據(jù)中期貨市場用語和股票市場用語也不盡相同。同時,投資者在面對股票市場和期貨市場時的情緒也存在較大差異。因此,本研究使用BERT模型對國內(nèi)期貨公司發(fā)布的日頻行情預(yù)測分析文本進(jìn)行情感分類,得到日頻機構(gòu)投資者的情緒指數(shù),并運用計量方法研究投資者情緒指數(shù)與期貨市場價格之間的相互影響作用。

      1 構(gòu)建投資者情緒指數(shù)

      1.1 BERT模型

      2018年末,深度學(xué)習(xí)在自然語言處理領(lǐng)域取得了重大突破,由谷歌公司提出的BERT模型通過了各大自然語言處理測試,在11種不同測試中均創(chuàng)下最佳成績。BERT模型的全名為Bidirectional Encoder Representation from Transformers,即基于Transformers的雙向編碼表征模型。

      Transformer是2017年由谷歌提出的特征提取器,自面世以來因其在實驗中的優(yōu)異表現(xiàn)逐漸受到學(xué)者們的關(guān)注和青睞,有望超越CNN和RNN成為自然語言處理領(lǐng)域最主流的特征提取器。Transformer模型誕生的初衷是為了提高翻譯任務(wù)的效率,之后的實驗證明該模型的Self-Attention機制和Positional Encoding在其他人工智能領(lǐng)域也能取得很好的效果。在自然語言處理中,Self-Attention機制使得模型在對一個詞進(jìn)行編碼時,可以將句子中的其他詞作為參考因素來確定當(dāng)前詞的編碼,Positional Encoding則可以將詞的相對位置和絕對位置作為信息放入模型中。BERT模型中的Transformer在原模型的基礎(chǔ)上,用Positional Embedding取代了Positional Encoding。同時,為了使模型能夠同時獲取當(dāng)前詞上下文的信息,BERT模型加入了雙向的Transformer。

      BERT模型繼承了先前語言模型的優(yōu)點并沿襲了自然語言處理領(lǐng)域中遷移學(xué)習(xí)的發(fā)展趨勢,它與ELMO模型和GPT模型一樣是一個兩階段模型,第一階段為雙向語言表征模型的預(yù)訓(xùn)練,第二階段根據(jù)具體的下游任務(wù)做Fine-tune。在第一階段預(yù)訓(xùn)練過程中,BERT模型使用兩個無監(jiān)督預(yù)測任務(wù)進(jìn)行預(yù)訓(xùn)練,分別是Masked LM和Next Sentence Prediction。Masked LM任務(wù)隨機掩藏句子中的部分詞匯,讓模型對掩藏詞匯進(jìn)行預(yù)測。Next Sentence Prediction任務(wù)要求模型判斷隨機抽取的兩個句子是否是相鄰的,通過這一階段的預(yù)訓(xùn)練得到預(yù)訓(xùn)練模型。在第二階段Fine-tune過程中,模型將根據(jù)下游任務(wù)使用標(biāo)注數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,有目的性地調(diào)整模型參數(shù),從而使模型具有更好的泛化能力,下游任務(wù)包括單句分類任務(wù)、配對分類任務(wù)、問答任務(wù)和單句標(biāo)記任務(wù),圖1描述了BERT模型進(jìn)行單句分類任務(wù)的結(jié)構(gòu)。通過兩階段的訓(xùn)練即可生成一個適用于對應(yīng)下游任務(wù)的語言模型。

      在自然語言處理領(lǐng)域中,預(yù)訓(xùn)練需要龐大的數(shù)據(jù)集和強大的算力作為支持,這是自然語言處理門檻較高的主要原因。谷歌公司公開了各語種的預(yù)訓(xùn)練模型,因此可以利用中文預(yù)訓(xùn)練模型根據(jù)標(biāo)注數(shù)據(jù)進(jìn)行Fine-tune,得到更適用于某個研究領(lǐng)域的語言模型,運用該模型完成下游任務(wù)。本研究關(guān)注的是利用Fine-tune后的BERT模型進(jìn)行中文單句情感分類任務(wù)。

      1.2 數(shù)據(jù)爬取和預(yù)處理

      作為機構(gòu)投資者的期貨公司,投資行為更加理性,觀點更加客觀。在大數(shù)據(jù)時代和國內(nèi)期貨公司逐步規(guī)范化的背景下,期貨公司會在其官方網(wǎng)站發(fā)布下一個交易日中對各個期貨品種的行情預(yù)測分析文本。本研究對各大期貨交易所的會員公司進(jìn)行篩選,利用爬蟲技術(shù)從篩選出的期貨公司官方網(wǎng)站上爬取日頻行情預(yù)測分析文本,按期貨品種分為不同表存入MySQL數(shù)據(jù)庫。本研究共爬取期貨公司預(yù)測分析文本數(shù)據(jù)141781條,時間跨度從2011年8月到2019年10月,共含上海期貨交易所、大連商品交易所和鄭州商品交易所上市的55個期貨品種,涉及21家期貨公司。由于部分期貨公司網(wǎng)站發(fā)布信息的不連續(xù)性,同一公司同一期貨品種的文本數(shù)據(jù)存在時間斷點,爬取數(shù)據(jù)的數(shù)據(jù)庫表結(jié)構(gòu)如表1所示。

      由于2011年至2015年間,發(fā)布日內(nèi)行情預(yù)測的期貨公司較少,平均每日文本數(shù)據(jù)不足8條,使用這段時間的文本數(shù)據(jù)構(gòu)建日頻投資者情緒指數(shù)將導(dǎo)致指數(shù)不具有代表性和客觀性,因此本研究選取日均數(shù)據(jù)量更大的上海期貨交易所的銅品種的行情預(yù)測文本作為實驗數(shù)據(jù),時間跨度為2016年9月至2019年10月,共包含540個交易日。

      確定實驗數(shù)據(jù)后,本研究從實驗數(shù)據(jù)中隨機選擇4364條進(jìn)行人工標(biāo)注評分,將文本的投資者情緒分為五檔,其中-2分為“完全看空”,-1分為“輕微看空”,0分為“震蕩”,1分為“輕微看多”,2分為“完全看多”。為降低人工標(biāo)注評分的個人主觀因素影響,人工標(biāo)注評分工作由5名相關(guān)專業(yè)的志愿者完成,采取投票機制,取5人標(biāo)注評分結(jié)果的眾數(shù)作為每條數(shù)據(jù)的情感標(biāo)簽。為驗證模型對不同品種進(jìn)行情感分類的準(zhǔn)確性,以同樣的方法對銅品種外其他期貨品種的1153條文本數(shù)據(jù)進(jìn)行了標(biāo)注。

      1.3 文本情感分類

      本研究實驗為五分類問題,將銅品種的已標(biāo)注數(shù)據(jù)進(jìn)行隨機排序后按6∶2∶2的比例分為訓(xùn)練集、驗證集和測試集,利用這些數(shù)據(jù)基于1.1中提到的BERT中文預(yù)訓(xùn)練模型進(jìn)行Fine-tune。模型參數(shù)為單次訓(xùn)練樣本數(shù)batch size=32,學(xué)習(xí)率learning rate=1e-5,訓(xùn)練迭代次數(shù)epochs=6,訓(xùn)練數(shù)據(jù)最大長度max length=256,得到Fine-tune后的BERT模型。與此同時,為比較BERT模型與基于隨機森林和支持向量機等算法的情感分類模型的效果,本研究基于同一數(shù)據(jù)分別使用word2vec結(jié)合隨機森林和支持向量機兩個經(jīng)典分類算法進(jìn)行情感分類。實驗硬件及軟件環(huán)境如表2所示。

      在包含874條數(shù)據(jù)的測試集中,-2分、-1分、0分、1分和2分標(biāo)簽的數(shù)量分別為40條、166條、385條、197條和86條。表3、表4和表5分別是隨機森林模型、支持向量機模型和Fine-tune后的BERT模型在測試集上的混淆矩陣,混淆矩陣能夠清晰地展示各模型對文本進(jìn)行五檔情感分類時正確與錯誤的情況,可以看到BERT模型在“-2”“-1”“1”和“2”標(biāo)簽上分類正確的數(shù)量均高于其他兩個模型。

      分類問題常用準(zhǔn)確率(accuracy)、精準(zhǔn)率(precision)、召回率(recall)和F1-Score來作為評估結(jié)果的指標(biāo),本研究使用sklearn庫的classification_report函數(shù)計算指標(biāo),表6比較了三個模型在測試集上的評估結(jié)果。如表6所示,BERT模型在各項指標(biāo)中均達(dá)到了最優(yōu),比基于經(jīng)典分類算法的模型高約10%,說明使用BERT模型對期貨公司行情預(yù)測文本進(jìn)行情感分類具有很好的效果。同時,在對分類結(jié)果進(jìn)行梳理時進(jìn)一步發(fā)現(xiàn),F(xiàn)ine-tune后的BERT模型對文本長度小于50個字符的文本數(shù)據(jù)進(jìn)行情感分類時,各項評估指標(biāo)能夠達(dá)到0.92,說明BERT模型對長度較短的文本進(jìn)行情感分類的效果極佳。

      為了檢驗?zāi)P蛯ζ渌谪浧贩N行情預(yù)測文本的分類效果,使用BERT模型對1.2中已標(biāo)注的銅品種外的1153條文本數(shù)據(jù)進(jìn)行了分類,準(zhǔn)確率達(dá)到了0.765,F(xiàn)1-Score達(dá)到了0.7681,說明Fine-tune的BERT模型具有良好的泛化能力,能夠?qū)ζ渌谪浧贩N的行情預(yù)測文本進(jìn)行分類。

      2.5 格蘭杰因果檢驗

      雖然在上節(jié)中已經(jīng)證明了VSI和LCUC存在長期協(xié)整關(guān)系,但協(xié)整檢驗并不能得出兩者之間是否存在因果關(guān)系,以及影響是如何相互作用的,因此需要對VSI和LCUC進(jìn)行格蘭杰因果關(guān)系檢驗。格蘭杰因果關(guān)系檢驗?zāi)軌蚍治銎椒€(wěn)時間序列X和Y之間的因果關(guān)系,如果X的滯后值在對Y的預(yù)測中能夠有幫助,則可以說X是Y的格蘭杰原因,或稱Y是由X格蘭杰引起的。根據(jù)AIC和SC準(zhǔn)則確定滯后階數(shù),對VSI和LCUC進(jìn)行格蘭杰因果關(guān)系檢驗,實驗結(jié)果見表8。在5%的顯著性水平下,接受VSI不是LCUC的格蘭杰原因,拒絕LCUC不是VSI的格蘭杰原因,說明在銅品種期貨市場中,收盤價的對數(shù)是投資者情緒指數(shù)的格蘭杰原因。

      2.6 脈沖響應(yīng)函數(shù)

      脈沖響應(yīng)函數(shù)通過在擾動項上施加一個標(biāo)準(zhǔn)差的沖擊來衡量其對模型內(nèi)生變量當(dāng)前值和未來值的影響。VAR模型中VSI和LCUC的動態(tài)響應(yīng)見圖3。圖3中實線代表一個標(biāo)準(zhǔn)差的沖擊所產(chǎn)生的影響,虛線為正負(fù)2倍標(biāo)準(zhǔn)差的置信區(qū)間。

      圖3(a)中,橫軸表示期數(shù)(天),縱軸表示投資者情緒指數(shù)VSI。當(dāng)本期給銅品種收盤價的對數(shù)序列一個正向單位標(biāo)準(zhǔn)差的沖擊后,投資者情緒指數(shù)在第1期沒有響應(yīng),但在第2期立即達(dá)到了正向響應(yīng)的最大值,之后正向響應(yīng)逐漸減弱并在第7期轉(zhuǎn)為小幅度的負(fù)向響應(yīng),此后響應(yīng)逐步趨于0,持續(xù)時間約40期。

      圖3(b)中,橫軸表示期數(shù)(天),縱軸表示收盤價對數(shù)序列LCUC。當(dāng)本期給投資者情緒指數(shù)序列一個正向單位標(biāo)準(zhǔn)差的沖擊后,銅品種收盤價對數(shù)序列立即產(chǎn)生了一個正向響應(yīng)并在第2期達(dá)到了正向響應(yīng)的最大值,隨后正向響應(yīng)逐漸減弱并在第6期達(dá)到負(fù)向響應(yīng)的最大值,此后響應(yīng)逐步減弱,在55期趨于穩(wěn)定,接近于0。

      脈沖響應(yīng)函數(shù)分析表明,投資者情緒指數(shù)與期貨收盤價的變動均會在初期對另一方產(chǎn)生正向影響,隨后逐步轉(zhuǎn)變?yōu)檩^弱的負(fù)向影響,最后影響逐漸消失。區(qū)別在于,收盤價對投資者情緒指數(shù)的沖擊強度要比投資者情緒指數(shù)對收盤價的沖擊強度更強,而投資者情緒指數(shù)的變動對收盤價的影響時間更長??傮w而言,投資者情緒指數(shù)和收盤價之間存在相互作用,收盤價對投資者情緒指數(shù)的影響更大,反應(yīng)時間更短。

      期貨收盤價的變動能夠?qū)ν顿Y者情緒產(chǎn)生較大影響,此結(jié)論符合現(xiàn)實情況。機構(gòu)投資者情緒對期貨收盤價的影響較小,可能的原因是期貨價格的走勢受到多個層面、多種因素的影響,在宏觀與微觀、供給與需求等條件的變化之下,期貨公司對未來期貨行情走勢的預(yù)測存在不可避免的偏差。與此同時,期貨公司作為投資機構(gòu)對散戶投資者的影響相對較小,機構(gòu)投資者情緒指數(shù)無法體現(xiàn)散戶投資者的情緒和交易決策。

      3 結(jié)論

      本研究以期貨公司行情預(yù)測分析文本為樣本,使用BERT模型對文本進(jìn)行情感分類,從而從文本中抽取出機構(gòu)投資者即期貨公司對期貨市場未來走向的情感傾向,構(gòu)建日頻機構(gòu)投資者的情緒指數(shù)來度量機構(gòu)投資者情緒,并運用計量方法研究投資者情緒指數(shù)與期貨市場之間的相互影響作用。研究結(jié)果表明,BERT模型能夠有效提高對非結(jié)構(gòu)化文本數(shù)據(jù)分類的效果,相比過去的情感分類方法,在各評價指標(biāo)上均有約10%的提升,從而能夠準(zhǔn)確且高效地幫助度量機構(gòu)投資者情緒。BERT模型不僅提高了文本情感分類的準(zhǔn)確性,還降低了文本情感分類的難度和成本,F(xiàn)ine-tune后的語言模型能夠重復(fù)利用,對同領(lǐng)域的文本均具有良好的分類效果,基于BERT模型的期貨機構(gòu)投資者情緒指數(shù)構(gòu)建方法對投資者情緒研究具有重要現(xiàn)實意義。此外,實證分析的結(jié)果表明基于BERT模型情感分類構(gòu)建的投資者情緒指數(shù)與期貨收盤價之間存在相互作用。當(dāng)期貨收盤價上漲(下跌)時,投資者情緒先會展現(xiàn)出較大程度的樂觀(悲觀),而隨著時間的推移,這種樂觀態(tài)度將逐漸轉(zhuǎn)變?yōu)檩^小程度的悲觀(樂觀);當(dāng)投資者情緒表現(xiàn)為樂觀(悲觀)時,收盤價會在短期內(nèi)出現(xiàn)上漲(下跌)態(tài)勢,隨后會轉(zhuǎn)變?yōu)樾》鹊南碌ㄉ蠞q)。相比較而言,期貨收盤價對投資者情緒的影響程度更大,影響時間更短。

      隨著大數(shù)據(jù)時代的來臨,以投資者情緒指數(shù)為例,互聯(lián)網(wǎng)中蘊藏著大量有價值的非結(jié)構(gòu)化文本數(shù)據(jù),如何合理選取并充分利用海量的高質(zhì)量文本數(shù)據(jù),更好地挖掘互聯(lián)網(wǎng)中的有效信息,將是今后研究的重要內(nèi)容。

      參考文獻(xiàn):

      [1] TURNEY P D. Mining the web for synonyms: PMI-IR versus LSA on TOEFL[C]//European conference on machine learning. Springer, Berlin, Heidelberg, 2001: 491-502.

      [2] KAMPS J, MARX M, MOKKEN R J, et al. Using WordNet to measure semantic orientations of adjectives[C]//LREC. 2004: 1115-1118.

      [3] CHEN H, DE P, HU Y J, et al. Wisdom of crowds: the value of stock opinions transmitted through social media[J]. The Review of Financial Studies, 2014, 27(5): 1367-1403.

      [4] 程琬蕓, 林杰. 社交媒體的投資者漲跌情緒與證券市場指數(shù)[J]. 管理科學(xué), 2013, 26(5): 111-119.

      [5] PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.

      [6] DAS S R, CHEN M Y. Yahoo! for Amazon: sentiment extraction from small talk on the web[J]. Management science, 2007, 53(9): 1375-1388.

      [7] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

      [8] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. 2018.

      猜你喜歡
      期貨市場
      紙漿期貨市場相關(guān)數(shù)據(jù)
      造紙信息(2022年2期)2022-04-03 22:13:20
      肥料企業(yè)該如何面對尿素期貨市場?
      當(dāng)下與未來:對離岸人民幣期貨市場發(fā)展的思考
      中國外匯(2019年23期)2019-05-25 07:06:38
      量化投資在期貨市場的有效應(yīng)用
      “一帶一路”建設(shè)背景下鄭州商品交易所發(fā)展研究
      期貨市場投資策略研究
      基于博弈視角的股指期貨市場監(jiān)管體制創(chuàng)新
      我國農(nóng)產(chǎn)品期貨市場的價格發(fā)現(xiàn)功能研究
      我國期貨市場內(nèi)幕交易規(guī)制反思——以美國法的理論與規(guī)范為借鑒
      商事法論集(2014年1期)2014-06-27 01:20:50
      淺談我國期貨市場環(huán)境對期貨市場發(fā)展的影響
      太原市| 清苑县| 临泽县| 花莲市| 凌源市| 梓潼县| 敦煌市| 焉耆| 青川县| 南溪县| 金沙县| 荔波县| 泗阳县| 竹北市| 临夏县| 博乐市| 噶尔县| 深圳市| 华坪县| 通渭县| 高青县| 万载县| 安丘市| 锦州市| 明星| 都江堰市| 南漳县| 平南县| 扶绥县| 浦县| 佛冈县| 江北区| 翼城县| 个旧市| 肥东县| 阿拉尔市| 宁津县| 集安市| 合山市| 昂仁县| 建昌县|