• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向異構(gòu)金融數(shù)據(jù)的情感分析方法研究

      2019-08-12 03:44:44鄭天宇
      現(xiàn)代計算機 2019年19期
      關(guān)鍵詞:輿情股票權(quán)重

      鄭天宇

      (上海海事大學(xué)信息工程學(xué)院,上海201306)

      0 引言

      基于網(wǎng)絡(luò)的技術(shù)不斷被金融領(lǐng)域所接受,投資者可以在線下輕而易舉地獲得關(guān)于上市公司的經(jīng)營信息。隨著2000 億條微博被國家圖書館保存,輿情作為一種新的消息來源與分析媒介在生活和工作中越來越重要地得以展現(xiàn)。新聞網(wǎng)站和股吧作為一種金融界信息發(fā)布與交換的方式,已逐漸成為消息披露和交易決策交換等相關(guān)信息的主要來源。輿情網(wǎng)站為各個領(lǐng)域的投資者提供了一個平臺,使得人們可以聚集在一起,接收并分享他們對公司股票的看法。但由于關(guān)鍵的信息隱藏在大量數(shù)據(jù)中,從海量文本中獲取有用的信息仍然很困難,投資決策者幾乎不可能閱讀完相關(guān)網(wǎng)站并羅列出所有信息,因此提供可以準確獲取輿情信息的方法可以極大地幫助投資者進行投資決策[1-3]。

      網(wǎng)站中包含的數(shù)據(jù)幾乎沒有結(jié)構(gòu)化的,如何有效地處理和利用非結(jié)構(gòu)化數(shù)據(jù)是一個具有挑戰(zhàn)性的機器學(xué)習(xí)問題。在金融網(wǎng)站的新聞發(fā)布子模塊,每個數(shù)據(jù)條目都與某一時刻股票的表現(xiàn)及市場看法有關(guān),將此看作可用時間序列表示的金融異構(gòu)數(shù)據(jù)[4]。某些主題詞語和主題的頻率均是隨時間變化的,對股票的看法也隨著時間的推移及其在證券交易所的種種行為表現(xiàn)而變化。也就是說股票的情緒展現(xiàn)和股價走勢及外部事件之間存在相關(guān)性,Chen 等人[5]發(fā)現(xiàn)多種信息源頭例如博客等可以密切預(yù)測股市行為。

      1 系統(tǒng)概述

      第一步涉及數(shù)據(jù)采集,我們從cnstock 抓取了金融新聞消息板并將數(shù)據(jù)利用pymongo 存儲在MongoDB中。下一步是從非結(jié)構(gòu)化數(shù)據(jù)中提取消息。首先進行預(yù)處理,刪除常見HTML 標簽提取有用的部分,如我們需要的日期、作者、消息文本等。然后基于提取的信息構(gòu)建情感分類器。通過比對異構(gòu)數(shù)據(jù)預(yù)測出的情感與該支股票的日線數(shù)據(jù)得到的實際價值,給對應(yīng)的先前新聞打上“看漲”、“看跌”的標簽并由新算法計算出新聞作者總體的情感閾值,利用此步驟對一支股票相關(guān)的未打標簽的新聞異構(gòu)文本構(gòu)建新特征集進行文本分析。系統(tǒng)架構(gòu)如圖1 所示。

      1.1 數(shù)據(jù)收集

      基于Scrapy 和Redis 的分布式技術(shù)編寫爬蟲。crawler_cnstock、crawler_jrj 主要爬取中國證券網(wǎng)、金融界匯總的股票新聞模塊的新聞標題、內(nèi)容、作者、時間、網(wǎng)址,由于服務(wù)器時而存在無響應(yīng)問題,我們重復(fù)運行爬蟲匯總了三日內(nèi)的異構(gòu)文本數(shù)據(jù)。為了獲取滬深股票的行情表現(xiàn)數(shù)據(jù),我們從Tushare 獲取日線數(shù)據(jù),特征包括開盤價、最高價、最低價、成交額、股票代碼、名稱、板塊等信息。

      圖1 新聞文本計算情感權(quán)重預(yù)測股票表現(xiàn)系統(tǒng)構(gòu)架

      提取相關(guān)信息后,依次對爬取入庫的新聞文本進行去停用詞、加載股票名稱新詞、將語料庫中每段異構(gòu)信息轉(zhuǎn)換為單個詞語和作者(包括姓名及新聞機構(gòu)名稱)的向量,日期我們采取映射成整數(shù)值的形式,使用TF-IDF 公式計算向量中每個條目的值:

      TF-IDF(詞頻-逆文檔頻率)用于評估包含單詞或特征的條目對語料庫中整體信息的重要程度,隨該條目在某一文章出現(xiàn)次數(shù)增加而重要比例增加,隨在語料庫中出現(xiàn)頻率的增加而重要程度衰減。

      1.2 情感預(yù)測

      首先假設(shè)公司發(fā)布的官方新聞與股票的表現(xiàn)有很高的相關(guān)性。同樣地,在股票表現(xiàn)發(fā)生劇烈變化時,跟風(fēng)的新聞機構(gòu)的情感也可能發(fā)生變化?;谝陨现庇X,我們將情感建模為一種有條件依賴于過去一天的輿情和股票價值的馬爾科夫過程。即在時刻i,對新聞m 的情感建模如下:

      i+1 時刻的預(yù)測會取決于先前i 時刻的值,Mi 為i時刻的消息集,SVi 為i 時刻的股票價值表現(xiàn)(以收盤價為例)。選擇合適的學(xué)習(xí)算法訓(xùn)練上述模型的參數(shù)。由于未來將面臨較大異構(gòu)數(shù)據(jù)集的考驗,我們使用樸素貝葉斯及決策樹進行訓(xùn)練。

      1.3 情感權(quán)重值計算

      基于有些新聞發(fā)布機構(gòu)對于金融市場更加權(quán)威這一觀點,專業(yè)的金融分析報道者理應(yīng)獲得更多的情感權(quán)重值,這意味著他們發(fā)布的輿論比其他人發(fā)布的觀點更為可信且重要。但根據(jù)用戶畫像獲得作者的背景在情感分析的領(lǐng)域往往較為困難,面相媒體輿情的情感分析很少去獲得輿情源頭的畫像資料,因為就像有些股吧論壇中的這些特征用戶可以任意填入他們自己有關(guān)的背景信息,有些媒體機構(gòu)也可以留下無用或是不準確的信息。

      我們使用算法依據(jù)輿情創(chuàng)作人在他們資料中的歷史表現(xiàn)來計算作者的情感權(quán)重值,對每條信息使用情感預(yù)測步驟得出作者的情感傾向可能,并將該信息發(fā)布時間附近的實際股價表現(xiàn)進行橫向比較,如果作者表達的情感傾向符合實際股價表現(xiàn),那么作者或新聞機構(gòu)的情感權(quán)重值將會增加??紤]到一個公式(5)、(6)除了在方向上可以計算符合度方向,還可以關(guān)注幅度,例如:上述步驟訓(xùn)練出作者情感為強烈沽空一只股票,但股票表現(xiàn)的收盤價僅略有下降,那么作者也不會得到太多情感權(quán)重。

      其中,SentimentProbability 表示情感傾向概率,MidScore 為設(shè)置的常數(shù),在情感傾向中通常設(shè)置為表示中性的0.5,StockChange 為收盤價較昨日收盤價的漲跌百分比,將此項和情感傾向概率組合作為權(quán)重賦給新聞作者的情感預(yù)測表現(xiàn)。NumOfPrecision、NumOf-Normal 和NumOfPrediction 分別代表新聞作者精準預(yù)測的次數(shù)、一般符合的次數(shù)及預(yù)測匹配總次數(shù),Sector-Coefficient 是一個懲罰系數(shù),當新聞評論的是一個板塊時,此項設(shè)置為1 用于抵消作者的情感匹配度。

      1.4 股票預(yù)測

      股票預(yù)測是一項艱難的任務(wù),在方法中,我們根據(jù)對應(yīng)的新聞情感對時間i 處的股票價值進行預(yù)測:

      圖2 展示了用于貝葉斯網(wǎng)的股票預(yù)測模型,訓(xùn)練一種分類器使用過去一天提取或計算出的融合特征來預(yù)測股票價格的漲跌,特征包含情感傾向、歸屬作者的情感權(quán)重值及該股涉及的新聞總數(shù)。

      同時為驗證文本信息中作者情感權(quán)重是否和股票價格之間有顯著性關(guān)系,利用以資產(chǎn)定價模型為代表的因子模型加入語料庫中目標股票對應(yīng)新聞的所有作者的情感權(quán)重平均值,以對數(shù)收益率確定待估系數(shù),公式(7)如下:

      模型中,標簽使用表示i 時刻股票j 的價格S 的對數(shù)收益率,rf是假設(shè)的該年滬深指數(shù)的年平均收益率的日化收益,以此來代替無風(fēng)險收益率,為日期i 時股票j 對應(yīng)的新聞所屬作者的情感權(quán)重均值,Ι 為指示函數(shù),為服從正態(tài)分布的隨機數(shù)噪聲,待估系數(shù)分別是Cj、αj、βj。但從回歸的結(jié)果我們看到股價收益率雖然和網(wǎng)絡(luò)新聞輿情具備顯著相關(guān)特征,但的αj系數(shù)極小,對應(yīng)的t、F 統(tǒng)計量很大,說明影響雖顯著相關(guān)但對其影響的范圍很小。假設(shè)是由于參差不齊水平的新聞作者發(fā)布的若干輿情在可信度上進行了標準化,為準確說明這一現(xiàn)象,我們再對上步驟得到的作者情感權(quán)重依次排序,取3 個分位數(shù),然后按照分位數(shù)對股票的輿情發(fā)布機構(gòu)作者的情感權(quán)重值分塊為3 組,分別是WB1、WB2、WB3,模型如下。這樣做的好處是保證分組后組內(nèi)新聞數(shù)目是一致的但不同組別意味著不同的作者情感權(quán)重(權(quán)重值依次增大),并依照這種方法將相似文本特征的異構(gòu)金融數(shù)據(jù)進行文本分類及預(yù)測。

      2 實驗與結(jié)果

      對6 支股票的128 支新聞及對應(yīng)的47 個作者的相關(guān)數(shù)據(jù)針對對數(shù)收益率進行線性回歸,回歸結(jié)果如表1 所示。

      表1 回歸結(jié)果

      可以看到α3比α1、α2大了一個數(shù)量級別,對于單日收益率而言,一個數(shù)量級別已經(jīng)對對數(shù)收益提供了很好的解釋力。根據(jù)代表信任程度較高的高權(quán)重作者情感對金融市場投資者的決策更具影響力,從而更能影響次日的股票收益。表2 顯示使用樸素貝葉斯對涵蓋6 個板塊的個股情感預(yù)測準確度的結(jié)果。

      表2 加入情感權(quán)重前后股票表現(xiàn)預(yù)測的準確度

      使用加入作者情感權(quán)重值的情感預(yù)測模型的性格會得到提升,針對不同板塊增加了1%-8%不等的準確度,表明了加入作者情感權(quán)重可以幫助消除文本情感噪音。

      3 結(jié)語

      本文在考慮現(xiàn)有的面向金融新聞文本情感提取算法的基礎(chǔ)上加以改進,使其能更好地為文本情感分析決策提供支持。同時引入了文本源頭的情感權(quán)重值,在消除過濾情感傾向預(yù)測中不相關(guān)噪聲情緒的同時提高了準確率。接下來如何在長范圍時間序列的基礎(chǔ)上進一步提升預(yù)測準確率,需要更進一步的研究。

      猜你喜歡
      輿情股票權(quán)重
      權(quán)重常思“浮名輕”
      當代陜西(2020年17期)2020-10-28 08:18:18
      為黨督政勤履職 代民行權(quán)重擔當
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      本周創(chuàng)出今年以來新高的股票
      本周創(chuàng)出今年以來新高的股票
      本周連續(xù)上漲3天以上的股票
      近期連續(xù)漲、跌3天以上的股票
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      金堂县| 禄丰县| 德江县| 鄂托克旗| 丹江口市| 徐水县| 科尔| 嘉善县| 济南市| 布尔津县| 紫云| 北票市| 马鞍山市| 博罗县| 罗田县| 宣化县| 读书| 长白| 昆明市| 黄山市| 余姚市| 开江县| 玛纳斯县| 民权县| 兴国县| 都昌县| 贺州市| 屏南县| 平陆县| 会昌县| 渭南市| 岳池县| 湘乡市| 景泰县| 嘉兴市| 永川市| 长阳| 徐州市| 绥化市| 蓝田县| 渝中区|