• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      異構數(shù)據(jù)融合驅動的股市波動預測研究

      2023-07-17 09:30:30葉慕戎魯越譚楚婷
      計算機應用文摘 2023年13期
      關鍵詞:神經(jīng)網(wǎng)絡

      葉慕戎 魯越 譚楚婷

      摘要:由于股票市場具有復雜性、動態(tài)性和混亂性等諸多特點,其波動易受各種信息源的影響,因此對其預測具有相當?shù)奶魬?zhàn)性,而機器學習方法的應用在目前取得了一定的成功。文章從深度學習方法出發(fā),融合多種數(shù)據(jù)源,提出一種異構數(shù)據(jù)融合驅動的神經(jīng)網(wǎng)絡模型,探索股市輿情、量化指標與股價波動的內在聯(lián)系,以及媒體信息對股市波動的影響機制。

      關鍵詞:多特征融合;輿情分析;股市預測;LDA;神經(jīng)網(wǎng)絡

      中圖法分類號:TP181 文獻標識碼:A

      1 引言

      由于金融時間序列數(shù)據(jù)存在復雜、非線性、難以預測的情況,因此股票市場的預測任務充滿挑戰(zhàn)[1] ,金融業(yè)界也一直在尋找能夠系統(tǒng)地預測未來資產(chǎn)收益的方法,嘗試預測資產(chǎn)的有效收益,然而股票市場處于極其動蕩和嘈雜的環(huán)境中,這項任務無疑困難重重。傳統(tǒng)股票預測方法往往僅依賴歷史定量數(shù)據(jù)進行擬合分析,如價格、交易量、周轉率等。作為定量數(shù)據(jù)的補充,文本信息也成為部分研究者關注的對象[2] 。使用計算機技術抽取海量輿情觀點,對文本進行挖掘爬取處理,將特征進行整合,可以分析出股票市場發(fā)展動態(tài)的優(yōu)劣,為每個投資者提供各自不同且具有針對性的建議和方法。隨著文本情感分析的高速發(fā)展,簡單文本極性判斷已不能滿足人們對互聯(lián)網(wǎng)的需求,跨學科、跨平臺的研究,將文本分析技術廣泛應用在不同的領域。將引導機制、營銷理論以及多元盈利模式融合,以提高模型性能。隨著數(shù)據(jù)挖掘的深入,面向股票市場領域的細粒度情感分析技術的應用解決了隱式情感難提取、文本不規(guī)范等問題。學者正應用實踐企圖證實輿論與股票市場的相關性以及試圖應用輿論預測市場的走向[3~5] 。

      本文主要討論了量化指標、股市輿情與股價波動間的潛在關聯(lián),為金融從業(yè)者、研究者提供了一種全新的視角,以行為金融學對行為人決策的研究成果為研究基礎,尋求投資者在金融市場中可能會受到來自認知系統(tǒng)的各種偏差及對其信息處理和決策過程的影響,以期建立一個從投資者情緒到投資者行為,再到投資者行為對金融市場和實體經(jīng)濟影響的科學研究模式。

      2 文獻綜述

      多源數(shù)據(jù)融合技術是數(shù)據(jù)挖掘與機器學習領域中一種常見的特征處理手段,基于人工智能、模式識別、統(tǒng)計推斷等,在醫(yī)療診斷、目標識別、自動駕駛等領域都有著良好的應用,通過融合不同數(shù)據(jù)源、不同粒度的信息,可以更好地捕捉數(shù)據(jù)之間的高階特征交互。

      在國內,陳曉美[6] 開展了對于Web2.0 的網(wǎng)絡評論信息的分析研究,通過領域知識進行互補,構建了基于“觀點?領域知識?主題”的新型知識搜索體系,以發(fā)現(xiàn)網(wǎng)絡評論中的觀點知識;郭光明[7] 設計了概率主題模型LUBD?CM,并將其應用于刻畫用戶信用屬性,融合社交數(shù)據(jù)中用戶信用畫像的有效信息,以搭建用戶信用畫像預測系統(tǒng);賀雅琪[8] 根據(jù)Dempster?Shafer證據(jù)理論,提出了一種數(shù)據(jù)融合框架,實現(xiàn)了對多源數(shù)據(jù)的決策級融合;鄧烜堃構建了一種基于有限布爾茲曼機的深度自編碼器,實現(xiàn)了對高位金融數(shù)據(jù)的特征降維并構建了回歸模型預測股價,通過實證表明自編碼器提取特征的效果優(yōu)于傳統(tǒng)主成分分析與因子分析等方法;王乾基于股票歷史數(shù)據(jù)、財經(jīng)新聞數(shù)據(jù)、股票社交輿情3 種信息源,使用LSTM 網(wǎng)絡對個股漲跌趨勢進行預測,通過實證證明了多源數(shù)據(jù)預測的合理性;黃潔云提出充分利用股市多源數(shù)據(jù),并使用小波變換捕捉時間序列波動趨勢,同時對文本數(shù)據(jù)使用BERT 模型提取其文本情感特征,融合量化特征與文本特征并預測股票波動;張露設計了一種SBV 多源信息融合模型,有效解決了財務預警問題中的有效樣本不平衡問題,實現(xiàn)了對股市財務預警的精確預測;劉政昊從知識關聯(lián)視角構建了一個金融領域知識圖譜,嘗試發(fā)現(xiàn)股票之間的關聯(lián)性與隱含特征,為投資者提供指導建議;耿立校提出了一種基于多源異構數(shù)據(jù)的LSTM 模型,結合了歷史交易數(shù)據(jù)、量化指標數(shù)據(jù)、文本評論數(shù)據(jù)3 類數(shù)據(jù),對股票波動走勢進行實時預測,并驗證了其有效性和可行性。

      3 模型設計

      3.1 基于LDA 的情緒指數(shù)構建

      LDA 是一種無監(jiān)督學習主題模型,無需人工對訓練集進行標注,僅利用文檔集合就可以依概率分布顯示出每篇文檔的主題。對于文本的處理以及數(shù)據(jù)的挖掘,LDA 模型是一個常用的文本建模方法,可以有效地從文本中提取所需的重要信息。對于文本中隱含情緒的提取以及建模,LDA 模型克服了傳統(tǒng)文本相似度的比較方法中的缺點,大幅提升了提取分析的效率。

      作為經(jīng)典主題模型之一,LDA 的核心思想是將文檔表示為若干個潛在的主題,其中每個主題都通過一定量的單詞來描述,具體而言,通過參數(shù)估計得到詞匯概率分布,并結合各文檔主題概率分布進行判斷,從而將詞項空間的全部詞匯聚類轉移到主題空間中,達到提取文本主題的目的。通過對每個詞w 的主題z進行采樣,基于其統(tǒng)計頻次,計算得到文本主題k 中的詞項概率分布φk 和第m 篇文檔的主題概率分布θm ,其LDA 聯(lián)合概率為:

      在得到文本主題詞匯后,本文使用開源情感分析工具Snownlp 得到其情感評分,其底層算法為樸素貝葉斯模型。其訓練過程實質上是統(tǒng)計每一個特征出現(xiàn)的頻次,通過對文本打上正、負極性的標簽,將每一個詞匯視作相互獨立的特征,統(tǒng)計各個詞匯特征出現(xiàn)的頻次與訓練樣本中的詞匯總數(shù),就可以將情感極性分析任務轉化為一個貝葉斯分類模型,具體公式為:

      其中,c1, c2 為情感極性(積極或消極),w1,w2,…wn為每個詞匯出現(xiàn)的頻次,即特征n 為詞匯數(shù)。

      3.2 基于Auto?Encoder 的特征提取

      由于股票市場指標種類繁多,需要接受大量輸入信息,而且不同技術指標之間往往存在多重共線性的可能,為降低數(shù)據(jù)維度,提取出原數(shù)據(jù)中最具代表性的信息,壓縮輸入信息量,實現(xiàn)特征重構與特征提取。

      本文建立了Auto?Encoder 自編碼器模型,實現(xiàn)了由高維數(shù)據(jù)到低維數(shù)據(jù)的壓縮編碼。在處理統(tǒng)計特征的部分,依次完成差分處理、對數(shù)變換和標準化,提取時間序列的統(tǒng)計特征,以Auto?Encoder 模型提取重要因子,并加入模型。

      自編碼器(Auto?Encoder, AE)是一種經(jīng)典神經(jīng)網(wǎng)絡模型,主要由編碼器(Encoder)及解碼器(Decoder)構成,其主要原理是將輸入樣本通過編碼器映射至一個特征空間中,接著通過解碼器將已完成編碼的抽象特征映射回原始空間,以得到重構樣本,然后對比輸入和輸出,使二者不斷逼近,最終實現(xiàn)特征提取。通過學習到的新特征,Auto?Encoder 可以重構出原始輸入數(shù)據(jù),解碼成更低維的數(shù)據(jù)。設輸入樣本為x,抽象特征為y,重構樣本為x ,編碼函數(shù)為f(x),解碼函數(shù)為g(x),誤差為e,則有:

      3.3 基于LSTM 的股價波動預測

      長短時記憶網(wǎng)絡( Long Short?Term Memory,LSTM)是一種深度神經(jīng)網(wǎng)絡模型,在語音識別、股指預測等涉及序列數(shù)據(jù)的任務中具有相當廣泛的應用。

      LSTM 模型隸屬于循環(huán)神經(jīng)網(wǎng)絡(Recurrent NeuralNetwork,RNN)的一種,由于其能夠處理長時序列,比RNN 更適用于處理和預測時間序列數(shù)據(jù)。傳統(tǒng)RNN模型試圖通過循環(huán)來讓信息連續(xù)傳遞,然而隨著句子距離的增加,RNN 將難以連接相關信息,也就是俗稱的遠程依賴問題,該網(wǎng)絡的設計本意正是希望克服遠距離依賴問題, 并在各種任務中取得優(yōu)異表現(xiàn)。

      LSTM 模型由遺忘門、輸入門、輸出門3 部分組成,引入了單元狀態(tài)的概念,其模型架構為:

      其中,σ 為激活函數(shù),W 為權重矩陣,b 為偏置項,ft ,it ,ot 和ct 分別為輸入門、遺忘門、輸出門和單元激活向量,ht 為輸出激活函數(shù)。

      近年來, LSTM 受到了很多科學家的青睞,其在輿情分析任務中的應用均取得了較好的效果,并在多個領域成為不可替代的一部分。通過LSTM 模型可以準確捕捉股市輿情間的高階特征交互,并基于反復迭代訓練學到記憶哪些信息和遺忘哪些信息?;谠冢蹋模?主題模型中得到的關聯(lián)關系,結合股票的發(fā)布時間、漲跌情況、股民評價、公司經(jīng)營狀況等軌跡,預測其未來的發(fā)展熱度,使用神經(jīng)循環(huán)網(wǎng)絡,能夠更好地擬合波動趨勢,誤差較小,預測精度較高,進而為廣大投資者的投資決策提供了一定的輔助參考作用。

      4 結束語

      本文主要研究了基于多源異構數(shù)據(jù)的股指趨勢預測,嘗試將股市信息歸納為歷史交易數(shù)據(jù)、量化指標數(shù)據(jù)、文本評論數(shù)據(jù)3 類數(shù)據(jù)源,通過設計不同的特征工程手段將不同種類數(shù)據(jù)融合至一處,然后輸入AE?LSTM 模型實現(xiàn)對股票指數(shù)波動的預測,有效改進了模型效果。同時,通過與若干基線的對照實驗,驗證了模型的先進性與可行性。

      隨著互聯(lián)網(wǎng)信息技術的高速發(fā)展,信息發(fā)布與傳播速度愈發(fā)加快,數(shù)據(jù)量級呈現(xiàn)出井噴式的增長,導致社會投資者難以甄別其中的有效信息。然而由于股票市場的復雜性,歷史交易數(shù)據(jù)、量化指標數(shù)據(jù)、文本評論數(shù)據(jù)均會影響投資者在股票市場中的決策行為,進而對股票收益率和流動性產(chǎn)生影響。因此本文基于前人基礎,對股票的相關輿論信息進行數(shù)據(jù)挖掘,提出了量化數(shù)據(jù)與文本數(shù)據(jù)的融合方法,基于LDA 構建文本主題特征,基于AE?LSTM 模型預測股票價格走勢,相信未來能夠在股票投資領域發(fā)揮重要作用。

      參考文獻:

      [1] 李尚昊,朝樂門.文本挖掘在中文信息分析中的應用研究述評[J].情報科學,2016,34(8):153?159.

      [2] 王超.輿情熱度對股市收益的影響[D].杭州:浙江大學,2020.

      [3] 孫明璇,李莉莉.基于數(shù)據(jù)挖掘的投資者情緒對股市波動影響研究[J].燕山大學學報(哲學社會科學版),2020,21(1):68?77.

      [4] 呂華揆,劉政昊,錢宇星,等.異質性財經(jīng)新聞與股市關系研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(1):99?111.

      [5] 劉薇,姜青山,蔣泓毅,等.基于FinBERT?CNN 的股吧評論情感分析方法[J].集成技術,2022,11(1):27?39.

      [6] 陳曉美.網(wǎng)絡評論觀點知識發(fā)現(xiàn)研究[D].長春:吉林大學,2014.

      [7] 郭光明.基于社交大數(shù)據(jù)的用戶信用畫像方法研究[D].合肥:中國科學技術大學,2017.

      [8] 賀雅琪.多源異構數(shù)據(jù)融合關鍵技術研究及其應用[D].成都:電子科技大學,2018.

      作者簡介:葉慕戎(2000—),本科,研究方向:金融數(shù)學。

      猜你喜歡
      神經(jīng)網(wǎng)絡
      BP神經(jīng)網(wǎng)絡在路標識別上的應用研究
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于Alexnet神經(jīng)網(wǎng)絡的物體識別研究
      電子制作(2019年12期)2019-07-16 08:45:28
      基于BP神經(jīng)網(wǎng)絡的旋轉血泵生理控制
      基于Q-Learning算法和神經(jīng)網(wǎng)絡的飛艇控制
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內LBS應用
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
      基于神經(jīng)網(wǎng)絡分數(shù)階控制的逆變電源
      基于GA-BP神經(jīng)網(wǎng)絡的光伏陣列MPPT研究
      電測與儀表(2014年2期)2014-04-04 09:04:04
      高唐县| 石嘴山市| 新余市| 革吉县| 乡城县| 松潘县| 潮州市| 类乌齐县| 陆川县| 长顺县| 镇巴县| 永福县| 青川县| 濉溪县| 绩溪县| 藁城市| 杭州市| 句容市| 五寨县| 舒城县| 吉隆县| 集安市| 青州市| 琼结县| 古浪县| 扶沟县| 文安县| 霍邱县| 永清县| 安化县| 库伦旗| 巴中市| 珲春市| 綦江县| 黄陵县| 敖汉旗| 奎屯市| 象山县| 陵水| 芒康县| 宁波市|