袁紅
摘要:股市數(shù)據(jù)具有大數(shù)據(jù)特征、應用數(shù)據(jù)挖掘模型從海量的股市數(shù)據(jù)發(fā)現(xiàn)其潛在規(guī)律,預測未來發(fā)展趨勢,對于降低投資者投資風險及輔助股市管理者做出有效決策具有重要意義。文章介紹幾種當今比較流行的數(shù)據(jù)挖掘模型及其在股市中的應用。
關鍵詞:股市預測;數(shù)據(jù)挖掘;綜述;輔助決策
一、引言
股市波動存在非線性,傳統(tǒng)的計量經(jīng)濟學模型大多屬于線性模型,需要事先知道各種參數(shù),這些參數(shù)在數(shù)據(jù)波動情況下不能自動修正,因此傳統(tǒng)的計量經(jīng)濟學模型不能有效的擬合股市動態(tài)變化趨勢。此外,股票市場價格波動瞬息萬變,對于數(shù)據(jù)獲取的實勢性、數(shù)據(jù)模型計算的復雜度都有著苛刻的要求。數(shù)據(jù)挖掘是從大量隨機、不完全、有噪聲的數(shù)據(jù)中,提取隱含在數(shù)據(jù)中人們事先不知道、但又是潛在有用的信息和知識的過程。伴隨第三次科技浪潮,互聯(lián)網(wǎng)、云計算技術的發(fā)展突破了數(shù)據(jù)的實時獲取、實時計算的瓶頸。如何應用數(shù)據(jù)挖掘模型從海量的股市數(shù)據(jù)中準確、高效的挖掘出有價值的信息輔助管理決策、規(guī)避風險成為當前研究的熱點。
二、主要模型
(一)神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡由大量處理單元組成,其中處理單元也可以是一個神經(jīng)網(wǎng)絡,是一種自適應信息、非線性處理系統(tǒng)。網(wǎng)絡處理單元的類型分為三類:輸入單元、輸出單元和隱單元。輸入單元接受外部世界的信號與數(shù)據(jù),輸出單元實現(xiàn)系統(tǒng)處理結果的輸出,隱單元是處在輸入和輸出單元之間,不能由系統(tǒng)外部觀察的單元。神經(jīng)元間的連接權值反映了單元間的連接強度,信息的表示和處理體現(xiàn)在網(wǎng)絡處理單元的連接關系中。人工神經(jīng)網(wǎng)絡具有非線性、非局限性、非常定性、非凸性四個基本特征。根據(jù)連接的拓撲結構,神經(jīng)網(wǎng)絡模型可以分前向網(wǎng)絡、反饋網(wǎng)絡。在股市中的應用中,BP神經(jīng)網(wǎng)絡常被用于股票價格預測。張秀艷等基于神經(jīng)網(wǎng)絡分別建立了基本數(shù)據(jù)模型、技術指標模型、宏觀分析模型對股票選取、價格趨勢進行了綜合評價。
(二)支持向量機
支持向量機主要原理是通過學習訓練集數(shù)據(jù)集,將數(shù)據(jù)映射到高維的特征空間X→M,然后再M中構造最優(yōu)超平面,將數(shù)據(jù)空間切分為幾個部分達到分類的目的。數(shù)據(jù)分類需要選擇合適的核函數(shù), 在股票預測中大部分是使用徑向基函數(shù)、Guass 核函數(shù),根據(jù)實際需求也有線性核函數(shù)、多項式核、傅里葉核、樣條核、小波核函數(shù)、Sigmoid核函數(shù)可供選擇。湯培培等人選取股東獲利水平、公司盈利水平、風險狀況、成長水平以及行業(yè)特點的相關財務指標作為輸入向量,將徑向基函數(shù)作為核函數(shù)挑選出了具有投資價值的股票。湯凌冰等對比了多層感知器、廣義回歸神經(jīng)網(wǎng)絡、支持向量機三種模型在預測股票收益率中的表現(xiàn)發(fā)現(xiàn)支持向量機表現(xiàn)最優(yōu)。李坤等應用小波核構建支持向量機模型預測了不同類型的股票指數(shù)或大盤指數(shù)。
(三)隨機森林
隨機森林基本思想是以隨機的方式建立一個森林,森林由許多棵決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯(lián)的。在創(chuàng)建完森林之后,當一個新的樣本輸入森林,就讓森林中的每一棵決策樹進行一次判斷,看看這個樣本應該屬于哪一類。在股市的應用中,隨機森林首先建立分類器從而描述因子池中各因子與下期收益表現(xiàn)的關系,根據(jù)各股歷史下一期收益率劃分類標準,利用歷史當期因子數(shù)據(jù)對分類器進行訓練得到相關參數(shù)。再代入當期各股因子數(shù)據(jù)對各股進行分類,得到各股的信任得分。從而達到選取優(yōu)秀股的目的。李齊等應用隨機森林以企業(yè)規(guī)模、盈利能力、償債能力、股東獲利能力、成長能力、營運能力等20多個因素作為決策因子選取優(yōu)了秀股票,實現(xiàn)28%的年化收益,王領等基于決策樹判斷股票買點和賣點。
(四)關聯(lián)規(guī)則
關聯(lián)規(guī)則基本思想是找出數(shù)據(jù)集中高頻出現(xiàn)幾組數(shù)據(jù),如果這幾組數(shù)據(jù)之間存在某種關系就稱其具有關聯(lián)性。關聯(lián)分析的目的是為了找出數(shù)據(jù)間隱藏的關聯(lián)網(wǎng)。在股市的應用中主要用于找出各股票間的聯(lián)動性,假設A 股票與B股票具有關聯(lián)性,即A出現(xiàn)上漲趨勢 B 股票也隨之上漲,那么通過分析股票之間漲跌的時間關系可以對股票的漲跌進行預測。這些規(guī)律在投資者進行實際決策時有著重要的參考價值和指導意義。陳艷等基于關聯(lián)規(guī)則預測了股票價格。
(五)時間序列
時間序列將已有歷史數(shù)據(jù)按時間順序排列,發(fā)現(xiàn)數(shù)據(jù)內在規(guī)律或模式,再根據(jù)歷史數(shù)據(jù)的內在規(guī)律進行趨勢擬合達到預測未來的目的。指數(shù)平滑預測法是時間序列中一種常用的方法,移動平均法做為該方法的基礎,根據(jù)時間點相隔區(qū)間的大小賦予該節(jié)點對應的權重,該方法根據(jù)實際數(shù)據(jù)情況可以選擇一次指數(shù)平滑 和多次指數(shù)平滑。ARMA預測方法是一種非線性時間序列預測方法,所以這種方法在股市預測應用中最為常用 ,該方法首先將非平穩(wěn)的時間序列數(shù)據(jù)通過若干次差分運算變成平穩(wěn)的時間序列數(shù)據(jù),然后用合適的數(shù)學模型來近似描述該序列,當模型能夠被接受后利用該模型根據(jù)時間序列的歷史數(shù)據(jù)值和現(xiàn)在的值來預測未來值。時間序列數(shù)據(jù)挖掘模型在股票市場中主要用于預測股票價格走勢、最佳交易時間確定。李奮華等建立了一種基于時間序列分析的股票走勢預測模型,蔣倩儀研究了基于時間序列預測的股票交易決策建議系統(tǒng),陳錦揚建立 ARIMA模型分析股票報酬率。
(六)方法評價
由于股市數(shù)據(jù)交易量、交易價格帶有明顯的時間屬性,時間序列是股市數(shù)據(jù)挖掘的最基本模型。但當前預測模型預測準確度隨時間的延續(xù)而降低,且預測模型隨時間的變化需要不斷調整以適應數(shù)據(jù)的變化,所以目前的挖掘模型生命周期較短、不具有普適性。神經(jīng)網(wǎng)絡預測股票已經(jīng)取得了不錯的成績,但也存在不少問題,模型初始值確定比較困難,對突發(fā)事件的適應性差,學習過程較慢,容易陷入局部最優(yōu)狀態(tài),參數(shù)難以控制等。在實際應用中支持向量機相對于神經(jīng)網(wǎng)絡而言,在泛化能力、全局最優(yōu)、結構容易度等方面表現(xiàn)更加優(yōu)秀。此外,大多數(shù)挖掘模型追求良好的穩(wěn)健性,偏向于識別常規(guī)漲跌模式而忽略或者平滑了股票大幅飆升異常特征。這是模型在預測準確度和模型穩(wěn)健性之間做出的一種折中妥協(xié),雖降低了投資風險但也失去了發(fā)現(xiàn)高收益機會。endprint
三、未來發(fā)展方向
數(shù)據(jù)挖掘在股市中的發(fā)展方向主要體現(xiàn)在以下三種層面,一是搭建框架將多模型統(tǒng)一組織形成優(yōu)勢互補。機器學習模型眾多,但在股市的實際應用中,往往是某種模型只在某一具體應用場景中表現(xiàn)良好。這就需要將各種模型組合起來滿足實際的需求,如何搭建統(tǒng)一框架組織各種模型、實現(xiàn)模型優(yōu)勢組合是當前及未來的發(fā)展方向;二是通過機器學習,自動調整模型參數(shù)以適應股市的多波動特性。由于股票波動較快,基于股票市場指標的預測模型生命周期很短,需要不斷校正模型參數(shù)、甚至更換模型,如何結合股市波動的根本成因,分析股票所具有的潛力并建立多尺度混合分析模型實現(xiàn)模型參數(shù)的自動修正是未來發(fā)展研究方向;三是結合網(wǎng)絡爬蟲自動獲取網(wǎng)絡情報,從網(wǎng)絡情報分析出投資者信心輿情、宏觀政策、企業(yè)經(jīng)營狀況、行業(yè)興衰、利率變動等相關信息對股市進行綜合評價,改變信息資源不對稱,增強投資者在股市博弈中的籌碼,也是未來研究和應用的發(fā)展方向。
參考文獻:
[1]張秀艷,徐立本.基于神經(jīng)網(wǎng)絡集成系統(tǒng)的股市預測模型[J].系統(tǒng)工程理論與實踐,2003(09).
[2]湯凌冰,盛煥燁,湯凌霄.股票收益預測模型的比較與選擇[J].湖南科技大學學報(自然科學版),2009(02).
[3]李坤,譚夢羽.基于小波支持向量機回歸的股票預測[J].統(tǒng)計與決策,2014(06).
[4]李齊,楊君岐.隨機森林算法在多因子選股上的應用[J].經(jīng)營管理者,2017(06).
[5]王領,胡揚.基于C4.5決策樹的股票數(shù)據(jù)挖掘[J].計算機與現(xiàn)代化,2015(10).
[6]陳艷,褚光磊.關聯(lián)規(guī)則挖掘算法在股票預測中的應用研究——基于遺傳網(wǎng)絡規(guī)劃的方法[J].管理現(xiàn)代化,2014(03).
[7]李奮華,趙潤林.一種基于時間序列分析的股票走勢預測模型[J].現(xiàn)代計算機,2016(20).
[8]張楠.基于時間序列的股票趨勢預測研究及R語言應用[J].江蘇商論,2016(23).
[9]蔣倩儀.基于時間序列預測的股票交易決策建議系統(tǒng)[J].計算機應用與軟件,2017(04).
[10]陳錦揚.基于R軟件對股票時間序列模型分析[J].財經(jīng)界:學術版,2016(05).
(作者單位:四川師范大學經(jīng)濟與管理學院)endprint