趙力衡
摘要:隨著信息化技術(shù)的迅速發(fā)展,社會生活中產(chǎn)生的數(shù)據(jù)在近年來呈現(xiàn)出指數(shù)式的增長,這些數(shù)據(jù)也對當(dāng)前社會生產(chǎn)和生活產(chǎn)生了越來越重要的活動。在股市中采取大數(shù)據(jù)建模的方法來分析未來股票走勢也越來越顯得重要。鑒于此,提出使用大數(shù)據(jù)中時間序列模型的方法來分析預(yù)測股票走勢。實驗結(jié)果表明,所提方法能較準(zhǔn)確地反映出股票的走勢,可作為股票分析的有效依據(jù)。
關(guān)鍵詞: 大數(shù)據(jù);Modeler;時間序列;預(yù)測;股票
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)07-0256-02
Abstract:With the rapid development of information technology in recent years, the data generated in social life grow exponentially. These data become more and more important for social production and life. The big data modeling approach on analyzing future trend of stock is also increasingly important in the stock market. Base on this, a kind of time series model in big data is proposed to forecast the stock trend. The experimental results show that the proposed method can reflect the stock trend, can be considerate as an effective way for stock analysis.
Key words:big data; modeler; time series; forecasting; stock
股市從產(chǎn)生到現(xiàn)在,規(guī)模越來越大,從歷年的交易中逐漸積累了大量的歷史數(shù)據(jù),如何有效使用這些歷史數(shù)據(jù)來分析越來越復(fù)雜的股市,從而促進(jìn)股市的健康發(fā)展并增加投資者的收益就變得越來越重要。本文使用大數(shù)據(jù)數(shù)據(jù)挖掘的方式,根據(jù)IBM歷年股票數(shù)據(jù),使用SPSS Modeler工具分析預(yù)測IBM股票在歷史數(shù)據(jù)之后一個月的走勢。用于預(yù)測的數(shù)據(jù)選用具有連續(xù)記錄,并且數(shù)據(jù)量足夠充足,能用于建立可靠預(yù)測模型。
本文使用的IBM歷史股票數(shù)據(jù)包括從1981-6-19到2013-7-21的全部交易日的數(shù)據(jù)①,包括每個交易日的開盤價、最低價、最高價、收盤價、成交量和成交額。數(shù)據(jù)格式如下:
預(yù)測模型將使用從1981-6-19到2013-7-21全部交易日的數(shù)據(jù)預(yù)測其后一個月(2013年6月22號~7月21號)的IBM股票交易數(shù)據(jù),并將實際交易數(shù)據(jù)與預(yù)測數(shù)據(jù)作比較。
交易數(shù)據(jù)中最低價、最高價預(yù)測意義不大;開盤價和收盤價反映了股票走勢,預(yù)測價值較大,但兩者意義相似,這里選擇收盤價作為預(yù)測數(shù)據(jù);成交量反映了市場對股票狀態(tài)的認(rèn)可度,也有較大的預(yù)測價值;成交額則由股票成交價格和交易量決定,在預(yù)測了收盤價和成交量后,成交額同時就已經(jīng)確定,因此這里不再預(yù)測成交額。因此本次建模預(yù)測數(shù)據(jù)為收盤價和成交量。
1 數(shù)據(jù)建模
1.1 數(shù)據(jù)分析
首先查看輸入數(shù)據(jù)的分布規(guī)律,可以看到數(shù)據(jù)按天的輸入分布如圖2所示:
從圖2中可以看出收盤價數(shù)據(jù)連續(xù),并且沒有大的游離值,數(shù)據(jù)總體呈上升分布,數(shù)據(jù)來源很好;成交量數(shù)據(jù)同樣連續(xù),少量游離值的出現(xiàn)顯示存在成交量突然增大的特殊情況,這也符合實際交易情況,同時成交量數(shù)據(jù)基本上保持了相對穩(wěn)定的數(shù)量。這些信息表明用于建模的數(shù)據(jù)連續(xù)有效,符合真實情況,適合用于建模統(tǒng)計。
1.2 股價預(yù)測
實際上,僅預(yù)測1個月的數(shù)據(jù)并不需要30多年的數(shù)據(jù),僅取最近幾年的數(shù)據(jù)建模即可,經(jīng)過比較,用11~13年的數(shù)據(jù)用于建模得到的預(yù)測數(shù)據(jù)與使用長期數(shù)據(jù)建模的結(jié)果相近,并且不至于顯得數(shù)據(jù)冗余,得到的數(shù)據(jù)如圖3所示:
因此取IBM從2011年7月5號到2013年6月21號的股票數(shù)據(jù)用于建模,預(yù)測2013年6月22號~7月21號的股票走勢。
由于本次分析需要按照時間對股價進(jìn)行預(yù)測,因此需要選擇支持時間軸分析的Time Series模型進(jìn)行建模。
在SPSS Modeler中選取Time Series節(jié)點進(jìn)行建模,經(jīng)測試選擇Exponential Smoothing,并選用Holts Linear trend模型得到的結(jié)果與當(dāng)前實際數(shù)據(jù)最為接近,因此用這種模型得到的預(yù)測數(shù)據(jù)最為可靠。設(shè)置模型如圖4所示:
這里預(yù)測的收盤價和成交量兩個參數(shù),其中收盤價表現(xiàn)非常活躍,最能反映交易數(shù)據(jù)的變化,而成交量相對比較固定,因此預(yù)測結(jié)果中以收盤價最為重要。本次建模主要分析收盤價,最后再簡單分析成交量。執(zhí)行結(jié)果如下:
從圖中可以看到,模型和實際數(shù)據(jù)非常接近,兩條線幾乎完全重合,表明模型很好的反映了數(shù)據(jù)的變化,因此采用這個模型的預(yù)測結(jié)果。
收盤價的預(yù)測日期從13年6月22號到7月21號,圖中右側(cè)紅色微微上翹的短線段即是預(yù)測結(jié)果。從圖中來看,未來1個月的收盤價預(yù)計呈上升趨勢,但上升幅度較小。因此預(yù)測未來1個月中股票收盤價會緩慢上升。實際交易數(shù)據(jù)中,股票價格會有一定的波動,不會像預(yù)測結(jié)果那樣穩(wěn)定。
1.3成交量預(yù)測
加入一個Time Plot節(jié)點到生成的建模節(jié)點后面,用于顯示成交量的預(yù)測模型。預(yù)測結(jié)果如下圖所示:
從圖6中可以看出成交量的預(yù)測模型也真實反映了實際成交量的變化,但預(yù)測模型總體在實際數(shù)據(jù)之上,分析可能是受到了游離數(shù)據(jù)的影響。圖中右邊緩慢向下的紅色短線段是對6月22號到7月21號的成交量的預(yù)測結(jié)果。
從圖上看,預(yù)測成交量在未來1個月中會呈略有減少的趨勢。
2 結(jié)束語
總的來說,本次預(yù)測未來1個月中IBM的股票收盤價有小幅度的上升,但成交量會有小幅的下滑。查看2013年6月22號到7月21號股價和成交量數(shù)據(jù)如下圖所示:
可以看到未來一個月內(nèi)目標(biāo)股價總體有小幅上升,而成交量總體略微減少,與預(yù)測結(jié)果相符。實驗結(jié)果表明,所提方法能較準(zhǔn)確地反映出股票的走勢,可作為股票分析的有效依據(jù)。
注釋:
①:數(shù)據(jù)來源www.nasdaq.com
參考文獻(xiàn):
[1] 張治斌. 基于SPSS Modeler的數(shù)據(jù)挖掘過程解析[J].數(shù)字技術(shù)與應(yīng)用, 2017(8).
[2] IBM. Preparing Data for Analysis (Data Audit) [EB/OL].https://www.ibm.com/support/knowledgecenter/zh/SS3RA7_17.0.0/clementine/example_telco_dataaudit.html
[3] 席偉. 基于MATLAB的一類生態(tài)數(shù)學(xué)模型的建模仿真[J].電腦知識與技術(shù),2016(9).