姜麗
摘 要:證券數(shù)據(jù)是高維數(shù)據(jù),具有明顯的以時間為單位的特點。驗證證券數(shù)據(jù)的相似性,可以為證券行業(yè)的監(jiān)管或者決策提供依據(jù)。文章設(shè)計了輕量級的證券數(shù)據(jù)格式,使用改進(jìn)的高維數(shù)據(jù)相似性度量函數(shù)HDsim(X,Y),對證券數(shù)據(jù)的相似性進(jìn)行了研究和計算,并對研究結(jié)果進(jìn)行了驗證。
關(guān)鍵詞:高維數(shù)據(jù);證券數(shù)據(jù);相似度;XML
1 概述
證券交易行為充滿了復(fù)雜性,證券數(shù)據(jù)也看似隨機(jī)。客觀分析和研究證券數(shù)據(jù),找出隱藏在其中的規(guī)律,有助于我們對證據(jù)市場進(jìn)行監(jiān)管和決策。
證券數(shù)據(jù)具有明顯的時間特性,幾乎所有能夠公開查閱的證券數(shù)據(jù)都有一定的時間有效周期。另外,證券數(shù)據(jù)具有高緯度的特征,即某一時間內(nèi)的證券數(shù)據(jù)具有眾多屬性,每個屬性體現(xiàn)了這一時間內(nèi)數(shù)據(jù)的不同特點。針對這兩點,對紛繁的證券數(shù)據(jù)進(jìn)行有效組織,設(shè)計合理的相似度計算方法,可以事半功倍。
2 證券數(shù)據(jù)
基于證券數(shù)據(jù)的特點,在計算相似度之前,對證券數(shù)據(jù)進(jìn)行了必要的預(yù)處理。
2.1 數(shù)據(jù)格式設(shè)計
由于證券數(shù)據(jù)具有較多影響其走勢發(fā)展的因素,文章首先選取了其中可能對相似度結(jié)果影響較大的幾維,包括:開盤價,收盤價,漲跌額,漲跌幅,最低價,最高價,成交量(手),成交金額(萬)。其中漲跌額,漲跌幅是開盤價、收盤價的冗余,故而舍棄。最終選取確定參與運算的數(shù)據(jù)包括:開盤價,收盤價,最低價,最高價,成交量,成交金額。同時,證券數(shù)據(jù)具有明顯的時間特性,因此所有數(shù)據(jù)以時間為主線關(guān)聯(lián)。由于個股數(shù)據(jù)容易被操作,發(fā)現(xiàn)其內(nèi)在規(guī)律較為困難,文章選取了上證指數(shù)作為研究對象。
最后,為了計算機(jī)程序能夠快速地讀取數(shù)據(jù),保證數(shù)據(jù)的輕量化,文章最終將證券數(shù)據(jù)格式設(shè)計成XML形式。XML格式的數(shù)據(jù)可以很好地保留初始數(shù)據(jù)清晰的組織結(jié)構(gòu),同時XML是一種輕量的數(shù)據(jù)文件,相對于數(shù)據(jù)庫形式的數(shù)據(jù)存儲方式,處理速度更快,很適合用來存儲海量的證券數(shù)據(jù)。
2.2 數(shù)據(jù)預(yù)處理
公式(1)將數(shù)據(jù)轉(zhuǎn)換到共同標(biāo)度的區(qū)間[0.0,1.0],消除量綱的影響。同時,對非數(shù)值形的數(shù)據(jù)進(jìn)行數(shù)字化。
3 相似度結(jié)果檢驗
研究中,選取了上證指數(shù)從2012年的4月到2013年4這一年的日線數(shù)據(jù),進(jìn)行了相似度計算。為了驗證相似度的結(jié)果,選取4個特殊的時間節(jié)點,加以分析說明。四組數(shù)據(jù)分別是2012-05-04,2012-09-06,2012-10-08和2012-12-05的上證數(shù)據(jù),這幾日數(shù)據(jù)的具體走勢圖,如圖1所示。
對這四組數(shù)據(jù)進(jìn)行相似度計算,結(jié)果如表1所示。
將相似度計算結(jié)果和K線數(shù)據(jù)進(jìn)行對比,進(jìn)行分析。從圖1可以看出,2012-05-04和2012-12-05的上證指數(shù)分別位于短期內(nèi)的峰值和谷值,經(jīng)過計算,兩日數(shù)據(jù)的相似度僅為0.5942446,是表1中最小的值,與K線相符。圖1中,2012-09-06和2012-10-08兩日的走勢非常相似,均為下降通道中的一個小拐點,相似度計算結(jié)果顯示,兩日數(shù)據(jù)的相似度高達(dá)0.9441344,與K線相符。另外,圖1中還可以看出,2012-09-06,2012-10-08和2012-12-05三日數(shù)據(jù)都處于谷值,具有一定的相似性。但是,與2012-09-06和2012-10-08這兩日不同的是,2012-12-05的數(shù)據(jù)是一波大幅拉升的起點。相似度計算結(jié)果顯示,2012-09-06和2012-10-08兩日的數(shù)據(jù)與2012-12-05的數(shù)據(jù)相似度都接近0.77,符合K線圖走勢。
4 結(jié)束語
文章對證券數(shù)據(jù)的特點進(jìn)行了分析研究,設(shè)計了輕量級的證券數(shù)據(jù)樣本格式,選取了合適的相似度計算方法,對以時間為單位的高維證券數(shù)據(jù)進(jìn)行了相似度計算。通過與上證數(shù)據(jù)K線圖的比較,驗證了該相似度計算結(jié)果與實際情況較為符合。
目前,文章的檢驗測試,僅僅用于上證指數(shù)數(shù)據(jù),對更為復(fù)雜的個股數(shù)據(jù)或者其他分類數(shù)據(jù)的相似度計算,是今后需要深入研究的方向。另外,文章的相似度計算結(jié)果,在具有明顯特征的樣本點上取得了較好的結(jié)果,對于特點不明顯的一般數(shù)據(jù),計算結(jié)果如何檢驗,還需要進(jìn)一步研究。
參考文獻(xiàn)
[1]楊風(fēng)召,朱揚勇.一種有效的量化交易數(shù)據(jù)相似性搜索方法[J].計算機(jī)研究與發(fā)展,2004,41(2):361-368.
[2]謝明霞,郭建忠,張海波,等.高維數(shù)據(jù)相似性度量方法研究[J].計算機(jī)工程與科學(xué),2010,32(5):92-96.