蔚仁佳
一、研究背景及意義
隨著大數(shù)據(jù)時(shí)代的來臨,大數(shù)據(jù)技術(shù)為我們分析問題和解決問題提供了新的思路和方法。與常規(guī)數(shù)據(jù)集相比,在大數(shù)據(jù)環(huán)境下進(jìn)行數(shù)據(jù)挖掘?qū)⒌玫礁喔娴男畔ⅰN磥韽拇髷?shù)據(jù)中發(fā)現(xiàn)因果關(guān)系以及在常規(guī)數(shù)據(jù)中挖掘一般因果關(guān)系將是一種趨勢(shì)。為了改善傳統(tǒng)格蘭杰模型在時(shí)間序列因果關(guān)系挖掘中出現(xiàn)的弊端,近一步改進(jìn)并完善因果關(guān)系挖掘模型,本文提出了在大數(shù)據(jù)環(huán)境下使用二階貝葉斯網(wǎng)絡(luò)模型進(jìn)行因果關(guān)系挖掘。該模型采用最小描述長(zhǎng)度(Minimum Description Length, MDL)原理來進(jìn)行打分。通過對(duì)期貨樣本數(shù)據(jù)分析,并對(duì)原始時(shí)間序列進(jìn)行離散化、屬性約簡(jiǎn)、重構(gòu)等處理后進(jìn)行二階貝葉斯網(wǎng)絡(luò)模型訓(xùn)練,不僅可以挖掘節(jié)點(diǎn)與節(jié)點(diǎn)之間的因果關(guān)系而且可以發(fā)現(xiàn)因果關(guān)系之間的聯(lián)系。
二、時(shí)間序列數(shù)據(jù)獲取與預(yù)處理
從統(tǒng)計(jì)學(xué)的角度上來講,時(shí)間序列指的是將某一個(gè)維度在不同時(shí)間點(diǎn)上的不同數(shù)值,按照時(shí)間的先后順序排列而成的數(shù)據(jù)。因此,時(shí)間序列常常受到各種不確定因素的干擾而表現(xiàn)出一定的隨機(jī)性,數(shù)據(jù)之間往往存在一定的相關(guān)性。從數(shù)學(xué)的角度上來講,隨機(jī)序列指的是由一系列隨機(jī)變量組成的數(shù)組,如我們用X1,X2......Xt來表示,其中t=1, 2, 3,.....n。
時(shí)間序列是按照時(shí)間的順序來排列的,因此上面的表達(dá)式中t為時(shí)間的整數(shù)變量,用來表示等間隔的增長(zhǎng),比如第t時(shí)間點(diǎn)·第t月·第t個(gè)等等,我們用x,來表示,其中t=1, 2, 3,......n,這里的t表示時(shí)間的順序。另外還有一點(diǎn)不同的是在時(shí)間序列中變量t既可以為正數(shù)也可以為負(fù)數(shù),這是由于時(shí)間序列都是以當(dāng)前的時(shí)間為基準(zhǔn),若t為負(fù)數(shù)則說明該數(shù)據(jù)發(fā)生在當(dāng)前時(shí)間點(diǎn)之前,若t為正數(shù)則說明該數(shù)據(jù)發(fā)生在當(dāng)前時(shí)間點(diǎn)之后,但是t的值必須為整數(shù)。
(一)期貨時(shí)間序列數(shù)據(jù)的來源
期貨交易數(shù)據(jù)都是按照時(shí)間順序觀察收集得到的期貨合約交易的價(jià)格數(shù)據(jù),例如開盤價(jià),收盤價(jià),最低價(jià),最高價(jià)等等。從期貨交易軟件上連續(xù)獲得的期貨時(shí)間序列數(shù)據(jù)稱作期貨時(shí)間序列數(shù)據(jù)流。時(shí)間序列數(shù)據(jù)有連續(xù)的,也有離散的。
期貨時(shí)間序列數(shù)據(jù)是一組隨時(shí)間變化而觀察得到的價(jià)格數(shù)據(jù),該數(shù)據(jù)是離散的。
我們假設(shè)
S={(x1, y1),(x2,y2),…,(x",yn)}
為時(shí)間序列,n表示數(shù)據(jù)點(diǎn)的個(gè)數(shù),Xi表示買賣期貨合約時(shí)的價(jià)格數(shù)據(jù),其中i屬于[1,n],表示買賣期貨合約的時(shí)間點(diǎn);給定一個(gè)維度,規(guī)定該時(shí)間序列是某種價(jià)格數(shù)據(jù)。通常情況下,使用自動(dòng)的期貨交易平臺(tái)進(jìn)行交易的時(shí)候,只需要分析眾多維度中的一種期貨時(shí)間序列數(shù)據(jù)即可,即固定屬性,例如期貨收盤價(jià)時(shí)間序列數(shù)據(jù)。
本文采用的期貨時(shí)間序列數(shù)據(jù)來自UC工網(wǎng)站上的開源數(shù)據(jù),選取了其中3份期貨交易時(shí)間序列。每一份時(shí)間序列擁有1000萬左右的數(shù)據(jù)樣本。每個(gè)樣本擁有交易日期、該期貨的工D、更新時(shí)間、實(shí)時(shí)價(jià)格、開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)等維度,其中更新時(shí)間從幾秒至幾分鐘不等。
(二)貝葉斯網(wǎng)絡(luò)數(shù)據(jù)集的構(gòu)建
本文的貝葉斯網(wǎng)絡(luò)分為一階和二階,兩種貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)集構(gòu)建方式不一樣,本節(jié)主要敘述如何構(gòu)建一階貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)集。在經(jīng)過離散化處理后的時(shí)間序列上隨機(jī)(初始點(diǎn)不放回)截取5000個(gè)連續(xù)的時(shí)間序列片段,每個(gè)片段擁有5000個(gè)節(jié)點(diǎn)。經(jīng)過上面的隨機(jī)截取后獲得了5000個(gè)長(zhǎng)度為5000的時(shí)間序列,下面將對(duì)每一個(gè)時(shí)間序列進(jìn)行數(shù)據(jù)集的轉(zhuǎn)化。由于考慮到二階貝葉斯網(wǎng)絡(luò)訓(xùn)練時(shí)計(jì)算機(jī)的運(yùn)行能力,在經(jīng)過多次試驗(yàn)后決定選取5個(gè)節(jié)點(diǎn),方便實(shí)驗(yàn)。
三、基于貝葉斯網(wǎng)絡(luò)的因果關(guān)系挖掘
在貝葉斯網(wǎng)絡(luò)中,對(duì)期貨時(shí)間序列進(jìn)行貝葉斯網(wǎng)絡(luò)的推理,即貝葉斯網(wǎng)絡(luò)的因果關(guān)系挖掘,其主要思想是:在給定某些證據(jù)變量取值的條件下,求解給定變量和目標(biāo)變量之間的因果關(guān)系。在本文中,我們利用最小描述長(zhǎng)度(MDL)來對(duì)單時(shí)間序列(期貨)進(jìn)行節(jié)點(diǎn)與節(jié)點(diǎn)之間,邊與邊之間的因果關(guān)系挖掘。
按照以上算法,我們對(duì)期貨的時(shí)間序列數(shù)據(jù)進(jìn)行貝葉斯網(wǎng)絡(luò)模型訓(xùn)練后得到如下因果關(guān)系圖,整理后如下:
從上圖我們可以看到總共有5個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)本身代表著在一階貝葉斯網(wǎng)絡(luò)中的一種因果關(guān)系。節(jié)點(diǎn)1表示在原始時(shí)間序列中第一個(gè)節(jié)點(diǎn)和第五個(gè)節(jié)點(diǎn)之間的因果關(guān)系,我們用因果關(guān)系1來表示。同理,用因果關(guān)系2和3分別表示上圖中的節(jié)點(diǎn)2和3。從上圖可以看到節(jié)點(diǎn)1是節(jié)點(diǎn)2和3的父節(jié)點(diǎn),這說明因果關(guān)系1是因果關(guān)系2和3的父節(jié)點(diǎn)。由此可以得出以下結(jié)論:如果己知原始時(shí)間序列中節(jié)點(diǎn)1和節(jié)點(diǎn)5之間存在因果關(guān)系,那么節(jié)點(diǎn)2和節(jié)點(diǎn)3與節(jié)點(diǎn)5之間也存在著因果關(guān)系。
四、結(jié)語
采用貝葉斯網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練對(duì)輸入的數(shù)據(jù)集有著較高的要求,本文的原始數(shù)據(jù)集來自期貨時(shí)間序列,該數(shù)據(jù)集中有較多的缺陷,例如數(shù)據(jù)不完整,冗余數(shù)據(jù)過多等問題,所以試驗(yàn)的第一步就是進(jìn)行數(shù)據(jù)預(yù)處理,保證后期實(shí)現(xiàn)的高效和準(zhǔn)確。另外,由于本文采用了一種全新的貝葉斯網(wǎng)絡(luò)訓(xùn)練方法,需要大量的時(shí)間序列,所以需要對(duì)原始時(shí)間序列進(jìn)行隨機(jī)截取來產(chǎn)生足夠多的小時(shí)間序列,保證模型的實(shí)現(xiàn)。最后,貝葉斯網(wǎng)絡(luò)訓(xùn)練需要的是矩陣形式的數(shù)據(jù)集,而單變量的時(shí)間序列是一個(gè)數(shù)組,需要考慮如何將數(shù)組轉(zhuǎn)化成符合貝葉斯網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集。(作者單位為山西財(cái)經(jīng)大學(xué))