姜華 周克江
摘要:研究一類在多粒度時間下單事件同屬性不同狀態(tài)之間有一定關(guān)聯(lián)的近似周期規(guī)律挖掘問題。給出了多粒度近似周期關(guān)聯(lián)規(guī)則模型形式化的數(shù)學(xué)定義和性質(zhì),構(gòu)造了相關(guān)模型,提出了利用聚類算法挖掘周期模式并應(yīng)用于股票數(shù)據(jù)進行實驗,實驗結(jié)果表明算法是有效的。
關(guān)鍵字:近似周期;關(guān)聯(lián)規(guī)則;多粒度時間;數(shù)據(jù)挖掘
中圖分類號:TP339 文獻標(biāo)識碼:A
大數(shù)據(jù)下的數(shù)據(jù)挖掘是當(dāng)前的研究熱點,這些數(shù)據(jù)往往是隨時間變化的,即帶有顯性的或隱性的時態(tài)特征,如何從大數(shù)據(jù)中挖掘出有意義的時態(tài)周期模式是值得研究的一個方向。
國內(nèi)外已經(jīng)有了一些關(guān)于周期模式的挖掘研究[1-3],但對近似周期的挖掘并不多見。然而現(xiàn)實世界中很多時間周期都不是嚴格的完美周期,比如說月經(jīng)周期是21天-35天,并不是嚴格的30天,股票周期可能是7天-10天左右上漲一次等,并不是恰好7天。由于一些干擾因素的存在,嚴格的精確的周期模式挖掘往往會錯過一些有效的周期模式,為此我們提出了近似周期模式挖掘。文獻[4]提出的近似周期關(guān)聯(lián)規(guī)則是基于單一時間粒度,不過現(xiàn)實生活中人們往往更習(xí)慣于用多時間粒度來表示時間,比如說潮汐周期是24小時50分鐘,而不說1490分鐘。因此,文獻[5]提出了多粒時間下的近似周期挖掘,他們能發(fā)現(xiàn)股票周期大約是6分20秒左右上漲一次,但并不能發(fā)現(xiàn)多粒度時間下股票的上漲和下跌之間是否存在周期性關(guān)聯(lián)。為此,提出多粒度時間下的近似周期關(guān)聯(lián)規(guī)則挖掘問題,它能發(fā)現(xiàn)在多粒度時間下單事件同屬性不同狀態(tài)之間有一定關(guān)聯(lián)的近似周期規(guī)律。
1 模型構(gòu)造
3 實驗結(jié)果與分析
算法對2005年9月1日至2005年9月2日的580000寶鋼JTBI股票數(shù)據(jù)進行了實驗,以(分,10秒)為多粒度時間格式,買一價屬性編碼化狀態(tài)規(guī)則同文獻[2]。給定支持度閾值s= 5%,置信度閾值c= 55%,多粒度周期長度閾值L=(10,0)。在實驗中,發(fā)現(xiàn)了許多滿足要求多粒度近似周期關(guān)聯(lián)規(guī)則模式,這里僅列出部分最有意義的實驗結(jié)果于表1中。
從表1可看出:(1)若A模式覆蓋B模式,隨著近似精度的增大,A模式的支持度和置信度也都增大。當(dāng)近似精度為(0,0)時,均未發(fā)現(xiàn)滿足要求的周期規(guī)律,即沒有發(fā)現(xiàn)嚴格意義上精確的多粒度近似周期關(guān)聯(lián)規(guī)則,但當(dāng)考慮到周期可能會出現(xiàn)一定的干擾,從而放寬了近似精度的時候,發(fā)現(xiàn)了很多滿足要求的多粒度近似周期關(guān)聯(lián)規(guī)則。(2)(買一價,5[(6,1).(7,1)],3)表明股票580000寶鋼JBTI的買一價大幅上漲和正常波動之間存在一定的多粒度周期關(guān)聯(lián),在某個多粒度時間股票處于大幅上漲時,那么大約相隔6分10秒到7分10秒左右有94.047623%的可能性會出現(xiàn)正常波動,那么我們可以提前拋售此股票,以避免損失。(買一價,5[(9,0),(10,0)],3)表明股票580000寶鋼JBT1的買一價小幅下跌和正常波動之間存在一定的多粒度周期關(guān)聯(lián),在某個多粒度時間處于小幅下跌時,那么大約相隔9分0秒到10分0秒左右有92.105263%的可能性會出現(xiàn)正常波動,那么此時我們可以提前購進此股票,在相隔9分到10分鐘左右拋出從而獲利。
4 結(jié)論
提出了一類多粒度時間下的多粒度近似周期關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘問題,它適用于發(fā)現(xiàn)在多粒度時間下的單事件同屬性不同狀態(tài)之間有一定關(guān)聯(lián)的近似周期規(guī)律。即能發(fā)現(xiàn)在多粒度時間下A股票價格上漲和下跌之間的近似周期性關(guān)聯(lián)規(guī)則,但A股票價格的上漲下跌是否與B股票的上漲下跌存在周期性關(guān)聯(lián),又或者A股票價格的上漲下跌加之B股票價格的上漲下跌是否和C股票的價格波動存在周期規(guī)律,這類多粒度時間下的多事件多維屬性狀態(tài)之間的近似周期關(guān)聯(lián)規(guī)則值得進一步研究,此外,多粒度近似周期關(guān)聯(lián)規(guī)則在大數(shù)據(jù)學(xué)習(xí)分析領(lǐng)域的應(yīng)用研究也是未來值得繼續(xù)研究的一個方向。
參考文獻
[1]ANIRUDH A.KIRANYRU.REDDY P K.et al.Memory efficientmining of periodic—frequent patterns in transactional databases[C]//Computational Intelligence,IEEE,2017:1—8.
[2] LIN C W,ZHANG J,F(xiàn)OURNIER—VIGER P,et al.Emcientmining()f short periodic high—utility itemsets [C]//IEEEIntemational Conference on Systems,Man,and Cybemetics.IEEE,2017:003083~003088.
[3] SAMOLIYA M,TIWARI A.0n the use of rough set theory forminingperiodicfrequent pattems[J].IJSART,2015,11(1):21— 28.
[4]姜華,孟志清,周克江.一類時態(tài)近似周期關(guān)聯(lián)規(guī)則的知識發(fā)現(xiàn)問題[J]計算機T程與應(yīng)用,2010,46(20):241—244.
[5]姜華,孟志清,周克江,等.多粒度時間下的近似周期挖掘研究[J].計算機T程,2010年,3(36):83—85,88.