盧海濤
摘 要:時(shí)態(tài)數(shù)據(jù)中對不確定性和周期數(shù)據(jù)如何處理,現(xiàn)有的時(shí)態(tài)數(shù)據(jù)模型很少涉及。分析時(shí)態(tài)數(shù)據(jù)中不確定數(shù)據(jù)和周期數(shù)據(jù),可以從大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的時(shí)間相關(guān)性,幫助企業(yè)決策者預(yù)測客戶未來的行為變化趨勢,總結(jié)客戶對象隨時(shí)間變化的規(guī)律,從而實(shí)現(xiàn)時(shí)態(tài)數(shù)據(jù)中序列模式的挖掘問題。該文對時(shí)態(tài)數(shù)據(jù)中序列模式挖掘技術(shù)進(jìn)行了研究。
關(guān)鍵詞:時(shí)態(tài)數(shù)據(jù) 序列模式 BI 數(shù)據(jù)挖掘
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2014)05(a)-0056-01
序列模式挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)中針對時(shí)態(tài)數(shù)據(jù)庫中不確定性信息的存儲、組織、挖掘和維護(hù)的問題的重要研究方法,特別是商業(yè)BI過程中,庫中潛存著大量的數(shù)據(jù)信息,這些數(shù)據(jù)主要以時(shí)態(tài)數(shù)據(jù)為主,因此利用數(shù)據(jù)挖掘技術(shù)綜合分析和處理時(shí)態(tài)數(shù)據(jù)是很有必要的,而序列模式挖掘技術(shù)則是數(shù)據(jù)挖掘應(yīng)用的主要方法。利用該技術(shù)能夠在巨量數(shù)據(jù)中發(fā)現(xiàn)潛在有效的模式和用戶信息,并將這些模式應(yīng)用于商業(yè)運(yùn)營中。
1 不確定數(shù)據(jù)序列算法研究
2001年,Jian Pei提出了一種新的不確定數(shù)據(jù)序列算法[1],其是基于傳統(tǒng)Apriori算法的傳遞閉包性質(zhì)。并且其中GSP是水平挖掘方法。而在1996年,Srikant提出的挖掘方法[2]是垂直挖掘方法。一般來說,近幾年提出的基于傳統(tǒng)Apriori算法的傳遞閉包性質(zhì)的方法的基本流程如下:(1)采用廣度優(yōu)先搜索策略,生成候選模式集;(2)檢測候選模式集中每項(xiàng)模式是否為頻繁模式;(3)利用反單調(diào)性質(zhì)剪枝策略對不可能成為頻繁模式的候選分支進(jìn)行剪枝;(4)進(jìn)行迭代。這類算法有一個(gè)嚴(yán)重缺陷,即有大量中間結(jié)果會在自連接操作生成候選集時(shí)產(chǎn)生。針對這個(gè)問題,Jian Pei提出利用深度優(yōu)先搜索策略來改進(jìn)。同樣,Jian Pei提出PrefixSpan方法是基于投影的模式擴(kuò)展算法。因?yàn)椴捎玫氖沁f歸方式,所以不會有大量中間候選集產(chǎn)生。2002年,Ayres[3]提出了SPAM算法,該算法更加有效,但是其有一個(gè)前置條件:全部數(shù)據(jù)都必須在內(nèi)存中。
2 序列模式挖掘研究
序列模式挖掘是指從序列數(shù)據(jù)中尋找頻繁子序列作為模式的知識發(fā)現(xiàn)過程,在很多領(lǐng)域都有實(shí)際的應(yīng)用價(jià)值。在不同領(lǐng)域中,采用序列模式挖掘技術(shù),可以發(fā)現(xiàn)諸多藏在數(shù)據(jù)中的知識,進(jìn)而輔助決策過程。而序列模式挖掘方法的深入理解,對于諸如頻繁子樹、網(wǎng)格、子圖等結(jié)構(gòu)類模式的挖掘具有重要理論意義。一般而言,序列模式挖掘的執(zhí)行過程是:(1)定義最小支持度閾值;(2)找出序列集合中所有滿足最小支持度閾值的序列集。
早期的序列模式挖掘研究是由Agrawal等人進(jìn)行的,近幾年來,序列模式挖掘研究取得了長足的進(jìn)步,有大量性能良好的算法被提出。這些算法可簡單分類為四種:(1)基于Apriori(Apriori-based)算法;(2)GSP算法;(3)基于投影(Projection-based)算法;(4)SPADE算法。
3 時(shí)間序列模式挖掘的研究
時(shí)間序列模式相似性匹配是時(shí)間序列數(shù)據(jù)挖掘的一個(gè)重要內(nèi)容。時(shí)間序列來源于實(shí)際生活的各應(yīng)用領(lǐng)域,其具有如下特點(diǎn):(1) 頻繁的短期波動(dòng);(2)大量噪聲干擾;(3)非穩(wěn)態(tài)。這些特點(diǎn)導(dǎo)致時(shí)間序列模式匹配異常艱難。時(shí)間序列模式相似匹配的基礎(chǔ)是相似性度量,而近幾年提出的時(shí)間序列索引技術(shù)可以有效提高查詢效率。
近幾年來,研究者們提出了很多時(shí)間序列分類算法,但這些算法主要是對相似性度量方法進(jìn)行改進(jìn),其中,在2004年,Wai-Ho[4]在時(shí)間序列分類中引入了模糊規(guī)則,以對時(shí)間序列中的噪聲和模糊特性進(jìn)行處理。
在對異常數(shù)據(jù)的處理過程中,通常做法是將其刪除,但在某些應(yīng)用背景中,異常數(shù)據(jù)具有特定價(jià)值,比如電力系統(tǒng)運(yùn)行異常,以及信用卡使用過程監(jiān)測(可能是信用卡詐騙)等。近幾年,對時(shí)間序列異常,研究者們提出了不同的定義,但還未有一個(gè)公認(rèn)的定義。異常挖掘有兩個(gè)研究方向:(1)如何定義異常數(shù)據(jù);(2)如何挖掘異常數(shù)據(jù)。
時(shí)間序列模式挖掘的目的是挖掘出與時(shí)間有關(guān)的頻繁模式。目前被分為兩類:(1)關(guān)聯(lián)規(guī)則挖掘;(2)序列模式挖掘。1993年,Agrawal[5]提出關(guān)聯(lián)規(guī)則挖掘,挖掘給定數(shù)據(jù)集中數(shù)據(jù)項(xiàng)間有價(jià)值的聯(lián)系。其描述的是項(xiàng)集間的關(guān)聯(lián)。序列模式挖掘也由 Agrawal首先提出的,其描述的是交易間的關(guān)聯(lián)。
4 結(jié)論
時(shí)間序列的趨勢分析應(yīng)用非常廣泛,但分析方法還局限于基于數(shù)學(xué)模型,當(dāng)數(shù)據(jù)海量的時(shí)候,會給分析帶來很多不便,并且準(zhǔn)確率也會下降,針對目前已提出的算法,希望可以在豐富趨勢挖掘的研究方法的同時(shí),將時(shí)間序列數(shù)據(jù)挖掘的一些算法進(jìn)一步引入,可以更好的延展趨勢分析方法。
參考文獻(xiàn)
[1]Jian Pei.Mining Sequential Patterns by Prefix-Projected Growth[C]//.Proc of the 17th International Conference on Data Engineering, Heidelberg, Germany,2001: 215-224.
[2] R.Srikant.Mining Sequential Patterns:Generalizations and Performance Improvements.Advances in Knowledge Discovery and Data Mining: 5th International Conference on Extending Database Technology,Avignon,F(xiàn)rance, 1996:3-17.
[3] J.Ayres.Sequential Pattern Mining Using a Bitmap Representation.Proc of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Edmonton,Canada: 2002:429-435.
[4] Wai-Ho.Mining fuzzy rules for time series classification,Budapest,Hungary,2004:25-29.
[5] R Agrawal.Mining association rules between sets of items in large databases,Proceedings of the ACM SIGMOD Congerence on Management of Data,Washington,1993:207-216.endprint