摘 要 隨著人們對信息數(shù)據(jù)量的急速增長從而數(shù)據(jù)挖掘技術也隨之應運而生,這使得人們對知識與信息的渴求得到了進一步滿足。對于如何才能快速高效的獲取知識,對于信息處理技術來說已經(jīng)成為當前熱門的研究課題。審視當前對于關聯(lián)規(guī)則的研究現(xiàn)狀,針對關聯(lián)研究的現(xiàn)狀,分析實際問題對于關聯(lián)規(guī)則總結出一種新的研究方式,結論為關聯(lián)規(guī)則算法在今后的出路和進一步的研究上指明了方向。研究過程中通過對文獻的查詢分析和比較分析兩種方法,進一步闡述對典型關聯(lián)產(chǎn)生影響的各種方法,其中最為重要的是把核心Apriori算法作為一個研究的基點。
關鍵詞 數(shù)據(jù)挖掘;關聯(lián)規(guī)則;典型關聯(lián);Apriori算法
中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)15-0030-03
當今社會人們對計算機應用提出了更高要求,如今人們慢慢的意識到關系數(shù)據(jù)庫有很多缺點和限制,這種問題又推動了數(shù)據(jù)庫在更深領域上的研究。當前專家們對數(shù)據(jù)庫的研究內容主要是把數(shù)據(jù)庫技術與其他技術相結合,然后應用到特定領域中,這種研究現(xiàn)在已經(jīng)取得了驕人的成績。
1 數(shù)據(jù)挖掘技術
1.1 數(shù)據(jù)挖掘概念
從數(shù)據(jù)挖掘的本質上說它是一種具有更高商業(yè)價值的新型信息處理技術,數(shù)據(jù)挖掘技術的作用是對數(shù)據(jù)的應用來說的,其目的是使人們從低層次的聯(lián)機查詢過渡到對數(shù)據(jù)決策支持分析預測上,從而成為更高層次的應用。
1.2 數(shù)據(jù)挖掘技術的分類
關于數(shù)據(jù)挖掘針對其挖掘的對象,大致的可以做出以下分類,具體分為時態(tài)數(shù)據(jù)庫、異質數(shù)據(jù)庫、文本數(shù)據(jù)源、關系數(shù)據(jù)庫面向對象數(shù)據(jù)庫(Object-Oriented Database)、空間數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫以及web等比較具有針對性的挖掘對象。針對數(shù)據(jù)挖掘的方法大致的可以歸納為:計算機學習法、數(shù)理統(tǒng)計法、信息聚類分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當代數(shù)學分析法等。
根據(jù)數(shù)據(jù)挖掘技術的知識類型可以分為:廣義范圍的知識挖掘、差異范圍的知識挖掘、關聯(lián)范圍的知識挖掘、預測范圍的知識挖掘等。
1.3 數(shù)據(jù)挖掘的應用分析
根據(jù)麻省理工學院內部數(shù)據(jù)整理其科技評論雜志對數(shù)據(jù)挖掘技術的應用分析提出了10大新興的科學技術數(shù)據(jù)挖掘能夠在未來5年對人類的生產(chǎn)生活帶來重大影響。根據(jù)種種數(shù)據(jù)分析所表明的問題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術面向實際應用方面不是一時的,隨著時代的發(fā)展社會信息化進程不斷加劇各行業(yè)的業(yè)務操作也隨之逐漸向現(xiàn)代化流程轉變,這一轉變促使企業(yè)在處理業(yè)務時產(chǎn)生大量的業(yè)務信息數(shù)據(jù)。對于一般地企業(yè)內部的業(yè)務信息數(shù)據(jù)來說,其主要是由企業(yè)進行商業(yè)運作而產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場分析而進行收集的,關于此類的數(shù)據(jù)挖掘的應用終將成為企業(yè)進行高層次數(shù)據(jù)分析,為行政決策提供技術支持的骨干技術。
1.4 數(shù)據(jù)挖掘技術和方法
1)統(tǒng)計方法。統(tǒng)計就是查找事物的數(shù)量或規(guī)律,數(shù)據(jù)挖掘技術中使用統(tǒng)計方法主要目的就是從事物的數(shù)量上來推斷其規(guī)律,通常都是在事物的數(shù)據(jù)上來找線索,然后根據(jù)這些線索進行假設,然后根據(jù)這些假設去驗證其可行性,這種方法最大的優(yōu)點就是精確性。
2)模糊集。模糊集顧名思義就是不清楚,沒有針對性。模糊集的數(shù)據(jù)處理分為兩個方面一個方面是不完整的數(shù)據(jù),另一個方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù),在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。
3)支持向量機。向量機就是一些數(shù)學理論,支持向量機就是建立在某些數(shù)學理論上的結構風險。它主要的思想就是在一個高空的多維空間中找一個超平面,利用這個超平面把這兩類進行隔開,這樣就可以保證最小分類的錯誤率。它的一個很重要的優(yōu)點就是可以處理一些線性問題。
4)規(guī)則歸納。規(guī)則的歸納就是對數(shù)據(jù)進行相關的統(tǒng)計,其主要反映數(shù)據(jù)項中的一些屬性和集合,其中用的最多的歸納算法就是AQ法,它是歸納法中比較典型的,數(shù)據(jù)挖掘技術是目前計算機信息技術領域比較前言的研究方向,數(shù)據(jù)挖掘技術可以從數(shù)據(jù)庫中找出一些潛在的、位置的信息和知識。
2 時態(tài)約束關聯(lián)規(guī)則挖掘問題及算法
2.1 聚焦挖掘任務,提高挖掘效率
數(shù)據(jù)挖掘理論最初的研究側重點是模型的建立以及算法的設計。隨著應用于不同的場合,得出的結果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項目中,會進行詳盡而反復的調研分析,并根據(jù)用戶的需求制定細致的任務計劃,最終的結果卻并不理想,不能得到想要的結果。在算法中,如果想要得到用戶的挖掘目標,除了算法之外,還需要有特定的實現(xiàn)機制,使得我們的挖掘計劃能夠轉變成對一個系統(tǒng)工作的控制,這樣才能使得挖掘項目能有期望的結果。這樣的約束,不需要局限于某一個挖掘數(shù)據(jù)的階段,在任何階段都可以實現(xiàn)。而這樣的算法機制,也是交互式數(shù)據(jù)挖掘算法的基本形式,通過這樣的過程,來達到更好以及快速地完成挖掘任務。
2.2 保證挖掘的精確性
從數(shù)據(jù)挖掘的算法也可以看出,結果具有不可預測性,而正因此,對于算法運行的過程中,遇到的問題也是難以把握的,所以算法還需要加上反饋機制,通過這樣的反饋,來進行驗證結果并修正算法中的數(shù)據(jù),如果這個過程中,挖掘到的數(shù)據(jù)是正確的,但也未必是用戶所側重的,所以數(shù)據(jù)挖掘的結果不僅要具有邏輯上的正確性,還要能夠滿足用戶的主觀偏好;也就是既要準確,還要可信且符合用戶需求。而約束就是這樣實現(xiàn)的,通過約束發(fā)現(xiàn)算法中的問題并及時校正算法,以最終能夠滿足各項需求。
2.3 控制系統(tǒng)的使用規(guī)模
數(shù)據(jù)挖掘算法的實現(xiàn)過程容易陷入一個誤區(qū),只側重由一個系統(tǒng)處理所出現(xiàn)的問題,而忽略了對于控制系統(tǒng)的規(guī)模大小的考慮,這樣的結果就是適得其反,問題并不會得到很好地解決。而約束數(shù)據(jù)挖掘的原理在于,系統(tǒng)的增量式擴充得到實現(xiàn),確定了用戶的需求和目標之后,通過約束參數(shù)的形式,來實現(xiàn)對一些有待解決的問題的驗證,而這些數(shù)值的確定,可以通過實驗的交互式輸入實現(xiàn),以找到較優(yōu)值。而這樣的約束過程,可以在數(shù)據(jù)挖掘的不同階段加以實現(xiàn);而在數(shù)據(jù)的預處理過程中,設置的約束個數(shù)既要能夠保證挖掘的最終結果,又要注意保持數(shù)據(jù)的規(guī)模;在數(shù)據(jù)挖掘的過程中,對于整個項目的細分之后的子目標,也可以加上約束,以能夠快速達到約束的目的;當然也可以對不同類型的問題加以不同的約束條件,以更好地解決問題;尤其是對于層級較多或者維度較高的數(shù)據(jù),可以選擇合適的約束來達到問題的轉化或者簡化。對于約束類型,時態(tài)約束下的關聯(lián)規(guī)則指的是,一次數(shù)據(jù)庫掃描挖掘算法,可以在一定程度上,減少I/O的個數(shù),但是在數(shù)據(jù)量不斷上升的過程中,對于計算機內存的占用也越來越大,而且是線性地增加,所以怎樣很好地控制ISS的容量變得很有必要,而且這樣也能夠一定程度上減少對CPU的占用。為了這個問題的有效改善,我們使用了兩種方法,一個是有效地約束時態(tài)數(shù)據(jù)庫,用戶所不感興趣的時間范圍內的信息去除;二是待處理的數(shù)據(jù)要進行分批處理,經(jīng)過一定的數(shù)據(jù)結構進入內存,這樣有效地將數(shù)據(jù)進行組織。而對于沒有重疊部分的時區(qū),可以生成獨立的關聯(lián)規(guī)則,減少了對計算機硬件資源的占用,而且很好地改善了精確度endprint
問題。
3 數(shù)據(jù)分割下的挖掘問題及算法
對于理論基礎比較成熟的算法—Apriori算法,研究的側重點已經(jīng)變?yōu)樾蕟栴},人們也提出了各種的改進算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務的個數(shù)
這樣的原理在于,當需要處理的事務不包含長度為k的大項集,那么也一定不包含長度為k+1的大項集。在算法處理的過程中,就可以將這樣的事務濾去,在下輪掃描過程中,就可以不需要那么多的事務集。
3.2 基于劃分的方法
這類算法比較典型的是頻繁項目生成算法,該算法原理在于:把數(shù)據(jù)庫分解成邏輯上互不交叉的部分,而每次只需要單獨考慮一個分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項目集;而對于怎樣將數(shù)據(jù)進入存儲中,可以把需要處理的分塊放入計算機內存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項目集的算法中,有人提出了改進算法,基于雜(hash)技術產(chǎn)生頻繁項目集。而這也是他們在實驗基礎上提出的,因為實驗中,他們發(fā)現(xiàn)頻繁項目集的產(chǎn)生過程中,計算量主要集中在2-頻繁項目集上,他們通過雜湊技術來對這個問題加以解決,把需要掃描的項目分發(fā)于不同的Hash桶,而對于每對項目來說,最多只可能在一個特定的桶內,然后通過實驗分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術的產(chǎn)生頻繁項目集的算法的原理在于:通過對數(shù)據(jù)庫進行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過數(shù)據(jù)庫的未被抽樣數(shù)據(jù),進行檢驗,這些關聯(lián)規(guī)則是否有效。其實這個算法本身相對比較容易實現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過程中所付出的I/O代價,而不利的地方在于,抽樣數(shù)據(jù)的隨機性以及由此帶來的結果的偏差比較大。抽樣原理是統(tǒng)計學常用方法,雖然其得到的結果精確性可能并不盡人意;如果能被運用恰當?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。
3.5 盡量減少數(shù)據(jù)庫的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來減少數(shù)據(jù)庫掃面次數(shù)的算法,這種算法實際上就是通過下層分析方法來提前處理。換句話說,當我們正在運行k-項集時,如果發(fā)現(xiàn)(k+1)-項集有極大可能會是頻繁項目集,那么我們就直接將兩者進行并行運算,進而得出(k+1)-項集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫掃描次數(shù),從而在運行效率上要優(yōu)于Apriori算法。
3.6 并行挖掘
數(shù)據(jù)分布技術的出現(xiàn)使得我們可以對數(shù)據(jù)子集進行深層次挖掘,而且在不同子集之間我們還可以開展并行計算。多層次關聯(lián)規(guī)則挖掘就是并行挖掘中的關鍵技術之一,所謂多層次關聯(lián)規(guī)則可以用上圖來進行描述。在很多事務數(shù)據(jù)庫中,某些項所隱含的概念有很多層次。
4 案例分析
這里我們以《天道》項目為例進行流失用戶預警分析,通過其8、9兩個月的相關數(shù)據(jù)來判斷12月《天道》所有登陸用戶的流失可能性和對應的流失概率。
序號 名稱
1 單月總在線時長onlinetime
2 單月總登陸次數(shù)times
3 賬戶累計登陸總時長totalonlinetime
4 首登時間firstlogintime
5 月充值金額
6 當前等級playerlevel
7 陣營
8 游戲幣總額
注:如若條件允許,能加入玩家的當前經(jīng)驗,玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來源廣告媒體等信息將會使此模型的研究更有價值。
模型評估是運用Clementine的分析節(jié)點對已建立的客戶流失預測模型進行精確性分析,評價指標為對未經(jīng)分類處理的測試數(shù)據(jù)進行正確分類的。準確率,即“預測正確率= 正確預測個數(shù)/測試樣本數(shù)×100%”。通過分析計算我們可以明確的看出(如下圖所示),訓練樣本的精確度為81.42%,測試樣本的精確度為81.46%,此模型的精確度已較理想,不過我們還可以通過增加樣本容量(取三個月的游戲玩家信息,或者半年的游戲玩家信息),調整模型中的參數(shù)來提高模型的正確率。
基于上述分析,我們建立模型并分析:
分析結果顯示:
1)3890
2)onlinetime>220363,樣本權重為9%,流失275個,比例為7%,雖然比例較小,但這個部分的賬戶應是非常有價值的用戶,若采取個性化的服務,應會帶來更大的價值。
3)796 4)796 5)0 6)88 5 結論 數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法所包含的內容有很多,本文只是簡單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領域的研究工作,以期能夠獲得更多有價值的研究成果。 參考文獻 [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場的量化關聯(lián)規(guī)則挖掘方法設計[J].計算機與現(xiàn)代化,2013(01):8-11. [2]陸新慧,吳陳,楊習貝.空間關聯(lián)規(guī)則挖掘技術的研究及應用[J].計算機技術與發(fā)展,2013(05):26-29,33. 作者簡介 郭玲(1970-),女,湖南長沙人,珠海城市職業(yè)技術學院講師,從事計算機軟件方向研究。
問題。
3 數(shù)據(jù)分割下的挖掘問題及算法
對于理論基礎比較成熟的算法—Apriori算法,研究的側重點已經(jīng)變?yōu)樾蕟栴},人們也提出了各種的改進算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務的個數(shù)
這樣的原理在于,當需要處理的事務不包含長度為k的大項集,那么也一定不包含長度為k+1的大項集。在算法處理的過程中,就可以將這樣的事務濾去,在下輪掃描過程中,就可以不需要那么多的事務集。
3.2 基于劃分的方法
這類算法比較典型的是頻繁項目生成算法,該算法原理在于:把數(shù)據(jù)庫分解成邏輯上互不交叉的部分,而每次只需要單獨考慮一個分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項目集;而對于怎樣將數(shù)據(jù)進入存儲中,可以把需要處理的分塊放入計算機內存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項目集的算法中,有人提出了改進算法,基于雜(hash)技術產(chǎn)生頻繁項目集。而這也是他們在實驗基礎上提出的,因為實驗中,他們發(fā)現(xiàn)頻繁項目集的產(chǎn)生過程中,計算量主要集中在2-頻繁項目集上,他們通過雜湊技術來對這個問題加以解決,把需要掃描的項目分發(fā)于不同的Hash桶,而對于每對項目來說,最多只可能在一個特定的桶內,然后通過實驗分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術的產(chǎn)生頻繁項目集的算法的原理在于:通過對數(shù)據(jù)庫進行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過數(shù)據(jù)庫的未被抽樣數(shù)據(jù),進行檢驗,這些關聯(lián)規(guī)則是否有效。其實這個算法本身相對比較容易實現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過程中所付出的I/O代價,而不利的地方在于,抽樣數(shù)據(jù)的隨機性以及由此帶來的結果的偏差比較大。抽樣原理是統(tǒng)計學常用方法,雖然其得到的結果精確性可能并不盡人意;如果能被運用恰當?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。
3.5 盡量減少數(shù)據(jù)庫的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來減少數(shù)據(jù)庫掃面次數(shù)的算法,這種算法實際上就是通過下層分析方法來提前處理。換句話說,當我們正在運行k-項集時,如果發(fā)現(xiàn)(k+1)-項集有極大可能會是頻繁項目集,那么我們就直接將兩者進行并行運算,進而得出(k+1)-項集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫掃描次數(shù),從而在運行效率上要優(yōu)于Apriori算法。
3.6 并行挖掘
數(shù)據(jù)分布技術的出現(xiàn)使得我們可以對數(shù)據(jù)子集進行深層次挖掘,而且在不同子集之間我們還可以開展并行計算。多層次關聯(lián)規(guī)則挖掘就是并行挖掘中的關鍵技術之一,所謂多層次關聯(lián)規(guī)則可以用上圖來進行描述。在很多事務數(shù)據(jù)庫中,某些項所隱含的概念有很多層次。
4 案例分析
這里我們以《天道》項目為例進行流失用戶預警分析,通過其8、9兩個月的相關數(shù)據(jù)來判斷12月《天道》所有登陸用戶的流失可能性和對應的流失概率。
序號 名稱
1 單月總在線時長onlinetime
2 單月總登陸次數(shù)times
3 賬戶累計登陸總時長totalonlinetime
4 首登時間firstlogintime
5 月充值金額
6 當前等級playerlevel
7 陣營
8 游戲幣總額
注:如若條件允許,能加入玩家的當前經(jīng)驗,玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來源廣告媒體等信息將會使此模型的研究更有價值。
模型評估是運用Clementine的分析節(jié)點對已建立的客戶流失預測模型進行精確性分析,評價指標為對未經(jīng)分類處理的測試數(shù)據(jù)進行正確分類的。準確率,即“預測正確率= 正確預測個數(shù)/測試樣本數(shù)×100%”。通過分析計算我們可以明確的看出(如下圖所示),訓練樣本的精確度為81.42%,測試樣本的精確度為81.46%,此模型的精確度已較理想,不過我們還可以通過增加樣本容量(取三個月的游戲玩家信息,或者半年的游戲玩家信息),調整模型中的參數(shù)來提高模型的正確率。
基于上述分析,我們建立模型并分析:
分析結果顯示:
1)3890
2)onlinetime>220363,樣本權重為9%,流失275個,比例為7%,雖然比例較小,但這個部分的賬戶應是非常有價值的用戶,若采取個性化的服務,應會帶來更大的價值。
3)796 4)796 5)0 6)88 5 結論 數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法所包含的內容有很多,本文只是簡單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領域的研究工作,以期能夠獲得更多有價值的研究成果。 參考文獻 [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場的量化關聯(lián)規(guī)則挖掘方法設計[J].計算機與現(xiàn)代化,2013(01):8-11. [2]陸新慧,吳陳,楊習貝.空間關聯(lián)規(guī)則挖掘技術的研究及應用[J].計算機技術與發(fā)展,2013(05):26-29,33. 作者簡介 郭玲(1970-),女,湖南長沙人,珠海城市職業(yè)技術學院講師,從事計算機軟件方向研究。
問題。
3 數(shù)據(jù)分割下的挖掘問題及算法
對于理論基礎比較成熟的算法—Apriori算法,研究的側重點已經(jīng)變?yōu)樾蕟栴},人們也提出了各種的改進算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務的個數(shù)
這樣的原理在于,當需要處理的事務不包含長度為k的大項集,那么也一定不包含長度為k+1的大項集。在算法處理的過程中,就可以將這樣的事務濾去,在下輪掃描過程中,就可以不需要那么多的事務集。
3.2 基于劃分的方法
這類算法比較典型的是頻繁項目生成算法,該算法原理在于:把數(shù)據(jù)庫分解成邏輯上互不交叉的部分,而每次只需要單獨考慮一個分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項目集;而對于怎樣將數(shù)據(jù)進入存儲中,可以把需要處理的分塊放入計算機內存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項目集的算法中,有人提出了改進算法,基于雜(hash)技術產(chǎn)生頻繁項目集。而這也是他們在實驗基礎上提出的,因為實驗中,他們發(fā)現(xiàn)頻繁項目集的產(chǎn)生過程中,計算量主要集中在2-頻繁項目集上,他們通過雜湊技術來對這個問題加以解決,把需要掃描的項目分發(fā)于不同的Hash桶,而對于每對項目來說,最多只可能在一個特定的桶內,然后通過實驗分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術的產(chǎn)生頻繁項目集的算法的原理在于:通過對數(shù)據(jù)庫進行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過數(shù)據(jù)庫的未被抽樣數(shù)據(jù),進行檢驗,這些關聯(lián)規(guī)則是否有效。其實這個算法本身相對比較容易實現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過程中所付出的I/O代價,而不利的地方在于,抽樣數(shù)據(jù)的隨機性以及由此帶來的結果的偏差比較大。抽樣原理是統(tǒng)計學常用方法,雖然其得到的結果精確性可能并不盡人意;如果能被運用恰當?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。
3.5 盡量減少數(shù)據(jù)庫的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來減少數(shù)據(jù)庫掃面次數(shù)的算法,這種算法實際上就是通過下層分析方法來提前處理。換句話說,當我們正在運行k-項集時,如果發(fā)現(xiàn)(k+1)-項集有極大可能會是頻繁項目集,那么我們就直接將兩者進行并行運算,進而得出(k+1)-項集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫掃描次數(shù),從而在運行效率上要優(yōu)于Apriori算法。
3.6 并行挖掘
數(shù)據(jù)分布技術的出現(xiàn)使得我們可以對數(shù)據(jù)子集進行深層次挖掘,而且在不同子集之間我們還可以開展并行計算。多層次關聯(lián)規(guī)則挖掘就是并行挖掘中的關鍵技術之一,所謂多層次關聯(lián)規(guī)則可以用上圖來進行描述。在很多事務數(shù)據(jù)庫中,某些項所隱含的概念有很多層次。
4 案例分析
這里我們以《天道》項目為例進行流失用戶預警分析,通過其8、9兩個月的相關數(shù)據(jù)來判斷12月《天道》所有登陸用戶的流失可能性和對應的流失概率。
序號 名稱
1 單月總在線時長onlinetime
2 單月總登陸次數(shù)times
3 賬戶累計登陸總時長totalonlinetime
4 首登時間firstlogintime
5 月充值金額
6 當前等級playerlevel
7 陣營
8 游戲幣總額
注:如若條件允許,能加入玩家的當前經(jīng)驗,玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來源廣告媒體等信息將會使此模型的研究更有價值。
模型評估是運用Clementine的分析節(jié)點對已建立的客戶流失預測模型進行精確性分析,評價指標為對未經(jīng)分類處理的測試數(shù)據(jù)進行正確分類的。準確率,即“預測正確率= 正確預測個數(shù)/測試樣本數(shù)×100%”。通過分析計算我們可以明確的看出(如下圖所示),訓練樣本的精確度為81.42%,測試樣本的精確度為81.46%,此模型的精確度已較理想,不過我們還可以通過增加樣本容量(取三個月的游戲玩家信息,或者半年的游戲玩家信息),調整模型中的參數(shù)來提高模型的正確率。
基于上述分析,我們建立模型并分析:
分析結果顯示:
1)3890
2)onlinetime>220363,樣本權重為9%,流失275個,比例為7%,雖然比例較小,但這個部分的賬戶應是非常有價值的用戶,若采取個性化的服務,應會帶來更大的價值。
3)796 4)796 5)0 6)88 5 結論 數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法所包含的內容有很多,本文只是簡單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領域的研究工作,以期能夠獲得更多有價值的研究成果。 參考文獻 [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場的量化關聯(lián)規(guī)則挖掘方法設計[J].計算機與現(xiàn)代化,2013(01):8-11. [2]陸新慧,吳陳,楊習貝.空間關聯(lián)規(guī)則挖掘技術的研究及應用[J].計算機技術與發(fā)展,2013(05):26-29,33. 作者簡介 郭玲(1970-),女,湖南長沙人,珠海城市職業(yè)技術學院講師,從事計算機軟件方向研究。