周 俊
[摘要]以數(shù)據(jù)挖掘的關聯(lián)規(guī)則為基礎,從篩選數(shù)據(jù)入手,按照數(shù)據(jù)挖掘的步驟,對每個環(huán)節(jié)進行詳細展開,分析故障數(shù)據(jù)的組成、模型以及存儲方式,并在關系數(shù)據(jù)庫中對提供的數(shù)據(jù)進行建模,建立基于多維關聯(lián)規(guī)則的傳輸故障分析模型。
[關鍵詞]傳輸故障數(shù)據(jù)挖掘關聯(lián)規(guī)則
中圖分類號:TN91文獻標識碼:A文章編號:1671-7597(2009)0820021-01
目前傳輸維護部門每個月都會對上月的傳輸故障進行統(tǒng)計和分析,以便對下月的工作做出針對性的調(diào)整。故障統(tǒng)計涵蓋的內(nèi)容有故障歷時,故障段落,原因,是否超時等相關信息,這些數(shù)據(jù)之間到底有些什么聯(lián)系,這些聯(lián)系是否能對傳輸維護工作起到積極的促進作用單憑一眼無法做出判斷,需要經(jīng)過數(shù)據(jù)分析和挖掘,并通過一系列方法發(fā)掘出其中的關系才能下結論。本文中所用到的就是數(shù)據(jù)挖掘技術當中的關聯(lián)規(guī)則挖掘,也就是從大量的數(shù)據(jù)中挖掘出有價值描述數(shù)據(jù)項之間相互聯(lián)系的有關知識。希望通過關聯(lián)規(guī)則挖掘的應用解決一些維護工作中的問題。
一、數(shù)據(jù)挖掘技術概述
數(shù)據(jù)挖掘是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)之間關系的過程,這些模型和關系可以被企業(yè)用來分析風險、進行預測。同時數(shù)據(jù)挖掘還是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘過程一般由確定挖掘?qū)ο蟆?shù)據(jù)準備、模型建立、數(shù)據(jù)挖掘、結果分析表述和挖掘應用這幾個主要階段組成,數(shù)據(jù)挖掘可以描述為這幾個階段的反復過程。待挖掘的數(shù)據(jù)的模式有很多種,按功能分有兩類預測型模式和描述型模式。
二、關聯(lián)規(guī)則
關聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關聯(lián)或相關聯(lián)系。它在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。關聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品項之間的聯(lián)系,找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。分析結果可以應用于商品貨架布局、貨存安排以及根據(jù)購買模式對用戶進行分類。
(一)APRIORI算法
APRIORI算法是挖掘產(chǎn)生布爾關聯(lián)規(guī)則所需頻繁項集的基本算法;它也是一個很有影響的關聯(lián)規(guī)則挖掘算法。APRIORI算法就是根據(jù)有關頻繁項集特性的先驗知識(prior knowledge)而命名的。該算法利用了一個層次順序搜索的循環(huán)方法來完成頻繁項集的挖掘工作。這一循環(huán)方法就是利用k-項集來產(chǎn)生(k+1)-項集。具體做法就是,首先找出頻繁1-項集,記為L1;然后利用L1來挖掘L2,即頻繁2-項集;不斷如此循環(huán)下去知道無法發(fā)現(xiàn)更過的頻繁K-項集為止。每挖掘一層Lk就需要掃描整個數(shù)據(jù)庫一遍。為提高按層次搜索并產(chǎn)生相應頻繁項集的處理效率。APRIORI算法利用了一個重要性質(zhì),又稱為APRIORI性質(zhì)來幫助有效縮小頻繁項集的搜索空間。APRIORI性質(zhì):一個頻繁項集中任一子集也應是頻繁項集。
(二)多維關聯(lián)規(guī)則的挖掘
如果不是對交易數(shù)據(jù)庫而是對存儲在關系數(shù)據(jù)庫或其它數(shù)據(jù)進行挖掘,這時的數(shù)據(jù)是以多維形式定義存儲的。如為了分析故障原因。一個關系數(shù)據(jù)庫可能記錄了有關這些故障的其它屬性,諸如故障類型、發(fā)生時間、故障歷時,故障段落等如果將數(shù)據(jù)庫或數(shù)據(jù)倉庫中這些屬性看成謂詞,那么挖掘包含多個謂詞的關聯(lián)規(guī)則可能就是很有價值的。包含兩個或更多的謂詞的關聯(lián)規(guī)則就稱為多維關聯(lián)規(guī)則。
(三)關聯(lián)挖掘中的相關分析
一個規(guī)則是否有意義取決于主觀與客觀兩方面的判斷,但最終還是由用戶來確定一個規(guī)則是否有意義。利用支持度-信任度基本結構挖掘出的關聯(lián)規(guī)則在許多應用場合都是有價值。但是但是支持度-信任度基本結構在描述一個AB規(guī)則是否有意義時,可能會提供一個錯誤知識。因為有時的發(fā)生實際并不一定蘊含B的發(fā)生。這里就將討論基于相關分析的描述數(shù)據(jù)項集之間是否存在有意義聯(lián)系的有關方法,該方法構成了對支持度一信任度基本結構的補充。若有,則項集A的發(fā)生就獨立于項集B的發(fā)生;否則項集A和B就是相互依賴或相關的。該定義可以很容易地擴展到多于兩個項集的情況。利用相關分析的一個好處就是它是向上封閉的,也就是說若項集中的各項是相關的,那的每一個超集也都是相關的這也就意味著向相關項的集合中添加一個項并不能改變或消除現(xiàn)有的相關性。
三、基于多維關聯(lián)規(guī)則的傳輸故障分析
通信傳輸維護部門每個月都會對上月的傳輸故障進行統(tǒng)計和分析,以便對下月的工作做出針對性的調(diào)整。故障統(tǒng)計涵蓋的內(nèi)容有故障歷時,故障段落,原因,是否超時等相關信息,這些數(shù)據(jù)之間到底有些什么聯(lián)系,這些聯(lián)系是否能對傳輸維護工作起到積極的促進作用單憑一眼無法作出判斷,需要經(jīng)過數(shù)據(jù)分析和挖掘,希望通過關聯(lián)規(guī)則挖掘的應用解決一些維護工作中的問題。
初始數(shù)據(jù)是原始數(shù)據(jù),未經(jīng)處理過。首先選擇有針對性的數(shù)據(jù),對數(shù)據(jù)進行預處理,主要包括數(shù)據(jù)清理、集成和歸約。預處理是為了克服目前數(shù)據(jù)挖掘工具的局限性。數(shù)據(jù)將原來不必要的部分去掉,并且合并相同時間的故障,因為相同時間故障一般是由于干線發(fā)生問題引起,所以算做一次故障,否則會出現(xiàn)許多相同原因引起故障的重復計算,而造成結果偏離。
(一)利用靜態(tài)離散挖掘傳輸故障關聯(lián)規(guī)則
在這種方法中,定量屬性在關聯(lián)知識挖掘之前,就利用概念層次樹進行離散化,其中就是將屬性的取值替換為區(qū)間范圍。符號屬性則可以根據(jù)需要被泛化到更高的概念層次。此外與挖掘任務相關的數(shù)據(jù)可能會存放在數(shù)據(jù)立方中,由于數(shù)據(jù)立方是按照(多維)屬性進行定義的,因此它非常適合挖掘多維關聯(lián)規(guī)則。
(二)挖掘傳輸故障中的定量關聯(lián)規(guī)則
定量關聯(lián)規(guī)則就是關聯(lián)規(guī)則所涉及的數(shù)值屬性是在數(shù)據(jù)挖掘過程中,根據(jù)一定的挖掘標準,諸如使信任度最大或使挖掘的規(guī)則最簡潔,而進行動態(tài)離散化。這里所需要的是基于圖像處理基本思想所提出的關聯(lián)規(guī)則聚類方法。該方法就是將一對定量屬性映射到滿足給定符號屬性的二維方格然后搜索產(chǎn)生相應關聯(lián)規(guī)則的點的聚類。目前已經(jīng)提出了一個基于非方格的方法來幫助發(fā)現(xiàn)更一般的定量規(guī)則而在規(guī)則兩邊均可以出現(xiàn)無數(shù)目限制的符號屬性和定量屬性。
參考文獻:
[1]欽臻文,通信傳輸系統(tǒng)在城市軌道交通中的應用發(fā)展[J].城市軌道交通研究,2009,03.
[2]迪麗拜爾·艾海提、庫德來提·熱西提,數(shù)據(jù)挖掘技術的應用[J].電腦編程技巧與維護,2009,06.
作者簡介:
周俊(1978-),男,漢族,湖北省人,工學學士,工程師,計算機專業(yè)。