牛猛
摘要:數(shù)據(jù)挖掘是集成了多方面技術(shù)的交叉學科。該文詳細介紹了分析方法、決策樹、粗糙集法、神經(jīng)網(wǎng)絡(luò)法、遺傳算法、關(guān)聯(lián)規(guī)則、數(shù)據(jù)可視化以及聯(lián)機分析處理等眾多研究方法;詳細闡述了類/概念描述、分類和預(yù)測、關(guān)聯(lián)分析、聚類分析和偏差分析等主要挖掘功能。
關(guān)鍵詞:數(shù)據(jù)挖掘;方法;功能
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1009-3044(2018)14-0006-02
Abstract: Data mining is an interdisciplinary subject which integrates many technologies. This paper introduces numerous research techniques such as the analytic method, decision tree, rough sets method, neural network method, genetic algorithms, association rules,data visualization and online analysis processing in detail. The main mining functions such as class / concept description, classification and prediction, association analysis, clustering analysis and deviation analysis are also described in detail.
Key words: Data mining, Method, Function
1 數(shù)據(jù)挖掘(Data Mining)的簡介
數(shù)據(jù)挖掘是集成了多方面技術(shù)的一門交叉學科,在數(shù)理統(tǒng)計、人工智能、知識工程等領(lǐng)域現(xiàn)有研究成果的基礎(chǔ)上,構(gòu)造自己的理論體系。數(shù)據(jù)挖掘的實質(zhì)是發(fā)現(xiàn)知識、獲取有價值的信息[1],是知識發(fā)現(xiàn)(Knowledge Discovery in Database)的關(guān)鍵步驟。
2 數(shù)據(jù)挖掘的方法
(1)分析方法(Analytic Method)
數(shù)據(jù)挖掘的統(tǒng)計分析方法較多,如描述統(tǒng)計、概率論、回歸分析、時間序列分析、多元分析等。
統(tǒng)計分析方法是利用統(tǒng)計學、概率論的原理進行分析統(tǒng)計,從而找出相應(yīng)規(guī)律的方法。回歸分析是通過使用變量之間相互依存的定量關(guān)系來分析和預(yù)測的統(tǒng)計分析方法;時間序列分析是按照對象的規(guī)律或趨勢建立時間序列模型,利用時間序列模型進行分析的方法。多元分析主要對主成分、因子、判別、聚類及典型相關(guān)等進行分析的方法,通常用于對多維隨機變量進行分析。
(2)決策樹(Decision Tree)
決策樹是在情況發(fā)生概率已知的前提下,構(gòu)建決策樹來分析項目的概率,用樹形結(jié)構(gòu)圖解評價是否可行的概率分析方法[2]。
在機器學習領(lǐng)域,決策樹是能進行模型預(yù)測的監(jiān)督學習方法。優(yōu)點是邏輯上易于描述、理解和實現(xiàn),數(shù)據(jù)準備要求低,易于通過測試來預(yù)測模型;缺點是不擅長處理連續(xù)性的數(shù)值,時順數(shù)據(jù)的預(yù)處理工作較多,類別數(shù)據(jù)越多,導(dǎo)致正確率越低。
常見算法有經(jīng)典的ID3算法、適用于連續(xù)屬性的C4.5算法以及適用于大數(shù)據(jù)集C5.0算法。
(3)粗糙集法(Rough Sets Method)
粗糙集法即粗糙集理論,通常用來處理含糊、不精確、不完備的數(shù)據(jù),能發(fā)現(xiàn)不確定數(shù)據(jù)或者噪聲數(shù)據(jù)內(nèi)在的相關(guān)聯(lián)系,有時也能用于特征歸約和相關(guān)分析。
粗糙集法的優(yōu)點是簡單、實用性高,應(yīng)用廣泛。因其對數(shù)據(jù)各方面的要求較低,因此,廣泛應(yīng)用于近似推理、數(shù)字邏輯分析和化簡、建立預(yù)測模型等不確定、不完整的信息分類和獲取問題;其缺點是難以直接處理連續(xù)的屬性,必須先將連續(xù)屬性離散化。
(4)神經(jīng)網(wǎng)絡(luò)法(Neural Network)
神經(jīng)網(wǎng)絡(luò)法是在神經(jīng)心理學和認知科學基礎(chǔ)上,使用訓(xùn)練數(shù)據(jù)進行訓(xùn)練,進而完成學習的一種非線性的預(yù)測模型。通過不斷的網(wǎng)絡(luò)學習,神經(jīng)網(wǎng)絡(luò)法能從未知模式的大量復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)相應(yīng)的規(guī)律和結(jié)果。其優(yōu)點是具有抗干擾性,具有聯(lián)想記憶功能,具有非線性學習功能及具有準確預(yù)測復(fù)雜情況的結(jié)果的功能;其缺點是缺少統(tǒng)計理論基礎(chǔ),導(dǎo)致解釋性不強,因隨機性較強導(dǎo)致應(yīng)用范圍不廣泛,高維數(shù)值的處理需要較大的人力和時間。其適用于分類、聚類、特征挖掘等多方面的挖掘任務(wù)[3]。
(5)遺傳算法(Genetic Algorithms)
遺傳算法是通過對生物進化論及遺傳學的自然選擇、遺傳、進化、變異等進行計算機模擬的搜索最優(yōu)解的機器學習方法[4]。其優(yōu)點主要是可以處理多種類型的數(shù)據(jù),能并行處理數(shù)據(jù),能采用動態(tài)自適應(yīng)技術(shù);其缺點主要是隨著問題規(guī)模的增加,所需參數(shù)、組合優(yōu)化、搜索空間和計算量都急劇增大,甚至采用枚舉法都很難求出最優(yōu)解。其適用于機器學習、并行處理、與智能計算方法融合、與人工生命滲透、與EP和ES結(jié)合等。
(6)關(guān)聯(lián)規(guī)則(Association Rules)
關(guān)聯(lián)規(guī)則是簡單、實用、易于理解的數(shù)據(jù)挖掘方法,能在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。關(guān)聯(lián)規(guī)則比較經(jīng)典的是對零售業(yè)中的“尿布和啤酒”的分析,其在市場營銷、通訊領(lǐng)域都有廣泛應(yīng)用。挖掘出的規(guī)律,能輔助科學研究和決策。
常見算法有經(jīng)典的Apriori、ARGen及眾多的功能增強算法。
(7)數(shù)據(jù)可視化(Data Visualization)
數(shù)據(jù)可視化通過采用圖元元素描述數(shù)據(jù)庫中的數(shù)據(jù),并根據(jù)數(shù)據(jù)構(gòu)建數(shù)據(jù)圖像,同時使用多維數(shù)據(jù)表述數(shù)據(jù)的不同屬性,從而從多個維度觀察數(shù)據(jù),實現(xiàn)對數(shù)據(jù)的理解和分析。
數(shù)據(jù)可視化在挖掘系統(tǒng)中融入了人的交互,能極大提升挖掘的速度、層次和內(nèi)容,是數(shù)據(jù)挖掘的研究方向之一。
(8)聯(lián)機分析處理(On Line Analysis Processing)
聯(lián)機分析處理簡稱OLAP,是針對大型數(shù)據(jù)庫或數(shù)據(jù)倉庫,支持快速、高效、復(fù)雜的大數(shù)據(jù)量的查詢處理,以提供決策支持的信息分析過程。其主要優(yōu)點是快速性、可分析性、多維性、信息性和共享性等。
OLAP通過對大量的操作數(shù)據(jù)進行分析,包括當前數(shù)據(jù)和歷史數(shù)據(jù),以提供決策支持。通常需要進行大量的查詢操作,對時間的要求不太嚴格。其典型的應(yīng)用有銀行信用卡風險的分析與預(yù)測等。
(9)其他方法
除以上方法外,數(shù)據(jù)挖掘還有公式發(fā)現(xiàn)、覆蓋正例排斥反例、模糊數(shù)學、Web頁挖掘等其他方法。
3 數(shù)據(jù)挖掘的功能
(1)類/概念描述(Class/Concept Description)
通過匯總、分析和比較對相關(guān)對象的內(nèi)涵及相應(yīng)特征進行總結(jié)性的、簡要的、準確的描述。類/概念描述可通過數(shù)據(jù)特征化(Data Characterization)、數(shù)據(jù)區(qū)分(Data Discrimination)以及數(shù)據(jù)特征化和區(qū)分獲得,可以是特征性描述,也可以是區(qū)別性描述。特征性描述描述出相關(guān)對象的共同特征,區(qū)別性描述描述出相關(guān)對象之間的差異。數(shù)據(jù)特征輸出形式多種多樣,可采用曲線、條圖、餅圖及多維表等,也可采用泛化關(guān)系或特征性規(guī)則。
(2)分類和預(yù)測(Classification and Prediction)
分類和預(yù)測主要用于處理預(yù)測問題。分類是指將數(shù)據(jù)映射到預(yù)先定義的數(shù)據(jù)類或概念集中。預(yù)測是建立連續(xù)值函數(shù)模型,并用來預(yù)測空缺的或不知道的數(shù)據(jù)值。
在分類和預(yù)測之前,應(yīng)進行相關(guān)分析(Relevance Analysis),將排除對分類或預(yù)測過程無用的屬性。
(3)關(guān)聯(lián)分析(Association Analysis)
關(guān)聯(lián)分析是通過挖掘數(shù)據(jù)中的頻繁模式(Frequent Pattern),建立關(guān)聯(lián)規(guī)則(Association Rule)的一種重要的發(fā)現(xiàn)知識的方法。通過建立的關(guān)聯(lián)規(guī)則,可為某些決策提供支持。關(guān)聯(lián)分簡單、因果、數(shù)量和時序等[5]。對時間上存在前后關(guān)系的數(shù)據(jù)項進行挖掘,稱之為時序關(guān)聯(lián)挖掘。對邏輯上存在因果關(guān)系的數(shù)據(jù)項進行挖掘,稱之為因果關(guān)聯(lián)挖掘。數(shù)據(jù)項間存在統(tǒng)計相關(guān)性并不能確定數(shù)據(jù)項間存在因果關(guān)聯(lián);數(shù)據(jù)項間存在因果關(guān)聯(lián)并不能保證數(shù)據(jù)項間存在統(tǒng)計相關(guān)性。
(4)聚類分析(Clustering Analysis)
聚類分析源于數(shù)學、計算機、統(tǒng)計學、經(jīng)濟學以及生物學等眾多學科領(lǐng)域,通過描述數(shù)據(jù)項間的相似性從而進行分類的探索性分析方法[6]。把數(shù)據(jù)項分類到不同的簇(Cluster),同簇中的個體存在很大相似性,不同簇間的個體存在很大差異性。也可作為分類算法、定性歸納算法等的預(yù)處理步驟。
(5)偏差分析(Deviation Analysis)
偏差分析即離群點分析。是依據(jù)數(shù)據(jù)的歷史、現(xiàn)狀以及相應(yīng)標準,探索實際出現(xiàn)明顯偏離或者變化數(shù)據(jù)的分析方法。在實際結(jié)果出現(xiàn)了偏離預(yù)期較大、分類或模式中出現(xiàn)反?;蚶獾臅r候,均可采用偏差分析。在海關(guān)檢測、銀行欺詐、金融洗錢等領(lǐng)域,發(fā)現(xiàn)偏差數(shù)據(jù)(噪聲或異常數(shù)據(jù))則更具實際意義。
參考文獻:
[1]陳富贊,寇繼凇,王以直.數(shù)據(jù)挖掘方法的研究[J].系統(tǒng)工程與電子技術(shù),2000,22(8):78-81
[2]劉宇陽.一種改進的ID3決策樹算法研究[D].哈爾濱:哈爾濱工程大學,2009.
[3]蔡博文.高維數(shù)據(jù)集中離群數(shù)據(jù)挖掘方法的研究[D].合肥:合肥工業(yè)大學,2006.
[4]韓少鋒,陳立潮.數(shù)據(jù)挖掘技術(shù)及應(yīng)用綜述[J].機械管理開發(fā),2006(1):23-24.
[5]劉永彬.關(guān)聯(lián)規(guī)則分析及其在空間數(shù)據(jù)挖掘中的應(yīng)用研究[D].南寧:廣西大學,2007.
[6]何堃.基于聚類的用戶特征分析[D].揚州:揚州大學,2008.