• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺析分類規(guī)則挖掘

      2009-07-05 10:02:28
      科教導刊 2009年36期
      關(guān)鍵詞:類別數(shù)據(jù)挖掘規(guī)則

      張 帆

      摘要分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一。本文首先分析了分類規(guī)則挖掘的產(chǎn)生背景及意義,其次簡述了分類規(guī)則挖掘的算法和應(yīng)用領(lǐng)域等方面,然后從分類問題、表示方法和分類挖掘步驟三個方面進行分析,最后指出分類規(guī)則挖掘面臨的問題及挑戰(zhàn)。

      關(guān)鍵詞數(shù)據(jù)挖掘分類規(guī)則挖掘算法

      中圖分類號:TP3文獻標識碼:A

      分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一,同時,也是其它諸如人工智能、模式識別、人工神經(jīng)網(wǎng)絡(luò)等學科的重要研究內(nèi)容,并且有豐富的結(jié)果和廣泛的應(yīng)用,因此對分類規(guī)則挖掘的研究是很有必要的。

      1 數(shù)據(jù)挖掘概念和技術(shù)

      20世紀70年代以來,數(shù)據(jù)庫技術(shù)得到了迅速發(fā)展及廣泛應(yīng)用。在自然科學、工程技術(shù)、工商管理、金融證券、政府機構(gòu)等領(lǐng)域,已經(jīng)或者正在實施全面的信息化建設(shè),其核心是建立大型復(fù)雜的數(shù)據(jù)庫管理系統(tǒng)。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫的應(yīng)用規(guī)模、范圍和深度不斷擴大,已經(jīng)從點(單臺機器)、線(局域網(wǎng))發(fā)展到面(廣域網(wǎng)),甚至到Internet全球信息系統(tǒng)。

      隨著計算機技術(shù)的飛速發(fā)展和企業(yè)界不斷提出新的需求,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。數(shù)據(jù)挖掘(Data Mining)是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱含的、事先未知的潛在有用信息。它的目標是高度自動化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減小風險,做出正確的決策。IBM將數(shù)據(jù)挖掘的分析方法從功能上劃分為以下四種:(1)關(guān)聯(lián)分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分類分析(Classifications);(4)聚類分析(Clusterings)。其中,分類分析(即分類規(guī)則挖掘)是數(shù)據(jù)挖掘的一項重要內(nèi)容,是知識發(fā)現(xiàn)的一個重要方面。

      分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則,可被用于規(guī)則描述和預(yù)測。隨著數(shù)據(jù)庫技術(shù)的發(fā)展,數(shù)據(jù)庫中內(nèi)容的復(fù)雜程度日益增加,大量的信息不斷加入到數(shù)據(jù)庫系統(tǒng)中來,研究高效和快速的分類規(guī)則挖掘方法已經(jīng)成為一個十分迫切的課題。

      2 分類規(guī)則挖掘的算法

      分類規(guī)則挖掘是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一,至今已經(jīng)提出多種算法。對于分類規(guī)則挖掘通常有以下幾種算法:決策樹方法、貝葉斯方法、人工神經(jīng)網(wǎng)絡(luò)方法、粗糙集方法和關(guān)聯(lián)規(guī)則分類法、k一最臨近分類法等。這些算法是主要的算法,他們都有其優(yōu)缺點,都有其適用的數(shù)據(jù)。還有一些其他的算法,比如遺傳算法,后向傳播分類、基于概念層次的分類、基于案例的推理、群智能算法如蟻群算法和粒子群算法,以及各種算法的混合算法。

      分類算法的優(yōu)劣直接影響數(shù)據(jù)挖掘的效率與準確性。分類算法采用五層評價標準:預(yù)測準確度(模型正確預(yù)測新數(shù)據(jù)類標號的能力);計算復(fù)雜度(依賴于具體的實現(xiàn)細節(jié)和硬件環(huán)境);健壯性(在有噪聲數(shù)據(jù)或空缺值的情況下模型是否具有正確預(yù)測的能力);可伸縮性(對于海量的數(shù)據(jù)或大型數(shù)據(jù)庫,是否具有有效的構(gòu)造模型的能力);模型簡潔度和可理解性(學習模型是否具有提供理解和觀察的層次的能力)。

      3 分類規(guī)則挖掘的應(yīng)用領(lǐng)域

      分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域最重要的研究課題之一,很多數(shù)據(jù)挖掘的問題都可以轉(zhuǎn)化為分類挖掘問題。目前,分類挖掘算法已經(jīng)具有廣泛的應(yīng)用,其中應(yīng)用最集中的領(lǐng)域包括科學研究、金融投資、市場營銷、保險、醫(yī)療衛(wèi)生、產(chǎn)品制造業(yè)、通信網(wǎng)絡(luò)管理等行業(yè)。

      4 數(shù)據(jù)分類問題、表示方法

      4.1 分類問題的描述

      數(shù)據(jù)分類是通過挖掘已有的分類數(shù)據(jù),集中同一類數(shù)據(jù)對象的共同特征,提取分類規(guī)則,對整個數(shù)據(jù)集進行合理分類的過程。分類方法用于預(yù)測數(shù)據(jù)對象的離散類別,分類的目的是能根據(jù)已經(jīng)分類的數(shù)據(jù)構(gòu)造出一個分類模型,即分類器。

      要構(gòu)造一個分類器,需要有一個訓練數(shù)據(jù)集作為輸入。訓練數(shù)據(jù)集由一組數(shù)據(jù)庫元組構(gòu)成,每個元組由若干個屬性(又稱字段或特征)描述。假定訓練數(shù)據(jù)集的每個元組屬于一個預(yù)定義的類,由一個稱為類標號屬性的屬性確定,則每個元組與一個特定的類標號相對應(yīng)。該類標號是系統(tǒng)的輸入,通常是以往的一些經(jīng)驗數(shù)據(jù)。

      4.2 分類問題的表示方法

      分類模型有很多表示方法,比如分類規(guī)則、判定樹、數(shù)學公式、形式文法、形式邏輯表達式、神經(jīng)網(wǎng)絡(luò)、框架和模式等等。與其它幾種表示方法相比,使用分類規(guī)則的好處在于:每條規(guī)則能夠獨立地表示被發(fā)現(xiàn)的知識;新規(guī)則的加入并不影響已經(jīng)存在的規(guī)則集,而且表示形式簡單,易于理解。假設(shè)數(shù)據(jù)挖掘用于決策支持系統(tǒng),但真正最后的決策者是用戶,數(shù)據(jù)挖掘的結(jié)果對于用戶來說應(yīng)該是易于理解,表示形式簡單的結(jié)果,采用規(guī)則表示的分類器就比較好理解,而神經(jīng)網(wǎng)絡(luò)的結(jié)果就比較難以理解。例如,給定一個顧客的信用信息的數(shù)據(jù)庫,可以學習分類規(guī)則,根據(jù)他們的信譽度優(yōu)良或相(下轉(zhuǎn)第139頁)(上接第129頁)當好來識別顧客。這些規(guī)則可以用來為以后的數(shù)據(jù)樣本分類,也能對數(shù)據(jù)庫的內(nèi)容提供更好的理解。

      5 分類規(guī)則挖掘步驟

      第一步,建立一個描述已知數(shù)據(jù)集類別或概念的模型。該模型是通過對數(shù)據(jù)庫中各數(shù)據(jù)行內(nèi)容的分析而獲得的。每一數(shù)據(jù)行都可認為是屬于一個確定的數(shù)據(jù)類別,其類別值是由一個屬性描述(被稱為類別屬性)。分類學習方法所使用的數(shù)據(jù)集稱為訓練樣本集合,因此分類學習又可以稱為監(jiān)督學習(Learning by Example)。它是在已知訓練樣本類別的情況下,通過學習建立相應(yīng)的模型;而無教師監(jiān)督學習則是在訓練樣本的類別與類別個數(shù)均未知的情況下進行的。

      第二步,利用所獲得的模型進行分類操作。首先對模型分類準確率進行估計,例如使用保持(Holdout)方法。如果一個學習所獲模型的準確率經(jīng)測試被認為是可以接受的,那么就可以使用這一模型對未來的數(shù)據(jù)行或?qū)ο?其類別未知)進行分類。

      6 分類挖掘面臨的問題和挑戰(zhàn)

      隨著對數(shù)據(jù)挖掘分類問題研究的不斷深入和廣泛應(yīng)用,人們發(fā)現(xiàn)現(xiàn)實世界數(shù)據(jù)庫存在的一些固有的特點給分類挖掘帶來了巨大的挑戰(zhàn)。比如,在其他規(guī)則挖掘的過程中,提供一種與分類規(guī)則挖掘技術(shù)相結(jié)合的方法,把分類規(guī)則挖掘技術(shù)融入其中。還有噪音數(shù)據(jù)、數(shù)據(jù)庫的動態(tài)性以及海量數(shù)據(jù)和高維數(shù)據(jù)等這些問題都是值得研究的。

      分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一,它有著豐富的結(jié)果和廣泛的應(yīng)用,因此對分類規(guī)則挖掘的研究是很有必要的。

      猜你喜歡
      類別數(shù)據(jù)挖掘規(guī)則
      撐竿跳規(guī)則的制定
      數(shù)獨的規(guī)則和演變
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      TPP反腐敗規(guī)則對我國的啟示
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      双峰县| 璧山县| 分宜县| 温宿县| 马关县| 安溪县| 长葛市| 东莞市| 宝兴县| 郯城县| 延吉市| 吉水县| 九龙县| 昭通市| 乌拉特中旗| 门源| 宣城市| 万源市| 四子王旗| 林州市| 平塘县| 清水河县| 潢川县| 开封市| 平遥县| 敦煌市| 潍坊市| 湖州市| 图片| 溧阳市| 京山县| 普兰店市| 常宁市| 克什克腾旗| 江都市| 阿巴嘎旗| 城步| 东阿县| 澄迈县| 广南县| 江孜县|