• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘技術(shù)分析

      2017-12-15 00:02孔潔劉楊
      電腦知識(shí)與技術(shù) 2017年32期
      關(guān)鍵詞:決策樹(shù)數(shù)據(jù)挖掘

      孔潔+劉楊

      摘要:隨著時(shí)代的發(fā)展,人們對(duì)有價(jià)值的數(shù)據(jù)需求越來(lái)越迫切,因此,需要一種新的技術(shù)來(lái)處理大量的數(shù)據(jù)數(shù)據(jù),并從中抽取我們需要的信息。數(shù)據(jù)挖掘技術(shù)是一門(mén)涉及面很廣的學(xué)科,綜合了統(tǒng)計(jì)學(xué)的方法,同時(shí)又超越了傳統(tǒng)意義上的統(tǒng)計(jì)分析。數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)當(dāng)中,通過(guò)運(yùn)用技術(shù)手段,提煉出我們所需要的有用的數(shù)據(jù)的過(guò)程。該文介紹了數(shù)據(jù)挖掘技術(shù)的基本概念、數(shù)據(jù)挖掘的功能以及數(shù)據(jù)挖掘的常用的技術(shù)。

      關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹(shù);OLAP

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)32-0009-02

      1 什么是數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘就是通過(guò)一定的技術(shù)來(lái)分析大量的數(shù)據(jù),從中找出對(duì)我們有用的數(shù)據(jù)的過(guò)程,即從存放在數(shù)據(jù)庫(kù)中的數(shù)據(jù)中獲取有效的、有價(jià)值、最終能被我們所利用的數(shù)據(jù)。若我們?cè)谝粋€(gè)網(wǎng)站買書(shū),系統(tǒng)會(huì)根據(jù)我們近期所購(gòu)買的書(shū)的記錄進(jìn)行分析,然后在我們下次登錄該網(wǎng)站時(shí),自行向我們推薦其他類型的書(shū)籍,這里就是用到了數(shù)據(jù)挖掘的理論和方法。

      2 數(shù)據(jù)挖掘的功能

      1) 分類

      所謂分類就是按照分析對(duì)象的特征,建立類組。也就是說(shuō)分類就是它所預(yù)測(cè)的結(jié)果是一個(gè)類別而不是一個(gè)具體的數(shù)。比如:我猜你是四川人,這個(gè)就是分類問(wèn)題。在商業(yè)案例中分類問(wèn)題很多,再比如通過(guò)銀行的一個(gè)客戶信息,可以預(yù)測(cè)一下他是否會(huì)購(gòu)買基金,大概的數(shù)額;他是否會(huì)辦信用卡等等。

      2) 聚類

      面對(duì)海量的數(shù)據(jù),首先分類,然后是聚類,屬性接近的劃歸為一類,合理歸類以后,每一類有自己的特征。聚類問(wèn)題主要解決把一定范圍內(nèi)的對(duì)象劃分為若干個(gè)組。它的特點(diǎn)是根據(jù)所選的目標(biāo)來(lái)進(jìn)行劃分。比如:銀行的客戶,我們首先選定幾個(gè)指標(biāo):年收入、年齡、性別等,然后對(duì)他們進(jìn)行劃分,特征相似的為一類,特征不同的分屬不同的類。

      3) 估計(jì)與預(yù)測(cè)

      估計(jì)就是根據(jù)已有的長(zhǎng)期積累的數(shù)據(jù)來(lái)推測(cè)未知的信息,例如銀行根據(jù)信用卡申請(qǐng)人的單位性質(zhì)、年齡、性別等信息推算他的消費(fèi)水平。所使用的技術(shù)有統(tǒng)計(jì)方法中的相關(guān)分析、回歸分析等等。所謂預(yù)測(cè)就是根據(jù)對(duì)象屬性的過(guò)去值預(yù)測(cè)他的未來(lái)值。比如:通過(guò)查看一個(gè)持卡人以往的消費(fèi)值來(lái)預(yù)測(cè)他今后的消費(fèi),使用的技術(shù)包括回歸分析、時(shí)間序列分析等。

      4) 關(guān)聯(lián)

      就是找出在一個(gè)事件中同時(shí)出現(xiàn)的事情,確定那些相關(guān)的對(duì)象應(yīng)該放在一起。

      5) 描述

      描述的就是對(duì)復(fù)雜的數(shù)據(jù)庫(kù)提供簡(jiǎn)單明了的說(shuō)明,描述的主要目的是對(duì)數(shù)據(jù)先有個(gè)了解,這樣有助于怎樣去建模。

      3 數(shù)據(jù)挖掘的主要方法

      1) 決策樹(shù)法

      決策樹(shù)是一種對(duì)實(shí)例進(jìn)行分類的樹(shù)形結(jié)構(gòu),由節(jié)點(diǎn)和有向邊組成。節(jié)點(diǎn)的類型有2種:內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)一般表示一個(gè)特征或?qū)傩缘臏y(cè)試條件,葉子節(jié)點(diǎn)則表示一個(gè)分類。

      當(dāng)我們構(gòu)造了一個(gè)決策樹(shù)模型,以它為基礎(chǔ)來(lái)進(jìn)行分類是很容易的。具體就是:從根節(jié)點(diǎn)開(kāi)始,按照實(shí)例的某一特征進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)構(gòu)將實(shí)例分配到子節(jié)點(diǎn),當(dāng)沿著該分支可能到達(dá)葉子節(jié)點(diǎn)或到達(dá)另一個(gè)內(nèi)部節(jié)點(diǎn)時(shí),就使用新的測(cè)試條件遞歸執(zhí)行下去,直到到達(dá)一個(gè)葉子節(jié)點(diǎn)。當(dāng)?shù)竭_(dá)葉子節(jié)點(diǎn)時(shí),就得到了最終的分類結(jié)果。

      決策樹(shù)它是一種建立在信息論基礎(chǔ)之上的對(duì)數(shù)據(jù)分類的一種方法。具體就是:通過(guò)已知的一批樣本數(shù)據(jù)建立一棵決策樹(shù),然后利用已經(jīng)建好的決策樹(shù)來(lái)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。決策樹(shù)的建立過(guò)程我們可以看做是數(shù)據(jù)規(guī)則的生成過(guò)程。決策樹(shù)方法精確度高,效率也高,比較常用。

      決策樹(shù)法是目前應(yīng)用非常廣泛的一種邏輯方法,生成決策樹(shù)一個(gè)著名的算法是C4.5算法。

      2) 神經(jīng)網(wǎng)絡(luò)法

      神經(jīng)網(wǎng)絡(luò)它是建立在數(shù)學(xué)模型之上的,我們通過(guò)對(duì)大量的、復(fù)雜的數(shù)據(jù)進(jìn)行分析研究,可以完成非常復(fù)雜的趨勢(shì)分析。神經(jīng)網(wǎng)絡(luò)系統(tǒng)它是由一系列類似于人腦神經(jīng)元的處理單元構(gòu)成的,我們稱之為節(jié)點(diǎn)。這些節(jié)點(diǎn)可以通過(guò)網(wǎng)絡(luò)進(jìn)行互聯(lián)。如果有數(shù)據(jù)輸入,就可以確定數(shù)據(jù)模式的工作。

      3) 關(guān)聯(lián)規(guī)則法

      關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的一種技術(shù),它是一種非常簡(jiǎn)單但很實(shí)用的一種規(guī)則,描述了一個(gè)事物如果某些屬性同時(shí)出現(xiàn)的規(guī)律。關(guān)聯(lián)規(guī)則分析就是根據(jù)一定的可信度、支持度等建立相關(guān)規(guī)則,可以幫助很多商務(wù)決策的制定。

      4) 聚類分析法

      聚類分析就是把一組信息按照相似度歸成若干類別。聚類方法包括統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)法和面向數(shù)據(jù)庫(kù)法等方法。聚類分析具體說(shuō)就是依據(jù)樣本或變量之間關(guān)聯(lián)的量度標(biāo)準(zhǔn)將其自動(dòng)分為幾個(gè)組,并且同一個(gè)群內(nèi)樣本相似,而不同組之間的樣本相異。

      5) 遺傳算法

      遺傳算法它是一種基于生物進(jìn)化論和分子遺傳學(xué)的算法,第一步,將問(wèn)題的所有可能解按照某種方式進(jìn)行編碼;第二步,從中隨機(jī)地選取M個(gè)染色體作為初始種群;第三步,根據(jù)預(yù)定的評(píng)價(jià)函數(shù)對(duì)每個(gè)染色體計(jì)算適應(yīng)值,然后選擇適應(yīng)值較高的染色體進(jìn)行復(fù)制;最后通過(guò)遺傳算子生成新的能夠更好適應(yīng)環(huán)境的染色體,從而生成新的種群,直到最后成為一個(gè)最適應(yīng)環(huán)境的個(gè)體,得到問(wèn)題的最優(yōu)解。

      6) 聯(lián)機(jī)分析處理(OLAP)法

      聯(lián)機(jī)分析處理就是通過(guò)多維的方式對(duì)數(shù)據(jù)進(jìn)行分析、查詢和報(bào)表。它主要用來(lái)完成用戶的事物處理,比如銀行儲(chǔ)蓄等。需要進(jìn)行大量的更新操作,對(duì)響應(yīng)時(shí)間要求高。

      聯(lián)機(jī)分析處理它的核心概念是“維”,它支持?jǐn)?shù)據(jù)分析人員和決策人員從不同的角度、不同的級(jí)別對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行復(fù)雜查詢和多維分析處理,以直觀形象的方式將查詢和分析的結(jié)果反饋給決策人員。OLAP使用的模型是多維數(shù)據(jù)模型,主要用于分析大量的歷史數(shù)據(jù),提供匯總和聚集機(jī)制,訪問(wèn)多是只讀操作。

      隨著計(jì)算機(jī)計(jì)算能力的發(fā)展,數(shù)據(jù)的類型越來(lái)越多,越來(lái)越復(fù)雜,尤其在商業(yè)方面,需要對(duì)大量的數(shù)據(jù)分析,需要精確定位潛在的價(jià)值所在,數(shù)據(jù)挖掘技術(shù)可以自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式。隨著數(shù)據(jù)挖掘技術(shù)的不斷成熟和完善,它將在各行各業(yè)的各個(gè)領(lǐng)域發(fā)揮其越來(lái)越大的作用。

      總之,數(shù)據(jù)挖掘技術(shù)的前景是非常好的,我們要充分利用它來(lái)為我們今后的生活提供更多的有用的信息。

      參考文獻(xiàn):

      [1] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2017.

      [2] 陳志泊.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].2版.清華大學(xué)出版社,2017.

      [3] [美]Daniel T. Larose,Chantal D. Larose.數(shù)據(jù)挖掘與預(yù)測(cè)分析[M].2版,清華大學(xué)出版社,2017.

      [4] 李春葆.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘應(yīng)用教程[M].清華大學(xué)出版社,2016.

      [5] 毛國(guó)君.數(shù)據(jù)挖掘原理與算法[M].3版.清華大學(xué)出版社,2016.endprint

      猜你喜歡
      決策樹(shù)數(shù)據(jù)挖掘
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      基于改進(jìn)決策樹(shù)的故障診斷方法研究
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      基于決策樹(shù)的出租車乘客出行目的識(shí)別
      基于決策樹(shù)的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      楚雄市| 侯马市| 天等县| 喀喇沁旗| 三亚市| 麻栗坡县| 吉木乃县| 临沧市| 饶河县| 竹溪县| 咸丰县| 舒城县| 航空| 滦南县| 东丰县| 新郑市| 华阴市| 藁城市| 娱乐| 铜陵市| 简阳市| 迭部县| 岢岚县| 江都市| 苏尼特右旗| 石楼县| 保定市| 韩城市| 江永县| 高雄市| 汉川市| 子洲县| 台中市| 恩施市| 永善县| 寿光市| 于田县| 珠海市| 开封县| 靖州| 昔阳县|