• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘算法的分析探討

      2014-03-12 15:57:06王曉艷
      新媒體研究 2014年2期
      關(guān)鍵詞:分析探討粗糙集數(shù)據(jù)挖掘

      王曉艷

      摘 要 信息技術(shù)不斷的發(fā)展,互聯(lián)網(wǎng)在全球范圍內(nèi)得到普及。這是一個信息爆炸的時代,也是一個大數(shù)據(jù)時代。人們每天會面對大量的信息和數(shù)據(jù),那么如何從這些信息中選擇自己需要的信息是一個關(guān)鍵問題。數(shù)據(jù)挖掘算法在這方面具有明顯的優(yōu)勢,筆者對數(shù)據(jù)挖掘算法進行分析和探討。

      關(guān)鍵詞 數(shù)據(jù)挖掘;粗糙集;分析探討

      中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)02-0060-01

      目前,數(shù)據(jù)挖掘得到了全世界信息產(chǎn)業(yè)界的廣泛關(guān)注。此外,也以難以預(yù)料的速度發(fā)展著。這和信息技術(shù)的迅速發(fā)展以及互聯(lián)網(wǎng)大范圍的普及有著很大的關(guān)系。當(dāng)人們面對大量的數(shù)據(jù)以及信息時,如何選擇自己需要的數(shù)據(jù)和信息是一個核心問題。而數(shù)據(jù)挖掘則是一個重要的方法,其可以幫助人們找到對自己有價值的信息。

      1 數(shù)據(jù)挖掘簡介

      數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)和信息中提取到有用的信息,其是一個過程,這一定義被廣泛的接受。我們可以在數(shù)據(jù)庫中的知識發(fā)現(xiàn)中尋找到數(shù)據(jù)挖掘一詞的來源,其英文是Knowledge Discovery in Database,縮寫為KDD。

      1.1 數(shù)據(jù)挖掘的基本過程

      定義問題一定要在數(shù)據(jù)挖掘之前搞清楚,對問題以及目標任務(wù)實施清晰地定義,而我們就可以得到數(shù)據(jù)挖掘的目的。在此基礎(chǔ)上,我們以挖掘基本步驟為依據(jù),就可以開展知識發(fā)現(xiàn)了。

      數(shù)據(jù)挖掘的過程是很復(fù)雜的,但是基本上可以被劃分為3個階段:準備階段、數(shù)據(jù)挖掘階段以及結(jié)果的解釋和評價階段。

      1)數(shù)據(jù)清理。有的數(shù)據(jù)中含有大量的噪音,此外完整性以及明確性都很差,因此需要進行清洗。2)數(shù)據(jù)集成。數(shù)據(jù)集成主要包括物理集成以及邏輯集成,這些數(shù)據(jù)在來源、特點、格式等方面都具有差異。數(shù)據(jù)集成可以為后面的一系列操作帶來方便。3)數(shù)據(jù)選擇。數(shù)據(jù)選擇指的是從大量的數(shù)據(jù)中找到和選擇有關(guān)的數(shù)據(jù)集,此過程需要從任務(wù)目標出發(fā),之后抽取處理,則我們就可以獲取到具體挖掘任務(wù)的相應(yīng)操作。4)數(shù)據(jù)變換。獲取得當(dāng)?shù)谋煌诰虻臄?shù)據(jù)形式是進行數(shù)據(jù)變換的目的。舉個例子,將離散值型數(shù)據(jù)轉(zhuǎn)換成連續(xù)值型,那么神經(jīng)網(wǎng)絡(luò)計算的進行就比較容易。5)數(shù)據(jù)挖掘。由于多學(xué)科的知識和研究成果不斷的融入到數(shù)據(jù)挖掘中,因此數(shù)據(jù)挖掘方法的形式各種各樣。目前,使用比較多的數(shù)據(jù)挖掘方法包括:最近序列分析、時間序列分析、回歸分析以及聚類分析等。使用這些方法可以很快的得到異常數(shù)據(jù)。之后,再進行解釋,數(shù)據(jù)中的潛在規(guī)律以及模式和知識就可以被發(fā)現(xiàn)。在這個過程中,在選擇算法時需要從數(shù)據(jù)本身的特征出發(fā),這些方法有:聚類、分類以及神經(jīng)網(wǎng)路等。6)模式評估。模式評估的對象是數(shù)據(jù)挖掘發(fā)現(xiàn)的模式,需要采取某種方法來對其進行識別以及度量。7)知識表示。挖掘出的知識需要解釋,轉(zhuǎn)換后得到被知識就可以被用戶理解。

      1.2 數(shù)據(jù)挖掘的分類

      多個學(xué)科的知識和成果融入到了數(shù)據(jù)挖掘中,因此關(guān)于其的研究就比較多。為了用戶能快速的得到自己需要的數(shù)據(jù),我們需要對數(shù)據(jù)挖掘技術(shù)進行分類。

      1)按挖掘的數(shù)據(jù)庫類型分類。按照數(shù)據(jù)模型進行分類,可以被分為以下幾類:關(guān)系型、事務(wù)型以及數(shù)據(jù)倉庫型等。假如以數(shù)據(jù)類型為分類依據(jù),則可以被分為:文本型、異構(gòu)型、空間型、流數(shù)據(jù)型、時間型、多媒體以及Web型。2)按照挖掘的知識類型分類,其指的是參考數(shù)據(jù)挖掘的功能實施劃分。一個全面的數(shù)據(jù)挖掘可以包含多種功能。數(shù)據(jù)挖掘的分類標準也可以是規(guī)則性和奇異性。一般說來,我們可以使用以下方法來進行數(shù)據(jù)規(guī)則性的挖掘:預(yù)測、相關(guān)性分析、關(guān)聯(lián)分析、概念描述等,使用這些方法還可以方法檢測和排除噪聲。3)按應(yīng)用分類。我們可以以應(yīng)用為依據(jù)來進行分類,比如:股票市場、生物醫(yī)學(xué)界、金融業(yè)、交通業(yè)、通信業(yè)等。

      通過以上的分析,我們不難發(fā)現(xiàn),找到一個廣泛適用于各種不同應(yīng)用的數(shù)據(jù)挖掘方法是不可能的。

      2 具體方法分析

      2.1 聚類挖掘

      作為數(shù)據(jù)挖掘技術(shù)中的一個關(guān)鍵的部分,聚類挖掘一般在實現(xiàn)時需要借助最近鄰技術(shù)。聚類分析是一個沒有監(jiān)督的學(xué)習(xí)過程,也沒有必要對訓(xùn)練數(shù)據(jù)進行預(yù)先的處理。聚類屬于觀察型學(xué)習(xí)的一種,其不僅可以對每個類中的數(shù)據(jù)特征進行觀察,而且可以作為其他算法的預(yù)處理步驟。我們使用該方法可以發(fā)現(xiàn)數(shù)據(jù)之間的潛在關(guān)系,因此就會很容易的得到數(shù)據(jù)的分布模式。目前,聚類主要包括以下幾個方面:層次法、劃分法、基于密度的方法、基于模型的方法以及基于密度的方法。筆者對這5類技術(shù)進行了相應(yīng)典型分析之后,每一類技術(shù)性能的比較結(jié)果我們可以在表1中看到。

      表1 聚類算法的比較

      聚類技術(shù) 劃分法 層次法 基于密度的方法 基于網(wǎng)絡(luò)的方法 基于模型的方法

      算法 K-MEANS CURE DBSCAN STING COBWEB

      發(fā)現(xiàn)聚類形狀 球形 任意形狀 任意形狀 任意形狀 任意形狀

      高維性 一般 好 好 一般 好

      可伸縮性 好 較差 好 較好 較好

      輸入順序

      敏感性 敏感 敏感 較敏感 不敏感 敏感

      噪聲敏感性 不敏感 較敏感 很敏感 敏感 較敏感

      算法效率 高 較高 高 一般 較低

      2.2 粗糙集

      粗糙集理論是一種新型的數(shù)學(xué)分析工具,其主要是對不確定的知識進行處理。這些知識信息一般在完整性以及一致性方面比較欠缺,因此使用粗糙集可以對其進行分析和推理,進而將潛在的規(guī)律發(fā)掘出來。

      粗糙集算法(屬性約簡算法)。在實際的應(yīng)用中,我們需要在大量的數(shù)據(jù)中獲取到一個知識,那么如何選取,怎樣提高挖掘的效率呢?這時需要一種算法,該算法可以對大量的屬性進行簡約,將對冗余的信息技術(shù)進行剔除,而原始信息也會得到保證。該算法可以由粗糙集提供,在此基礎(chǔ)上的數(shù)據(jù)挖掘的過程有:數(shù)據(jù)預(yù)處理、獲取規(guī)則、簡化等。首先,對原始數(shù)據(jù)源中的異常值以及缺省值實施處理。之后,構(gòu)建決策表。最后,獲取規(guī)則并對規(guī)則進行簡化,這樣就會得到有價值的知識,最終將其應(yīng)用到新數(shù)據(jù)的分析處理之中。

      2.3 BP神經(jīng)網(wǎng)絡(luò)算法

      信息正向傳播和誤差逆向傳播是BP神經(jīng)網(wǎng)絡(luò)算法的兩個基本的過程。對于前者來說,其僅僅需要一定的歷史數(shù)據(jù),其一般被用來預(yù)測、分類以及聚類等。不僅抗干擾的能力強,此外計算能力也是非常高的。對于后者,需要對神經(jīng)網(wǎng)絡(luò)的各節(jié)點連接權(quán)值進行初始化,這樣我們就可以得到很小的隨機數(shù)。

      3 結(jié)束語

      筆者從數(shù)據(jù)挖掘的概念與意義出發(fā),對基本過程以及幾種技術(shù)(聚類分析、粗糙集和 BP神經(jīng)網(wǎng)絡(luò))進行了分析和探討,希望這些分析和探討對大家有所幫助。

      參考文獻

      [1]劉學(xué)琴,吳耀華,崔寶華.基于擴展粗糙集的短期電力負荷預(yù)測模型[J].電力系統(tǒng)保護與控制,2012(13).endprint

      猜你喜歡
      分析探討粗糙集數(shù)據(jù)挖掘
      基于Pawlak粗糙集模型的集合運算關(guān)系
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      淺談理想主義的企業(yè)管理
      商情(2016年39期)2016-11-21 09:15:19
      多?;植诩再|(zhì)的幾個充分條件
      高中英語課文閱讀教學(xué)的策略探討
      核電廠交流不間斷供電系統(tǒng)分析及改進
      科技視界(2016年20期)2016-09-29 13:38:00
      食品安全體系中物流的重要性
      雙論域粗糙集在故障診斷中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      和顺县| 灌南县| 上饶县| 平度市| 收藏| 靖西县| 从化市| 迁西县| 延津县| 清水县| 宜丰县| 湄潭县| 蓬莱市| 公主岭市| 南漳县| 萨嘎县| 满城县| 东丰县| 乐平市| 广元市| 九寨沟县| 皋兰县| 江城| 涿州市| 穆棱市| 德兴市| 麻江县| 靖西县| 曲麻莱县| 临潭县| 晋江市| 台安县| 长治县| 页游| 广西| 建水县| 驻马店市| 京山县| 江都市| 星座| 乐业县|