• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘過程模型及創(chuàng)新應用

      2018-03-22 01:31余奇
      電子技術與軟件工程 2018年1期
      關鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫算法

      余奇

      隨著數(shù)據(jù)庫技術的成熟和數(shù)據(jù)應用的普及,人類積累的數(shù)據(jù)量的速度迅速增長。進入21世紀以后,隨著互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展,企業(yè)內部網(wǎng)和企業(yè)外部網(wǎng)以及虛擬私有網(wǎng)慢慢的推廣并應用了,此后,人們就可以跨越時空地在網(wǎng)上交換數(shù)據(jù)信息和協(xié)同工作,完成一些之前無法想象的事情。這樣,展現(xiàn)在人們面前的已不是局限于本部門,本單位和本行業(yè)的龐大數(shù)據(jù)庫,而是大量的數(shù)據(jù),信息的海洋。當數(shù)據(jù)量極度增長時,如果沒有有效的方法,由計算機及信息技術來提取有用信息和知識,只簡簡單單地用人腦去面對海量數(shù)據(jù)時,只能感到束手無策,所以,從數(shù)據(jù)庫中發(fā)現(xiàn)知識及其核心技術——數(shù)據(jù)挖掘便應運而生了。

      【關鍵詞】數(shù)據(jù) 數(shù)據(jù)挖掘過程模型

      近年來,數(shù)據(jù)挖掘在信息產(chǎn)業(yè)界和整個社會都獲得了極大關注。因為數(shù)據(jù)挖掘技術可以廣泛使用大量數(shù)據(jù),并且快速將這些數(shù)據(jù)轉換成有用的信息和知識。獲取了這些信息知識后在各種應用中都可以廣泛運用。例如進行一定的市場分析、產(chǎn)品控制、顧客保有統(tǒng)計和科學探索等等。通俗的說,就像挖掘機從土山中挖掘土壤一樣,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”特定的知識,并帶有一些智能的檢索、整理功能,也是一種知識發(fā)現(xiàn)過程的基本步驟。所以,在人們需要大量數(shù)據(jù)、大量知識或是從大量數(shù)據(jù)與知識中獲取對其有用的項目時,往往會運用數(shù)據(jù)挖掘技術。

      1 數(shù)據(jù)挖掘的過程模型

      倘若把數(shù)據(jù)挖掘技術“挖掘”知識比喻成挖掘機在挖掘土壤,那么數(shù)據(jù)挖掘的過程模型就是挖掘機的工作流程,可以有效指導數(shù)據(jù)挖掘技術進行提取、整理數(shù)據(jù)和知識。數(shù)據(jù)挖掘的流程往往分為下面五個部分:數(shù)據(jù)庫模塊、挖掘前處理模塊、挖掘操作模塊、模式評估模塊、知識輸出模塊?,F(xiàn)今,很多研究人員也提出了各種各樣的數(shù)據(jù)挖掘過程模型,其可以針對不同的挖掘對象發(fā)揮不同的作用。

      1.1 9步模型(Nine-stepsModel)

      如圖1所示,9步模型將數(shù)據(jù)挖掘過程分為了9步,從確定數(shù)據(jù)挖掘目標為起點,以實現(xiàn)知識的發(fā)現(xiàn)為結束。

      (1)定義、理解數(shù)據(jù)挖掘目標。首先,展開數(shù)據(jù)挖掘的人需確定數(shù)據(jù)挖掘的目標才能進行數(shù)據(jù)挖掘工作的開展。

      (2)選擇、創(chuàng)建數(shù)據(jù)集。在定義目標之后,就需要找出可用的數(shù)據(jù)、獲取額外的輔助數(shù)據(jù)。

      (3)數(shù)據(jù)準備、清洗。在這一步驟中,對數(shù)據(jù)進一步篩選,增強其正確性與可靠性。

      (4)數(shù)據(jù)轉換。這個步驟中,可以將已獲得的數(shù)據(jù)轉換成挖掘所需的格式,只有格式正確才能方便數(shù)據(jù)的使用。

      (5)選擇合適的數(shù)據(jù)挖掘方法。要根據(jù)不同的數(shù)據(jù)挖掘的目標來制定不同的數(shù)據(jù)挖掘方法。

      (6)選擇數(shù)據(jù)挖掘算法。算法是數(shù)據(jù)挖掘中必不可少的一項技術,要結合數(shù)據(jù)本身的特點與其用途創(chuàng)建并優(yōu)化算法,才能更加精準的獲得想要的數(shù)據(jù)。

      (7)執(zhí)行數(shù)據(jù)挖掘算法。這一步開始啟用數(shù)據(jù)挖掘算法,并且可能調整參數(shù)執(zhí)行多次,直到得到滿意的結果。

      (8)結果評價。這一步是在數(shù)據(jù)挖掘完成之后,對模型進行重新分析。重點要關注模型的有用性和可理解性。然后進行歸納與總結。

      (9)使用發(fā)現(xiàn)的知識。這一步便是數(shù)據(jù)挖掘的最終目的。挖掘數(shù)據(jù)從而利用數(shù)據(jù),使用數(shù)據(jù)。當然,知識數(shù)據(jù)一定要使用恰當,否則數(shù)據(jù)挖掘再精妙,也是徒勞。

      以上步驟只是指導性意見,負責人員應根據(jù)實際情況進行統(tǒng)籌規(guī)劃。

      1.2 CRISP-DM模型

      如圖2所示,CRISP-DM數(shù)據(jù)挖掘方法論用層次過程模型描述,包括四個抽象層次構成的任務集合:階段、一般任務、具體任務和過程實例。在模型的頂層,數(shù)據(jù)挖掘過程由很多階段構成。第二層則是一般任務層,應將一般任務進行細分歸類和頂層進行很好的邏輯聯(lián)系,才能確保其完整性與穩(wěn)定性。第三層為具體任務層,可以展示一般的任務如何在特定環(huán)境下執(zhí)行。第四層是過程實例,是有關一次實際數(shù)據(jù)挖掘項目的活動、決策和結果的記錄。它表示一個特定項目中發(fā)生的實際情況,而不是一般情況。

      圖3為CRISP-DM模型的過程描述。該模型將工程分為6個不同的,但順序并非完全不變的階段。上圖的循環(huán)往復表示著數(shù)據(jù)挖掘工作的無限性,簡單來說,挖掘得到的知識還可以進一步挖掘,往往在深度挖掘后,知識會更精準合理。而圖中的箭頭指出了每個階段之間最重要和頻繁的關聯(lián)依賴。

      2 數(shù)據(jù)挖掘的創(chuàng)新應用

      2.1 數(shù)據(jù)挖掘在銀行與金融業(yè)的創(chuàng)新應用

      數(shù)據(jù)挖掘在銀行與金融業(yè)有著廣泛的應用。如在銀行業(yè)中,可以通過數(shù)據(jù)挖掘技術進行欺詐檢測、潛在客戶的風險評估、趨勢分析等。在金融領域,用高水平的近似來預測股價和物價意味著大量的利潤。數(shù)據(jù)挖掘中的一種算法——神經(jīng)網(wǎng)絡算法,被廣泛用于預測、股票預購和債券買賣、證券管理和合并與兼并等領域。

      2.2 在客戶關系管理方面

      數(shù)據(jù)挖掘可以通過大量數(shù)據(jù),分析出適合客戶的產(chǎn)品使用模式或協(xié)助了解客戶行為,從而可以改進通道管理。舉個例子,很多時候,我們會發(fā)現(xiàn)當消費者需要一件產(chǎn)品的時候,這件產(chǎn)品便會促銷打折,很多人會認為這是巧合,實際上是依靠數(shù)據(jù)挖掘技術基于顧客生活周期模型來實施的。

      2.3 在零售業(yè)和市場營銷方面

      零售業(yè)和市場營銷是數(shù)據(jù)挖掘技術應用最早也是最重要的領域,例如超市中的貨架擺放順序、促銷活動時間以及商場活動等,都是數(shù)據(jù)挖掘技術廣泛應用后的成果。并且,數(shù)據(jù)挖掘技術還可以進行客戶統(tǒng)計與分析,能提升銷售和廣告業(yè)務的準確性與有效性。

      3 結語

      本文簡單闡釋了數(shù)據(jù)挖掘模型的概念,與創(chuàng)新其實際應用距離。在今天這個互聯(lián)網(wǎng)時代,隨著數(shù)據(jù)庫的擴大、數(shù)據(jù)統(tǒng)計系統(tǒng)的完善,為了得到有用信息,對決策進行指導。數(shù)據(jù)挖掘,這一高效的技術應用范圍也越來越廣。它也已經(jīng)成為統(tǒng)計學、機器學習等諸多領域的研究者和開發(fā)者的熱點課題之一,而各個學科交叉融合更會會進一步促進數(shù)據(jù)挖掘技術的發(fā)展與繁榮。

      參考文獻

      [1]陳文偉等.數(shù)據(jù)挖掘技術[M].北京:北京工業(yè)大學出版社,2002.

      [2]高洪深.決策支持系統(tǒng)[M].北京:清華大學出版社,2000.

      [3]孟曉明.淺談數(shù)據(jù)挖掘技術[J].計算機應用與軟件,2004(08).

      作者單位

      韓山師范學院數(shù)學與統(tǒng)計學院 廣東省潮州市 521000

      猜你喜歡
      數(shù)據(jù)挖掘數(shù)據(jù)庫算法
      基于MapReduce的改進Eclat算法
      Travellng thg World Full—time for Rree
      進位加法的兩種算法
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      一種改進的整周模糊度去相關算法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      高阳县| 安塞县| 安康市| 安达市| 谢通门县| 宜章县| 新建县| 宁南县| 钟祥市| 宁明县| 新化县| 大渡口区| 额敏县| 巴马| 庆安县| 东海县| 磐石市| 调兵山市| 河西区| 梁河县| 盐池县| 临泽县| 广饶县| 绥中县| 通道| 冕宁县| 蒙山县| 沽源县| 扶风县| 永修县| 墨竹工卡县| 莱芜市| 安宁市| 宽城| 搜索| 甘洛县| 桃江县| 黔东| 镇康县| 板桥市| 友谊县|