• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘的系統(tǒng)構(gòu)成與發(fā)展趨勢

      2009-03-30 04:52崔永君
      新媒體研究 2009年3期
      關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)挖掘可視化

      [摘要]隨著人們認(rèn)識(shí)和管理水平的提高,對客觀世界的描述愈來愈全面,存儲(chǔ)的數(shù)據(jù)量愈來愈大,然而,對數(shù)據(jù)庫中數(shù)據(jù)的開發(fā)應(yīng)用主要是檢索查詢,效率很低,此外,相當(dāng)數(shù)量的數(shù)據(jù)具有很強(qiáng)的時(shí)效性,數(shù)據(jù)的價(jià)值隨著時(shí)間的推移而迅速降低,決策者迫切需要從海量數(shù)據(jù)庫中提取有價(jià)值知識(shí)的工具。就數(shù)據(jù)挖掘的功能、應(yīng)用及發(fā)展問題進(jìn)行分析。

      [關(guān)鍵詞]數(shù)據(jù)挖掘系統(tǒng)發(fā)展趨勢

      中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼;A文章編號(hào):1671-7597(2009)0210057-01

      數(shù)據(jù)挖掘一詞是在1989年8月于美國底特律市召開的第十一屆國際聯(lián)合人工智能學(xué)術(shù)會(huì)議上正式形成的。從1995年開始,每年主辦一次KDD國際學(xué)術(shù)會(huì)議,將KDD和數(shù)據(jù)挖掘方面的研究推向了高潮,從此數(shù)據(jù)挖掘一詞開始流行。快速增長的海量數(shù)據(jù)收集存放在若干大型數(shù)據(jù)庫中,如果沒有強(qiáng)有力的工具來幫助,其結(jié)果是重要的決策不是基于數(shù)據(jù)庫中豐富的信息,而是基于決策者的直覺。為此,決策者追切需要從海量數(shù)據(jù)庫中提取有價(jià)值知識(shí)的工具,數(shù)據(jù)挖掘技術(shù)正是為滿足上述要求而產(chǎn)生的。

      一、數(shù)據(jù)挖掘的定義與構(gòu)成

      數(shù)據(jù)挖掘(Data Mining),又稱信息發(fā)掘(Knowledge Discovery),是用自動(dòng)或半自動(dòng)化的方法在數(shù)據(jù)中找到潛在的,有價(jià)值的信息和規(guī)則。數(shù)據(jù)挖掘技術(shù)來源于數(shù)據(jù)庫,統(tǒng)計(jì)和人工智能。數(shù)據(jù)挖掘系統(tǒng)的構(gòu)成主要有以下方面:

      (1)數(shù)據(jù)庫、數(shù)據(jù)倉庫和其他信息庫:這是一個(gè)或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫。(2)數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)。(3)知識(shí)庫:這是領(lǐng)域知識(shí),用于指導(dǎo)搜索,或評(píng)估結(jié)果模式的興趣度。(4)數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)基本的部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。(5)模式評(píng)估模塊:通常,此成分使用興趣度度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上。它可能使用興趣度閥值過濾發(fā)現(xiàn)的模式。模式評(píng)估模塊也可以與挖掘模塊集成在一起,這依賴于所用的數(shù)據(jù)挖掘方法的實(shí)現(xiàn)。(6)圖形用戶界面:本模塊在用戶和挖掘系統(tǒng)之間通信,允許用戶和系統(tǒng)交互,制定數(shù)據(jù)挖掘查詢或任務(wù),提供信息、幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘。此外,此成分還允許用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結(jié)構(gòu),評(píng)估挖掘的模式,以不同的形式對模式可視化。

      二、數(shù)據(jù)挖掘的應(yīng)用

      數(shù)據(jù)挖掘技術(shù)的潛在應(yīng)用是十分廣泛的,從政府管理決策、商業(yè)經(jīng)營、科學(xué)研究和工業(yè)企業(yè)決策支持等各個(gè)領(lǐng)域都可以找到數(shù)據(jù)挖掘技術(shù)的用武之地。下面列舉出目前開展得比較活躍的數(shù)據(jù)挖掘的應(yīng)用方向:

      (1)市場營銷:預(yù)測顧客的購買行為;劃分顧客群體。(2)銀行業(yè):偵測信用卡的欺詐行為;客戶信譽(yù)分析。(3)生產(chǎn)、銷售和零售業(yè):預(yù)測銷售額;決定庫存量:批發(fā)點(diǎn)分布的規(guī)劃、調(diào)度。(4)制造:預(yù)測機(jī)器故障:發(fā)掘影響生產(chǎn)能力的關(guān)鍵因素。經(jīng)紀(jì)業(yè)和安全交易:預(yù)測債券價(jià)格的變化;預(yù)報(bào)股票價(jià)格升降;決定交易的最佳時(shí)刻。(5)保險(xiǎn)業(yè):分析決定醫(yī)療保險(xiǎn)額的主要因素;預(yù)測顧客保險(xiǎn)的模式。(6)計(jì)算機(jī)硬件和軟件:監(jiān)測磁盤驅(qū)動(dòng)故障;估計(jì)潛在的安全漏洞。(7)政府和防衛(wèi):估計(jì)軍事裝備轉(zhuǎn)移的成本;預(yù)測資源的消耗;評(píng)估軍事戰(zhàn)略。(8)醫(yī)藥:驗(yàn)證藥物的治療機(jī)理:醫(yī)藥公司劃分出哪部分大夫會(huì)再次購買某類藥品。(9)交通:航空公司可以根據(jù)歷史資料尋找乘客的旅行模式,改進(jìn)航線的設(shè)置。(10)電信:電話公司評(píng)估哪一類客戶會(huì)在短期內(nèi)轉(zhuǎn)向別的公司或其它服務(wù)項(xiàng)目,從而限制對這部分客戶的廣告投入。(11)公司經(jīng)營管理:評(píng)價(jià)客戶信譽(yù);評(píng)估部門業(yè)績;評(píng)估員工業(yè)績:監(jiān)測子公司或部門財(cái)務(wù)舞弊行為。

      三、數(shù)據(jù)挖掘的發(fā)展趨勢

      1、算法效率和可伸縮性。目前,數(shù)據(jù)庫的規(guī)模呈指數(shù)增長,Mb規(guī)模的數(shù)據(jù)庫已經(jīng)很普遍。在商業(yè)數(shù)據(jù)庫中,Gb和Tb規(guī)模的數(shù)據(jù)庫也已經(jīng)在使用。當(dāng)把WWW包括進(jìn)來的時(shí)候,Pb規(guī)模的數(shù)據(jù)庫正在出現(xiàn)。

      2、處理不同類型的數(shù)據(jù)和數(shù)據(jù)源。目前數(shù)據(jù)挖掘系統(tǒng)處理的數(shù)據(jù)庫大多是關(guān)系數(shù)據(jù)庫。隨著數(shù)據(jù)庫應(yīng)用范圍的日益擴(kuò)大和規(guī)模、功能的日益完善,數(shù)據(jù)庫中將包含大量復(fù)雜的數(shù)據(jù)類型。如結(jié)構(gòu)化的數(shù)據(jù),復(fù)雜的數(shù)據(jù)對象,混合文本,多媒體數(shù)據(jù),時(shí)空數(shù)據(jù),事務(wù)數(shù)據(jù)及歷史數(shù)據(jù)等,甚至出現(xiàn)新的數(shù)據(jù)庫模型,因此保證數(shù)據(jù)挖掘系統(tǒng)能有效的處理此類數(shù)據(jù)庫中的數(shù)據(jù)是非常重要的。

      3、數(shù)據(jù)挖掘系統(tǒng)的交互性。數(shù)據(jù)挖掘中操作者的適當(dāng)參與能加速數(shù)據(jù)挖掘過程。一方面,交互界面接收用戶的檢索、查詢要求和數(shù)據(jù)挖掘策略,為用戶表達(dá)要求和策略提供了方便;另一方面,交互界面又把生成的結(jié)果傳遞給用戶,由于生成的結(jié)果可以是多種多樣,因此,準(zhǔn)確而直觀地描述挖掘結(jié)果和友好而高效的用戶界面一直是研究的重要課題。

      4、Web挖掘。由于Web上存在大量信息,并且Web在當(dāng)今社會(huì)扮演越來越重要的角色,有關(guān)Web內(nèi)容挖掘、Web日志挖掘和因特網(wǎng)上的數(shù)據(jù)挖掘服務(wù),將成為數(shù)據(jù)挖掘中一個(gè)最為重要和繁榮的子領(lǐng)域。

      5、數(shù)據(jù)挖掘中的隱私保護(hù)與信息安全。數(shù)據(jù)挖掘能從不同的角度、不同的抽象層上看待數(shù)據(jù),這將潛在地影響數(shù)據(jù)的私有性和安全性。隨著計(jì)算機(jī)網(wǎng)絡(luò)的日益普及,研究數(shù)據(jù)挖掘可能導(dǎo)致的非法數(shù)據(jù)入侵是實(shí)際應(yīng)用中需要解決的問題之一。

      6、探索新的應(yīng)用領(lǐng)域。信息產(chǎn)業(yè)的發(fā)展為數(shù)據(jù)挖掘提供了廣闊的空間,數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍將不斷得到拓寬,特別是在生物工程、商業(yè)智能、網(wǎng)絡(luò)服務(wù)等領(lǐng)域的應(yīng)用將成為新的研究熱點(diǎn)。同時(shí)由于通用數(shù)據(jù)挖掘系統(tǒng)在處理特定應(yīng)用問題時(shí)有其局限性,因此,目前的一種趨勢是開發(fā)針對特定應(yīng)用的數(shù)據(jù)挖掘系統(tǒng)。

      7、數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語言或有關(guān)方面的標(biāo)準(zhǔn)化工作將有助于數(shù)據(jù)挖掘系統(tǒng)的研究和開發(fā),有利于用戶學(xué)習(xí)和使用數(shù)據(jù)挖掘系統(tǒng)。研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會(huì)像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化。

      8、可視化數(shù)據(jù)挖掘??梢暬瘮?shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的有效途徑。目前數(shù)據(jù)挖掘的可視化僅體現(xiàn)在結(jié)果的簡單描述,而數(shù)據(jù)可視化、挖掘過程和結(jié)果可視化,將揭開數(shù)據(jù)挖掘神秘的面紗,使其變得更為生動(dòng)、形象和具體。數(shù)據(jù)和結(jié)果的圖形展示可以放大、縮小、平移、旋轉(zhuǎn)和變換角度,使分析人員和用戶更加容易理解,將大大推動(dòng)數(shù)據(jù)挖掘工具在發(fā)現(xiàn)知識(shí)和數(shù)據(jù)分析中的應(yīng)用。

      總之,數(shù)據(jù)挖掘的可視化具有重要的理論意義和應(yīng)用價(jià)值。隨著計(jì)算機(jī)計(jì)算能力的發(fā)展和業(yè)務(wù)復(fù)雜性的提高,數(shù)據(jù)的類型會(huì)越來越多、越來越復(fù)雜,數(shù)據(jù)挖掘?qū)l(fā)揮出越來越大的作用。

      作者簡介:

      崔永君,男,碩士,遼寧開原人,講師,計(jì)算機(jī)網(wǎng)絡(luò)研究方向。

      猜你喜歡
      數(shù)據(jù)倉庫數(shù)據(jù)挖掘可視化
      數(shù)據(jù)可視化設(shè)計(jì)在美妝類APP中的應(yīng)用
      思維可視化
      基于數(shù)據(jù)倉庫的數(shù)據(jù)傾斜解決方案研究
      復(fù)變函數(shù)級(jí)數(shù)展開的可視化實(shí)驗(yàn)教學(xué)
      復(fù)變函數(shù)級(jí)數(shù)展開的可視化實(shí)驗(yàn)教學(xué)
      復(fù)變函數(shù)共形映射的可視化實(shí)驗(yàn)教學(xué)
      復(fù)變函數(shù)共形映射的可視化實(shí)驗(yàn)教學(xué)
      數(shù)據(jù)挖掘綜述
      軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
      數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      锡林浩特市| 青川县| 丹巴县| 玉龙| 六盘水市| 习水县| 澄迈县| 郴州市| 驻马店市| 衡南县| 钟祥市| 武平县| 潼南县| 云和县| 宁河县| 长寿区| 沂水县| 伊宁市| 宜章县| 乌鲁木齐市| 麟游县| 资源县| 江西省| 东丽区| 双桥区| 阿尔山市| 乡宁县| 济阳县| 隆化县| 陆丰市| 尼木县| 穆棱市| 垫江县| 萝北县| 南充市| 额济纳旗| 郓城县| 项城市| 东乡族自治县| 嘉义市| 康马县|