[摘要]隨著人們認(rèn)識(shí)和管理水平的提高,對客觀世界的描述愈來愈全面,存儲(chǔ)的數(shù)據(jù)量愈來愈大,然而,對數(shù)據(jù)庫中數(shù)據(jù)的開發(fā)應(yīng)用主要是檢索查詢,效率很低,此外,相當(dāng)數(shù)量的數(shù)據(jù)具有很強(qiáng)的時(shí)效性,數(shù)據(jù)的價(jià)值隨著時(shí)間的推移而迅速降低,決策者迫切需要從海量數(shù)據(jù)庫中提取有價(jià)值知識(shí)的工具。就數(shù)據(jù)挖掘的功能、應(yīng)用及發(fā)展問題進(jìn)行分析。
[關(guān)鍵詞]數(shù)據(jù)挖掘系統(tǒng)發(fā)展趨勢
中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼;A文章編號(hào):1671-7597(2009)0210057-01
數(shù)據(jù)挖掘一詞是在1989年8月于美國底特律市召開的第十一屆國際聯(lián)合人工智能學(xué)術(shù)會(huì)議上正式形成的。從1995年開始,每年主辦一次KDD國際學(xué)術(shù)會(huì)議,將KDD和數(shù)據(jù)挖掘方面的研究推向了高潮,從此數(shù)據(jù)挖掘一詞開始流行。快速增長的海量數(shù)據(jù)收集存放在若干大型數(shù)據(jù)庫中,如果沒有強(qiáng)有力的工具來幫助,其結(jié)果是重要的決策不是基于數(shù)據(jù)庫中豐富的信息,而是基于決策者的直覺。為此,決策者追切需要從海量數(shù)據(jù)庫中提取有價(jià)值知識(shí)的工具,數(shù)據(jù)挖掘技術(shù)正是為滿足上述要求而產(chǎn)生的。
一、數(shù)據(jù)挖掘的定義與構(gòu)成
數(shù)據(jù)挖掘(Data Mining),又稱信息發(fā)掘(Knowledge Discovery),是用自動(dòng)或半自動(dòng)化的方法在數(shù)據(jù)中找到潛在的,有價(jià)值的信息和規(guī)則。數(shù)據(jù)挖掘技術(shù)來源于數(shù)據(jù)庫,統(tǒng)計(jì)和人工智能。數(shù)據(jù)挖掘系統(tǒng)的構(gòu)成主要有以下方面:
(1)數(shù)據(jù)庫、數(shù)據(jù)倉庫和其他信息庫:這是一個(gè)或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫。(2)數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)。(3)知識(shí)庫:這是領(lǐng)域知識(shí),用于指導(dǎo)搜索,或評(píng)估結(jié)果模式的興趣度。(4)數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)基本的部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。(5)模式評(píng)估模塊:通常,此成分使用興趣度度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上。它可能使用興趣度閥值過濾發(fā)現(xiàn)的模式。模式評(píng)估模塊也可以與挖掘模塊集成在一起,這依賴于所用的數(shù)據(jù)挖掘方法的實(shí)現(xiàn)。(6)圖形用戶界面:本模塊在用戶和挖掘系統(tǒng)之間通信,允許用戶和系統(tǒng)交互,制定數(shù)據(jù)挖掘查詢或任務(wù),提供信息、幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘。此外,此成分還允許用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結(jié)構(gòu),評(píng)估挖掘的模式,以不同的形式對模式可視化。
二、數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘技術(shù)的潛在應(yīng)用是十分廣泛的,從政府管理決策、商業(yè)經(jīng)營、科學(xué)研究和工業(yè)企業(yè)決策支持等各個(gè)領(lǐng)域都可以找到數(shù)據(jù)挖掘技術(shù)的用武之地。下面列舉出目前開展得比較活躍的數(shù)據(jù)挖掘的應(yīng)用方向:
(1)市場營銷:預(yù)測顧客的購買行為;劃分顧客群體。(2)銀行業(yè):偵測信用卡的欺詐行為;客戶信譽(yù)分析。(3)生產(chǎn)、銷售和零售業(yè):預(yù)測銷售額;決定庫存量:批發(fā)點(diǎn)分布的規(guī)劃、調(diào)度。(4)制造:預(yù)測機(jī)器故障:發(fā)掘影響生產(chǎn)能力的關(guān)鍵因素。經(jīng)紀(jì)業(yè)和安全交易:預(yù)測債券價(jià)格的變化;預(yù)報(bào)股票價(jià)格升降;決定交易的最佳時(shí)刻。(5)保險(xiǎn)業(yè):分析決定醫(yī)療保險(xiǎn)額的主要因素;預(yù)測顧客保險(xiǎn)的模式。(6)計(jì)算機(jī)硬件和軟件:監(jiān)測磁盤驅(qū)動(dòng)故障;估計(jì)潛在的安全漏洞。(7)政府和防衛(wèi):估計(jì)軍事裝備轉(zhuǎn)移的成本;預(yù)測資源的消耗;評(píng)估軍事戰(zhàn)略。(8)醫(yī)藥:驗(yàn)證藥物的治療機(jī)理:醫(yī)藥公司劃分出哪部分大夫會(huì)再次購買某類藥品。(9)交通:航空公司可以根據(jù)歷史資料尋找乘客的旅行模式,改進(jìn)航線的設(shè)置。(10)電信:電話公司評(píng)估哪一類客戶會(huì)在短期內(nèi)轉(zhuǎn)向別的公司或其它服務(wù)項(xiàng)目,從而限制對這部分客戶的廣告投入。(11)公司經(jīng)營管理:評(píng)價(jià)客戶信譽(yù);評(píng)估部門業(yè)績;評(píng)估員工業(yè)績:監(jiān)測子公司或部門財(cái)務(wù)舞弊行為。
三、數(shù)據(jù)挖掘的發(fā)展趨勢
1、算法效率和可伸縮性。目前,數(shù)據(jù)庫的規(guī)模呈指數(shù)增長,Mb規(guī)模的數(shù)據(jù)庫已經(jīng)很普遍。在商業(yè)數(shù)據(jù)庫中,Gb和Tb規(guī)模的數(shù)據(jù)庫也已經(jīng)在使用。當(dāng)把WWW包括進(jìn)來的時(shí)候,Pb規(guī)模的數(shù)據(jù)庫正在出現(xiàn)。
2、處理不同類型的數(shù)據(jù)和數(shù)據(jù)源。目前數(shù)據(jù)挖掘系統(tǒng)處理的數(shù)據(jù)庫大多是關(guān)系數(shù)據(jù)庫。隨著數(shù)據(jù)庫應(yīng)用范圍的日益擴(kuò)大和規(guī)模、功能的日益完善,數(shù)據(jù)庫中將包含大量復(fù)雜的數(shù)據(jù)類型。如結(jié)構(gòu)化的數(shù)據(jù),復(fù)雜的數(shù)據(jù)對象,混合文本,多媒體數(shù)據(jù),時(shí)空數(shù)據(jù),事務(wù)數(shù)據(jù)及歷史數(shù)據(jù)等,甚至出現(xiàn)新的數(shù)據(jù)庫模型,因此保證數(shù)據(jù)挖掘系統(tǒng)能有效的處理此類數(shù)據(jù)庫中的數(shù)據(jù)是非常重要的。
3、數(shù)據(jù)挖掘系統(tǒng)的交互性。數(shù)據(jù)挖掘中操作者的適當(dāng)參與能加速數(shù)據(jù)挖掘過程。一方面,交互界面接收用戶的檢索、查詢要求和數(shù)據(jù)挖掘策略,為用戶表達(dá)要求和策略提供了方便;另一方面,交互界面又把生成的結(jié)果傳遞給用戶,由于生成的結(jié)果可以是多種多樣,因此,準(zhǔn)確而直觀地描述挖掘結(jié)果和友好而高效的用戶界面一直是研究的重要課題。
4、Web挖掘。由于Web上存在大量信息,并且Web在當(dāng)今社會(huì)扮演越來越重要的角色,有關(guān)Web內(nèi)容挖掘、Web日志挖掘和因特網(wǎng)上的數(shù)據(jù)挖掘服務(wù),將成為數(shù)據(jù)挖掘中一個(gè)最為重要和繁榮的子領(lǐng)域。
5、數(shù)據(jù)挖掘中的隱私保護(hù)與信息安全。數(shù)據(jù)挖掘能從不同的角度、不同的抽象層上看待數(shù)據(jù),這將潛在地影響數(shù)據(jù)的私有性和安全性。隨著計(jì)算機(jī)網(wǎng)絡(luò)的日益普及,研究數(shù)據(jù)挖掘可能導(dǎo)致的非法數(shù)據(jù)入侵是實(shí)際應(yīng)用中需要解決的問題之一。
6、探索新的應(yīng)用領(lǐng)域。信息產(chǎn)業(yè)的發(fā)展為數(shù)據(jù)挖掘提供了廣闊的空間,數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍將不斷得到拓寬,特別是在生物工程、商業(yè)智能、網(wǎng)絡(luò)服務(wù)等領(lǐng)域的應(yīng)用將成為新的研究熱點(diǎn)。同時(shí)由于通用數(shù)據(jù)挖掘系統(tǒng)在處理特定應(yīng)用問題時(shí)有其局限性,因此,目前的一種趨勢是開發(fā)針對特定應(yīng)用的數(shù)據(jù)挖掘系統(tǒng)。
7、數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語言或有關(guān)方面的標(biāo)準(zhǔn)化工作將有助于數(shù)據(jù)挖掘系統(tǒng)的研究和開發(fā),有利于用戶學(xué)習(xí)和使用數(shù)據(jù)挖掘系統(tǒng)。研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會(huì)像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化。
8、可視化數(shù)據(jù)挖掘??梢暬瘮?shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的有效途徑。目前數(shù)據(jù)挖掘的可視化僅體現(xiàn)在結(jié)果的簡單描述,而數(shù)據(jù)可視化、挖掘過程和結(jié)果可視化,將揭開數(shù)據(jù)挖掘神秘的面紗,使其變得更為生動(dòng)、形象和具體。數(shù)據(jù)和結(jié)果的圖形展示可以放大、縮小、平移、旋轉(zhuǎn)和變換角度,使分析人員和用戶更加容易理解,將大大推動(dòng)數(shù)據(jù)挖掘工具在發(fā)現(xiàn)知識(shí)和數(shù)據(jù)分析中的應(yīng)用。
總之,數(shù)據(jù)挖掘的可視化具有重要的理論意義和應(yīng)用價(jià)值。隨著計(jì)算機(jī)計(jì)算能力的發(fā)展和業(yè)務(wù)復(fù)雜性的提高,數(shù)據(jù)的類型會(huì)越來越多、越來越復(fù)雜,數(shù)據(jù)挖掘?qū)l(fā)揮出越來越大的作用。
作者簡介:
崔永君,男,碩士,遼寧開原人,講師,計(jì)算機(jī)網(wǎng)絡(luò)研究方向。