王萍
摘 要:隨著社會信息化不斷進步發(fā)展,大量的信息充斥在我們的社會中,這就要求我們能從中及時發(fā)現(xiàn)有用的知識,做出正確的分析,從而提高決策的正確性。就是在這樣的背景下深入地分析數(shù)據(jù)挖掘的基本概念、挖掘流程及挖掘技術,討論數(shù)據(jù)挖掘的一些具體應用。
關鍵詞:數(shù)據(jù)挖掘;應用;研究
一 、數(shù)據(jù)挖掘
隨著數(shù)據(jù)庫技術的廣泛使用,以及計算技術和計算機性能與網(wǎng)絡的迅速發(fā)展,人們面臨著一個困難的問題,即如何從海量的數(shù)據(jù)中提取出有價值的信息。查詢功能遠不能滿足人們的需要,數(shù)據(jù)挖掘應運而生。有人將數(shù)據(jù)挖掘定義為一個從數(shù)據(jù)及數(shù)據(jù)庫中抽取隱含的,先前未知的并有潛在價值的信息的過程。但有人認為數(shù)據(jù)挖掘,即數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大數(shù)據(jù)集中快速高效地發(fā)現(xiàn)令人感興趣的規(guī)則,數(shù)據(jù)挖掘是數(shù)據(jù)庫研究的新領域,所挖掘的知識能夠用于信息、管理、查詢處理、決策支持和過程控制等等。
數(shù)據(jù)挖掘(DataMining)是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術,主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示三個步驟。隨著計算機網(wǎng)絡的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要研究的重要
課題。
數(shù)據(jù)挖掘涉及多個學科方向,主要包括:數(shù)據(jù)庫、統(tǒng)計學和人工智能等。數(shù)據(jù)挖掘可按數(shù)據(jù)庫類型、挖掘對象、挖掘任務、挖掘方法與技術以及應用等幾方面進行分類。按數(shù)據(jù)庫類型分類:關系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫的數(shù)據(jù)挖掘類型。按數(shù)據(jù)挖掘對象分類:文本數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。按數(shù)據(jù)挖掘的任務有:關聯(lián)分析、時序模式、聚類、分類、偏差檢測、預測等。按數(shù)據(jù)挖掘方法和技術分類:歸納學習類、仿生物技術類、公式發(fā)現(xiàn)類、統(tǒng)計分析類、模糊數(shù)學類、可視化技術類。
二、數(shù)據(jù)挖掘的主要任務
(一)數(shù)據(jù)總結
數(shù)據(jù)總結目的是對數(shù)據(jù)進行濃縮,給出它的總體綜合描述。通過對數(shù)據(jù)的總結,數(shù)據(jù)挖掘能夠將數(shù)據(jù)庫中的有關數(shù)據(jù)從較低的個體層次抽象總結到較高的總體層次上,從而實現(xiàn)對原始基本數(shù)據(jù)的總體把握。
(二)分類
分類的主要功能是學會一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。即:分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些組。這樣我們就可以利用該模型來分析已有數(shù)據(jù),并預測新數(shù)據(jù)將屬于哪一個組。
(三)關聯(lián)分析
數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關聯(lián)關系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。這種關聯(lián)關系有簡單關聯(lián)和時序關聯(lián)兩種。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng),描述一組數(shù)據(jù)項目的密切度或關系。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)是否存在精確的關聯(lián)函數(shù),,即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有置信度,置信度級別度量了關聯(lián)規(guī)則的強度。
(四)聚類
當要分析的數(shù)據(jù)缺乏描述信息,或者是無法組織成任何分類模式時,可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個集合中的數(shù)據(jù)性質相近,不同集合之間的數(shù)據(jù)性質相差較大。
統(tǒng)計方法中的聚類分析是實現(xiàn)聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。
三、數(shù)據(jù)挖據(jù)的應用
數(shù)據(jù)挖掘技術源于商業(yè)的直接需求,因此它在各種商業(yè)領域都存在廣泛的使用價值?,F(xiàn)在已經(jīng)應用數(shù)據(jù)挖掘技術的領域都是信息量大、環(huán)境復雜、需要知識幫助進行管理和決策的領域。下面介紹一些目前比較活躍的應用方向:
(一)在金融數(shù)據(jù)分析中的應用
多數(shù)銀行和金融機構都提供了豐富多樣的儲蓄,信用,投資,保險等服務。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,這對系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘相當有利。在具體的應用中,采用多維數(shù)據(jù)分析來分析這些數(shù)據(jù)的一般特性,觀察金融市場的變化趨勢;通過特征選擇和屬性相關性計算,識別關鍵因素,進行貸款償付預測和客戶信用分析;利用分類和聚集的方法對用戶群體進行識別和目標市場分析;使用數(shù)據(jù)可視化、鏈接分析、分類、聚類分析、孤立點分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。
(二)在電力業(yè)的應用
在電力行業(yè)中,數(shù)據(jù)挖掘技術主要用于指導設備更新、業(yè)績評估、指導電力企業(yè)的建設規(guī)劃、指導電力的生產(chǎn)和購買、指導電力的調度等。數(shù)據(jù)挖掘在電力企業(yè)的其它方面也有巨大的用處,比如說指導項目管理、安全管理、資源管理、投資組合管理、活動分析、銷售預測、收入預測、需求預測、理賠分析等。
(三)在零售業(yè)中的應用
零售業(yè)是數(shù)據(jù)挖掘的主要應用領域,這是因為零售業(yè)積累了大量的銷售數(shù)據(jù),如顧客購買史記錄、貨物進出、消費與服務記錄以及流行的電子商務等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用交互式詢問技術、分類技術和預測技術,更精確地挑選潛在的顧客;識別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨勢,進行關聯(lián)分析,以便更好地進行貨架擺設;改進服務質量,獲得更好的顧客忠誠度和滿意程度;提高貨品的銷量比率,設計更好的貨品運輸與分銷策略,減少商業(yè)成本;尋找描述性的模式,以便更好地進行市場分析等等。
(四)在醫(yī)學上的應用
近年來,生物醫(yī)學研究有了迅猛地發(fā)展,從新藥的開發(fā)到癌癥治療的突破,到通過大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進行人類基因的識別與研究。在人類基因研究領域具有挑戰(zhàn)性的問題是從中找出導致各種疾病的特定基因序列模式。由于數(shù)據(jù)挖掘中已經(jīng)有許多有意義的序列模式分析和相似檢索技術,因此數(shù)據(jù)挖掘成為DNA分析中的強有力工具?;蛐蛄械南嚓P分析,遺傳研究中的路徑分析等。近期DNA分析的研究成果已經(jīng)促成了對許多疾病和殘疾基因成因的發(fā)現(xiàn),以及對疾病診斷、預防和治療的新藥物、新方法的發(fā)現(xiàn)。
(五)在高校和科研單位以及其他領域的應用
主要是用于海量信息數(shù)據(jù)的抽取,提供給教研和科研人員有價值的數(shù)據(jù)。比如在數(shù)字圖書館方面可以引入數(shù)據(jù)挖掘技術。同時還可以應用的電子商務等等眾多領域。
參考文獻
[1]鄒先霞、王淑禮、魏長華.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術淺談[J].高等函授學報(自然科學版),2000,(03).
[2]樊志平.基于數(shù)據(jù)挖掘技術的企業(yè)信息化建設[J].商場現(xiàn)代化,2008,(06).
[3]孟小峰.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2001.