侯玉香 劉華云
摘要:數(shù)據(jù)挖掘(Data Mining,簡稱DM),簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。該文簡單介紹數(shù)據(jù)挖掘的概念﹑區(qū)別﹑常用技術(shù)﹑方法及發(fā)展趨勢。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù);聚類;決策樹
近十幾年來,隨著科學(xué)技術(shù)飛速的發(fā)展,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,無數(shù)個(gè)數(shù)據(jù)庫被用于商業(yè)管理、科學(xué)研究、政府辦公和工程開發(fā)等。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示強(qiáng)大的生命力。
1 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別
數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出來未知的、有價(jià)值的模式和有規(guī)律等知識(shí)的復(fù)雜過程。
數(shù)據(jù)挖掘與傳統(tǒng)分析方法區(qū)別如下:
1)本質(zhì)區(qū)別為數(shù)據(jù)挖掘是在沒有明確的假設(shè)的前提下,挖掘信息并發(fā)現(xiàn)知識(shí)。
數(shù)據(jù)挖掘所得到的信息應(yīng)該具備先前未知﹑有效性﹑可實(shí)用三個(gè)特征。
2)數(shù)據(jù)挖掘的數(shù)據(jù)源與傳統(tǒng)分析方法相比有了顯著的改變,數(shù)據(jù)是海量的,數(shù)據(jù)是有噪聲,數(shù)據(jù)可能是非結(jié)構(gòu)化的。
3)先前未知的信息指該信息是預(yù)先未曾預(yù)料到的,數(shù)據(jù)挖掘是發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺的信息或知識(shí),挖掘出信息越是出乎意料的,就可能越有價(jià)值.
2 數(shù)據(jù)挖掘中的常用技術(shù)
數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的﹑先前未知的﹑并有潛在價(jià)值的信息的非平凡過程。它是一種決策支持過程,主要基于人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),并做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略并減少風(fēng)險(xiǎn),做出正確的決策。
常見的數(shù)據(jù)挖掘技術(shù)包括如下:
1)統(tǒng)計(jì)分析方法:利用統(tǒng)計(jì)學(xué)和概率論的原理對(duì)關(guān)系中各屬性進(jìn)行統(tǒng)計(jì)分析,從而找出它們之間的關(guān)系和規(guī)律。它是最基本的數(shù)據(jù)挖掘技術(shù)之一。
2)決策樹方法:以樹型結(jié)構(gòu)表示分類或決策集合,產(chǎn)生規(guī)則和發(fā)展規(guī)律,尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一種人工智能和識(shí)別技術(shù),主要用于分類挖掘。
3)神經(jīng)網(wǎng)絡(luò)方法:由大量的簡單經(jīng)元,通過極其豐富和完美的連接構(gòu)成自適應(yīng)非線性動(dòng)態(tài)系統(tǒng),具有分布存儲(chǔ)﹑大規(guī)模并行處理﹑聯(lián)想記憶﹑自學(xué)習(xí)﹑自組織﹑自適應(yīng)等功能。
4)遺傳算法:模擬生物進(jìn)行過程,以達(dá)到優(yōu)化的目的。由交叉﹑繁殖﹑變異三個(gè)基本算子組成,可起產(chǎn)生優(yōu)良后代的作用。經(jīng)過若干代的遺傳,將得到滿足要求的后代。
5)聚類分析:根據(jù)事物的特征,對(duì)其分類或聚類。即所謂物以類聚,以期發(fā)現(xiàn)規(guī)律和典型模式。聚類分析技術(shù)是數(shù)據(jù)挖掘的最重要的技術(shù)之一。
6)粗集方法:在數(shù)據(jù)庫中視行為對(duì)象列為元素,定義等價(jià)關(guān)系R為不同對(duì)象在某個(gè)或幾個(gè)屬性上取值相同,滿足R的對(duì)象組成的集合稱為其等價(jià)類。
7)可視化技術(shù):采用比較直觀的圖形圖表方式將信息模式﹑數(shù)據(jù)關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,廣大擴(kuò)展了數(shù)據(jù)和挖掘結(jié)果的表達(dá)和理解力。
8)最近鄰技術(shù):通過K個(gè)與之最相近的歷史記錄的組合來辨別新記錄。最近鄰技術(shù)可用作聚類﹑偏差分析等挖掘任務(wù)。
3 數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘的實(shí)現(xiàn)方法有兩種:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。
1)直接數(shù)據(jù)挖掘
給出所有已知的因素和輸入變量,便于數(shù)據(jù)挖掘引擎數(shù)據(jù)模型的規(guī)則,找出各個(gè)屬性之間最合理的關(guān)系。直接數(shù)據(jù)挖掘以預(yù)測未知值或目標(biāo)變量為基礎(chǔ),即直接數(shù)據(jù)挖掘是基于已知的輸入變量值預(yù)測未知數(shù)據(jù)的最大可能的取值。
2)間接數(shù)據(jù)挖掘
間接數(shù)據(jù)挖掘不用于預(yù)測,不受目標(biāo)值的限制和約束,它只對(duì)數(shù)據(jù)進(jìn)行整理,發(fā)掘整個(gè)數(shù)據(jù)集合的結(jié)構(gòu)和數(shù)據(jù)組織形式,進(jìn)行理解和應(yīng)用。
例如,通過整理圖書的借閱歷史,可以發(fā)現(xiàn)喜歡讀某類圖書的讀者有哪些共同的特點(diǎn)。
例如,可能會(huì)發(fā)現(xiàn)喜歡讀金庸小說的讀者主要是年輕的男孩子。
采用聚類是對(duì)歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘中常用的一種算法??梢韵忍崛【垲悾倮脹Q策樹算法,對(duì)感興趣的數(shù)據(jù)集合進(jìn)行直接數(shù)據(jù)挖掘。
4 數(shù)據(jù)挖掘的發(fā)展趨勢
數(shù)據(jù)挖掘的任務(wù)和數(shù)據(jù)挖掘方法的多樣化對(duì)數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的研究問題,在將來會(huì)形成更大的高潮。數(shù)據(jù)挖掘發(fā)展趨勢包括新應(yīng)用領(lǐng)域的探索方面所作的進(jìn)一步努力﹑可伸縮和交互方法(包括基于約束的挖掘)的改進(jìn)﹑數(shù)據(jù)挖掘與數(shù)據(jù)倉庫和數(shù)據(jù)庫系統(tǒng)的集成﹑可視化方法和處理復(fù)雜數(shù)據(jù)類型的新方法﹑數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化。
數(shù)據(jù)挖掘的發(fā)展趨勢主要如下:
1)數(shù)據(jù)倉庫日益普及:盡管數(shù)據(jù)挖掘并不一定要有數(shù)據(jù)倉庫的支持,但它仍然經(jīng)常被看成數(shù)據(jù)倉庫的后期產(chǎn)品,因那些努力建立數(shù)據(jù)倉庫的人有最豐富的數(shù)據(jù)資源可供挖掘。
2)Internet 數(shù)據(jù)挖掘:許多供應(yīng)商將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù),以提高Internet 站點(diǎn)和客戶的關(guān)聯(lián)行。如IBM公司發(fā)布Web為中心的數(shù)據(jù)挖掘解決方案SurAid。
3)數(shù)據(jù)挖掘供應(yīng)商更注重縱向市場:數(shù)據(jù)挖掘涉及到對(duì)數(shù)據(jù)內(nèi)在本質(zhì)的理解,因些供應(yīng)商們更注重縱向市場。比如DataMind 公司的重點(diǎn)是電信業(yè)的跳槽。電信業(yè)競爭的不規(guī)范和白熱化已使保持客戶成為一個(gè)備受關(guān)注的熱點(diǎn)問題。
4)EIS工具供應(yīng)商也在集成數(shù)據(jù)挖掘功能:將數(shù)據(jù)挖掘工具﹐查詢及EIS工具集成起來將導(dǎo)致一個(gè)基于發(fā)現(xiàn)的過程。由此發(fā)現(xiàn)過程最終用戶能獲得最有用的東西,進(jìn)而根據(jù)這些新的信息對(duì)有關(guān)問題進(jìn)行更明確的闡述。
5 結(jié)束語
數(shù)據(jù)挖掘是一個(gè)多學(xué)科的交叉領(lǐng)域。不再是數(shù)據(jù)庫的研究者和開發(fā)者關(guān)注的問題,它已經(jīng)成為統(tǒng)計(jì)學(xué)﹑機(jī)器學(xué)習(xí)等諸多領(lǐng)域的研究者和開發(fā)者的熱點(diǎn)課題之一。就連“數(shù)據(jù)挖掘”術(shù)語本身也已經(jīng)成為這些領(lǐng)域的流行詞匯。數(shù)據(jù)挖掘?qū)W科交叉融合引起的良性互動(dòng)無疑會(huì)進(jìn)一步促進(jìn)該學(xué)科的發(fā)展與繁榮。
參考文獻(xiàn)
[1]陳志泊.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M] .北京:清華大學(xué)出版社,2009
[2]胡可云,田鳳占,黃厚寬.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008
[3]劉世平.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:高等教育出版社,2010