左榮國(guó)
近幾年來(lái),隨著信息技術(shù)的飛速發(fā)展,計(jì)算機(jī)領(lǐng)域積累了大量的數(shù)據(jù)。從元數(shù)據(jù)的角度考慮,這些數(shù)據(jù)僅僅是數(shù)據(jù),數(shù)據(jù)產(chǎn)生后,后續(xù)對(duì)元數(shù)據(jù)的再次利用卻很少。長(zhǎng)此下去,這些數(shù)據(jù)慢慢就會(huì)變成沒(méi)有用的垃圾數(shù)據(jù)。人們?cè)絹?lái)越認(rèn)識(shí)到這個(gè)問(wèn)題的嚴(yán)重性,由此逐漸產(chǎn)生了知識(shí)發(fā)現(xiàn)技術(shù),也就是數(shù)據(jù)挖掘的前身。知識(shí)發(fā)現(xiàn)源自于人工智能的機(jī)器學(xué)習(xí)領(lǐng)域,其實(shí)質(zhì)是在一個(gè)已知狀態(tài)的數(shù)據(jù)集上,通過(guò)設(shè)定一定的學(xué)習(xí)算法,從數(shù)據(jù)集中獲取所謂的知識(shí)。而與此同時(shí)數(shù)據(jù)庫(kù)技術(shù)也已經(jīng)發(fā)展到一定的階段,并得到了廣泛應(yīng)用,各個(gè)企業(yè)都已經(jīng)積累了無(wú)數(shù)的數(shù)據(jù)資源,迫切需要有一種技術(shù)能夠幫助他們從數(shù)據(jù)中發(fā)掘出其內(nèi)在的規(guī)律。數(shù)據(jù)挖掘技術(shù)正好能滿(mǎn)足這一需求,它實(shí)質(zhì)上就是知識(shí)發(fā)現(xiàn)技術(shù)在數(shù)據(jù)庫(kù)領(lǐng)域中的應(yīng)用,其主要應(yīng)用領(lǐng)域涵蓋了商務(wù)管理、生產(chǎn)管理、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。因此,可以說(shuō)數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)到知識(shí)的過(guò)程。
談到學(xué)習(xí)數(shù)據(jù)挖掘,《數(shù)據(jù)挖掘:概念與技術(shù)》就是一本全面而深入地介紹數(shù)據(jù)挖掘?qū)嵱眉夹g(shù)的經(jīng)典教材。本書(shū)作者美籍華人韓家煒教授有著豐富的理論和實(shí)際經(jīng)驗(yàn)。在本書(shū)中,他從數(shù)據(jù)庫(kù)的角度針對(duì)數(shù)據(jù)挖掘是什么、數(shù)據(jù)挖掘能解決什么問(wèn)題、數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題和數(shù)據(jù)挖掘涉及的相關(guān)技術(shù)等問(wèn)題做了深入的分析,由淺入深地把讀者引入數(shù)據(jù)挖掘這個(gè)未知領(lǐng)域。
首先,數(shù)據(jù)挖掘是什么。書(shū)中指出,數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或挖掘知識(shí)的過(guò)程。用通俗的語(yǔ)言說(shuō),數(shù)據(jù)挖掘就像淘金者從石頭或沙子中尋找金子的過(guò)程。另外一個(gè)非常重要的,同時(shí)也在本書(shū)中進(jìn)行了詳細(xì)說(shuō)明的是,數(shù)據(jù)挖掘的對(duì)象(也就是大量數(shù)據(jù))在什么地方?書(shū)中指出,數(shù)據(jù)挖掘主要針對(duì)關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、高級(jí)數(shù)據(jù)庫(kù)等。對(duì)于數(shù)據(jù)庫(kù)開(kāi)發(fā)人員,這些都是已經(jīng)比較熟悉的領(lǐng)域了。而本書(shū)中的數(shù)據(jù)挖掘主要針對(duì)的是數(shù)據(jù)庫(kù)系統(tǒng)。
其次,數(shù)據(jù)挖掘能解決什么問(wèn)題。挖掘來(lái)的數(shù)據(jù)是用來(lái)解決企業(yè)中的問(wèn)題的,否則挖掘就沒(méi)有任何意義了。書(shū)中指出,數(shù)據(jù)挖掘可以被用來(lái)進(jìn)行市場(chǎng)分析和管理、風(fēng)險(xiǎn)分析和管理、缺陷分析和管理等。具體來(lái)講,比如對(duì)大學(xué)里的學(xué)生課程數(shù)據(jù),可以用數(shù)據(jù)挖掘的方式來(lái)獲得學(xué)生姓名、地址、狀態(tài)和相關(guān)課程等信息及其相互關(guān)系。
再次,數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題。本書(shū)從數(shù)據(jù)挖掘方法和用戶(hù)交互、數(shù)據(jù)挖掘的性能以及不同數(shù)據(jù)庫(kù)類(lèi)型的數(shù)據(jù)挖掘等多角度出發(fā),把數(shù)據(jù)挖掘做了非常透徹的分解,并對(duì)分解后的問(wèn)題逐一解決。
第四方面,數(shù)據(jù)挖掘涉及的技術(shù)。對(duì)于數(shù)據(jù)挖掘涉及的OLAP和數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)簡(jiǎn)化、數(shù)據(jù)挖掘查詢(xún)語(yǔ)言、數(shù)據(jù)庫(kù)支持的數(shù)據(jù)挖掘規(guī)則、數(shù)據(jù)挖掘分類(lèi)和預(yù)測(cè)、數(shù)據(jù)聚合方法、對(duì)多媒體數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)的數(shù)據(jù)庫(kù)挖掘方法等技術(shù),本書(shū)作者都從理論和實(shí)踐的角度作了深入的剖析,讓讀者不僅知其然,而且還知其所以然。
數(shù)據(jù)挖掘是可以由多個(gè)層面來(lái)提供支持的,包括數(shù)據(jù)庫(kù)層面、應(yīng)用程序?qū)用娴取.?dāng)前,包括Oracle、IBM、Sybase和Microsoft等在內(nèi)的多家數(shù)據(jù)庫(kù)提供商都從數(shù)據(jù)庫(kù)層面提供了數(shù)據(jù)挖掘的支持。對(duì)于應(yīng)用層面講,包括SAS、SPSS、COGNOS等軟件在內(nèi)的應(yīng)用程序都對(duì)數(shù)據(jù)挖掘提供了很好的支持。本書(shū)從理論和實(shí)際相結(jié)合的角度出發(fā),在書(shū)中提供了大量的理論、模型、算法和實(shí)際的應(yīng)用例子,包括多維數(shù)據(jù)模型、三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)、數(shù)據(jù)立方體的實(shí)際查詢(xún)例子等。借助本書(shū),讀者可以理論聯(lián)系實(shí)際,把數(shù)據(jù)挖掘的應(yīng)用提高一個(gè)層次。
另外,書(shū)中提供了大量的例子、習(xí)題以及一些基本概念的比較。如數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別、用于數(shù)據(jù)挖掘的OLAP與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)等。所以,即使您對(duì)數(shù)據(jù)庫(kù)比較陌生,也能根據(jù)本書(shū)內(nèi)容的安排,循序漸進(jìn)地領(lǐng)悟到數(shù)據(jù)挖掘的真諦。同時(shí),您可以根據(jù)書(shū)中提供的習(xí)題,檢驗(yàn)自己對(duì)書(shū)中內(nèi)容的理解?!皩?shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”,書(shū)中提供的例子在實(shí)際開(kāi)發(fā)應(yīng)用中都會(huì)用到,讓您不會(huì)為了讀書(shū)而讀書(shū)。
總之,該書(shū)圖文并茂,理論聯(lián)系實(shí)際,非常適合從事數(shù)據(jù)挖掘研究和應(yīng)用開(kāi)發(fā)工作的相關(guān)人員參考書(shū),也特別適合作為高年級(jí)本科生和研究生的專(zhuān)業(yè)課教材。