劉義
摘要:數(shù)據(jù)挖掘技術(shù)是一種新興技術(shù),由于該技術(shù)在大數(shù)據(jù)的處理方面具有很大的優(yōu)勢,因此許多行業(yè),尤其是像科研、金融、教育等需要分析大量數(shù)據(jù)的領(lǐng)域都紛紛引進(jìn)數(shù)據(jù)挖掘技術(shù)。本文介紹了數(shù)據(jù)挖掘技術(shù)的含義以及方法,并對數(shù)據(jù)挖掘技術(shù)的應(yīng)用做了簡要分析。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);知識發(fā)現(xiàn);計算機(jī)隨著計算機(jī)技術(shù)和信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)走進(jìn)了普通人的生活,人們可以互聯(lián)網(wǎng)上獲得海量的信息,這些海量的信息都被儲存在龐大的數(shù)據(jù)庫中。但是由于技術(shù)手段的限制,真正得到有效利用的信息僅僅是冰山一角,這種情況造成了信息的浪費(fèi),因此需要研究出新的技術(shù)手段來挖掘數(shù)據(jù)庫中有用信息,實(shí)現(xiàn)對數(shù)據(jù)庫信息分析的自動化、智能化,以最快的速度實(shí)現(xiàn)對海量原始數(shù)據(jù)的分析整理。目前,一項(xiàng)新興技術(shù)正方興未艾,即數(shù)據(jù)挖掘技術(shù),該技術(shù)能夠快速分析大量數(shù)據(jù),具有很大優(yōu)勢,目前,基于數(shù)據(jù)挖掘技術(shù)的研究越來越多,其應(yīng)用范圍已經(jīng)擴(kuò)展到電信、金融等行業(yè),未來還具有巨大的發(fā)展?jié)摿Α?/p>
1數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)
1.1 含義
數(shù)據(jù)挖掘就是針對海量數(shù)據(jù)的有效利用而提出來的,由于社會生產(chǎn)生活過程中產(chǎn)生了數(shù)量驚人的數(shù)據(jù),這些數(shù)據(jù)往往是混亂的、無序的。單憑人腦難以高效處理,往往造成大量信息的浪費(fèi)。數(shù)據(jù)挖掘就是要從這些混亂的、無序的、模糊的、隨機(jī)的、不完全的數(shù)據(jù)當(dāng)中找出人們事先不知道但是具有潛在價值的信息和知識。從本質(zhì)上說,數(shù)據(jù)挖掘是一種深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘技術(shù)就是針對數(shù)據(jù)挖掘的要求設(shè)計出來的實(shí)現(xiàn)數(shù)據(jù)挖掘的途徑和方法。隨著計算機(jī)技術(shù)和信息技術(shù)的發(fā)展,再加上人們對數(shù)據(jù)庫研究的日益深入,使得人們對數(shù)據(jù)挖掘有了新的認(rèn)識。人們根據(jù)數(shù)據(jù)挖掘任務(wù)的不同,把數(shù)據(jù)挖掘分為不同的類型,例如分類和預(yù)測模型發(fā)現(xiàn),序列模式發(fā)現(xiàn),數(shù)據(jù)歸類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn),依賴關(guān)系和依賴模型發(fā)現(xiàn)等等[1]。根據(jù)挖掘方法可以認(rèn)為統(tǒng)計學(xué)方法、機(jī)器學(xué)方法、數(shù)據(jù)庫方法以及神經(jīng)網(wǎng)絡(luò)方法。
1.2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘有其自身特有的過程。一般來說,首先需要確定挖掘的對象,即選擇數(shù)據(jù)源。其次就是要盡可能全面地收集數(shù)據(jù)。接下來就需要借助圖表等工具對所收集到的數(shù)據(jù)進(jìn)行直觀化的描述,從而形象地反映出各種數(shù)據(jù)之間的聯(lián)系。第四步需要根據(jù)數(shù)據(jù)情況選擇合適算法,并建立預(yù)言模型。然后還需要對模型進(jìn)行驗(yàn)證,從驗(yàn)證過程中找出模型的不足之處,并且及時加以完善,使模型更加合理實(shí)用。最后就是利用模型指導(dǎo)實(shí)踐了。
2數(shù)據(jù)挖掘技術(shù)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)作為一項(xiàng)新興技術(shù),是時代發(fā)展的產(chǎn)物,順應(yīng)了信息時代的發(fā)展潮流,因此,該技術(shù)自誕生之日起就引起了極大的關(guān)注。由于數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)的處理方面具有很大的優(yōu)勢,因此許多行業(yè),尤其是像科研、金融、教育等需要分析大量數(shù)據(jù)的領(lǐng)域都紛紛引進(jìn)數(shù)據(jù)挖掘技術(shù)。
2.1 數(shù)據(jù)挖掘技術(shù)在科研領(lǐng)域的應(yīng)用
眾所周知,科研是高精尖的行業(yè),對數(shù)據(jù)的處理有非常高的要求,而且,科研過程當(dāng)中經(jīng)常需要處理各種紛繁復(fù)雜的觀察數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)等,隨著科研的不斷發(fā)展,數(shù)據(jù)的數(shù)量已經(jīng)呈現(xiàn)出技術(shù)增長的狀態(tài),傳統(tǒng)的數(shù)據(jù)分析手段已經(jīng)顯現(xiàn)出力不從心的現(xiàn)象,不僅效率低下,而且精確性也難以滿足科研要求。因此,面對海量的科研信息,引進(jìn)數(shù)據(jù)挖掘技術(shù)成為必然選擇。近年來,數(shù)據(jù)挖掘技術(shù)逐漸走進(jìn)了科研領(lǐng)域。例如,實(shí)現(xiàn)加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室開發(fā)的SKICAT就是基于數(shù)據(jù)挖掘技術(shù)而研發(fā)的,該系統(tǒng)已經(jīng)發(fā)揮了作用,它幫助科學(xué)家發(fā)現(xiàn)了16個新的類星體[2]。除此之外,數(shù)據(jù)挖掘技術(shù)也被應(yīng)用到了生物學(xué)領(lǐng)域,例如利用數(shù)據(jù)挖掘中的序列模式來進(jìn)行基因圖譜的繪制工作等。
2.2 數(shù)據(jù)挖掘技術(shù)在金融領(lǐng)域的應(yīng)用
金融領(lǐng)域涉及面廣泛,數(shù)據(jù)量也非常大,雖然銀行和金融機(jī)構(gòu)所產(chǎn)生的數(shù)據(jù)相對來說更加有序和完整,但是金融分析領(lǐng)域的投資評估和股票交易的預(yù)測等具有很大的風(fēng)險性,投資者和決策者在海量的信息面前往往不知所措,多數(shù)情況下是憑借經(jīng)驗(yàn)進(jìn)行判斷的,因此容易導(dǎo)致食失誤。因此金融領(lǐng)域迫切需要通過對海量數(shù)據(jù)進(jìn)行有效分析,為投資者、決策者提供最佳的預(yù)測,數(shù)據(jù)挖掘技術(shù)正好適應(yīng)了這一需求。通過數(shù)據(jù)挖掘技術(shù)就可以從海量的信息當(dāng)中找到各種信息之間的相互關(guān)系,識別各種風(fēng)險,然后對形式作出合理的預(yù)測。目前已經(jīng)存在的系統(tǒng)有HNC公司開發(fā)的FALCON,這是一種信用卡欺詐估測系統(tǒng),目前已被許多的零售銀行用于探測可疑的信用卡交易。
2.3 數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用
隨著教育信息化的發(fā)展,學(xué)校教育在時間和空間上越來越超越傳統(tǒng)的教育,學(xué)生、教師和學(xué)校都面臨著更為繁雜多樣的信息交流,因此如何把海量的教育信息有效整合起來成為教育領(lǐng)域的一種重要命題。數(shù)據(jù)挖掘技術(shù)無疑為人們提供了一條新的思路。例如通過數(shù)據(jù)挖掘技術(shù)把互聯(lián)網(wǎng)中海量的教育資源結(jié)構(gòu)化,從而化解傳統(tǒng)檢索方法的困境。
[參考文獻(xiàn)]
[1]舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].中國西部科技,2010,9(5):38-39.
[2]賴娟.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用分析[J].現(xiàn)代商貿(mào)工業(yè),2009,(14):283-284.