卓廣平
摘要:數(shù)據(jù)挖掘在當(dāng)今的數(shù)字時(shí)代、網(wǎng)絡(luò)時(shí)代以及大數(shù)據(jù)時(shí)代發(fā)展尤為迅猛,屬于多學(xué)科、多領(lǐng)域的交叉學(xué)科,它在較短的時(shí)間內(nèi)取得了令人矚目的研究成果,并在社會(huì)的各個(gè)領(lǐng)域獲得應(yīng)用,表現(xiàn)了出巨大的優(yōu)勢(shì)和潛能。本文對(duì)數(shù)據(jù)挖掘的過(guò)程和數(shù)據(jù)挖掘技術(shù)進(jìn)行了較為詳細(xì)的介紹,并探討了其應(yīng)用領(lǐng)域和前景,旨在為數(shù)據(jù)挖掘理論與實(shí)踐提供一些借鑒和新的思路。
關(guān)鍵詞:數(shù)據(jù)挖掘;大數(shù)據(jù);網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2015.05.017
0 引言
數(shù)據(jù)挖掘是從大量的(或海量的)、不完全的、模糊的、有噪聲的以及具有隨性的數(shù)據(jù)中,對(duì)隱含的、具有潛在作用和有意義(有時(shí)稱作有趣的)知識(shí)進(jìn)行提取的過(guò)程。其主要任務(wù)是從數(shù)據(jù)集中發(fā)現(xiàn)模式。通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)的模式形式可以多樣,根據(jù)功能可分為預(yù)測(cè)性模式和描述性模式兩種。在實(shí)際運(yùn)用中,則可根據(jù)其實(shí)際作用劃分為分類(lèi)模式、預(yù)測(cè)模式、相關(guān)性分析模式、序列模式、聚類(lèi)模式以及數(shù)據(jù)可視化等。數(shù)據(jù)挖掘涉及多種學(xué)科、技術(shù)和領(lǐng)域,因此也會(huì)有一些不同的挖掘方法和實(shí)現(xiàn)。根據(jù)挖掘?qū)ο蟮牟煌?,可分為關(guān)系數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、時(shí)態(tài)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)Web等的挖掘技術(shù);根據(jù)挖掘任務(wù)的不同,可將其分為分類(lèi)或預(yù)測(cè)模型發(fā)現(xiàn)、聚類(lèi)、關(guān)聯(lián)規(guī)則發(fā)掘、數(shù)據(jù)匯總、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等;同時(shí)還可以根據(jù)挖掘方法進(jìn)行劃分,大致分為統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)方法、數(shù)據(jù)庫(kù)方法和神經(jīng)網(wǎng)絡(luò)方法等。
1 數(shù)據(jù)挖掘過(guò)程
首先,目標(biāo)定義與數(shù)據(jù)準(zhǔn)備。目標(biāo)定義即是定義出明確的數(shù)據(jù)挖掘目標(biāo),數(shù)據(jù)挖掘的成敗受到目標(biāo)定義是否適度的影響,因此在目標(biāo)定義的過(guò)程中技術(shù)人員需要具備豐富的數(shù)據(jù)挖掘經(jīng)驗(yàn),并與相關(guān)專家、最終用戶實(shí)現(xiàn)緊密協(xié)作來(lái)實(shí)現(xiàn),在明確實(shí)際工作的數(shù)據(jù)挖掘要求的同時(shí),進(jìn)行各種學(xué)習(xí)算法的對(duì)比,最終確定有效科學(xué)的算法。整個(gè)數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)準(zhǔn)備占有最大的比例,約60%左右。數(shù)據(jù)準(zhǔn)備階段具體過(guò)程分為三步,即數(shù)據(jù)選擇,數(shù)據(jù)預(yù)處理和數(shù)據(jù)變換。(1)數(shù)據(jù)選擇(DataSeleetion):數(shù)據(jù)選擇即是從已有的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行相關(guān)數(shù)據(jù)的提取,并形成目標(biāo)數(shù)據(jù)(TargetData)。(2)數(shù)據(jù)預(yù)處理(DataProcessing):對(duì)參與提取的數(shù)據(jù)進(jìn)行處理,從而使數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求。(3)數(shù)據(jù)變換(Data Transformation):數(shù)據(jù)變換的目的主要在于使數(shù)據(jù)維數(shù)得到精簡(jiǎn),進(jìn)而從數(shù)據(jù)初始特征中找出真正有用的特征,減小數(shù)據(jù)挖掘過(guò)程中需要考慮的變量個(gè)數(shù)與特征。
其次,數(shù)據(jù)挖掘。數(shù)據(jù)挖掘階段屬于實(shí)際的挖掘工作過(guò)程,首先需要進(jìn)行算法的規(guī)劃,決定所要采用的數(shù)據(jù)挖掘方法,然后在挖掘方法的基礎(chǔ)上選擇一種算法,待完成上述準(zhǔn)備工作后,對(duì)數(shù)據(jù)挖掘算法模塊予以運(yùn)行。數(shù)據(jù)挖掘階段是相關(guān)領(lǐng)域?qū)<?、?shù)據(jù)挖掘分析者最關(guān)心的階段,能夠在真正意義上稱之為數(shù)據(jù)挖掘。
最后,解釋與評(píng)估。分析所提取的信息是根據(jù)最終用戶的決策目的所進(jìn)行的,目的在于將最有價(jià)值的信息提取出來(lái)。在數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,還需要采用機(jī)器或者經(jīng)過(guò)用戶的評(píng)估,其刪除冗余或者無(wú)關(guān)的模式,而對(duì)于那些無(wú)法滿足用戶要求的模式,應(yīng)退回上一階段,重新發(fā)現(xiàn)模式。應(yīng)注意的是,數(shù)據(jù)挖掘所面對(duì)的最終用戶是人,所以需要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或者將結(jié)果進(jìn)行轉(zhuǎn)換,使用戶能夠明白。
2 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā)
計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的開(kāi)發(fā),一開(kāi)始就已經(jīng)將數(shù)據(jù)挖掘定位成了以決策服務(wù)為導(dǎo)向的,以及應(yīng)用型的,正是數(shù)據(jù)挖掘的出現(xiàn),使得決策者的知識(shí)儲(chǔ)備要求獲得了極大的降低,并且對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行研究的企業(yè)也越來(lái)越多。
2.1 傳統(tǒng)統(tǒng)計(jì)法
傳統(tǒng)統(tǒng)計(jì)方法主要包括了三種,即抽樣、多元統(tǒng)計(jì)分析和統(tǒng)計(jì)預(yù)測(cè)。抽樣指的是,在海量的數(shù)據(jù)當(dāng)中,為了免于對(duì)所有的數(shù)據(jù)進(jìn)行分析進(jìn)而采用的合理抽樣。多元統(tǒng)計(jì)分析則是進(jìn)行的因子分析,或者對(duì)具有復(fù)雜結(jié)構(gòu)、較高維數(shù)的數(shù)據(jù)進(jìn)行的分析。統(tǒng)計(jì)預(yù)測(cè)則是指回歸分析、序列分析等。
2.2 遺傳算法
遺傳算法是一種設(shè)計(jì)方法的優(yōu)化技術(shù),是基于進(jìn)化理論,并采用遺傳變異、遺傳結(jié)合和自然選擇等實(shí)現(xiàn)的。其主要思想為“按照適者生存的原則,在最適合的規(guī)則下由當(dāng)前群體組成新的群體,并形成這些規(guī)則的后代?!边@些規(guī)則的適合度在度典型情況下,采用其對(duì)訓(xùn)練樣本集分類(lèi)的準(zhǔn)確率進(jìn)行評(píng)估。
2.3 決策樹(shù)法
一系列規(guī)則的劃分為基礎(chǔ)建立的樹(shù)狀圖,能夠用于各種分類(lèi)與預(yù)測(cè)。其算法具體包括有C4.5、ID3、CHAID和CART等等;如今又出現(xiàn)了新的算法,如SLIQ和SPRINT,新算法能夠由非常大的訓(xùn)練集歸納決策樹(shù),并對(duì)分類(lèi)屬性和連續(xù)性屬性進(jìn)行處理。
2.4 神經(jīng)網(wǎng)絡(luò)
一個(gè)神經(jīng)網(wǎng)絡(luò)從結(jié)構(gòu)上可劃分為輸入層、輸出層和隱含層。在輸入層中,各個(gè)節(jié)點(diǎn)都對(duì)應(yīng)了一個(gè)相應(yīng)的預(yù)測(cè)變量;而輸出層節(jié)點(diǎn)則對(duì)應(yīng)多個(gè)目標(biāo)變量。隱含層位于輸入層與輸出層之間,其層數(shù)和每層節(jié)點(diǎn)的個(gè)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度。神經(jīng)網(wǎng)絡(luò)每個(gè)節(jié)點(diǎn)除了連接輸入層的節(jié)點(diǎn),同時(shí)也與它前面很多節(jié)點(diǎn)向連接,并且各個(gè)連接均對(duì)應(yīng)權(quán)重Wxy,而該節(jié)點(diǎn)的值,則是通過(guò)其所有輸入節(jié)點(diǎn)的值與對(duì)應(yīng)權(quán)重乘積的和作為函數(shù)輸入得到的,這個(gè)函數(shù)被稱為擠壓函數(shù)或者活動(dòng)函數(shù)。
2.5 聯(lián)機(jī)分析
聯(lián)機(jī)分析是一種進(jìn)行多維數(shù)據(jù)分析的方法,需要通過(guò)聯(lián)機(jī)來(lái)實(shí)現(xiàn)。用戶需要積極配合聯(lián)機(jī)分析,主動(dòng)提出分析要求,篩選分析算法,并對(duì)數(shù)據(jù)進(jìn)行由淺入深的探索性分析。
2.6 可視化技術(shù)
由于數(shù)據(jù)特征有時(shí)并不明顯,為了解決這個(gè)問(wèn)題便于用戶理解,可采用圖標(biāo)等方式來(lái)對(duì)數(shù)據(jù)的特征進(jìn)行表述,使數(shù)據(jù)更加直觀明了,如散點(diǎn)圖、餅圖、柱狀圖等可視化方法等,但是高維數(shù)據(jù)的可視化在目前還存在較大的困難。
3 計(jì)算機(jī)挖掘技術(shù)的應(yīng)用
3.1 科學(xué)研究領(lǐng)域的應(yīng)用
在科學(xué)研究中,需要對(duì)來(lái)自各種實(shí)驗(yàn)、觀測(cè)的大量數(shù)據(jù)進(jìn)行分析,而傳統(tǒng)的數(shù)據(jù)分析工具已經(jīng)無(wú)法滿足現(xiàn)在的數(shù)據(jù)分析需求,為此具有強(qiáng)大功能的智能化自動(dòng)分析工具也就要求迫切,而這種需求也推動(dòng)了數(shù)據(jù)挖掘技術(shù)在該領(lǐng)域的應(yīng)用與發(fā)展。如SKICAT(由加州理工學(xué)院開(kāi)發(fā))數(shù)據(jù)挖掘技術(shù)就幫助天文學(xué)家發(fā)現(xiàn)了16個(gè)新的類(lèi)星體;而在生物醫(yī)學(xué)研究中,也通過(guò)數(shù)據(jù)挖掘的序列模式分析和相似檢索技術(shù)對(duì)DNA數(shù)據(jù)進(jìn)行了DNA序列間相似檢索和比較;同時(shí)還利用路徑分析發(fā)現(xiàn)了疾病不同階段的致病基因等等。
3.2 金融行業(yè)風(fēng)險(xiǎn)分析、欺詐甄別
金融企業(yè)具有一定的風(fēng)險(xiǎn)性,為此投資風(fēng)險(xiǎn)評(píng)估是最為重要的一項(xiàng)工作,只有這樣,才能夠最大限度的降低風(fēng)險(xiǎn),獲得經(jīng)濟(jì)效益。為此,金融企業(yè)就通過(guò)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)投資項(xiàng)目進(jìn)行評(píng)估預(yù)測(cè),并協(xié)助進(jìn)行風(fēng)險(xiǎn)評(píng)估,做出資產(chǎn)評(píng)價(jià)、資源計(jì)劃、財(cái)務(wù)計(jì)劃與競(jìng)爭(zhēng)策略等等。同時(shí)還能夠?qū)︺y行、保險(xiǎn)客戶的要求以及信譽(yù)進(jìn)行有效的分析,識(shí)別諸如惡性透支等欺詐行為,減少經(jīng)濟(jì)損失。在這方面應(yīng)用較為成功的有FATS系統(tǒng)與FALCON系統(tǒng),F(xiàn)ATS系統(tǒng)使用一般的政府?dāng)?shù)據(jù)單,是一種用于識(shí)別與洗錢(qián)有關(guān)的金融交易的系統(tǒng);而FALCON系統(tǒng)則是信用卡欺詐估測(cè)系統(tǒng),由HNC公司開(kāi)發(fā),現(xiàn)已在一些零售銀行中應(yīng)用用于探測(cè)可疑的信用卡交易。
3.3 教育領(lǐng)域的應(yīng)用
首先,學(xué)生學(xué)習(xí)的應(yīng)用。學(xué)校通常會(huì)對(duì)學(xué)生組織月考、期末考等多種考試,并對(duì)學(xué)生的成績(jī)進(jìn)行統(tǒng)計(jì),所以學(xué)校可利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)通過(guò)學(xué)生月考的成績(jī)來(lái)對(duì)徐而生期末大概的考核成績(jī)進(jìn)行預(yù)測(cè),這樣教師就能夠根據(jù)預(yù)測(cè)的結(jié)果在期末考試前對(duì)學(xué)生進(jìn)行針對(duì)性的輔導(dǎo),提醒學(xué)生重點(diǎn)復(fù)習(xí)的內(nèi)容。通過(guò)這種預(yù)測(cè),既能夠掌握學(xué)生的學(xué)習(xí)情況,同時(shí)也使學(xué)習(xí)與復(fù)習(xí)更加具有針對(duì)性。同時(shí),學(xué)校和教師可充分利用計(jì)算機(jī)挖掘技術(shù)的對(duì)大量的數(shù)據(jù)整合的功能,將相關(guān)學(xué)習(xí)資料經(jīng)篩選整合后在校園網(wǎng)上發(fā)布,在為學(xué)生提供方便的資料查找的同時(shí),也能夠?qū)崿F(xiàn)學(xué)校教育方式的與時(shí)俱進(jìn),與新信息技術(shù)相結(jié)合,提高了教學(xué)質(zhì)量。大學(xué)校園還利用數(shù)據(jù)挖掘技術(shù)的調(diào)節(jié)功能來(lái)調(diào)節(jié)學(xué)生選課情況。此外,學(xué)校可將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)用于學(xué)校的管理,如食堂整理食堂倉(cāng)庫(kù)的數(shù)據(jù)等,進(jìn)而及時(shí)的補(bǔ)給短缺的食材、保障營(yíng)養(yǎng)均衡,并最大的限度下滿足學(xué)生飲食習(xí)慣。
3.4 電子商務(wù)的應(yīng)用
電子商務(wù)的重點(diǎn)在于網(wǎng)站瀏覽量、點(diǎn)擊率以及客戶成交單子的數(shù)量。而這三個(gè)問(wèn)題也是電子商務(wù)午企業(yè)需要解決的核心問(wèn)題。因此,電子商務(wù)企業(yè)可利用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)用戶的一系列情況進(jìn)行數(shù)據(jù)整合與分析,包括客戶網(wǎng)頁(yè)瀏覽時(shí)物品收藏情況、成交記錄情況等,進(jìn)而為用戶進(jìn)行物品的推薦。通過(guò)這種數(shù)據(jù)分析來(lái)進(jìn)行物品的推薦,即便客戶沒(méi)有購(gòu)買(mǎi)這些推薦的產(chǎn)品,但也會(huì)極大的增加點(diǎn)擊量與瀏覽量,增加企業(yè)在該行業(yè)的競(jìng)爭(zhēng)力。
3.5 煤礦類(lèi)企業(yè)的應(yīng)用
煤礦企業(yè)通常都需要對(duì)地下資源進(jìn)行科學(xué)合理的挖掘,但在實(shí)際生產(chǎn)過(guò)程中,很多問(wèn)題都不僅僅是依靠工作人員自身力量就能夠解決的,為此煤礦類(lèi)企業(yè)工作人員就需要利用數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行相應(yīng)的勘測(cè),對(duì)獲得數(shù)據(jù)進(jìn)行整合分析并為后續(xù)生產(chǎn)提供依據(jù),對(duì)自然資源進(jìn)行科學(xué)合理的利用。同時(shí)煤礦企業(yè)通過(guò)計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的應(yīng)用還能夠?qū)ζ髽I(yè)的后期發(fā)展進(jìn)行合理的預(yù)測(cè),即在利用新型媒體技術(shù)基礎(chǔ)上,對(duì)煤礦企業(yè)經(jīng)營(yíng)的過(guò)程的數(shù)據(jù)進(jìn)行保存,實(shí)現(xiàn)對(duì)后期經(jīng)營(yíng)的合理判斷。
3.6 軍事領(lǐng)域的應(yīng)用
隨著社會(huì)的信息化發(fā)展,科學(xué)技術(shù)水平的不斷提高,軍事領(lǐng)域不再只關(guān)注以往的焦點(diǎn),也注重了新興媒體技術(shù)的利用,來(lái)對(duì)所需的數(shù)據(jù)進(jìn)行收集、分析和整理。通過(guò)數(shù)據(jù)挖掘在掌握本國(guó)軍事實(shí)力的同時(shí),對(duì)外國(guó)敵對(duì)勢(shì)力的部分情況視線里有效的監(jiān)管。在高科技利用下,實(shí)現(xiàn)對(duì)于敵對(duì)勢(shì)力的經(jīng)濟(jì)、政治和軍事上一定程度的總體的把握,進(jìn)而掌握主動(dòng)權(quán),為取得可能發(fā)生戰(zhàn)爭(zhēng)的勝利奠定基礎(chǔ)。通過(guò)數(shù)據(jù)挖掘技術(shù)的應(yīng)用人們對(duì)軍事的理解也從傳統(tǒng)層面上升到新的高度,在對(duì)敵對(duì)的勢(shì)力進(jìn)行精準(zhǔn)數(shù)據(jù)分析的前提下,做出針對(duì)性、科學(xué)性的準(zhǔn)備與部署。數(shù)據(jù)挖掘技術(shù)在軍事領(lǐng)域的應(yīng)用,既需要高能力的計(jì)算機(jī)人才,也更是需要具備國(guó)家榮譽(yù)感的人士,只有在清楚把握住敵人情況下,才能做出正確的作戰(zhàn)方式,由此計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在軍事領(lǐng)域中的作用最不容忽視。
此外,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)中的應(yīng)用主要有兩個(gè)方面:一是研制新的更好的索引系統(tǒng),二是利用已有索引(搜索)系統(tǒng)開(kāi)發(fā)更高層次的發(fā)現(xiàn)(搜索)系統(tǒng)。
4 結(jié)束語(yǔ)
利用計(jì)算機(jī)進(jìn)行數(shù)據(jù)挖掘技術(shù)已經(jīng)在人們的社會(huì)生產(chǎn)、生活中以及不同領(lǐng)域中發(fā)揮著巨大的作用,包括太空領(lǐng)域、氣象領(lǐng)域、教育領(lǐng)域、電子商務(wù)、企業(yè)生產(chǎn)、金融領(lǐng)域、醫(yī)學(xué)領(lǐng)域、生物領(lǐng)域和軍事領(lǐng)域等。為此深入對(duì)數(shù)據(jù)挖掘技術(shù)的理論研究和技術(shù)開(kāi)發(fā),倍加重視以應(yīng)用帶動(dòng)理論和技術(shù)創(chuàng)新,才能使之更好的為國(guó)家和社會(huì)服務(wù),提高我國(guó)的綜合國(guó)力。