遼寧 劉旭
數(shù)據(jù)挖掘技術(shù)淺析
遼寧 劉旭
在浩瀚的數(shù)據(jù)海洋中,人們常常陷入渴望有效信息而無法入手的尷尬局面,傳統(tǒng)的統(tǒng)計方式雖然可以實現(xiàn)空間數(shù)據(jù)的錄入、修改、統(tǒng)計、查詢等功能,但卻不能很好的發(fā)現(xiàn)隱藏在空間數(shù)據(jù)中的關(guān)系、規(guī)律等信息。這就使得數(shù)據(jù)豐富,而知識貧乏的問題越來越突出。通過數(shù)據(jù)挖掘技術(shù)對原始數(shù)據(jù)進行加工,能夠準確、高效地從數(shù)據(jù)海洋中找到答案獲得價值信息,本文對這一技術(shù)進行探討。
數(shù)據(jù)處理;數(shù)據(jù)挖掘;信息
在過去的幾十年中,計算機硬件得到了穩(wěn)步、快速的發(fā)展,隨著功能強大的計算機、數(shù)據(jù)收集設(shè)備和存儲介質(zhì)的大量供應(yīng),推動了數(shù)據(jù)庫和信息產(chǎn)業(yè)的發(fā)展,使得人類擁有的數(shù)據(jù)量急劇增加,并且正以幾何級數(shù)或指數(shù)級數(shù)增長。如今,如何分析這些海量的數(shù)據(jù)成為了各個領(lǐng)域的巨大挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)采掘、數(shù)據(jù)開采,相近的術(shù)語有KDD(數(shù)據(jù)庫知識發(fā)現(xiàn))、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)、決策支持等。根據(jù)w.J.Frawley和G.P.Shapiro等人的定義,數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。而這些知識是隱含的、事先未知的、潛在的有用信息。它綜合利用了統(tǒng)計學(xué)方法,模糊識別技術(shù),人工智能方法,人工神經(jīng)網(wǎng)絡(luò)技術(shù)等相關(guān)技術(shù),并對各行各業(yè)的生產(chǎn)數(shù)據(jù),管理數(shù)據(jù)和經(jīng)營數(shù)據(jù)進行處理、組織、分析、綜合和解釋,以期從這些數(shù)據(jù)中挖掘并揭示出客觀規(guī)律,反映內(nèi)在聯(lián)系和預(yù)測發(fā)展趨勢的知識。
人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。
決策樹是通過一系列對數(shù)據(jù)進行分類的過程,它從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則。決策樹分類方法采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點進行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點向下的分支,在決策樹的葉節(jié)點得到結(jié)論。所以從決策樹的根到葉節(jié)點的一條路徑就對應(yīng)著一條合取規(guī)則,整棵決策樹就對應(yīng)著一組析取表達式規(guī)則。其優(yōu)點是可將數(shù)據(jù)規(guī)則可視化,構(gòu)造時間段,輸出易于理解,故而多用于只是發(fā)現(xiàn)的系統(tǒng)中。
神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達到處理信息的目的。其優(yōu)點是有很高的抗干擾能力和可對未訓(xùn)練數(shù)據(jù)進行分類,其不足之處是訓(xùn)練時間較長以及可解釋性差。
遺傳算法是于解決最優(yōu)化的搜索算法,是進化算法的一種。進化算法最初是借鑒了進化生物學(xué)中的一些現(xiàn)象而發(fā)展起來的,這些現(xiàn)象包括遺傳、突變、自然選擇以及雜交等。遺傳算法善于解決全局最優(yōu)化的問題。
最典型的類比學(xué)習方法是K一最近鄰方法,它屬于懶散學(xué)習法,相比決策樹等急切學(xué)習法,它具有訓(xùn)練時間短,但分類時間長的特點。K-最近鄰算法可以用于分類和聚類中。類比學(xué)習的思路非常簡單,當預(yù)測未來情況或進行正確分類時,系統(tǒng)尋找與現(xiàn)有情況類似的事例,并選擇最佳的相同的解決方案。
關(guān)聯(lián)規(guī)則挖掘是用以發(fā)現(xiàn)大量數(shù)據(jù)中項集之間相關(guān)聯(lián)系的,關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可以分為兩個方面:頻繁項集的發(fā)現(xiàn)和關(guān)聯(lián)規(guī)則的提取。其中,發(fā)現(xiàn)或識別所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心和基礎(chǔ),也是計算量最大的部分。關(guān)系數(shù)據(jù)庫中關(guān)聯(lián)規(guī)則的挖掘目前有兩種思路:一是,基于傳統(tǒng)關(guān)聯(lián)規(guī)則的思想;二是,直接利用結(jié)構(gòu)化查詢語言SQL來實現(xiàn)。若數(shù)據(jù)集中的屬性都是布爾值,則此數(shù)據(jù)集中挖掘的關(guān)聯(lián)規(guī)則就都是布爾關(guān)聯(lián)規(guī)則。Apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則的典型算法,布爾關(guān)聯(lián)規(guī)則算法又是最典型得一種關(guān)聯(lián)規(guī)則挖掘算法。許多其它關(guān)聯(lián)規(guī)則挖掘算法都基于布爾關(guān)聯(lián)規(guī)則挖掘算法,并且許多其它屬性的數(shù)據(jù)的關(guān)聯(lián)關(guān)系挖掘也都可以轉(zhuǎn)化為布爾關(guān)聯(lián)規(guī)則挖掘算法。
除上述數(shù)據(jù)挖掘方法外還有統(tǒng)計分析、貝葉斯分類、粗糙集等方法,他們之間既相互獨立又相互補充。
數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛地應(yīng)用于金融業(yè)、零售業(yè)、遠程通訊業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)以及體育事業(yè)中,而它在網(wǎng)絡(luò)中的應(yīng)用也正在成為一個熱點。
運用網(wǎng)絡(luò)用法挖掘技術(shù)能夠從服務(wù)器以及瀏覽器端的日志記錄中自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解系統(tǒng)的訪問模式以及用戶的行為模式,從而做出預(yù)測性分析。例如通過評價用戶對某一信息資源瀏覽所花的時間,可以判斷出用戶對資源興趣如何;對日志文件所收集到的域名數(shù)據(jù),根據(jù)國家或類型(.com,.edu,.gov)進行分類分析;應(yīng)用聚類分析來識別用戶的訪問動機和訪問趨勢等。
通過對網(wǎng)站內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息,例如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織;通過對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,有助于開展網(wǎng)站信息推送服務(wù)以及個人信息的定制服務(wù)。
用搜索引擎進行數(shù)據(jù)挖掘的最大特色體現(xiàn)在它所采用的對網(wǎng)頁Links信息的挖掘技術(shù)上。如通過對網(wǎng)頁內(nèi)容挖掘,可以實現(xiàn)對網(wǎng)頁的聚類、分類,實現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;通過用戶所使用的提問式的歷史記錄的分析,可以有效地進行提問擴展,提高用戶的檢索效果(查全率,precision;查準率,recall);運用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)改進關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標引準確度,從而改善檢索效果。上面僅僅列舉了網(wǎng)絡(luò)信息挖掘技術(shù)在這三個方面的應(yīng)用這項技術(shù)的應(yīng)用正變得越來越廣泛,用戶對高品質(zhì)、個性化的信息需求必將推動學(xué)術(shù)界與實業(yè)界的研究開發(fā)工作。
數(shù)據(jù)挖掘技術(shù)為軟件測試數(shù)據(jù)生成和軟件可靠性評估提供了新的思路和方法軟件結(jié)構(gòu)測試數(shù)據(jù)生成一直是困擾軟件測試人員的一個難題。通過手工方式設(shè)計測試數(shù)據(jù)的方法效率低,工作量大,數(shù)據(jù)挖掘中的遺傳算法以其啟發(fā)式的搜索尋優(yōu)方式為軟件結(jié)構(gòu)測試數(shù)據(jù)生成提供了高效的方法。
傳統(tǒng)軟件可靠性模型適用性差,局限了模型的實際應(yīng)用。軟件可靠性評估是一個復(fù)雜的決策過程,正確的決策需要建立在對知識充分掌握的基礎(chǔ)上。數(shù)據(jù)挖掘中的人工神經(jīng)網(wǎng)絡(luò)利用龐大的歷史數(shù)據(jù),通過機器的自學(xué)習能力,智能地分析、生成評估規(guī)則。由于其基于的是歷史數(shù)據(jù),而非模型假設(shè),所以它具有比傳統(tǒng)可靠性模型更好的適用性與通用性。
數(shù)據(jù)挖掘是目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域的前沿研究方向之一,也是當前計算機領(lǐng)域的一大熱點,其研究的重點也逐漸從理論轉(zhuǎn)移到了系統(tǒng)應(yīng)用,隨著技術(shù)的不斷成熟,未來的應(yīng)用領(lǐng)域也會更加廣泛。只有更加深入的研究透了數(shù)據(jù)挖掘相關(guān)的理論,才能使其對未來社會的發(fā)展起到更積極的作用。
[1]趙巖.數(shù)據(jù)挖掘理論與技術(shù)[J].福建電腦,2006,02.
[2]薛慧君.數(shù)據(jù)挖掘技術(shù)及其在電子商務(wù)中的應(yīng)用研究[J].內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2005,04.
[3]張嫻.數(shù)據(jù)挖掘技術(shù)及其在金融領(lǐng)域的應(yīng)用[J].金融教學(xué)與研究,2003,04.
[4]劉慧巍,張雷,翟軍呂.數(shù)據(jù)挖掘中決策樹算法的研究及其改進[J].遼寧師專學(xué)報,2005,7(4):23-24.
[5]吳晨.數(shù)據(jù)挖掘技術(shù)在軟件可靠性測試與評估中的應(yīng)用與研究[D].上海:同濟大學(xué),2008:22-23.
[6]毛弟弟,郝忠孝.關(guān)系數(shù)據(jù)庫中關(guān)聯(lián)規(guī)則挖掘的算法研究[J].哈爾濱理工大學(xué)學(xué)報.2009,4,14,增刊 1:15-17.
(編輯 呂智飛)
(作者單位:遼寧信息職業(yè)技術(shù)學(xué)院)