Ｗｅｂ數(shù)據(jù)挖掘技術(shù)綜述

2009-07-16 09:33:54孟叢

新媒體研究 2009年8期

孟　叢

[摘要]Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web信息集合上的應(yīng)用，Web數(shù)據(jù)具有本身的特點(diǎn)，Web數(shù)據(jù)挖掘可以分為三類，各自有其相關(guān)技術(shù)，Web數(shù)據(jù)挖掘技術(shù)有著廣泛的應(yīng)用，而且隨著Internet的不斷發(fā)展，必將有著更加開闊的應(yīng)用前景。

[關(guān)鍵詞]數(shù)據(jù)挖掘內(nèi)容挖掘結(jié)構(gòu)挖掘日志挖掘

中圖分類號：TP3文獻(xiàn)標(biāo)識碼：A文章編號：1671－7597（2009）0420044－01

數(shù)據(jù)挖掘（Data Mining，DM）是近年來發(fā)展迅速的知識發(fā)現(xiàn)的一個重要步驟，在科學(xué)研究和社會應(yīng)用領(lǐng)域都得到了廣泛的應(yīng)用。目前數(shù)據(jù)挖掘沒有一個完全公認(rèn)的定義，一般認(rèn)為：數(shù)據(jù)挖掘是運(yùn)用計算機(jī)及信息技術(shù)，從大量的、不完全的數(shù)據(jù)集中獲取隱含在其中的有用知識的高級過程。Web數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘發(fā)展而來，是數(shù)據(jù)挖掘技術(shù)在Web技術(shù)中的應(yīng)用。Web數(shù)據(jù)挖掘是一項綜合技術(shù)，通過從Internet上的資源中抽取信息來提高Web技術(shù)的利用效率，也就是從Web文檔結(jié)構(gòu)和試用的集合中發(fā)現(xiàn)隱含的模式[1]。

一、Web數(shù)據(jù)挖掘的特點(diǎn)

傳統(tǒng)的數(shù)據(jù)挖掘是以數(shù)據(jù)庫為基礎(chǔ)，對結(jié)構(gòu)化的數(shù)據(jù)源進(jìn)行信息的加工、分析和模式挖掘。從理論上講，數(shù)據(jù)挖掘的各種理論和技術(shù)都可以直接或間接地應(yīng)用于Web數(shù)據(jù)挖掘，然而由于Web的自身特點(diǎn)，使得Web數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘有很大的不同[2]。

（一）分布式數(shù)據(jù)。相關(guān)主題的信息雜亂地散布在Web站點(diǎn)上的多個目錄下，這樣就需要有一個強(qiáng)大的搜索引擎，通過查找關(guān)鍵字，來定位超文本的位置。

（二）Web上數(shù)據(jù)特點(diǎn)。特點(diǎn)一是動態(tài)性，Internet本身就是一個時刻在動態(tài)更新和變化的系統(tǒng)，需要借鑒數(shù)據(jù)倉庫的技術(shù)，以此保存Web上動態(tài)更新的數(shù)據(jù)；特點(diǎn)二是多樣性， Web數(shù)據(jù)經(jīng)過過濾后，既有數(shù)值型，又有分類數(shù)據(jù)、性質(zhì)描述數(shù)據(jù)以及Web特有的數(shù)據(jù)類型；特點(diǎn)三是數(shù)據(jù)源之間可能存在冗余、不一致甚至矛盾。

（三）用戶目標(biāo)的模糊性。Web挖掘用戶對挖掘的主題提不出明確的目標(biāo)，因此需要數(shù)據(jù)挖掘系統(tǒng)具有一定的智能性和學(xué)習(xí)機(jī)制，不斷地跟蹤用戶的興趣，直至獲得所需的結(jié)果。

（四）異構(gòu)數(shù)據(jù)庫環(huán)境。數(shù)據(jù)庫本身、運(yùn)行環(huán)境和非結(jié)構(gòu)化的數(shù)據(jù)都存在差異。Web上的每一個站點(diǎn)就是一個數(shù)據(jù)源，每個數(shù)據(jù)源都是異構(gòu)的，因而每一站點(diǎn)之間的信息和組織都不一樣，構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。

（五）半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。Web上的數(shù)據(jù)大多是HTML格式，數(shù)據(jù)復(fù)雜，沒有特定的模型描述，因此是半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的主要特點(diǎn)。

二、Web數(shù)據(jù)挖掘的分類及技術(shù)現(xiàn)狀

Web上信息的多樣性決定了Web挖掘任務(wù)的多樣性，按照處理對象的不同我們將Web挖掘分為三大類[3]。

（一）Web內(nèi)容挖掘。Web內(nèi)容挖掘是指對Web頁面內(nèi)容進(jìn)行挖掘，從Web文檔的內(nèi)容信息中抽取知識。它分為Web文本挖掘和Web多媒體挖掘，針對的對象分別是Web文本信息和Web多媒體信息。Web內(nèi)容挖掘的重點(diǎn)是頁面分類和聚類。Web頁面的分類是根據(jù)頁面的不同特征，將其劃歸為事先建立起來的不同的類。Web頁面的聚類是指在沒有給定主題類別的情況下，將Web頁面集合聚成若干個簇，并且同一簇的頁面內(nèi)容相似性盡可能大，而簇間相似度盡可能小。

（二）Web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是指對Web頁面之間的超鏈結(jié)構(gòu)，Web頁面內(nèi)部結(jié)構(gòu)和URL中的目錄路徑結(jié)構(gòu)進(jìn)行挖掘，從中抽取知識。Web在邏輯上可以用有向圖表示出來，頁面對應(yīng)圖中的點(diǎn)，超級鏈接對應(yīng)圖中的邊。超鏈也體現(xiàn)了Web頁面之間的某種關(guān)系，WebKB就是通過對超級鏈接的分類來辨別instructor-of， members-of-department等關(guān)系實例。PageRa

-nk方法則是通過分析頁面的引用次數(shù)和引用關(guān)系來發(fā)現(xiàn)重要頁面。Spertus對Web頁面的內(nèi)部結(jié)構(gòu)和URL做了研究并提出一些啟發(fā)式規(guī)則，用于收索新頁面和自動索引。

（三）Web日志挖掘。個人瀏覽Web服務(wù)器時，服務(wù)器方會產(chǎn)生三種類型日志文件：Server Logs，Error Logs，Cookie Logs，記錄了關(guān)于用戶訪問和交互的信息。Web日志挖掘正是對這三種日志文件進(jìn)行挖掘，從而發(fā)現(xiàn)用戶的訪問模式、相似用戶群體、頻繁路徑等知識[4]。

Web日志挖掘方法可分為基于Web事物的方法和基于數(shù)據(jù)立方的方法。前者是將用戶會話劃分成事物序列，然后采用數(shù)據(jù)挖掘的方法挖掘頻繁路徑等知識，后者則將Web日志組織成數(shù)據(jù)立方用于數(shù)據(jù)挖掘和OLAP，WAP2Mine采用的是第一種方法。

三、Web數(shù)據(jù)挖掘的應(yīng)用

數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于金融業(yè)、零售業(yè)、遠(yuǎn)程通信業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)和體育等行業(yè)中，而它在網(wǎng)絡(luò)中的應(yīng)用（即Web挖掘）已經(jīng)成為當(dāng)今國際學(xué)術(shù)界的研究熱點(diǎn)，并開始在許多行業(yè)得到應(yīng)用。

Web數(shù)據(jù)挖掘的典型應(yīng)用領(lǐng)域是在搜索引擎中的應(yīng)用，通過引入Web挖掘技術(shù)可以提高搜索引擎的查詢速度、關(guān)鍵詞匹配的相關(guān)度以及網(wǎng)頁的權(quán)重，改善檢索效果。

另一個典型應(yīng)用是網(wǎng)站設(shè)計，通過對網(wǎng)站內(nèi)容的Web挖掘可以有效地組織網(wǎng)站信息，如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織；以結(jié)合對用戶訪問日志記錄信息的挖掘，把握用戶的興趣，有助于開展網(wǎng)站信息推送服務(wù)以及個人信息的定制服務(wù)。

在電子商務(wù)中的應(yīng)用也是一個成功的范例，通過對客戶訪問日志數(shù)據(jù)應(yīng)用神經(jīng)元網(wǎng)絡(luò)、模型化算法和其它信息處

理技術(shù)，進(jìn)行分析加工，可獲得商家用于向特定消費(fèi)群體或個體進(jìn)行定向營銷的決策信息。

四、結(jié)語

Web數(shù)據(jù)挖掘是把Internet、WWW和數(shù)據(jù)挖掘結(jié)合起來的一種新興技術(shù)，Web數(shù)據(jù)挖掘的應(yīng)用非常廣泛，不但涉及頁面信息的提取、站點(diǎn)的分析和設(shè)計，在基于Internet的電子商務(wù)方面也有很好的應(yīng)用前景。目前，在國內(nèi)Web挖掘的研究仍處于起步階段，是前沿性的研究領(lǐng)域，有待進(jìn)一步研究的課題有：Web知識庫的動態(tài)維護(hù)和更新方法；各種知識和模式的綜合評價方法；數(shù)據(jù)挖掘的語言及評價標(biāo)準(zhǔn)的制定；滿足實時性和深層分析的算法等。

參考文獻(xiàn)：

[1]馬保國、侯存軍、王文豐等，Web數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].計算機(jī)與數(shù)字工程，2006,6:20-22.

[2]蔣良孝、蔡之華，Web挖掘及其應(yīng)用研究[J].現(xiàn)代計算機(jī)，2003,3:24-27.

[3]張小松、竇炳琳，Web挖掘研究[J]．唐山學(xué)院學(xué)報，2003,12:80-84.

[4]高祥華，Web2.0中的技術(shù)及應(yīng)用[J].中國科技信息，2006,13:127-128.

作者簡介：

孟叢，女，漢族，山東濟(jì)南人，碩士，濟(jì)南職業(yè)學(xué)院技術(shù)教育部，助教，主要研究方向：數(shù)據(jù)庫，數(shù)據(jù)挖掘，信息管理，電子商務(wù)。