孟 叢
[摘要]Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web信息集合上的應(yīng)用,Web數(shù)據(jù)具有本身的特點(diǎn),Web數(shù)據(jù)挖掘可以分為三類,各自有其相關(guān)技術(shù),Web數(shù)據(jù)挖掘技術(shù)有著廣泛的應(yīng)用,而且隨著Internet的不斷發(fā)展,必將有著更加開闊的應(yīng)用前景。
[關(guān)鍵詞]數(shù)據(jù)挖掘 內(nèi)容挖掘 結(jié)構(gòu)挖掘 日志挖掘
中圖分類號:TP3文獻(xiàn)標(biāo)識碼:A文章編號:1671-7597(2009)0420044-01
數(shù)據(jù)挖掘(Data Mining,DM)是近年來發(fā)展迅速的知識發(fā)現(xiàn)的一個重要步驟,在科學(xué)研究和社會應(yīng)用領(lǐng)域都得到了廣泛的應(yīng)用。目前數(shù)據(jù)挖掘沒有一個完全公認(rèn)的定義,一般認(rèn)為:數(shù)據(jù)挖掘是運(yùn)用計算機(jī)及信息技術(shù),從大量的、不完全的數(shù)據(jù)集中獲取隱含在其中的有用知識的高級過程。Web數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘發(fā)展而來,是數(shù)據(jù)挖掘技術(shù)在Web技術(shù)中的應(yīng)用。Web數(shù)據(jù)挖掘是一項綜合技術(shù),通過從Internet上的資源中抽取信息來提高Web技術(shù)的利用效率,也就是從Web文檔結(jié)構(gòu)和試用的集合中發(fā)現(xiàn)隱含的模式[1]。
一、Web數(shù)據(jù)挖掘的特點(diǎn)
傳統(tǒng)的數(shù)據(jù)挖掘是以數(shù)據(jù)庫為基礎(chǔ),對結(jié)構(gòu)化的數(shù)據(jù)源進(jìn)行信息的加工、分析和模式挖掘。從理論上講,數(shù)據(jù)挖掘的各種理論和技術(shù)都可以直接或間接地應(yīng)用于Web數(shù)據(jù)挖掘,然而由于Web的自身特點(diǎn),使得Web數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘有很大的不同[2]。
(一)分布式數(shù)據(jù)。相關(guān)主題的信息雜亂地散布在Web站點(diǎn)上的多個目錄下, 這樣就需要有一個強(qiáng)大的搜索引擎,通過查找關(guān)鍵字,來定位超文本的位置。
(二)Web上數(shù)據(jù)特點(diǎn)。特點(diǎn)一是動態(tài)性,Internet本身就是一個時刻在動態(tài)更新和變化的系統(tǒng),需要借鑒數(shù)據(jù)倉庫的技術(shù),以此保存Web上動態(tài)更新的數(shù)據(jù);特點(diǎn)二是多樣性, Web數(shù)據(jù)經(jīng)過過濾后,既有數(shù)值型,又有分類數(shù)據(jù)、性質(zhì)描述數(shù)據(jù)以及Web特有的數(shù)據(jù)類型;特點(diǎn)三是數(shù)據(jù)源之間可能存在冗余、不一致甚至矛盾。
(三)用戶目標(biāo)的模糊性。Web挖掘用戶對挖掘的主題提不出明確的目標(biāo),因此需要數(shù)據(jù)挖掘系統(tǒng)具有一定的智能性和學(xué)習(xí)機(jī)制,不斷地跟蹤用戶的興趣,直至獲得所需的結(jié)果。
(四)異構(gòu)數(shù)據(jù)庫環(huán)境。數(shù)據(jù)庫本身、運(yùn)行環(huán)境和非結(jié)構(gòu)化的數(shù)據(jù)都存在差異。Web上的每一個站點(diǎn)就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)之間的信息和組織都不一樣,構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。
(五)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。Web上的數(shù)據(jù)大多是HTML格式,數(shù)據(jù)復(fù)雜,沒有特定的模型描述,因此是半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的主要特點(diǎn)。
二、Web數(shù)據(jù)挖掘的分類及技術(shù)現(xiàn)狀
Web上信息的多樣性決定了Web挖掘任務(wù)的多樣性,按照處理對象的不同我們將Web挖掘分為三大類[3]。
(一)Web內(nèi)容挖掘。Web內(nèi)容挖掘是指對Web頁面內(nèi)容進(jìn)行挖掘,從Web文檔的內(nèi)容信息中抽取知識。它分為Web文本挖掘和Web多媒體挖掘,針對的對象分別是Web文本信息和Web多媒體信息。Web內(nèi)容挖掘的重點(diǎn)是頁面分類和聚類。Web頁面的分類是根據(jù)頁面的不同特征,將其劃歸為事先建立起來的不同的類。Web頁面的聚類是指在沒有給定主題類別的情況下,將Web頁面集合聚成若干個簇,并且同一簇的頁面內(nèi)容相似性盡可能大,而簇間相似度盡可能小。
(二)Web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是指對Web頁面之間的超鏈結(jié)構(gòu),Web頁面內(nèi)部結(jié)構(gòu)和URL中的目錄路徑結(jié)構(gòu)進(jìn)行挖掘,從中抽取知識。Web在邏輯上可以用有向圖表示出來,頁面對應(yīng)圖中的點(diǎn),超級鏈接對應(yīng)圖中的邊。超鏈也體現(xiàn)了Web頁面之間的某種關(guān)系,WebKB就是通過對超級鏈接的分類來辨別instructor-of, members-of-department等關(guān)系實例。PageRa
-nk方法則是通過分析頁面的引用次數(shù)和引用關(guān)系來發(fā)現(xiàn)重要頁面。Spertus對Web頁面的內(nèi)部結(jié)構(gòu)和URL做了研究并提出一些啟發(fā)式規(guī)則,用于收索新頁面和自動索引。
(三)Web日志挖掘。個人瀏覽Web服務(wù)器時,服務(wù)器方會產(chǎn)生三種類型日志文件:Server Logs,Error Logs,Cookie Logs,記錄了關(guān)于用戶訪問和交互的信息。Web日志挖掘正是對這三種日志文件進(jìn)行挖掘,從而發(fā)現(xiàn)用戶的訪問模式、相似用戶群體、頻繁路徑等知識[4]。
Web日志挖掘方法可分為基于Web事物的方法和基于數(shù)據(jù)立方的方法。前者是將用戶會話劃分成事物序列,然后采用數(shù)據(jù)挖掘的方法挖掘頻繁路徑等知識,后者則將Web日志組織成數(shù)據(jù)立方用于數(shù)據(jù)挖掘和OLAP,WAP2Mine采用的是第一種方法。
三、Web數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于金融業(yè)、零售業(yè)、遠(yuǎn)程通信業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)和體育等行業(yè)中,而它在網(wǎng)絡(luò)中的應(yīng)用(即Web挖掘)已經(jīng)成為當(dāng)今國際學(xué)術(shù)界的研究熱點(diǎn),并開始在許多行業(yè)得到應(yīng)用。
Web數(shù)據(jù)挖掘的典型應(yīng)用領(lǐng)域是在搜索引擎中的應(yīng)用,通過引入Web挖掘技術(shù)可以提高搜索引擎的查詢速度、關(guān)鍵詞匹配的相關(guān)度以及網(wǎng)頁的權(quán)重,改善檢索效果。
另一個典型應(yīng)用是網(wǎng)站設(shè)計, 通過對網(wǎng)站內(nèi)容的Web挖掘可以有效地組織網(wǎng)站信息,如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織;以結(jié)合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,有助于開展網(wǎng)站信息推送服務(wù)以及個人信息的定制服務(wù)。
在電子商務(wù)中的應(yīng)用也是一個成功的范例,通過對客戶訪問日志數(shù)據(jù)應(yīng)用神經(jīng)元網(wǎng)絡(luò)、模型化算法和其它信息處
理技術(shù),進(jìn)行分析加工,可獲得商家用于向特定消費(fèi)群體或個體進(jìn)行定向營銷的決策信息。
四、結(jié)語
Web數(shù)據(jù)挖掘是把Internet、WWW和數(shù)據(jù)挖掘結(jié)合起來的一種新興技術(shù),Web數(shù)據(jù)挖掘的應(yīng)用非常廣泛,不但涉及頁面信息的提取、站點(diǎn)的分析和設(shè)計,在基于Internet的電子商務(wù)方面也有很好的應(yīng)用前景。目前,在國內(nèi)Web挖掘的研究仍處于起步階段,是前沿性的研究領(lǐng)域,有待進(jìn)一步研究的課題有:Web知識庫的動態(tài)維護(hù)和更新方法;各種知識和模式的綜合評價方法;數(shù)據(jù)挖掘的語言及評價標(biāo)準(zhǔn)的制定;滿足實時性和深層分析的算法等。
參考文獻(xiàn):
[1]馬保國、侯存軍、王文豐等,Web數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].計算機(jī)與數(shù)字工程,2006,6:20-22.
[2]蔣良孝、蔡之華,Web挖掘及其應(yīng)用研究[J].現(xiàn)代計算機(jī),2003,3:24-27.
[3]張小松、竇炳琳,Web挖掘研究[J].唐山學(xué)院學(xué)報,2003,12:80-84.
[4]高祥華,Web2.0中的技術(shù)及應(yīng)用[J].中國科技信息,2006,13:127-128.
作者簡介:
孟叢,女,漢族,山東濟(jì)南人,碩士,濟(jì)南職業(yè)學(xué)院技術(shù)教育部,助教,主要研究方向:數(shù)據(jù)庫,數(shù)據(jù)挖掘,信息管理,電子商務(wù)。