Web日志挖掘技術的應用研究

2011-06-12 08:55:26胡宏智王華

網(wǎng)絡安全技術與應用 2011年5期

胡宏智王華

安徽工業(yè)大學計算機學院安徽 243032

0 前言

隨著Web站點規(guī)模的擴大和復雜程度的提高，訪問者對Web站點的要求也越來越高，要求它具有個性化，智能性。因此，簡單的統(tǒng)計訪問者所在的地區(qū)，統(tǒng)計站點的訪問次數(shù)已經(jīng)不能滿足。Web日志挖掘是對用戶在訪問網(wǎng)站時留下的訪問記錄進行數(shù)據(jù)挖掘，利用數(shù)據(jù)挖掘的方法可以在海量的日志數(shù)據(jù)中自動快速的發(fā)現(xiàn)用戶的訪問模式，其結(jié)果可以用于改善網(wǎng)站的拓撲結(jié)構，發(fā)現(xiàn)相似客戶群體，開展個性化的信息服務和有針對性的電子商務活動。

1 數(shù)據(jù)預處理

從Web服務器收集到的日志不能直接用于數(shù)據(jù)挖掘，還必須進行預處理。數(shù)據(jù)預處理一般分為數(shù)據(jù)清理、用戶識別、回話識別、路徑補充這幾個過程。

1.1 數(shù)據(jù)清理

數(shù)據(jù)清理的目的是清除從服務器得到的日志中的不相關的數(shù)據(jù)，縮小被挖掘的數(shù)據(jù)對象的范圍。本文使用的日志數(shù)據(jù)集與以往的日志數(shù)據(jù)集有所有不同，如圖1所示，數(shù)據(jù)集中的字段都是挖掘所需要的，但是每一個記錄都含有若干條記錄，其中是以“|||”分割的，利用SQL語句可以把這些記錄分離開，從而形成一條一條的記錄，得到的數(shù)據(jù)集就可以用于下一步的數(shù)據(jù)挖掘。如圖2所示。

圖1 日志數(shù)據(jù)集1

圖2 日志數(shù)據(jù)集2

數(shù)據(jù)清理的核心SQL語句：

select rowNum,d*,d2.* from cont c,table(str2list(c.ip,c.time,'|||')) d,table(str2list(c.page,c.lailu,'|||')) d2 where d.id = d2.id and d.str is not null

1.2 用戶識別

如果數(shù)據(jù)挖掘的目的是進行用戶訪問模式的挖掘或?qū)τ脩暨M行聚類分析，那么用戶識別這一步驟相當重要。通常我們用一下的方式來識別用戶：不同的IP地址代表不同的用戶；當IP地址相同時，默認不同的操作系統(tǒng)或瀏覽器代表不同的用戶；當IP地址相同時，用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下，此時要根據(jù)網(wǎng)站的拓撲結(jié)構來識別用戶，即用戶要訪問的頁面不能從已訪問的頁面到達則為一個新用戶。

1.3 用戶會話識別

會話識別的目的就是將用戶的所有訪問序列分成多個單獨的用戶一次訪問序列。一般的方法是利用超時，如果連續(xù)兩個頁面的請求時間間隔超過給定的閾值，則認為用戶開始了一個新的會話。根據(jù)統(tǒng)計數(shù)據(jù)，時間閾值通常取25.5分鐘。

1.4 路徑補充

在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要的請求沒有被記錄。這就需要路徑補充這一個步驟，解決的方法類似于用戶識別中的方法。如果當前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接，那么用戶很可能使用了瀏覽器上的“后退”按鈕調(diào)用緩存在本機中的頁面。檢查引用日志確定當前請求來自哪一頁，如果在用戶的歷史訪問記錄上有多個頁面都包含與當前請求頁的鏈接，則將請求時間最接近當前請求頁的頁面作為當前請求的來源。若引用日志不完整，可以使用站點的拓撲結(jié)構代替。通過這種方法將遺漏的頁面請求添加到用戶的會話路徑中。

2 Web日志挖掘算法研究

2.1 關聯(lián)分析

關聯(lián)分析用于發(fā)現(xiàn)關聯(lián)規(guī)則，關聯(lián)規(guī)則是形如X→Y 即滿足X中條件的數(shù)據(jù)庫元組也滿足Y條件。我們用支持度和置信度來作為關聯(lián)規(guī)則興趣度的客觀度量。關聯(lián)規(guī)則 X→Y的支持度表示滿足規(guī)則的樣本的百分比，用概率P(X∪Y)表示，其中，X∪Y表示同時包含X和Y的事務，即項集X和Y的并。關聯(lián)規(guī)則X→Y的置信度用條件概率P(X|Y)即包含X的事務也包含Y的概率來表示。

2.2 聚類分析

聚類分析是將物理或抽象的對象組成的集合分組成為由類似的對象組成的多個簇，使得處于相同簇中的對象具有最大的相似性，而處于不同簇的對象具有最大的差異性的方法及過程。通過聚類，能夠找出數(shù)據(jù)屬性之間潛在的相互關系。聚類分析的過程如圖3所示。

圖3 聚類分析

2.3 遺傳算法

遺傳算法是基于進化理論，并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設計方法的優(yōu)化技術。生物的進化是一個奇妙的優(yōu)化過程，它通過選擇淘汰，突然變異，基因遺傳等規(guī)律產(chǎn)生適應環(huán)境變化的優(yōu)良物種。遺傳算法是根據(jù)生物進化思想而啟發(fā)得出的一種全局優(yōu)化算法。

3 Web日志挖掘的應用

Web日志挖掘的應用主要有以下幾個方面：

（1）提供個性化服務：根據(jù)用戶訪問頁面的模式，從中提煉出用戶感興趣的頁面，針對特定的用戶組放置不同的內(nèi)容，向每位用戶提供個性化界面。

（2）改進站點的拓撲結(jié)構：依據(jù)訪問者的頻繁訪問路徑，把訪問者頻繁訪問的頁面直接關聯(lián)起來。

（3）推薦系統(tǒng)：這對于電子商務網(wǎng)站來說非常有幫助，通過挖掘日志數(shù)據(jù)集，分析訪問者感興趣的頁面和商品，推薦相關頁面和商品。

4 結(jié)束語

Web日志挖掘的應用越來越廣，通過研究日志數(shù)據(jù)，可以得到很多潛在的有意義的信息，不論是對網(wǎng)站的訪問者還是網(wǎng)站的經(jīng)營者都有很大的幫助。本文闡述了Web日志挖掘的相關算法，今后的工作是努力改進算法，提高數(shù)據(jù)挖掘的效率和準確性。

[1]楊怡玲,尤晉元.SWLMS:一個日志挖掘系統(tǒng).上海交通大學學報.1999.

[2]呂佳.Web日志挖掘技術應用研究.重慶師范大學學報.(自然科學版).2006.

[3]陳新中,李巖,楊炳儒.Web日志挖掘技術進展.系統(tǒng)工程與電子技術.2003.

[4]韓家煒.Web數(shù)據(jù)挖掘研究.計算機研究與發(fā)展.2001.

[5]陳新中,李巖,楊炳儒.Web日志挖掘技術進展.系統(tǒng)工程與電子技術.2003.