周賢善,謝婷婷
(1.長江大學計算機科學學院,湖北荊州434023;2.北京電子科技學院計算機科學與技術系,北京100070)
基于Web的數(shù)據(jù)挖掘在電子商務中的應用
周賢善1,謝婷婷2
(1.長江大學計算機科學學院,湖北荊州434023;2.北京電子科技學院計算機科學與技術系,北京100070)
Web數(shù)據(jù)挖掘應用于電子商務系統(tǒng),已成為數(shù)據(jù)挖掘熱點研究。Web服務器日志中保存了大量的用戶訪問電子商務系統(tǒng)的記錄,運用數(shù)據(jù)挖掘技術對數(shù)據(jù)進行處理和分析,構造頻繁訪問路徑挖掘算法,獲取用戶的購物特性和習慣,達到向每個用戶推薦產品的目的,進一步指導電子商務網(wǎng)站建設。
Web;數(shù)據(jù)挖掘;電子商務;頻繁訪問路徑
面對大量的電子商務信息,找出用戶感興趣的信息加以組織利用,加強客戶關系的管理,提高客戶滿意度,從而改變Web站點的設計、改善企業(yè)與客戶的關系成為電子商務必須解決的問題。通過對電子商務網(wǎng)站服務器日志文件進行分析挖掘,可以找出用戶行為模式,利于向用戶推薦產品,提出針對性商務計劃或者對網(wǎng)站進行改進。
Web數(shù)據(jù)挖掘的資源[1]主要包括Web上各種形式的文檔和用戶訪問信息兩大類。在Internet電子商務中,客戶的瀏覽信息被Web服務器自動搜集,并保存在日志文件中。Web服務器文件的記錄格式如表1所示。
表1 Web服務器文件的記錄格式
Web日志挖掘是對原始的日志文件進行預處理轉變成適合挖掘的數(shù)據(jù)形式,再利用模式識別中的數(shù)據(jù)挖掘算法進行挖掘,最終匯總挖掘結果應用到實際中去。通過對日志數(shù)據(jù)信息進行分析加工,可以發(fā)現(xiàn)用戶訪問站點的瀏覽模式,得到商家用于向特定消費群體或個體進行定向營銷的決策信息,可揭示其中的關聯(lián)關系、時序關系、頁面類屬關系、客戶類屬關系以及頻繁訪問路徑與頁面等,從而為優(yōu)化Web站點拓撲結構,為企業(yè)更有效地確認市場目標、改進決策提供幫助[2]。
用戶識別[3],是分析有多少不同的用戶訪問。一般的方法是采用啟發(fā)式規(guī)則,以用戶IP和代理來唯一確定用戶。即用戶IP地址和代理同時相同的為同一個用戶;IP地址相同而代理不同,則可以標記為不同的用戶。結合訪問信息、引用日志和站點拓撲,就能列出用戶瀏覽的眾多路徑,若請求的頁面與用戶已瀏覽的頁面不存在鏈接關系,則認為存在IP地址相同的多個用戶。
會話是指用戶在一次訪問網(wǎng)站期間所進行的活動,會話識別的任務就是把屬于同一用戶的同一次訪問請求識別出來。不同的用戶訪問屬于不同的會話,同一用戶相鄰兩次訪問時間跨度較大時,可以認為該用戶開啟過兩次不同會話。一般時間戳Timeout設定為30分鐘。掃描日志文件中按照用戶分類的日志記錄,可完成對所有用戶的會話識別,進而完成整個日志文件的會話識別。會話識別是Web日志挖掘的基礎和關鍵,只有識別出高質量的會話,才能有效地實現(xiàn)模式識別和模式分析,從而為應用提供有意義的數(shù)據(jù)支持。
用戶頻繁訪問路徑[4]是用戶在一個時間段中多次瀏覽的連續(xù)網(wǎng)站頁面序列。在求得M FP的基礎上,逐次掃描每個用戶會話的所有M FP,迭代產生長度為len的候選子路徑,通過計算候選路徑的頻繁訪問支持度從而產生頻繁訪問路徑。
定義1用戶會話S是一個二元組<Uid,p>,其中Uid為用戶標識,p為用戶在一個時間段內訪問的頁面的集合,它由用戶訪問的頁面Pi和用戶訪問一個頁面所停留的時間L(訪問時間長度)構成,即:S= <Uid,{(P1,L 1),(P2,L 2)…(Pn,Ln)}> 。
定義2最大向前路徑M FP(maxim um fo rw ard path)是指用戶會話中的首個網(wǎng)站頁面至回退的前一個網(wǎng)站頁面所組成的路徑。如:一個用戶會話頁面順序是P1-P2-P1-P3-P4-P3,則對應的M FP為 P1-P2和 P1-P3-P4。
定義3設P={x1,x2,…,xn}為用戶順序訪問的頁面集合,Fmin為最小支持度,若,則稱路徑P為頻繁訪問路徑。頻繁訪問路徑就是M FP中滿足一定支持度的連續(xù)頁面序列,頻繁訪問路徑的長度為其包含的頁面數(shù)。
定義4包含頻繁訪問路徑的用戶會話數(shù)目稱為支持度。用FPlen表示長度為len的頻繁訪問路徑的集合,則最頻繁的 K個訪問路徑的集合為FPlen_k={Plen_1,…Plen_k}。
定義5若兩個連續(xù)的len-1長的子路徑{xj,…xj+len-2}和{xj+1,…xj+len-1}都是 FPlen-1的元素,即它們的支持度都不小于Plen-1_k的支持度,則稱{xj,…xj+len-1}為FKlen的候選路徑。
要挖掘長度為len的頻繁訪問路徑,實際上就是要構造出 FPlen。從M FP中找出長度為len的候選路徑{xj,…xj+len-1},計算它在用戶所有會話中的支持度。支持度最大的 K個路徑的集合就是 FKlen_k。
FPk的構造算法如下:
input:備選M FP集合,最小支持度 Fmin;
output:長度為len的頻繁路徑集合FPlen(len>1)。
for每個用戶會話s{
for s中的每個M FP{x1,x2,…,xk}{
if(len≤k){
for(j=l;j<k-len+l;j++){
if{xj,…xj+len-1}已經(jīng)在 FPlen中
{xj,…xj+len-1}的支持度加1
else if{xj,…xj+len-2}的支持度 ≥Fminand{xj+l,…xj+len-1}的支持度≥Fmin
把{xj,…xj+len-1}插入 FPlen;
}
}
}
}
通過該算法對用戶會話進行分析,構造出每個用戶頻繁訪問路徑表(用戶標識,頻繁訪問路徑),反映出用戶的瀏覽興趣,同時為用戶提供個性化服務提供依據(jù)。
在電子商務中,客戶瀏覽信息被Web服務器自動收集并保存在訪問日志、引用日志和代理日志中。通過對Web服務器日志文件的數(shù)據(jù)進行處理和分析,在挖掘出最大向前路徑的基礎上做進一步的挖掘工作,得到用戶的頻繁訪問路徑,找出用戶的購物特性和習慣,達到向用戶推薦產品的目的,同時為企業(yè)更有效地確認目標市場,改進決策獲得競爭優(yōu)勢提供幫助。
[1] 趙東東.電子商務中的Web數(shù)據(jù)挖掘系統(tǒng)的設計[J].微計算機信息,2007,23(10-3):168-169.
[2] 周麗利,李耀輝,董顥霞,等.基于 Web的數(shù)據(jù)挖掘在電子商務中的應用[J].微計算機信息,2006,22(7-3):162-164.
[3] 周賢善,王松林,王海林,等.Web日志挖掘及應用[J].長江大學學報:自然科學版,2009,6(2):258-260.
[4] 蔡俊,宋順林.基于Web日志的頻繁偏愛路徑挖掘算法[J].計算機工程與設計,2009,30(24):5615-5617.
The Application of Web-based Data Mining in E-business
Zhou Xianshan1,Xie Tingting2
(1.School of Computer Science,Yangtze University,Jingzhou,Hubei 434023,China;2.Department of Computer Science and Technology,Beijing Electronic Science and Technology Institute,Beijing 100070,China)
Application of Web-based data mining in e-businesses has become a ho t topic in the research on data mining.Web server logs have saved the records on the access of large numbers of users to ecommerce system s.The use of data mining techniques help s to process and analyze data,work out the algorithm for frequent access paths,obtain the user’s shopping features and habits and achieve the purpose of recommending products for each user.This can serve as a guidance to furthering the construction of e-commerce sites.
Web;data mining;e-business;frequent access path
TP393.092
A
1671-2544(2010)03-0071-03
2010-01-26
周賢善(1963— ),男,湖北黃石人,長江大學計算機科學學院副教授,碩士。謝婷婷(1980— ),女,湖北荊州人,北京電子科技學院計算機科學與技術系講師,碩士。
(責任編輯:陳錦華)