杜煒威,衛(wèi) 恒
(河南經(jīng)貿(mào)學(xué)院 電子工程系,河南 鄭州 450008)
基于關(guān)聯(lián)規(guī)則個(gè)性化推薦系統(tǒng)的工作原理是利用web日志,為每個(gè)用戶群建立相應(yīng)的事務(wù)數(shù)據(jù)庫,并利用關(guān)聯(lián)規(guī)則技術(shù)挖掘出用戶訪問圖書之間的關(guān)聯(lián)規(guī)則,根據(jù)該規(guī)則來建立用戶興趣模型。當(dāng)用戶再次訪問站點(diǎn)時(shí),推薦系統(tǒng)先對用戶進(jìn)行識別,得到用戶所屬的用戶聚類,并根據(jù)興趣模型向用戶推薦一些他們可能感興趣的尚未訪問的圖書。
利用用戶在訪問Web時(shí)的交互性,在用戶和站點(diǎn)之間增加—個(gè)推薦過程是關(guān)聯(lián)規(guī)則的中心思想,它根據(jù)用戶的特點(diǎn)先找到匹配用戶群,從而獲得用戶當(dāng)前的訪問模式,然后由關(guān)聯(lián)規(guī)則庫對所對應(yīng)圖書進(jìn)行推薦,整個(gè)操作過程分為在線和離線兩個(gè)部分。
1.在線推薦:系統(tǒng)根據(jù)用戶訪問特征首先找到匹配用戶群并獲得用戶當(dāng)前的訪問模式,得到用戶訪問的前n-1個(gè)頁面 p1,p2,p3,…,pi,構(gòu)成規(guī)則的前項(xiàng),然后由關(guān)聯(lián)規(guī)則庫對所對應(yīng)的圖書進(jìn)行推薦。
2.離線部分:包括對原始數(shù)據(jù)的預(yù)處理、聚類、分類和關(guān)聯(lián)規(guī)則挖掘算法。在線部分則通過推薦引擎在用戶會話期間根據(jù)用戶當(dāng)前的瀏覽提供動(dòng)態(tài)的個(gè)性化Web頁面推薦,應(yīng)用于個(gè)性化推薦的關(guān)聯(lián)規(guī)則具有這樣的形式:p1,p2,…,pi=>pc(i=l,2,…,n)。
我們可以這樣理解:當(dāng)站點(diǎn)的用戶訪問了p1,p2,…,pi圖書后,該站點(diǎn)的推薦引擎為其推薦pc圖書。
用戶的興趣描述就是用戶的個(gè)性化信息,它的作用是為了準(zhǔn)確描述用戶的興趣,那么我們需要給每個(gè)用戶建立一個(gè)用戶興趣描述文件(useprofile)后再利用正確的關(guān)聯(lián)規(guī)則。
挖掘算法可以挖掘出用戶所訪問頁面之間的關(guān)聯(lián)規(guī)則,并準(zhǔn)確地表示用戶興趣。
假設(shè) S 為用戶挖掘到的所有規(guī)則,則 s=(r1,r2,…,rn),ri代表一條挖掘到的規(guī)則,每條規(guī)則又包括前項(xiàng)和后項(xiàng),ri=(bi,ai),bi表示規(guī)則 ri的前項(xiàng),ai表示規(guī)則 ri的后項(xiàng)。
定義1:用戶興趣模型描述為三元組組成的集合,即:
Ui={(b1,P1,c1),(b2,p2,c2),…,(bn,pn,cn)}
其中ui表示第i個(gè)用戶,bi為該用戶第i條規(guī)則的前項(xiàng),pi={p1,p2,…,pn}為該用戶規(guī)則集S中所有具有前項(xiàng)為bi的規(guī)則的后項(xiàng)頁面所組成的頁面集合,ci={c1,c2,…,cm},其中 ci為 Pi中 pi(pi=>Pi)頁面的置信度。
定義2:c為被推薦頁面的置信度,它可以確定若干個(gè)候選推薦頁面的優(yōu)先級。對于任一用于推薦的關(guān)聯(lián)規(guī)則:P1,P2,…,pi=>pc(i=l,2,…n),所有推薦的后項(xiàng) pc 按規(guī)則的置信度降序排列。
首先是源數(shù)據(jù)的收集過程。以鶴壁職業(yè)技術(shù)學(xué)院圖書網(wǎng)站2008年5月份第一個(gè)星期的日志為例進(jìn)行分析,日志格式如下:
以上是IP為172.18.9.16的用戶瀏覽了圖書編號為sjs486的1~3頁的內(nèi)容。
有了源數(shù)據(jù)后,我們可以對用戶瀏覽和下載的圖書日志進(jìn)行預(yù)處理。
根據(jù)IP地址和瀏覽內(nèi)容對用戶進(jìn)行分類、聚類,發(fā)現(xiàn)IP地址為172.18.5.1~253的用戶,瀏覽圖書為醫(yī)學(xué)類圖書;172.18.6.1~251的用戶,瀏覽圖書為計(jì)算機(jī)類圖書;172.18.7.1~253的用戶,瀏覽圖書為計(jì)算機(jī)類圖書等。
然后我們?yōu)槊款愑脩羧航?shù)據(jù)庫,在此以瀏覽計(jì)算機(jī)類圖書用戶為例,部分記錄如表1。
表1 瀏覽事務(wù)數(shù)據(jù)
表2 部分圖書編號與名稱對照表
預(yù)處理后得到的數(shù)據(jù)集有2771條會話記錄,共包含99個(gè)頁面。我們把數(shù)據(jù)集的2/3作為訓(xùn)練集設(shè)定最小支持度為40%,進(jìn)行挖掘以生成推薦的關(guān)聯(lián)規(guī)則如下:
對于瀏覽計(jì)算機(jī)類圖書用戶,推薦的第一本書的順序?yàn)椋?/p>
S={英語(B)輔導(dǎo);support=80%
三級網(wǎng)絡(luò)技術(shù)教程;support=80%
高數(shù)習(xí)題集;support=60%;
C語言上機(jī)指導(dǎo);support=40%}
對于瀏覽計(jì)算機(jī)類圖書用戶,推薦的第二本書的順序?yàn)椋?/p>
S={英語 (B)輔導(dǎo)=>高數(shù)習(xí)題集;support=40%;confidence=50%;
英語 (B)輔導(dǎo)=>三級網(wǎng)絡(luò)技術(shù)教程;support=60%;confidence=75%;
高數(shù)習(xí)題集=>線性代數(shù)習(xí)題集;support=40%;confidence=67%
高數(shù)習(xí)題集=>英語(B)輔導(dǎo);support=40%;confidence=67%
高數(shù)習(xí)題集=>三級網(wǎng)絡(luò)技術(shù)教程;support=40%;confidence=67%}等,其他不再贅述。
總結(jié)具體推薦步驟如下:
第一步:識別用戶所屬用戶群。
第二步:獲得用戶的訪問模式,也就是獲得用戶訪問的當(dāng)前圖書和前n-1本圖書p1,p2,…,pi構(gòu)成規(guī)則的前項(xiàng)。
第三步:在所有規(guī)則集中查找前項(xiàng)和用戶的訪問模式相匹配的,也就是{p1,p2,…,pi}={pa1,pa2,…,pa1}的規(guī)則pa1,pa2,…,pa1=>pc(k 條),規(guī)則的后項(xiàng)所對應(yīng)的圖書 pc就是在當(dāng)前訪問模式下所要推薦的圖書。
第四步:把k條規(guī)則的后項(xiàng)所對應(yīng)的圖書按置信度降序排列,然后按照從大到小的順序選取前m個(gè)圖書進(jìn)行推薦。
第五步:當(dāng)前窗口下不但顯示用戶當(dāng)前的訪問的圖書頁面,還顯示被推薦圖書的書目及網(wǎng)址,點(diǎn)擊即可鏈接到對應(yīng)頁面的URL,該URL對應(yīng)的頁面成為下一個(gè)窗口的當(dāng)前頁面。
[1]馬文峰,高鳳榮,王珊.論數(shù)字圖書館個(gè)性化信息推薦系統(tǒng)[J].現(xiàn)代圖書情報(bào)技術(shù),2003,2(9):58~59.
[2]張俊,黃水清.國內(nèi)外數(shù)字圖書館個(gè)性化信息服務(wù)系統(tǒng)的功能與特征比較研究[J].情報(bào)理論與實(shí)踐,2005,28(6):21~24.
[3]鮑靜.關(guān)聯(lián)規(guī)則在圖書館個(gè)性化服務(wù)中的應(yīng)用[J].科教文匯,2007(9):221~222.
[4]許珂.關(guān)聯(lián)挖掘在圖書借閱數(shù)據(jù)庫中的應(yīng)用[J].福建電腦,2006,7(9):26~27.
[5]李衛(wèi)華,盧雨民,梅紅.淺談數(shù)字圖書館個(gè)性化信息推薦系統(tǒng)[J].科技廣場,2007,9(2):109~110.
[6]連瑞梅.電子商務(wù)中Web頁面?zhèn)€性化推薦系統(tǒng)的架構(gòu)[J].中國管理信息化,2007,9(9):8~586.
[7]何典,梁英.動(dòng)態(tài)網(wǎng)頁環(huán)境下的Web使用記錄挖掘研究[J].微計(jì)算機(jī)信息,2006,2(8):55~56.
[8]鄒麗霞,楊建強(qiáng).基于關(guān)聯(lián)規(guī)則挖掘的Web個(gè)性化推薦研究[J].內(nèi)江科技,2007,28(10).
[9]李歌維.Web日志挖掘數(shù)據(jù)預(yù)處理與數(shù)字圖書館個(gè)性化服務(wù)[J].現(xiàn)代情報(bào)雜志,2007,5(8):90~91.
[10]金花,黃明,梁旭.基于Frame頁面過濾的Web日志挖掘中的數(shù)據(jù)預(yù)處理方法[J].大連鐵道學(xué)院學(xué)報(bào),2006,7(2):80~81.