基于數(shù)據(jù)挖掘的個性化資源推薦服務研究

2015-08-28 05:10:09胡勇祥

卷宗 2015年7期

關鍵詞：數(shù)據(jù)挖掘圖書館

胡勇祥

摘要：“以讀者需求為導向”的服務理念是圖書館永恒的話題。本文通過針對具有不同資源偏好用戶的數(shù)據(jù)記錄進行關聯(lián)挖掘，找出用戶所偏好的文獻資源，從而實現(xiàn)圖書館為每一位用戶提供個性化資源推薦服務。

關鍵詞：數(shù)據(jù)挖掘；關聯(lián)關系；個性化資源；圖書館

科研基金項目：黃岡師范學院2014年科研基金項目（項目編號：2014016703 ）

1 引言

隨著網(wǎng)絡化的發(fā)展以及數(shù)字圖書館的崛起，讀者從事科研教學時要面對數(shù)字圖書館中浩瀚的數(shù)字化資源，而為了獲得自己所需文獻資源，讀者不得不花費大量的時間和精力來進行選擇，高校圖書館信息管理系統(tǒng)和信息資源庫中存儲著大量的書目數(shù)據(jù)、借閱信息和訪問記錄，這些信息中隱含著大量能夠反映讀者興趣特征、圖書關聯(lián)性等潛在的、有價值的知識。但目前高校圖書館只能通過自動化管理系統(tǒng)進行簡單的借閱和統(tǒng)計分析，而無法預測讀者的需求及圖書文獻的借閱趨勢。應用數(shù)據(jù)挖掘技術通過分析讀者的使用行為與研究方向，找出它們之間的關聯(lián)關系，挖掘出讀者感興趣的文獻資源，為其開展個性化文獻資源推薦服務。

2 數(shù)據(jù)挖掘在高校圖書館中應用的必要性

2.1 個性化文獻推薦服務是館員應用數(shù)據(jù)挖掘的首要原因

了解讀者文獻借閱需求，做好讀者文獻的借閱服務是圖書館服務工作的基礎。圖書館館員應盡量為讀者推薦感興趣、有價值的文獻資源[1]。利用數(shù)據(jù)挖掘技術，在讀者使用的文獻記錄庫中找出讀者與文獻資源之間存在的關聯(lián)關系，通過關聯(lián)規(guī)則的支持度和置信度來為讀者提供相關偏好和有價值的文獻資源[2]。這樣既可以幫助讀者更好地利用文獻資源，也為讀者節(jié)省了大量的查找時間，從而提高了圖書館的服務質(zhì)量。

2.2 文獻檢索需要數(shù)據(jù)挖掘技術的支撐

圖書館傳統(tǒng)的文獻檢索方式是讀者通過圖書館信息集成系統(tǒng)OPAC來檢索書目庫中的簡單書目信息，而不能根據(jù)讀者的需求提供個性化推薦服務。利用數(shù)據(jù)挖掘技術則可輕松實現(xiàn)這一服務方式。讀者每次文獻檢索時自動將文獻檢索記錄轉(zhuǎn)入到相關讀者的推薦數(shù)據(jù)庫中。當讀者下次檢索文獻資源時，通過歷史數(shù)據(jù)挖掘形成的文獻資源推薦集，檢索后系統(tǒng)會自動為讀者推薦與檢索文獻相關聯(lián)的其它文獻資源，并且將這些數(shù)據(jù)信息快速地展現(xiàn)在讀者面前，大大地節(jié)省了讀者對文獻資源檢索和選擇的時間。

2.3 數(shù)據(jù)挖掘的應用更有利于圖書館藏上架排架的管理

圖書館館藏文獻資源豐富，類別齊全，館藏書架調(diào)整管理是圖書館館員經(jīng)?？紤]的一個重要內(nèi)容。圖書館館員可利用數(shù)據(jù)挖掘預測分析技術中的回歸與時序分析方法對圖書館文獻借閱歷史記錄進行分析，找出文獻資源被借閱的周期性和頻率，預測文獻資源的變化趨勢。對頻繁借閱、借閱量較小的和即將剔除舊的文獻合理地規(guī)劃文獻采購數(shù)量和藏書位置。這樣不斷減少了圖書館館藏圖書倒架次數(shù)，也為全校師生在借閱查找方面提供了方便。

3 數(shù)據(jù)挖掘的用戶個性化資源推薦模型研究

讀者在借一些文獻資源后則可形成讀者的借閱傾向與被借閱的書籍的相關程度。若能從數(shù)量龐大的歷史借閱史紀錄信息中，找出書籍項目之間的關聯(lián)及次序，將可提供圖書館發(fā)掘出最適合的讀者。下面以書籍B為挖掘的目標，從借閱資料中借閱的記錄與讀者關聯(lián)關系來發(fā)掘書籍B適合借閱的讀者。

3.1 關聯(lián)規(guī)則挖掘適合借閱讀者模型

假設欲挖掘的書籍為B，必須找出以下形式的關聯(lián)規(guī)則：X→B，X為包含一個或一個以上書籍項目的項目集，X∪B為高頻項目集。以上關聯(lián)規(guī)則的形式中，其顯示出的借閱傾向為：若讀者曾經(jīng)借閱書籍X，

科學技術

則也會有借閱書籍B的傾向。由以上形式的關聯(lián)規(guī)則可以挖掘書籍B適合讀者借閱的依據(jù)。

為了避免計算未包含書籍B的項目集及配合挖掘的需要，則可修改APRIORI算法[3]，直接組合書籍B與其他書籍項目形成項目集（itemset），并判斷這些項目集是否為高頻項目集（frequent itemset），其挖掘的過程模型如下：

找出frequent1，若借閱資料∩B=.，則刪除此借閱資料，否則保留此借閱資料。

（1）組合B與frequent1形成itemset2，然后從整理后的借閱資料中檢查itemset2是否滿足最小支持度，若符合就成為frequent2，否則就刪除。

（2）找出所有的frequentk-1，k>2。

（3）組合其中兩個有k-2項目相同的frequentk-1，形成itemsetk。

（4）判斷找出的itemsetk，其包括的所有子集合frequentk-1是否都有出現(xiàn)在步驟（3）中（若itemsetk-1 ∩B=. ，則不予列入計算），若成立就保留itemsetk，否則就刪除。

（5）從（1）整理后的借閱文獻記錄中檢查并找出itemsetk是否滿足最小支持度，若符合就成為frequentk，否則就刪除掉。

（6）計算frequentk形成的關聯(lián)規(guī)則形式為：X→B，{X∪B}.frequentk

（7）轉(zhuǎn)至步驟（3）繼續(xù)找出frequentk+1，直到無法產(chǎn)生高頻項目集為止。

以上算法從步驟（2）開始，選取出的frequentk必定為frequentk∩B1.，如此才可避免挖掘未能符合目標項目集的計算。從步驟（1）整理后的借閱資料中檢查itemsetk是否為高頻項目集，然后，計算高頻項目集形成的關聯(lián)規(guī)則X→B，若滿足最小信賴度，則關聯(lián)規(guī)則成立。因此由關聯(lián)規(guī)則X→B顯示的借閱傾向，我們對書籍適合借閱的讀者定義如下：關聯(lián)規(guī)則X→B成立，則曾經(jīng)借閱書籍X且尚未借閱書籍B的讀者即為書籍B適合借閱的讀者。

3.2 關聯(lián)規(guī)則挖掘的實現(xiàn)過程

以表3.1借閱資料庫D1為例，說明挖掘書籍適合借閱的讀者的挖掘的過程。I={A，B，C，D，E}為書籍文獻項目的集合，R={R1，R2，R3，R4，R5}為5次某讀者的借閱資料的記錄集合，最小支持度為40%（即最小支持數(shù)量為2），最小信賴度設為70%。假設欲挖掘的書籍為B，以下說明挖掘書籍B適合借閱的讀者的挖掘過程。

選取frequent1的過程中，將不包含B的借閱資料刪除，而形成表3.2的借閱資料庫D2

選取包含B的高頻項目集的過程如下：

從上圖挖掘過程可知項目集4沒有。以高頻3項目集BCE為例，計算形成的關聯(lián)規(guī)則CE→B，其信賴度為3/4（75%），滿足最小信賴度，關聯(lián)規(guī)則成立。因此由關聯(lián)規(guī)則CE→B顯示出的借閱傾向特征可挖掘出曾借閱書籍CE且尚未借閱書籍B的讀者中，讀者R1為書籍B最適合的借閱者，因此可將書籍B推薦給R1讀者。

4 總結(jié)

根據(jù)用戶的需求提供個性化的信息資源推薦服務將是高校圖書館未來發(fā)展的趨勢。它使圖書館的個性化服務更具有針對性。未來我國高校圖書館需要借鑒國外高校圖書館個性化服務的研究經(jīng)驗，并結(jié)合本國各高校圖書館的實際情況，不斷推進數(shù)據(jù)挖掘技術，在實踐中不斷地總結(jié)與提高，逐步完善我國高校圖書館的個性化信息推薦服務。

參考文獻

[1] 榮麗波. 淺談圖書館讀者服務工作[J]. 黑河學刊， 2011，（3）：134 -135

[2]熊擁軍.基于關聯(lián)挖掘技術的數(shù)字圖書館個性化推送服務[J].圖書情報工作，2010（01）：125-129

[3]周鳳麗.改進的關聯(lián)規(guī)則挖掘算法在Web個性化服務中的應用[J].計算機與數(shù)字工程，2011（05）：34-36

[4] 陳燕.數(shù)據(jù)挖掘技術與應用[M].北京：清華大學出版社，2011：26-52