王蕊
[摘要] 采用數(shù)據(jù)挖掘中的決策樹方法,對圖書館的圖書借閱數(shù)據(jù)進行研究和分析,提出了基于讀者閱讀興趣的個性化圖書推薦模型,結(jié)果表明,該模型能夠為老讀者個性化推薦新書,為新讀者個性化推薦圖書,較好地實現(xiàn)了圖書館的有針對性的創(chuàng)新服務(wù)。
[關(guān)鍵詞] 決策樹 個性化圖書推薦 興趣模型
引言
以讀者為中心,根據(jù)讀者各種不同的個性化信息需求,實現(xiàn)個性化信息服務(wù),是圖書館服務(wù)發(fā)展的必然趨勢[1]。在用于圖書館個性化信息服務(wù)的眾多技術(shù)中,數(shù)據(jù)挖掘技術(shù)[2]有著重要的地位。為了向老讀者推薦符合其閱讀興趣的圖書,預(yù)測新讀者將來可能的閱讀興趣,從而推薦合適的圖書信息[3]。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹算法對某高校圖書館的讀者借閱數(shù)據(jù)進行分析,根據(jù)不同閱讀興趣對讀者分類,建立了基于讀者閱讀興趣的圖書推薦模型,為新老讀者提供具有針對性的圖書推薦服務(wù)。
1準備借閱數(shù)據(jù)
為了對數(shù)據(jù)進行挖掘并得到正確的結(jié)論,選擇合適的圖書借閱數(shù)據(jù)并進行預(yù)處理是非常必要的。數(shù)據(jù)來源為某高校圖書館近4年讀者借閱記錄,數(shù)據(jù)源為學(xué)校圖書館管理信息系統(tǒng)數(shù)據(jù)庫,數(shù)據(jù)庫類型為SQL Server 2000。為簡化數(shù)據(jù)處理、建模和分析過程,本文從眾多數(shù)據(jù)庫表中選出以下幾張表:流通庫、讀者庫、館藏書目庫、分類檢索表和檢索索書號庫。為保護讀者隱私,本文中所有數(shù)據(jù)包括讀者姓名、讀者條碼、聯(lián)系方式等信息均經(jīng)過技術(shù)處理。對以上數(shù)據(jù)處理后,構(gòu)建用于分析的數(shù)據(jù)大表。
以流通庫為事實表,根據(jù)其外鍵將幾張表合為一張大表,其字段有:讀者條碼、讀者姓名、性別、讀者級別、讀者專業(yè)、所屬院系、索書號、書名、外借時間、圖書類別。為方便分析,把圖書按索書號分為理工、醫(yī)學(xué)、文學(xué)、外語、社科等類別。部分數(shù)據(jù)見表1。
2構(gòu)建模型
構(gòu)建模型就是在數(shù)據(jù)準備后,從數(shù)據(jù)中采集業(yè)務(wù)相關(guān)的樣本數(shù)據(jù)集,探索數(shù)據(jù)的規(guī)律,針對數(shù)據(jù)建模的數(shù)據(jù)集數(shù)據(jù)進行修正,選擇一種或幾種挖掘方法,進行數(shù)據(jù)模型構(gòu)建,從技術(shù)和業(yè)務(wù)兩個層面進行模型評估。從圖書借閱數(shù)據(jù)表中建立兩種模型,一個現(xiàn)有讀者圖書推薦模型,一個是新讀者圖書推薦模型。
表1 圖書借閱數(shù)據(jù)表
讀者條碼 讀者姓名 性別 讀者級別 年級 讀者專業(yè) 所屬院系 索書號 書名 外借時間 圖書
類別
0101045XX 張** 女 本科生 2004 臨床醫(yī)學(xué) 臨床醫(yī)學(xué)系 I247.5/CMX 星戀 2008-12-23 文學(xué)
0101055XX 念** 男 本科生 2005 臨床醫(yī)學(xué) 臨床醫(yī)學(xué)系 R6/WZD=7 外科學(xué) 2008-12-19 醫(yī)學(xué)
0601075XX 李** 男 ??粕?2007 市場營銷 管理學(xué)院 E892.25/SWY 孫子兵法 2009-1-12 社會科學(xué)
1002065XX 張** 女 本科生 2006 計算機 信息工程學(xué)院 TP312C/ZJY C++面向?qū)ο蟪绦?2008-12-30 理工
2.1數(shù)據(jù)抽樣
當進行數(shù)據(jù)建模時,要從數(shù)據(jù)源中取出業(yè)務(wù)問題相關(guān)的樣本數(shù)據(jù)集。由于本文研究的圖書館數(shù)據(jù)量3萬多條記錄,這里把整個數(shù)據(jù)集作為研究對象。
2.2數(shù)據(jù)探索
結(jié)合技術(shù)知識與業(yè)務(wù)知識,探索數(shù)據(jù)的規(guī)律和趨勢,確定數(shù)據(jù)變量的類型,研究各變量之間的相關(guān)性,確保數(shù)據(jù)集能滿足解決業(yè)務(wù)問題的要求。針對數(shù)據(jù)建模的數(shù)據(jù)集,還要增刪、結(jié)合或生成一些新的變量。對數(shù)據(jù)各個變量進行分布分析,結(jié)合數(shù)據(jù)建模目標,對數(shù)據(jù)進行歸并、補缺、轉(zhuǎn)換或過濾。
2.3建立模型
(1)現(xiàn)有讀者閱讀興趣模型
圖1現(xiàn)有讀者圖書推薦模型
首先由圖書借閱數(shù)據(jù)表可統(tǒng)計出借閱各類圖書的讀者。當新書編好索引號便可以歸入某類圖書中,該書上架后利用該模型可以向喜歡該類圖書的讀者發(fā)出電子郵件,推薦該書。
(2)新讀者閱讀興趣模型的建立
為了對表1的圖書借閱數(shù)據(jù)進行分析挖掘,從而得出分類規(guī)則,現(xiàn)在以圖書類別為決策類別屬性,其他為條件屬性。首先對表1中數(shù)據(jù)初步分析,可知讀者條碼、讀者姓名、索書號、書名、外借時間這些屬性對決策屬性“圖書類別”沒有貢獻,不能作為條件屬性。至于年級,新讀者的年級也不可能與現(xiàn)有讀者的年級相同,但它應(yīng)該對決策屬性“圖書類別”有貢獻,故可將2007級、2006級、2005級、2004級改為低年級(包括本???年級、專升本1年級)、中年級(含本科2、3年級和???年級)、高年級(含本科4年級、醫(yī)學(xué)本科5年級、???年級、專升本2年級)。經(jīng)過分析后得到表2,篇幅所限,只列出部分數(shù)據(jù)。
表2 圖書借閱決策表
序號 性別 讀者級別 年級 讀者專業(yè) 所屬院系 圖書類別
1 女 本科生 高年級 臨床醫(yī)學(xué) 臨床醫(yī)學(xué)系 文學(xué)
2 男 本科生 中年級 臨床醫(yī)學(xué) 臨床醫(yī)學(xué)系 醫(yī)學(xué)
3 男 ??粕?低年級 市場營銷 管理學(xué)院 社科
4 女 本科生 中年級 計算機科學(xué)與技術(shù) 信息工程學(xué)院 理工
可以做分類分析的數(shù)據(jù)挖掘軟件很多,這里選用MS SQL Server Analysis軟件的決策樹分類算法[4]對表2進行分析。因為經(jīng)過分析形成的決策樹較大,故將決策樹整理得到表3,這里僅列出部分數(shù)據(jù)。
表3 圖書推薦決策表
專業(yè) 年級 讀者級別 性別 類別及百分比(%)
農(nóng)業(yè) 醫(yī)學(xué) 外語 文學(xué) 理工 社會科學(xué) 其他
臨床醫(yī)學(xué)(4731) 中年級(1437) 專升本(122) 0.83 20.00 8.33 40.83 3.33 21.67 4.17
非專升本(1325) 0.15 61.07 6.45 21.68 2.33 5.85 2.48
非中年級(3294) 專升本(246) 0.39 41.73 21.05 13.78 4.33 12.99 4.72
非專升本(3048) 男(1148) 0.26 23.62 7.35 41.00 4.07 16.35 7.36
女(1900) 0.21 25.42 12.58 48.17 1.52 8.02 4.09
計算機科學(xué)與技術(shù)(793) 高年級(113) 0.83 0.83 0.83 4.93 75.21 14.88 2.48
非高年級(680) 0.15 3.49 11.05 24.27 44.33 13.37 3.35
注:表中括號中的數(shù)字為圖書借閱次數(shù),空白處表示該屬性對分類沒有貢獻。
由表3可以得出如下規(guī)則(這里僅列出一個規(guī)則):
條件:專業(yè)=臨床醫(yī)學(xué) 并且 年級=中年級 并且 讀者級別=專升本
結(jié)論:借文學(xué)類書的占40.83%,借醫(yī)學(xué)類書的占20%,借社科類書的占21.67%。
分析表3中數(shù)據(jù)可知,在表2中,專業(yè)屬性對分類的貢獻最大,其次為年級、讀者級別、性別,而所在院系對分類沒有貢獻。另外將百分比小于10%的類別忽略掉,這樣能夠為新讀者重點推薦圖書。
3測試模型
有了上述兩個模型,就可以為新老讀者個性化推薦圖書了。
對于老讀者,圖書館新書入庫上架后,利用現(xiàn)有讀者閱讀興趣模型,新書會根據(jù)索書號加入到某一圖書類別,然后該類圖書會向已經(jīng)歸到該圖書類的讀者自動發(fā)出Email,對該新書感興趣的讀者閱讀郵件便獲知了該書入庫的信息。經(jīng)推薦實驗并抽樣調(diào)查學(xué)生讀者可知書目推薦符合學(xué)生興趣率達90%以上。
對于新入學(xué)的學(xué)生,根據(jù)新讀者閱讀興趣模型中的分類規(guī)則,向新讀者推薦圖書,經(jīng)推薦實驗并抽樣調(diào)查學(xué)生讀者可知書目推薦符合學(xué)生興趣率達85%以上。
4 模型評估
確定模型的數(shù)據(jù)輸入、輸出和分析建模結(jié)果的發(fā)布方式:以數(shù)據(jù)接口的方式發(fā)布,把分類結(jié)果定期寫回數(shù)據(jù)庫,實現(xiàn)與原有圖書管理系統(tǒng)的集成,提供給圖書館管理人員使用?,F(xiàn)有讀者閱讀興趣模型處理借閱信息的結(jié)果可以幫助我們:(1)根據(jù)讀者群需求特征提供信息咨詢和定制服務(wù),引導(dǎo)用戶快速查找所需的數(shù)據(jù)和信息,協(xié)助圖書館更好地提供服務(wù);(2)根據(jù)分群結(jié)果,提供符合用戶需求的個性化服務(wù)內(nèi)容。新讀者閱讀興趣模型對新生推薦圖書可以幫助我們:(1)幫助培養(yǎng)新讀者的的閱讀興趣,節(jié)省其查找圖書的漫長過程;(2)極大提高圖書館圖書的使用效率。
此外,讀者閱讀興趣模型的推薦結(jié)果有利于圖書館提高圖書資源采購的針對性,有利于館藏資源的整合,能夠使有限的資金發(fā)揮最大的作用。對于圖書館網(wǎng)站欄目、內(nèi)容層次、讀者角色的劃分都有著重要的參考意義。
5 結(jié)束語
本文建立了一個基于數(shù)據(jù)挖掘的讀者閱讀興趣模型,嘗試在利用數(shù)據(jù)挖掘技術(shù)對圖書館借閱數(shù)據(jù)進行分析,建立了向老讀者個性化推薦新書、向新讀者個性化推薦圖書的模型,對于培養(yǎng)新讀者閱讀興趣,提供符合老讀者的個性化書目信息,做出了有益的探索,并對一個圖書館藏書結(jié)構(gòu)建設(shè)有很大的幫助。下一步將結(jié)合其他數(shù)據(jù)挖掘技術(shù)對圖書借閱進行處理分析,以提高所推薦書目對讀者興趣的符合率,更好的為讀者提供個性化服務(wù)。
參考文獻:
[1] 唐安順. 淺談圖書館的個性化信息服務(wù)[J]. 圖書館, 2009(4): 126-127.
[2] 王艷. 數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用[J]. 情報科學(xué), 2003(2): 211-214.
[3] 楊文珠. 圖書館個性化信息服務(wù)技術(shù)與應(yīng)用分析[J]. 圖書館理論與實踐, 2008(4): 92-94.
注:文章內(nèi)所有公式及圖表請以PDF形式查看。