唐秋鴻, 曹紅兵, 唐小新, 李高虎, 高 嵩
(1.暨南大學 管理學院,廣東 廣州 510632;2.廣西大學 圖書館,廣西 南寧 530004;3.北京郵電大學 資產經營公司,北京 100876)
個性化服務的實質是一種以用戶需求為中心的服務[1],它不僅可以有效地解決用戶“信息過載”與“信息迷航”問題,而且可以極大地提高圖書館的服務質量和資源的有效利用,因此成為當前圖書館新型服務模式的主流,而個性化服務系統(tǒng)則成為圖書館數(shù)字化、網(wǎng)絡化服務的必然選擇。
目前,國內外圖書館個性化服務系統(tǒng)正在起步,較具代表性的圖書館個性化服務系統(tǒng)有美國康奈爾大學圖書館的 Mylibrary@Cornell、北卡羅萊那州立大學圖書館的Mylibrary@Ncstate、洛杉磯國際研究實驗室圖書館的Mylibray@LANL、浙江大學圖書館的MyLibrary、深圳圖書館的ILAS“我的圖書館”、中國國家圖書館的“我的圖書館”、中國人民大學圖書館的Kingbase DL和華中科技大學圖書館的Mylibrary@HUST等。這些系統(tǒng)的功能主要包括對資源的鏈接、定制、檢索、最新資源通告以及文獻傳遞等[2-4]。而基于Web日志挖掘技術的個性化服務系統(tǒng)的研究也開始出現(xiàn)。文獻[5]提出應用Web日志挖掘技術可以幫助提高個性化推薦系統(tǒng)的可伸縮性、精確性和靈活性。文獻[6]提出了一個兩步Apriori改進算法,可對用戶的 Web訪問進行貼身指導。文獻[7]提出了一個智能算法,能從Web訪問日志中自動挖掘用戶的訪問軌跡。文獻[8]提出了一個基于用戶訪問時間和訪問密度的用戶偏好算法,可以更精確地發(fā)現(xiàn)用戶偏好。文獻[9]采用OLAP技術和數(shù)據(jù)挖掘技術對用戶的訪問模式和趨勢進行了挖掘,從而提高了Web系統(tǒng)的性能。文獻[10]給出了一種基于項目與客戶聚類的協(xié)同過濾推薦方法,增強了推薦算法的實時性,提高了推薦服務的質量。
但是,現(xiàn)有的圖書館個性化服務系統(tǒng)功能明顯不能滿足用戶需求,而當前大多數(shù) Web日志挖掘方面的研究缺乏對圖書館個性化系統(tǒng)的支持,或者只關注于算法、性能等技術層面,對圖書館用戶個性化模型的深度挖掘不足,從而導致圖書館個性化系統(tǒng)的個性化服務水平低,個性化應用效果不夠明顯。
本文通過運用Web日志挖掘技術對用戶在圖書館OPAC環(huán)境下的信息使用行為、習慣進行深度挖掘,構建一種動態(tài)的讀者信譽度評估機制,用以科學地劃分圖書館用戶群體,設計能提供滿足其個性特征和需求的個性化服務功能及其組合,以便為進一步開發(fā)與應用圖書館個性化服務系統(tǒng)提供技術基礎。
在分析總結當前常見的圖書館個性化服務方式與類型的基礎上,本文提出了一個兼顧虛擬與物理世界信息服務的圖書館個性化服務系統(tǒng)結構模型,如圖1所示,以期為圖書館用戶提供一個全方位、多角度、立體化、智能化及人性化的個性化信息服務。
圖1 圖書館個性化服務系統(tǒng)結構
所構建的圖書館個性化服務系統(tǒng)由虛擬個性化服務和物理個性化服務2大部分組成。前者主要指以圖書館和網(wǎng)絡虛擬資源為基礎,利用網(wǎng)絡為不同的用戶提供基于圖書館虛擬環(huán)境的個性化服務,它又包括個性化定制服務、個性化推送服務、個性化檢索服務、個性化收藏服務、個性化信息聚合服務、個性化知識管理服務、個人歷史信息管理服務和個人賬戶管理服務。后者主要指以圖書館實體資源為基礎,為用戶提供基于圖書館物理環(huán)境的個性化服務,它又包括6個組成部分,即一卡通管理服務、智能識別服務、智能定位服務、智能導讀服務、自助服務和電話服務。虛擬個性化服務和物理個性化服務兩者相互結合,互為補充,并通過RFID電子標簽進行信息交流,共同為用戶打造一個全面、立體、融合物理與虛擬世界的個性化服務空間[11]。
圖書館讀者信譽度是指讀者在使用圖書館資源與服務的過程中,對圖書館資源與服務的利用情況及其對圖書館各項規(guī)章制度的遵守程度并因此影響其第2次使用的各種因素的總和。因此,讀者入館情況、讀者對圖書館文獻資料的借閱、查詢、瀏覽、下載及對所借文獻資料按時歸還的情況、對圖書館文獻資料完整性的保護程度,以及對圖書館公共服務設施的使用情況等,都應當納入圖書館讀者信譽度評估體系之中,如圖2所示,以形成系統(tǒng)的讀者信譽監(jiān)督機制,并用以更好地劃分圖書館用戶群體,從而支持圖書館的個性化服務,提升圖書館的服務效率和水平,進而提高讀者的滿意度。
圖2 圖書館讀者信譽度評估模型
隨著圖書館文獻信息服務手段的不斷進步,日益暴露出圖書館讀者信譽評價研究上的缺失,即決策手段不足、缺乏數(shù)據(jù)支持、服務方式單一、應用領域狹窄等。因此,基于圖書館流通業(yè)務系統(tǒng)中讀者借閱、罰款等日志記錄,即利用讀者對圖書館文獻資料的借、還、約和滯還、丟失、損壞、賠償?shù)热罩居涗?,通過數(shù)據(jù)挖掘方式,構建形成一種動態(tài)的讀者信譽度評估機制,并用以科學劃分讀者群,從而為圖書館個性化服務系統(tǒng)的功能設計和開發(fā)提供依據(jù)和決策支持。
讀者信譽度的數(shù)據(jù)挖掘主要是指運用Web日志挖掘技術,對圖書館流通業(yè)務系統(tǒng)中一定周期內讀者的借閱、歸還、罰款等日志記錄進行挖掘,并通過使用聚類分析、異常檢測分析等方法來分析處理挖掘結果,最終形成一種動態(tài)的讀者信譽度評估機制的過程。讀者信譽度的數(shù)據(jù)挖掘的主要思想和方法是:從大量的流通日志歷史記錄(D)中,匯總所有讀者某一時間段(T)內借、還、約文獻資料的總次數(shù)(F)和因滯還、丟失、損壞文獻資料而被罰款的總金額(P),再利用數(shù)據(jù)挖掘聚類分析方法對這三者之間的關系進行分析,以形成一個動態(tài)的讀者信譽度評估體系,用以科學地劃分讀者群,從而指導圖書館個性化服務系統(tǒng)的功能設計和開發(fā)。具體挖掘流程如圖3所示。
圖3 讀者信譽度的數(shù)據(jù)挖掘流程
讀者信譽度的數(shù)據(jù)挖掘流程主要包括:
(1)對圖書館流通業(yè)務系統(tǒng) MELINETSⅡ數(shù)據(jù)庫中的2個日志表CIRCULLOG_A和CHARGE_LOG_A進行分析。其中,CIRCULLOG_A是記錄讀者借、還、約文獻資料等借閱行為的流通日志表;CHARGE_LOG_A是記錄讀者因滯還、丟失、損壞文獻資料而被罰款等信息的罰款日志表。通過對上述2個日志表中的數(shù)據(jù)進行分析,再根據(jù)數(shù)據(jù)字典中各字段表示的含義進行數(shù)據(jù)清理和數(shù)據(jù)選擇,為下一步數(shù)據(jù)倉庫的建立準備所需的數(shù)據(jù)。
(2)在Oracle Database 10g R2數(shù)據(jù)庫環(huán)境中,建立數(shù)據(jù)倉庫方案 Analysis Data Warehouse,并在該方案下創(chuàng)建數(shù)據(jù)挖掘表CIRCULANALYSIS。
(3)選擇ODM(Oracle Data Mining)數(shù)據(jù)挖掘工具進行挖掘,再利用聚類分析(Cluster Analysis)和異常檢測分析 (Anomaly Detection)方法分析處理挖掘結果,形成初步的讀者信譽度評價體系。
(4)利用圖書館流通、采訪等業(yè)務部門抽樣調查與用戶個人信息相結合的方式對以上所形成的讀者信譽度評價體系進行評估,并將評估后的讀者信譽度評價體系應用于圖書館用戶群體的劃分,從而為開發(fā)與利用圖書館個性化服務系統(tǒng)奠定技術基礎。
數(shù)據(jù)挖掘算法繁多,僅在聚類分析方面,就有Beefman聚類法、神經網(wǎng)絡聚類法、模糊聚類法、加權聚 類 法 等[4,12-13]。因 此,在 建 立 用 戶 個性化服務模型的過程中,必須根據(jù)不同的挖掘任務需求,研究選用適宜的數(shù)據(jù)挖掘算法,以便實現(xiàn)最佳的數(shù)據(jù)挖掘效果。本文主要通過使用聚類分析方法,對從圖書館流通業(yè)務系統(tǒng)中大量的Web流通日志記錄挖掘得到的結果進行分析,來形成一種動態(tài)的讀者信譽度評估機制。所謂聚類分析方法,是指根據(jù)數(shù)據(jù)對象間相似性條件的滿足與否進行數(shù)據(jù)劃分,并把物理或抽象對象的集合組成由類似對象組成的多個類或簇的一種數(shù)據(jù)分析方法。聚類分析所劃分的類或簇的數(shù)量與類型均是事先未知的、非預定的。由聚類生成的簇是一組數(shù)據(jù)對象的集合。同一簇中的對象盡可能相似[14],使得組間的差別盡可能大,組內的差別盡可能小。簇與簇之間可以按照給定的聚類參數(shù)(如距離等)進行分解和合并。因此,可以將聚類分析方法應用于圖書館讀者群體的聚集和劃分,以及讀者集群特性的分析等。
聚類分析的算法主要有k-中心點算法和k-平均算法(即k-means算法)2種。在k-中心點算法中,每個簇用接近聚類中心的一個對象來表示;而在k-means算法中,每個簇用該簇中對象的平均值來表示。本文采用k-means算法來對讀者信譽度挖掘結果進行分析。
在k-means聚類分析算法中,假定Ni為第iP聚類ci中的樣本數(shù)目,mi是樣本的均值。若分成k類,則各聚類的均值表示為:
誤差平方和為:
其中,E為觀測數(shù)據(jù)中所有對象平方誤差綜合;P為空間中的點;mi為聚類ci中的平均值(P和mi是多維的)。對于不同的分類,k值不同,則E值就不相同,使E達到最小的分類數(shù)k被認為是當前的目標數(shù)[15-16]。
本文通過在Oracle Database 10g R2數(shù)據(jù)庫環(huán)境中創(chuàng)建數(shù)據(jù)倉庫,利用ODM數(shù)據(jù)挖掘工具,對廣西某高校圖書館MELINETSⅡ系統(tǒng)中2010年的173.45×104條流通日志記錄和20.5×104條罰款日志記錄進行了挖掘,并采用聚類分析和異常檢測分析算法,對讀者行為進行了聚類分析,獲得的聚類分析結果見表1所列。
依據(jù)表1中的挖掘結果,建立了一種基于MELINETSⅡ平臺的動態(tài)的圖書館讀者信譽度評估機制:全部讀者按照其一定時間內(如以半年或一年為單位統(tǒng)計)借還總次數(shù)和罰款金額數(shù)的情況劃分信譽等級,一共劃分成5個等級,以信譽星級來標識。按信譽度從高到低,依次可分為五星級、四星級、三星級、二星級和一星級。
例如,可將1年內借還總次數(shù)少于20次,罰款金額低于5.73元(見表1聚類3)的讀者劃分為二星級讀者;而將1年內借還總次數(shù)少于58次,罰款金額高達57.33元(見表1聚類9)的讀者劃分為一星級讀者。星級越低,說明讀者在該時間段內的信譽度越低,且使用圖書館資源與服務的頻率越低。
表1 讀者行為聚類分析結果
將讀者按照上述信譽星級劃分為不同的用戶群體后,通過深入分析不同群體的信息使用行為和特點,建立相應時間段內的動態(tài)的用戶需求模型;根據(jù)用戶需求模型,圖書館可以提供能滿足不同信譽星級讀者群體需求及特點的個性化服務功能或其組合,如圖4所示。
圖4 基于讀者信譽度評估模型的圖書館個性化服務功能
通過分析發(fā)現(xiàn),四星或五星級讀者信譽度較高,熟悉并遵守圖書館的各項規(guī)章制度,熟悉并經常使用圖書館提供的各種資源與服務,是圖書館主要依靠和重點保障的VIP讀者。對于這部分讀者,圖書館要竭盡全力、充分利用各種現(xiàn)代化信息技術和手段,為他們提供所需要的資源與服務,以最大限度地滿足其個性化服務需求。為此,圖書館可通過增加這部分讀者的館藏文獻借閱冊數(shù)和借閱期限,并為其提供更多、更靈活的個性化定制、推送、收藏、檢索,以及個人知識管理和個人信息管理(如Email定制、手機短信定制、手機短信推送、手機短信查詢、移動閱讀、移動數(shù)據(jù)庫檢索、移動數(shù)字化多媒體館藏借閱、移動音頻導航服務、自助服務,以及SNS、博客、播客、評論、標簽等Lib2.0功能等)服務功能,實現(xiàn)其個性化服務目標。
而一、二星級讀者信譽度較差,不太熟悉圖書館的各項規(guī)章制度和所提供的各種資源與服務,且較少使用圖書館的資源與服務,是圖書館要努力爭取和培養(yǎng)的惰性讀者和潛在VIP讀者。對于這部分讀者,圖書館要想方設法促使其更多地利用圖書館的資源與服務,并自覺遵守圖書館的各項規(guī)章制度。為此,圖書館可采取在一定時間內減少其館藏文獻借閱冊數(shù)和借閱期限,并加強圖書超期提醒、個人借閱信息推送和新生培訓、“怎樣利用圖書館”和數(shù)據(jù)庫專題講座等各種培訓信息的推送以及多種形式的多媒體培訓課件、培訓視頻文件、在線實時培訓等培訓服務,以及FAQ、Email咨詢、手機短信咨詢、在線實時咨詢等各種咨詢服務和新書通報、好書推薦、專題導航、學科導航、課程導航等各種資源推薦和導航服務來實現(xiàn)其服務目標。
讀者信譽度評估體系維系著讀者對圖書館的信譽度和忠誠度,是圖書館服務和管理工作的重點,也是圖書館從被動、通用性服務向主動、智能化、個性化服務轉型要解決的重要問題之一。本文提出了一個兼顧虛擬與物理世界信息服務的圖書館個性化服務系統(tǒng)結構模型及讀者信譽度評估模型,采用 Web日志挖掘技術對圖書館MELINETS系統(tǒng)中大量的Web流通日志記錄進行了挖掘,構建了一種能反映不同用戶個體和群體信息使用行為、習慣及其變化特征的動態(tài)的讀者信譽度評估機制,用以科學地劃分讀者群,根據(jù)不同信譽星級讀者群體的不同特點和需求,設計了能提供滿足其個性特征和需求的個性化服務功能及其組合。這些工作為進一步開發(fā)與應用圖書館個性化服務系統(tǒng)提供了技術基礎。
[1]崔 林,宋瀚濤,龔永罡,等.基于 Web使用挖掘的個性化服務技術研究[J].計算機系統(tǒng)應用,2005(3):23-26.
[2]呂艷麗.基于Web使用挖掘的圖書館個性化系統(tǒng)研究[J].圖書館學刊,2006(4):135-137.
[3]錢 力.數(shù)字圖書館個性化信息服務系統(tǒng)的研究與設計[D].北京:首都師范大學,2008.
[4]李雪倩.Web使用記錄挖掘在數(shù)字圖書館個性化服務中的應用研究[D].哈爾濱:黑龍江大學,2008.
[5]Mobasher B,Cooley R,Srivastava J.Automatic personalization based on Web usage mining[J].Communication of the ACM,2000,43(8):142-151.
[6]Lazcorreta E,Botella F,F(xiàn)ernández-Caballero A.Towards personalized recommendation by two-step modified Apriori data mining algorithm[J].Expert Systems with Applications,2008,35(3):1422-1429.
[7]Tug E,Skiroglu M,Arslan A.Automatic discovery of the sequential accesses from Web log data files via a genetic algorithm [J].Knowledge-Based Systems,2006,9(3):180-186.
[8]Wang Shuqing,She Li,Liu Zhen,et al.Algorithm research on user interests extracting via Web log data[C]//2009International Conference on Web Information Systems and Mining,WISM 2009,2009:93-97.
[9]Zaiane O R,Xin Man,Han Jiawei1.Discovering Web access patterns and trends by applying OLAP and data mining technology on Web logs[C]//Proceedings of the 1998IEEE Forum on Research and Technology Advances in Digital Libraries,ADL,1998:19-29.
[10]張 娜,何建民.基于項目與客戶聚類的協(xié)同過濾推薦方法[J].合肥工業(yè)大學學報:自然科學版,2007,30(9):1159-1162.
[11]曹紅兵,唐秋鴻,唐小新,等.物聯(lián)網(wǎng)環(huán)境下的高校圖書館個性化服務體系構建[J].情報理論與實踐,2011,34(3):70-76.
[12]李亞飛,劉業(yè)政.Web挖掘的體系研究[J].合肥工業(yè)大學學報:自然科學版,2004,27(3):305-309.
[13]李超鋒.Web使用挖掘關鍵技術研究[D].武漢:華中科技大學,2007.
[14]羅 可,蔡碧野,吳一帆,等.數(shù)據(jù)挖掘中聚類的研究[J].計算機工程與應用,2003(20):182-184,218.
[15]高孝梅.基于聚類分析的圖書館讀者閱讀習慣調查[J].情報探索,2010(12):11-12.
[16]張建民,姚 亮,胡學鋼.一種面向數(shù)據(jù)缺失問題的K-means改進算法[J].合肥工業(yè)大學學報:自然科學版,2008,31(9):1455-1457.