郭淑紅 徐玉梅
[摘要]本文通過對圖書館個性推薦概念、原理、圖書推薦系統(tǒng)概況及存在問題進(jìn)行深入分析,提出個性化圖書推薦創(chuàng)新策略,并對數(shù)據(jù)挖掘技術(shù)在個性化圖書推薦系統(tǒng)實(shí)施過程中出現(xiàn)的用戶隱私問題、用戶信息獲取局限性問題以及信息安全問題進(jìn)行仔細(xì)思考與展望,以期對圖書館界同行提供有益幫助。
[關(guān)鍵詞]高校圖書館;個性化;圖書推薦;研究
[中圖分類號]G250.7 [文獻(xiàn)標(biāo)識碼]A 文章編號:1671-0037(2016)12-79-3
隨著新興網(wǎng)絡(luò)媒體的日益盛行和高校辦學(xué)規(guī)模的不斷擴(kuò)大,高校傳統(tǒng)圖書與電子圖書的數(shù)量劇增,每年以幾萬冊不等的數(shù)量增長,一方面,在校大學(xué)生要在茫茫書海中快速尋找符合自己需要的圖書,面對繁冗信息無從下手。另一方面,用戶需求多樣化、個性化,傳統(tǒng)的檢索系統(tǒng)滿足不了讀者的個性需求。這就需要采取數(shù)據(jù)挖掘技術(shù),將讀者的信息、圖書的信息及讀者借閱信息進(jìn)行深度挖掘與數(shù)據(jù)分析,將用戶的隱性信息搜集整理成讀者喜好的借閱模式的顯性信息,便于對不同用戶信息需求提供精準(zhǔn)個性化圖書推薦。當(dāng)前,加強(qiáng)精準(zhǔn)個性化圖書推薦及提高用戶滿意度已成為圖書館界研究的熱點(diǎn)和重點(diǎn)。
1
圖書館個性推薦概念及原理
1.1圖書館個性推薦的概念
圖書館個性推薦是指以讀者的個人背景、專業(yè)、習(xí)慣、愛好和提出的特別要求等為依據(jù),對每一位讀者提供個性化推薦服務(wù)。
1.2個性化推薦原理
個性化推薦是信息的重組過程,是信息資源的再分配,是一種基于用戶需求的個性化信息服務(wù)模式。其原理是以充分挖掘用戶的個性化需求信息為前提,主動組織信息資源,并向用戶推送其感興趣的信息資源和信息服務(wù)。一方面是社會進(jìn)步與圖書館自身發(fā)展的需要,有利于提高圖書館的科技能力與服務(wù)水平。另一方面節(jié)省用戶獲取有效文獻(xiàn)信息時間,激發(fā)讀者閱讀興趣,提高圖書的使用效率,提高用戶的滿意度。
2圖書推薦系統(tǒng)概況
2.1推薦系統(tǒng)背景
推薦系統(tǒng)最初廣泛應(yīng)用于電子商務(wù)、電影推薦、音樂推薦等領(lǐng)域。它不僅為不同用戶提供了方便商品、信息資源,還為網(wǎng)站獲得了不菲的贏利空間。亞馬遜是最早使用推薦系統(tǒng)的網(wǎng)站,其每年20%-30%的銷售來源于推薦系統(tǒng)。如今將個性化推薦系統(tǒng)應(yīng)用于圖書館,深度挖掘個性化推薦的精準(zhǔn)度及用戶滿意度已是圖書館界研究的熱點(diǎn),無疑將對圖書館自身發(fā)展與建設(shè)起著較大的推動作用。
2.2傳統(tǒng)推薦系統(tǒng)種類
2.2.1基于內(nèi)容的推薦方法。根據(jù)用戶購買過的商品,計(jì)算將要購買的商品與已購商品的相似度,按相似度的大小排序向用戶進(jìn)行推薦。該方法優(yōu)點(diǎn)是操作簡便,推薦質(zhì)量相對較高。缺點(diǎn)是算法復(fù)雜,處理復(fù)雜結(jié)構(gòu)難度大。
2.2.2基于用戶的協(xié)同過濾方法。根據(jù)用戶的基本信息和行為數(shù)據(jù),尋找與該用戶相似的其他用戶,把其他用戶的感興趣的商品或信息推薦給該用戶。該推薦方法不需對圖書內(nèi)涵進(jìn)行深入分析,只需對讀者的特征及借閱記錄進(jìn)行分析,就能獲得讀者感興趣的個性化圖書推薦。該方法優(yōu)點(diǎn)是能作音頻、視頻處理,算法簡便,針對用戶評價(jià)提供個性化推薦程度高。缺點(diǎn)是易產(chǎn)生冷啟動、數(shù)據(jù)稀疏問題。
2.2.3基于關(guān)聯(lián)規(guī)則的推薦方法。該方法是如何建立關(guān)聯(lián)規(guī)則,根據(jù)用戶關(guān)聯(lián)規(guī)則的相似性,向用戶推薦所需個性化信息。該推薦方法能夠分析隱藏的關(guān)聯(lián)規(guī)則,不足是由于圖書管理系統(tǒng)中數(shù)據(jù)量大、類型復(fù)雜、學(xué)科跨度大等原因,造成圖書特征展示不全面,推薦質(zhì)量較低,推薦效果不佳。
2.2.4混合推薦方法。該方法使用多種推薦方法,各種方法博采眾長,查漏補(bǔ)缺。
總之,本文通過中國知網(wǎng)搜索“個性化圖書推薦系統(tǒng)”,共獲得56 318條結(jié)果,1979-1999年發(fā)表文章不足100篇,2000-2003年達(dá)到近1 000篇,2004-2014年增速較快,且2014年達(dá)到最高值6 172篇,表明我國圖書推薦系統(tǒng)研究進(jìn)入快速發(fā)展、重點(diǎn)關(guān)注及熱門研究階段,2015年達(dá)3 320篇,稍有回落,說明我國此方面研究進(jìn)入良性發(fā)展、逐步完善與理性研究階段。從發(fā)表文章及研究成果進(jìn)行分析來看,我國圖書推薦系統(tǒng)理論研究居多,用于實(shí)踐居少;開發(fā)人員雖然也進(jìn)行了針對性的開發(fā)技術(shù)研究,但不能完全滿足讀者的個性化需求。這就要求我們在以后的工作中,要充分借鑒已取得數(shù)據(jù)挖掘技術(shù)的相關(guān)成果,根據(jù)學(xué)校定位、館藏特色及讀者需求,研究、設(shè)計(jì)出符合本館特色的個性化圖書推薦系統(tǒng)。
3傳統(tǒng)推薦系統(tǒng)存在問題
3.1數(shù)據(jù)分布不均
圖書館的信息資源大多由自建信息資源、外購數(shù)據(jù)資源和共享數(shù)據(jù)資源構(gòu)成。在數(shù)字資源引進(jìn)上,高校圖書館或采購部門根據(jù)學(xué)校特色、學(xué)科需求、資源需求、現(xiàn)有資源等因素合理建立所需館藏資源,每所高校都有不同辦學(xué)特色,因此,不同高校館藏資源分布無論種類、數(shù)量都存在分布不均衡的現(xiàn)象。而公共圖書館偏重于讀者喜好、需求與使用量來采購圖書資源,這就造成某些類圖書資源過多,而另一些類圖書資源相對匱乏的現(xiàn)象。
3.2數(shù)據(jù)整體稀疏
隨著傳統(tǒng)圖書館向數(shù)字圖書館、智慧圖書館轉(zhuǎn)變,圖書館的信息資源越來越豐富,讀者使用數(shù)字資源的人數(shù)也呈逐年上升趨勢。如果圖書館的信息資源與讀者之間產(chǎn)生關(guān)系與所有關(guān)系占比來看,由于圖書館的信息資源有一定重復(fù)率,而讀者是唯一的沒有重復(fù)性,且大部分讀者所選信息資源重復(fù)率較低,所以,相對而言,圖書館的信息資源數(shù)據(jù)存在整體稀疏性。另外,隨著辦學(xué)規(guī)模與招生人數(shù)的增加,大部分高校圖書館圖書的數(shù)量是在校生人數(shù)的100倍,且圖書每年以6%左右的數(shù)量遞增,而圖書館75%的圖書未被借閱,這也造成圖書館歷史借閱數(shù)據(jù)的極大稀疏性。數(shù)據(jù)的稀疏性直接影響個性化信息推薦,且推薦效果不佳。
3.3傳統(tǒng)個性化服務(wù)方式不足
在傳統(tǒng)的個性化信息服務(wù)中,通常采用問卷調(diào)查、網(wǎng)絡(luò)訪談、電話咨詢等方式針對讀者不同信息需求,由學(xué)科館員進(jìn)行搜集、整理、加工、分析,提供針對性的個性化圖書推薦服務(wù)。隨著大數(shù)據(jù)時代的到來,圖書館信息繁冗而復(fù)雜,傳統(tǒng)的個性化服務(wù)方式越來越不能滿足讀者的信息需求。
3.4用戶流失現(xiàn)象
面對互聯(lián)網(wǎng)的快速發(fā)展與信息技術(shù)高速增長,由于圖書館個性化信息服務(wù)不強(qiáng)及使用不便等原因,當(dāng)今大學(xué)生讀者對圖書館的依賴性越來越低。表現(xiàn)為到館率低,紙質(zhì)圖書與期刊借閱率呈逐年下降的趨勢,他們更多的是借助百度、谷歌、SNS等獲得信息支持。
3.5社交網(wǎng)站的信息反饋參考
隨著互聯(lián)網(wǎng)信息快速發(fā)展及web2.0、web3.0在社交網(wǎng)站的廣泛應(yīng)用,廣大的讀者在豆瓣網(wǎng)(中文網(wǎng)站中除新浪微博、人人網(wǎng)而排名第三)、讀書網(wǎng)站、電影電視劇網(wǎng)站、電子購物網(wǎng)站等留下了大量的評論信息,這些網(wǎng)站擁有大量的來自不同職業(yè)類型層次的讀者,其龐大的信息評論可以作為深入挖掘數(shù)據(jù)的重要參考依據(jù)。
4個性化圖書推薦創(chuàng)新策略
4.1擴(kuò)大宣傳渠道,加大采購力度
圖書館信息資源分布不均,極易產(chǎn)生冷啟動問題。為此,一方面,圖書館要加大宣傳渠道,對讀者因不了解館藏信息資源而借閱率不高的圖書加大宣傳力度,主動向讀者宣傳推介,激發(fā)讀者閱讀興趣,提高資源的使用率。另一方面,加大類別欠缺圖書的采購力度,豐富館藏資源,加大貧乏資源的引進(jìn)力度。另外,利用多維數(shù)據(jù)交叉推薦的方法,也能在一定程度上解決冷啟動問題。
4.2減少圖書復(fù)本,增加購書品種
國家對本科高校水平評估指標(biāo)中,每年采購一定數(shù)量的新書,對采購圖書的復(fù)本數(shù)沒有嚴(yán)格的限制,導(dǎo)致只注重?cái)?shù)量而不注重品種及質(zhì)量,加之各高校經(jīng)費(fèi)有限,用于圖書館購買新書的經(jīng)費(fèi)更是有限,所以,不能保質(zhì)保量地完成每年新增圖書的采購,導(dǎo)致庫存資源因復(fù)本多而整體稀疏。所以,采購圖書,應(yīng)側(cè)重增加圖書種類,嚴(yán)格限定復(fù)本數(shù),以此緩解整個庫存資源的圖書稀疏問題。另外,可以把讀者或資源進(jìn)行粗粒化,使數(shù)據(jù)變得稠密,從而有效緩解數(shù)據(jù)整體稀疏問題。
4.3針對不同用戶,實(shí)施信息推送
一是智能手機(jī)終端、IPAD等移動設(shè)備的普及,高校圖書館師生普遍通過移動終端獲取信息服務(wù)已成共識。為此,高校圖書館適時推出微信、微博、掌上電腦、移動圖書館等服務(wù),通過信息瀏覽記錄獲取讀者地理位置、閱讀興趣的行為信息,從而進(jìn)行深入挖掘與分析,為用戶提供精準(zhǔn)個性化信息服務(wù);二是針對讀者借閱館內(nèi)信息資源,為讀者提供相似讀者的圖書推薦信息,向讀者推薦尚未發(fā)現(xiàn)的館藏資源;三是針對讀者使用移動終端位置及類型,向讀者及時提供新進(jìn)圖書、書展、講座等信息服務(wù)。
4.4借鑒信息評論,提供挖掘參考
針對高校校內(nèi)讀者信息、圖書信息、借閱行為信息相對充足,校外高校館、公共館、社交網(wǎng)站讀者信息欠缺現(xiàn)象,高校圖書館應(yīng)加強(qiáng)館際交流,加強(qiáng)與資源供應(yīng)商的交流與互動,充分借鑒他們的網(wǎng)站讀者評論信息及推薦結(jié)果,有效節(jié)省圖書挖掘推薦時間,提高圖書推薦使用效率,加大閱讀推廣范圍與力度,擴(kuò)大文化宣傳作用與效果,從而達(dá)到弘揚(yáng)中華文化、傳承人類文明及促進(jìn)全民閱讀的文化氛圍。
5思考與展望
5.1用戶隱私問題
隨著數(shù)據(jù)挖掘技術(shù)在圖書館的廣泛應(yīng)用,系統(tǒng)對用戶的閱讀信息進(jìn)行篩查、甄別、分析、整理,用戶的上網(wǎng)信息數(shù)據(jù)被系統(tǒng)隱性跟蹤與實(shí)時監(jiān)控,用戶的隱私受到一定程度的侵犯及威脅。因此,一定要征求用戶的同意,及時刪除與數(shù)據(jù)挖掘不相關(guān)的讀者信息,盡量避免因讀者的信息隱私外泄而產(chǎn)生不良糾紛。
5.2用戶信息獲取的局限性
高校圖書館的讀者信息大多來源于校園內(nèi),而校園以外的讀者信息大多被數(shù)據(jù)供應(yīng)商和電信運(yùn)營商所擁有,而對數(shù)據(jù)的深度挖掘與深入分析,只有對讀者行為數(shù)據(jù)達(dá)到一定存儲規(guī)模和數(shù)據(jù)耦合度時,才能獲得精準(zhǔn)化個性圖書推薦。可見,數(shù)據(jù)來源的局限性,在一定程度上降低了個性化圖書推薦的精準(zhǔn)性。社交網(wǎng)站擁有大量用戶的社交信息、文本信息以及個人基本信息,這些數(shù)據(jù)信息的獲取有利于對讀者進(jìn)行個性化圖書的精準(zhǔn)推薦。
5-3信息安全問題
隨著大數(shù)據(jù)時代的到來,云計(jì)算、物聯(lián)網(wǎng)等技術(shù)高度開放,新讀者和新資源快速增長,云數(shù)據(jù)中心一旦遭到病毒攻擊、黑客入侵,其數(shù)據(jù)中心不僅包括豐富的數(shù)據(jù)資源、讀者信息、行為信息、閱讀興趣等,可能引起因數(shù)據(jù)資源使用不確定性而導(dǎo)致版權(quán)問題,以及因讀者信息外泄引起的不必要爭端問題。
6結(jié)語
隨著圖書數(shù)據(jù)資源日益豐富,讀者在浩瀚的書海中快速尋找到自己所需圖書確屬難事。因此,圖書館要充分發(fā)揮自己的人力、物力和技術(shù)資源優(yōu)勢,深入挖掘讀者信息、行為信息和圖書館自身資源信息,加大進(jìn)行深入精準(zhǔn)挖掘數(shù)據(jù)信息和用戶滿意度的研究,提高圖書使用效率,激發(fā)讀者閱讀興趣,提升圖書館的整體科研能力與服務(wù)水平,擴(kuò)大高校圖書館的社會地位及影響力。