陶碩(馬鞍山職業(yè)技術(shù)學(xué)院 安徽馬鞍山 243000)
基于數(shù)據(jù)挖掘技術(shù)的高校圖書館個性化書目推薦服務(wù)研究
陶碩
(馬鞍山職業(yè)技術(shù)學(xué)院 安徽馬鞍山 243000)
數(shù)據(jù)挖掘技術(shù)在高校圖書館個性化書目推薦服務(wù)中的應(yīng)用很有必要,闡述個性化書目推薦服務(wù)系統(tǒng)的設(shè)計目的和設(shè)計思路,設(shè)計了個性化書目推薦系統(tǒng)的整體構(gòu)架、功能模塊和工作流程,最后指出了數(shù)據(jù)挖掘的主要實施過程,數(shù)據(jù)源的選取和借閱信息處理等。
數(shù)據(jù)挖掘技術(shù);個性化服務(wù);書目推薦;高校圖書館
數(shù)據(jù)挖掘又可以認為是從數(shù)據(jù)庫中發(fā)現(xiàn)知識,是一個對大量數(shù)據(jù)進行分析的復(fù)雜過程,通過這一過程可以把未知的、有價值的模式等知識抽取挖掘出來。數(shù)據(jù)挖掘設(shè)計的學(xué)科領(lǐng)域很多,是一個交叉學(xué)科領(lǐng)域,使用的方法也很多,包括數(shù)據(jù)庫技術(shù)、神經(jīng)網(wǎng)絡(luò)、可視化等等。
(一)高校圖書館信息資源極大豐富化的需要。圖書館經(jīng)過這么多年的積累和沉淀不僅有濃厚的文化氛圍,更有系統(tǒng)的專業(yè)知識和豐富的館藏資源是互聯(lián)網(wǎng)資源無法可比的。伴隨著人們對與數(shù)字圖書館相關(guān)的多媒體大數(shù)據(jù)信息的研究,圖書館與網(wǎng)絡(luò)技術(shù)的結(jié)合也逐漸成為一種趨勢。現(xiàn)在,人們對館藏資源可視化的研究主要包括可視化檢索的研究和可視化檢索結(jié)果的研究。數(shù)字圖書館信息資源可視化當(dāng)前突出的問題,不只是數(shù)據(jù)資源的豐富和可視化效果要好,館藏資源的數(shù)字化過程也是個大問題,有些資源的保存介質(zhì)是很久以前的紙質(zhì),這些信息數(shù)據(jù)的數(shù)據(jù)庫錄入工作就不是件容易事,這在很大程度影響到數(shù)字圖書館的館藏資源的可視化過程。
(二)高校圖書館用戶信息需求的多樣化的要求。在高校圖書館中,用戶信息需求有其多樣化的特點[1],主要表現(xiàn)在三個方面:首先是用戶信息需求主體的多樣化,需求主體多樣化導(dǎo)致信息用戶不斷增多,不斷增多的用戶群體之間又存在不同的信息需求;其次是信息需求內(nèi)容的多樣化,需求內(nèi)容多樣化使得用戶有了更多可選擇的信息源,不同的用戶可以獲取不同的信息內(nèi)容;最后是用戶信息需求方式的多樣化,需求方式的多樣化提供了更多的途徑方便用戶獲取信息。不同的用戶可以根據(jù)自己本身的閱讀需求,從高校圖書館中可以自由選擇信息獲取的方式和內(nèi)容。
(一)圖書文獻推薦工作中的應(yīng)用。高校圖書館中最主要、最基礎(chǔ)的就是圖書文獻資源,圖書館中文獻資源的利用率是評價圖書館各項服務(wù)質(zhì)量高低的最主要因素之一,特別是個性化服務(wù)質(zhì)量的評價所占比重更大。所以,在高校圖書館中,個性化書目推薦工作是整個圖書館服務(wù)的重點。
采用聚類分析或者關(guān)聯(lián)分析的方法研究讀者的歷史借閱數(shù)據(jù)時,數(shù)據(jù)挖掘技術(shù)的利用有利于關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),對于讀者在圖書館中圖書文獻的借閱提供理論支持,簡單理解也就是不同的讀者借閱的圖書類型不同,而且同一讀者也可能會借閱不同類型的圖書,通過計算類型相關(guān)圖書文獻之間的關(guān)聯(lián)規(guī)則,可以分析得到置信度和支持度,進而可以構(gòu)建得出讀者的借閱模式,形成圖書館館藏資源基礎(chǔ)上的圖書推薦數(shù)據(jù)庫,通過對讀者借閱行為的分析從數(shù)據(jù)庫中推薦相對有用的圖書西苑給讀者。例如,通過關(guān)聯(lián)分析讀者的借閱行為,關(guān)聯(lián)性較強的有計算機編程和數(shù)據(jù)庫類型的文獻,那么當(dāng)讀者有意向?qū)τ嬎銠C編程語言圖書進行借閱時,就可以個性化的向讀者推薦數(shù)據(jù)庫類別的資源,不僅節(jié)省了讀者的查找時間,還能幫助讀者更好的學(xué)習(xí),圖書館服務(wù)的質(zhì)量得到提高。
(二)文獻檢索中的應(yīng)用。在高校圖書館提供的個性化信息推薦服務(wù)中,其中的重要一環(huán)無疑就是文獻檢索。在傳統(tǒng)的文獻檢索中,圖書館僅能把一些簡單的館藏文獻資源提供給讀者,而不是進行個性化推薦服務(wù),更遑論參考讀者的閱讀喜好和規(guī)律。
圖書館在對讀者提供個性化推薦服務(wù)時,在目標的實現(xiàn)過程中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以減輕工作強度。首先是數(shù)據(jù)準備階段,數(shù)據(jù)信息是數(shù)據(jù)的基礎(chǔ),所以數(shù)據(jù)的收集對應(yīng)的也是數(shù)據(jù)挖掘技術(shù)應(yīng)用的基礎(chǔ),收集的數(shù)據(jù)主要是讀者歷史借閱行為,這種類型的數(shù)據(jù)收集本身就是一項巨大的工程,在圖書館后臺數(shù)據(jù)庫中,數(shù)據(jù)資源是海量的,數(shù)據(jù)的收集不僅要收集讀者的歷史借閱激勵,還要把相關(guān)的讀者預(yù)約和續(xù)借等信息都收集起來。其次,是數(shù)據(jù)篩選和處理階段,該階段的數(shù)據(jù)篩選主要是處理上階段收集到的數(shù)據(jù),包括噪聲和重復(fù)數(shù)據(jù)的消除等。然后把處理后的數(shù)據(jù)進行預(yù)處理和轉(zhuǎn)換,至此構(gòu)建完成結(jié)構(gòu)化的數(shù)據(jù)庫,有助于數(shù)據(jù)挖掘算法的進一步實施。第三,是數(shù)據(jù)挖掘階段,該階段是運用關(guān)聯(lián)分析和聚類分析等方法研究建立的數(shù)據(jù)庫,把不同類型讀者閱讀的喜好和借閱書目信息分析出來。最后,結(jié)合可視化技術(shù),利用以上分析結(jié)果,把個性化的文獻推薦服務(wù)提供給讀者,當(dāng)讀者進行文獻的檢索時,通過推薦集把與讀者搜索文獻相關(guān)的其他文獻自動推薦給讀者,同時根據(jù)讀者喜好進行相關(guān)優(yōu)秀文獻的推薦,不僅能有效的進行讀者的導(dǎo)讀推薦,還能以可視化的方式把有用的數(shù)據(jù)信息呈現(xiàn)給讀者。
(三)館藏書架管理的優(yōu)化。在高校中,師生教研工作的開展進程中,作為一個重要的輔助部門,高校圖書館的館藏文獻資源十分豐富,其包含的內(nèi)容不僅囊括了本所高校設(shè)置的專業(yè)領(lǐng)域資源,還涉及了其他相關(guān)的研究領(lǐng)域,能極其有效的幫助全校師生的教學(xué)和科研,并能提供給師生個性化的推薦服務(wù)。高校圖書館有著種類繁多的館藏資源,正是因為如此,在高校圖書館科學(xué)發(fā)展中,館藏書架管理工作的優(yōu)化極為重要,而其中的一個重點方向就是圖書文獻變化趨勢預(yù)估,在書架上給預(yù)測出的最新文獻預(yù)留出位置,盡量減少書架上圖書的倒架次數(shù),做到舊文獻的及時剔除,新文獻的迅速上架。
上面所述館藏書架的優(yōu)化管理,可以通過數(shù)據(jù)挖掘技術(shù)的引入來實現(xiàn),首先針對圖書館的歷史圖書文獻借閱日志,選擇預(yù)測分析技術(shù)進行數(shù)據(jù)分析,選用的方法為回歸與時序分析方法,可以得出文獻被借閱的周期變化,之后對整理好的圖書流通日志進行具體分類,并采用統(tǒng)計方法對其進行統(tǒng)計分析,把借閱增幅較大和借閱頻繁的館藏資源挑選出來,并根據(jù)這些數(shù)據(jù)按照排架規(guī)則進行圖書的上架管理,在容易查找的書架位置放置借閱量較大的館藏資源,并預(yù)留位置給那些借閱增幅較大的館藏文獻,使圖書的倒架次數(shù)減小。最后,要及時剔除陳舊文獻,實時更新上架新文獻,要對館藏文獻資源中的圖書進行分類分析,統(tǒng)計出來已印刷新版的舊版圖書、擁有過多副本的館藏圖書、殘缺破損的圖書以及規(guī)定時間已到不予以流通的圖書,按照以上圖書分類分別統(tǒng)計各類圖書的數(shù)量及其具體所在書架位置,然后對整理好的圖書做到及時的下架,并將下架信息反饋給相關(guān)管理單位,使圖書館館藏文獻資源的及時更新得到保障。
(一)系統(tǒng)結(jié)構(gòu)設(shè)計。針對高校圖書館設(shè)計出的個性化服務(wù)模型圖1可知,其基本流程從第一步的用戶注冊直至個性化服務(wù)的提供圖中已經(jīng)有詳細的示意,首先是采集用戶信息,然后根據(jù)信息數(shù)據(jù)對整體用戶利用相關(guān)技術(shù)進行建模,最后匹配規(guī)則庫與針對用戶多構(gòu)建的模型提供給用戶個性化的信息服務(wù)。
圖1 切其于數(shù)據(jù)挖掘的個性化系統(tǒng)結(jié)構(gòu)圖
由上圖所示,該個性化系統(tǒng)主要包括在線推薦模塊和離線挖掘模塊兩大模塊,分別表示為實線圖和虛線圖,而在知識庫中,分別由資源的采集、存儲、加工處理以及最后服務(wù)的提供一起構(gòu)成了知識的獲得。其中前三層提供數(shù)據(jù)基礎(chǔ)給第四層的資源服務(wù)層進行知識的推送。在該模型中,數(shù)據(jù)采集階段主要是對一些比較零散的數(shù)字信息進行采集,一般情況下包括圖書館的館藏資源信息,讀者基本信息、借閱記錄以及檢索記錄,最后資源處理階段要對采集到的信息進行加工處理,保證能實時進行數(shù)據(jù)庫信息的更新,資源數(shù)據(jù)的時效性才能得到有效的保證。其知識資源獲取結(jié)構(gòu)如圖2所示。
圖2 知識資源獲取結(jié)構(gòu)
在資源采集層中,主要由兩種信息采集方式:一種是自動采集方式,讀者在圖書館進行借閱時,系統(tǒng)提取借書證中的讀者個人信息并在讀者信息庫中進行存儲;一種是對讀者信息進行手工采集,這主要是在讀者借書證中存在不完全的個人信息記錄的情況下才會采用,這部分信息不全的讀者在借書時,工作人員需要對讀者遺缺的信息進行手工的補充。在資源處理層中,要清理不規(guī)范的數(shù)據(jù)并進行適當(dāng)?shù)母袷睫D(zhuǎn)化,使數(shù)字信息可被數(shù)據(jù)挖掘識別,最后通過數(shù)據(jù)挖掘,存儲轉(zhuǎn)換后的知識并提供給讀者個性化的服務(wù)。
(二)系統(tǒng)功能描述。
首先是收集用戶信息模塊,該模塊還有兩個子模塊,分別為圖書信息采集和讀者信息采集模塊。在前一個模塊中主要是準備全面的圖書信息提供給后期的數(shù)據(jù)處理過程,這些采集的主要內(nèi)容包括書名、索書號、出版社信息以及作者,有些還包括圖書館分類號,在讀者進行圖書的借閱以及個性化推薦圖書時就可以提供給用戶以上詳細的書籍信息,方便用戶的使用。后一個子模塊不僅要收集用戶的注冊信息,還要更全面的對能體現(xiàn)用戶個性的各類信息進行詳細的收集。
其次是用戶模型分析模塊,在這個階段是針對用戶生成具體模型的,也即是分析上述采集到的信息,將讀者按照數(shù)據(jù)背后隱藏的規(guī)律進行分類,進而把讀者借閱模型構(gòu)建出來。
最后是個性化推薦模塊,該模塊也是最核心的內(nèi)容所在,推薦算法的不同決定著推薦系統(tǒng)的差異,其具體劃分如下所示:系統(tǒng)過濾[2];基于內(nèi)容的推薦系統(tǒng)[3];混合推薦系統(tǒng)[4]及基于規(guī)則的推薦系統(tǒng)[5]。
個性化服務(wù)系統(tǒng)通過以上三個模塊的分析,就可以實現(xiàn)個性化服務(wù)的提供,不僅展示了圖書館個性化服務(wù)個性化的一面,還可以看出圖書館個性化服務(wù)提供的主動性。在讀者對資源沒有明確的需要時,這種功能根據(jù)讀者的以往借閱記錄,參考與其相似讀者的屬性對讀者的借閱行為進行預(yù)測,從而提供給讀者個性化的服務(wù)。
(三)系統(tǒng)工作流程??偟墓ぷ髁鞒?,將從讀者和圖書館的后臺數(shù)據(jù)庫兩方面同時開展。首先,從讀者的角度來說,根據(jù)網(wǎng)站的注冊信息在首頁輸入賬號和密碼就可以選擇進入個性化界面,實現(xiàn)人機交互,對各類書籍信息進行查詢,同時可以參考系統(tǒng)提供的個性化推薦。另外,從圖書館的后臺數(shù)據(jù)方面來說,個性化系統(tǒng)對讀者的個人信息和特點進行后臺的調(diào)取,然后把以上進行分類再分析,把具體的讀者借閱模型構(gòu)建出來,再利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析把其中關(guān)聯(lián)關(guān)系最好的資源推薦給讀者。其工作流程如圖3所示。
圖3 系統(tǒng)工作流程
數(shù)據(jù)挖掘技術(shù)在高校圖書館個性化書目推薦服務(wù)中應(yīng)用的優(yōu)勢很明顯。在網(wǎng)絡(luò)時代背景下圖書館在數(shù)字化進程中館藏文獻資源愈加豐富,在數(shù)字化進程中應(yīng)用數(shù)據(jù)挖掘技術(shù)能更好的發(fā)揮出高校圖書館信息服務(wù)的作用,對提高圖書館的服務(wù)質(zhì)量具有重要意義。
[1]楊雪霞.數(shù)據(jù)挖掘技術(shù)在高校圖書館管理系統(tǒng)中的應(yīng)用研究[J].軟件,2012(6).
[2]楊芳.數(shù)據(jù)挖掘在高校圖書館個性化信息服務(wù)中的應(yīng)用[J].科技情報開發(fā)與經(jīng)濟,2012(1).
[3]李靜.數(shù)據(jù)挖掘技術(shù)在高校圖書館個性化服務(wù)中的應(yīng)用研究[D].天津大學(xué),2012(5).
[4]劉顯顯.基于數(shù)據(jù)挖掘的高校圖書館個性化信息推薦方法研究[D].遼寧大學(xué),2013(5).
[5]王斌.數(shù)據(jù)挖掘在高校圖書館服務(wù)中的應(yīng)用研究[D].西安理工大學(xué),2010(5).
[責(zé)任編輯 鄭麗娟]
G252
A
2095-0438(2015)11-0138-03
2015-06-27
陶碩(1973-),女,安徽樅陽人,馬鞍山職業(yè)技術(shù)學(xué)院講師,研究方向:數(shù)據(jù)挖掘。