李朋飛 高艷兵 劉榮虎 王波
摘要:互聯(lián)網(wǎng)發(fā)展的速度非常之快,也導(dǎo)致了信息化的盛行,在高校圖書(shū)館這一方面,圖書(shū)館就積累了大量數(shù)據(jù),也導(dǎo)致了數(shù)據(jù)的冗余和駁雜,讀者需要更多的時(shí)間來(lái)查找信息,想要更方便就要促使高校圖書(shū)館優(yōu)化服務(wù)手段,形成符合圖書(shū)館的個(gè)性化服務(wù)。作者以保山學(xué)院圖書(shū)館個(gè)性化服務(wù)為研究對(duì)象,對(duì)國(guó)內(nèi)外圖書(shū)館的個(gè)性化服務(wù)研究,對(duì)比分析二者之間的優(yōu)缺點(diǎn);然后對(duì)個(gè)性化服務(wù)需要用到的數(shù)據(jù)挖掘技術(shù)進(jìn)行了系統(tǒng)的闡述,了解圖書(shū)館個(gè)性化服務(wù)的知識(shí);其次對(duì)學(xué)校圖書(shū)館的個(gè)性化背景、問(wèn)題和技術(shù)手段進(jìn)行分析;最后,以保山學(xué)院圖書(shū)館的借閱信息為挖掘?qū)ο?,進(jìn)行具體的分析,再根據(jù)數(shù)據(jù)挖掘的結(jié)果提出建議。
關(guān)鍵詞:高校圖書(shū)館;個(gè)性化服務(wù);數(shù)據(jù)挖掘
一、緒論
發(fā)展至今,高校的圖書(shū)館存在著大量的圖書(shū)數(shù)據(jù)和用戶群體,圖書(shū)館每天都會(huì)產(chǎn)生大量的數(shù)據(jù)信息,隨著圖書(shū)館各種文獻(xiàn)的增加、資源的豐富、形式的多種多樣,讀者在獲取信息上面的問(wèn)題也就從獲取困難轉(zhuǎn)移到選擇困難了,給圖書(shū)館開(kāi)展服務(wù)帶來(lái)不良的影響。
高校圖書(shū)館基本上以書(shū)籍為基礎(chǔ)來(lái)給讀者提供服務(wù),因?yàn)閳D書(shū)館龐大的書(shū)籍信息,使得讀者在圖書(shū)館中查詢信息的效率會(huì)很低,遠(yuǎn)不如直接從網(wǎng)上搜索來(lái)的方便快捷,就會(huì)導(dǎo)致讀者獲取信息的目標(biāo)從繁瑣的圖書(shū)館上面轉(zhuǎn)變到快捷的互聯(lián)網(wǎng)上面,使得圖書(shū)館的利用率逐漸減低。由此看來(lái)圖書(shū)館傳統(tǒng)服務(wù)已經(jīng)不能滿足讀者的需求了,高校圖書(shū)館的服務(wù)模式也應(yīng)該進(jìn)行轉(zhuǎn)變,從被動(dòng)向主動(dòng)轉(zhuǎn)變。圖書(shū)館個(gè)性化服務(wù)的提出打破了傳統(tǒng)的被動(dòng)服務(wù)的模式,能夠充分利用各種資源優(yōu)勢(shì),主動(dòng)開(kāi)展以滿足用戶個(gè)性化需求為目的的全方位服務(wù)[1]。
二、數(shù)據(jù)挖掘在保山學(xué)院圖書(shū)館個(gè)性化服務(wù)中應(yīng)用現(xiàn)狀調(diào)查
目前,大部分高校圖書(shū)館都在積極地引進(jìn)個(gè)性化服務(wù)系統(tǒng),對(duì)個(gè)性化服務(wù)系統(tǒng)的研究也還在繼續(xù),但個(gè)性化服務(wù)開(kāi)展參差不齊,服務(wù)能力還有待提高。為了準(zhǔn)確了解讀者對(duì)信息的需求,對(duì)個(gè)性化服務(wù)的滿意程度,筆者以個(gè)性化服務(wù)相關(guān)方面的內(nèi)容向?qū)W校的讀者設(shè)計(jì)了問(wèn)卷調(diào)查,本次調(diào)查共隨機(jī)發(fā)放問(wèn)卷調(diào)查,回收了235份,并進(jìn)行分析。
(一)讀者一周去圖書(shū)館的頻率
對(duì)讀者一周去圖書(shū)館的頻率進(jìn)行分析,從得到的餅形圖中可以看出大部分讀者每周都會(huì)去1—3次,圖書(shū)館對(duì)師生是有一定的幫助的,也表明了圖書(shū)館的個(gè)性化服務(wù)對(duì)讀者們是有必要的。
(二)是否了解個(gè)性圖書(shū)館的個(gè)性服務(wù)
對(duì)讀者是否了解圖書(shū)館個(gè)性化服務(wù)進(jìn)行分析,從中可以看出很多讀者對(duì)于圖書(shū)館的個(gè)性化服務(wù)不是特別的了解,表明了學(xué)校圖書(shū)館對(duì)此的宣傳力度不是很大,個(gè)性化服務(wù)的使用不普遍。
(三)讀者對(duì)個(gè)性化服務(wù)的需求情況
對(duì)讀者是否需要個(gè)性化服務(wù)進(jìn)行分析,得知讀者對(duì)圖書(shū)館個(gè)性化服務(wù)是想去了解和使用的,當(dāng)然,也不排除其中有些人已經(jīng)接觸過(guò)個(gè)性化服務(wù),比如:圖書(shū)續(xù)借,新書(shū)推薦,參考咨詢等。
(四)讀者對(duì)已開(kāi)展個(gè)性化服務(wù)的滿意度
對(duì)個(gè)性化服務(wù)是否滿意進(jìn)行分析,從中可以看書(shū)讀者對(duì)保山學(xué)院圖書(shū)館的個(gè)性化服務(wù)有過(guò)接觸,對(duì)其還是比較滿意的,可能還有些地方不夠完善。
(五)讀者需要的服務(wù)種類(lèi)
讀者對(duì)個(gè)性化服務(wù)的要求分析,對(duì)于“需要什么樣的個(gè)性化服務(wù)”從問(wèn)卷中篩選出有用的信息,從中可以看出讀者對(duì)圖書(shū)館個(gè)性化服務(wù)的要求還是多種多樣的,并不局限于某一種服務(wù)。
三、數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化服務(wù)中的實(shí)施
(一)數(shù)據(jù)源選取
搜集保山學(xué)院圖書(shū)館的圖書(shū)流通數(shù)據(jù)、學(xué)生信息、圖書(shū)信息等需要的數(shù)據(jù),可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)軟件來(lái)搜集或者找圖書(shū)館的工作人員要一份圖書(shū)館的圖書(shū)流通數(shù)據(jù)和圖書(shū)信息。包含了讀者基本信息,借閱信息,圖書(shū)信息,選擇2015—2018四年的圖書(shū)館數(shù)據(jù),圖書(shū)信息有1 032 839條,借閱記錄870 388條,讀者信息記錄13 256條。
(二)數(shù)據(jù)清洗和集成
數(shù)據(jù)一般是不完整、不一致的,數(shù)據(jù)清理用來(lái)填充空缺的值,識(shí)別孤立點(diǎn),消除噪音,糾正數(shù)據(jù)中的不一致。在數(shù)據(jù)的處理和整合上可以利用SAS Data Mining和Pentaho等軟件工具。
1.數(shù)據(jù)清洗。在清洗數(shù)據(jù)方面可以利用忽略該記錄,手動(dòng)填寫(xiě)空缺值、默認(rèn)值、平均值,使用最可能的值,分箱、聚類(lèi)、回歸等方法來(lái)清洗數(shù)據(jù)。
2.數(shù)據(jù)集成。將讀者信息和借閱信息匯總成借閱次數(shù)表,從上面的數(shù)據(jù)中根據(jù)自己需要的內(nèi)容創(chuàng)建表,圖書(shū)借閱數(shù)目表包含書(shū)號(hào)、書(shū)名和借閱數(shù)量幾個(gè)字段,讀者借閱數(shù)目表包含借閱號(hào)、姓名、借閱數(shù)量、類(lèi)型和院系結(jié)構(gòu)
信息。
(三)關(guān)聯(lián)算法
關(guān)聯(lián)規(guī)則挖掘算法是關(guān)聯(lián)規(guī)則挖掘研究的主要內(nèi)容,其中Apriori算法是發(fā)現(xiàn)關(guān)聯(lián)規(guī)則領(lǐng)域的經(jīng)典算法。如算法過(guò)程下圖1表示,設(shè)事務(wù)數(shù)據(jù)D,利用算法篩選出最小支持度為2的項(xiàng)集。
考慮到很多因素,本文將采用Apriori算法,具體的算法如下:
1.L1={頻繁1項(xiàng)集};
2.for (k=2;Lk-1≠φ;k++) do begin
3.? ?Ck=apriori-gen(Lk-1);//產(chǎn)生新的候選項(xiàng)集
4.? ?for 所以事務(wù) t∈D do begin
5.? ? ? ?Ct=subset(Ck ,t);//t中所包含的候選k項(xiàng)集
6.? ? ? ?for 所以候選 c∈Ct do.
7.? ? ? ? ? ?C,count++;
8.? end
9.? Lk={ c∈Ck | c.count ≥minsup
10.End
11.結(jié)果=∪kLk [2]
(四)聚類(lèi)算法
在聚類(lèi)算法中選擇K-Means算法。它也稱為k-平均算法,是一種常用的基于劃分的聚類(lèi)方法,用來(lái)根據(jù)樣本屬性值之間的相似度來(lái)對(duì)樣本進(jìn)行分組。在聚類(lèi)方面采用K-Means算法建立挖掘模型,對(duì)讀者進(jìn)行細(xì)分,定義式見(jiàn)(3-1):
(1)
這里的E是數(shù)據(jù)庫(kù)所以對(duì)象的平方誤差的總和,x是空間中的點(diǎn)表示給定的數(shù)據(jù)對(duì)象,是簇Ci的平均值。k-平均算法的算法描述。
輸入:簇的數(shù)目k和包含n個(gè)對(duì)象的數(shù)據(jù)庫(kù),
輸出:k個(gè)簇,是平方誤差準(zhǔn)則最小
1.assign initial value for means;//任意選擇k個(gè)對(duì)象作為初始的簇中心
2.REPEAT
3.FOR j=1 to n DO assign each xj to the cluster which has the closest mean;//根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象賦給最類(lèi)似的簇
4.FOR i=1 to k DO ;//更新簇的平均值,即計(jì)算每個(gè)對(duì)象簇中對(duì)象的平均值
5.Compute ; //計(jì)算準(zhǔn)則函數(shù)E
6.UNTIL E不再明顯變化[3]
(五)基于聚類(lèi)對(duì)讀者的細(xì)分
從學(xué)校圖書(shū)館的數(shù)據(jù)庫(kù)中可以知道,借閱記錄中都有這些信息:讀者證、借閱數(shù)量、借閱圖書(shū)、讀者信息等。因此對(duì)讀者可以這樣細(xì)分:一是利用聚類(lèi)挖掘?qū)D書(shū)館全部讀者的信息細(xì)分出來(lái),進(jìn)行分組;二是將讀者的興趣和借閱情況進(jìn)行聚類(lèi)挖掘,在從得到的聚類(lèi)結(jié)果中分析出聚類(lèi)中的共同點(diǎn),以此來(lái)建立讀者借閱模式。
1.借閱情況聚類(lèi)。筆者將聚類(lèi)數(shù)k定為4,讀者細(xì)分成4個(gè)大類(lèi),生均借閱為60、25、12、5本,總共13 256位學(xué)生記錄,其中類(lèi)1占了13.5%,利用率在45.12%;類(lèi)2占20.2%,利用率為25.25%;類(lèi)3占26.2%,利用率為19.61%;類(lèi)4占40.1%,利用率為10.2%。從這個(gè)結(jié)果可以知道有五分之二多的學(xué)生年均借閱不足五本,總體上來(lái)說(shuō),學(xué)生對(duì)圖書(shū)館資源的利用率低。
2.讀者喜好、信息聚類(lèi)。將讀者的信息和借閱喜好通過(guò)聚類(lèi)分析出用戶在總體上借閱的興趣,將具有相似興趣的讀者進(jìn)行分類(lèi),劃分出不同讀者相同愛(ài)好的類(lèi)別,有針對(duì)性的提供個(gè)性化信息服務(wù),從部分讀者借閱信息表和部分借閱事務(wù)數(shù)據(jù)表中可以看出,學(xué)生在圖書(shū)館借書(shū)基本上都是借與專業(yè)相關(guān)的圖書(shū),對(duì)其它的圖書(shū)都不感興趣,這樣就比較簡(jiǎn)單了,將組內(nèi)讀者的借閱信息進(jìn)行關(guān)聯(lián)挖掘,找出里面的規(guī)則,形成一個(gè)整體的信息庫(kù),向讀者提供個(gè)性化推薦服務(wù)。
(六)關(guān)聯(lián)規(guī)則的挖掘
關(guān)聯(lián)規(guī)則挖掘?qū)ふ医o數(shù)據(jù)庫(kù)中不同項(xiàng)之間的聯(lián)系,將讀者的全部信息當(dāng)作關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)源對(duì)讀者進(jìn)行分類(lèi),再找出每個(gè)類(lèi)中產(chǎn)生的借閱信息之間的聯(lián)系,對(duì)讀者實(shí)行規(guī)則推薦。
1.圖書(shū)的關(guān)聯(lián)分析。圖書(shū)的關(guān)聯(lián)分析主要是對(duì)讀者的借閱信息進(jìn)行分析,也就是找到讀者借過(guò)的圖書(shū)中存在的聯(lián)系。采用的是Apriori算法。
由頻繁項(xiàng)集產(chǎn)生的規(guī)則,每個(gè)規(guī)則都自動(dòng)滿足最小支持度,是形如AB的蘊(yùn)涵式,其中A∩B=φ。支持度S和置信度C的定義式為(3-2)(3-3):
S(AB)=P(A∪B) (2)
C(AB)= P(B | A)(3)
2.讀者所借圖書(shū)類(lèi)別關(guān)聯(lián)挖掘。將最小支持度設(shè)為70%,最小置信度為70%;挖掘圖書(shū)類(lèi)別,得到挖掘結(jié)果,比如:關(guān)聯(lián)規(guī)則C→I,P表示讀者借閱C類(lèi)圖書(shū)的同時(shí)有72.49%的概率借了I和O類(lèi)圖書(shū),置信度也在70%以上,還是比較準(zhǔn)確的,從計(jì)算出的結(jié)果來(lái)看,將舍棄那些支持度小的結(jié)果。將支持度和置信度高的書(shū)籍放在一起可以方便管理和學(xué)生的查找,也可以在學(xué)生搜索某類(lèi)書(shū)籍的時(shí)候向他推薦規(guī)則中的另一類(lèi)書(shū)籍,滿足個(gè)性化的推薦。
(七)改善圖書(shū)館個(gè)性化服務(wù)的建議
數(shù)據(jù)挖掘后可以知道,一是圖書(shū)館應(yīng)該加強(qiáng)與學(xué)生的聯(lián)系,在表中學(xué)生對(duì)于圖書(shū)館的利用率極低,里面的書(shū)籍對(duì)學(xué)生幫助不大,四年來(lái)甚至有些同學(xué)沒(méi)去過(guò)圖書(shū)館,現(xiàn)在更多的學(xué)生只是利用圖書(shū)館提供的瀏覽室和自習(xí)室學(xué)習(xí)自己的東西,圖書(shū)館也失去了提供知識(shí)的意義。應(yīng)該構(gòu)建學(xué)生個(gè)人信息數(shù)據(jù)庫(kù),根據(jù)讀者的專業(yè),愛(ài)好為其提供知識(shí),將學(xué)生的興趣引入挖掘算法中,生成規(guī)則,建立模型,提高圖書(shū)館對(duì)學(xué)生和學(xué)校的作用。二是當(dāng)某類(lèi)借閱頻率的支持度滿足最小支持度時(shí),學(xué)生借了一本書(shū),根據(jù)支持度和置信度形成的規(guī)則模型,系統(tǒng)向其推薦另一本圖書(shū),最大化地滿足學(xué)生的需求,提高館藏利用率。三是從表中得知學(xué)生是什么專業(yè)的就借什么樣的書(shū),其他的書(shū)籍學(xué)生并不感興趣,圖書(shū)館館藏資源利用率低,圖書(shū)館在宣傳方面力度也不夠,現(xiàn)在開(kāi)展了保山學(xué)院數(shù)字圖書(shū)館,但是有很多學(xué)生卻不知道有這個(gè)東西,依然以為保山學(xué)院還是傳統(tǒng)的信息服務(wù),這方面要重視推廣。四是建立一個(gè)評(píng)論模塊,學(xué)生在接受平臺(tái)服務(wù)的時(shí)候遇到問(wèn)題,可以對(duì)平臺(tái)做出評(píng)價(jià),讓圖書(shū)館的個(gè)性化服務(wù)不斷地
優(yōu)化。
四、結(jié)語(yǔ)
信息技術(shù)的發(fā)展使得圖書(shū)館的數(shù)據(jù)大量增長(zhǎng),這樣個(gè)性化服務(wù)應(yīng)用在圖書(shū)館中也是必然的了,它的優(yōu)點(diǎn)在于可以有針對(duì)性的為讀者提供服務(wù)。所以圖書(shū)館就要利用數(shù)據(jù)挖掘技術(shù),挖掘分析圖書(shū)館中借閱信息。本文首先對(duì)保山學(xué)院圖書(shū)館的個(gè)性化服務(wù)現(xiàn)狀做了了解,找出它的優(yōu)點(diǎn)和缺點(diǎn),其次就是將用戶的信息聚類(lèi)分析,把類(lèi)似的數(shù)據(jù)分成一組,建立模型,將每組的信息關(guān)聯(lián)挖掘,找出它們聯(lián)系,再根據(jù)得到的結(jié)果,為讀者提供個(gè)性化服務(wù)。在圖書(shū)館中構(gòu)造個(gè)性化服務(wù),有助于圖書(shū)館的信息管理,了解讀者的信息,方便讀者的借閱效率,還可以讓圖書(shū)館針對(duì)讀者借書(shū)的情況來(lái)擴(kuò)充館藏;并且可以優(yōu)化圖書(shū)館的服務(wù)模式。
參考文獻(xiàn):
[1]李靈芝.數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用研究[D].長(zhǎng)春:吉林大學(xué)碩士論文,2014.
[2]邵峰晶,于忠清,王驚龍,孫仁誠(chéng).數(shù)據(jù)挖掘原理與算法 [M].北京:科學(xué)出版社, 2009:96.
[3]毛國(guó)軍,段立娟,王實(shí),石云.數(shù)據(jù)挖掘原理與算法 [M].北京:清華大學(xué)出版社, 2005,7:164-165.