大數(shù)據(jù)挖掘在保山學(xué)院圖書(shū)館中的個(gè)性化服務(wù)應(yīng)用研究

2020-08-20 07:48:57李朋飛高艷兵劉榮虎王波

現(xiàn)代經(jīng)濟(jì)信息 2020年11期

關(guān)鍵詞：個(gè)性化服務(wù)高校圖書(shū)館數(shù)據(jù)挖掘

李朋飛高艷兵劉榮虎王波

摘要：互聯(lián)網(wǎng)發(fā)展的速度非常之快，也導(dǎo)致了信息化的盛行，在高校圖書(shū)館這一方面，圖書(shū)館就積累了大量數(shù)據(jù)，也導(dǎo)致了數(shù)據(jù)的冗余和駁雜，讀者需要更多的時(shí)間來(lái)查找信息，想要更方便就要促使高校圖書(shū)館優(yōu)化服務(wù)手段，形成符合圖書(shū)館的個(gè)性化服務(wù)。作者以保山學(xué)院圖書(shū)館個(gè)性化服務(wù)為研究對(duì)象，對(duì)國(guó)內(nèi)外圖書(shū)館的個(gè)性化服務(wù)研究，對(duì)比分析二者之間的優(yōu)缺點(diǎn);然后對(duì)個(gè)性化服務(wù)需要用到的數(shù)據(jù)挖掘技術(shù)進(jìn)行了系統(tǒng)的闡述，了解圖書(shū)館個(gè)性化服務(wù)的知識(shí);其次對(duì)學(xué)校圖書(shū)館的個(gè)性化背景、問(wèn)題和技術(shù)手段進(jìn)行分析;最后，以保山學(xué)院圖書(shū)館的借閱信息為挖掘?qū)ο?，進(jìn)行具體的分析，再根據(jù)數(shù)據(jù)挖掘的結(jié)果提出建議。

關(guān)鍵詞：高校圖書(shū)館;個(gè)性化服務(wù);數(shù)據(jù)挖掘

一、緒論

發(fā)展至今，高校的圖書(shū)館存在著大量的圖書(shū)數(shù)據(jù)和用戶群體，圖書(shū)館每天都會(huì)產(chǎn)生大量的數(shù)據(jù)信息，隨著圖書(shū)館各種文獻(xiàn)的增加、資源的豐富、形式的多種多樣，讀者在獲取信息上面的問(wèn)題也就從獲取困難轉(zhuǎn)移到選擇困難了，給圖書(shū)館開(kāi)展服務(wù)帶來(lái)不良的影響。

高校圖書(shū)館基本上以書(shū)籍為基礎(chǔ)來(lái)給讀者提供服務(wù)，因?yàn)閳D書(shū)館龐大的書(shū)籍信息，使得讀者在圖書(shū)館中查詢信息的效率會(huì)很低，遠(yuǎn)不如直接從網(wǎng)上搜索來(lái)的方便快捷，就會(huì)導(dǎo)致讀者獲取信息的目標(biāo)從繁瑣的圖書(shū)館上面轉(zhuǎn)變到快捷的互聯(lián)網(wǎng)上面，使得圖書(shū)館的利用率逐漸減低。由此看來(lái)圖書(shū)館傳統(tǒng)服務(wù)已經(jīng)不能滿足讀者的需求了，高校圖書(shū)館的服務(wù)模式也應(yīng)該進(jìn)行轉(zhuǎn)變，從被動(dòng)向主動(dòng)轉(zhuǎn)變。圖書(shū)館個(gè)性化服務(wù)的提出打破了傳統(tǒng)的被動(dòng)服務(wù)的模式，能夠充分利用各種資源優(yōu)勢(shì)，主動(dòng)開(kāi)展以滿足用戶個(gè)性化需求為目的的全方位服務(wù)[1]。

二、數(shù)據(jù)挖掘在保山學(xué)院圖書(shū)館個(gè)性化服務(wù)中應(yīng)用現(xiàn)狀調(diào)查

目前，大部分高校圖書(shū)館都在積極地引進(jìn)個(gè)性化服務(wù)系統(tǒng)，對(duì)個(gè)性化服務(wù)系統(tǒng)的研究也還在繼續(xù)，但個(gè)性化服務(wù)開(kāi)展參差不齊，服務(wù)能力還有待提高。為了準(zhǔn)確了解讀者對(duì)信息的需求，對(duì)個(gè)性化服務(wù)的滿意程度，筆者以個(gè)性化服務(wù)相關(guān)方面的內(nèi)容向?qū)W校的讀者設(shè)計(jì)了問(wèn)卷調(diào)查，本次調(diào)查共隨機(jī)發(fā)放問(wèn)卷調(diào)查，回收了235份，并進(jìn)行分析。

（一）讀者一周去圖書(shū)館的頻率

對(duì)讀者一周去圖書(shū)館的頻率進(jìn)行分析，從得到的餅形圖中可以看出大部分讀者每周都會(huì)去1—3次，圖書(shū)館對(duì)師生是有一定的幫助的，也表明了圖書(shū)館的個(gè)性化服務(wù)對(duì)讀者們是有必要的。

（二）是否了解個(gè)性圖書(shū)館的個(gè)性服務(wù)

對(duì)讀者是否了解圖書(shū)館個(gè)性化服務(wù)進(jìn)行分析，從中可以看出很多讀者對(duì)于圖書(shū)館的個(gè)性化服務(wù)不是特別的了解，表明了學(xué)校圖書(shū)館對(duì)此的宣傳力度不是很大，個(gè)性化服務(wù)的使用不普遍。

（三）讀者對(duì)個(gè)性化服務(wù)的需求情況

對(duì)讀者是否需要個(gè)性化服務(wù)進(jìn)行分析，得知讀者對(duì)圖書(shū)館個(gè)性化服務(wù)是想去了解和使用的，當(dāng)然，也不排除其中有些人已經(jīng)接觸過(guò)個(gè)性化服務(wù)，比如：圖書(shū)續(xù)借，新書(shū)推薦，參考咨詢等。

（四）讀者對(duì)已開(kāi)展個(gè)性化服務(wù)的滿意度

對(duì)個(gè)性化服務(wù)是否滿意進(jìn)行分析，從中可以看書(shū)讀者對(duì)保山學(xué)院圖書(shū)館的個(gè)性化服務(wù)有過(guò)接觸，對(duì)其還是比較滿意的，可能還有些地方不夠完善。

（五）讀者需要的服務(wù)種類(lèi)

讀者對(duì)個(gè)性化服務(wù)的要求分析，對(duì)于“需要什么樣的個(gè)性化服務(wù)”從問(wèn)卷中篩選出有用的信息，從中可以看出讀者對(duì)圖書(shū)館個(gè)性化服務(wù)的要求還是多種多樣的，并不局限于某一種服務(wù)。

三、數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化服務(wù)中的實(shí)施

（一）數(shù)據(jù)源選取

搜集保山學(xué)院圖書(shū)館的圖書(shū)流通數(shù)據(jù)、學(xué)生信息、圖書(shū)信息等需要的數(shù)據(jù)，可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)軟件來(lái)搜集或者找圖書(shū)館的工作人員要一份圖書(shū)館的圖書(shū)流通數(shù)據(jù)和圖書(shū)信息。包含了讀者基本信息，借閱信息，圖書(shū)信息，選擇2015—2018四年的圖書(shū)館數(shù)據(jù)，圖書(shū)信息有1 032 839條，借閱記錄870 388條，讀者信息記錄13 256條。

（二）數(shù)據(jù)清洗和集成

數(shù)據(jù)一般是不完整、不一致的，數(shù)據(jù)清理用來(lái)填充空缺的值，識(shí)別孤立點(diǎn)，消除噪音，糾正數(shù)據(jù)中的不一致。在數(shù)據(jù)的處理和整合上可以利用SAS Data Mining和Pentaho等軟件工具。

1.數(shù)據(jù)清洗。在清洗數(shù)據(jù)方面可以利用忽略該記錄，手動(dòng)填寫(xiě)空缺值、默認(rèn)值、平均值，使用最可能的值，分箱、聚類(lèi)、回歸等方法來(lái)清洗數(shù)據(jù)。

2.數(shù)據(jù)集成。將讀者信息和借閱信息匯總成借閱次數(shù)表，從上面的數(shù)據(jù)中根據(jù)自己需要的內(nèi)容創(chuàng)建表，圖書(shū)借閱數(shù)目表包含書(shū)號(hào)、書(shū)名和借閱數(shù)量幾個(gè)字段，讀者借閱數(shù)目表包含借閱號(hào)、姓名、借閱數(shù)量、類(lèi)型和院系結(jié)構(gòu)

信息。

（三）關(guān)聯(lián)算法

關(guān)聯(lián)規(guī)則挖掘算法是關(guān)聯(lián)規(guī)則挖掘研究的主要內(nèi)容，其中Apriori算法是發(fā)現(xiàn)關(guān)聯(lián)規(guī)則領(lǐng)域的經(jīng)典算法。如算法過(guò)程下圖1表示，設(shè)事務(wù)數(shù)據(jù)D，利用算法篩選出最小支持度為2的項(xiàng)集。

考慮到很多因素，本文將采用Apriori算法，具體的算法如下：

1.L1={頻繁1項(xiàng)集};

2.for （k=2;Lk-1≠φ;k++） do begin

3.? ?Ck=apriori-gen（Lk-1）;//產(chǎn)生新的候選項(xiàng)集

4.? ?for 所以事務(wù) t∈D do begin

5.? ? ? ?Ct=subset（Ck ，t）;//t中所包含的候選k項(xiàng)集

6.? ? ? ?for 所以候選 c∈Ct do.

7.? ? ? ? ? ?C，count++;

8.? end

9.? Lk={ c∈Ck | c.count ≥minsup

10.End

11.結(jié)果=∪kLk [2]

（四）聚類(lèi)算法

在聚類(lèi)算法中選擇K-Means算法。它也稱為k-平均算法，是一種常用的基于劃分的聚類(lèi)方法，用來(lái)根據(jù)樣本屬性值之間的相似度來(lái)對(duì)樣本進(jìn)行分組。在聚類(lèi)方面采用K-Means算法建立挖掘模型，對(duì)讀者進(jìn)行細(xì)分，定義式見(jiàn)（3-1）：

（1）

這里的E是數(shù)據(jù)庫(kù)所以對(duì)象的平方誤差的總和，x是空間中的點(diǎn)表示給定的數(shù)據(jù)對(duì)象，是簇Ci的平均值。k-平均算法的算法描述。

輸入：簇的數(shù)目k和包含n個(gè)對(duì)象的數(shù)據(jù)庫(kù)，

輸出：k個(gè)簇，是平方誤差準(zhǔn)則最小

1.assign initial value for means;//任意選擇k個(gè)對(duì)象作為初始的簇中心

2.REPEAT

3.FOR j=1 to n DO assign each xj to the cluster which has the closest mean;//根據(jù)簇中對(duì)象的平均值，將每個(gè)對(duì)象賦給最類(lèi)似的簇

4.FOR i=1 to k DO ;//更新簇的平均值，即計(jì)算每個(gè)對(duì)象簇中對(duì)象的平均值

5.Compute ; //計(jì)算準(zhǔn)則函數(shù)E

6.UNTIL E不再明顯變化[3]

（五）基于聚類(lèi)對(duì)讀者的細(xì)分

從學(xué)校圖書(shū)館的數(shù)據(jù)庫(kù)中可以知道，借閱記錄中都有這些信息：讀者證、借閱數(shù)量、借閱圖書(shū)、讀者信息等。因此對(duì)讀者可以這樣細(xì)分：一是利用聚類(lèi)挖掘?qū)D書(shū)館全部讀者的信息細(xì)分出來(lái)，進(jìn)行分組;二是將讀者的興趣和借閱情況進(jìn)行聚類(lèi)挖掘，在從得到的聚類(lèi)結(jié)果中分析出聚類(lèi)中的共同點(diǎn)，以此來(lái)建立讀者借閱模式。

1.借閱情況聚類(lèi)。筆者將聚類(lèi)數(shù)k定為4，讀者細(xì)分成4個(gè)大類(lèi)，生均借閱為60、25、12、5本，總共13 256位學(xué)生記錄，其中類(lèi)1占了13.5%，利用率在45.12%;類(lèi)2占20.2%，利用率為25.25%;類(lèi)3占26.2%，利用率為19.61%;類(lèi)4占40.1%，利用率為10.2%。從這個(gè)結(jié)果可以知道有五分之二多的學(xué)生年均借閱不足五本，總體上來(lái)說(shuō)，學(xué)生對(duì)圖書(shū)館資源的利用率低。

2.讀者喜好、信息聚類(lèi)。將讀者的信息和借閱喜好通過(guò)聚類(lèi)分析出用戶在總體上借閱的興趣，將具有相似興趣的讀者進(jìn)行分類(lèi)，劃分出不同讀者相同愛(ài)好的類(lèi)別，有針對(duì)性的提供個(gè)性化信息服務(wù)，從部分讀者借閱信息表和部分借閱事務(wù)數(shù)據(jù)表中可以看出，學(xué)生在圖書(shū)館借書(shū)基本上都是借與專業(yè)相關(guān)的圖書(shū)，對(duì)其它的圖書(shū)都不感興趣，這樣就比較簡(jiǎn)單了，將組內(nèi)讀者的借閱信息進(jìn)行關(guān)聯(lián)挖掘，找出里面的規(guī)則，形成一個(gè)整體的信息庫(kù)，向讀者提供個(gè)性化推薦服務(wù)。

（六）關(guān)聯(lián)規(guī)則的挖掘

關(guān)聯(lián)規(guī)則挖掘?qū)ふ医o數(shù)據(jù)庫(kù)中不同項(xiàng)之間的聯(lián)系，將讀者的全部信息當(dāng)作關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)源對(duì)讀者進(jìn)行分類(lèi)，再找出每個(gè)類(lèi)中產(chǎn)生的借閱信息之間的聯(lián)系，對(duì)讀者實(shí)行規(guī)則推薦。

1.圖書(shū)的關(guān)聯(lián)分析。圖書(shū)的關(guān)聯(lián)分析主要是對(duì)讀者的借閱信息進(jìn)行分析，也就是找到讀者借過(guò)的圖書(shū)中存在的聯(lián)系。采用的是Apriori算法。

由頻繁項(xiàng)集產(chǎn)生的規(guī)則，每個(gè)規(guī)則都自動(dòng)滿足最小支持度，是形如AB的蘊(yùn)涵式，其中A∩B=φ。支持度S和置信度C的定義式為（3-2）（3-3）：

S（AB）=P（A∪B）（2）

C（AB）= P（B | A）（3）

2.讀者所借圖書(shū)類(lèi)別關(guān)聯(lián)挖掘。將最小支持度設(shè)為70%，最小置信度為70%;挖掘圖書(shū)類(lèi)別，得到挖掘結(jié)果，比如：關(guān)聯(lián)規(guī)則C→I，P表示讀者借閱C類(lèi)圖書(shū)的同時(shí)有72.49%的概率借了I和O類(lèi)圖書(shū)，置信度也在70%以上，還是比較準(zhǔn)確的，從計(jì)算出的結(jié)果來(lái)看，將舍棄那些支持度小的結(jié)果。將支持度和置信度高的書(shū)籍放在一起可以方便管理和學(xué)生的查找，也可以在學(xué)生搜索某類(lèi)書(shū)籍的時(shí)候向他推薦規(guī)則中的另一類(lèi)書(shū)籍，滿足個(gè)性化的推薦。

（七）改善圖書(shū)館個(gè)性化服務(wù)的建議

數(shù)據(jù)挖掘后可以知道，一是圖書(shū)館應(yīng)該加強(qiáng)與學(xué)生的聯(lián)系，在表中學(xué)生對(duì)于圖書(shū)館的利用率極低，里面的書(shū)籍對(duì)學(xué)生幫助不大，四年來(lái)甚至有些同學(xué)沒(méi)去過(guò)圖書(shū)館，現(xiàn)在更多的學(xué)生只是利用圖書(shū)館提供的瀏覽室和自習(xí)室學(xué)習(xí)自己的東西，圖書(shū)館也失去了提供知識(shí)的意義。應(yīng)該構(gòu)建學(xué)生個(gè)人信息數(shù)據(jù)庫(kù)，根據(jù)讀者的專業(yè)，愛(ài)好為其提供知識(shí)，將學(xué)生的興趣引入挖掘算法中，生成規(guī)則，建立模型，提高圖書(shū)館對(duì)學(xué)生和學(xué)校的作用。二是當(dāng)某類(lèi)借閱頻率的支持度滿足最小支持度時(shí)，學(xué)生借了一本書(shū)，根據(jù)支持度和置信度形成的規(guī)則模型，系統(tǒng)向其推薦另一本圖書(shū)，最大化地滿足學(xué)生的需求，提高館藏利用率。三是從表中得知學(xué)生是什么專業(yè)的就借什么樣的書(shū)，其他的書(shū)籍學(xué)生并不感興趣，圖書(shū)館館藏資源利用率低，圖書(shū)館在宣傳方面力度也不夠，現(xiàn)在開(kāi)展了保山學(xué)院數(shù)字圖書(shū)館，但是有很多學(xué)生卻不知道有這個(gè)東西，依然以為保山學(xué)院還是傳統(tǒng)的信息服務(wù)，這方面要重視推廣。四是建立一個(gè)評(píng)論模塊，學(xué)生在接受平臺(tái)服務(wù)的時(shí)候遇到問(wèn)題，可以對(duì)平臺(tái)做出評(píng)價(jià)，讓圖書(shū)館的個(gè)性化服務(wù)不斷地

優(yōu)化。

四、結(jié)語(yǔ)

信息技術(shù)的發(fā)展使得圖書(shū)館的數(shù)據(jù)大量增長(zhǎng)，這樣個(gè)性化服務(wù)應(yīng)用在圖書(shū)館中也是必然的了，它的優(yōu)點(diǎn)在于可以有針對(duì)性的為讀者提供服務(wù)。所以圖書(shū)館就要利用數(shù)據(jù)挖掘技術(shù)，挖掘分析圖書(shū)館中借閱信息。本文首先對(duì)保山學(xué)院圖書(shū)館的個(gè)性化服務(wù)現(xiàn)狀做了了解，找出它的優(yōu)點(diǎn)和缺點(diǎn)，其次就是將用戶的信息聚類(lèi)分析，把類(lèi)似的數(shù)據(jù)分成一組，建立模型，將每組的信息關(guān)聯(lián)挖掘，找出它們聯(lián)系，再根據(jù)得到的結(jié)果，為讀者提供個(gè)性化服務(wù)。在圖書(shū)館中構(gòu)造個(gè)性化服務(wù)，有助于圖書(shū)館的信息管理，了解讀者的信息，方便讀者的借閱效率，還可以讓圖書(shū)館針對(duì)讀者借書(shū)的情況來(lái)擴(kuò)充館藏;并且可以優(yōu)化圖書(shū)館的服務(wù)模式。

參考文獻(xiàn)：

[1]李靈芝.數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用研究[D].長(zhǎng)春：吉林大學(xué)碩士論文，2014.

[2]邵峰晶，于忠清，王驚龍，孫仁誠(chéng).數(shù)據(jù)挖掘原理與算法 [M].北京：科學(xué)出版社， 2009：96.

[3]毛國(guó)軍，段立娟，王實(shí)，石云.數(shù)據(jù)挖掘原理與算法 [M].北京：清華大學(xué)出版社， 2005，7：164-165.