基于Clementine的圖書館用戶借閱行為的挖掘研究

2017-05-31 07:20侯松霞

創(chuàng)新科技 2017年3期

侯松霞

[摘要] 本文利用Clementine軟件和數(shù)據(jù)挖掘技術(shù)，對高校學(xué)生的借閱記錄進(jìn)行分析并挖掘建模，最后挖掘得到更深層次的數(shù)據(jù)，從而為圖書館管理者提供決策依據(jù)，幫助完善高校圖書館的服務(wù)功能。

[關(guān)鍵詞] 借閱行為；數(shù)據(jù)挖掘；Clementine

[中圖分類號] TP311 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1671-0037（2017）3-79-3

Mining Study of the Library Users Borrowing Behavior based on Clementine

Hou Songxia

（Tianjin Transportation Vocational College， Tianjin 300112）

Abstract： This article analyzes the college students' borrowing records and mines to establish models using Clementine software and data mining technology. The deep data obtained after final mining guides the decision of library's manager， and helps complete the service function of colleges' library.

Key words： borrowing behavior； data mining； Clementine

1 引言

隨著網(wǎng)絡(luò)和計算機(jī)數(shù)據(jù)庫技術(shù)的飛速發(fā)展和在各個領(lǐng)域的廣泛應(yīng)用，現(xiàn)代圖書館正在向著信息化和數(shù)字化的方向轉(zhuǎn)變。近些年來，我國加大了對圖書館的投資力度，圖書館的數(shù)據(jù)庫不斷更新、存儲設(shè)備不斷擴(kuò)大，網(wǎng)絡(luò)環(huán)境進(jìn)一步優(yōu)化、服務(wù)器更加強(qiáng)大。在這種環(huán)境下，利用數(shù)據(jù)挖掘技術(shù)可以更好地對圖書館資源進(jìn)行重組、匯集、抽取和預(yù)測；能夠更方便快捷地從互聯(lián)網(wǎng)上采集和轉(zhuǎn)換信息和數(shù)據(jù)，為圖書館發(fā)展提供更好的決策支持，為讀者提供個性化服務(wù)[1]。數(shù)據(jù)挖掘技術(shù)可以指導(dǎo)圖書信息資源的采集。我們可以對圖書借閱記錄進(jìn)行數(shù)據(jù)挖掘，其后能夠得到讀者借閱圖書的使用頻率表，然后再對讀者進(jìn)行分類，同時對適合不同類別的讀者的圖書資源進(jìn)行聚類，從而快速準(zhǔn)確地獲得訂書目錄。館藏圖書數(shù)據(jù)庫（OPAC系統(tǒng)）是圖書館紙質(zhì)文獻(xiàn)資料數(shù)據(jù)的存儲系統(tǒng)，編目員每天對它進(jìn)行維護(hù)，并及時輸入各種圖書的數(shù)據(jù)。如果對這些數(shù)據(jù)進(jìn)行挖掘可以有針對性地制定館藏策略，有目的地決策圖書館的建設(shè)方向。

2 圖書館流通數(shù)據(jù)分析與清洗

2.1 流通數(shù)據(jù)結(jié)構(gòu)

目前圖書館系統(tǒng)主要有四種數(shù)據(jù)挖掘模式[2]：①關(guān)聯(lián)規(guī)則模式：關(guān)聯(lián)規(guī)則模式的數(shù)據(jù)挖掘過程包括兩個環(huán)節(jié)：一是在大量的信息中找出高頻項目；二是通過分析這些高頻項目發(fā)現(xiàn)其中的關(guān)聯(lián)規(guī)則。②聚類模式：聚類模式的作用手段是將分析對象劃分成相對同質(zhì)的組群來進(jìn)行統(tǒng)計分析，又稱為數(shù)值分類或者是分類分析，它是基于數(shù)據(jù)的相似性來收集和分類數(shù)據(jù)的。③決策樹模式：決策樹模式屬于分類方法中很有代表性的一種。它是基于離散函數(shù)值的逼近方法。決策樹過程包括兩個階段：一是處理數(shù)據(jù)，根據(jù)歸納算法產(chǎn)生規(guī)則以及決策樹；二是根據(jù)生產(chǎn)的規(guī)則和決策樹來分析新數(shù)據(jù)。④貝葉斯模式：貝葉斯模式屬于一種統(tǒng)計學(xué)方法，它是利用概率統(tǒng)計的方法來進(jìn)行數(shù)據(jù)的分類。這種方法使用簡單、分類迅速、準(zhǔn)確率高，應(yīng)用比較廣泛。

圖書館借閱的基本業(yè)務(wù)數(shù)據(jù)[3]包括：讀者證號、讀者姓名、流通日期、讀者條碼、圖書條碼、題目、索書號等等。接下來將通過數(shù)據(jù)挖掘分析探究不同的讀者借閱的圖書類型之間有什么關(guān)聯(lián)，借閱的行為是否有一定的規(guī)律，能否根據(jù)規(guī)律制定一些針對性的服務(wù)。

2.2 預(yù)處理

根據(jù)需要，從數(shù)據(jù)庫中抽取書目信息表（biblios，對應(yīng)的是圖書館每一種圖書的marc信息），圖書信息表（holding表），圖書借還記錄表（LOG_CIR），讀者信息（READER）。分別對每個表進(jìn)行預(yù)處理刪減掉無用項目。

3 挖掘過程

3.1 建立數(shù)據(jù)源視圖

在clementine中[4]，建立數(shù)據(jù)源是挖掘服務(wù)器與數(shù)據(jù)庫建立了訪問鏈路，建立數(shù)據(jù)源視圖是選取了數(shù)據(jù)庫中相關(guān)表、字段[5]。

Biblios表對應(yīng)的是圖書館每一種圖書的Marc信息，holding表對應(yīng)圖書館每一冊館藏圖書的信息，與biblios表通過bookrecno字段關(guān)聯(lián)，log-cir表對應(yīng)圖書借還記錄表，通過讀者條碼data2字段和圖書館條碼data3字段分別和reader表rdid字段、holding表barcode字段關(guān)聯(lián)，reader表對應(yīng)讀者信息，通過讀者證號rdid與log-cir關(guān)聯(lián)。圖1是各數(shù)據(jù)表的關(guān)聯(lián)結(jié)構(gòu)圖。

3.2 建立圖書館借閱數(shù)據(jù)挖掘的模型

根據(jù)借閱者自身性別及借閱書籍特點進(jìn)行分類。分析借閱者的特征，更加方便提供個性化服務(wù)。數(shù)據(jù)源：書目信息表（biblios，對應(yīng)的是圖書館每一種圖書的marc信息），圖書信息表（holding表），圖書借還記錄表（LOG_CIR），讀者信息（READER）。通過這些數(shù)據(jù)建立關(guān)聯(lián)，最終得到由于不同性別讀者借書的種類，或者說借閱某種書籍的人都是什么性別的讀者。

使用K-Means聚類算法代入數(shù)據(jù)，K-Means聚類過程是：①聚類數(shù)目K的制定。在K-Means聚類中應(yīng)首先給出需聚成多少類。聚類數(shù)目的確定本身并不簡單，既要考慮最終的聚類效果，也要考慮研究問題的實際需要。聚類太大或太小都將失去聚類的意思。②K個初始類中心點的確定。各類特征的典型代表是類中心。聚類數(shù)目K指定后，還需繼續(xù)確定K個類的初始類中心點。聚類收斂的速度取決于初始類中心點指定的合理性。常用的初始類中心點的指定方法有：隨機(jī)選擇法、選擇經(jīng)驗法、最小最大法。③聚類將依據(jù)最近原則進(jìn)行。依次計算每個樣本點到K個類中心點的歐式距離，并按照與K個類中心點距離最近的原則，將所有樣本點分派到最近的類中，形成K個類。④K個類的中心點再次確定。同時重新計算K個類的中心點。中心點如何確定呢？它的原則是：順次計算各類中所有數(shù)據(jù)點變量的均值，這個均值點就作為K個類的中心點。⑤判斷是否已經(jīng)滿足終止類聚的條件。如果沒有滿足則應(yīng)返回到第3步，不斷重復(fù)上述步驟，直到滿足迭代終止條件為止。聚類終止的條件通常有兩個：一是，迭代次數(shù)，如果當(dāng)前的迭代次數(shù)等于指定的迭代次數(shù)時，類聚終止；二是，類中心點偏移程度。本次確定的各類中心點距上次類中心點，偏移量中的最大值如果小于指定值時，聚類終止。如果適當(dāng)增加迭代次數(shù)或合理調(diào)整中心點偏移量，就能夠有效克服初始類中心點指定時可能存在的偏差。上述兩個條件中任意一個滿足則結(jié)束類聚。

女生、男生聚類分析結(jié)果見圖2、圖3：

圖2 女性讀者聚類分析數(shù)據(jù) 圖3 男性讀者聚類分析數(shù)據(jù)

通過以上聚類分析，可將借閱者分為四個類型，每個類型的區(qū)別主要是性別的影響。

女生：

第一類型，經(jīng)濟(jì)學(xué)院經(jīng)濟(jì)類37.56%的讀者，借閱分類號K（歷史地理）等書籍。

第二類型，經(jīng)濟(jì)學(xué)院56.03%，廣播電視新聞學(xué)42.2%的讀者，借閱分類號D（政治、法律）53.45%的書籍。

第三類型，信息學(xué)院31.15%，數(shù)學(xué)類22.95%的讀者，借閱分類號G（文化、科學(xué)、教育、體育）90.16%的書籍。

第四類型，信息學(xué)院100%，數(shù)學(xué)類44.74%的讀者，借閱過分類號為K（歷史、地理）64.47%的書籍。

男生：

第一類型，管理學(xué)院100%，工程34.62%的讀者，借閱過分類號為K（歷史、地理）53.85%的書籍。

第二類型，商學(xué)院65.85%，工商管理39.02%的人，借閱過分類號為K（歷史、地理）80.49%的書籍。

第三類型，經(jīng)濟(jì)學(xué)院100%，經(jīng)濟(jì)類55.42%的讀者，借閱過分類號為K（歷史、地理）51.81%的書籍。

第四類型，信息學(xué)院86.11%，數(shù)學(xué)系36.11%的讀者，借閱過分類號為K（歷史、地理）41.67%的書籍。

3.3 用戶圖書館借閱數(shù)據(jù)挖掘的結(jié)論

通過以上數(shù)據(jù)分析可得到圖書館借閱數(shù)據(jù)挖掘的結(jié)論：借閱某類圖書是分讀者類型的，每個種群主要特征是不同性別的讀者，分別來自不同的學(xué)院和不同的專業(yè)；得到借閱數(shù)據(jù)的主要類型也不相同。根據(jù)這些特征，我們可以按照不同的學(xué)院或者專業(yè)以性別為分類基礎(chǔ)，為不同的讀者推薦不同的書籍，便能得到讀者的認(rèn)證，從而能更快更好地為借閱者提供借閱服務(wù)。

通過以上研究也可以看出現(xiàn)在大學(xué)生的借閱習(xí)慣存在的問題：借閱的書籍更多的是偏向于自己學(xué)科內(nèi)需要的，對于自己學(xué)科外所涉及的內(nèi)容都鮮有人關(guān)注，這是近年來大學(xué)圖書館普遍存在的現(xiàn)象，大學(xué)生更多傾向于目的性更強(qiáng)的快餐式閱讀，而不太喜歡涉及其他閱讀方式。

圖書館管理者應(yīng)多使用數(shù)據(jù)挖掘等方式去改變圖書館的管理方式，使這些原本看起來毫無作用的借閱數(shù)據(jù)變得更加有實際意義，能通過這些數(shù)據(jù)更好地挖掘圖書館的潛在價值，同時也能激發(fā)大學(xué)生的借閱熱情，改變現(xiàn)在大學(xué)圖書館借閱情況過于偏激的現(xiàn)狀。

4 結(jié)語

要確保模型的有效性和完整性，在今后的研究中應(yīng)注意：一是研究前多次進(jìn)行數(shù)據(jù)挖掘的可行性分析，數(shù)據(jù)挖掘需要大量的統(tǒng)計，需要前期大量的準(zhǔn)備工作，在數(shù)據(jù)挖掘之前，一定要做好可行性分析，要有目的性的去進(jìn)行挖掘；二是注意挖掘數(shù)據(jù)的更新，數(shù)據(jù)挖掘是一個持續(xù)性工作，隨著數(shù)據(jù)不斷地增多，應(yīng)該進(jìn)行及時更新，然后再去完善之前的模型。

參考文獻(xiàn)：

[1] 郭淑紅，徐玉梅，劉釗.基于數(shù)據(jù)挖掘的高校圖書館個性化圖書推薦服務(wù)研究[J].電子世界，2017（4）：44-45.

[2] 朱正紅.數(shù)據(jù)挖掘應(yīng)用于高職院校圖書館個性化服務(wù)的探討[J].信息與電腦（理論版），2016（17）：125-127.

[3] 陳靜榮.圖書借閱分析系統(tǒng)的數(shù)據(jù)挖掘技術(shù)[J].農(nóng)業(yè)圖書情報學(xué)刊，2017（2）：69-72.

[4] 郝海濤.關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在圖書館系統(tǒng)中的應(yīng)用[J].信息通信，2016（6）：74-76.

[5] 艾金勇.圖書館讀者借閱行為的關(guān)聯(lián)規(guī)則挖掘研究[J].情報探索，2017（1）：40-43.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于Clementine的圖書館用戶借閱行為的挖掘研究