基于圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究

2016-02-15 09:00:42周欣陸康

現(xiàn)代情報 2016年1期

關(guān)鍵詞：日志數(shù)據(jù)挖掘數(shù)字

周欣陸康

（南京曉莊學(xué)院圖書館，江蘇南京211171）

基于圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究

周欣陸康*

（南京曉莊學(xué)院圖書館，江蘇南京211171）

通過分析讀者在圖書館數(shù)字資源系統(tǒng)的行為日志數(shù)據(jù)，可以準(zhǔn)確的挖掘出讀者的真實(shí)需求，更好的為讀者提供個性化服務(wù)。文章先介紹了讀者行為分析在圖書館行業(yè)的研究現(xiàn)狀，以及對讀者行為挖掘的研究意義，然后介紹了對讀者在數(shù)字資源訪問系統(tǒng)中的訪問日志數(shù)據(jù)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)挖掘的方法，構(gòu)建了讀者行為分析系統(tǒng)模型。

圖書館；數(shù)字資源；數(shù)據(jù)挖掘；讀者行為；日志分析；聚類分析

信息時代的到來，傳統(tǒng)的圖書館向數(shù)字圖書館轉(zhuǎn)化，圖書館員的服務(wù)方式和內(nèi)容也在向信息化方向轉(zhuǎn)變，由傳統(tǒng)的借閱服務(wù)及信息咨詢服務(wù)，轉(zhuǎn)化為以網(wǎng)絡(luò)平臺為主的信息化服務(wù)［1］。圖書館的數(shù)字資源建設(shè)，其資源的利用率有多高，如何對數(shù)字資源進(jìn)行評估，讀者的滿意度如何，讀者究竟需要什么樣的數(shù)字資源，如何為讀者提供更優(yōu)質(zhì)的數(shù)字化服務(wù)？這些問題都是圖書館所需要關(guān)注的。

圖書館是文獻(xiàn)資源保障部門，是為讀者提供優(yōu)質(zhì)文獻(xiàn)資源相關(guān)的服務(wù)。有學(xué)者指出，數(shù)字圖書館網(wǎng)站是否成功的關(guān)鍵之一是能否提供個性化的信息服務(wù)［2］?，F(xiàn)在網(wǎng)站門戶的個性化服務(wù)已經(jīng)不能夠滿足讀者的需求，原因是多方面的，其中最主要的原因就是互聯(lián)網(wǎng)尤其是移動互聯(lián)網(wǎng)平臺的普及，每個讀者都有自己鐘愛的互聯(lián)網(wǎng)平臺，例如學(xué)科博客、微博、微信等。本文從讀者的資源行為入手，對讀者通過對數(shù)字資源訪問，得出讀者的資源需求信息，通過數(shù)據(jù)挖掘技術(shù)，從中提取出讀者服務(wù)與資源建設(shè)的相關(guān)的數(shù)據(jù)信息，分析讀者的學(xué)科訪問軌跡以及資源需求，從學(xué)科建設(shè)角度進(jìn)行有針對性的向讀者提供個性化的推送服務(wù)，最終向讀者推薦對其有用的信息，提高讀者對圖書館的信息需求滿足率。

1 研究背景

1.1 圖書館讀者行為分析

互聯(lián)網(wǎng)給讀者提供了資源獲取的多條途徑，讀者資源獲取的方式也呈現(xiàn)多元化。圖書館對讀者利用圖書館的行為需要重新進(jìn)行評估。例如雖然讀者到館的人數(shù)逐漸降低，但是這種情況并不代表讀者都不利用圖書館，數(shù)字資源等其他方式也是利用圖書館的一種方式。在互聯(lián)網(wǎng)環(huán)境下，圖書館的服務(wù)模式和服務(wù)理念也需要進(jìn)一步的更新。圖書館的資源建設(shè)與平臺建設(shè)急需重新評估，圖書館的個性化服務(wù)也必須通過對讀者的資源需求進(jìn)行調(diào)整。讀者的資源行為信息的獲取是當(dāng)前圖書館必須掌握的數(shù)據(jù)之一。

由于海量的讀者行為數(shù)據(jù)以不同形式存儲在不同的計算機(jī)中，同時不同的讀者行為數(shù)據(jù)都存在于不同的系統(tǒng)中。如果未建立統(tǒng)一的數(shù)據(jù)分析系統(tǒng)，使蘊(yùn)藏在其中的大量信息無法得到有效的利用，圖書館員無法為讀者提供高質(zhì)量的服務(wù)。如何將這些數(shù)據(jù)信息轉(zhuǎn)化為知識表示，為學(xué)科建設(shè)提供更好的學(xué)科服務(wù)，為讀者提供更好的信息服務(wù)，將是圖書館的工作重點(diǎn)。近年來圖書館為了更好的為讀者服務(wù)，越來越多的學(xué)者開始研究讀者的行為分析，以“圖書館”和“行為分析”為關(guān)鍵詞在CNKI上面搜索，得到178條結(jié)果，其中碩博士論文23篇，期刊類論文155篇。論文發(fā)表的統(tǒng)計信息如圖1所示。從圖1中可以看出，在圖書館相關(guān)學(xué)者們對讀者行為分析的關(guān)注，呈逐年上升的趨勢。

圖1 CNKI關(guān)于“圖書館行為分析”的論文發(fā)表數(shù)量

有許多學(xué)者開始關(guān)注于面向讀者提出針對性的服務(wù)，例如，陳雅等學(xué)者提出利用Web日志分析技術(shù)來實(shí)現(xiàn)圖書館個性化［2］，陳臣提出基于大數(shù)據(jù)的圖書館個性化服務(wù)用戶行為分析研究［5］。也有許多學(xué)者研究讀者行為的數(shù)據(jù)挖掘，例如，于徽提出數(shù)據(jù)挖掘在圖書館用戶行為分析中的應(yīng)用研究［6］，王偉提出基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究［7］，周偉等提出基于數(shù)據(jù)挖掘和讀者行為分析的圖書館薦書系統(tǒng)的研究與設(shè)計［8］，但是這些研究大都是基于圖書館紙質(zhì)館藏的讀者行為研究，本文是針對圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究。

1.2 商業(yè)行為分析的成熟應(yīng)用

商業(yè)的訪客信息行為分析，已經(jīng)被廣泛運(yùn)用到網(wǎng)上購物中，系統(tǒng)可以對用戶訪問網(wǎng)頁的頁面進(jìn)行分析，向用戶進(jìn)行相關(guān)內(nèi)容的廣告推送服務(wù)，例如：亞馬遜、淘寶、蘇寧易購等商業(yè)網(wǎng)站。商業(yè)網(wǎng)站的個性化商品推薦與圖書館對讀者的知識服務(wù)有相似的地方，表1展示了淘寶商品推薦與圖書館知識服務(wù)的相似之處。很多的購物網(wǎng)站為了吸引購買者的注意，都會將讀者近期的搜索主題詞記錄下來，以便于為購物者及時的推薦想要購買的東西，增強(qiáng)用戶的購物體驗(yàn)。例如淘寶的“淘寶足跡”，將用戶瀏覽過的商品在手機(jī)客戶端或者網(wǎng)站頁面上進(jìn)行展示。如何將這一功能加以開發(fā)利用，并運(yùn)用到圖書館對讀者的知識服務(wù)上，將讀者的歷史搜索記錄展示給讀者，針對讀者的歷史訪問信息進(jìn)行深層次的數(shù)據(jù)挖掘，有針對性的向不同類型的讀者周期性的推送學(xué)科信息或讀者感興趣的信息，是圖書館技術(shù)部門所需要考慮的問題。根據(jù)這個思路，建設(shè)相關(guān)的系統(tǒng)對讀者的行為進(jìn)行分析，是提升圖書館服務(wù)的一個重要方法。

表1 淘寶商品推薦與圖書館知識服務(wù)的相似之處

1.3 對讀者行為研究的意義

高校圖書館在資源建設(shè)過程中，數(shù)字資源經(jīng)費(fèi)的比例逐年提高，原因是多方面的，第一，資源的數(shù)字化程度越來越高，其價格也不斷增高；第二，讀者利用資源的方式逐步向數(shù)字資源轉(zhuǎn)變。高校圖書館對于資源建設(shè)費(fèi)用的投入普遍很高，數(shù)字資源的經(jīng)費(fèi)比例也逐年提高。傳統(tǒng)的圖書館管理信息系統(tǒng)暫時還不能對數(shù)字圖書館的資源有效管理，尤其是流通中讀者借閱的模塊只能統(tǒng)計出讀者對紙質(zhì)圖書的需求，無法統(tǒng)計讀者對數(shù)字資源的需求。因此，分析讀者對數(shù)字資源的使用行為，挖掘讀者在數(shù)字資源訪問系統(tǒng)的行為信息，找出最頻繁出現(xiàn)的關(guān)鍵詞序列，發(fā)現(xiàn)不同類別用戶的閱讀愛好、學(xué)科方向，找出讀者的學(xué)科資源需求規(guī)律，以便運(yùn)用智能推薦系統(tǒng)，向讀者提供個性化的資源推薦提供依據(jù)，或者找出具有相近需求的讀者后相互推薦資源的下載信息等。分析讀者的資源需求傾向，圖書館可以根據(jù)讀者資源需求，進(jìn)行資源推送服務(wù)。

1.3.1 提升服務(wù)質(zhì)量

通過定性分析和定量研究相結(jié)合，分析和預(yù)測讀者在數(shù)字資源平臺上行為，深化科研服務(wù)，為讀者提供針對性的信息推送，構(gòu)建優(yōu)化的信息環(huán)境給讀者提供更好的服務(wù)。1.3.2 優(yōu)化數(shù)字資源建設(shè)

通過對讀者檢索及下載內(nèi)容的分析，結(jié)合學(xué)校重點(diǎn)學(xué)科發(fā)展的方向，來調(diào)整數(shù)字資源建設(shè)和采購的方向。根據(jù)讀者的下載行為來統(tǒng)計數(shù)字資源的利用率，可以優(yōu)化數(shù)字資源的建設(shè)方案，達(dá)到將資源經(jīng)費(fèi)合理化應(yīng)用的目的。

1.3.3 提高數(shù)字資源利用率

通過數(shù)字資源利用率信息，有針對性的對不同的數(shù)字資源進(jìn)行宣傳和組織培訓(xùn)，使廣大讀者充分了解和利用圖書館的數(shù)字資源。做到資源的合理化利用，提高資源的利用率，避免數(shù)字資源的浪費(fèi)。

1.3.4 提升圖書館的智能化服務(wù)

分析讀者使用數(shù)字資源的行為，定期為學(xué)科院系提供統(tǒng)計信息或最新學(xué)科資訊，構(gòu)建學(xué)科與圖書館之間默契的合作關(guān)系。

2 圖書館讀者行為數(shù)據(jù)挖掘分析與設(shè)計

2.1 圖書館數(shù)字資源訪問系統(tǒng)

為了方便讀者的信息需求，很多高校圖書館都建設(shè)或者購買了圖書館電子資源訪問系統(tǒng)，將圖書館所有的數(shù)字資源訪問匯集到一個系統(tǒng)或者平臺中管理，方便讀者訪問或下載。為了使讀者在校園網(wǎng)內(nèi)或校外都能方便快捷的訪問圖書館的數(shù)字資源，提高圖書館的服務(wù)水平以及數(shù)字資源的利用率，同時也更好的為教學(xué)和科研提供服務(wù)，各個圖書館都相繼開通了數(shù)字資源訪問系統(tǒng)。數(shù)字資源訪問系統(tǒng)的一般做法是校內(nèi)可以通過IP地址直接訪問，而校外需要安裝客戶端，或者與圖書館文獻(xiàn)服務(wù)系統(tǒng)進(jìn)行接口對接，輸入用戶名和密碼，可以訪問圖書館的數(shù)字資源。很多高校的做法是與數(shù)字化校園的一卡通對接，實(shí)行讀者一卡通實(shí)名認(rèn)證系統(tǒng)，使用統(tǒng)一的入口來訪問圖書館的數(shù)字資源。

南京曉莊學(xué)院與匯文文獻(xiàn)系統(tǒng)相結(jié)合，數(shù)字資源訪問系統(tǒng)與OPAC對接，通過OPAC的用戶名和密碼進(jìn)行校外資源的訪問。OPAC的數(shù)據(jù)信息同時與校園一卡通對接，每個校內(nèi)讀者訪問數(shù)字資源時都使用統(tǒng)一的一卡通賬號，賬號信息存儲讀者的院系、聯(lián)系方式等，方便數(shù)據(jù)的統(tǒng)計及消息推送。

由于讀者對圖書館數(shù)字資源的使用都集中在“電子資源訪問系統(tǒng)”的平臺上，因此，可以通過此系統(tǒng)服務(wù)器上的讀者訪問日志進(jìn)行數(shù)據(jù)搜集和深層次的數(shù)據(jù)挖掘，獲取讀者在電子資源訪問系統(tǒng)的訪問檢索及下載信息。

2.2 構(gòu)建模型思想

要想有針對性的向讀者推薦學(xué)科信息或知識信息，首先要對讀者在數(shù)字資源訪問系統(tǒng)上的海量搜索行為進(jìn)行采集；存儲每個讀者的歷史搜索記錄，了解每位讀者的真實(shí)需求，為每位讀者建立獨(dú)有的讀者信息挖掘庫；然后根據(jù)這個信息庫對每位讀者的搜索記錄進(jìn)行讀者行為分析，使用數(shù)據(jù)挖掘聚類算法，找到其合適的讀者類型，最終為讀者推薦合適的學(xué)科信息。

圖書館數(shù)字資源讀者行為分析數(shù)據(jù)挖掘系統(tǒng)建立在MySQL或者Oracle數(shù)據(jù)庫上。讀者通過一卡通賬戶登錄圖書館數(shù)字資源訪問系統(tǒng)，進(jìn)行數(shù)據(jù)檢索、瀏覽或下載行為，在服務(wù)器上生成讀者行為日志文件。本文的目的是對讀者訪問圖書館數(shù)字資源的行為進(jìn)行分析，具體到讀者常用的數(shù)據(jù)庫、檢索關(guān)鍵字、下載的文章以及讀者的檢索行為習(xí)慣等。具體的系統(tǒng)結(jié)構(gòu)模型如圖2所示。

對日志的處理和數(shù)據(jù)挖掘過程為：

（1）日志獲取，從圖書館數(shù)字資源訪問系統(tǒng)服務(wù)器上采集要分析的讀者日志文件；

（2）對日志文件進(jìn)行預(yù)處理，如日志解析、日志清洗、日志過濾，處理過的逐句保存在日志分析系統(tǒng)服務(wù)器的MySQL數(shù)據(jù)庫中，形成讀者信息挖掘庫；

（3）對讀者信息挖掘庫的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘建模分析，采用聚類算法，并將分析結(jié)果保存在相應(yīng)的數(shù)據(jù)表中；

（4）按照聚類分析的結(jié)果，將讀者分為不同的類型，根據(jù)結(jié)果生成各種形式的報表，將學(xué)科信息呈現(xiàn)給讀者，信息服務(wù)部門按照讀者類型針對不同的讀者有針對性的對其推送學(xué)科信息。

系統(tǒng)的設(shè)計思想，主要根據(jù)網(wǎng)絡(luò)數(shù)據(jù)的采集，即對讀者在各種系統(tǒng)中的行為日志進(jìn)行采集，分析其資源行為的內(nèi)容，研究其學(xué)術(shù)動態(tài)。系統(tǒng)的主要工作是將讀者行為信息，通過技術(shù)手段采集，減少人為參與的因素，使得獲取的數(shù)據(jù)信息更加客觀公正，同時保證數(shù)據(jù)的全面性和完整性。

3 圖書館讀者行為數(shù)據(jù)挖掘方法與過程

3.1 讀者行為的數(shù)據(jù)采集

本文的目的是對圖書館數(shù)字資源訪問系統(tǒng)的用戶進(jìn)行行為分析，因此，要收集圖書館數(shù)字資源訪問系統(tǒng)的用戶訪問數(shù)據(jù)。獲取數(shù)據(jù)的方法有很多種，兩種主流的數(shù)據(jù)獲取方法是網(wǎng)絡(luò)爬蟲和開放API平臺。這兩種方法都可以通過計算機(jī)程序快速準(zhǔn)確地得到所需數(shù)據(jù)［6］。本文是針對Web使用記錄挖掘，使用的方法是基于讀者訪問日志的用戶行為分析方法。

當(dāng)用戶訪問圖書館的數(shù)字資源訪問系統(tǒng)時，系統(tǒng)會在后臺記錄下讀者的每一步操作日志。例如讀者選取的是哪個數(shù)據(jù)庫、輸入的檢索詞、點(diǎn)擊的鏈接、下載了文章或電子書等都可在讀者的訪問日志里面記錄下來。讀者的訪問日志客觀的記錄了讀者的各種行為操作，通過對這些日志內(nèi)容進(jìn)行層次的挖掘，可以發(fā)掘出讀者的真實(shí)需求情況。

本文對讀者的行為采集是基于匯文公司構(gòu)建的“南京曉莊學(xué)院電子資源授權(quán)訪問系統(tǒng)”，數(shù)據(jù)抓取采用直接對服務(wù)器上的訪問日志文件進(jìn)行分析過濾。日志處理步驟如圖3所示。記錄讀者的日志信息包括：訪問數(shù)字資源的日志信息，訪問或者下載信息內(nèi)容，訪問URL內(nèi)容和訪問時間等。

圖2 圖書館數(shù)字資源讀者行為分析數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)模型

圖3 讀者日志獲取

3.2 數(shù)據(jù)預(yù)處理

由于日志文件本身是一個非結(jié)構(gòu)化的文本文件，而且數(shù)據(jù)量龐大，頁面復(fù)雜，缺乏統(tǒng)一的結(jié)構(gòu)特點(diǎn)，因此，在數(shù)據(jù)分析之前有必要進(jìn)行預(yù)處理，將從非結(jié)構(gòu)化的數(shù)據(jù)中提取結(jié)構(gòu)化的數(shù)據(jù)。數(shù)據(jù)預(yù)處理是根據(jù)挖掘的目的，對原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并，最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式，并保存到關(guān)系型數(shù)據(jù)庫表或數(shù)據(jù)倉庫中，等待進(jìn)一步處理［9］。傳統(tǒng)的數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清洗、用戶識別、會話識別和路徑補(bǔ)充等幾個階段［10］。數(shù)據(jù)的預(yù)處理提高了數(shù)據(jù)挖掘模式的質(zhì)量，可以降低算法實(shí)際運(yùn)行所需要的時間。

從系統(tǒng)中抓取的讀者訪問日志包括用戶IP地址、用戶ID、用戶請求訪問的URL頁面、請求方法、訪問時間、傳輸協(xié)議、傳輸?shù)淖止?jié)數(shù)、錯誤代碼、用戶代理等屬性。電子資源訪問系統(tǒng)設(shè)計的日志文件同時也記錄了每個讀者的訪問頁面、訪問時間、檢索詞、檢索內(nèi)容、下載內(nèi)容等。實(shí)驗(yàn)采用的是一個小型的日志解析工具，直接對日志文件進(jìn)行解析，把解析到的數(shù)據(jù)存儲到MySQL或者Oracle數(shù)據(jù)庫中。數(shù)據(jù)庫中存儲的內(nèi)容包括訪問時間、原IP地址、目的IP地址、資源名稱、請求站點(diǎn)URL地址、下載內(nèi)容、檢索內(nèi)容、用戶ID等。

數(shù)字資源訪問日志文件主要記錄讀者的訪問、檢索、下載記錄等。數(shù)據(jù)呈現(xiàn)部分采用網(wǎng)頁調(diào)用模板進(jìn)行數(shù)據(jù)統(tǒng)計和分析。數(shù)據(jù)庫存儲讀者訪問日志記錄如表2所示，包括訪問、檢索及下載信息。

表2 讀者訪問日志記錄表

3.3 數(shù)據(jù)挖掘——聚類分析

Web數(shù)據(jù)挖掘是對用戶訪問Web時的訪問記錄進(jìn)行數(shù)據(jù)挖掘，當(dāng)前的Web數(shù)據(jù)挖掘主要有分類、聚類、關(guān)聯(lián)規(guī)則和序列等Web日志挖掘算法［7］。聚類算法是一個將數(shù)據(jù)集劃分為若干組或類的過程，使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度，而不同組中的數(shù)據(jù)對象則不相似，即“物以類聚”。相似或不相似的度量是基于數(shù)據(jù)對象描述屬性的取值來確定的。

用聚類算法對圖書館讀者行為進(jìn)行數(shù)據(jù)挖掘，發(fā)現(xiàn)讀者共同的愛好、興趣、規(guī)律和趨勢，對于圖書館個性化服務(wù)，數(shù)據(jù)對象的組織、存儲，信息資源的分布、分類、索引、檢索等有重要作用，聚類要經(jīng)過多次才能得到一個理想的結(jié)果［8］?？梢詫⒆x者按照其在網(wǎng)站上檢索的關(guān)鍵字，將其分為不同的學(xué)科，以便圖書館員為不同學(xué)科的讀者進(jìn)行個性化的服務(wù)，提高讀者的滿意度。

采用K－means算法用于Web用戶數(shù)據(jù)挖掘，可以快速發(fā)現(xiàn)網(wǎng)絡(luò)用戶的興趣特征，進(jìn)而對群體用戶的興趣特征進(jìn)行聚類分析，發(fā)現(xiàn)用戶的興趣所在，有助于后期有針對性的對用戶進(jìn)行內(nèi)容推薦［11］。實(shí)驗(yàn)?zāi)M參照文獻(xiàn)［12］中第七章的一個案例中的部分思想，先對讀者活躍程度進(jìn)行分析，將讀者按照活躍程度劃分為5個等級。針對活躍等級高的讀者，通過對讀者檢索詞及下載內(nèi)容的分析，希望從中獲取關(guān)于讀者的某種興趣愛好或?qū)W科方向。

實(shí)驗(yàn)擬采用K－means算法對讀者群體進(jìn)行聚類分析。假設(shè)訓(xùn)練樣本集合為D：｛x1，x2，…，xn｝，其中xi＝（xi1，xi2，…，xir）是r維實(shí)數(shù)空間的向量，n表示數(shù)據(jù)點(diǎn)個數(shù)。KMeans聚類算法首先將訓(xùn)練樣本集劃分為k個聚類，對于每個聚類中心以外的樣本點(diǎn)分別計算到各聚類中心的距離，將數(shù)據(jù)點(diǎn)劃分到最近的聚類中心所代表的簇中，然后重新計算每個聚類的聚類中心。這個過程講過多次重復(fù)迭代，直到滿足終止條件為止，算法的好壞在一定程度上依賴于初始聚類中心的選取。

表3 K－means算法描述

4 研究應(yīng)用

4.1 數(shù)字資源的統(tǒng)計分析

對讀者在圖書館數(shù)字資源訪問系統(tǒng)的訪問行為進(jìn)行采集和預(yù)處理，可將數(shù)據(jù)直觀的通過報表呈現(xiàn)給圖書館員，服務(wù)人員可以統(tǒng)計到常用數(shù)據(jù)庫的訪問量、下載量排行等。圖4是南京曉莊學(xué)院某1個月內(nèi)數(shù)字資源的訪問情況。

有了讀者訪問數(shù)字資源的原始數(shù)據(jù)，同樣可以統(tǒng)計到某一種資源的訪問趨勢、某個讀者的訪問趨勢以及數(shù)字資源的匯總統(tǒng)計等。對數(shù)字資源的訪問情況進(jìn)行統(tǒng)計可以直觀的看出資源的利用率，以此可以優(yōu)化資源的采購方案，節(jié)省采購經(jīng)費(fèi)。也可以根據(jù)資源的利用情況有針對性的對讀者開展培訓(xùn)，提高數(shù)字資源的利用率。

圖4 某段時間內(nèi)數(shù)字資源下載量統(tǒng)計

從圖4中，可以分析出2015年6月份的數(shù)字資源訪問統(tǒng)計信息，例如CNKI的訪問量較高，其次是202．119．47．6，這是維普的IP地址，再次就是萬方數(shù)據(jù)的訪問等。數(shù)字資源訪問的統(tǒng)計分析，減少了人為因素對資源利用的參與，其結(jié)果具有較高的客觀性和準(zhǔn)確性。

4.2 活躍讀者學(xué)科信息推送

通過系統(tǒng)可以直觀的看到讀者的檢索明細(xì)，以及下載明細(xì)，同樣也可以直觀的統(tǒng)計到讀者在某段時間內(nèi)的下載量排行（如圖5所示）。應(yīng)用數(shù)據(jù)挖掘算法對讀者在圖書館資源管理系統(tǒng)上搜索或下載進(jìn)行分析之后，將讀者按照興趣、偏好和學(xué)科方向分為不同的讀者類別。學(xué)科館員可以定期通過郵箱或者手機(jī)等其他途徑向讀者推送信息。由于此系統(tǒng)涉及到的功能較多，用到的聚類分析算法相關(guān)知識具有很強(qiáng)的理論性，本文的實(shí)驗(yàn)暫時只對少量數(shù)據(jù)樣本進(jìn)行處理。目前已經(jīng)完成的工作有對讀者行為數(shù)據(jù)的采集和處理，讀者行為信息的展示，及對讀者的日志查詢和簡單的分析。

4.3 讀者資源訪問數(shù)據(jù)展示

讀者訪問數(shù)據(jù)的展示，主要是讀者檢索內(nèi)容和下載內(nèi)容的。可以對讀者在數(shù)字圖書館的檢索內(nèi)容進(jìn)行數(shù)據(jù)分析，其結(jié)果運(yùn)用于資源建設(shè)和評估，如圖6所示。從中可以看出，讀者在各個時段的檢索內(nèi)容都可以準(zhǔn)確獲取，將這些信息匯聚分析，可以得出讀者的研究內(nèi)容和方向，資源建設(shè)需要時刻了解這樣的數(shù)據(jù)信息，檢索內(nèi)容同時也反映了部分讀者的需求信息。系統(tǒng)可以獲取讀者資源行為數(shù)據(jù)，其意義是智能化圖書館建設(shè)的一個組成部分。

圖5 某段時間內(nèi)活躍讀者下載量排行

系統(tǒng)的組成主要從技術(shù)角度，對讀者的資源行為進(jìn)行分析，資源行為也反映了讀者的需求內(nèi)容。圖書館圍繞讀者服務(wù)，及原始數(shù)據(jù)的獲得，從技術(shù)角度獲取，減少人為參與的因素，是未來發(fā)展的趨勢，技術(shù)的手段可以減少人力資源投入，其結(jié)果更加公正客觀，同時資源建設(shè)工作也必須在技術(shù)手段的支持下進(jìn)行不斷改進(jìn)，圖書館的特色資源服務(wù)才能體現(xiàn)出其智能性。

圖6 讀者訪問檢索內(nèi)容獲取

5 總結(jié)

本文對讀者行為數(shù)據(jù)挖掘研究的前提條件有兩個：一是圖書館先建立完善的數(shù)字資源整合系統(tǒng)或數(shù)字資源整合平臺，讀者訪問圖書館資源時都從同一個入口進(jìn)行訪問。二是數(shù)字資源訪問系統(tǒng)與校園一卡通對接，而且系統(tǒng)中的讀者E－mail

或手機(jī)聯(lián)系方式要及時更新，讀者進(jìn)行實(shí)名認(rèn)證訪問，才能根據(jù)系統(tǒng)的訪問日志信息跟蹤到每一位讀者。由于筆者在人工智能的學(xué)習(xí)能力有限，數(shù)據(jù)挖掘算法還需要進(jìn)一步商榷和完善。圖書館對讀者的用戶行為進(jìn)行數(shù)據(jù)挖掘后，可以針對讀者開展多種多樣的個性化服務(wù)。例如，可以根據(jù)讀者的興趣、偏好和學(xué)科方向，對呈現(xiàn)給讀者的網(wǎng)頁內(nèi)容或結(jié)構(gòu)布局進(jìn)行個性化的調(diào)整，允許讀者自己添加感興趣模塊，或者對數(shù)據(jù)資源進(jìn)行評價等。也可以將用戶在系統(tǒng)中的歷史記錄展示給讀者，給用戶提供相關(guān)的瀏覽提示和幫助。圖書館數(shù)據(jù)分析系統(tǒng)，主要目的是建立讀者與圖書館之間的橋梁，使圖書館與讀者之間的信息對稱，讓圖書館時刻了解讀者所需，從而建立適合讀者的服務(wù)機(jī)制，使讀者更好的體驗(yàn)到圖書館所提供的服務(wù)。

［1］陸康．基于媒體平臺效應(yīng)的圖書館網(wǎng)絡(luò)服務(wù)研究［J］．現(xiàn)代情報，2015，35（4）：128－133．

［2］陳雅，譚華軍，鄭建明．圖書館個性化服務(wù)中的Web日志分析技術(shù)研究［J］．圖書館雜志，2011，（7）：43－46，54．

［3］陸康．網(wǎng)絡(luò)行為讀者需求分析運(yùn)用探討［J］．現(xiàn)代情報，2015，35（5）：94－97，104．

［4］劉慧．基于網(wǎng)絡(luò)行為的圖書館數(shù)字資源評價方法研究［J］．現(xiàn)代情報，2015，35（2）：62－66．

［5］陳臣．基于大數(shù)據(jù)的圖書館個性化服務(wù)用戶行為分析研究［J］．圖書館工作與研究，2015，（2）：28－31．

［6］于徽．?dāng)?shù)據(jù)挖掘在圖書館用戶行為分析中的應(yīng)用研究［D］．北京：北方工業(yè)大學(xué)，2009．

［7］王偉．基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究［J］．情報科學(xué)，2012，（3）：391－394，418．

［8］周偉，汪少華，楊云．基于數(shù)據(jù)挖掘和讀者行為分析的圖書館薦書系統(tǒng)的研究與設(shè)計［J］．圖書情報研究，2014，（4）：38－44．

［9］宋瑩，沈奇威，王晶．基于Hadoop的Web日志預(yù)處理的設(shè)計與實(shí)現(xiàn)［J］．電信工程技術(shù)與標(biāo)準(zhǔn)化，2011，（11）：84－89．

［10］馬瑞民，李向云．Web日志挖掘中數(shù)據(jù)預(yù)處理技術(shù)的研究［J］．計算機(jī)工程與設(shè)計，2007，（10）：2358－2360．

［11］羅森林，馬俊，潘麗敏．?dāng)?shù)據(jù)挖掘理論與技術(shù)［M］．北京：電子工業(yè)出版社，2013．

［12］張良均．?dāng)?shù)據(jù)挖掘?qū)嵱冒咐治觯跰］．北京：機(jī)械工業(yè)出版社，2013．

（本文責(zé)任編輯：孫國雷）

Data Mining on Reader Behaviors Based on Library Digital Resource System

Zhou Xin Lu Kang*
（Library，Nanjing Xiaozhuang University，Nanjing 211171，China）

The paper accurately achieved the actual acquirements of readers and provide better personalized service for readers by analyzing the behavior log data of library digital resource system．Firstly，the progress of the research on reader behaviors was introduced．Secondly，the meaning of the reader behavior data mining was described．Finally，the method for data acquisition and data mining in the digital resource system for readers in digital resource visiting system was introduced，and the reader behavior analysis system model was constructed．

library；digital library；data mining；reader behavior；log analysis；clustering analysis

10．3969/j．issn．1008－0821．2016．01．010

G250.71

1008－0821（2016）01－0051－06

2015－06－15

南京曉莊學(xué)院青年專項“基于信息覓食理論的數(shù)字圖書館學(xué)科服務(wù)模式研究”（項目編號：2013NXY84）；南京曉莊學(xué)院圖書館科研創(chuàng)新團(tuán)隊建設(shè)項目“圖書館數(shù)據(jù)分析機(jī)制與平臺建設(shè)”（項目編號：T201504）研究成果之一。

周欣（1984－），女，助理館員，碩士，研究方向：圖書館系統(tǒng)應(yīng)用與開發(fā)。

陸康（1983－），男，系統(tǒng)技術(shù)部副主任，館員，碩士，研究方向：數(shù)字資源建設(shè)與評估，數(shù)字資源平臺應(yīng)用與開發(fā)，發(fā)表論文24篇。

基于圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究

1 研究背景

2 圖書館讀者行為數(shù)據(jù)挖掘分析與設(shè)計

3 圖書館讀者行為數(shù)據(jù)挖掘方法與過程

4 研究應(yīng)用

5 總 結(jié)

5 總結(jié)