張 煒 洪 霞
〔摘 要〕本文介紹了數(shù)據(jù)挖掘技術(shù)、挖掘過程和數(shù)據(jù)挖掘體系結(jié)構(gòu),針對(duì)我館信息管理系統(tǒng)中書目、讀者和借閱信息、OPAC檢索記錄以及WEB問卷調(diào)查數(shù)據(jù),分析如何應(yīng)用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)讀者利用及需求的規(guī)律和模式,并探討了讀者利用挖掘在圖書館服務(wù)和管理上的應(yīng)用。
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;讀者需求;圖書館決策;個(gè)性化服務(wù)
〔中圖分類號(hào)〕G250.7 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2009)07-0047-04
Data Mining for Library Decision-making and
Application Analysis Based on Reader UsingZhang Wei1 Hong Xia2
(1.Library,Yangzhou University,Yangzhou 225009,China;
2.Laboratory and Equipment Manage Department,Yangzhou University,Yangzhou 225009,China)
〔Abstract〕This article introduced the technology,process and architecture of data mining,according to the booklist,the reader and the borrowing information in library information management system,OPAC searching records as well as the WEB questionnaire data,analyzed how to apply the data mining technology to discover the rule and pattern of reader using and demand,and discussed the reader using excavation in the library service and management application.
〔Key words〕data mining;reader demand;library decision-making;individuation service
圖書館作為學(xué)校信息資源的匯集中心,是以滿足學(xué)校全體師生員工的教學(xué)、科研和學(xué)習(xí)的需求為目標(biāo)。館藏資源的實(shí)用性,只有通過讀者的利用才能得到檢驗(yàn),同時(shí)利用也是讀者對(duì)資源實(shí)際需求的體現(xiàn),只有多渠道深層次地挖掘不同讀者群的興趣、借閱習(xí)慣、借閱傾向和借閱需求,分析并發(fā)現(xiàn)文獻(xiàn)結(jié)構(gòu)與讀者知識(shí)結(jié)構(gòu)的關(guān)系,才能預(yù)測(cè)出讀者未來的借閱行為,從而為決策管理提供數(shù)據(jù)支撐,并快捷、智能化地為讀者提供個(gè)性化主動(dòng)服務(wù)。因此,面對(duì)“被數(shù)據(jù)淹沒,卻饑餓于知識(shí)”的數(shù)字化時(shí)代的挑戰(zhàn),如何充分利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)有價(jià)值的隱性信息為圖書館管理服務(wù),已成為目前圖書館領(lǐng)域一項(xiàng)非常有意義的研究?jī)?nèi)容。
本文針對(duì)我館信息管理系統(tǒng)中書目、讀者和借閱信息及OPAC檢索記錄、WEB問卷調(diào)查中的能反映不同讀者群對(duì)不同資源的需求、閱讀習(xí)慣、閱讀傾向等大量的寶貴數(shù)據(jù),探討如何應(yīng)用數(shù)據(jù)挖掘技術(shù),找出隱藏在其中的讀者需求規(guī)律和模式,為圖書館的決策提供數(shù)據(jù)支撐和參考,以便將其應(yīng)用到對(duì)讀者的主動(dòng)推薦服務(wù)上,從而更好地提供智能化的個(gè)性服務(wù)。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘根據(jù)其主要研究對(duì)象的數(shù)據(jù)結(jié)構(gòu)形式的不同,一般分為數(shù)據(jù)挖掘、web數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘3種類別。其中面向數(shù)值數(shù)據(jù)的挖掘,通常稱數(shù)據(jù)挖掘。數(shù)據(jù)挖掘(Data Mining)就是指從大量的數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化)中提取有用的信息和知識(shí)的過程[1]。
1.1 數(shù)據(jù)挖掘技術(shù)
目前數(shù)據(jù)挖掘技術(shù)很多,同一個(gè)挖掘方法存在多個(gè)不同的挖掘算法。從挖掘功能上主要有分類分析、聚類模式分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、時(shí)間序列分析等方法。
1.1.1 分類分析
分類分析是根據(jù)數(shù)據(jù)對(duì)象尋找相應(yīng)的分類規(guī)則,再根據(jù)規(guī)則對(duì)數(shù)據(jù)對(duì)象進(jìn)行歸納分類,找出各類的特征屬性。
1.1.2 聚類分析
聚類分析是根據(jù)數(shù)據(jù)對(duì)象間的相似性條件的滿足與否進(jìn)行數(shù)據(jù)的劃分。把物理或抽象對(duì)象的集合組成由類似的對(duì)象組成的多個(gè)類或簇的過程。由聚類生成的簇是一組數(shù)據(jù)對(duì)象的集合,同一簇中的對(duì)象盡可能相似[2]。使得組間的差別盡可能大,組內(nèi)的差別盡可能小,按照給定的聚類參數(shù)(如距離等)進(jìn)行分解、合并??蓱?yīng)用到讀者群體的聚類、圖書文獻(xiàn)的聚類、讀者集群特性和借閱傾向分析等工作環(huán)節(jié)。其與分類分析不同的是,數(shù)據(jù)類劃分的數(shù)量與類型均是未知的。
1.1.3 關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析是通過尋找數(shù)據(jù)對(duì)象間的關(guān)聯(lián)模式,發(fā)現(xiàn)一些有價(jià)值的信息。如發(fā)現(xiàn)有很多讀者借閱了A文獻(xiàn)同時(shí)也會(huì)借閱B文獻(xiàn),則向借閱A文獻(xiàn)的讀者推薦B文獻(xiàn)。一般用支持度和可信度兩個(gè)閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度等參數(shù),使得所挖掘的規(guī)則更符合需求。此規(guī)則挖掘須注意目標(biāo)明確,選取恰當(dāng)?shù)淖钚≈С侄群妥钚】尚哦取?/p>
1.1.4 序列模式分析
序列模式分析是在數(shù)據(jù)庫中尋找基于一段時(shí)間區(qū)域的關(guān)聯(lián)分析。它與關(guān)聯(lián)分析區(qū)別在于序列模式表述的是基于時(shí)間的關(guān)系,分析數(shù)據(jù)之間的前因后果關(guān)系,而不是對(duì)象間的關(guān)系,側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時(shí)間內(nèi),讀者借閱了A文獻(xiàn),接著借閱B文獻(xiàn),而后借閱C文獻(xiàn),即序列A→B→C出現(xiàn)的高頻序列”之類的知識(shí),通過時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。在進(jìn)行分析時(shí)須注意選取合適的最小置信度和最小支持度。
1.1.5 時(shí)間序列分析
時(shí)間序列分析是根據(jù)數(shù)據(jù)隨時(shí)間變化的趨勢(shì)進(jìn)行預(yù)測(cè),一般采用在連續(xù)的時(shí)間流中截取一個(gè)時(shí)間窗口,并將其中的數(shù)據(jù)作為一個(gè)數(shù)據(jù)單元,再讓此時(shí)間窗口在時(shí)間流上滑動(dòng),以獲得建立模型所需要的集合[3]。時(shí)間序列的數(shù)據(jù)庫內(nèi)某個(gè)字段的值是實(shí)時(shí)變化的。
1.2 數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘不僅僅是利用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行挖掘的過程。還應(yīng)包括挖掘目標(biāo)的確定、前期的數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和對(duì)挖掘結(jié)果的解釋與應(yīng)用。
1.2.1 確定挖掘目標(biāo)和數(shù)據(jù)選擇
根據(jù)問題和提供服務(wù)的要求,明確挖掘目標(biāo)是數(shù)據(jù)挖掘的第一步。然后搜索所有與挖掘目標(biāo)有關(guān)的內(nèi)、外部數(shù)據(jù)。本文主要針對(duì)我館信息管理系統(tǒng)中的書目信息、讀者信息和借閱信息及OPAC檢索記錄、WEB問卷調(diào)查數(shù)據(jù)。它們的關(guān)系如圖1所示:
其中opac檢索信息主要反映讀者需求。內(nèi)容主要包括讀者標(biāo)識(shí)、檢索字段、檢索時(shí)間。由于很多情況下是匿名登錄,可以利用IP地址代替讀者標(biāo)識(shí),對(duì)于檢索字段如是規(guī)范的檢索式需要記錄多個(gè)檢索詞和檢索符號(hào)、檢索項(xiàng),如是語句或短語還需進(jìn)行分詞;Web問卷調(diào)查主要來自“圖書館館藏資源利用讀者評(píng)價(jià)平臺(tái)”,通過此平臺(tái)可以了解不同讀者(不同層次、不同院系讀者、不同年齡段)對(duì)藏書的利用狀態(tài)評(píng)價(jià),分析不同讀者群對(duì)藏書的需求傾向、對(duì)知識(shí)獲取的范圍和閱讀的規(guī)律性等。
1.2.2 數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)預(yù)處理是對(duì)收集到的數(shù)據(jù)源進(jìn)行加工處理和組織重構(gòu),以上的原始數(shù)據(jù)存在同構(gòu)和異構(gòu)的情況,因此需要從各種數(shù)據(jù)源中去選擇所需要的數(shù)據(jù)構(gòu)成目標(biāo)數(shù)據(jù),收集、整理、重構(gòu)web問卷調(diào)查等異構(gòu)數(shù)據(jù),使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)。并對(duì)目標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)一的存儲(chǔ),消除其中的不一致性。如:一些空值數(shù)據(jù)、不完整不一致的數(shù)據(jù)、冗余數(shù)據(jù)和缺失的數(shù)據(jù),對(duì)它們進(jìn)行去除噪聲、刪除無效數(shù)據(jù)、填補(bǔ)缺失項(xiàng)等操作。
數(shù)據(jù)轉(zhuǎn)換主要是為了使數(shù)據(jù)能夠適應(yīng)算法計(jì)算的要求而進(jìn)行的操作。包括離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換、數(shù)據(jù)值的分組分類、數(shù)據(jù)項(xiàng)之間的計(jì)算組合等,對(duì)于高維數(shù)據(jù)集需要采用維變換或數(shù)據(jù)約簡(jiǎn)來減少數(shù)據(jù)屬性值的有效數(shù)量。例如為了能實(shí)現(xiàn)聚類的分析,須對(duì)細(xì)而且數(shù)值分散的圖書索書號(hào)進(jìn)行數(shù)據(jù)處理,可分別取大類和第二級(jí)分類;對(duì)每天的流通記錄數(shù)據(jù)可按照年、季、月、星期、小時(shí)的不同時(shí)間屬性進(jìn)行劃分。
1.2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘階段將根據(jù)挖掘目標(biāo)和特點(diǎn)選擇相應(yīng)的算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘,用知識(shí)庫中的領(lǐng)域知識(shí)指導(dǎo)搜索,尋找特定的感興趣的模式或數(shù)據(jù)集,并對(duì)挖掘得到的知識(shí)模式進(jìn)行分析與評(píng)估,將模型評(píng)估與數(shù)據(jù)挖掘集成在一起,以便將搜索限制在有價(jià)值的模式上。這是一個(gè)反復(fù)迭代進(jìn)行的過程,需要對(duì)挖掘結(jié)果進(jìn)行不斷的實(shí)踐應(yīng)用、測(cè)試、和比對(duì),直至讀者滿意。
1.2.4 挖掘結(jié)果的解釋和應(yīng)用
挖掘結(jié)果往往不是可視化的,是難以理解的。因此需要對(duì)結(jié)果進(jìn)行合理的解釋,將發(fā)現(xiàn)的知識(shí)以便于用戶理解和觀察的可視化方式反映給用戶,并提供個(gè)性化的主動(dòng)推薦服務(wù)。
1.3 數(shù)據(jù)挖掘結(jié)構(gòu)模型
數(shù)據(jù)挖掘體系結(jié)構(gòu)主要包含三層,即:數(shù)據(jù)層、應(yīng)用邏輯層和表達(dá)層,其中第一層是數(shù)據(jù)層,主要通過ODBC或其它數(shù)據(jù)庫接口提取圖書館相關(guān)的各類數(shù)據(jù)。第二層是應(yīng)用邏輯層,主要完成數(shù)據(jù)挖掘、應(yīng)用服務(wù)等處理功能。第三層是表達(dá)層,主要負(fù)責(zé)用戶與數(shù)據(jù)挖掘系統(tǒng)間的交互。結(jié)構(gòu)模型如圖2所示。
2 讀者利用及需求挖掘在圖書館服務(wù)管理中的應(yīng)用
圖書館每天都會(huì)產(chǎn)生大量的數(shù)據(jù), 這些數(shù)據(jù)背后蘊(yùn)藏了豐富的、未知的、有用的知識(shí),對(duì)圖書館決策、管理及應(yīng)用是非常有價(jià)值的。而目前圖書館自動(dòng)化系統(tǒng)一般只用來做一些常規(guī)的業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì),無法發(fā)現(xiàn)這些數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法預(yù)測(cè)讀者的信息需求,更缺乏對(duì)大量的統(tǒng)計(jì)數(shù)據(jù)中隱含的關(guān)聯(lián)的歸納、分析與揭示,使圖書館對(duì)讀者信息需求和文獻(xiàn)利用的捕獲停留在比較淺顯的層面,這就需要我們通過挖掘讀者信息需求、文獻(xiàn)利用的分類的聚合、讀者分類、需求聚類等數(shù)據(jù),尋找各學(xué)科及不同學(xué)科層次之間的一些相互關(guān)聯(lián)的知識(shí),以輔助圖書館的決策,優(yōu)化圖書館的館藏布局;通過挖掘讀者年齡、性別、學(xué)歷、學(xué)科背景、職業(yè)等屬性來發(fā)現(xiàn)不同的讀者群對(duì)不同類別文獻(xiàn)的借閱模式和興趣規(guī)則,據(jù)此可以更好地提供個(gè)性化信息服務(wù)。
2.1 圖書館管理決策方面的應(yīng)用
2.1.1 分析讀者的利用與需求,提升圖書館服務(wù)與管理
(1)通過對(duì)讀者借閱次數(shù)和圖書借閱頻率數(shù)據(jù)的挖掘,每月出一個(gè)圖書借閱排行榜和讀者借閱次數(shù)排行榜。對(duì)排在前十位的圖書重點(diǎn)介紹和推介。對(duì)排在前十位的讀者,可剖析其所借閱書籍類別,提高讀者導(dǎo)讀的效果,從而提高圖書利用率,引導(dǎo)讀者閱讀趨向,以保持他們的借閱忠誠(chéng)度。
(2)由于讀者最大借閱冊(cè)數(shù)和借閱周期一般是根據(jù)讀者的身份特征設(shè)定的,這就會(huì)使得不同借閱需求讀者的資源分配不均,可通過聚類分析方法(如采用k-means算法)對(duì)讀者在某個(gè)時(shí)間段的借閱次數(shù)進(jìn)行聚類計(jì)算,將聚類結(jié)果存儲(chǔ)在讀者聚類結(jié)果表中,一方面可以了解讀者對(duì)圖書館服務(wù)的使用程度,另一方面也可以根據(jù)讀者的使用情況劃分讀者群,針對(duì)不同的讀者群采取不同的服務(wù)措施,可按照讀者的聚類結(jié)果定期調(diào)整讀者的最大借閱次數(shù)和借閱周期,以滿足不同讀者群的需求,充分利用館藏資源,為他們提供主動(dòng)的推薦服務(wù)。
(3)通過時(shí)間序列分析挖掘出借閱流通量的周期性規(guī)律,特別是年、季、月、星期、小時(shí)等不同時(shí)間特性的不同讀者群的借閱量規(guī)律,找出讀者在各種不同的時(shí)期里,使用圖書館的狀況,了解讀者需求,從而進(jìn)一步分析讀者借閱書籍的高峰期和低谷期,籍此可以在人力、財(cái)力資源有限的情況下,為流通部門日常工作的安排提供科學(xué)合理的參考數(shù)據(jù),為讀者提供更多更優(yōu)質(zhì)的服務(wù)。在此基礎(chǔ)上還可加入文獻(xiàn)類別的分析,利用聚類分析,來探討時(shí)間與文獻(xiàn)間的關(guān)系,從而了解到讀者借閱的喜好,并可在熱門時(shí)段作強(qiáng)力圖書推薦或在借閱冷清時(shí)段作積極的推銷。
2.1.2 獲取文獻(xiàn)利用狀況,優(yōu)化館藏布局
(1)通過對(duì)流通記錄、opac檢索請(qǐng)求及館藏書目庫進(jìn)行分析與挖掘,按文獻(xiàn)類別統(tǒng)計(jì)文獻(xiàn)拒借集、頻繁借閱集、文獻(xiàn)利用率,并對(duì)讀者借閱的文獻(xiàn)進(jìn)行關(guān)聯(lián)、聚類分析,挖掘出讀者對(duì)文獻(xiàn)的借閱興趣、借閱需求,了解文獻(xiàn)的受歡迎程度,提高文獻(xiàn)的利用率,綜合本館的資源和現(xiàn)有需求量調(diào)整采購策略,從而有針對(duì)性地補(bǔ)充、豐富、優(yōu)化館藏資源,對(duì)館藏文獻(xiàn)的調(diào)整和資金的合理分配具有實(shí)際意義。
(2)通過對(duì)文獻(xiàn)被借閱次數(shù)(總借閱統(tǒng)計(jì)次數(shù)和當(dāng)前年被借閱情況)的聚類分析,挖掘出館藏文獻(xiàn)的利用情況,可對(duì)借閱頻率較高且連續(xù)續(xù)借的書目,以量化方式反饋給采訪部門以加大采訪力度。
(3)通過對(duì)讀者的聚類分析,找出不同讀者群間不同的借閱行為,分析其可能存在的閱讀傾向,并以概率的形式體現(xiàn),同時(shí)可挖掘出每個(gè)讀者群間普遍出現(xiàn)的文獻(xiàn)類別,分析其所代表的意義,把此作為圖書采購的參考依據(jù),以供相關(guān)部門決策。
2.2 獲取讀者需求信息,提供個(gè)性化服務(wù)
(1)讀者需求信息挖掘是一種主動(dòng)獲取不同讀者群興趣模式的方法。通過分類、聚類分析方法,根據(jù)不同讀者的特征及借閱記錄,對(duì)讀者群體按照年齡、學(xué)歷、學(xué)科背景、職業(yè)等屬性進(jìn)行分類,把讀者進(jìn)行群體細(xì)分,挖掘出不同讀者群體間借閱興趣的相似性和相異性,找出各類特性的讀者群對(duì)圖書的興趣需求模式,建立模式之后,該類別其他讀者借閱或關(guān)注過的文獻(xiàn)或者同類別新到的文獻(xiàn),可按照此模式主動(dòng)推薦給有該特性的讀者,實(shí)現(xiàn)主動(dòng)的信息推薦服務(wù)。
(2)同時(shí)對(duì)文獻(xiàn)資源進(jìn)行關(guān)聯(lián)規(guī)則分析,尋找讀者借閱圖書的潛在規(guī)律,挖掘出相互之間有密切關(guān)系的文獻(xiàn),并找出讀者個(gè)人特征與文獻(xiàn)之間的關(guān)聯(lián)性,進(jìn)一步了解讀者的借閱興趣及需求,當(dāng)讀者使用其中一個(gè)資源時(shí),可將其他相關(guān)資源推薦給讀者;當(dāng)有新的文獻(xiàn)進(jìn)館,可根據(jù)該文獻(xiàn)的類別,將其推薦給相應(yīng)類別的讀者,自動(dòng)實(shí)現(xiàn)根據(jù)讀者借閱情況,主動(dòng)為其提供相關(guān)文獻(xiàn)的功能,從而能夠在個(gè)性化服務(wù)方面得以實(shí)際的應(yīng)用。在挖掘文獻(xiàn)間的關(guān)聯(lián)性時(shí),由于讀者的閱讀興趣往往與他的專業(yè)相關(guān),不僅要尋找那些借閱頻率較高的圖書間的關(guān)聯(lián)性(不進(jìn)行分類的挖掘),還應(yīng)該對(duì)圖書進(jìn)行分類(可根據(jù)中圖法)的關(guān)聯(lián)規(guī)則挖掘,找到同類圖書之間的關(guān)聯(lián)性。
(3)讀者借閱館藏可能會(huì)先借入門的再借深入的,通過序列模式可挖掘不同讀者群體借閱館藏文獻(xiàn)的時(shí)間順序特性,當(dāng)某一讀者群借閱某類文獻(xiàn)時(shí),主動(dòng)向該類讀者群推薦具有時(shí)間順序特性的相關(guān)類別的后續(xù)文獻(xiàn)。
3 結(jié) 語
隨著信息時(shí)代數(shù)字化、網(wǎng)絡(luò)化的飛速發(fā)展和應(yīng)用,如何從數(shù)據(jù)的汪洋大海中及時(shí)發(fā)現(xiàn)有用的知識(shí),已成為數(shù)字化時(shí)代圖書館信息管理服務(wù)向智能化和服務(wù)多元化方向發(fā)展所必須面對(duì)的問題。因此,變被動(dòng)服務(wù)為主動(dòng)服務(wù),主動(dòng)通過聚類、分類、關(guān)聯(lián)規(guī)則及序列模式等挖掘技術(shù)尋找不同讀者群對(duì)不同類別書籍的借閱興趣規(guī)則、借閱習(xí)慣、需求和傾向等,研究各學(xué)科專業(yè)的館藏資源利用、老化程度、經(jīng)費(fèi)投入情況,發(fā)現(xiàn)各學(xué)科領(lǐng)域間、不同讀者群潛在需求的知識(shí)關(guān)聯(lián),無疑對(duì)圖書館管理與服務(wù)向知識(shí)服務(wù)的層面發(fā)展起到很好的指導(dǎo)作用,它不僅是形成最大限度滿足讀者需求的文獻(xiàn)保障體系的重要依據(jù),也是圖書館開展以讀者需求為導(dǎo)向的各項(xiàng)智能化個(gè)性服務(wù)工作的基礎(chǔ)。
參考文獻(xiàn)
[1]司徒浩臻.數(shù)據(jù)挖掘技術(shù)在圖書館信息服務(wù)中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2005,(10):15-18.
[2]羅可,蔡碧野,吳一帆,等.數(shù)據(jù)挖掘中聚類的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,(20):182-184,218.
[3]劉文科.數(shù)據(jù)挖掘在高校圖書館讀者管理中的應(yīng)用[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2007,16(8):67-68.
[4]李瑋平.基于數(shù)據(jù)挖掘的圖書館讀者需求分析[J].圖書館論壇,2004,24(3):86-88.