福建中醫(yī)藥大學(xué)思想政治理論課教學(xué)科研部 吳 翔
數(shù)據(jù)挖掘技術(shù)在圖書館建設(shè)中的應(yīng)用
福建中醫(yī)藥大學(xué)思想政治理論課教學(xué)科研部 吳 翔
數(shù)據(jù)挖掘技術(shù)在各行業(yè)都有廣泛運(yùn)用,是一種新興信息技術(shù)。而圖書館作為一個海量信息的聚集點(diǎn),數(shù)據(jù)挖掘技術(shù)對其建設(shè)有著重要的意義,數(shù)據(jù)挖掘技術(shù)以其在圖書建設(shè)方面的良好的應(yīng)用前景,引起了圖書館管理工作者的注意,本文,筆者介紹數(shù)據(jù)挖掘的概念,以此為出發(fā)點(diǎn),對數(shù)據(jù)挖掘技術(shù)做出一個簡單的詮釋。數(shù)據(jù)挖掘技術(shù)包含了人工智能、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)等學(xué)科的內(nèi)容,是一門綜合性的技術(shù)。這種技術(shù)的主要特點(diǎn)是對數(shù)據(jù)庫中大量的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和分析,從中提取出能夠?qū)κ褂谜吖ぷ饔凶饔玫年P(guān)鍵性數(shù)據(jù)。而挖掘技術(shù)用于圖書建設(shè)中,可以讓用戶的學(xué)習(xí)和工作更加方便快捷,同時在圖書館自身的競爭力上面也能得到一步大的跨越。
數(shù)據(jù)挖掘技術(shù)的運(yùn)用還可以對用戶訪問圖書館的目的、趨勢和特征有一個充分的了解,以此為基礎(chǔ)來改進(jìn)圖書館的服務(wù)質(zhì)量和為圖書館購書提供一個指標(biāo)、一個標(biāo)準(zhǔn),對圖書館的建設(shè)有著非凡的意義。
1. 為圖書館的工作提供決策管理和技術(shù)支持。如今用戶的需求對圖書館的信息管理提出了新的要求。首先現(xiàn)在圖書館要處理更加復(fù)雜的信息,然后為使用者提供一個更為針對性的服務(wù);其次要提供一個個性化的主動信息服務(wù),讓信息來找人,按使用者的需求提供服務(wù)。在圖書館的建設(shè)中,實(shí)現(xiàn)個性化服務(wù)的方式就是對使用者的信息需要、愛好以及訪問歷史的數(shù)據(jù)信息建立用戶模型,并加以分析,并將此用于網(wǎng)上信息的排序和過濾,從而指導(dǎo)圖書館的服務(wù),這些都是數(shù)據(jù)挖掘技術(shù)的優(yōu)勢;另外圖書館使用有大量的統(tǒng)計(jì)數(shù)據(jù)和表單,數(shù)據(jù)挖掘技術(shù)能夠用這些數(shù)據(jù)和表單為圖書館的工作提供決策管理和技術(shù)支持。
2. 提高圖書館服務(wù)質(zhì)量,優(yōu)化館藏結(jié)構(gòu)。圖書館建設(shè)中,圖書館服務(wù)質(zhì)量占有一個重要的位置,做好圖書館的服務(wù)工作,能使圖書館建設(shè)更加符合用戶的要求。數(shù)據(jù)挖掘技術(shù)可以找到圖書借閱之間的聯(lián)系,讓圖書管理者對讀者的需求有一個更加系統(tǒng)的了解,同時能夠優(yōu)化館藏結(jié)構(gòu),對信息服務(wù)的提升起到一個促進(jìn)作用,從而促進(jìn)圖書館的建設(shè)。
1. 數(shù)據(jù)分類。數(shù)據(jù)挖掘技術(shù)通過對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,把數(shù)據(jù)按照相似性歸納成若干類別,然后做出分類,并能夠?yàn)槊恳粋€類別都做出一個準(zhǔn)確的描述,挖掘出分類的規(guī)則或建立一個分類模型。
2. 數(shù)據(jù)關(guān)聯(lián)分析。數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)是一項(xiàng)非常重要并可以發(fā)現(xiàn)的知識。數(shù)據(jù)關(guān)聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關(guān)聯(lián)分析的作用就是找出數(shù)據(jù)庫中隱藏的聯(lián)系,從中得到一些對圖書館建設(shè)中的管理工作有用的信息。就像是在購物中,就可以通過顧客的購買物品的聯(lián)系,從中得到顧客的購買習(xí)慣。
3. 預(yù)測。預(yù)測是根據(jù)已經(jīng)得到的數(shù)據(jù),從而對未來的情況做出一個可能性的分析。數(shù)據(jù)挖掘技術(shù)能自動在大型的數(shù)據(jù)庫中做出一個較為準(zhǔn)確的分析。就像是在市場投資中,可以通過各種商品促銷的數(shù)據(jù)來做出一個未來商品的促銷走勢,從而在投資中得到最大的回報。
數(shù)據(jù)挖掘技術(shù)融合了多個學(xué)科、多個領(lǐng)域的知識與技術(shù),因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計(jì)分析類的數(shù)據(jù)挖掘技術(shù)的角度來講,光統(tǒng)計(jì)分析技術(shù)中所用到的數(shù)據(jù)挖掘模型就有回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時間序列分析等多種方法。數(shù)據(jù)挖掘技術(shù)利用這些方法對那些異常形式的數(shù)據(jù)進(jìn)行檢查,然后通過各種數(shù)據(jù)模型和統(tǒng)計(jì)模型對這些數(shù)據(jù)進(jìn)行解釋,并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機(jī)會和市場規(guī)律。另外還有知識發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù),這種和統(tǒng)計(jì)分析類的數(shù)據(jù)挖掘技術(shù)完全不同,其中包括了支持向量機(jī)、人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、決策樹、粗糙集、關(guān)聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。
1. 圖書館建設(shè)中用戶資源的管理。圖書館的用戶是指使用圖書館信息資源的一切團(tuán)體和個人,在長期使用圖書館的過程中逐步形成的,是對圖書館的社會關(guān)系體系和服務(wù)能力的一種肯定。數(shù)據(jù)挖掘技術(shù)可以很好地分析用戶的數(shù)據(jù),從中得到用戶的屬性和行為特征,明確得到用戶的服務(wù)需求和信息需求。以此為基礎(chǔ)把用戶劃分為不同的用戶群,針對他們的個性化需求,進(jìn)行相應(yīng)的信息服務(wù)系統(tǒng)和資源建設(shè),實(shí)現(xiàn)用戶相關(guān)活動信息的集成。然后通過對用戶屬性和行為特征的分析推理,為圖書館的服務(wù)建設(shè)和決策提供一個客觀依據(jù)。
2. 圖書館建設(shè)中的讀者信息服務(wù)。圖書館在使用了數(shù)據(jù)挖掘技術(shù)后,能拓寬圖書館的信息服務(wù)的范圍,增加信息服務(wù)的項(xiàng)目,讓圖書館建設(shè)中的信息服務(wù)更加高效,且具有了主動性,在服務(wù)質(zhì)量上大大地跨出了一步。隨著現(xiàn)在數(shù)據(jù)庫的信息量的不斷增大和使用者越來越多,利用傳統(tǒng)的檢索方式來進(jìn)行定題情報服務(wù)的難度不斷增加,排序不規(guī)范或無序的電子信息還需要在不同的操作平臺上做出切換。而在利用數(shù)據(jù)挖掘技術(shù)以后,就可以做到整合各種類型的信息和數(shù)據(jù),將不同操作平臺上的電子信息和紙質(zhì)的圖書資料通過四種規(guī)則給用戶提供一個規(guī)范而統(tǒng)一的數(shù)據(jù)平臺,這樣大大增加了用戶的檢索效率。
3. 指導(dǎo)圖書采購。圖書的訂購是圖書館建設(shè)的重要工作,主要?dú)w屬于圖書館采訪部門,它是圖書館建設(shè)工作的起始端,同時也是現(xiàn)代圖書館資源建設(shè)的開端。每年圖書館的圖書采購經(jīng)費(fèi)有限,如何利用有限的資源進(jìn)行各門學(xué)科之間的搭配以及各種文獻(xiàn)載體的均衡就變成了一件讓圖書管理者為難的問題。而且現(xiàn)在的出版物數(shù)量也不斷增加,各種資源載體也越來越豐富。這些問題讓圖書館對結(jié)構(gòu)信息的把握、資金的均衡利用更加為難,采購工作的難度不斷加大。而利用數(shù)據(jù)挖掘技術(shù)可以進(jìn)行采訪數(shù)據(jù)庫和流通數(shù)據(jù)庫的歷史數(shù)據(jù)進(jìn)行序列分析和關(guān)聯(lián)性分析,從而輕松地得到各種文獻(xiàn)的利用率,為圖書采購提供一個科學(xué)合理的報告和預(yù)測信息,進(jìn)而指導(dǎo)圖書采購人員對圖書的采購,保障圖書館信息資源體系建設(shè)的合理性和科學(xué)性,從而對圖書館信息資源建設(shè)做出優(yōu)化。
4. 分析借閱流量周期。數(shù)據(jù)挖掘技術(shù)可以運(yùn)用時間序列的挖掘方向從流量數(shù)據(jù)庫中找出流通量的周期性規(guī)律,從中分析出用戶使用圖書的低谷期和高峰期。在人力資源和圖書資源都有限的情況下,以此可以對圖書館建設(shè)中流通部門的長期以及短期的工作做出科學(xué)的安排,為用戶提供更加優(yōu)質(zhì)的服務(wù)。比如,在全年的高峰期時段,可以把圖書館的服務(wù)集中在用戶的流通服務(wù)上;而在流通的低谷段,除了進(jìn)行日常借閱的流通服務(wù),還可以進(jìn)行圖書整理、業(yè)務(wù)學(xué)習(xí)、讀者培訓(xùn)之類的工作。這樣的做法能夠更好地利用時間和圖書館資源。
數(shù)據(jù)挖掘技術(shù)在社會各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效。但數(shù)據(jù)挖掘技術(shù)中還存在著一些問題,如數(shù)據(jù)的挖掘算法、預(yù)處理、可視化問題、模式識別和解釋等。對于這些問題,圖書館管理人員要予以清醒認(rèn)識,并合理使用數(shù)據(jù)挖掘信息,使數(shù)據(jù)挖掘技術(shù)能夠更加有效地發(fā)揮其作用。