高培培
摘要:大數(shù)據(jù)時代,圖書館服務(wù)過程中會產(chǎn)生大量的數(shù)據(jù),完善的數(shù)據(jù)管理工作可以促進(jìn)圖書館的數(shù)據(jù)統(tǒng)計工作,從而提高圖書館的服務(wù)質(zhì)量。如何對這些數(shù)據(jù)進(jìn)行管理,是一個系統(tǒng)而復(fù)雜的工作。文中試圖構(gòu)建一個數(shù)據(jù)管理框架,為圖書館未來發(fā)展提供數(shù)據(jù)基礎(chǔ)。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)管理;高校圖書館
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)29-0005-02
“大數(shù)據(jù)”是近幾年來信息科技領(lǐng)域最熱門的詞,越來越多的人開始關(guān)注它。大數(shù)據(jù)也給圖書館帶來了全面的沖擊。 圖書館的職責(zé)是促進(jìn)人類知識的交流與利用,有著存儲知識的功能,對存儲的文獻(xiàn)知識和信息進(jìn)行組織、整理,促進(jìn)其交流和利用。圖書館與知識和信息緊密相連,而數(shù)據(jù)概念的外延與信息和知識的外延本身就交錯重疊,不可分割,數(shù)據(jù)是圖書館館藏資源的重要組成部分。因此,對于圖書館來說,大數(shù)據(jù)的到來首先要解決的問題是如何將數(shù)據(jù)更好地存儲和管理。
1 大數(shù)據(jù)概述
“大數(shù)據(jù)”概念是伴隨著現(xiàn)階段數(shù)據(jù)增長的爆發(fā)趨勢提出的?!按髷?shù)據(jù)”是什么呢?從字面上理解,容易被理解為海量數(shù)據(jù),目前也沒有統(tǒng)一的定義。
1.1大數(shù)據(jù)研究現(xiàn)狀
大數(shù)據(jù)經(jīng)過這幾年的發(fā)展和研究成果顯著,楊繹[1]、韓芳芳、王新才等分別對我國大數(shù)據(jù)研究現(xiàn)狀進(jìn)行了總結(jié),黃永勤[2]對國外大數(shù)據(jù)的研究熱點進(jìn)行了總結(jié),薛辰[3]、李賀[4]等分別對國內(nèi)外的大數(shù)據(jù)研究進(jìn)行了綜述。
1.2大數(shù)據(jù)應(yīng)用現(xiàn)狀
大數(shù)據(jù)已經(jīng)不同程度地滲透到每一個行業(yè)領(lǐng)域和部門。數(shù)據(jù)里隱藏著巨大的商業(yè)價值,在未來的經(jīng)濟中將會起到不可替代的作用。目前,大數(shù)據(jù)的應(yīng)用已經(jīng)在電子通信、網(wǎng)絡(luò)技術(shù)產(chǎn)業(yè),甚至是工業(yè)、重工業(yè)等行業(yè)發(fā)揮了作用。特別是電子商務(wù)上,如淘寶、京東、亞馬遜等通過對海量數(shù)據(jù)的掌握和分析,為用戶提供更加專業(yè)化和個性化的服務(wù)。
1.3高校圖書館中的大數(shù)據(jù)
圖書館歷來是信息技術(shù)應(yīng)用的重鎮(zhèn),“大數(shù)據(jù)”時代亦不例外。圖書館在為讀者服務(wù)過程中必然會產(chǎn)生大量的數(shù)據(jù),因此圖書館中的大數(shù)據(jù)主要的來源有以下幾種 :一是有圖書館內(nèi)部產(chǎn)生,如圖書館自身的館藏資源(紙質(zhì)圖書、電子書、各類期刊論文數(shù)據(jù)庫、自建特色數(shù)據(jù)庫等)、固定資產(chǎn)、館舍情況、讀者借閱數(shù)據(jù)、讀者社交網(wǎng)絡(luò)數(shù)據(jù)等;二是圖書館外部的開放性的數(shù)據(jù),如館際互借數(shù)據(jù)、出版商數(shù)據(jù)等。
2 數(shù)據(jù)管理概述
2.1數(shù)據(jù)管理定義
當(dāng)前有關(guān)數(shù)據(jù)管理的定義有不同的表達(dá),本文采用百度百科中對數(shù)據(jù)管理的定義,“數(shù)據(jù)管理是利用計算機硬件和軟件技術(shù)對數(shù)據(jù)進(jìn)行有效的收集、存儲、處理和應(yīng)用的過程。目的在于充分有效地發(fā)揮數(shù)據(jù)的作用。實現(xiàn)數(shù)據(jù)有效管理的關(guān)鍵是數(shù)據(jù)組織。”即對圖書館管理與服務(wù)過程中產(chǎn)生的數(shù)據(jù)進(jìn)行有效管理。
數(shù)據(jù)管理[5]經(jīng)歷了人工管理、文件系統(tǒng)、數(shù)據(jù)庫系統(tǒng)三個發(fā)展階段。20世紀(jì)50年中期以前,屬于人工管理階段,數(shù)據(jù)不共享,不具有獨立性,主要用于科學(xué)計算,沒有相應(yīng)的軟件系統(tǒng)來管理數(shù)據(jù)。20世紀(jì)50年代后期到60年代中期,屬于文件系統(tǒng)階段,出現(xiàn)磁盤、磁鼓等存儲設(shè)備,數(shù)據(jù)可以長期保存,有了專門管理數(shù)據(jù)的軟件,成為文件系統(tǒng),但數(shù)據(jù)共享性差、冗余度大。20世界60年代后期以來,這一階段為數(shù)據(jù)庫系統(tǒng)階段,出現(xiàn)了大容量磁盤,數(shù)據(jù)能盡可能多的為應(yīng)用程序服務(wù),出現(xiàn)了數(shù)據(jù)庫這樣的數(shù)據(jù)管理技術(shù)。數(shù)據(jù)庫的數(shù)據(jù)是面向全組織,具有整體的結(jié)構(gòu)性,共享性高,冗余度減小,具有一定的程序與數(shù)據(jù)之間的獨立性,對數(shù)據(jù)進(jìn)行統(tǒng)一的控制。
2.2數(shù)據(jù)管理的必要性
1)大數(shù)據(jù)時代凸顯數(shù)據(jù)重要性。大數(shù)據(jù)是數(shù)據(jù)分析的基礎(chǔ)。沒有對海量信息分析的大數(shù)據(jù),就沒有為所有信息消費者獲取有價值信息的可能性[6]。
2)圖書館運營中產(chǎn)生大量的數(shù)據(jù)。近年來,計算機互聯(lián)網(wǎng)技術(shù)的強大功能已經(jīng)應(yīng)用到圖書館的日常運營中。各類管理系統(tǒng)在圖書館服務(wù)過程中產(chǎn)生了各種數(shù)據(jù),如讀者數(shù)據(jù)、館員工作日志、圖書借閱數(shù)據(jù)、網(wǎng)站點擊數(shù)據(jù)等。這些數(shù)據(jù)呈現(xiàn)幾何級數(shù)遞增趨勢,應(yīng)得到有效應(yīng)用。
3)數(shù)據(jù)管理是圖書館數(shù)據(jù)得到有效應(yīng)用的基礎(chǔ)。圖書館所擁有的數(shù)據(jù)量在不斷增加,但圖書館能夠分析的數(shù)據(jù)比例卻在不斷降低。圖書館各個管理系統(tǒng)在設(shè)計之初不一定會考慮到數(shù)據(jù)的統(tǒng)一性問題,這會導(dǎo)致產(chǎn)生的數(shù)據(jù)不一致,不能完全整合等問題。大數(shù)據(jù)時代,要充分利用大數(shù)據(jù)所帶來的技術(shù)優(yōu)勢的前提就是對圖書館的海量數(shù)據(jù)進(jìn)行有效數(shù)據(jù)管理。
2.3大數(shù)據(jù)時代的數(shù)據(jù)存儲管理
大數(shù)據(jù)存儲隨著大數(shù)據(jù)計算的發(fā)展也已經(jīng)歷時十多年,下面介紹兩個比較著名的大數(shù)據(jù)存儲方案[7]。
1) HDFS
HDFS(Hadoop Distributed File System)是支持Hadoop計算框架的分布式大數(shù)據(jù)存儲系統(tǒng),已經(jīng)被廣泛應(yīng)用于各大互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)中心。HDFS是目前最為流行的大數(shù)據(jù)存儲系統(tǒng),具有很高的容錯性、可擴展性、高并發(fā)性,并且基于廉價存儲服務(wù)器設(shè)備。當(dāng)然它還有許多方面需要進(jìn)一步完善,例如HDFS為了到達(dá)高容錯性,在數(shù)據(jù)中心中用戶的任意一份數(shù)據(jù)都會被復(fù)制三份保存在存儲系統(tǒng)中,這樣存儲系統(tǒng)保存的數(shù)據(jù)量遠(yuǎn)大于實際用戶需要的存儲量,存儲空間效率就會降低。
2) Tachyon
Tachyon是一個高容錯的分布式文件系統(tǒng),允許文件以內(nèi)存的速度在集群框架中進(jìn)行可靠的共享,其吞吐量要比HDFS高300多倍。Tachyon都是在內(nèi)存中處理緩存文件,并且讓不同的作業(yè)任務(wù)或查詢語句以及分布式計算框架都能以內(nèi)存的速度來訪問緩存文件。當(dāng)然截止目前Tachyon也只是0.2 alpha發(fā)行版,其穩(wěn)定性和魯棒性還有待檢驗。
3 大數(shù)據(jù)時代圖書館的數(shù)據(jù)管理
大數(shù)據(jù)對圖書館的發(fā)展趨勢的影響越來越強,圖書館在大數(shù)據(jù)發(fā)展中應(yīng)該承擔(dān)什么角色呢?美國學(xué)者對圖書館員在大數(shù)據(jù)時代中的角色與所需專業(yè)技能做了調(diào)研,認(rèn)為“ 圖書館可以在大數(shù)據(jù)環(huán)境下承擔(dān)數(shù)據(jù)管理職責(zé)”。[8]近年來的圖書館發(fā)展趨勢也顯示出,大數(shù)據(jù)在圖書館建設(shè)與服務(wù)上的變革的影響力,通過對大量數(shù)據(jù)的分析利用,揭示數(shù)字背后的隱藏價值,圖書館能高效、準(zhǔn)確地判定讀者群的個性特征、社會關(guān)系、閱讀需求和服務(wù)模式等。但是圖書館的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)復(fù)雜海量、數(shù)據(jù)來源多樣,因此,如何對數(shù)據(jù)進(jìn)行科學(xué)的管理,是我們首要面對的問題。
3.1 大數(shù)據(jù)時代高校圖書館的數(shù)據(jù)來源
表1 高校圖書館基本數(shù)據(jù)情況
[部門\&數(shù)據(jù)分類\&部門\&數(shù)據(jù)分類\&辦公室\&人事情況\&綜合流通部門\&接待讀者統(tǒng)計\&館舍情況\&借書統(tǒng)計\&設(shè)備情況\&還書統(tǒng)計\&財務(wù)情況\&超期罰款統(tǒng)計\&信息部\&科技查新統(tǒng)計\&遺失賠償統(tǒng)計\&原文傳遞統(tǒng)計\&館際互借統(tǒng)計\&學(xué)科服務(wù)工作統(tǒng)計\&社會讀者臨時閱覽證\&讀者信息素養(yǎng)培訓(xùn)統(tǒng)計\&資源建設(shè)部\&中文圖書采購統(tǒng)計\&數(shù)字化技術(shù)部\&設(shè)備維護情況\&中文期刊采購統(tǒng)計\&校內(nèi)學(xué)位論文加工情況\&報紙采購統(tǒng)計\&電子圖書制作統(tǒng)計\&外文圖書采購統(tǒng)計\&圖書館網(wǎng)站維護情況\&外文期刊采購統(tǒng)計\&電子資源使用情況\&數(shù)據(jù)庫采購情況\&]
圖書館各個部門每天運作過程中都會產(chǎn)生大量各種各樣的數(shù)據(jù),如借還書人數(shù)、進(jìn)館人數(shù)、館舍規(guī)模、館員情況、館藏情況等等。這些數(shù)據(jù)都是分散的,有效地管理的數(shù)據(jù)的前提是有針對性地梳理和整合這些數(shù)據(jù)。大數(shù)據(jù)時代,這些數(shù)據(jù)都在以海量的態(tài)勢激增,因此,圖書館應(yīng)該有針對性地處理和管理這些數(shù)據(jù)。針對性,主要指這些數(shù)據(jù)能體現(xiàn)圖書館整體發(fā)展、規(guī)模、特征及水平,能促進(jìn)圖書館各項工作的順利開展與有效管理。
數(shù)據(jù)管理工作需要統(tǒng)籌安排。高校圖書館一般都有行政辦公室部門,管理整個圖書館的人事情況等,具有一定的號召力,所以可以由行政辦公室來牽頭進(jìn)行數(shù)據(jù)管理工作,因此我們可以根據(jù)不同部門產(chǎn)生的數(shù)據(jù)將圖書館的各類數(shù)據(jù)大致分成五大模塊。這五大模塊涵蓋了圖書館所有業(yè)務(wù)服務(wù)數(shù)據(jù)及人事、財務(wù)等數(shù)據(jù),具體數(shù)據(jù)分類如表1所示。圖書館可以根據(jù)實際情況,增加或篩選需要進(jìn)行管理的數(shù)據(jù)內(nèi)容。
3.2大數(shù)據(jù)環(huán)境下高校圖書館數(shù)據(jù)管理架構(gòu)
基于數(shù)據(jù)管理的定義,數(shù)據(jù)管理可以分成四個步驟:數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)使用。數(shù)據(jù)收集,是指根據(jù)需求有針對性的將不同管理系統(tǒng)或不同設(shè)備上的數(shù)據(jù)收集起來。這些收集到的數(shù)據(jù)會因不同系統(tǒng)的原因,存在格式不統(tǒng)一、標(biāo)準(zhǔn)不一致等現(xiàn)象,所以這些收集來的數(shù)據(jù),需要進(jìn)行加工。經(jīng)過處理后的數(shù)據(jù)要進(jìn)行存儲,最終將數(shù)據(jù)提供給用戶使用。數(shù)據(jù)使用是最后一個步驟,之后的用途可能是產(chǎn)生最終的數(shù)據(jù)報表或者進(jìn)行快速查詢或者計算等等。
圖書館的各種各樣的數(shù)據(jù)來自不同的管理系統(tǒng)或設(shè)備,如借閱數(shù)據(jù)來自借還系統(tǒng)、圖書館采購數(shù)據(jù)來自采購系統(tǒng)、圖書基本信息數(shù)據(jù)來自編目系統(tǒng)、電子資源使用情況來自網(wǎng)站監(jiān)控系統(tǒng)……利用大數(shù)據(jù)分析來提高圖書館服務(wù)是目前的圖書館發(fā)展趨勢。圖書館可以研究分析讀者偏好,調(diào)整服務(wù)內(nèi)容和方式,滿足讀者需求。如:利用讀者借閱數(shù)據(jù)及瀏覽電子資源的歷史,分析讀者借閱偏愛,調(diào)整書刊及電子資源采購品種及策略;利用門禁系統(tǒng),計算每天進(jìn)出圖書館的人數(shù)、流量,及時調(diào)整服務(wù)時間。但不是所有的數(shù)據(jù)都是我們需要的,必須對大數(shù)據(jù)進(jìn)行篩選,篩選出的數(shù)據(jù)或因為是不同管理系統(tǒng)或者設(shè)備上的,其格式也有可能不盡相同。因此要先用大數(shù)據(jù)處理系統(tǒng)對數(shù)據(jù)進(jìn)行處理,并保存到大數(shù)據(jù)存儲系統(tǒng)中。用戶可以根據(jù)大數(shù)據(jù)存儲系統(tǒng)中的數(shù)據(jù),查詢或分析自己所需的信息報告,或產(chǎn)生最后的數(shù)據(jù)報表。圖書館還可以根據(jù)大數(shù)據(jù)使用反饋情況,調(diào)整自己的數(shù)據(jù)收集和處理,以便更好地利用圖書館大數(shù)據(jù),提高圖書館的服務(wù)。因此,大數(shù)據(jù)環(huán)境下高校圖書館數(shù)據(jù)管理架構(gòu)構(gòu)建如圖1所示。
4 總結(jié)
高校圖書館是大數(shù)據(jù)的重要“陣地”之一。大數(shù)據(jù)可以幫助圖書館提高服務(wù)質(zhì)量,實現(xiàn)更優(yōu)的個性化服務(wù)。面對高校圖書館各類不同類型的數(shù)據(jù),首先要對圖書館的海量數(shù)據(jù)進(jìn)行有效數(shù)據(jù)管理。本文基于此試圖構(gòu)建大數(shù)據(jù)環(huán)境下高校圖書館數(shù)據(jù)管理架構(gòu),希望為圖書館的發(fā)展帶來一些提升。當(dāng)然大數(shù)據(jù)時代中,圖書館如何更好地進(jìn)行數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用,更多還是要同實際情況相結(jié)合。大數(shù)據(jù)正逐漸在各行各業(yè)實踐中,這個背景下高校圖書館更應(yīng)做好充分準(zhǔn)備,努力發(fā)揚大數(shù)據(jù)帶來的技術(shù)優(yōu)勢,提高自身的發(fā)展。
參考文獻(xiàn):
[1] 楊繹.基于文獻(xiàn)計量的“大數(shù)據(jù)”的研究[J].圖書館雜志,2012,31(9):29-32.
[2] 黃永勤.國外大數(shù)據(jù)研究熱點及發(fā)展趨勢探析[J].情報雜志,2014(6):100-104.
[3] 薛辰.國際大數(shù)據(jù)研究論文的計量分析[J].現(xiàn)代情報,2013(9).
[4] 李賀,袁翠敏,李亞峰.基于文獻(xiàn)計量的大數(shù)據(jù)研究綜述[J].情報科學(xué),2014(6).
[5] 百度百科. http://baike.baidu.com[2015-7-30]
[6] 中國云計算技術(shù)與產(chǎn)業(yè)聯(lián)盟理事長吳基傳致辭.http://tech.163.com/13/0605/08/90JHL2SI00094NOL.html
[EB/OL].[2015-8-5].
[7] 曹剛.大數(shù)據(jù)存儲管理系統(tǒng)面臨挑戰(zhàn)的探討[J].軟件產(chǎn)業(yè)與工程,2013(6).
[8] 程蓮娟.美國推進(jìn)大數(shù)據(jù)的應(yīng)用實踐及其有益借鑒——基于圖書館視角的分析[J].情報資料工作,2013(5).