摘 要:隨著物聯(lián)網(wǎng),云計算等信息技術的發(fā)展,數(shù)據(jù)爆炸式增長,大數(shù)據(jù)時代到來。大數(shù)據(jù)時代的到來,對數(shù)字圖書館的信息服務產(chǎn)生了巨大的影響。本文在圖書館進行了大數(shù)據(jù)技術的應用研究,著重論述了如何將大數(shù)據(jù)技術融入數(shù)字圖書館信息服務。
關鍵詞:大數(shù)據(jù) 數(shù)字圖書館 信息服務方式
基金項目:《基于大數(shù)據(jù)的民族地區(qū)文獻數(shù)據(jù)挖掘分析研究》,項目編號:2017NDC131,級別:內(nèi)蒙古哲學社會科學規(guī)劃的青年項目
自2012年以來,大數(shù)據(jù)的概念受到了熱烈的反響,它甚至比物聯(lián)網(wǎng)和云計算還要熱。有大量跡象表明大數(shù)據(jù)時代即將到來。所謂大數(shù)據(jù),是指大數(shù)據(jù)集合,人們無法使用原有的技術來實現(xiàn)數(shù)據(jù)集的高效處理,可稱為大數(shù)據(jù)。如何有效地從大數(shù)據(jù)中挖掘有價值的信息是研究的重點。如何將大數(shù)據(jù)技術應用于大數(shù)據(jù)時代的數(shù)據(jù)庫,為用戶提供更滿意的服務已成為圖書館面臨的首要問題。本文探討如何將大數(shù)據(jù)技術整合到數(shù)字圖書館信息服務中,為用戶提供更加滿意的個性化信息服務。
一、數(shù)字圖書館信息服務體系
1)數(shù)字圖書館信息服務的概述。什么是數(shù)字圖書館信息服務?數(shù)字圖書館信息服務是搜索,收集,組織,查詢和傳播信息和資源,以獲取各種所需信息,并生成各種多媒體資料,如數(shù)據(jù)庫,因特網(wǎng)和電子版本。信息收集和整合活動中,用戶可以獲得兩篇或全部文獻。
2)數(shù)字圖書館信息服務的模式。數(shù)字圖書館主要將圖書館的圖書轉(zhuǎn)換為電子數(shù)據(jù)并提供圖書檢索服務。現(xiàn)在,每個圖書館都可以建立一個圖書館。來自不同地區(qū)不同國家的圖書館可以共同建立圖書館。這兩種方法的實質(zhì)是通過數(shù)據(jù)集的信息共享來共享圖書館資源。針對以上兩種不同的數(shù)字圖書館建設和信息服務方式,數(shù)字圖書館管理模式可分為單一數(shù)字圖書館服務模式和多種數(shù)字圖書館聯(lián)合服務模式。
3)基于大數(shù)據(jù)的數(shù)字圖書館信息服務內(nèi)容。資源發(fā)現(xiàn)的目標是找到更多滿足用戶需求的數(shù)字信息資源。在大數(shù)據(jù)環(huán)境下,通過大量技術提供用戶對海量數(shù)字資源滿意的數(shù)字信息資源。資源發(fā)現(xiàn)的內(nèi)容是圖書館信息資源和用戶信息資源的數(shù)字化收集。在大數(shù)據(jù)背景下,數(shù)字圖書館不僅可以提供單一的信息資源集合(包括文獻數(shù)字資源,圖書數(shù)字資源和視聽數(shù)字資源),還可以提供用戶信息資源(包括用戶行為信息資源用戶需要信息資源)。資源發(fā)現(xiàn)的方法根據(jù)發(fā)現(xiàn)的內(nèi)容而變化。用戶行為發(fā)現(xiàn)和用戶信息需求是信息資源發(fā)現(xiàn)的兩個主要方面。結(jié)果的差異是不同的。當然,發(fā)現(xiàn)的模式是不一樣的。用戶的行為通過各種網(wǎng)站的注冊信息,雨用戶的實時通信以及各種在線問卷調(diào)查發(fā)現(xiàn)。對用戶信息需求的調(diào)查包括元數(shù)據(jù)存儲資源的發(fā)現(xiàn),基于用戶數(shù)據(jù)挖掘和分析的數(shù)字資源的發(fā)現(xiàn)以及基于大數(shù)據(jù)決策的信息資源的發(fā)現(xiàn)。這些是發(fā)現(xiàn)用戶信息的模式并被廣泛使用。
二、 基于大數(shù)據(jù)的數(shù)字圖書館信息存儲
在大數(shù)據(jù)時代,數(shù)字信息的容量呈指數(shù)級增長。存儲的信息不再是簡單書目等基本信息,而是文獻的一些內(nèi)部內(nèi)容。數(shù)據(jù)量從MB增加到TB,甚至到PB的水平。對于數(shù)字圖書館如此龐大的數(shù)據(jù)量,如果能夠高效準確地獲取必要的數(shù)據(jù)資源,數(shù)字圖書館在大數(shù)據(jù)時代就必須解決這個問題。目前,現(xiàn)有文件存儲系統(tǒng)的文件存儲方法和檢索方法尚未能適應如此龐大的數(shù)據(jù)管理要求。同時,在大數(shù)據(jù)時代,數(shù)字圖書館除了存儲圖書館藏書和資源信息外,還需要存儲大量的用戶個人行為信息以滿足用戶的特定需求。這也涉及數(shù)據(jù)結(jié)構(gòu)問題和大數(shù)據(jù)時代的數(shù)據(jù)。該結(jié)構(gòu)呈現(xiàn)出多維趨勢,可分為結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和不同結(jié)構(gòu)的非結(jié)構(gòu)化數(shù)據(jù)。如果解決了不同結(jié)構(gòu)數(shù)據(jù)的合理存儲,融合,分析和處理,圖書館在大數(shù)據(jù)時代需要解決的一個亟待解決的問題。有相關技術可以解決上述問題,包括Map Reduce技術,Hadoop技術,No SQL和云計算。
基于大數(shù)據(jù)的數(shù)字圖書館信息資源組織。數(shù)字圖書館作為一個可復用提供檢索服務的龐大信息管理系統(tǒng),它是大規(guī)模、分布式、有組織的和具有資源共享的數(shù)據(jù)庫和知識庫的集合體。對于用戶而言,其并不關心數(shù)字圖書館中數(shù)字資源的具體存在形式,其只關心獲取的信息是否滿足自己的檢索需要。為了實現(xiàn)用戶需求和檢索結(jié)果匹配的精確性,就需要兩者之間具有某種“默契”。一致性匹配方式是在數(shù)字圖書館中,為了更好的為用戶提供信息服務,就需要首先針對數(shù)字圖書館的館藏資源進行科學準確合理的描述和組織,進而形成一致的、充分的、有效的、有序的和準確的組織信息,并且為用戶提供可檢索和可操作的交互接口,最終實現(xiàn)對數(shù)字圖書館數(shù)字資源充分利用的效果。同時在大數(shù)據(jù)環(huán)境下,數(shù)字圖書館的信息資源表現(xiàn)為數(shù)量大、結(jié)構(gòu)形式多樣化和數(shù)據(jù)存儲分布化的特點,在這種環(huán)境下,對數(shù)字圖書館的數(shù)字資源進行一致化資源組織就尤為重要,大數(shù)據(jù)信息資源的組織流程圖。
三、基于大數(shù)據(jù)的數(shù)字圖書館的信息檢索
隨著大數(shù)據(jù)的出現(xiàn),數(shù)字圖書館主要為用戶提供圖書搜索服務。在大數(shù)據(jù)時代,數(shù)據(jù)更新更快。如果這些更改的數(shù)據(jù)處理得很快,則會向用戶提供最新信息。檢索信息是基于大數(shù)據(jù)的數(shù)字圖書館信息檢索的難點和重點。
在大數(shù)據(jù)環(huán)境下,數(shù)字圖書館服務的核心是用戶,需要為用戶提供個性化的信息檢索服務。在大數(shù)據(jù)背景下,數(shù)字圖書館的檢索功能主要表現(xiàn)在以下幾個方面:。
1)個性化搜索。數(shù)字圖書館信息檢索基于對用戶信息收集的分析。用戶信息不僅包括用戶的個人信息,還包括用戶過去的行為信息。通過對用戶信息的數(shù)據(jù)挖掘,可以準確定位用戶的實際信息需求,并且借助現(xiàn)有的信息推送技術,用戶可以推送所需的信息。同時,數(shù)字圖書館的搜索引擎應具備一定的智能性。根據(jù)用戶輸入的搜索關鍵詞,通過智能分析,可以為用戶提供按關聯(lián)度排列的搜索結(jié)果,并在保證信息檢索準確性的前提下改善信息。準確率。
2)實時優(yōu)化需求。在大數(shù)據(jù)的背景下,數(shù)據(jù)以多維,海量化和其他特征呈現(xiàn),而數(shù)字圖書館必須提供高檢索率,而數(shù)字圖書館中的大量數(shù)據(jù)表示結(jié)構(gòu)包括結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),到今天為止,數(shù)字圖書館中的非結(jié)構(gòu)化數(shù)據(jù)的比例越來越大,大大提高了數(shù)據(jù)更新的速度。鑒于上述情況,圖書館應根據(jù)用戶搜索要求和數(shù)據(jù)環(huán)境變化的變化,實時優(yōu)化搜索引擎。
3)移動性需求。隨著信息技術的發(fā)展,用戶獲取信息的方式也呈現(xiàn)出多樣化的趨勢。用戶對數(shù)據(jù)采集的期望不受時間,空間和方法的限制。為了滿足用戶的實際需要,同時針對移動智能終端的特點,數(shù)字圖書館應該能夠為移動終端提供數(shù)據(jù)檢索服務。
4)智能化需求。在大數(shù)據(jù)時代,數(shù)字圖書館數(shù)據(jù)檢索服務需要能夠準確定位實際的信息檢索需求,并能夠快速選擇信息檢索策略,并將檢索結(jié)果快速返回給用戶。這需要大數(shù)據(jù)時代。圖書館搜索引擎是智能的。首先,數(shù)字圖書館的搜索引擎應該具備“機器學習”的智能功能。其次,搜索引擎應該能夠通過“機器學習”過程為用戶提供多樣化的數(shù)據(jù)檢索服務;最后,搜索引擎應該有實時更新。。
4 結(jié)束語
近年來,隨著信息技術的飛速發(fā)展,數(shù)字圖書館的數(shù)據(jù)量急劇增加,數(shù)據(jù)的存儲成本和處理成本大大降低,數(shù)據(jù)挖掘技術迅速發(fā)展。面對這一現(xiàn)實,如何正確面對信息時代的“熱門話題”不能簡單地得到尊重,反而需要“安靜的思考”,準確地分析其利弊。引入大數(shù)據(jù)不僅是一個巨大的機會,它可能是一個巨大的挑戰(zhàn)??梢哉f,大數(shù)據(jù)時代極大地提高了人們對數(shù)據(jù)的控制能力,同時也為海量數(shù)據(jù)的處理提供了新的方法和策略。到目前為止,大數(shù)據(jù)淹沒了人們的日常生活。針對這一現(xiàn)實,圖書館如何正確合理地利用大數(shù)據(jù)技術改變圖書館原有的信息服務模式,為用戶提供更好的信息檢索服務,是圖書館未來的主要研究方向。
參考文獻
[1]李廣建,楊林.大數(shù)據(jù)視角下的情報研究與情報研究技術[J].圖書與情報,2012(06):1-8.
[2]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012(05):37-40.
[3]楊海燕.大數(shù)據(jù)時代的圖書館服務淺析[J].圖書與情報,2012(04):120-122.
作者簡介
楊曉燕(1990-),女,漢族,內(nèi)蒙古包頭市人,內(nèi)蒙古農(nóng)業(yè)大學職業(yè)技術學院圖書館,碩士研究生,助理館員,研究方向:云計算與大數(shù)據(jù)分析、數(shù)據(jù)挖掘