郝亞可
【摘 要】隨著信息技術(shù)的飛速發(fā)展進步,大數(shù)據(jù)的研究和應(yīng)用已經(jīng)成為了關(guān)注度非常高的熱門技術(shù),可以說,大數(shù)據(jù)時代已經(jīng)到來了。在大數(shù)據(jù)時代,圖書館館藏資源的整理技術(shù)需要進行進一步的優(yōu)化和提升,而將資源數(shù)字化來進行資源整合和存儲,既可以提高實現(xiàn)資源共享,又可以提高文獻的易用性,對圖書館的工作優(yōu)化有著很大幫助。本文針對大數(shù)據(jù)時代圖書館館藏數(shù)字資源的整合和存儲策略進行分析,對相關(guān)內(nèi)容進行了介紹,以供參考。
【關(guān)鍵詞】大數(shù)據(jù)時代;圖書館;館藏數(shù)字資源;整合和存儲
隨著信息技術(shù)的發(fā)展以及物聯(lián)網(wǎng)技術(shù)等新型技術(shù)的涌現(xiàn),信息平臺上所存儲和傳輸?shù)臄?shù)據(jù)呈指數(shù)型爆炸增長,大數(shù)據(jù)時代已然到來。而如何對巨量的數(shù)據(jù)進行有效分析和處理,從中尋找到自己所需要的信息分量,即大數(shù)據(jù)分析技術(shù),已經(jīng)成為了當下的研究熱點,在各行各業(yè)中都進行了分析和應(yīng)用。對于圖書館而言,作為圖書資源的匯集處和整合中心,圖書館也應(yīng)該跟上時代的步伐,提高自身的圖書檢索和資源整理效率。在大數(shù)據(jù)時代背景下,圖書館應(yīng)該積極進行信息化數(shù)字化資源平臺的建設(shè),積極將大數(shù)據(jù)處理分析技術(shù)運用到圖書的資源整合和存儲中來,使圖書整理和檢索的效率最大化,從而提高自身的工作水平,保證用戶的閱讀體驗。
一、大數(shù)據(jù)有關(guān)內(nèi)容介紹
大數(shù)據(jù)是IT行業(yè)的術(shù)語,其最早是由奧地利學(xué)者維克托·邁爾-舍恩伯格以及肯尼斯·庫克耶所提出簡要來說就是巨量數(shù)據(jù)的集合體,這部分數(shù)據(jù)使用常規(guī)手段不能進行完全搜集和整理,也無法進行分析,需要更為有效的數(shù)據(jù)處理手段才能進行大數(shù)據(jù)分析,大數(shù)據(jù)的主要特點可以概括為5V,即Volume(大量):信息數(shù)量遠遠大于之前的常規(guī)數(shù)據(jù)、Velocity(高速):數(shù)據(jù)產(chǎn)生的速度與獲得數(shù)據(jù)的速度極快,以之前的常規(guī)信息處理手段無法正常處理、Variety(多樣):數(shù)據(jù)類型非常多樣化,、Value(低價值密度):數(shù)據(jù)質(zhì)量參差不齊,海量數(shù)據(jù)中所蘊含的高價值信息較少,價值密度較低、Veracity(真實性):數(shù)據(jù)都是由即時情況所轉(zhuǎn)化而來,需要進行真實性篩選,此外還具有復(fù)雜性等其它特點。
二、大數(shù)據(jù)時代背景下進行圖書館資源數(shù)字化整合的原因分析
1.為了提高資源整合的效率,保持資源時效性
長期以來,圖書館進行書籍資源的整理時都是使用人力進行工作的,無論是書籍的種類標示、分類存放還是標號都需要人工進行,并且進行書籍檢索的關(guān)鍵字確定時也需要手工確定和錄入,不僅需要耗費大量的時間,一旦工作人員出現(xiàn)疏忽或者疲憊情況,出錯的可能性還非常大。而進入網(wǎng)絡(luò)信息時代以后,網(wǎng)絡(luò)數(shù)字資源例如數(shù)字多媒體資料等逐漸增多,而大部分數(shù)字資源都擁有一定的時效性,如果還是按照之前的人工整理方式進行資源整合的話不僅效率低,還會嚴重降低資料使用時的時效性。因此對于數(shù)字資源來講,必須尋找更加智能化高效率的資源自動標注和整理方法,這也是現(xiàn)在圖書館管理和資源整理研究的重點內(nèi)容。目前,通過大數(shù)據(jù)分析技術(shù)結(jié)合智能化整理技術(shù)對數(shù)字資源進行整合成為了主流選擇,與人工方式相比,大數(shù)據(jù)技術(shù)不僅資源篩選速度快、準確率高,其整合速度和分類速度也非常迅速,對于保持數(shù)字資源的時效性以及提高資源整合的效率都有很大的幫助。
2.為了提高數(shù)字信息資源的標準程度,使其便于使用
網(wǎng)絡(luò)資源是通過互聯(lián)網(wǎng)這一媒介將各種類型各種領(lǐng)域的資源所整合在一起的大型集合體,其在網(wǎng)絡(luò)中的分布是無序且較為散亂的。如果需要對網(wǎng)絡(luò)儲存的數(shù)據(jù)進行交流使用的話,必須要將其進行整合,否則未經(jīng)加工的數(shù)字資源不僅在格式類型上不一致,其索引方式和使用方式也不一樣,直接進行利用基本無法進行有效的信息獲得。除此之外,進行互聯(lián)網(wǎng)信息訪問并不需要專門的場所和機構(gòu),普通用戶都可以借助個人信息設(shè)備例如智能手機、平板電腦等來登陸數(shù)字圖書館進行信息瀏覽,而普通用戶很難做到準確使用信息平臺對各種類型的數(shù)據(jù)文件進行正確瀏覽的。因此,必須要對雜亂的數(shù)字資源進行整合和合理化的存儲,從而提高信息資源的標準化程度,并且使其使用更加簡便,從而保證數(shù)字圖書館平臺能夠具有應(yīng)有的使用價值。
三、數(shù)字資源整合和存儲的具體方法探討
在大數(shù)據(jù)時代背景下,利用大數(shù)據(jù)對數(shù)字資源進行整合要按照不同的信息模塊進行順序操縱,信息模塊一般分為四種,即大數(shù)據(jù)資源提取模塊、資源篩選與分析模塊、資源整理與分類模塊以及最后的綜合控制與反饋系統(tǒng)。其功能包括數(shù)字資源的提取、過濾、整理、儲存。接下來分別進行介紹。
大數(shù)據(jù)資源提取模塊的任務(wù)是將數(shù)據(jù)進行抓取與儲存,主要的處理數(shù)據(jù)類型包括信息數(shù)據(jù)、系統(tǒng)以及客戶的管理數(shù)據(jù)等。除了進行數(shù)據(jù)獲取,該系統(tǒng)也能根據(jù)數(shù)據(jù)的源頭、基本特點等將數(shù)據(jù)進行初步分類,分配到其應(yīng)該進入的數(shù)據(jù)庫之中,這個模塊是信息資源整合系統(tǒng)的基礎(chǔ)部分,主要負責(zé)信息的錄入工作。
資源篩選與分析模塊緊緊承接著大數(shù)據(jù)資源模塊而來,上一模塊將資源注入到數(shù)據(jù)庫中之后,資源篩選和分析模塊要對數(shù)據(jù)進行特征過濾,首先清除掉無用的冗余資源,然后要根據(jù)數(shù)據(jù)的特征和格式等特點對資源進行進一步的分類,提高數(shù)字資源的利用準確程度。
資源整理模塊是在數(shù)據(jù)經(jīng)過大數(shù)據(jù)處理和分類轉(zhuǎn)換之后對數(shù)據(jù)進行進一步的分類處理和存儲工作,將數(shù)據(jù)按照類型存放入數(shù)據(jù)庫,為數(shù)據(jù)進行最關(guān)鍵的處理做準備。
綜合控制和反饋系統(tǒng)是對數(shù)字資源進行整合和存儲的最關(guān)鍵部分,數(shù)據(jù)經(jīng)過前三個階段的大數(shù)據(jù)提取和篩選分析并存放進入數(shù)據(jù)庫之后,由綜合控制及反饋系統(tǒng)使用信息數(shù)據(jù)分析處理技術(shù)對最終余下的數(shù)據(jù)進行資源可利用程度的評估,對資源的分區(qū)儲存等進行調(diào)整,并且對信息回傳做好反饋。此系統(tǒng)還負責(zé)對數(shù)據(jù)處理工作進行監(jiān)控,尋找工作中的問題點和錯誤,并及時進行更正,從而提高數(shù)字資源整合和存儲的效率和正確度。該系統(tǒng)是整個處理步驟的核心部分。
在進行數(shù)字資源整合和儲存時要按照這四個模塊建設(shè)存儲系統(tǒng),將存儲系統(tǒng)分為多個層次以對應(yīng)不同模塊的處理工作,基本層次分為基礎(chǔ)設(shè)施服務(wù)層(IaaS),負責(zé)大數(shù)據(jù)資源提取模塊的工作以及存儲工作,PaaS層即平臺服務(wù)層即平臺服務(wù)層,負責(zé)資源整理模塊以及提供多種信息接口,例如管理接口、加工以及分布接口等,還有應(yīng)用服務(wù)層(SaaS),是整個存儲系統(tǒng)的軟件結(jié)構(gòu),并且用戶可以借助此層次中的軟件功能實現(xiàn)多種信息檢索和使用功能。
進行系統(tǒng)設(shè)計時要注意以下幾點:優(yōu)化資源整理模塊的功能,盡量使用功能更為強大的信息篩選技術(shù),提高信息過濾的效率,為數(shù)據(jù)篩選和分析功能騰出工作空間;注意硬件系統(tǒng)的負載,防止大量的數(shù)據(jù)流入而導(dǎo)致硬件負載過高而降低效率。
四、總結(jié)
在大數(shù)據(jù)時代下,數(shù)據(jù)由書面化向數(shù)據(jù)化信息化轉(zhuǎn)變,并且數(shù)據(jù)的量大大增加,這對圖書館這一公共數(shù)據(jù)平臺而言是很大的挑戰(zhàn)。圖書館想要得到進一步的發(fā)展就要與時俱進,積極使用先進的技術(shù)。要結(jié)合大數(shù)據(jù)技術(shù)進行資源整合和存儲技術(shù)的優(yōu)化,認真研究圖書館館藏數(shù)字資源整合和存儲工作的開展必要性、基本工作模塊結(jié)構(gòu)、服務(wù)層種類等內(nèi)容,并積極進行有關(guān)技術(shù)的應(yīng)用和開展,從而提高自身的工作效率,優(yōu)化用戶的閱讀和信息搜集體驗。
【參考文獻】
[1]劉靜春.大數(shù)據(jù)時代圖書館信息資源建設(shè)與服務(wù)方式變革[J].中國中醫(yī)藥圖書情報雜志,2019,43(01):23-25.
[2]張青錕.大數(shù)據(jù)時代高校圖書館數(shù)字資源服務(wù)創(chuàng)新研究[J].信息記錄材料,2019,20(01):163-164.
[3]王震宇,王寧.大數(shù)據(jù)時代圖書館館藏數(shù)字資源整合與存儲策略分析[J].中國中醫(yī)藥圖書情報雜志,2017,41(03):35-38.