關(guān)鍵詞:高校數(shù)字圖書館;大數(shù)據(jù);互聯(lián)共享;策略
摘要:大數(shù)據(jù)技術(shù)推動了高校數(shù)字圖書館的建設(shè)進程,二者的內(nèi)在屬性存在必然的關(guān)聯(lián)性。高校數(shù)字圖書館布局應(yīng)從技術(shù)、資源、服務(wù)三個方面著力,以大數(shù)據(jù)技術(shù)高速處理數(shù)據(jù)的能力打造特色數(shù)據(jù)庫,為用戶提供智能化、定制化數(shù)據(jù)服務(wù),進而探索更深層次的咨詢服務(wù)模式。
中圖分類號:G258.6文獻標識碼:A文章編號:1003-1588(2019)04-0042-03
互聯(lián)網(wǎng)的發(fā)展尤其是移動互聯(lián)網(wǎng)絡(luò)的發(fā)展,使信息數(shù)據(jù)以前所未有的速度遞增,衍生出新的數(shù)據(jù)類型,數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)存儲形式也發(fā)生了新的變化,大數(shù)據(jù)技術(shù)應(yīng)運而生。高校圖書館是公共文化服務(wù)體系的組成部分,同時也是高校信息服務(wù)的主體,數(shù)字通信技術(shù)的發(fā)展改變了高校圖書館的服務(wù)模式,數(shù)字圖書館成為未來圖書館的發(fā)展趨勢。由于數(shù)字圖書館建設(shè)涉及標準、技術(shù)、管理、法律等多方面的問題,高校圖書館應(yīng)在不斷學習中探索新的建設(shè)模式。大數(shù)據(jù)技術(shù)高速處理數(shù)據(jù)的能力為數(shù)字圖書館建設(shè)提供了技術(shù)保障,內(nèi)在屬性的同質(zhì)性是二者融合的基礎(chǔ)。大數(shù)據(jù)在支撐高校圖書館進行數(shù)字化轉(zhuǎn)型的同時,也為自身的技術(shù)升級找到了合適的試驗場所。
1大數(shù)據(jù)與數(shù)字圖書館內(nèi)在屬性間的關(guān)聯(lián)性
1.1大數(shù)據(jù)的內(nèi)在屬性
“大數(shù)據(jù)”一詞最早出現(xiàn)在麥肯錫公司2011年5月的一份調(diào)研報告中,隨后《華爾街日報》用一個專欄的版面對大數(shù)據(jù)進行了詳細介紹,2012年3月美國政府正式宣布將耗資2億美元進行大數(shù)據(jù)技術(shù)和應(yīng)用研究工作,此舉標志著大數(shù)據(jù)具備了國家層面的官方身份。關(guān)于大數(shù)據(jù)的定義,目前學術(shù)界尚未形成統(tǒng)一認識,IBM公司對大數(shù)據(jù)的“3V”解讀得到了廣泛認同,即實時(Velocity)、量大(Volume)和多樣(Variety)。實時指數(shù)據(jù)的交互式訪問和數(shù)據(jù)分析結(jié)果實時完成,為用戶提供所需的二次數(shù)據(jù),為未來研究和決策提供預(yù)測數(shù)據(jù)參考。量大指數(shù)據(jù)量級,由TB級向PB甚至EB級別發(fā)展。多樣指數(shù)據(jù)類型的多樣化,既包括非結(jié)構(gòu)化、半結(jié)構(gòu)化和完全結(jié)構(gòu)化數(shù)據(jù),又包括圖片、圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù),這對數(shù)據(jù)處理能力和處理速率是一個嚴峻的考驗。大數(shù)據(jù)技術(shù)在從多樣的數(shù)據(jù)中實時提取有價值的二次數(shù)據(jù)信息的過程中,自身也在不斷迭代升級。
1.2數(shù)字圖書館的內(nèi)在屬性
數(shù)字圖書館的概念早在20世紀90年代就被提出,指以計算機快速處理數(shù)據(jù)的能力、互聯(lián)網(wǎng)絡(luò)、多媒體技術(shù)為基礎(chǔ),將圖書館的館藏信息資源轉(zhuǎn)化為二進制數(shù)字存儲形式,進而形成一個更易于管理和分享的大型數(shù)據(jù)庫。高校圖書館進行數(shù)字化改造,能給用戶帶來更好的閱讀體驗。電子期刊、電子圖書、館藏紙質(zhì)文獻的數(shù)字化改造等數(shù)字信息資源建設(shè),提升了高校圖書館的信息管理水平,加快了信息傳遞的速度。從數(shù)字圖書館建設(shè)的發(fā)展階段看,信息資源數(shù)字化、數(shù)據(jù)傳遞網(wǎng)絡(luò)化已完成,信息技術(shù)集成和共享技術(shù)能給用戶帶來更加方便、快捷的閱讀體驗。高校圖書館是大學信息化體系的主體,與公共圖書館一起構(gòu)成現(xiàn)代圖書館系統(tǒng),服務(wù)于教學和科研工作,是推動高等教育發(fā)展的學術(shù)性機構(gòu)。信息技術(shù)引領(lǐng)了目前時代發(fā)展的潮流,高校圖書館要想實現(xiàn)可持續(xù)發(fā)展,就必須對數(shù)字圖書館進行升級改造。隨著信息數(shù)據(jù)量呈指數(shù)級增長及非結(jié)構(gòu)化數(shù)據(jù)訪問量的增加,數(shù)字圖書館現(xiàn)有的數(shù)據(jù)存儲和訪問能力已難以應(yīng)付,大數(shù)據(jù)技術(shù)為數(shù)字圖書館發(fā)展提供了新的出路。
1.3二者內(nèi)在屬性的關(guān)聯(lián)性
1.3.1數(shù)字圖書館是大數(shù)據(jù)的應(yīng)用場所之一。數(shù)字圖書館的收藏對象是電子信息資源,收藏空間是虛擬網(wǎng)絡(luò)空間,對館藏信息資源進行數(shù)字化整合,能為更多的用戶提供信息服務(wù)。數(shù)字圖書館是信息收集和訪問的集散地,大數(shù)據(jù)技術(shù)是對后臺資源進行整合和深入挖掘的技術(shù)助推力量,數(shù)字圖書館和大數(shù)據(jù)技術(shù)一為臺前、一為幕后,二者具有很強的關(guān)聯(lián)性。
1.3.2數(shù)字圖書館成為大數(shù)據(jù)技術(shù)升級迭代的試驗主體。數(shù)字圖書館是知識的集合體,隨著信息數(shù)據(jù)量的快速增長及用戶需求質(zhì)量的提升,數(shù)字圖書館本身也具備了大數(shù)據(jù)屬性。大數(shù)據(jù)涉及的主要技術(shù)包括數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分類及數(shù)據(jù)挖掘等,大數(shù)據(jù)技術(shù)與數(shù)字圖書館建設(shè)的結(jié)合使數(shù)字圖書館具備了處理復雜數(shù)據(jù)的能力,這也是未來數(shù)字圖書館的基礎(chǔ)功能。因此,大數(shù)據(jù)與數(shù)字圖書館的技術(shù)需求和發(fā)展趨勢是一致的。
1.3.3數(shù)字圖書館作為一個數(shù)據(jù)群,成為大數(shù)據(jù)群的一部分。對廣大用戶來說,大數(shù)據(jù)定向挖掘的二次數(shù)據(jù)信息是他們所需要的,數(shù)字圖書館存在的價值也正在于此。作為收集知識和信息的服務(wù)中心,數(shù)字圖書館能為用戶提供信息查詢服務(wù)。數(shù)字圖書館的持續(xù)深入建設(shè)需要大數(shù)據(jù)挖掘技術(shù)和應(yīng)用技術(shù)的助力,只有大數(shù)據(jù)技術(shù)完備了,才能呈現(xiàn)一個高效的數(shù)字化平臺。數(shù)字圖書館為大數(shù)據(jù)技術(shù)提供了用武之地,也成為其升級的試驗場所和經(jīng)驗反饋節(jié)點。
馬靜:高校數(shù)字圖書館建設(shè)在大數(shù)據(jù)時代的布局策略
2布局大數(shù)據(jù)時代數(shù)字圖書館建設(shè)思路
2.1技術(shù)要素發(fā)展路徑
2.1.1數(shù)據(jù)量不斷增長,由TB級向PB級發(fā)展。IDC發(fā)布的《數(shù)字宇宙》報告顯示,2011年全球拷貝和新增的數(shù)據(jù)總量達到1.8ZB,預(yù)計到2020年這個數(shù)值將增長到35ZB,數(shù)據(jù)增長量達到44倍之多。美國國會圖書館一直被視為美國乃至世界的知識寶庫之一,2011年其與微博客Twitter(推特)簽訂數(shù)據(jù)存儲協(xié)議,將公開的推特消息全部保存至其歷史檔案資料庫。截至2017年年底,已有1,800億條推特歷史信息被保存至美國國會圖書館,數(shù)據(jù)總量達到133TB。相關(guān)調(diào)查報告顯示,世界上最大的數(shù)據(jù)倉庫量級已接近100PB,復合年化增長率約為173%。數(shù)據(jù)量增長率遠大于數(shù)據(jù)存儲能力的增長量,大規(guī)模分布式數(shù)據(jù)庫存儲技術(shù)亟待開發(fā)。
2.1.2數(shù)據(jù)種類多樣,結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)并存。結(jié)構(gòu)化數(shù)據(jù)以二維表形式存儲,非結(jié)構(gòu)化數(shù)據(jù)以圖片、音頻、視頻形式存儲。近年來,結(jié)構(gòu)化數(shù)據(jù)的復合年化增長率為32%,非結(jié)構(gòu)化數(shù)據(jù)的增長率高達63%,占2012年互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)總量的75%。因此,如何管理這些非結(jié)構(gòu)化數(shù)據(jù)成為一個技術(shù)難題。MapReduce計算框架具備快速處理大數(shù)據(jù)的能力,能實時、高效地處理復雜的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),同時能適應(yīng)云計算復雜的大數(shù)據(jù)分析環(huán)境。但是,MapReduce計算框架和Hadoop分布式文件系統(tǒng)在應(yīng)用過程中也暴露出一些問題,如處理性能待提升、穩(wěn)定性還達不到要求等,數(shù)字圖書館需要更高效、實用的大數(shù)據(jù)分析技術(shù)和管理手段。
2.1.3實時數(shù)據(jù)處理能力。數(shù)字圖書館區(qū)別于傳統(tǒng)圖書館的一個最顯著特點在于其數(shù)據(jù)服務(wù)的實時性,用戶的數(shù)據(jù)訪問和下載是交互、實時的。大數(shù)據(jù)技術(shù)能在短時間內(nèi)完成數(shù)據(jù)處理,以300GB數(shù)據(jù)塊為例,常規(guī)處理時間需要一小時左右,而大數(shù)據(jù)技術(shù)可以在一秒內(nèi)完成,高效的數(shù)據(jù)處理能力縮短了用戶的等待時間,提升了用戶的閱讀體驗。
2.1.4剔除冗余數(shù)據(jù)。數(shù)字圖書館利用數(shù)據(jù)倉儲與挖掘技術(shù)能尋找用戶的需求規(guī)律,挖掘一次數(shù)據(jù)的潛在價值,剔除無用信息,提升智能服務(wù)的水平,為用戶提供更具針對性、高質(zhì)量的二次數(shù)據(jù),滿足用戶的信息需求。
2.2信息資源建設(shè)步驟
數(shù)字圖書館建設(shè)應(yīng)以資源建設(shè)為中心,以大數(shù)據(jù)分析和挖掘技術(shù)為依托,整合不同類型的資源,維護原生資源,突出特色資源,進而達到優(yōu)化資源結(jié)構(gòu)的目標。
2.2.1建立原生態(tài)信息資源數(shù)據(jù)庫。高校的原生態(tài)信息資源是在教學、科研、試驗過程中產(chǎn)生的,包括會議論文和教師發(fā)表的高水平論文、出版的專著及形成的研究報告,本科生、碩士研究生、博士研究生撰寫的學位論文及用于演講、匯報的調(diào)研報告、多媒體課件等。這些原生態(tài)信息是高校師生的智慧成果,是學術(shù)理論研究和教學成果的最集中體現(xiàn),高校師生擁有絕對的知識產(chǎn)權(quán),具有非常高的學術(shù)參考價值和實踐應(yīng)用價值。數(shù)字圖書館建設(shè)以這些資源為主的原生態(tài)信息資源數(shù)據(jù)庫,是以較低的成本獲得了較高的文獻保障功用。
2.2.2打造特色數(shù)據(jù)庫。特色是事物保持活力的源泉,圖書館也是如此,失去特色也就意味著迷失了發(fā)展的方向。高校圖書館應(yīng)立足于實際,結(jié)合學校的優(yōu)勢學科,進行特色鮮明的數(shù)字圖書館建設(shè),重點建設(shè)用戶急需和特色學科的數(shù)字信息資源,為高校師生的日常教學、科研提供服務(wù),滿足師生的多元化信息需求。
2.2.3形成資源互通、共享機制。隨著信息資源數(shù)據(jù)量的增多及用戶信息需求的增長,任何一個圖書館都無法滿足用戶的多元化需求,圖書館間的相互協(xié)作、資源共享成為一種可行的解決方案。高校圖書館應(yīng)打造統(tǒng)一、標準的數(shù)據(jù)交互平臺,形成資源互通、共享機制,共享軟硬件資源,通過統(tǒng)一的數(shù)據(jù)接口,打造區(qū)域數(shù)字圖書館,對區(qū)域內(nèi)的館藏資源進行統(tǒng)一規(guī)劃和調(diào)度。
2.3數(shù)字圖書館的新型服務(wù)模式探索
2.3.1交互式的智能化服務(wù)。交互式智能化服務(wù)是以信息服務(wù)為特征,利用人工智能計算機模擬人的行為,為用戶提供智能化信息服務(wù)。以IBM公司2011年研發(fā)的人工智能機器人Watson為例,它具備較強的答題能力,其運算速率和準確性均超過人類參賽選手,并獲得當年的人機大戰(zhàn)冠軍。Watson裝備了大量高速處理器,它的閱讀量約為100萬冊書籍,并且仍在不斷學習,可以在三秒內(nèi)完成數(shù)億頁資料檢索,尋找到準確答案。在不久的將來,數(shù)字圖書館可利用人工智能機器人為用戶提供實時、交互式的智能服務(wù),幫助用戶從海量數(shù)據(jù)中檢索出所需信息。清華大學圖書館率先進行了探索,自主研發(fā)的“小圖”機器人可為用戶提供在線咨詢服務(wù),同時還具備自主學習能力。
2.3.2差異區(qū)分的個性化服務(wù)。數(shù)字圖書館服務(wù)模式正在由大眾服務(wù)向個性化服務(wù)轉(zhuǎn)變,個性化的難點在于區(qū)分不同個體間的差異性。目前,數(shù)字圖書館以用戶登記信息、調(diào)查問卷、檢索記錄和研究方向分析為基礎(chǔ),為用戶提供個性化服務(wù)。目前,數(shù)字圖書館的服務(wù)依據(jù)來源較為單一、缺乏靈活性,仍停留在個性化服務(wù)的初級階段,個體差異區(qū)分度不高,無法提供更優(yōu)質(zhì)的個性化服務(wù)。大數(shù)據(jù)時代,數(shù)字圖書館可借鑒大數(shù)據(jù)環(huán)境下的“猿題庫”模型,記錄用戶每次點擊的動態(tài)信息,將這些信息傳送至數(shù)據(jù)分析模型,建立動態(tài)的讀者閱讀習慣數(shù)據(jù)庫。數(shù)字圖書館利用大數(shù)據(jù)技術(shù)能實時在線關(guān)注讀者行為習慣的變化,并進行自適應(yīng)調(diào)整,在不同時間、不同場景智能推送不同層次、不同類別的信息,為用戶提供差異化的個性服務(wù)。
2.3.3定制化的數(shù)據(jù)咨詢服務(wù)。在大數(shù)據(jù)技術(shù)出現(xiàn)前,數(shù)字圖書館的數(shù)據(jù)咨詢服務(wù)由具備專業(yè)檢索知識的館員負責,數(shù)據(jù)來源以參考書目、自建數(shù)據(jù)庫、外購數(shù)據(jù)庫為主。大數(shù)據(jù)時代,數(shù)字圖書館可利用大數(shù)據(jù)技術(shù)對咨詢課題進行檢索,通過數(shù)據(jù)比對、分析,實時檢索相關(guān)信息,在交互式圖形界面顯示查詢結(jié)果。數(shù)字圖書館使信息資源的獲取面得到了拓展,極大地縮短了檢索資源的獲取時間,能為用戶提供更加及時、優(yōu)質(zhì)的數(shù)據(jù)咨詢服務(wù),并可在此基礎(chǔ)上開展更深層次的咨詢服務(wù)。
3結(jié)語
大數(shù)據(jù)技術(shù)為高校數(shù)字圖書館建設(shè)提供了技術(shù)支持,使更多的想象成為可能。高校數(shù)字圖書館是高校信息服務(wù)體系的主體,是生產(chǎn)、收集、存儲和處理數(shù)據(jù)的中心,其本身具有大數(shù)據(jù)屬性,同時又是大數(shù)據(jù)的載體。高校圖書館在數(shù)字圖書館建設(shè)過程中不僅能借助大數(shù)據(jù)技術(shù)的優(yōu)勢,還能推動大數(shù)據(jù)技術(shù)的發(fā)展。高校數(shù)字圖書館是大數(shù)據(jù)技術(shù)的天然試驗場所和信息反饋節(jié)點,能推動大數(shù)據(jù)技術(shù)升級迭代;反過來,大數(shù)據(jù)技術(shù)也為高校數(shù)字圖書館建設(shè)提供了技術(shù)支撐,能給用戶帶來更好的閱讀體驗。
參考文獻:
[1]員立亭,郭莉,李秋月.基于SWOT分析的高校圖書館大數(shù)據(jù)應(yīng)用策略研究[J].圖書館研究與工作,2017(6):32-36.
[2]畢強,閆晶,李潔.大數(shù)據(jù)時代數(shù)字圖書館服務(wù)轉(zhuǎn)型面臨的新形勢與新要求[J].情報理論與實踐,2017(12):12-16.
[3]孫羽佳.大數(shù)據(jù)時代高校數(shù)字圖書館的信息服務(wù)發(fā)展策略[J].河南圖書館學刊,2015(9):53-55.
[4]韓翠峰.“互聯(lián)網(wǎng)+”環(huán)境下的圖書館服務(wù)轉(zhuǎn)型與發(fā)展[J].圖書與情報,2015(5):29-32.
[5]李岱洲.“互聯(lián)網(wǎng)+”時代下高校圖書館應(yīng)對策略[J].農(nóng)業(yè)圖書情報學刊,2016(5):101-103.
[6]何勝,熊太純,周冰,等.高校圖書館大數(shù)據(jù)服務(wù)現(xiàn)實困境與應(yīng)用模式分析[J].圖書情報工作,2015(22):50-55.
[7]郝晉清,王珺,王娟萍.新形勢下高校圖書館學科服務(wù)發(fā)展策略研究:以天津高校圖書館為例[J].圖書館工作與研究,2016(1):104-106.
(編校:孫新梅)