古珊 吳進瓊
【摘要】隨著大數(shù)據(jù)時代的到來,科學數(shù)據(jù)的產(chǎn)生和積累呈指數(shù)級增長,大數(shù)據(jù)知識服務體系的開發(fā)和利用將會是數(shù)字圖書館發(fā)展必不可少的前提條件。結(jié)合數(shù)字圖書館資源建設情況和大數(shù)據(jù)時代圖書館的實際需要,闡述了利用大數(shù)據(jù)的意義,分析了大數(shù)據(jù)環(huán)境下圖書館所面臨的挑戰(zhàn)與考驗,提出面對大數(shù)據(jù),如何強化數(shù)字圖書館的發(fā)展戰(zhàn)略。
【關鍵詞】大數(shù)據(jù);數(shù)字圖書館;發(fā)展戰(zhàn)略
1.引言
在云計算、物聯(lián)網(wǎng)等技術的推動下,全球邁入了大數(shù)據(jù)時代,數(shù)據(jù)量正以超乎人們想像的速度極速增長,除了國家和研究機構(gòu),全球主要的大型IT公司均對大數(shù)據(jù)投入巨資,目的是利用大數(shù)據(jù)為國家治理、企業(yè)決策、個人工作及生活提供服務,圖書館的IT同樣也面臨著大數(shù)據(jù)信息的沖擊,這些問題引起了圖書館界有識之士的普遍關注。
2.大數(shù)據(jù)基本概念及提出背景
國外,2011年5月,全球知名咨詢公司麥肯錫(Mckinseyand Company)發(fā)布了《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領域》報告,首次提出了“大數(shù)據(jù)”的概念,并在報告中指出“數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運用將預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來”[1]。2012 年6月,聯(lián)合國專門發(fā)布了大數(shù)據(jù)發(fā)展戰(zhàn)略,這是聯(lián)合國第一次就某一技術問題發(fā)布報告。之后,《紐約時報》、《華爾街日報》等對大數(shù)據(jù)進行了專欄封面介紹,美國政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展計劃”,并于今年3月29日撥款2億美元推出的“大數(shù)據(jù)的研究和發(fā)展計劃”更是將大數(shù)據(jù)提升到了全球性戰(zhàn)略發(fā)展的高度。IBM、EMC、甲骨文、Microsoft 等IT巨頭都投入到了大數(shù)據(jù)的軟硬件技術整合、大數(shù)據(jù)信息處理的技術供應研究開發(fā)之中,力求在新一輪的信息競爭環(huán)境中占據(jù)主動,并搶得戰(zhàn)略先機與技術制高點。美國國家科學理事會NSB在其發(fā)表的《長期保存的數(shù)字化數(shù)據(jù)集》, 強調(diào)數(shù)字化數(shù)據(jù)集對科學研究與教育日益增長的重要性, 以及它們?yōu)閿U大各類研究參與范圍的巨大潛力, NSF應大量增加其對現(xiàn)有數(shù)據(jù)集與未來增殖數(shù)據(jù)集的創(chuàng)造、維持和長期保存等研究資助。2011年美國McKinsey Global Institute發(fā)布了《Big Data: The Next Frontier for Innovation,Competition and Productivity》的調(diào)查報告,指出盡管全球數(shù)據(jù)飛速增長,但有將近87% 的數(shù)據(jù)未得到真正利用,許多數(shù)據(jù)資源并沒有形成真正的知識源以供研究人員利用[2-3]。除了國家和研究機構(gòu),全球主要的大型IT 商業(yè)公司均對大數(shù)據(jù)技術投入巨資,目的是利用大數(shù)據(jù)為國家治理、企業(yè)決策乃至個人生活提供服務。
國內(nèi),中國工程院院士、中科院計算技術研究所首席科學家李國杰就指出大數(shù)據(jù)將成為信息科技的新關注點,并形成新型交叉學科:網(wǎng)絡數(shù)據(jù)科學。韓翠峰指出,在大數(shù)據(jù)時代,圖書館將在數(shù)據(jù)存儲、數(shù)據(jù)挖掘、數(shù)據(jù)分析等方面面臨著巨大的挑戰(zhàn)與考驗,復雜數(shù)據(jù)的處理也將成為大數(shù)據(jù)時代圖書館發(fā)展的主旋律,利用大數(shù)據(jù)技術去挖掘、識別、組織與分析隱含在讀者行為中的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)信息,尋找他們的隱性訴求進而改進圖書館的服務,達到圖書館資源、服務與讀者需求的雙向理想控制已成為大數(shù)據(jù)時代圖書館提高服務體系的組織水平、推動行業(yè)發(fā)展與制度建設的捷徑之一[4]。石薇芬認為,大數(shù)據(jù)時代,信息社會將逐漸轉(zhuǎn)變?yōu)橹R社會。未來圖書館形態(tài)將從物理圖書館逐漸轉(zhuǎn)變?yōu)樘摂M、泛在圖書館,服務將呈現(xiàn)“無處不在、無時不在、無所不在”的特點[5]。在此背景下,圖書館行業(yè)必須“依靠文獻、超越文獻”,圖書館服務未來的核心價值,在于解決用戶獲取知識中的三大問題,即為用戶提供高質(zhì)量的信息資源,幫助用戶從海量的信息中迅速找到所需要的信息,并持續(xù)不斷地跟蹤他關注的信息。劉明,李娜介紹了大數(shù)據(jù)相關背景和科學研究的第四范式——數(shù)據(jù)范式,分析了在第四范式和大數(shù)據(jù)趨勢中的學術信息交流方式的轉(zhuǎn)變,并以生物醫(yī)學領域的進展和應用場景為例分析了專業(yè)圖書館隨之的轉(zhuǎn)變,提出了與大數(shù)據(jù)相關的專業(yè)圖書館觀念的轉(zhuǎn)變和人才需求的轉(zhuǎn)變。劉煒等,則對“大”關聯(lián)數(shù)據(jù)和“關聯(lián)的”大數(shù)據(jù)兩類不同的應用進行具體的闡述,對目前采用大數(shù)據(jù)技術發(fā)布關聯(lián)數(shù)據(jù)的方法和路徑進行梳理,同時對大數(shù)據(jù)領域應用關聯(lián)數(shù)據(jù)技術的進展也做出介紹和點評,展望這兩類數(shù)據(jù)技術在圖情領域的發(fā)展前景。
3.利用大數(shù)據(jù)的意義
3.1 利用大數(shù)據(jù)技術不僅可以通過數(shù)據(jù)了解用戶、行為、意愿、業(yè)務需求、知識應用能力及知識服務需求等,甚至可以利用數(shù)據(jù)對用戶的科研創(chuàng)新合作過程及合作交互型知識服務過程將要發(fā)生什么進行分析和預測,從而應對圖書館未來所面對的生存危機。
3.2 國內(nèi)外圖書情報領域首例利用大數(shù)據(jù)技術構(gòu)建知識服務社區(qū)實體(包括用戶及資源)行為智能分析引擎就是通過利用大數(shù)據(jù)分析技術來分析電子書讀者閱讀習慣和喜好后建立起來的。本課題的研究可以幫助圖書館建立新型知識服務引擎,為廣大的讀者提供優(yōu)質(zhì)的知識服務。
3.3 通過大數(shù)據(jù)知識服務,有利于高教工作者獲悉當今世界的發(fā)展趨勢,科研動向及教學方向,更好地為學校的教學、科研服務。
3.4 通過分析資源(包括軟硬件資源、網(wǎng)絡資源、信息資源、服務資源及知識資源等)的狀況來預測整個服務系統(tǒng)可能出現(xiàn)的故障,以便及時采取應對措施。
3.5 分析研究數(shù)據(jù)中科研技術人員的知識結(jié)構(gòu)、基本素養(yǎng)、基本技能,并將此付諸培養(yǎng)計劃加以實施,為未來社會提供所需人才。
4.面臨的挑戰(zhàn)與考驗
大數(shù)據(jù)技術給未來數(shù)字圖書館將會帶來革命性、創(chuàng)造性、持續(xù)性的變化,會對我們熟知的知識服務領域和知識服務體系產(chǎn)生重大的顛覆和創(chuàng)新。
4.1 圖書館工作從管理知識載體向管理知識本身的挑戰(zhàn)
傳統(tǒng)的圖書館員的工作注重于各種知識載體的搜集、整理、加工和流通,基本上與知識內(nèi)容關聯(lián)沒有深入關聯(lián),如今,知識的內(nèi)容與載體能夠完全分離,圖書情報工作者能借助網(wǎng)絡和計算機技術,深入到知識內(nèi)容進行處理,這給圖書情報工作提出了更高的要求和考驗[6]。
4.2 傳統(tǒng)網(wǎng)絡架構(gòu)在大數(shù)據(jù)時代面臨挑戰(zhàn)
傳統(tǒng)網(wǎng)絡的架構(gòu)設計主要是以用戶終端向服務器發(fā)出請求,由服務器回應返回結(jié)果給終端用戶的垂直結(jié)構(gòu),大數(shù)所時代,大量的數(shù)據(jù)都存儲在分布廣泛、地域遼擴、不同類型、各行各業(yè)的各類服務器中,當用戶出請求后,是服務器之間的信息交換,再將結(jié)果返回用戶的過程,強調(diào)的是水平結(jié)構(gòu)的橫向服務,傳統(tǒng)的垂直網(wǎng)絡服務架構(gòu)已不適應水平網(wǎng)絡架構(gòu)的要求[7]。
4.3 面臨非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn)
數(shù)字圖書館結(jié)構(gòu)化資源內(nèi)容非富,結(jié)構(gòu)完整,如電子圖書、電子報紙、電子期刊、各類數(shù)據(jù)庫、音頻、視頻資源、網(wǎng)上資源等海量數(shù)字資源;非結(jié)構(gòu)化資源缺乏,如聲頻、視頻、圖片等可聽可視的數(shù)據(jù)。
4.4 大數(shù)據(jù)時代科研的發(fā)展要求數(shù)字圖書館適應新的需求
現(xiàn)在越來越多的新興的學科領域是在大數(shù)據(jù)的基礎上建立起來的,提高了從各種大型數(shù)據(jù)集聚中心提取有用的信息加以利用,并進行有效管理,大數(shù)據(jù)時代數(shù)據(jù)更原始、更零散、更復雜,在這些巨量、快速、多樣及多變、凌亂、不確定性的數(shù)據(jù)中存在明顯的碎片化特征,包含有很多無用的信息,給數(shù)據(jù)的存儲與分析帶來很大的困難,技術支撐尤為重要,是解決大數(shù)據(jù)的關鍵問題,對數(shù)據(jù)的研究起著特別重要的作用,影響著大數(shù)據(jù)的研究。
4.5 數(shù)據(jù)巨量增長給計算機存儲空間和存儲技術的挑戰(zhàn)
數(shù)據(jù)量從TB級躍升至PB級別,甚至更高,傳統(tǒng)的集中存儲與計算已經(jīng)無法處理呈指數(shù)級增長的速度。
5.面對大數(shù)據(jù),強化數(shù)字圖書館的發(fā)展戰(zhàn)略
5.1 圖書館管理者制定大數(shù)據(jù)的全局戰(zhàn)略及局部戰(zhàn)略
面對大數(shù)據(jù)帶來的機遇和挑戰(zhàn),圖書館管理者既要從宏觀整體考慮,又要從微觀的局部設計,進行大數(shù)據(jù)的角色定位,根據(jù)所處的區(qū)域、主要的服務對象及特點、服務學科、館藏特點及特色、人員結(jié)構(gòu)等因素,創(chuàng)建大數(shù)據(jù)知識服務體系的數(shù)字圖書館模型[8]。
5.2 圖書館員在思想意識形態(tài)、技術、服務理念、服務技能、專業(yè)能力等綜合能力進一步提高
在大數(shù)據(jù)環(huán)境下,由于數(shù)字圖書館的服務方式是通過分析和捕捉大量數(shù)據(jù)得來的,因此大數(shù)據(jù)時代的圖書館服務更具有鮮明針對性,數(shù)字圖書館服務手段及服務方式也會因服務策略的改變而調(diào)整,要強化網(wǎng)絡文獻資料的優(yōu)化配置,實現(xiàn)文獻資料綜合服務;大數(shù)據(jù)時代使用了超大型數(shù)據(jù)庫、個人模式識別、網(wǎng)絡分析及數(shù)據(jù)研究等技術,數(shù)字圖書館要在服務理念、服務方式、服務途徑、服務規(guī)模、服務技能、專業(yè)技能等都要有相應的改變,創(chuàng)新思維方式;創(chuàng)建不同類型的圖書館資源類別,分享更多的網(wǎng)絡服務;基于概率統(tǒng)計和回歸分析的時間序列法、線性回歸法等方法,應用到數(shù)字圖書館信息處理以及服務上,成為數(shù)字圖書館服務的一大亮點,為社會機構(gòu)、政府、企業(yè)提供所需的數(shù)據(jù)分析、數(shù)據(jù)挖掘服務[9]。
5.3 構(gòu)建數(shù)字圖書館大數(shù)據(jù)知識服務體系及平臺
從管理架構(gòu)、環(huán)境架構(gòu)、技術架構(gòu)、專業(yè)架構(gòu)、知識架構(gòu)、信息架構(gòu)、安全架構(gòu)、戰(zhàn)略戰(zhàn)術架構(gòu)、協(xié)作聯(lián)盟架構(gòu)、合作服務架構(gòu)等探索大數(shù)據(jù)下數(shù)字圖書館信息知識服務體系和平臺的建設,充分發(fā)揮數(shù)字圖書館在教學和科研的作用。
5.4 建立數(shù)據(jù)挖掘及發(fā)析研究機構(gòu)
發(fā)達國家的大數(shù)據(jù)圖書館是比較成功的案例,為此,我國的數(shù)字圖書館也應該向著發(fā)達國家看齊,構(gòu)建與國際接軌的數(shù)字圖書館服務系統(tǒng),不僅從深度,更要從廣度收集信息,挖掘穩(wěn)含的有用信息,并對這些信息分析研究,得出結(jié)論,為我所用。加強核心技術的開發(fā)以及與電子商務的結(jié)合,同時考慮數(shù)字科研、教育理念及數(shù)字政務的結(jié)合,在發(fā)揮數(shù)字信息資源服務功能的同時,集成數(shù)字信息資源與數(shù)字信息系統(tǒng),不斷開發(fā)數(shù)字信息資源,實現(xiàn)與國際接軌,實現(xiàn)數(shù)字圖書館的可持續(xù)發(fā)展。
5.5 進行關聯(lián)發(fā)析,開展預測服務
盡可能地收集完整數(shù)據(jù)、綜合數(shù)據(jù)和全面數(shù)據(jù),在數(shù)據(jù)的“大”模式下,應用數(shù)學計算方法對這些電子數(shù)據(jù)進行統(tǒng)計分析,探索研究,挖掘出數(shù)據(jù)背后相關聯(lián)的關系,從而預測某一事件、事情發(fā)生的概率。具體到數(shù)字圖書館中,傳統(tǒng)的文獻計量學研究在大數(shù)據(jù)技術的應用下得到極大地拓展它的研究范圍。從以往描述性研究擴展到評價、預測性的研究,創(chuàng)造性地開展新型數(shù)字圖書館服務項目。
6.結(jié)語
隨著大數(shù)據(jù)時代的到來,科學數(shù)據(jù)的產(chǎn)生和積累呈指數(shù)級增長,高校數(shù)字圖書館作為社會中儲存信息知識、提供信息服務的信息中心,必須主動利用這些變化來進行戰(zhàn)略性創(chuàng)新,未來國家的核心競爭力將很大程度上依賴將數(shù)據(jù)轉(zhuǎn)化為信息和知識的速度與能力,要保持科學研究的領先地位,國家決策者和科學研究者必須高度關注大數(shù)據(jù),要保持高校數(shù)字圖書館的發(fā)展,必須加強數(shù)字圖書館發(fā)展戰(zhàn)略的研究,把大數(shù)據(jù)前提下的知識服務充分運用到數(shù)字圖書館的發(fā)展戰(zhàn)略之中,我們用數(shù)據(jù)來記錄這個世界,再通過研究數(shù)據(jù)去發(fā)現(xiàn)這個世界。
參考文獻
[1]金松昌,楊樹強,樊華,等.面向大型關鍵業(yè)務的Hadoop云計算平臺數(shù)據(jù)安全策略研究[J].信息網(wǎng)絡安全,2012(8):90-93.
[2]劉細文,熊瑞.國外科學數(shù)據(jù)開放獲取政策特點分析[J].情報理論與實踐,2009(9):5-9,18.
[3]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012(11):63-68,77.
[4]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012,(5):37-40.
[5]石薇芬.大數(shù)據(jù)時代的圖書館信息服務[J].社科縱橫(新理論版),2013(2):269-270.
[6]劉煒,夏翠娟,張春景.大數(shù)據(jù)與關聯(lián)數(shù)據(jù):正在至來的數(shù)據(jù)技術革命[J].現(xiàn)代圖書情報技術,2013(4):2-9.
[7]朱靜薇,李紅艷.大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應對策略[J].現(xiàn)代情報,2013(5):9-13.
[8]張興旺.圖書館大數(shù)據(jù)體系構(gòu)建的學術環(huán)境和戰(zhàn)略思考[J].情報資料工作,2013(2):12-17.
[9]胡海鷹.大數(shù)據(jù)趨勢下數(shù)字圖書館的服務與創(chuàng)新策略[J]情報資料工作,2014(4):27-29.
作者簡介:
古珊(1964—),女,廣西國際商務職業(yè)技術學院圖書館副研究館員,研究方向:文獻資源管理與服務。
吳進瓊(1963—),大學本科,廣西大學圖書館副研究館員,研究方向:電子文獻資源管理與服務。