姜晨曦
(長春工程學院 圖書館,長春 130012)
高校圖書館大數(shù)據(jù)體系建立的挑戰(zhàn)與策略
姜晨曦
(長春工程學院 圖書館,長春 130012)
在三網(wǎng)融合、云技術(shù)、物聯(lián)網(wǎng)、智能終端技術(shù)的不斷開拓和發(fā)展,全球數(shù)據(jù)增量以爆炸的態(tài)勢增長,大數(shù)據(jù)應運而生的背景下,分析了大數(shù)據(jù)給高校圖書館帶來的數(shù)據(jù)存儲能力和分析能力的挑戰(zhàn)、對復合型人才的需求挑戰(zhàn)、對服務內(nèi)容的高標準挑戰(zhàn),從大數(shù)據(jù)對于高校圖書館的幫助、大數(shù)據(jù)并非是對圖書館傳統(tǒng)服務和人文精神的否決、最終實現(xiàn)智能圖書館、綠色圖書館的目標、應高度重視讀者隱私,保護知識產(chǎn)權(quán)四個方面,探討了大數(shù)據(jù)體系建立的具體策略。
高校圖書館;大數(shù)據(jù)體系;信息論;策略思考
隨著三網(wǎng)融合、云技術(shù)、物聯(lián)網(wǎng)、智能終端技術(shù)的不斷開拓和發(fā)展,全球數(shù)據(jù)增量以爆炸的態(tài)勢增長,大數(shù)據(jù)應運而生,由于大數(shù)據(jù)強大的傳播力和可挖掘價值,使其日益成為信息科學研究的主流范式。早在2011年世界頂級咨詢公司麥肯錫就宣布大數(shù)據(jù)時代已不可阻擋地到來,并指出大數(shù)據(jù)將滲透進各個行業(yè)、各個領域,甚至是政府職能部門的決策領域,逐漸成為最重要的生產(chǎn)要素。2012年美國政府率先把大數(shù)據(jù)作為全球性發(fā)展戰(zhàn)略,并投資2億多美元大力推動與大數(shù)據(jù)相關(guān)的采集、組織、分析及技術(shù)實現(xiàn)等。Microsoft、IBM、Ocacle等IT行業(yè)巨頭也把大數(shù)據(jù)的軟硬件研發(fā)等列入企業(yè)核心項目,以期在大數(shù)據(jù)時代占領先機。中國工程院院士李國杰先生指出,大數(shù)據(jù)將成為信息科技的新關(guān)注點,并可能形成新型交叉學科——網(wǎng)絡數(shù)據(jù)科學。高校圖書館歷來是信息采集、知識和新技術(shù)傳播和存儲的重鎮(zhèn),迅猛發(fā)展的大數(shù)據(jù)必然給高校圖書館帶來全新挑戰(zhàn)與通盤思考。國外的圖書館學研究者在大數(shù)據(jù)方面已經(jīng)先行一步,建立了關(guān)聯(lián)開放數(shù)據(jù)運動(Linked Open Data Initiative)、圖書館數(shù)據(jù)監(jiān)管(Library Data Curation)等項目,進行持續(xù)性研究。我國圖書館學界對于圖書館應用大數(shù)據(jù)的研究還顯滯后,大數(shù)據(jù)應用這一研究領域是潛力無限的,也必將給我國高校圖書館事業(yè)帶來嶄新的發(fā)展契機。
(一)大數(shù)據(jù)對高校圖書館數(shù)據(jù)存儲能力和分析能力的挑戰(zhàn)
大數(shù)據(jù)的四個基本屬性本身對于圖書館的數(shù)據(jù)應用格局就存在著天然挑戰(zhàn)。(1)容量(Volume):數(shù)據(jù)量是海量的,已經(jīng)從TB級別向PB級別躍進,甚至更高。圖書館傳統(tǒng)的軟硬件技術(shù)支持有的已經(jīng)很落后了,中央處理器的運算速度已經(jīng)不能滿足海量數(shù)據(jù)分析的環(huán)境和要求。(2)多樣性(Variety):目前的數(shù)據(jù)樣式越來越復雜,不僅包括傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還包括半結(jié)構(gòu)化數(shù)據(jù),以及如圖片、XML、HTML、圖像、音頻、表格、視頻信息等非結(jié)構(gòu)化數(shù)據(jù),甚至還有微信、社交媒體、網(wǎng)絡檢索日志、傳感器數(shù)據(jù)等實時交互、隨時間演變的沖突數(shù)據(jù)格式。傳統(tǒng)圖書館數(shù)據(jù)管理流程已經(jīng)無法處理異構(gòu)和可變的大數(shù)據(jù)。(3)速度(Velocity):數(shù)據(jù)實時生成,用戶需要知道這些數(shù)據(jù)意味著什么,有什么意義,并有所預測。而圖書館故有的分析能力和經(jīng)驗,多無法適應大數(shù)據(jù)分析要求的速度和及時性。(4)價值(Value):大數(shù)據(jù)雖然蘊藏著巨大的能量和價值,但大部分單條數(shù)據(jù)是沒有價值的,要進行深入的數(shù)據(jù)挖掘,才能把大數(shù)據(jù)的能量有效開發(fā),因此,信息采集部門如何根據(jù)用戶需求去對海量數(shù)據(jù)進行融合、篩選、挖掘,對于高校圖書館來說是一個全新課題。
作為象牙塔中的高校圖書館是不以商業(yè)經(jīng)營為目的的,具有強烈的公益色彩。主要日常工作是為教師、學生提供有效的信息檢索和知識服務。隨著網(wǎng)絡技術(shù)的廣泛發(fā)展,教師和學生可以在各種移動終端完成簡單的知識檢索活動,不必非得去圖書館。那么,高校圖書館如果不抓住大數(shù)據(jù)時代這一契機,極有可能加深數(shù)字鴻溝,使本身就缺乏競爭力和技術(shù)支持的高校圖書館不思進取而與技術(shù)時代脫節(jié)嚴重,逐漸成為高校中的薄弱部門。
(二)大數(shù)據(jù)對高校圖書館復合型人才的需求挑戰(zhàn)
以往圖書館的工作是比較清閑的,無非是查找分類上架、為教職工和學生辦理借閱圖書、引入知網(wǎng)等大型數(shù)據(jù)平臺后為讀者提供更專業(yè)性和針對性的目標性服務。但大數(shù)據(jù)時代到來,顯然以往的工作方式已經(jīng)落后和不科學了。作為大學圖書館,掌握著更為核心的技術(shù)信息和更為先進的科學情報,大學圖書館應該為熱愛知識的人提供更人性化、更有效、更專業(yè)的知識咨詢服務,這樣才有利于知識傳播,才能實現(xiàn)科教強國。對于人才的需求,也隨著圖書館發(fā)展戰(zhàn)略的變化和升級,提出了更高的要求。美國國家科學委員會提出的數(shù)據(jù)科學家群體組成,除了含信息與計算機科學家、學科專家、數(shù)據(jù)處理員外,就包括圖書館員。懂數(shù)據(jù)理論、會管理數(shù)據(jù)將成為新時代館員的重要能力。作為大學圖書館的館員,除了傳統(tǒng)的業(yè)務培養(yǎng),也要加深自己的多媒體應用能力、加強網(wǎng)絡技術(shù)的學習、與數(shù)字時代在觀念上接軌,成為一個能滿足高校圖書館數(shù)據(jù)服務需要的“數(shù)據(jù)館員”,并使之成為學科信息資源的組織者、傳播者、導航者、教育者,促進圖書館事業(yè)更好地發(fā)展。
面對大數(shù)據(jù)時代的挑戰(zhàn),傳統(tǒng)圖書館優(yōu)先完成的就應該是館員的數(shù)據(jù)能力培養(yǎng)。擁有一流的人才儲備,擁有一支高素質(zhì)的數(shù)據(jù)管理的館員隊伍,才能真正地建設智能圖書館、綠色圖書館,否則即使擁有再先進的數(shù)據(jù)分析設備,也很難實現(xiàn)圖書館真正意義上的智慧服務和綠色服務。
(三)大數(shù)據(jù)對高校圖書館服務內(nèi)容的高標準挑戰(zhàn)
以往圖書館的服務內(nèi)容是針對讀者需求一對一的服務,也比較容易滿足讀者需求,館員經(jīng)過簡單的培訓即可上崗。而進入大數(shù)據(jù)時代后,圖書館的館藏以海量速度增長,不論是有形的圖書,還是各種數(shù)字化的信息資源,在浩如煙海的信息源中,如何給讀者提供最便捷、最有效、最優(yōu)質(zhì)的服務,是新形勢下圖書館的最大課題。作為高校圖書館,其學術(shù)特色格外突出??梢哉f,高校圖書館是本??蒲谢顒拥囊淮箨嚨兀菍W術(shù)交流的源地,也是公共信息的集中地。針對以老師、學生為主要讀者群的狀況,高校圖書館更應該與時俱進,與大數(shù)據(jù)在技術(shù)、思維、視域方面高度接軌,引進多維度的智能分析及智能輔助決策方法,建立新型知識服務引擎、優(yōu)化圖書館資源,并通過分析整合海量數(shù)據(jù),預測學科、學術(shù)前沿的信息動態(tài),提供更高層次的圖書館服務內(nèi)容。
高校圖書館作為大學內(nèi)文獻與數(shù)據(jù)最集中之地,除了服務于具體的讀者和用戶,更應該放開眼界,服務于本校的科研和教學工作。建立有分析能力的新型數(shù)字圖書館,營造科研創(chuàng)新的知識服務環(huán)境,建立實踐數(shù)據(jù)與信息融合的智能化互操作平臺,無疑會提升學術(shù)交流的效果和成效,使本校的學術(shù)交流全過程在大數(shù)據(jù)開放的環(huán)境中進行,信息更集中、更透明、更有價值,也為推動本校的學術(shù)活動和科研創(chuàng)新活動,做出圖書館人的一份貢獻,這是很有意義的雙贏。
(一)大數(shù)據(jù)對于高校圖書館的幫助
大數(shù)據(jù)對于圖書館發(fā)展的強大助力主要表現(xiàn)在6個方面。(1)可以幫助圖書館建立專項知識服務系統(tǒng)和業(yè)務建設的風險模型。全面評估圖書館的運營、信息資源采購、機構(gòu)風險、知識產(chǎn)權(quán)風險等,使圖書館提供更為科學的知識服務。(2)圖書館用戶流失分析和價值分析。通過大數(shù)據(jù),詳細分析用戶需求及動態(tài)變化,即時調(diào)整策略,為用戶訂制個性化服務。(3)幫助圖書館建立大型、高速的知識服務引擎。(4)通過分析現(xiàn)有資源的儲備狀況,及時預測排除資源故障,如垃圾資源過濾、網(wǎng)絡病毒防御、軟硬件故障、信息服務需求障礙等等。(5)建立更加智能的網(wǎng)絡化信息資源組合方式。以求有效地利用館藏資源,從已有結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中快速提取信息資源,最大限度地便于讀者進行學術(shù)研究活動。(6)發(fā)展傳感器數(shù)據(jù)。傳感器數(shù)據(jù)也是未來大數(shù)據(jù)的主要來源之一,對圖書館自然環(huán)境、人文環(huán)境及技術(shù)環(huán)境數(shù)據(jù)多維度大數(shù)據(jù)的智能分析及智能輔助決策,進而實現(xiàn)結(jié)構(gòu)管理、發(fā)展及服務的預測、優(yōu)化和監(jiān)管。
(二)大數(shù)據(jù)并非是對圖書館傳統(tǒng)服務和人文精神的否決
盡管大數(shù)據(jù)給圖書館未來發(fā)展繪制了美好藍圖,但不意味著技術(shù)否決一切,更不意味著大數(shù)據(jù)是對圖書館傳統(tǒng)服務和人文精神的終結(jié)。大數(shù)據(jù)并非是完美無缺的,它龐大的數(shù)據(jù)流里面有不少無用信息、垃圾信息和灰色信息,所以,大數(shù)據(jù)應用的基礎是科學分析和理性頭腦。而圖書館的館藏,尤其是高校圖書館的資源,都是從建校之初就開始不斷被選擇而最終應用于讀者的,精品度很高,內(nèi)涵價值也不低,這種信息資源可以說是高校的寶藏,有些學術(shù)資源甚至是手寫的、歷經(jīng)時間磨礪的孤品,圖書館提供的這部分服務,是充滿人文關(guān)懷和人文情懷的,這是圖書館人的精神傳承。大數(shù)據(jù)不是對過去的否定,恰恰是以過去的傳統(tǒng)服務和人文情懷作為基礎,建立的新型數(shù)據(jù)體系和服務體系。
(三)最終實現(xiàn)智能圖書館、綠色圖書館的目標
不可否認,我們對于智能圖書館的研究,還僅僅是處在研究的初級階段,只是理論上的可能。有了大數(shù)據(jù),智能圖書館變?yōu)榭赡?。在未來的智能圖書館,讀者不僅能調(diào)用文字、數(shù)據(jù)信息,還可以隨意調(diào)取圖片、音頻、視頻等非結(jié)構(gòu)數(shù)據(jù)。并通過人工智能方式交流,圖書館在浩如煙海的館存資源中為讀者精準定位到所需資源。而綠色圖書館,不僅是指建筑學視角上的節(jié)能減排,更是圖書館互聯(lián)、高效、便利的代名詞,降低紙耗等對于資源的破壞,用物聯(lián)網(wǎng)技術(shù),實現(xiàn)信息最大程度的共享,便圖書館真正成為公益事業(yè),為生活服務,為知識服務,更為科教興國服務。
(四)高度重視讀者隱私,保護知識產(chǎn)權(quán)
大數(shù)據(jù)要進行讀者行為和需求分析,必然要采集讀者信息,如登陸IP、閱讀身份、行為記錄、與好友交互信息、用戶名、登陸密碼、權(quán)限、支付密碼等。圖書館在讀者隱私數(shù)據(jù)的使用過程中,應本著不過量采集、不過度使用、不外泄的基本原則,從而保護讀者和用戶的隱私。圖書館為我國公益事業(yè)的一部分,但也掌握著重要的甚至是相當先進的科研信息資源,在保證讀者隱私安全的同時,更要保護知識產(chǎn)權(quán),以防不法份子或黑客利用大數(shù)據(jù)共享等造成的網(wǎng)絡漏洞,盜取我國前沿信息。以往圖書館是相對封悶的系統(tǒng),而在大數(shù)據(jù)環(huán)境下,圖書館的網(wǎng)路完全被開放,必須做好系統(tǒng)安全防御工作,在國家安全、用戶隱私安全第一的原則下,去應用大數(shù)據(jù)閱讀服務。
正如已故圖靈獎得主Jim Gray首次提出,而后微軟公司的Tony Hey等整理出版的《第四范式——數(shù)據(jù)密集型科學發(fā)現(xiàn)》所描繪的一樣,大數(shù)據(jù)不僅僅是數(shù)據(jù)量的劇增,也不僅僅是信息技術(shù)的飛躍,而可能是人類對客觀世界認知飛躍的前奏。大數(shù)據(jù)的應用、系統(tǒng)的確立對于圖書館學、情報學等相關(guān)學科及我國高校圖書館事業(yè)的繁榮,有著重要的意義。因此,必須支持高校圖書館大數(shù)據(jù)體系構(gòu)建的基礎研究,增強學科內(nèi)、學科間以及圖書館界與工業(yè)界、學術(shù)界之間的學術(shù)交流與合作。
[1]戴冰.阿里巴巴集團創(chuàng)始人馬云:人類正從IT時代走向DT時代[N].北京日報,2014-3-3(11).
[2]李生琦.一種結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一集成模型[J].計算機工程與應用,2004(15):34-36.
[3]張曉林.研究圖書館2020:嵌入式協(xié)作知識實驗室 [J].中國圖書館學報,2012(1):11-20.
[4]任平.信息時代對科技檔案信息化管理的思考[J].科技與企業(yè),2014(2):50-51.
[5]李肖軍.檔案信息化安全體系建設研究[J].河北大學學報,2010(6):34.
[6]陳荷艷.多元化跨領域合作的檔案工作——2012年美國檔案工作者年會啟示[J].中國檔案,2013(2):50-51.
[7]潘連根.數(shù)字檔案館研究[M].北京,中國檔案出版社,2005.
[8]易卓君.檔案信息資源共享的驅(qū)動力分析[J].浙江檔案,2010(8):26.
The challenge and strategies of big data in university library system
JIANG Chen-xi
(ChangchunInstituteofTechnology,Changchun130012,China)
With the exploration and development of intelligent terminal technology.three nets fusion,cloud technology,the Internet of things,continuous,global data increment with the explosive growth of situational,arises at the historic moment under the background of big data,the analysis of the large data brings to the university library data storage ability and analysis ability of challenges,the need for inter-disciplinary talent challenge,challenge high standards of service content,from large data for university library’s help,big data is not veto of traditional library service and the humanities spirit,and finally achieve the goal of intelligent and green library,should attach great importance to the reader privacy,the protection of intellectual property from four aspects,discusses the specific strategy of big data system setup.
university library;big data system;information theory;strategic thinking
10.3969/j.issn.1009-8976.2015.04.031
2015-09-02
姜晨曦(1965—),女(漢),吉林長春,館員 主要研究圖書館學。
G250.74
A
1009-8976(2015)04-0107-03