關鍵詞:大數(shù)據(jù);圖書館;云計算;數(shù)據(jù)挖掘;知識服務
摘要:文章闡述了大數(shù)據(jù)內(nèi)涵和特征,分析了大數(shù)據(jù)對圖書館事業(yè)及其構成要素的影響,探討了圖書館如何通過資源、技術及人才建設,重構大數(shù)據(jù)時代圖書館知識咨詢服務模式。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2014)09-0122-03
作者簡介:夏燕(1971-),江蘇城市職業(yè)學院圖書館館員。1大數(shù)據(jù)及其特征
據(jù)國際數(shù)據(jù)資訊公司(Global Pulse)估測,全球數(shù)據(jù)數(shù)量以每年50%的速度增長,這既包括數(shù)據(jù)流的增長,也包括數(shù)據(jù)種類的增多。據(jù)統(tǒng)計,全球企業(yè)和消費者2010年在硬盤、PC和筆記本等設備上存儲了超過13EB的新數(shù)據(jù),而1EB數(shù)據(jù)就相當于美國國會圖書館中存儲數(shù)據(jù)的4,000多倍。2012年,全球的數(shù)據(jù)總量為2.7ZB(1ZB相當于10萬億億字節(jié))。預計到2020年,全球產(chǎn)生的數(shù)據(jù)將超過35ZB。數(shù)據(jù)容量增長的速度已大大超過原有軟硬件技術的承受能力,傳統(tǒng)關系型數(shù)據(jù)庫已難以有效處理這些數(shù)據(jù),人類確已邁入大數(shù)據(jù)時代。
大數(shù)據(jù)的應用十分廣泛,不僅能創(chuàng)造新型產(chǎn)業(yè)業(yè)態(tài),也能產(chǎn)生巨大的經(jīng)濟和社會價值。麥肯錫研究報告認為,大數(shù)據(jù)每年可為美國醫(yī)療健康業(yè)和歐洲發(fā)達經(jīng)濟體政府分別節(jié)省3,000億美元和2,500億歐元的開支。利用個人位置信息有可能創(chuàng)造出1,000億美元的消費者剩余。通過大數(shù)據(jù)分析,企業(yè)可以發(fā)現(xiàn)新客戶群體,確定最優(yōu)供應商,不斷推出創(chuàng)新產(chǎn)品。如淘寶網(wǎng)利用其掌握的第一手用戶數(shù)據(jù)推出“淘寶魔方”服務,通過后臺數(shù)據(jù),挖掘用戶評論、瀏覽量、收藏量,進而預測商家或商品的銷售趨勢。利用大數(shù)據(jù)分析,科研人員可開展醫(yī)療健康、石油勘探和環(huán)境治理等方面的研究。如生物醫(yī)學研究領域就是大數(shù)據(jù)的先行者。以人類基因組計劃為例,2008年人類基因組計劃生產(chǎn)數(shù)據(jù)1萬億堿基對,2009年該數(shù)據(jù)量又翻了一番。美國國家醫(yī)學圖書館基于科學數(shù)據(jù)建立了超級計算和數(shù)據(jù)處理Entrez平臺,支持基礎科學和應用科學的知識發(fā)現(xiàn)和數(shù)據(jù)關聯(lián)以及分析基礎上的模擬仿真研究。
何謂“大數(shù)據(jù)(Big Data)”?麥肯錫全球研究院(McKinsey Global Institute)在其報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》中是這樣定義的:所謂大數(shù)據(jù),是指大小超過了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群。大數(shù)據(jù)之“大”,不僅指數(shù)據(jù)的規(guī)模巨大,還包括數(shù)據(jù)的來源和類型復雜多樣,大數(shù)據(jù)因而又被定義為“大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù)”。
大數(shù)據(jù)的特征被概括為“4V”,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)和價值化(Value):①大量化。是指數(shù)據(jù)量從TB級躍升至PB級甚至更高,原有的集中處理和集中計算技術已難以適應。②多樣化。是指大數(shù)據(jù)不僅包含結構化的數(shù)據(jù),還包括網(wǎng)絡日志、微博、郵件、圖片、音頻和視頻等半結構化、非結構化數(shù)據(jù)。③快速化。是指數(shù)據(jù)實時生成,更新快,數(shù)據(jù)存儲、傳輸和處理的速度也非??欤髮?shù)據(jù)實行交互式、實時或準實時的預判性分析。④價值化。盡管大數(shù)據(jù)價值密度低,但基于龐大數(shù)據(jù)的分析和計算,可以產(chǎn)生巨大的財富和價值,正因為如此,大數(shù)據(jù)被視為一種能形成競爭力的新型資產(chǎn)。
2大數(shù)據(jù)帶給圖書館的影響和挑戰(zhàn)
2.1對圖書館內(nèi)部實體要素的沖擊
2.1.1資源建設方面。大數(shù)據(jù)時代,通過電子商務、社交網(wǎng)絡產(chǎn)生的,記錄人們生產(chǎn)、生活行為的數(shù)據(jù),大都是半結構化和非結構化數(shù)據(jù),這些數(shù)據(jù)已占數(shù)據(jù)總量的80%以上。對這些非結構化數(shù)據(jù)的全面收集就有可能深入分析和了解用戶偏好,真正實現(xiàn)精準和個性化服務。近年來,圖書館因數(shù)據(jù)收集意識不強、對于數(shù)據(jù)在決策當中的重要性認識不夠等原因,目前圖書館對非結構化數(shù)據(jù)資源的采集和建庫還幾乎處于空白。圖書館連本系統(tǒng)用戶信息行為產(chǎn)生的大數(shù)據(jù)資源采集尚未提上議事日程,更不用說對社交網(wǎng)絡、企業(yè)大數(shù)據(jù)的收集了,圖書館因而很難融入用戶群體的細節(jié)服務。此外,由于大數(shù)據(jù)時代科研范式和學術信息交流方式發(fā)生了變化,E-science環(huán)境下的科學研究越來越表現(xiàn)出數(shù)據(jù)驅(qū)動的特征,科學數(shù)據(jù)資源將成為圖書館數(shù)字資源的重要組成部分。目前,世界各國都在積極建設數(shù)字化、網(wǎng)絡化的科學數(shù)據(jù)平臺,如美國國家醫(yī)學圖書館生物醫(yī)學領域的NCBI、生物多樣性領域的BHL等。存儲在各類數(shù)據(jù)庫和文檔系統(tǒng)中的科學數(shù)據(jù)以及以業(yè)界標準化關系數(shù)據(jù)庫所產(chǎn)生的元數(shù)據(jù)體系,將構成一種新型的、分布式的和整合式的數(shù)字圖書館。因此,在西方國家特別是在美國,研究型圖書館普遍設置了“數(shù)據(jù)監(jiān)護(Data Curation)”相關崗位,一些圖書館還成立專門的“研究數(shù)據(jù)管理服務工作組(RIDMSG)”,為科研提供特色化、前沿化的數(shù)據(jù)服務。而國內(nèi)圖書館尚未發(fā)現(xiàn)針對科學數(shù)據(jù)的采集和平臺建設,更談不上特色服務了。
夏燕:大數(shù)據(jù)時代圖書館面臨的挑戰(zhàn)與對策夏燕:大數(shù)據(jù)時代圖書館面臨的挑戰(zhàn)與對策2.1.2技術及基礎設施層面?;诖髷?shù)據(jù)的數(shù)據(jù)抽取和集成、數(shù)據(jù)分析及數(shù)據(jù)解釋,需要全新的大數(shù)據(jù)處理框架和關鍵技術,傳統(tǒng)SQL數(shù)據(jù)庫理論和技術已無能為力。近年來,盡管一些專業(yè)數(shù)據(jù)公司開發(fā)了Hadoop云計算開源工具及MapReduce等分布式并行計算模型,但一方面這些技術工具本身在可擴展性、性能、容錯性、支持異構環(huán)境及兼容性等方面需要進一步完善;另一方面,從數(shù)據(jù)集成、數(shù)據(jù)分析到數(shù)據(jù)可視化,大數(shù)據(jù)管理和利用的復雜程度遠超出傳統(tǒng)的關系型數(shù)據(jù)庫。而圖書館行業(yè)絕大部分從業(yè)者都不是數(shù)據(jù)分析專家,大數(shù)據(jù)管理系統(tǒng)的易用性問題將會在相當長一段時間內(nèi)困擾圖書館界,復雜的大數(shù)據(jù)技術及分析工具制約了圖書館從大數(shù)據(jù)獲取知識的能力。大數(shù)據(jù)環(huán)境下,計算機存儲及計算規(guī)模迅速增加,出于降低成本的考慮,越來越多的知識服務機構將應用由高端服務器轉向中低端硬件構成的大規(guī)模計算機集群,因而要求計算機及服務器集群擁有海量、超大規(guī)模的數(shù)據(jù)存取與計算能力,網(wǎng)絡設備能快速將分塊的大數(shù)據(jù)集復制到集群服務器節(jié)點進行處理,軟硬件條件能支撐保護高度分布式和數(shù)據(jù)的可信應用體系。這些都對圖書館支持非結構化數(shù)據(jù)存儲及分析的軟硬件條件提出了新的要求。endprint
2.1.3人力資源建設方面。大數(shù)據(jù)的應用是技術難度極高的集成應用,如需要集成技術(軟件和系統(tǒng)等),數(shù)學(統(tǒng)計、建模和算法等)、商業(yè)分析(具體業(yè)務領域的相關知識)和可視化(語言和圖表等)等多個學科領域的技術成果。美國國家科學理事會NSB在其發(fā)表的《長期保存的數(shù)字數(shù)據(jù)集合:支持21世紀的研究與教育》報告中,將圖書館學家與信息學家、計算機科學家、數(shù)據(jù)庫和軟件工程師或程序員、數(shù)據(jù)管理者等對科學數(shù)據(jù)資源的成功管理起著關鍵作用的人們并列稱為數(shù)據(jù)科學家。美國研究圖書館協(xié)會也已提出,研究數(shù)據(jù)管理將成為下一代圖書館員的能力之一。有專家粗略估計,我國大數(shù)據(jù)分析專業(yè)人才缺口達100萬人。圖書館數(shù)據(jù)管理人才就更為稀缺。目前,圖書館現(xiàn)有分析人員只能對數(shù)據(jù)進行簡單的報表和描述性分析,可承擔數(shù)據(jù)分析和數(shù)據(jù)挖掘的“數(shù)據(jù)館員”可謂鳳毛麟角。培養(yǎng)大數(shù)據(jù)分析和管理人才,是圖書館面對的最為緊迫的難題。
2.2對圖書館知識服務模式的影響
圖書館與科學研究、科技創(chuàng)新及知識服務關系非常密切。作為嵌入式協(xié)作化知識創(chuàng)新環(huán)境,圖書館具備科技創(chuàng)新所需要的知識服務能力、科研數(shù)據(jù)管理和基于知識協(xié)作的交互協(xié)調(diào)創(chuàng)新能力。伴隨著信息手段及知識組織方式的不斷進步,圖書館核心業(yè)務由參考咨詢向信息咨詢再向知識咨詢演進的趨勢十分明顯。大數(shù)據(jù)則為圖書館知識咨詢服務帶來了豐富的數(shù)據(jù)資源、專業(yè)的數(shù)據(jù)分析技術及與專業(yè)知識服務機構合作的機會。通過大數(shù)據(jù)分析可了解用戶、行為、意愿、業(yè)務需求、知識應用能力及知識服務需求等需要什么,更可以利用數(shù)據(jù)對用戶的科研創(chuàng)新合作過程及合作交互型知識服務過程將要發(fā)生什么進行分析和預測??梢钥隙ǖ氖?,基于數(shù)據(jù)的處理、組織、分析與挖掘的用戶信息行為分析與內(nèi)容分析,與知識服務完美融合的知識咨詢服務,必將成為圖書館在大數(shù)據(jù)時代的咨詢服務模式。
2.3對圖書館整體生存地位的挑戰(zhàn)
大數(shù)據(jù)不光影響圖書館事業(yè)內(nèi)部各構成要素,從圖書館整個生存環(huán)境來看,由于大數(shù)據(jù)來勢洶涌,其商業(yè)價值和戰(zhàn)略資源前景受到政府、企業(yè)及知識服務機構的高度關注。在大數(shù)據(jù)時代,誰能有效地壟斷數(shù)據(jù),誰就有可能成為世界的霸主。近年來,IT巨頭紛紛投入巨資涉足大數(shù)據(jù)開發(fā)和應用領域。2006年,Microsoft以1.1億美元購買了大數(shù)據(jù)公司Farecast。2008年,Google以7億美元購買了為Farecast提供數(shù)據(jù)的ITA Software公司。而圖書館在資金、技術和人才等方面顯然無法與大數(shù)據(jù)商業(yè)公司相比,這些專業(yè)公司對圖書館的部分業(yè)務甚至核心業(yè)務顯然構成了巨大挑戰(zhàn)。
以“語義網(wǎng)”(Semantic Web)為例,它實際上就是“數(shù)據(jù)網(wǎng)”,是一個全球的數(shù)據(jù)庫網(wǎng),在這個數(shù)據(jù)庫網(wǎng)中,計算機能自動為用戶搜尋、檢索和集成網(wǎng)上的信息,而不再需要搜索引擎。大數(shù)據(jù)時代正在催生的這個最大的技術變革,就是要重新構造互聯(lián)網(wǎng),打造下一代互聯(lián)網(wǎng)。眾所周知,現(xiàn)有互聯(lián)網(wǎng)搜索引擎已引起對圖書館的價值質(zhì)疑、貢獻邊緣化、技術落后、人員不適應未來等多重危機,甚至導致了圖書館是否消亡的爭論,將來以語義網(wǎng)為代表的基于大數(shù)據(jù)的知識發(fā)現(xiàn)平臺一旦開發(fā)成功,將給圖書館帶來更為嚴峻的影響和挑戰(zhàn)。
3大數(shù)據(jù)時代圖書館的應對之策
3.1重視用戶信息行為數(shù)據(jù)及科學數(shù)據(jù)資源的建設
大數(shù)據(jù)時代的圖書館服務所需的數(shù)據(jù)既包括當前圖書館正在建設的文獻資源、數(shù)字資源、網(wǎng)絡資源,也包括圖書館內(nèi)外海量的非結構化數(shù)據(jù),其主要來源有RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù),具體如網(wǎng)絡日志、視頻、圖片、地理位置信息、交易信息等數(shù)據(jù)資源。圖書館當務之急應對本領域用戶信息行為產(chǎn)生的大量數(shù)據(jù),如讀者查詢書目產(chǎn)生的OPAC日志、讀者借還書產(chǎn)生的流通日志、讀者對于數(shù)據(jù)庫的瀏覽和檢索歷史,及基于手機、平板電腦等移動設備而產(chǎn)生的讀者個人信息、地理位置、瀏覽信息等加以收集并納入館藏。
此外,圖書館特別是研究型圖書館應收集從宏觀到微觀,從自然到社會的觀察、感知、計算、仿真、模擬、傳播等設施和活動中產(chǎn)生的科學數(shù)據(jù),加快建立融數(shù)據(jù)和文獻于一體的新型數(shù)字圖書館,形成數(shù)據(jù)與信息融合的互操作架構,以形成圖書館獨具特色的科學數(shù)據(jù)基礎設施平臺。
3.2引進大數(shù)據(jù)處理平臺及分析工具
云計算已是較為成熟的大數(shù)據(jù)基礎平臺和關鍵技術,目前最為流行的開源云計算處理框架Hadoop 及基于Hadoop的HDFS和MapReduce等關鍵服務,可提供關聯(lián)規(guī)則學習、預測建模分析,被廣泛應用于推薦系統(tǒng)、商業(yè)智能、決策支持等領域。這些大數(shù)據(jù)處理框架平臺可與原有關系型數(shù)據(jù)庫部署在一起,有效組裝和整合新舊數(shù)據(jù)集合,能夠?qū)崿F(xiàn)對結構化和復雜數(shù)據(jù)、非結構化數(shù)據(jù)的獲取、存儲、組織、分析及決策。
Hadoop在圖書館已得到初步的應用,如Nutch搜索引擎中的分布式搜索、索引等。圖書館應針對資源構建方式、大數(shù)據(jù)處理需求及技術條件,充分運用云計算環(huán)境中存儲、計算及網(wǎng)絡等資源的分布式網(wǎng)絡化服務的資源組合能力,重新定義和開發(fā)圖書館用戶信息行為數(shù)據(jù)的獲取、存儲、組織和分析系統(tǒng)和工具,將數(shù)據(jù)挖掘工具嵌入圖書館需要數(shù)據(jù)分析的業(yè)務環(huán)境,解決圖書館的大數(shù)據(jù)應用難題。
3.3開展基于大數(shù)據(jù)的知識增值服務
圖書館開展的大數(shù)據(jù)知識增值服務,主要包括以下幾種: 首先是圖書館自身建設所需的大數(shù)據(jù)分析。這類分析一般以圖書館本系統(tǒng)信息服務過程中所產(chǎn)生的大量非結構化、半結構化數(shù)據(jù)為對象進行分析,了解讀者信息行為正在發(fā)生什么,預測和分析將會發(fā)生什么,為圖書館個性化、人性化服務提供先覺價值和智慧服務。其次是嵌入式知識服務。圖書館應利用大數(shù)據(jù)特別是科學數(shù)據(jù)基礎平臺,提供以智力、知識、工具的應用為特征的深度知識服務,將知識咨詢服務嵌入管理、學科、科研及知識創(chuàng)新過程之中,促進學習、科研和知識轉化與圖書館服務的深度融合。此外,圖書館還可利用常規(guī)及深度數(shù)據(jù)分析,為客戶提供科技創(chuàng)新能力智能評價、知識服務競爭力分析、知識創(chuàng)新預測性分析、服務態(tài)勢綜述等高附加值服務。
3.4強化數(shù)據(jù)館員的培養(yǎng)和使用
大數(shù)據(jù)人才包括數(shù)據(jù)科學家、數(shù)據(jù)工程師和首席數(shù)據(jù)執(zhí)行官(CDO)等,他們需要具備信息技術、自然語言理解、機器學習、數(shù)學算法、統(tǒng)計學等多方面的專業(yè)技能。這些數(shù)據(jù)管理和分析人才可通過合作或委托培訓的方式進行培養(yǎng)。2013年,北京航空航天大學計算機學院、軟件學院和淘寶、百度、騰訊等企業(yè)合作,聯(lián)合開辦了國內(nèi)第一個大數(shù)據(jù)專業(yè)的工程碩士班。這種聯(lián)合式的大數(shù)據(jù)人才教育模式,為圖書館的大數(shù)據(jù)人才培養(yǎng)途徑提供了捷徑與借鑒。
4結語
正如Google的首席經(jīng)濟學家Hal Varian所說,數(shù)據(jù)是廣泛可用的,所缺乏的是從中提取出知識的能力。數(shù)據(jù)收集的根本目的是根據(jù)需求從數(shù)據(jù)中提取有用的知識,并將其應用到具體的領域之中。在大數(shù)據(jù)時代,從大量的數(shù)據(jù)中分析其潛在的價值將成為圖書館的一大主要業(yè)務,而提供這些業(yè)務的水平將決定著圖書館的發(fā)展水平和方向。
參考文獻:
[1]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012(5):37-40.
[2]郭曉科.大數(shù)據(jù)[M].北京:清華大學出版社,2013.
[3]劉明,李娜.大數(shù)據(jù)趨勢與專業(yè)圖書館[J].中華醫(yī)學圖書情報雜志,2013(2):1-6.
[4]但彬.大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù)[EB/OL].[2013-10-07]. http://www.d1net.com/cc/factary/88831.html.
[5]張興旺.圖書館大數(shù)據(jù)體系構建的學術環(huán)境和戰(zhàn)略思考[J].情報資料工作,2013(2):12-17.
[6]樊偉紅等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012(11):63-77.
[7]朱靜薇,李紅艷.大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應對策略[J].現(xiàn)代情報,2013(5):9-13.
(編校:崔萌)endprint