徐軍玲
(上海電機(jī)學(xué)院圖書館,上海 200240)
隨著網(wǎng)絡(luò)技術(shù)、信息技術(shù)的發(fā)展,人們從來沒有像現(xiàn)在這樣對(duì)新設(shè)備、新技術(shù)、新理念應(yīng)接不暇。在數(shù)字圖書館、移動(dòng)圖書館、云圖書館、智慧圖書館之后,大數(shù)據(jù)來了。所謂大數(shù)據(jù),并不是指那些單純的體量巨大的數(shù)據(jù),而是指那些無法在人們?nèi)萑痰臅r(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行整合、存儲(chǔ)、分析和應(yīng)用的數(shù)據(jù)集合,具有體量巨大化(volume),結(jié)構(gòu)多樣化(variety),輸入處理速度快(velocity)和價(jià)值密度低(value)的特點(diǎn)。圖書館面對(duì)大數(shù)據(jù)來襲,應(yīng)該具備什么條件、采取什么樣的措施,才能利用大數(shù)據(jù)做好知識(shí)服務(wù),為國(guó)家科技進(jìn)步、經(jīng)濟(jì)發(fā)展、社會(huì)穩(wěn)定做出應(yīng)有的貢獻(xiàn),是每一個(gè)圖書館不可回避的問題。
盡管近年來圖書館界表現(xiàn)出了對(duì)大數(shù)據(jù)極度的關(guān)注并投入極大的熱情,但是嚴(yán)格按大數(shù)據(jù)的特征來判斷,除少數(shù)國(guó)家級(jí)、省市級(jí)圖書館外,大部分中、小型圖書館可利用的數(shù)據(jù)資源中稱得上大數(shù)據(jù)的資源很少。其主要原因之一是多數(shù)圖書館對(duì)大數(shù)據(jù)還沒有一個(gè)完整清晰的認(rèn)識(shí),沒有建立自己的基于云計(jì)算的管理服務(wù)平臺(tái),當(dāng)然也談不上對(duì)大數(shù)據(jù)的抓取、借用;原因之二是多數(shù)圖書館缺乏大數(shù)據(jù)管理和應(yīng)用的人才,要對(duì)大數(shù)據(jù)進(jìn)行整理、分析、利用并產(chǎn)生社會(huì)價(jià)值還有很多工作要做。但無論如何,大數(shù)據(jù)是當(dāng)前社會(huì)中的客觀存在,大數(shù)據(jù)已經(jīng)來到了圖書館人面前。
以前,人們大都認(rèn)為政府和信息機(jī)構(gòu)(圖書館與有關(guān)信息機(jī)構(gòu))是大部分信息資源的擁有者。隨著互聯(lián)網(wǎng)和信息產(chǎn)業(yè)的發(fā)展,目前政府和信息機(jī)構(gòu)擁有的信息數(shù)量遠(yuǎn)遠(yuǎn)少于信息運(yùn)營(yíng)商。美國(guó)麥肯錫公司2011年的調(diào)查結(jié)果顯示,政府約擁有848PB(1PB=1 024TB)數(shù)據(jù),約占數(shù)字信息資源總量的12%左右,信息機(jī)構(gòu)的數(shù)字信息資源總量更是遠(yuǎn)遠(yuǎn)低于信息服務(wù)商的數(shù)據(jù)總量[1]。在國(guó)外,F(xiàn)acebook、Amazon、Yahoo、Twitter和Hulu等互聯(lián)網(wǎng)企業(yè)每日每時(shí)都在孕育著大數(shù)據(jù),在我國(guó)也是如此,百度每天要處理的任務(wù)總量超過120 000個(gè),處理的數(shù)據(jù)總量超過20PB[2];2011年淘寶就有4億條產(chǎn)品訊息和2億多名注冊(cè)用戶在上面活動(dòng),每天超過4 000萬人次訪問,淘寶數(shù)據(jù)倉(cāng)庫(kù)每天大約要處理幾億次的用戶行為,由此產(chǎn)生的每天的活躍數(shù)據(jù)總量超過50TB[3]。因此,圖書館要利用大數(shù)據(jù)向讀者提供服務(wù),不是利用現(xiàn)有的館藏而是通過某種方式(如云計(jì)算服務(wù)平臺(tái))利用社會(huì)上的大數(shù)據(jù)資源。
大數(shù)據(jù)的結(jié)構(gòu)多樣化是其重要特征之一。根據(jù)數(shù)據(jù)的生成方式和結(jié)構(gòu)特點(diǎn)不同,它們存在的形式也各不相同,有時(shí)還會(huì)有交叉。大數(shù)據(jù)資源從存在形式上分,有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是指那些可以用二維表(字段和記錄)結(jié)構(gòu)來邏輯表達(dá)的數(shù)據(jù),它的特點(diǎn)是任何一列的數(shù)據(jù)不可再細(xì)分,并具有唯一的類型,是數(shù)據(jù)管理最古老的一種數(shù)據(jù)形式。常見的管理軟件有Excel、SQL等。半結(jié)構(gòu)化數(shù)據(jù)是指那些字段可根據(jù)需要擴(kuò)充的結(jié)構(gòu)化數(shù)據(jù),如以Exchange軟件形式存儲(chǔ)的數(shù)據(jù)。除結(jié)構(gòu)化數(shù)據(jù)之外的數(shù)據(jù)統(tǒng)稱為非結(jié)構(gòu)化數(shù)據(jù),也就是無法用統(tǒng)一的邏輯形式表達(dá)的數(shù)據(jù),如文本數(shù)據(jù)、Web數(shù)據(jù)、圖片、音頻、視頻數(shù)據(jù)等。
數(shù)據(jù)流是近年來頗受關(guān)注的一種新的數(shù)據(jù)形式,它既有結(jié)構(gòu)化數(shù)據(jù)形式,也有非結(jié)構(gòu)化數(shù)據(jù)形式。一般業(yè)界比較認(rèn)同的定義是只能被讀取一次或少數(shù)幾次的有序數(shù)據(jù)序列,它具有數(shù)據(jù)到達(dá)的快速性、數(shù)據(jù)范圍的廣泛性和到達(dá)時(shí)間的持續(xù)性三個(gè)特點(diǎn)。它與傳統(tǒng)的關(guān)系型數(shù)據(jù)的區(qū)別是聯(lián)機(jī)即到、數(shù)據(jù)到達(dá)的先后順序無法控制、數(shù)據(jù)量有可能是無限多、一般只能存儲(chǔ)一個(gè)時(shí)間段的數(shù)據(jù)。
數(shù)據(jù)形式的不同導(dǎo)致對(duì)這些數(shù)據(jù)的抓取、整理、分析的方法不同和選用的軟件工具的不同,雖然其中的一些數(shù)據(jù)可能會(huì)利用類似的底層技術(shù),甚至?xí)嬖谝欢ń徊妫捎诤芏啻髷?shù)據(jù)難以全部存儲(chǔ)和重復(fù)讀取,也給分析、利用這些數(shù)據(jù)帶來了困難。圖書館要利用這些來自不同地域、形式各不相同的大數(shù)據(jù)為讀者提供服務(wù),就必須統(tǒng)籌考慮,引進(jìn)專門人才和設(shè)備,抓住大數(shù)據(jù)的關(guān)鍵特征采用不同的工具和技術(shù)才能奏效。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,圖書館的館藏已經(jīng)突破了原有的館藏概念,現(xiàn)在圖書館的館藏不僅包括傳統(tǒng)的館藏內(nèi)容,也包括了一定的虛擬館藏,如各類信息產(chǎn)業(yè)的數(shù)據(jù)鏡像。面對(duì)大數(shù)據(jù)和云計(jì)算,圖書館不可能也沒有必要對(duì)大數(shù)據(jù)進(jìn)行實(shí)際館藏。首先,大數(shù)據(jù)館藏投資巨大,不是一般圖書館所能承受的。其次,大數(shù)據(jù)本身具有體量巨大,數(shù)據(jù)類型復(fù)雜,價(jià)值密度低的特點(diǎn),甚至有些大數(shù)據(jù)在經(jīng)過一定的時(shí)間后就失去了保存的價(jià)值,花費(fèi)大量的投資儲(chǔ)藏所有的大數(shù)據(jù),既不經(jīng)濟(jì)也沒有必要。圖書館要使用的大數(shù)據(jù)可以通過云平臺(tái)以即服務(wù)的方式向一些信息產(chǎn)業(yè)購(gòu)買使用權(quán)。所謂泛館藏,就是不僅包含圖書館的現(xiàn)有傳統(tǒng)館藏,也包括通過各種方式在本圖書館可以利用的網(wǎng)絡(luò)產(chǎn)業(yè)信息資源和云信息資源。簡(jiǎn)單地說,圖書館的泛館藏就是圖書館能夠利用的所有的信息資源。
大數(shù)據(jù)處理技術(shù),從處理對(duì)象來劃分主要有批量數(shù)據(jù)處理技術(shù),數(shù)據(jù)流處理技術(shù),交互式處理技術(shù),圖形數(shù)據(jù)處理技術(shù)等。
批量數(shù)據(jù)處理技術(shù)應(yīng)用的主要對(duì)象有搜索引擎、電子商務(wù)、社交網(wǎng)絡(luò)及社會(huì)上(如醫(yī)療保健、能源消費(fèi)等)產(chǎn)生的大數(shù)據(jù)。批量數(shù)據(jù)處理的典型架構(gòu)是Hadoop,它包含負(fù)責(zé)數(shù)據(jù)存儲(chǔ)的分布式文件系統(tǒng)HDFS和負(fù)責(zé)數(shù)據(jù)計(jì)算和價(jià)值發(fā)現(xiàn)的分布式編程模式MapReduce兩個(gè)開源軟件。此外,還有Google開發(fā)的批量數(shù)據(jù)存儲(chǔ)系統(tǒng)HFS和MapReduce等。
數(shù)據(jù)流處理技術(shù)應(yīng)用于需要數(shù)據(jù)采集分析或需要實(shí)時(shí)分析的場(chǎng)合,如互聯(lián)網(wǎng)日志、Web數(shù)據(jù)、金融銀行業(yè)等產(chǎn)生的數(shù)據(jù)流。數(shù)據(jù)流處理技術(shù)的典型工具有Twitter的Storm系統(tǒng)、Facebook的Scribe系統(tǒng)、Linkedin的Samza系統(tǒng)等。Storm系統(tǒng)具有分布式、可靠性好、高容錯(cuò)率的特點(diǎn),該軟件把數(shù)據(jù)流分發(fā)給下屬組件,由下屬組件對(duì)數(shù)據(jù)進(jìn)行單一的特定的處理任務(wù)。Scribe系統(tǒng)是一個(gè)開源的日志收集系統(tǒng),它從網(wǎng)站日志源上收集日志,保存到一個(gè)分布式文件系統(tǒng)上,為統(tǒng)一處理和分析這些數(shù)據(jù)提供基礎(chǔ)。這些系統(tǒng)大都各自具有分布式、可擴(kuò)展、高容錯(cuò)的特點(diǎn),從而被業(yè)界所推崇。
交互式處理技術(shù)是一種采用人—機(jī)對(duì)話模式處理大數(shù)據(jù)的技術(shù),應(yīng)用于互聯(lián)網(wǎng)各種交互式平臺(tái)產(chǎn)生的大數(shù)據(jù)的分析,使用NoSQL類型的數(shù)據(jù)庫(kù)處理交互式數(shù)據(jù)。典型的交互式數(shù)據(jù)處理系統(tǒng)有Google的Dremel系統(tǒng)、Berkeley的Spark系統(tǒng)等。Google的Dremel是一種交互式數(shù)據(jù)分析系統(tǒng),用于分析處理只讀嵌套式數(shù)據(jù)。它可以組成上千規(guī)模的服務(wù)器集群,處理PB數(shù)量級(jí)的數(shù)據(jù),相比于MapReduce具有列式存儲(chǔ)、查詢方便、分析速度快等特點(diǎn)。
圖形數(shù)據(jù)處理技術(shù)用于需要處理分析圖形數(shù)據(jù)的所有領(lǐng)域,應(yīng)用范圍極其廣泛。典型的處理系統(tǒng)有Google的Pregel系統(tǒng)、Neo4j系統(tǒng)、微軟的Trinity系統(tǒng)等。Pregel是一種分布式圖形數(shù)據(jù)計(jì)算系統(tǒng),主要用于圖遍歷(BFS)、最短路徑(SSSP)以及Pagerank計(jì)算等場(chǎng)合,具有兼容性強(qiáng)、容錯(cuò)率高等特點(diǎn)。微軟的Trinity是建立在分布式云存儲(chǔ)上的圖形分析系統(tǒng),使用超圖數(shù)據(jù)模型,兼容大部分?jǐn)?shù)據(jù)庫(kù)特點(diǎn),具有查詢速度快、支持批處理等特點(diǎn)。
正在使用和開發(fā)的大數(shù)據(jù)處理技術(shù)遠(yuǎn)不止以上介紹的這些,隨著大數(shù)據(jù)時(shí)代的到來和深入,相信會(huì)有更多更有效的大數(shù)據(jù)處理技術(shù)和軟件誕生。圖書館是利用知識(shí)信息資源進(jìn)行對(duì)外服務(wù)的機(jī)構(gòu),不是大數(shù)據(jù)處理技術(shù)的研發(fā)機(jī)構(gòu)。圖書館只要建立一個(gè)基于云計(jì)算的管理服務(wù)平臺(tái),運(yùn)用云計(jì)算的即服務(wù)方式,得到大數(shù)據(jù)以及大數(shù)據(jù)處理架構(gòu)的使用權(quán),從而利用這些技術(shù)進(jìn)行信息服務(wù)。因此,圖書館大數(shù)據(jù)處理技術(shù)只能采取“拿來主義”,引進(jìn)或培養(yǎng)處理大數(shù)據(jù)的專門人才,利用目前市場(chǎng)上已有的處理技術(shù),建立自己的云計(jì)算管理服務(wù)平臺(tái),才能夠利用大數(shù)據(jù)資源對(duì)用戶提供服務(wù)。
云計(jì)算與大數(shù)據(jù)是傳統(tǒng)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)發(fā)展到一定階段催生的一對(duì)“孿生兄弟”。中科院物聯(lián)網(wǎng)研究發(fā)展中心陳曙東研究員在“亞信大數(shù)據(jù)開放日”上提出:沒有大數(shù)據(jù)的信息積淀,云計(jì)算的計(jì)算能力再?gòu)?qiáng)大,也難以找到用武之地;沒有云計(jì)算的處理能力,數(shù)據(jù)信息的沉淀再豐富,也無法處理。大數(shù)據(jù)必須要依賴于云計(jì)算,才能進(jìn)行實(shí)際的應(yīng)用。云計(jì)算的虛擬化技術(shù)、分布式處理技術(shù)、海量數(shù)據(jù)的存儲(chǔ)和管理技術(shù)、實(shí)時(shí)流數(shù)據(jù)處理、智能分析技術(shù)等,為大數(shù)據(jù)的應(yīng)用提供了技術(shù)平臺(tái)[4]。體量巨大的大數(shù)據(jù)只有在云端才能找到存儲(chǔ)之所;結(jié)構(gòu)復(fù)雜多樣的大數(shù)據(jù)只有通過云計(jì)算相關(guān)技術(shù)才能整合、分析;低價(jià)值密度的大數(shù)據(jù)只有通過云計(jì)算的分析才能發(fā)現(xiàn)其應(yīng)用價(jià)值。因此,圖書館開展大數(shù)據(jù)服務(wù)構(gòu)建云管理服務(wù)平臺(tái)是關(guān)鍵的一步。
目前圖書館利用大數(shù)據(jù)進(jìn)行對(duì)外服務(wù)的條件還很不成熟。首先大部分圖書館沒有自己的云管理服務(wù)平臺(tái),由大數(shù)據(jù)與云計(jì)算的關(guān)系可知,沒有云計(jì)算,利用大數(shù)據(jù)幾乎是一句空話。其次,當(dāng)前大部分信息數(shù)據(jù)資源集中在各個(gè)信息產(chǎn)業(yè)機(jī)構(gòu)和政府機(jī)構(gòu)手中,且沒有有效的法律條文支撐的資源共享,這樣圖書館利用大數(shù)據(jù)就變成“無米之炊”。第三,大部分圖書館云計(jì)算、大數(shù)據(jù)方面專業(yè)人才匱乏,難以形成一支利用大數(shù)據(jù)的服務(wù)團(tuán)隊(duì)。面對(duì)大數(shù)據(jù)時(shí)代的來臨,圖書館要在大數(shù)據(jù)面前有所作為,就必須解決無云計(jì)算平臺(tái)、無大數(shù)據(jù)資源、無相關(guān)人才的“三無”現(xiàn)象。
如圖1所示,圖書館面對(duì)大數(shù)據(jù)的云管理服務(wù)平臺(tái)可分為三層:資源層、云平臺(tái)管理層和服務(wù)層。資源層分為硬件資源和軟件資源兩大部分,硬件資源主要包括圖書館各類實(shí)體館藏、電子館藏及承載這些館藏的建筑、機(jī)械設(shè)備、電子設(shè)備及網(wǎng)絡(luò)設(shè)備等資源;軟件資源主要包括圖書館各類數(shù)字資源、虛擬館藏(訂購(gòu)或通過其他方式擁有使用權(quán)的遠(yuǎn)程數(shù)字資源或數(shù)據(jù)庫(kù)等)以及各類管理軟件。云平臺(tái)管理層由圖書館為云平臺(tái)專用的虛擬設(shè)備、用于云服務(wù)的各類軟件資源、用于云平臺(tái)管理的軟件(如云計(jì)算訪問接口)及用于云安全保障的軟件資源等組成,主要作用是對(duì)云計(jì)算服務(wù)層的可用性、可靠性和安全性提供保障并保證服務(wù)質(zhì)量和運(yùn)行安全。服務(wù)層主要包括云計(jì)算的IaaS、PaaS、SaaS三種云計(jì)算服務(wù),IaaS提供館內(nèi)外硬件基礎(chǔ)設(shè)施部署服務(wù),為根據(jù)讀者需要提供、配置實(shí)體或虛擬的計(jì)算、存儲(chǔ)及相關(guān)網(wǎng)絡(luò)資源;PaaS是云計(jì)算服務(wù)提供商提供的應(yīng)用程序運(yùn)行環(huán)境,用于提供應(yīng)用程序的部署與管理服務(wù),以訪問、認(rèn)證、管理、計(jì)費(fèi)的一體化形式為廣大用戶提供高效的個(gè)性化服務(wù);SaaS是基于云計(jì)算基礎(chǔ)平臺(tái)所開發(fā)的應(yīng)用程序,其中既包括云計(jì)算服務(wù)提供商提供的各類應(yīng)用程序也包括圖書館自己開發(fā)的應(yīng)用程度。
圖1 圖書館云管理服務(wù)平臺(tái)架構(gòu)示意圖
圖書館面對(duì)大數(shù)據(jù)的云管理服務(wù)平臺(tái)的構(gòu)建應(yīng)該立足現(xiàn)有條件、現(xiàn)有技術(shù),根據(jù)實(shí)際需求構(gòu)建自己的應(yīng)用服務(wù)系統(tǒng),按實(shí)際需要集成外部第三方之間的運(yùn)算、分析系統(tǒng),充分發(fā)揮云計(jì)算即時(shí)服務(wù)、按需付費(fèi)的特點(diǎn)打造適合本圖書館的云服務(wù)平臺(tái)。當(dāng)前國(guó)內(nèi)外有不少的云服務(wù)提供商可供選擇,國(guó)內(nèi)的圖書館界CALIS數(shù)字圖書館的云服務(wù)平臺(tái)已經(jīng)初步建成[5],IT企業(yè)界阿里巴巴、華為、騰訊等眾多著名公司都建立了云服務(wù)平臺(tái),不僅提供云平臺(tái)建設(shè)方案,也提供數(shù)據(jù)使用。
大數(shù)據(jù)的利用是圖書館的一個(gè)重要發(fā)展契機(jī),如何構(gòu)建圖書館自己的云服務(wù)平臺(tái)為社會(huì)服務(wù),是當(dāng)前圖書館面臨的一個(gè)重要課題。各圖書館條件不同,基礎(chǔ)各異,服務(wù)對(duì)象也不盡相同,利用大數(shù)據(jù)為自己的服務(wù)對(duì)象提供服務(wù)還有很長(zhǎng)的路要走。盡管圖書館內(nèi)部人才的缺乏、經(jīng)費(fèi)的短缺,外部環(huán)境中國(guó)家有關(guān)云計(jì)算、大數(shù)據(jù)方面法律建設(shè)、大數(shù)據(jù)共享等還不盡如人意,但筆者相信大數(shù)據(jù)的利用一定會(huì)成為圖書館一項(xiàng)嶄新的業(yè)務(wù)。
[1]張斌,馬費(fèi)成.大數(shù)據(jù)環(huán)境下數(shù)字信息資源服務(wù)創(chuàng)新[J].情報(bào)理論與實(shí)踐,2014(6):28-33.
[2]郭敏杰.大數(shù)據(jù)和云計(jì)算平臺(tái)應(yīng)用研究[J].現(xiàn)代電信科技,2014(8):7-11.
[3]每天50TB淘寶數(shù)據(jù)庫(kù)海量數(shù)據(jù)輕松“漫游”記[EB/OL].[2011-01-12].http://soft.chinabyte.com/171/11775671.shtml.
[4]陳曙東.大數(shù)據(jù)的哲學(xué)思考[EB/OL].[2015-03-23].http://mt.sohu.com/20150323/n410190740.shtml.
[5]王文清,陳凌.CALIS數(shù)字圖書館云服務(wù)平臺(tái)模型[J].大學(xué)圖書館學(xué)報(bào),2009(4):13-18.