韓鳳勇
關(guān)鍵詞:圖書(shū)館;大數(shù)據(jù);數(shù)據(jù)處理;應(yīng)用策略
摘 要:文章介紹了圖書(shū)館大數(shù)據(jù)的來(lái)源、特點(diǎn)和大數(shù)據(jù)的處理技術(shù),分析了圖書(shū)館應(yīng)用大數(shù)據(jù)技術(shù)的實(shí)際意義,提出了圖書(shū)館運(yùn)用大數(shù)據(jù)處理技術(shù)開(kāi)展信息服務(wù)的策略與方法。
中圖分類號(hào):G250文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2017)10-0125-03
1 背景
大數(shù)據(jù)一般需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力,以便取得海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。其數(shù)據(jù)處理方式不同于傳統(tǒng)意義上的數(shù)據(jù)處理,而是由一定的統(tǒng)籌能力、敏銳的趨勢(shì)判斷能力、強(qiáng)大的決策能力和流程優(yōu)化能力所構(gòu)成的全新處理模式。近年來(lái),隨著云技術(shù)、近距離無(wú)線通信技術(shù)、物聯(lián)網(wǎng)等技術(shù)的不斷成熟,各種信息資源大量出現(xiàn),給人們的工作和生活帶來(lái)了極大的便利,值得一提的是圖書(shū)館數(shù)字技術(shù)的應(yīng)用在給人們閱讀帶來(lái)便捷的同時(shí),也影響著圖書(shū)館工作的方方面面。
2 圖書(shū)館的大數(shù)據(jù)
2.1 大數(shù)據(jù)的來(lái)源
圖書(shū)館大數(shù)據(jù)來(lái)源包括:(1)商業(yè)數(shù)字平臺(tái)。圖書(shū)館采購(gòu)的數(shù)字資源和平臺(tái),如超星手機(jī)圖書(shū)館、讀秀、百鏈系統(tǒng)、CNKI學(xué)術(shù)期刊以及各種圖片、音頻、視頻等資源庫(kù)。(2)自建資源庫(kù)。大量圖書(shū)、期刊、光盤(pán)的MRAC數(shù)據(jù)及這些圖書(shū)、期刊隨書(shū)的音、視頻數(shù)據(jù)及本館制作的各類特色資源庫(kù)等。(3)互聯(lián)網(wǎng)數(shù)據(jù)。讀者網(wǎng)絡(luò)瀏覽信息、圖書(shū)的評(píng)論信息、讀者的網(wǎng)上社交信息、讀者所處地理位置、讀者的閱讀傾向、讀者消費(fèi)記錄等個(gè)人信息。(4)傳感器數(shù)據(jù)。館內(nèi)安裝的溫度、客流、聲音、防火、安全等傳感器不停地對(duì)周圍進(jìn)行檢測(cè),并不斷生成具有分析價(jià)值的數(shù)據(jù)。(5)RFID(無(wú)線射頻技術(shù))。目前,國(guó)內(nèi)許多圖書(shū)館已經(jīng)使用了RFID技術(shù)對(duì)文獻(xiàn)進(jìn)行管理,人們對(duì)這些安裝有RFID芯片的文獻(xiàn)進(jìn)行跟蹤、分析、研究、總結(jié),能夠得出許多有價(jià)值的大數(shù)據(jù)信息。
以上所提到的圖書(shū)館大數(shù)據(jù)按結(jié)構(gòu)歸納,可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。存儲(chǔ)在SQL Server等關(guān)系數(shù)據(jù)庫(kù)中的圖書(shū)館數(shù)字資源庫(kù)和各平臺(tái)產(chǎn)生的數(shù)據(jù),從結(jié)構(gòu)上劃分屬于前者;而音頻、視頻、圖片等文獻(xiàn)屬于非結(jié)構(gòu)化數(shù)據(jù),此類數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)容量大出許多。
2.2 圖書(shū)館大數(shù)據(jù)的特點(diǎn)
圖書(shū)館的大數(shù)據(jù)滿足“3V”定義,即規(guī)模大(Volume)、變化多樣(Variety)、價(jià)值密度低(Value)。其特點(diǎn)有:(1)數(shù)據(jù)量大。如:國(guó)家圖書(shū)館2005年開(kāi)始信息化建設(shè),2010年數(shù)字資源量就達(dá)到了480TB,2011年增長(zhǎng)到了561TB,到2012年數(shù)字總資源已達(dá)到807.3TB,近年來(lái)更是呈爆發(fā)式增長(zhǎng)態(tài)勢(shì)。(2)數(shù)據(jù)多樣性。圖書(shū)館的大數(shù)據(jù)有本館制作的特色資源、商業(yè)數(shù)字平臺(tái)及各應(yīng)用系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),另外,還有非結(jié)構(gòu)化的音、視頻文件及圖片等數(shù)據(jù)。(3)價(jià)值密度低。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部一小時(shí)的視頻,在連續(xù)不間斷的監(jiān)控中,有用的數(shù)據(jù)可能僅有一二秒,也就是說(shuō)雖然信息量很大,但必須將大量數(shù)據(jù)信息統(tǒng)籌分析研究,才能從中挖掘出有價(jià)值的數(shù)據(jù),而這個(gè)挖掘的過(guò)程,是目前大數(shù)據(jù)背景下亟待解決的難題。
3 研究圖書(shū)館大數(shù)據(jù)的意義
3.1 節(jié)約成本
在共享、合作、開(kāi)放的理念下,圖書(shū)館不需要添置大量的硬件設(shè)備,只需通過(guò)大數(shù)據(jù)技術(shù)即可進(jìn)行信息管理,其可將電子文獻(xiàn)儲(chǔ)存在第三方供應(yīng)商的大數(shù)據(jù)服務(wù)器上,通過(guò)網(wǎng)絡(luò)共享解決讀者使用的問(wèn)題。
3.2 方便使用
圖書(shū)館以現(xiàn)有資源為依托,對(duì)讀者閱覽習(xí)慣、行為模式的大數(shù)據(jù)進(jìn)行分析,這是一種對(duì)現(xiàn)有資源的分析與挖掘。圖書(shū)館運(yùn)用其分析結(jié)果為不斷提升智能化管理水平,提高服務(wù)質(zhì)量提供了決策依據(jù),提高了讀者利用圖書(shū)館的效率,改善了讀者的閱讀習(xí)慣。
3.3 建立更加完善的信息服務(wù)機(jī)制
圖書(shū)館對(duì)大數(shù)據(jù)進(jìn)行分析和研究,能夠指導(dǎo)讀者從眾多信息中準(zhǔn)確找到自己所需的信息,使館員更為準(zhǔn)確、智能地預(yù)測(cè)讀者需求,進(jìn)而提高圖書(shū)館的服務(wù)效能。
4 大數(shù)據(jù)處理技術(shù)
4.1 并行數(shù)據(jù)庫(kù)
并行數(shù)據(jù)庫(kù)是處理數(shù)據(jù)的一種技術(shù),出現(xiàn)在20世紀(jì)80年代,屬于關(guān)系型數(shù)據(jù)庫(kù),是建立在并行計(jì)算和MPP環(huán)境基礎(chǔ)上的數(shù)據(jù)庫(kù),主要存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),它通過(guò)縱向(Scale Up)和橫向(Scale Out)的擴(kuò)展來(lái)實(shí)現(xiàn)。縱向擴(kuò)展是增添高性能的CPU、增加RAM容量或更換更快的硬盤(pán),以提升某節(jié)點(diǎn)的性能,但擴(kuò)展是有限的;橫向擴(kuò)展指在節(jié)點(diǎn)增加服務(wù)器形成集群,使并行數(shù)據(jù)庫(kù)的處理能力得到提升,如果某一節(jié)點(diǎn)性能較低,便會(huì)影響該集群的整體處理能力,這種處理方式對(duì)單個(gè)節(jié)點(diǎn)硬件的要求較為苛刻,成本較高。
4.2 云計(jì)算
云計(jì)算技術(shù)是以網(wǎng)格計(jì)算為基礎(chǔ)逐步發(fā)展成熟起來(lái)的一種新興技術(shù),具有并行和分布式計(jì)算的特點(diǎn)。其本質(zhì)是海量的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)的并行計(jì)算,技術(shù)比較成熟,可行性比較高。目前,云計(jì)算主要有以下幾種技術(shù):(1)谷歌公司的不開(kāi)源分布式文件可擴(kuò)展系統(tǒng),為巨量數(shù)據(jù)存儲(chǔ)、搜索而設(shè)計(jì),用于大型分布式數(shù)據(jù)的訪問(wèn)。它運(yùn)行在普通的硬件上,有自己的容錯(cuò)機(jī)制,能夠?yàn)楸姸嘤脩籼峁┛傮w性能較高的服務(wù)。(2)Hadoop分布式文件系統(tǒng)(HDFS),是能夠運(yùn)行在通用硬件上的分布式文件系統(tǒng),具有高度容錯(cuò)機(jī)制以及開(kāi)源性的分布式文件系統(tǒng),適合部署在廉價(jià)的設(shè)備上,提供帶寬比較高的數(shù)據(jù)訪問(wèn)。目前雅虎、淘寶等許多互聯(lián)網(wǎng)公司都采用該文件系統(tǒng)。(3)編程模型(Map Reduce)是處理大數(shù)據(jù)的基礎(chǔ)。編程模型用于并行運(yùn)算大于1TB的數(shù)據(jù)集,其概念Reduce(歸約)、Map(映射)及模型內(nèi)涵,是從函數(shù)式編程語(yǔ)言借鑒而來(lái),這針對(duì)不熟悉分布式并行編程的人員來(lái)說(shuō),可以通過(guò)該模型方便地將程序運(yùn)行在分布式系統(tǒng)上,其流程見(jiàn)圖1。
5 處理圖書(shū)館的大數(shù)據(jù)
5.1 大數(shù)據(jù)的存儲(chǔ)endprint
圖書(shū)館雖然可以利用HDFS來(lái)存儲(chǔ)圖書(shū)館大數(shù)據(jù),但是無(wú)法滿足實(shí)時(shí)性的要求,因此需要對(duì)大數(shù)據(jù)分類并使用不同方式進(jìn)行存儲(chǔ)。如實(shí)時(shí)性較高的數(shù)據(jù)應(yīng)存儲(chǔ)到實(shí)時(shí)數(shù)據(jù)庫(kù),實(shí)時(shí)性要求不高的數(shù)據(jù)或各業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)應(yīng)存儲(chǔ)到并行數(shù)據(jù)倉(cāng)庫(kù),大量的歷史數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)應(yīng)存儲(chǔ)到HDFS系統(tǒng)(見(jiàn)圖2)。
5.2 大數(shù)據(jù)的展現(xiàn)
圖書(shū)館的大數(shù)據(jù)經(jīng)過(guò)分析會(huì)有許多結(jié)果呈現(xiàn)在用戶界面上,用戶界面要注重結(jié)構(gòu)設(shè)計(jì)、交互設(shè)計(jì)、視覺(jué)設(shè)計(jì),應(yīng)做到易用性、規(guī)范性、合理性、排錯(cuò)性、節(jié)能性,符合頁(yè)面布局合理、易操作、響應(yīng)時(shí)間短等要求。
6 圖書(shū)館大數(shù)據(jù)的應(yīng)用策略
6.1 建立圖書(shū)館內(nèi)部數(shù)據(jù)資源集成庫(kù)
圖書(shū)館應(yīng)通過(guò)科學(xué)的方法,運(yùn)用大數(shù)據(jù)技術(shù)對(duì)本館現(xiàn)有的“小數(shù)據(jù)”進(jìn)行收集、整理、挖掘和分析,逐步建立本館自己的信息數(shù)據(jù)資源集成庫(kù),可優(yōu)化服務(wù)流程,提高服務(wù)效率。
6.2 建立信息核心資源數(shù)據(jù)模塊
圖書(shū)館在掌握讀者信息需求的基礎(chǔ)上,要從“小數(shù)據(jù)”應(yīng)用開(kāi)始積累經(jīng)驗(yàn),并通過(guò)整合優(yōu)化內(nèi)外部信息資源的數(shù)據(jù)構(gòu)架,從源頭上為建立核心資源數(shù)據(jù)模塊夯實(shí)基礎(chǔ),使之能盡快投入到信息服務(wù)平臺(tái)的運(yùn)營(yíng)中。
6.3 建立非結(jié)構(gòu)化的信息庫(kù)
目前,以手機(jī)、PAD為代表的個(gè)人智能終端設(shè)備,已經(jīng)成最主要的個(gè)人信息來(lái)源,所以圖書(shū)館很有必要建立社會(huì)化、非結(jié)構(gòu)化的信息庫(kù)。提升圖書(shū)館信息數(shù)據(jù)資源的整體分析能力,有利于加快實(shí)現(xiàn)圖書(shū)館信息資源智能化服務(wù)步伐。
6.4 云技術(shù)和大數(shù)據(jù)技術(shù)融合
建立信息全面、內(nèi)容豐富的數(shù)字圖書(shū)館,需要強(qiáng)大的數(shù)據(jù)發(fā)現(xiàn)能力、數(shù)據(jù)處理能力和數(shù)據(jù)存儲(chǔ)能力,這些都需要先進(jìn)的數(shù)據(jù)分析技術(shù)作為保障。
目前,要解決上述問(wèn)題,云計(jì)算技術(shù)是一種最好的技術(shù)方案。圖書(shū)館應(yīng)用云技術(shù)處理大數(shù)據(jù),應(yīng)做到以下幾點(diǎn):(1)充分利用云技術(shù),創(chuàng)建大數(shù)據(jù)基礎(chǔ)架構(gòu),讓大數(shù)據(jù)在云平臺(tái)上運(yùn)行,這是云技術(shù)的靈魂,也是推進(jìn)圖書(shū)館轉(zhuǎn)型升級(jí)的必由之路。(2)利用云技術(shù)構(gòu)建信息資源“數(shù)據(jù)集合”,這是目前嫁接分布式處理的最經(jīng)濟(jì)、最有效的手段,充分顯示了云技術(shù)的優(yōu)勢(shì),圖書(shū)館可通過(guò)第三方供應(yīng)商構(gòu)建圖書(shū)館信息服務(wù)云,解決“數(shù)據(jù)集合”的問(wèn)題。(3)圖書(shū)館運(yùn)用云技術(shù)對(duì)大數(shù)據(jù)進(jìn)行分析,圍繞讀者個(gè)性化需求,精心設(shè)計(jì)讀者的個(gè)性化服務(wù)方案,以釋放出更多的潛在價(jià)值。
6.5 選擇適合自身的大數(shù)據(jù)解決方案
存儲(chǔ)、處理和分析大數(shù)據(jù)就需要有相應(yīng)的數(shù)據(jù)挖掘技術(shù)解決方案,目前國(guó)際上較為成熟的方案有Intel的Spark開(kāi)源集群計(jì)算環(huán)境,華為的OceanStor9000大數(shù)據(jù)存儲(chǔ)系統(tǒng),IBM的IBMPower分析應(yīng)用平臺(tái)。它們擁有各自的特點(diǎn)和優(yōu)勢(shì),圖書(shū)館應(yīng)根據(jù)自身情況選擇一款適合自己的軟件,作為知識(shí)管理的應(yīng)用平臺(tái)。
7 結(jié)語(yǔ)
數(shù)字化信息的增長(zhǎng)催生出了“大數(shù)據(jù)”的概念,并逐漸地滲入圖書(shū)館工作中,這必將影響或改變圖書(shū)館的服務(wù)。展望未來(lái),大數(shù)據(jù)服務(wù)技術(shù)與熱點(diǎn)會(huì)不斷涌現(xiàn),它將對(duì)圖書(shū)館知識(shí)服務(wù)的拓展和深化帶來(lái)重大影響。圖書(shū)館未來(lái)的工作將是“數(shù)據(jù)驅(qū)動(dòng)”的圖書(shū)情報(bào)工作。圖書(shū)館的大數(shù)據(jù)技術(shù)及服務(wù)將是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及數(shù)據(jù)的管理水平、數(shù)據(jù)的處理技術(shù)及數(shù)據(jù)服務(wù)的創(chuàng)新等,需要廣大圖書(shū)館員共同努力。
參考文獻(xiàn):
[1] 張德豐.云計(jì)算實(shí)戰(zhàn)[M].北京:清華大學(xué)出版社,2012:44-47.
[2] 劉剛.Hadoop應(yīng)用開(kāi)發(fā)技術(shù)詳解[M].北京:機(jī)械工業(yè)出版社,2014:10-20.
[3] 張興旺.圖書(shū)館大數(shù)據(jù)體系構(gòu)建的學(xué)術(shù)環(huán)境和戰(zhàn)略思考[J].情報(bào)資料工作,2013(2):12-17.
[4] 王天泥.知識(shí)咨詢:大數(shù)據(jù)時(shí)代圖書(shū)館的知識(shí)服務(wù)增長(zhǎng)點(diǎn)[J].圖書(shū)與情報(bào),2013(2):74-77.
[5] 姜山,王剛.大數(shù)據(jù)對(duì)圖書(shū)館的啟示[J].圖書(shū)館工作與研究,2013(4):52-54.
[6] 裴昱.大數(shù)據(jù)時(shí)代圖書(shū)館用戶行為信息的利用方式[J].圖書(shū)館學(xué)刊,2013(8):44-46.endprint