• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Hadoop的數(shù)字圖書館云檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2014-07-05 06:43:26潘吳斌
      圖書館理論與實(shí)踐 2014年4期
      關(guān)鍵詞:檢索系統(tǒng)信息檢索書目

      ●張 艷,潘吳斌

      (南京信息工程大學(xué) a.圖書館;b.計(jì)算機(jī)與軟件學(xué)院,南京 210044)

      數(shù)字圖書館在經(jīng)歷了互聯(lián)網(wǎng)時(shí)代、Web時(shí)代、網(wǎng)格時(shí)代、Web2.O時(shí)代,己經(jīng)開始進(jìn)入云計(jì)算時(shí)代。云計(jì)算是提供海量數(shù)據(jù)存儲(chǔ)和大規(guī)模數(shù)據(jù)處理的分布式并行技術(shù),它作為一種適合圖書館應(yīng)用的架構(gòu)模式,可以將分散的數(shù)字信息資源整合在一起,實(shí)現(xiàn)數(shù)字圖書館的集約化,為數(shù)字資源的共建共享提供了新的解決辦法?;诜植际接?jì)算的新型服務(wù)計(jì)算模式—云計(jì)算,完全可以滿足數(shù)字圖書館建設(shè)的需要,將會(huì)成為未來數(shù)字圖書館發(fā)展的新趨勢。

      1 相關(guān)應(yīng)用

      Library TechnologyGuide1 月期中 MarshallBreeding[1]做了2012年圖書館自動(dòng)化產(chǎn)業(yè)的預(yù)測,2012將是接下來十年新一輪自動(dòng)化平臺(tái)轉(zhuǎn)換的開始。尤其對(duì)大學(xué)圖書館,將是新一代圖書館自動(dòng)化平臺(tái)的轉(zhuǎn)折年。國際上,圖書館界紛紛采用云計(jì)算技術(shù)來減少成本和提高效率,比如,DuraSpace,Fedora Commons,LOCKSS,Library of Congress等機(jī)構(gòu)都相繼給出了數(shù)字圖書館的云存儲(chǔ)方案,而針對(duì)數(shù)字圖書館的云檢索系統(tǒng)是少之又少。

      OCLC(聯(lián)機(jī)計(jì)算機(jī)圖書館中心)創(chuàng)建的“Web級(jí)協(xié)作型圖書館管理服務(wù)”被公認(rèn)為是圖書館領(lǐng)域第一個(gè)云服務(wù),該服務(wù)的目的是降低圖書館費(fèi)用,促進(jìn)共同發(fā)展和提升用戶體驗(yàn)。[2]其中被視作OCLC核心的是書目數(shù)據(jù)庫WorldCat.org,匯集了全球多個(gè)國家各種類型文獻(xiàn)的書目記錄達(dá)240638724種,館藏?cái)?shù)量達(dá)1755480247條,[3]支持對(duì)圖書資料、圖書館、列表和聯(lián)絡(luò)人等資源的檢索,提供多字段檢索,并可對(duì)年份、用戶類型、文獻(xiàn)格式等進(jìn)行限定,提供多種檢索結(jié)果處理和分析功能,從而實(shí)現(xiàn)全世界不同圖書館和機(jī)構(gòu)資源的一站式檢索,幫助用戶找到最需要的資源。

      2 云檢索系統(tǒng)

      云檢索是從云計(jì)算延伸和發(fā)展起來的,以服務(wù)的形式向用戶提供信息檢索和訪問。云計(jì)算包括了互聯(lián)網(wǎng)上各種服務(wù)形式的應(yīng)用以及數(shù)據(jù)中心提供這些服務(wù)的軟硬件設(shè)施,互聯(lián)網(wǎng)上的應(yīng)用服務(wù),即SaaS軟件即服務(wù),而數(shù)據(jù)中心的軟硬件設(shè)施即所謂的云。從用戶的角度來說,云檢索就是利用云計(jì)算所提供的服務(wù)模式,設(shè)計(jì)一個(gè)基于云計(jì)算平臺(tái)的檢索系統(tǒng),在豐富檢索資源、優(yōu)化檢索模式和改善檢索效果的基礎(chǔ)上,獲得更優(yōu)的檢索結(jié)果。從系統(tǒng)實(shí)現(xiàn)來看,云檢索是一種服務(wù)的交付,它將檢索對(duì)象分散在大量的對(duì)用戶透明的節(jié)點(diǎn)上,利用海量的計(jì)算能力,隱藏具體的實(shí)現(xiàn)細(xì)節(jié),把檢索內(nèi)容細(xì)化為一個(gè)個(gè)相互獨(dú)立的云標(biāo)簽,并按相關(guān)度聚集在一起,將最終結(jié)果通過高速網(wǎng)絡(luò)呈現(xiàn)給用戶。一個(gè)典型的云檢索系統(tǒng)架構(gòu)包括一個(gè)處理節(jié)點(diǎn)和大量的元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)及文件系統(tǒng)的存儲(chǔ)節(jié)點(diǎn)。

      與傳統(tǒng)的檢索系統(tǒng)不同的是,云檢索系統(tǒng)是經(jīng)過云計(jì)算理念發(fā)展而來的,即實(shí)現(xiàn)每個(gè)細(xì)節(jié)的虛擬化和共享,把多個(gè)個(gè)體整合為一個(gè)具有強(qiáng)大檢索能力的檢索系統(tǒng)。比如,各個(gè)圖書館的檢索系統(tǒng)可以整合成一個(gè)巨大的信息檢索平臺(tái),實(shí)現(xiàn)區(qū)域或行業(yè)整合的圖書館信息檢索平臺(tái),為用戶提供全面、專業(yè)的檢索服務(wù)。

      3 圖書館檢索平臺(tái)的現(xiàn)狀和需求

      3.1 圖書館檢索系統(tǒng)面臨的問題

      圖書館檢索系統(tǒng)是圖書館信息化建設(shè)的重要部分。傳統(tǒng)的圖書館檢索系統(tǒng)可以支撐一定的系統(tǒng)應(yīng)用,但隨著圖書館書目總量的迅速增長和對(duì)檢索系統(tǒng)服務(wù)要求的提升,傳統(tǒng)的檢索系統(tǒng)一般只提供基本的檢索服務(wù),用戶更高的檢索服務(wù)體驗(yàn)得不到滿足,其中比較突出的問題有以下幾方面。(1)數(shù)據(jù)庫問題。圖書館書目信息的種類和數(shù)量繁多,由于不同數(shù)據(jù)庫之間往往具有不同的檢索系統(tǒng)和使用方式,用戶需要應(yīng)用不同的檢索方式,使得圖書館檢索系統(tǒng)的使用較為繁瑣。(2)檢索系統(tǒng)孤立。每個(gè)圖書館的檢索系統(tǒng)相互獨(dú)立,使得大部分檢索系統(tǒng)中的圖書信息冗余和不全面,應(yīng)盡快開發(fā)圖書館統(tǒng)一檢索系統(tǒng)。(3)缺乏智能型。用戶查找時(shí)需要輸入準(zhǔn)確的檢索詞才能檢索到,容易產(chǎn)生遺漏,多數(shù)的檢索系統(tǒng)缺少必要的智能檢索。(4)安全可靠性差、IT成本高。由于圖書館信息技術(shù)部門畢竟不是專業(yè)的IT部門,病毒和黑客防護(hù)能力一般,數(shù)據(jù)容易被竊取和毀壞;而且軟硬件維護(hù)及維護(hù)人員的成本相對(duì)較高,對(duì)于一般圖書館也是一筆不小的開支。

      3.2 云檢索系統(tǒng)給圖書館帶來的好處

      圖書館的書目信息越來越大,導(dǎo)致檢索系統(tǒng)響應(yīng)越來越慢,而且由于檢索系統(tǒng)缺乏智能型,檢索結(jié)果不能令人滿意。云檢索系統(tǒng)提供海量的存儲(chǔ)和計(jì)算能力,為巨大的書目信息存儲(chǔ)和檢索所需的計(jì)算提供了廣闊的空間,為圖書館日趨嚴(yán)峻的信息檢索問題找到了解決途徑。圖書館應(yīng)用云檢索系統(tǒng)具有如下優(yōu)勢。(1)一站式檢索。提供統(tǒng)一便捷的檢索方式,進(jìn)行快速的跨庫和跨資源檢索,以統(tǒng)一的形式呈現(xiàn)相關(guān)度排序的結(jié)果;還整合其他服務(wù),包括館際互借、文獻(xiàn)傳遞等。(2)個(gè)性化服務(wù)。為讀者建立個(gè)人賬戶,允許讀者創(chuàng)建自定義的檢索清單,為讀者提供一定的空間,供其保存檢索歷史等其他標(biāo)簽信息。(3)網(wǎng)絡(luò)數(shù)據(jù)庫。引進(jìn)網(wǎng)絡(luò)數(shù)據(jù)庫豐富圖書館文獻(xiàn)信息的內(nèi)容和形式,緊密連接各數(shù)據(jù)庫與檢索系統(tǒng),構(gòu)成一個(gè)有機(jī)的整體,便捷地進(jìn)行信息檢索。(4)智能檢索。使檢索系統(tǒng)具有強(qiáng)大的“智能性”,如通過統(tǒng)計(jì)借閱和查詢記錄、檢索詞的同義轉(zhuǎn)換等。

      4 構(gòu)建圖書館的云檢索系統(tǒng)

      4.1 圖書館云檢索系統(tǒng)架構(gòu)

      構(gòu)建圖書館的云檢索系統(tǒng),首先要建立一個(gè)適合圖書館信息檢索的分布式檢索架構(gòu),根據(jù)圖書館信息檢索的需求,我們借助技術(shù)較為成熟的開源云計(jì)算平臺(tái) Hadoop,[4]構(gòu)建一個(gè)基于 HDFS、MapReduce、Hive相結(jié)合的圖書館云檢索架構(gòu)。Hadoop是開源組織A-pache的一個(gè)具有高可靠性和良好擴(kuò)展性的分布式系統(tǒng);分布式文件系統(tǒng)HDFS能夠高容錯(cuò)、可靠地存儲(chǔ)海量數(shù)據(jù);MapReduce[5]是一個(gè)分布式計(jì)算模型,根據(jù)檢索要求對(duì)書目信息進(jìn)行分布式并行計(jì)算;Hive是一個(gè)分布式的倉庫,用于保存海量的書目信息。圖書館云檢索系統(tǒng)一般分為四層,分別為訪問層、應(yīng)用接口層、基礎(chǔ)管理層和存儲(chǔ)層(如圖1所示)。

      圖1 圖書館云檢索系統(tǒng)模型結(jié)構(gòu)

      (1)訪問層。圖書館用戶通過公用應(yīng)用接口登錄圖書館云檢索系統(tǒng),讀者享受各種信息檢索服務(wù),而各個(gè)圖書館向檢索系統(tǒng)中加載書目信息。(2)應(yīng)用接口層。應(yīng)用接口層是云檢索系統(tǒng)最靈活的組件,圖書館的云服務(wù)提供商根據(jù)實(shí)際業(yè)務(wù)類型提供不同的應(yīng)用服務(wù),比如圖書館信息檢索平臺(tái),各種web服務(wù),還提供公共的API供開發(fā)者來擴(kuò)展云檢索平臺(tái)。(3)基礎(chǔ)管理層?;A(chǔ)管理層是云存儲(chǔ)最核心的組件,基礎(chǔ)管理層通過分布式文件系統(tǒng)HDFS、分布式計(jì)算模型MapReduce和分布式數(shù)據(jù)倉庫Hive等技術(shù),實(shí)現(xiàn)云檢索系統(tǒng)中設(shè)備之間的協(xié)同工作,對(duì)外提供統(tǒng)一的服務(wù),并提供強(qiáng)大的信息檢索能力。(4)存儲(chǔ)層。存儲(chǔ)層是系統(tǒng)最基礎(chǔ)的組件,可以是NAS和iSCSI等存儲(chǔ)設(shè)備,云檢索系統(tǒng)中的元數(shù)據(jù)存儲(chǔ)設(shè)備和文件系統(tǒng)存儲(chǔ)設(shè)備往往數(shù)量龐大且分布在不同地域。存儲(chǔ)設(shè)備由一個(gè)統(tǒng)一的設(shè)備管理系統(tǒng)管理,采用分布式文件系統(tǒng)Hadoop實(shí)現(xiàn)存儲(chǔ)設(shè)備的邏輯虛擬化管理,以及硬件設(shè)備的狀態(tài)監(jiān)控和故障維護(hù)等。

      4.2 基于Hadoop的圖書館云檢索系統(tǒng)具體設(shè)計(jì)

      通過在Hadoop平臺(tái)上搭建HDFS、MapReduce和Hive系統(tǒng)來實(shí)現(xiàn)圖書館的書目信息檢索。其中,Hive負(fù)責(zé)書目信息關(guān)鍵字的存儲(chǔ)和統(tǒng)計(jì)分析,MapReduce負(fù)責(zé)處理實(shí)際的統(tǒng)計(jì)分析計(jì)算,HDFS主要負(fù)責(zé)實(shí)際數(shù)據(jù)的存儲(chǔ),而Hadoop負(fù)責(zé)設(shè)備的虛擬化與管理?;贖adoop的圖書館云檢索系統(tǒng)如圖2所示。

      圖2 基于Hadoop的圖書館云檢索系統(tǒng)示意圖

      圖書館的云檢索系統(tǒng)中HDFS架構(gòu)如圖3所示,并對(duì)其進(jìn)行了具體的描述如下。(1)控制節(jié)點(diǎn)可以看成HDFS中的管理者,負(fù)責(zé)管理文件系統(tǒng)的命名空間、集群配置和存儲(chǔ)塊的復(fù)制等。控制節(jié)點(diǎn)將文件系統(tǒng)的元數(shù)據(jù)存儲(chǔ)在內(nèi)存中,元數(shù)據(jù)主要包括文件信息、文件對(duì)應(yīng)文件塊的信息和文件塊在數(shù)據(jù)節(jié)點(diǎn)的信息等。(2)數(shù)據(jù)節(jié)點(diǎn)是文件存儲(chǔ)的基本組成部分,它將以塊文件存儲(chǔ)到本地文件系統(tǒng),保存塊文件的元數(shù)據(jù),并周期性地將所有存在的塊信息發(fā)送給控制節(jié)點(diǎn)。(3)客戶的主要功能是獲取分布式文件系統(tǒng)HDFS中的文件。

      圖3 HDFS架構(gòu)

      圖書館的云檢索系統(tǒng)中MapReduce架構(gòu)[6]如圖4所示,作業(yè)節(jié)點(diǎn)全權(quán)負(fù)責(zé)調(diào)度作業(yè)的運(yùn)行。任務(wù)節(jié)點(diǎn)負(fù)責(zé)具體任務(wù)的執(zhí)行,作業(yè)被分成多個(gè)切片,任務(wù)節(jié)點(diǎn)負(fù)責(zé)對(duì)輸入切片數(shù)據(jù)進(jìn)行映射和規(guī)約計(jì)算??蛻艟褪窍騇apReduce提交檢索查詢的計(jì)算作業(yè)。HDFS提供存儲(chǔ)功能,用于向所有的節(jié)點(diǎn)共享作業(yè)所需的資源。

      圖4 MapReduce架構(gòu)

      圖書館的云檢索系統(tǒng)中Hive架構(gòu)[7]如圖5所示,并對(duì)其功能進(jìn)行了具體的描述如下。(1)解析器用于分析查詢,在不同的查詢塊和查詢表達(dá)式上進(jìn)行語義分析,并最終通過從元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)中查找表與分區(qū)的元數(shù)據(jù)生成執(zhí)行計(jì)劃。(2)元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù)倉庫里所有的各種表與分區(qū)的結(jié)構(gòu)化信息,包括列與列類型信息,序列化器與反序列化器,從而能夠讀寫HDFS中的數(shù)據(jù)。(3)執(zhí)行器執(zhí)行由解析器創(chuàng)建的執(zhí)行計(jì)劃。此計(jì)劃是一個(gè)關(guān)于階段的有向無環(huán)圖。執(zhí)行引擎管理不同階段的依賴關(guān)系,并在合適的系統(tǒng)組件上執(zhí)行這些階段。(4)處理節(jié)點(diǎn)是接受查詢的組件,處理和接受查詢命令。(5)客戶主要有命令行接口和基于Web的接口訪問Hive。

      圖5 Hive架構(gòu)

      4.3 實(shí)驗(yàn)分析

      本實(shí)驗(yàn)使用9臺(tái)計(jì)算機(jī)搭建云環(huán)境,實(shí)驗(yàn)平臺(tái)中電腦 CPU為 Intel Core 2.66GHz,內(nèi)存為 2G,硬盤120G,通過100Mbps交換機(jī)局域網(wǎng)連接。實(shí)驗(yàn)采用操作系統(tǒng)為CentOS5.4(Red Hat Enterprise Linux 4.1.2)系統(tǒng),相關(guān)軟件為Jdk-1.6.0,Hadoop-0.19.2和Hive-0.4.1版本。SQL server 2005安裝在Window xp professional,硬件實(shí)驗(yàn)平臺(tái)中電腦CPU為Intel Core 2.66GHz,內(nèi)存為2G,硬盤240G,虛擬內(nèi)存設(shè)置為2G。數(shù)據(jù)集1~8分別對(duì)應(yīng)1百萬條-8百萬條記錄。將這些數(shù)據(jù)集分別在SQL server和不同機(jī)器數(shù)的Hive平臺(tái)上執(zhí)行檢索操作。

      實(shí)驗(yàn)結(jié)果表明在8臺(tái)機(jī)器組成的Hive平臺(tái)和SQL server平臺(tái)上對(duì)數(shù)據(jù)集8執(zhí)行檢索任務(wù)時(shí),Hive的執(zhí)行時(shí)間略微少于SQL server,而且Hive增長趨勢明顯小于SQL server。選擇更大數(shù)據(jù)量或搭建計(jì)算機(jī)數(shù)更多的平臺(tái)時(shí),Hive平臺(tái)的性能將具有更大的優(yōu)勢(見圖6)。

      通過開源云平臺(tái)Hadoop搭建圖書館的云檢索系統(tǒng),借助Hadoop的高容錯(cuò)、高可靠、高可擴(kuò)展等特性,圖書館用戶可以放心地將海量的書目信息存儲(chǔ)到云平臺(tái)上,并提供可靠的信息檢索服務(wù)。Hive用來分析統(tǒng)計(jì)海量的書目信息,供用戶快速的檢索。我們采用HDFS、MapReduce和Hive相結(jié)合的方式提供強(qiáng)大的圖書信息檢索服務(wù),實(shí)現(xiàn)圖書檢索一站式服務(wù)、用戶個(gè)性化服務(wù)和智能檢索等。

      圖6

      [1] What's In Store for the Library Automation Industry in 2012?[EB/OL].[2012-12-07].http://www.alatechsource.org/blog/2012/01/whats-in-store-for-the-library-automation-industry-in-2012.html.

      [2]陸穎雋,等.美國圖書館的云服務(wù)[J].圖書與情報(bào),2012(3):16-21.

      [3]王文清,陳凌.CALIS數(shù)字圖書館云服務(wù)平臺(tái)模型[J].大學(xué)圖書館學(xué)報(bào),2009(4):13-18.

      [4] White T.Hadoop:TheDefinitiveGuide:TheDefinitiveGuide[M].O'ReillyMedia,2009.

      [5] Jeffrey Dean,Sanjay Ghemawat.Map Reduce Simplified Data Processing on Large Clusters[C].Communications of the ACM, New York, USA, 2008:107-113.

      [6] FangWei,PanWubin.Map ReduceProgrammingModel, Methods and Applications[J].IETE Technical Review,2012,29(5):380-387.

      [7] Thusoo A,etal.Hive:AWarehousingSolution Over a Map-Reduce Framework [J].Proceedings of the VLDBEndowment,2009,2 (2) :1626-1629.

      猜你喜歡
      檢索系統(tǒng)信息檢索書目
      推薦書目《初春之城》
      都市人(2022年3期)2022-04-27 00:44:57
      收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫
      收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫
      本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
      本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
      醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
      教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
      河南科技(2014年11期)2014-02-27 14:10:19
      公共圖書館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書館為例
      圖書館界(2013年5期)2013-03-11 18:50:29
      本刊郵購書目
      梨树县| 潞城市| 阜新| 拉孜县| 垦利县| 米易县| 福州市| 靖西县| 鲁山县| 闻喜县| 扎囊县| 右玉县| 手机| 当涂县| 通河县| 黄石市| 邢台县| 故城县| 达尔| 新乡县| 金平| 汶上县| 宜阳县| 铜鼓县| 贺兰县| 霍城县| 南澳县| 博湖县| 巴马| 武山县| 三原县| 农安县| 从江县| 银川市| 昌黎县| 嵊州市| 榆社县| 扎鲁特旗| 东平县| 大宁县| 福贡县|