• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)時代高校圖書館特色數(shù)據(jù)庫建設研究

      2014-08-08 16:11譚黔林
      圖書館界 2014年2期
      關鍵詞:大數(shù)據(jù)研究

      譚黔林

      [摘要]針對目前高校圖書館特色數(shù)據(jù)庫的建設現(xiàn)狀,結(jié)合大數(shù)據(jù)時代的特點,提出了大數(shù)據(jù)環(huán)境下高校圖書館特色數(shù)據(jù)建設的設想,從數(shù)據(jù)標簽、子節(jié)點建設、虛擬大數(shù)據(jù)庫系統(tǒng)、用戶訪問機制探討了特色大數(shù)據(jù)庫系統(tǒng)的建設模式、實現(xiàn)方式以及用戶訪問機制。利用“數(shù)據(jù)標簽”將分散在不同高校不同類別的特色數(shù)據(jù)庫虛擬地集中起來,實現(xiàn)了特色數(shù)據(jù)的集中展示、統(tǒng)一檢索和共建共享。

      [關鍵詞]大數(shù)據(jù);特色數(shù)據(jù)庫;數(shù)據(jù)標簽;研究

      1引言

      特色數(shù)據(jù)庫是指依托館藏信息資源,針對用戶的信息需求,對某一學科或某一專題有利用價值的信息進行收集、分析、評價、處理、存儲,并按照一定的標準和規(guī)范將本館的特色資源數(shù)字化,以滿足用戶個性化需求的信息資源庫[1]。就國內(nèi)高校圖書館特色數(shù)據(jù)庫的建設情況來看,高校圖書館特色數(shù)據(jù)庫群分散在全國各地,數(shù)據(jù)總量可用PB級甚至是EB級來計數(shù),并以一定的周期成TB級的態(tài)勢增長。

      2大數(shù)據(jù)與特色數(shù)據(jù)庫

      2.1 大數(shù)據(jù)

      學術(shù)界對大數(shù)據(jù)概念并沒有一個統(tǒng)一的定義,但大數(shù)據(jù)的“4V”特征已成科學界的共識,即規(guī)模性、高速性、多樣性以及價值性,正是這四個特征對數(shù)字時代的數(shù)據(jù)存儲技術(shù)、數(shù)據(jù)共享技術(shù)、數(shù)據(jù)挖掘技術(shù)等方面帶來了巨大的沖擊和挑戰(zhàn),大數(shù)據(jù)的新技術(shù)正逐漸應用于互聯(lián)網(wǎng)、超級計算、生物工程等領域。

      2.2 國內(nèi)高校圖書館建設與共享情況

      為彰顯館藏特色、傳承民族文化、滿足特色教學和科學研究需求,特色數(shù)據(jù)庫已成為各高校圖書館的建設重點,在CALIS地方特色數(shù)據(jù)建設項目的支持下,全國高校圖書館進一步掀起了特色數(shù)據(jù)庫的建設熱潮,其中東三省(黑龍江、吉林、遼寧)建有210個特色數(shù)據(jù)庫[2],兩廣地區(qū)(廣東、廣西)建有100個特色數(shù)據(jù)庫[3],兩湖地區(qū)(湖北、湖南)建有160個特色數(shù)據(jù)庫[4—5],此外海南、陜西、天津、重慶等地區(qū)高校圖書館都分別建有不同數(shù)量和類別的特色數(shù)據(jù)庫。

      從目前對國內(nèi)高校圖書館特色數(shù)據(jù)庫抽樣訪問情況來看,數(shù)據(jù)內(nèi)容的共享情況不容樂觀,以廣西高校圖書館特色數(shù)據(jù)庫的共享情況為例,21所高校圖書館所建的57個特色數(shù)據(jù)庫中,僅有12個數(shù)據(jù)庫可以訪問和下載,其余45個特色數(shù)據(jù)庫都作了不同形式的限制,基于時空和地域條件的差別,數(shù)據(jù)庫的共享程度還有待進一步提高。

      3大數(shù)據(jù)時代特色數(shù)據(jù)庫建設設想

      (1)由于數(shù)據(jù)庫的特色性,不同的地域文化、資源類別、辦學特點、學科優(yōu)勢等決定了特色數(shù)據(jù)庫的建設只能是分散建設,但是能否用同一種途徑或手段將這些不同的特色數(shù)據(jù)庫有效地集中起來。

      (2)能否讓已建成的特色數(shù)據(jù)庫通過一個統(tǒng)一的平臺,直觀地展現(xiàn)在用戶眼前,而不需要用戶通過逐一訪問各高校圖書館的特色數(shù)據(jù)庫平臺而獲取。

      (3)在眾多的特色數(shù)據(jù)庫類別中,不論采取何種技術(shù)的數(shù)據(jù)庫建設方式,使用何種類型的檢索系統(tǒng),用戶都能通過統(tǒng)一的檢索平臺,從不同高校、不同類別的數(shù)據(jù)系統(tǒng)中獲取所需要的信息。

      (4)基于大數(shù)據(jù)處理技術(shù)的優(yōu)越性,能否將各高校圖書館這些分散的處理系統(tǒng)、存儲系統(tǒng)、數(shù)據(jù)信息等看成是另一個類別的大數(shù)據(jù)系統(tǒng),從而利用大數(shù)據(jù)的核心技術(shù)來進行處理。

      4大數(shù)據(jù)時代特色數(shù)據(jù)建設的技術(shù)手段

      基于以上幾點設想,本節(jié)將從數(shù)據(jù)標簽(Data Label)、子節(jié)點建設、虛擬大數(shù)據(jù)庫系統(tǒng)、用戶訪問機制四個方面來探討大數(shù)據(jù)時代特色數(shù)據(jù)庫的建設和實現(xiàn)形式。

      4.1 數(shù)據(jù)標簽

      數(shù)據(jù)標簽是元數(shù)據(jù)的身份標志,主要起到數(shù)據(jù)的定位、查詢、獲取等作用,它在整個系統(tǒng)鏈中處于核心地位。基于特色數(shù)據(jù)庫數(shù)據(jù)內(nèi)容的唯一性和特殊性,數(shù)據(jù)標簽的字符長度不必太大,也不必太復雜,太大、太復雜的數(shù)據(jù)標簽雖然能夠提高信息的獲準率,但同時也延長了數(shù)據(jù)獲取的時間,增加了計算系統(tǒng)的運行成本。數(shù)據(jù)標簽內(nèi)容從幾B到幾K不等,在設計數(shù)據(jù)標簽的過程中,考慮到標簽內(nèi)容的普遍性、可檢性和預覽性,它主要包括:建設單位、數(shù)據(jù)庫類別、數(shù)據(jù)庫名稱、標題、作者/出處/來源、關鍵詞、內(nèi)容簡介、元數(shù)據(jù)獲取標志(詳見圖1)。

      數(shù)據(jù)標簽是特色數(shù)據(jù)庫系統(tǒng)的最小組成單元,它是用戶通過一定的條件限制,從大數(shù)據(jù)中過濾冗余數(shù)據(jù)的身份標記,它貫穿于特色數(shù)據(jù)庫從建設到利用的始終,在特色數(shù)據(jù)庫建設過程中,數(shù)據(jù)標簽可以是由內(nèi)容管理系統(tǒng)自動生成,也可以后期導出數(shù)據(jù)表進行加工處理,每一個特色數(shù)據(jù)庫的元數(shù)據(jù)按照數(shù)據(jù)標簽的格式進行著錄建立一個數(shù)據(jù)標簽表,給予它一個身份識別標志,其中數(shù)據(jù)標簽的部分內(nèi)容可以是重復的,但是構(gòu)成數(shù)據(jù)標簽的“元數(shù)據(jù)獲取標志”字段必須是唯一的,因為它是用戶從大數(shù)據(jù)中獲取原文件的唯一身份識別標志。標簽字符上限長度30B20B30B40B50B20B800B30B建設單位類別名稱標題作者/出處/來源關鍵詞內(nèi)容簡介元數(shù)據(jù)獲取標志圖1數(shù)據(jù)標簽

      4.2 特色數(shù)據(jù)庫子節(jié)點的建設

      特色大數(shù)據(jù)庫系統(tǒng)是由不同地域、不同類別的子庫構(gòu)成。目前,國內(nèi)高校圖書館在特色數(shù)據(jù)庫建設方面已有了成功的經(jīng)驗和比較成熟的技術(shù)手段,基于數(shù)據(jù)庫的特色性,考慮到設備、人力、財力、管理、資源的屬地性、效率等諸多因素,特色數(shù)據(jù)庫子節(jié)點應由各高校圖書館分散異步建設,而不適用于重新組建統(tǒng)一的機構(gòu)來承擔建設,在子節(jié)點的建設過程中,應不拘泥于何種建庫標準,采用何種建設方式,使用何種數(shù)據(jù)庫內(nèi)容管理系統(tǒng)。它可以是已建好的特色數(shù)據(jù)庫,也可以是正在建設的特色數(shù)據(jù)庫,還可以是任何結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)類型。

      在子節(jié)點建設過程中,數(shù)據(jù)標簽是數(shù)據(jù)內(nèi)容的基礎單元,對于已經(jīng)建成的特色數(shù)據(jù)庫,可以通過導出相關的字段信息和原址,進行簡單匹配重新生成數(shù)據(jù)標簽表;對于正在建設的特色數(shù)據(jù)庫,通過制定相應的數(shù)據(jù)著錄規(guī)則,從而實現(xiàn)數(shù)據(jù)標簽的自動生成。

      4.3 虛擬大數(shù)據(jù)庫系統(tǒng)

      盡管不同種類的海量數(shù)據(jù)存在一定差異,但總的來說,支持海量數(shù)據(jù)管理的系統(tǒng)應具有如下特性:可擴展性(滿足數(shù)據(jù)量增長的需要)、高性能(滿足數(shù)據(jù)讀寫的實時性和查詢處理的高性能)、容錯性(保證分布系統(tǒng)的可用性)、可伸縮性(按需分配資源)和盡量低的運營成本等[6]。

      基于大數(shù)據(jù)系統(tǒng)的特點,虛擬數(shù)據(jù)庫系統(tǒng)主要由用戶、虛擬數(shù)據(jù)中心、特色數(shù)據(jù)庫子節(jié)點所構(gòu)成(如圖2)。子節(jié)點由每個高校圖書館的服務器群集、GPU群集、存儲設備、網(wǎng)絡設備、軟件系統(tǒng)、特色數(shù)據(jù)庫資源系統(tǒng)等組成,每個子節(jié)都有獨立的運算系統(tǒng),一個節(jié)點的丟失不會影響到其他系統(tǒng)的運行。此外,從理論上來說,子節(jié)點可以無限地進行擴容,它們所承擔的任務就是數(shù)據(jù)的并行計算和與用戶的信息交匯。

      虛擬數(shù)據(jù)中心,是整個特色大數(shù)據(jù)群的前臺,主要承擔展示特色數(shù)據(jù)庫、傳遞用戶與子節(jié)點的信息交匯、任務分派等任務。虛擬數(shù)據(jù)中心并不直接處理用戶提交的需求,也不存儲數(shù)據(jù)原文件,可以建立多個數(shù)據(jù)中心,避免一個虛擬數(shù)據(jù)中心系統(tǒng)的停機影響整個數(shù)據(jù)庫系統(tǒng)的正常運行,同時可以對它們做負載均衡處理以提高運行效率。虛擬數(shù)據(jù)中心通過Internet與每一個子節(jié)點進行連接,特色數(shù)據(jù)庫的子節(jié)點將數(shù)據(jù)標簽表傳遞給每一個虛擬數(shù)據(jù)中心,數(shù)據(jù)中心根據(jù)一定的規(guī)則生成Web預覽目錄和索引表,將不同高校圖書館、不同類別的特色數(shù)據(jù)庫集中展現(xiàn)在虛擬數(shù)據(jù)中心上,從而實現(xiàn)元數(shù)據(jù)預覽和統(tǒng)一檢索的功能。

      圖2虛擬大數(shù)據(jù)系統(tǒng)4.4 信息獲取機制

      大數(shù)據(jù)環(huán)境下,用戶獲取信息機制與傳統(tǒng)意義上的信息獲取機制有所不同,用戶通過虛擬數(shù)據(jù)中心的統(tǒng)一搜索框提交新的查詢需求,虛擬數(shù)據(jù)中心通過存儲在本地的數(shù)據(jù)標簽表與用戶提交的查詢需求進行內(nèi)容的匹配,如果沒有匹配到對應的數(shù)據(jù)標簽(DL)則向用戶返回查詢結(jié)果,如果匹配到對應的數(shù)據(jù)標簽將把查詢的結(jié)果返回用戶。用戶根據(jù)需要提取其中某一條標簽,虛擬數(shù)據(jù)中心則根據(jù)數(shù)據(jù)標簽內(nèi)容的建設單位、類別、名稱、數(shù)據(jù)獲取標志等字段判定標簽所屬節(jié)點,同時將用戶查詢信息、IP地址信息、數(shù)據(jù)標簽等內(nèi)容進行封裝提交給所屬子節(jié)點,子節(jié)點在接收虛擬數(shù)據(jù)中心傳遞來的封裝信息后進行解包,根據(jù)數(shù)據(jù)標簽內(nèi)容的“元數(shù)據(jù)獲取標志”子字段,將本地存儲的原數(shù)據(jù)提取出來,再將原文件傳遞給查詢用戶,至此,整個原文件的獲取過程結(jié)束(見圖3)。

      圖3大數(shù)據(jù)下用戶訪問機制

      5大數(shù)據(jù)時代高校圖書館特色數(shù)據(jù)建設特點

      5.1 實現(xiàn)了不同數(shù)據(jù)庫的統(tǒng)一展示和檢索

      在傳統(tǒng)模式下,用戶想要獲取特色數(shù)據(jù)的內(nèi)容,首先要知道哪些高校建有此類型的特色數(shù)據(jù)庫,其次再進入特定的數(shù)據(jù)庫進行相關的查閱和下載,這樣既浪費了用戶的時間,也閑置了資源。特色大數(shù)據(jù)系統(tǒng)將所有高校圖書館所建設的特色數(shù)據(jù)庫資源通過虛擬數(shù)據(jù)中心集中展示在用戶眼前,用戶可以根據(jù)數(shù)據(jù)庫類別進行瀏覽,也可以根據(jù)所屬高校進行預覽,同時還可以通過統(tǒng)一的檢索界面一站式地進行查詢和檢索,從而提高了特色數(shù)據(jù)庫的利用效率和用戶資源獲取的效率。

      5.2 便于特色資源的共建共享

      在特色大數(shù)據(jù)庫系統(tǒng)環(huán)境下,各子節(jié)點通過虛擬數(shù)據(jù)中心可以直觀看到其他各節(jié)點特色數(shù)據(jù)庫的建設情況,這樣在很大程度上可以避免特色數(shù)據(jù)庫的重復建設和盲目建設。此外,特色數(shù)據(jù)庫的建設由各子節(jié)點來承擔,多個節(jié)點的分散建設大大地提高了特色數(shù)據(jù)庫的產(chǎn)出效率,節(jié)點之間通過虛擬數(shù)據(jù)中心進行發(fā)布,實現(xiàn)了相互之間資源訪問、下載。

      5.3 靈活性

      特色大數(shù)據(jù)庫系統(tǒng)建設的靈活

      猜你喜歡
      大數(shù)據(jù)研究
      公司研究
      誰說小孩不能做研究?
      我國FDI和OFDI對CO2排放影響的比較研究
      我國FDI和OFDI對CO2排放影響的比較研究
      Applications of Deep Mixing to Earthquake Disaster Mitigation
      A Thought:What have We Learned from Natural Disasters? Five Years after the Great East Japan Earthquake
      對周期函數(shù)最小正周期判定法的研究與應用
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      基于大數(shù)據(jù)背景下的智慧城市建設研究
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務能力的探索
      武城县| 井研县| 林西县| 和平县| 镇沅| 隆德县| 威远县| 罗山县| 济阳县| 江华| 平顶山市| 子洲县| 勃利县| 东乌珠穆沁旗| 阿荣旗| 沛县| 中超| 夏津县| 塔河县| 金溪县| 获嘉县| 九江县| 大埔区| 清涧县| 商水县| 黔江区| 长岛县| 施秉县| 剑阁县| 甘孜县| 南召县| 马山县| 利津县| 德惠市| 博兴县| 渑池县| 娱乐| 二手房| 资中县| 甘洛县| 池州市|