• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      試論大數(shù)據(jù)環(huán)境下信息檢索技術(shù)在數(shù)字圖書館中的應(yīng)用

      2017-06-15 09:56:08劉燕
      新西部·中旬刊 2017年5期
      關(guān)鍵詞:大數(shù)據(jù)環(huán)境數(shù)字圖書館

      劉燕

      【摘 要】 大數(shù)據(jù)環(huán)境下,信息檢索技術(shù)在圖書館信息檢索方面的重要性越來越大?;趦?nèi)容的信息檢索技術(shù)相比于傳統(tǒng)的信息檢索、全文檢索而言,具有效率高、精準(zhǔn)度高的優(yōu)點,但是在面對未來信息檢索更加精確化的要求時也顯得力不從心。大數(shù)據(jù)技術(shù)實現(xiàn)了用戶獨特化、定期更新性、自我學(xué)習(xí)性相結(jié)合,實現(xiàn)大數(shù)據(jù)和人工智能的完美結(jié)合,是未來信息檢索技術(shù)發(fā)展的方向。

      【關(guān)鍵詞】 大數(shù)據(jù)環(huán)境;信息檢索技術(shù);數(shù)字圖書館

      數(shù)字圖書館的信息檢索技術(shù),是圖書館發(fā)揮信息服務(wù)功能的核心部分,數(shù)字圖書館的易用性很大程度上取決于信息檢索系統(tǒng)設(shè)計是否科學(xué)、合理。據(jù)專家考證,18世紀(jì)以前,知識更新速度為80至90年翻一番,20世紀(jì)90年代以來,知識更新加速到3至5年翻一番。近50年來人類社會所創(chuàng)造的知識比過去3000年的總和還要多,知識總量呈幾何級數(shù)增長。這些信息都是以數(shù)據(jù)的形式分布于飛速發(fā)展的因特網(wǎng),而因特網(wǎng)中的數(shù)字圖書館則是信息儲存的主要基地,這就使得如何在龐雜浩繁的信息資源中找到用戶想要的信息,最大限度地在科學(xué)性、合理性的前提下進行信息檢索服務(wù),成為必須面對且急待解決的問題,即基于大數(shù)據(jù)環(huán)境下,數(shù)字圖書館信息檢索技術(shù)的研究問題。目前關(guān)于數(shù)字圖書館的研究和信息檢索研究都已經(jīng)比較完備,但是針對如何在大數(shù)據(jù)環(huán)境下,滿足數(shù)字圖書館用戶的多樣需求的信息檢索技術(shù)的研究并不多,這也是現(xiàn)代數(shù)字圖書館發(fā)展急需解決的問題之一。

      一、信息檢索技術(shù)的優(yōu)缺點對比

      目前,從對數(shù)字圖書館的信息檢索技術(shù)研究成果來看,主要有三個時間段:傳統(tǒng)的信息檢索、全文檢索、基于內(nèi)容的信息檢索。這三種技術(shù)各有優(yōu)劣。

      1、傳統(tǒng)的信息檢索技術(shù)優(yōu)缺點分析

      信息檢索技術(shù)開始時基于對關(guān)鍵詞、概念知識的檢索,或者是僅僅針對一個個單字進行的檢索,主要按照關(guān)鍵字的方法進行匹配檢索。如果是針對單字、單詞進行檢索的話,能夠比較準(zhǔn)確地完成檢索需求;如果是需要根據(jù)內(nèi)容相關(guān)性進行檢索的話,檢索的結(jié)果誤差大、耗時長,基本上不能滿足用戶需求,而且檢索的適應(yīng)度非常差。如果是針對一個只有幾百本書的圖書館來說,這種檢索技術(shù)還勉強可用,但是絕對不能適應(yīng)現(xiàn)在動輒幾百萬本以上存儲量圖書館的檢索需求。

      2、全文檢索技術(shù)優(yōu)缺點分析

      一般來說,按照自由詞進行檢索的一種檢索方式就是所謂的全文檢索。全文檢索技術(shù)檢索的側(cè)重點和傳統(tǒng)檢索技術(shù)的側(cè)重點不同,它檢索的主要內(nèi)容不是對象的外在表征,而是對象表達的內(nèi)在信息。所以說,全文檢索技術(shù)克服了傳統(tǒng)檢索技術(shù)精度差、適應(yīng)度差的問題,使得用戶每次檢索的結(jié)果的匹配度都比較高,基本上能滿足用戶的需求。但是由于全文檢索技術(shù)內(nèi)在查詢機制的缺陷,導(dǎo)致在查詢過程中會出現(xiàn)效率低下,查詢的數(shù)據(jù)量太大,造成資源利用不合理,因而也越來越不能被用戶所認(rèn)可。

      3、基于內(nèi)容的信息檢索技術(shù)(簡稱 CBR)優(yōu)缺點分析

      CBR技術(shù)就是指綜合運用計算機模擬視覺技術(shù)、圖像分析處理技術(shù)、圖像智能理解技術(shù)、模式分析識別等學(xué)科中的一些方法作為部分基礎(chǔ)技術(shù),從數(shù)據(jù)中提取特定的信息線索,然后根據(jù)這些線索從大量存儲在數(shù)據(jù)庫中的信息中進行查找,檢索出具有相識特征的內(nèi)容。從本質(zhì)來講,CBR技術(shù)只關(guān)心對用戶檢索信息的快速撲捉,并不會在分析用戶檢索信息的本身上下功夫。

      也就是說,作為不以字和具體內(nèi)容為關(guān)注點的檢索技術(shù),CBR技術(shù)的檢索特點就是基于特征的信息檢索技術(shù)。它能夠在用戶需求指引下,針對需要檢索的數(shù)據(jù)目標(biāo)進行分析處理,形成檢索目標(biāo)特征,然后根據(jù)這些特征在數(shù)據(jù)庫中進行近似匹配。因而相對于前兩種方法來說,檢索的效率和精準(zhǔn)度更高,更能滿足用戶的需求。但是,隨著人類知識基數(shù)的不斷增大,專業(yè)分工的細化,這種信息檢索技術(shù)在面對未來信息檢索更加精確化的要求時,顯得越來越力不從心。

      二、大數(shù)據(jù)技術(shù)在數(shù)字圖書館信息檢索技術(shù)中的應(yīng)用

      對于“大數(shù)據(jù)”(Big data),研究機構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。[1]

      麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。[2]

      從本質(zhì)上來講,大數(shù)據(jù)技術(shù)的目標(biāo)不是建立占有人類的知識海,而是面向知識海洋的龐大數(shù)據(jù)信息進行有目的的處理、利用和管理。顯然,大數(shù)據(jù)技術(shù)必然是和網(wǎng)絡(luò)技術(shù)、云計算以及人工智能技術(shù)密切相連的集成技術(shù)。也就是說,它是一種依靠網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)和云計算,利用網(wǎng)絡(luò)上眾多硬件進行信息的高效利用、處理和管理。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。[3]

      隨著互聯(lián)網(wǎng)時代的到來,云計算、云存儲的不斷深入發(fā)展,人類的知識越來越被網(wǎng)絡(luò)連接在一起。那么,如何高效地發(fā)現(xiàn)和檢索出用戶需求的信息,快捷、精確地在知識海中捕獲被埋藏的數(shù)據(jù),成為一個被關(guān)注的焦點。在這種需求之下,多種關(guān)于檢索技術(shù)的研究都在如火如荼地進行之中。隨著這些研究的深入進行,研究者們認(rèn)識到,如果最終能夠?qū)崿F(xiàn)大數(shù)據(jù)和人工智能技術(shù)的完美融合,這將使未來信息檢索技術(shù)更加智能化,也將使人類對于知識海洋的利用更加充分有效,對知識的管理更加智能化。建立于人工智能基礎(chǔ)上的大數(shù)據(jù)技術(shù)的研究,必然帶來其它各個學(xué)科的變革,從而有力地推動信息檢索技術(shù)的飛速發(fā)展。因而,大數(shù)據(jù)技術(shù)的應(yīng)用是對數(shù)字圖書館信息檢索技術(shù)的革命性推動,它充分利用人工智能技術(shù),使數(shù)字圖書館的信息檢索服務(wù)更加人性化,檢索方式更加智能化,結(jié)果更加精確化,查詢顆粒更加模糊化。

      三、大數(shù)據(jù)技術(shù)對數(shù)字圖書館信息檢索的影響

      為了滿足數(shù)字圖書館的用戶信息檢索的多樣需求,大數(shù)據(jù)技術(shù)必須也必然會促進信息檢索技術(shù)的變革,而且這種變革會帶來諸多更適應(yīng)未來信息利用和管理的影響。

      1、獨特用戶化

      獨特用戶化指的是針對用戶的信息檢索歷史,為用戶建立獨特的檢索特征,從而匹配出檢索的數(shù)據(jù)庫。這種信息檢索的方法主要是立足于對用戶歷史檢索數(shù)據(jù)庫的收集和分析基礎(chǔ)上,采用智能化的分析手段,實時為用戶量身打造適合其某一階段需要的檢索信息庫,并能夠隨時更新,給用戶提供檢索建議,從而精準(zhǔn)計算用戶的檢索需求。同時,這種檢索技術(shù)還需要具備較高的智能化,它能在和用戶的交互過程中,不斷地分析用戶需求的信息目標(biāo),并將所有可能的目標(biāo)按照用戶可能關(guān)注度的高低實時反饋給用戶,供用戶取舍,在用戶的取舍中不斷修正和定位,及時高效地幫助用戶發(fā)現(xiàn)目標(biāo)信息,最終實現(xiàn)獨特用戶化的信息檢索。

      2、定期更新性

      大數(shù)據(jù)環(huán)境下,數(shù)字圖書館的數(shù)字化信息數(shù)量大、種類多,數(shù)據(jù)價值聯(lián)系低,處理速度快、效率高,而且數(shù)據(jù)結(jié)構(gòu)復(fù)雜,不僅有結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),而且非結(jié)構(gòu)化的數(shù)據(jù)所占的比例越來越大,使信息更新的速度越來越快。[4]因而,為了更好地滿足用戶的需求,適應(yīng)圖書館非結(jié)構(gòu)化數(shù)據(jù)的不斷增加,提高圖書館的信息檢索效率,必須相應(yīng)地對信息檢索的引擎進行定期優(yōu)化。

      一般來說,定期優(yōu)化主要指的是,信息檢索引擎的技術(shù)人員,定期根據(jù)信息檢索的檢索效率和檢索出的結(jié)果的精準(zhǔn)程度進行評價,從而進行改進提高,使用戶始終能夠在每一次的檢索中得到自己期望的結(jié)果,滿足客戶需求。同時,由于非結(jié)構(gòu)數(shù)據(jù)的比例不斷變大,使信息更新的數(shù)據(jù)飛速增加,如何對這些新增加的數(shù)據(jù)進行有效管理,是信息檢索效率高低的關(guān)鍵所在。因此,信息檢索引擎應(yīng)該根據(jù)用戶不同的需求和特點,按照對客戶需求分析的結(jié)果,對全庫數(shù)據(jù)進行分類排隊,保證信息檢索引擎的檢索結(jié)果始終能滿足用戶需求。

      3、自我學(xué)習(xí)性

      圖書館的信息檢索服務(wù)的最終目標(biāo)就是要準(zhǔn)確定位用戶的需求,實時完成不同用戶的檢索方案,快速將匹配的結(jié)果按照精準(zhǔn)程度的高低排序,讓用戶能夠根據(jù)自身需求,選擇獲取。要達到這一目的,數(shù)字圖書館的信息檢索引擎要具備自我學(xué)習(xí)的能力。這種自我學(xué)習(xí)能力主要指的是信息檢索引擎能夠根據(jù)用戶的檢索歷史,不但能對用戶的需求根據(jù)分析進行準(zhǔn)確預(yù)判,還能實時將信息檢索的有關(guān)信息進行排列和反饋,并對用戶檢索歷史進行分析判斷,反饋最適合用戶需求的檢索信息。同時,信息檢索的學(xué)習(xí)應(yīng)該是全范圍的檢索。隨著電子化產(chǎn)品的不斷發(fā)展,對知識的儲備不再像以前那樣局限于文字或聲音,越來越多的圖片、視頻性信息數(shù)據(jù)已經(jīng)進入數(shù)字圖書館,也漸漸成為知識儲備的主題。作為信息檢索技術(shù),就要能滿足對這些信息的檢索,根據(jù)用戶的需求,實時高效地完成信息檢索任務(wù)。當(dāng)然,信息檢索還要能在數(shù)據(jù)更新過程不斷進行改進和提高。數(shù)字圖書館中的信息數(shù)據(jù)在不斷飛速更新,作為信息檢索技術(shù)來說,要面對越來越龐雜的知識庫和多樣用戶需求的挑戰(zhàn),更要不斷改進和完善,使數(shù)字圖書館的用戶保持較高的滿意度,信息檢索更加精準(zhǔn)、高效。

      【參考文獻】

      [1] 6個用好大數(shù)據(jù)的秘訣.中國大數(shù)據(jù),2016.02.02.

      [2] 大數(shù)據(jù)時代要有大數(shù)據(jù)思維.中國大數(shù)據(jù),2015.11.3.

      [3] 大數(shù)據(jù)時代還有隱私嗎?中國大數(shù)據(jù),2016.02.02.

      [4] 張興旺,李晨暉.數(shù)字圖書館移動視覺搜索機制建設(shè)的若干關(guān)鍵問題[J].圖書情報工作,2015,59 (15).

      【作者簡介】

      劉 燕(1979-)女,陜西咸陽人,西安財經(jīng)學(xué)院法學(xué)院教師.

      猜你喜歡
      大數(shù)據(jù)環(huán)境數(shù)字圖書館
      大數(shù)據(jù)環(huán)境下云計算對電子商務(wù)的影響
      基于大數(shù)據(jù)環(huán)境的新聞編輯理念變革創(chuàng)新機制
      大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘技術(shù)分析及若干研究
      中文信息(2016年10期)2016-12-12 09:46:47
      高校圖書館的未來發(fā)展模式芻議
      淺析“互聯(lián)網(wǎng)+”時代的圖書館管理
      資治文摘(2016年7期)2016-11-23 01:00:24
      高校數(shù)字圖書館資源整合的初探
      商情(2016年39期)2016-11-21 09:27:10
      大數(shù)據(jù)環(huán)境下的新聞編輯理念創(chuàng)新探討
      基于云計算的數(shù)字圖書館建設(shè)與服務(wù)模式研究
      從谷歌案析數(shù)字圖書館對作品的使用行為
      芻議數(shù)字圖書館計算機網(wǎng)絡(luò)的安全技術(shù)及其防護策略
      北流市| 芦溪县| 介休市| 泉州市| 拜泉县| 灵丘县| 洪洞县| 正镶白旗| 永仁县| 德格县| 石楼县| 明溪县| 松阳县| 封丘县| 内丘县| 醴陵市| 绥芬河市| 鹤峰县| 桦川县| 吐鲁番市| 林甸县| 巧家县| 罗江县| 云浮市| 瑞金市| 从化市| 临城县| 舒城县| 宜丰县| 古田县| 汉阴县| 巴马| 探索| 临泽县| 苏尼特右旗| 临邑县| 新闻| 青海省| 察隅县| 河源市| 清远市|