• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于云計算分析大數(shù)據(jù)信息檢索技術(shù)

      2016-01-27 11:12:19黃曉清
      科學中國人 2016年33期
      關(guān)鍵詞:信息檢索分詞搜索引擎

      黃曉清

      廈門華天涉外職業(yè)技術(shù)學院

      基于云計算分析大數(shù)據(jù)信息檢索技術(shù)

      黃曉清

      廈門華天涉外職業(yè)技術(shù)學院

      信息技術(shù)的發(fā)展使得信息化時代逐漸到來,信息數(shù)量呈現(xiàn)出了一種爆炸性增長的趨勢,而云計算以及云存儲的出現(xiàn),也在一定程度上加快了大數(shù)據(jù)的產(chǎn)生,對于信息檢索的效率也提出了較高的要求。本文結(jié)合云計算以及大數(shù)據(jù)的有關(guān)概念,對大數(shù)據(jù)信息檢索技術(shù)進行了分析和討論。

      云計算;大數(shù)據(jù);信息檢索技術(shù)

      前言

      計算機技術(shù)和網(wǎng)絡技術(shù)的普及,帶動了云服務的增長,也使得越來越多的單位和個人開始將業(yè)務轉(zhuǎn)移到了在線應用方面,大量的在線業(yè)務產(chǎn)生了海量的數(shù)據(jù)信息,也就是所謂的大數(shù)據(jù)。在云計算背景下,如何對大數(shù)據(jù)進行有效處理,從中快速檢索出需要的信息,是需要相關(guān)技術(shù)人員深入研究的課題。

      1 云計算與大數(shù)據(jù)

      云計算是一種基于互聯(lián)網(wǎng)的全新計算方式,可以通過將共享的信息資源和軟硬件資源提供給相應的計算機和設(shè)備,使得有限的網(wǎng)絡資源發(fā)揮出最大效益。

      大數(shù)據(jù)也稱巨量數(shù)據(jù),指數(shù)據(jù)量極其巨大,無法通過現(xiàn)有的主流數(shù)據(jù)處理軟件,在合理時間內(nèi)進行采集、管理、處理的資訊,是繼移動計算、物聯(lián)網(wǎng)、云計算等信息技術(shù)之后的又一個新興事物。當數(shù)據(jù)容量在10TB-1PB之間時,就可以稱之為“大數(shù)據(jù)”。

      無論是云計算還是大數(shù)據(jù),都是現(xiàn)代信息技術(shù)發(fā)展到一定階段的產(chǎn)物,尤其是大數(shù)據(jù)的出現(xiàn),使得數(shù)據(jù)需要通過TB、PB、ZB等進行描述,在豐富了數(shù)據(jù)信息的同時,對信息的檢索技術(shù)也提出了更高的要求,在云計算環(huán)境下,想要對大數(shù)據(jù)進行有效處理,從海量信息中提取出日常所需,就必須加強對信息檢索技術(shù)的深入研究[1]。

      2 基于云計算的大數(shù)據(jù)信息檢索技術(shù)

      2.1 WEB信息收集與檢索

      基本上,信息的總量與其價值密度成反比關(guān)系,在數(shù)以億記的信息頁面中,能夠滿足日常所需的信息也許只有數(shù)頁甚至。云計算本身通過對軟硬件資源的共享,具有極強的計算能力,能夠?qū)π畔⑦M行快速處理,不過,面對大數(shù)據(jù),又如何利用云計算對其中有價值的信息進行挖掘,是需要解決的關(guān)鍵性問題。就目前而言,云計算中的大數(shù)據(jù)信息檢索過程可以分為兩個階段,一是檢索,二是網(wǎng)頁收錄。

      在信息檢索云中,所有的服務器都能夠?qū)?shù)據(jù)信息進行相應的排序和分析,從中計算出相關(guān)度較高的服務器,并將其排在最前面。與此同時,可以針對存儲服務器上存在的信息進行檢索,檢索方式包括了深度優(yōu)先和廣度優(yōu)先兩種,檢索到的最終結(jié)果可以存儲在Index Repository中,網(wǎng)頁則會直接收錄在索引中。結(jié)合索引詞庫以及網(wǎng)頁本身的內(nèi)容,在索引中進行倒排序,對于存儲在同一個索引中國的網(wǎng)頁標題以及連接數(shù)據(jù),可以采用廣度優(yōu)先的方式進行檢索,而對于存儲在另一個優(yōu)先級較高的索引中的網(wǎng)頁內(nèi)容,則可以用深度優(yōu)先的方式檢索。存在于檢索云服務器中的數(shù)據(jù)都是經(jīng)過了分析和整理后的元數(shù)據(jù),會按照相關(guān)度的高低進行排列,然后結(jié)合存儲服務器,展開分布式檢索,檢索的方式不變,檢索結(jié)果同樣存儲在Index Repository中。網(wǎng)頁收錄過程存儲于搜索引擎的索引中。當用戶發(fā)出搜索請求時,實際上是在Index Repository中進行信息的檢索,頁面內(nèi)容依照Page Rank的方式編制出倒序檢索列表,放置于存儲器中。頁面標題與連接數(shù)據(jù)處于同一索引,以廣度優(yōu)先進行搜索,頁面內(nèi)容處于另一個索引中,以深度優(yōu)先進行搜索[2]。

      無論是在網(wǎng)頁的收錄過程中,還是用戶發(fā)起信息檢索請求的過程中,都會涉及相關(guān)度的計算。就目前而言,許多用戶在進行信息檢索時,都會遇到結(jié)果顯示緩慢的情況,之所以如此,主要是由搜索引擎中的緩存區(qū)域都是事先安排好的,盡管其并不知道用戶可能會搜索哪一個關(guān)鍵詞,但是其建立了一個常用關(guān)鍵詞的詞庫,在為用戶提供便利的同時,也能夠在一定程度上提高信息檢索的效率。

      2.2 檢索過程

      (1)搜索請求分析:當用戶打開搜索引擎,輸入關(guān)鍵詞,同時點擊搜索提交請求后,網(wǎng)頁上就會顯示出相應的結(jié)果。之后,搜索引擎會結(jié)合這次搜索請求,進行細致全面的分析以及分詞處理。如果是依照搜索請求進行空格分詞,則一般需要排除掉重復的信息,才能保證搜索結(jié)果的準確性;而如果采用的是中文分詞,處理環(huán)節(jié)會比較麻煩,其主要包括兩種不同的分詞方式,一是匹配字符串,采用的方法有逆向最大匹配法、正向最大匹配法以及最少切分法,搜索引擎會通過模擬人類思維的方式,針對句子進行檢測以及分詞,整合詞語和表達形式,以方便進行理解。在分詞時,通常會首先分析并處理語句的大致意思和語法,避免歧義,由語法子系統(tǒng)、語義子系統(tǒng)以及分詞子系統(tǒng)共同構(gòu)成控制系統(tǒng),控制搜索引擎工作;二是如果存在相鄰的詞,中文分詞會將其看作是一個詞,在這種情況下,用戶在輸入關(guān)鍵詞時加入的停止詞如“的”、“吧”等,往往會被搜索引擎自動去除。

      (2)搜索請求匹配:在對用戶的搜索請求進行分析后,搜索引擎會自動匹配相應的URL,其本身的數(shù)量極其巨大,必須結(jié)合搜索引擎,依照YRL的匹配程度,進行排序,才能確保結(jié)果的有效顯示。系統(tǒng)會自動將分詞后的信息以及網(wǎng)頁本身的Page Rank值同鏈接中的網(wǎng)頁描述信息結(jié)合在一起,最終確定檢索排序結(jié)果,并顯示在網(wǎng)頁中,從而盡可能確保網(wǎng)頁顯示的內(nèi)容能夠滿足用戶的實際需求[3]。

      3 結(jié)語

      在云計算背景下,大數(shù)據(jù)得到了快速發(fā)展,海量數(shù)據(jù)的涌現(xiàn)對于信息檢索技術(shù)也提出了更加嚴峻的挑戰(zhàn)。面對著各種智能設(shè)備的普及以及不斷增長的用戶需求,相關(guān)技術(shù)人員應該加強對于大數(shù)據(jù)信息檢索技術(shù)的研究和實踐,不斷對技術(shù)進行更新,以滿足用戶對于數(shù)據(jù)檢索的個性化需求。

      [1]吳雪琴,舒曉苓.基于云計算的大數(shù)據(jù)信息檢索技術(shù)研究[J].電腦知識與技術(shù),2014,10(10):2388-2390.

      [2]劉月.探究云計算下大數(shù)據(jù)的信息檢索技術(shù)應用[J].數(shù)字技術(shù)與應用,2015,(7):95.

      [3]王曉艷,李慧穎.大數(shù)據(jù)環(huán)境下信息檢索的變革[J].科技情報開發(fā)與經(jīng)濟,2015,(4):117-119.

      猜你喜歡
      信息檢索分詞搜索引擎
      結(jié)巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      值得重視的分詞的特殊用法
      醫(yī)學期刊編輯中文獻信息檢索的應用
      新聞傳播(2016年18期)2016-07-19 10:12:06
      基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究
      網(wǎng)絡搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      教學型大學《信息檢索》公選課的設(shè)計與實施
      河南科技(2014年11期)2014-02-27 14:10:19
      高考分詞作狀語考點歸納與疑難解析
      公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
      圖書館界(2013年5期)2013-03-11 18:50:29
      东安县| 彩票| 霍城县| 临澧县| 昌宁县| 宜章县| 贵溪市| 瓮安县| 浙江省| 仁寿县| 饶河县| 田林县| 图片| 龙胜| 舟山市| 昭苏县| 白河县| 吴桥县| 丁青县| 茶陵县| 南川市| 阿鲁科尔沁旗| 大宁县| 长顺县| 栖霞市| 嘉定区| 布尔津县| 桑植县| 秦安县| 炎陵县| 利辛县| 晋中市| 浙江省| 泰安市| 桐乡市| 凤翔县| 南丰县| 个旧市| 武功县| 揭东县| 五莲县|