• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      搜索引擎技術(shù)研究與發(fā)展

      2011-06-14 02:29:04
      科技傳播 2011年10期
      關(guān)鍵詞:爬蟲搜索引擎網(wǎng)頁

      燕 苗

      石家莊計(jì)算機(jī)職業(yè)學(xué)院,河北 石家莊 050061

      隨著科技與時(shí)代的發(fā)展,Internet目前的用戶已經(jīng)遍及全球,有超過幾億人在使用Internet,并且它的用戶數(shù)還在以等比級數(shù)上升。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)最新發(fā)布的《第22次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》。截至2008年6月底,我國網(wǎng)民數(shù)量達(dá)到2.53億,網(wǎng)民規(guī)模量位居世界第一位,比去年同期增長了9100萬人,同比增長了56.2%。中國網(wǎng)民中接入寬帶比例為84.7%,寬帶網(wǎng)民數(shù)已達(dá)到2.14億人。

      人們要在海量的網(wǎng)頁中找到自己感興趣的內(nèi)容變得非常困難,據(jù)統(tǒng)計(jì)即使經(jīng)常上網(wǎng)的用戶能夠記住的網(wǎng)站名稱一般不超過十個(gè)。因此,人們越來越依賴于搜索引擎來查找各種信息。如何能夠更有效、更準(zhǔn)確地找到自己感興趣的內(nèi)容,關(guān)系到用戶能否充分利用這個(gè)巨大的信息資源,這已經(jīng)成為網(wǎng)絡(luò)信息獲取的熱點(diǎn)問題。搜索引擎的出現(xiàn)在很大問題上解決了廣大用戶的這一問題。

      1 搜索引擎技術(shù)的分類搜索

      引擎的核心是文檔索引與檢索模型的建立,按照文本信息檢索模型搜索引擎可分為:全文搜索引擎和目錄搜索引擎。

      1.1 全文搜索引擎

      是真正的搜索引擎,全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。全文搜索引擎是計(jì)算機(jī)索引程序通過從互聯(lián)網(wǎng)上提取每個(gè)網(wǎng)站的信息,掃描文章中的每一個(gè)詞,對每一個(gè)詞建立一個(gè)索引建立索引數(shù)據(jù)庫,當(dāng)用戶查詢時(shí)通過檢索查詢與之匹配的相關(guān)記錄,并將查找的結(jié)果反饋給用戶的檢索方式,因此他們是真正的搜索引擎。最常用的全文搜索引擎有百度、谷歌(Google)等。

      1.2 目錄搜索引擎

      顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找,目錄搜索引擎雖然有搜索功能,但在嚴(yán)格意義上算不上是真正的搜索引擎,僅僅是按一定的分類規(guī)則或分類體系,對網(wǎng)站進(jìn)行分類而已。對比全文搜索引擎來說,它們結(jié)構(gòu)清晰、錯(cuò)誤較少,比較符合人們的閱讀習(xí)慣的優(yōu)點(diǎn),缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí),不能適應(yīng)Web資源的規(guī)模發(fā)展,另外如果查找的信息沒有對應(yīng)的分類項(xiàng),則無法進(jìn)行搜索。目錄搜索引擎的代表是國內(nèi)搜狐、新浪、網(wǎng)易等;還有非常著名的Yahoo。

      此外,搜索引擎按主要技術(shù)來分類,又分以下幾類:

      1)目錄式搜索引擎

      目錄式搜索引擎(Yahoo等)以人工方式搜集信息,由編輯員查看信息之后,以某種分類形式形成信息摘要,并將信息置于事先確定的分類框架中,按時(shí)間先后或這些方法的組合,組織WWW信息資源。

      2)基于網(wǎng)絡(luò)爬蟲的搜索引擎

      基于網(wǎng)絡(luò)爬蟲的搜索引擎(Google,Altavista,WebCrawler,Lycos等)又稱索引式搜索引擎,是一種最常見的搜索引擎。網(wǎng)絡(luò)爬蟲是一種功能很強(qiáng)的自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。

      爬蟲首先會(huì)從若干初始的已知的URLs開始,獲得網(wǎng)頁的url,依次在Web上抓取這些網(wǎng)頁并不斷從當(dāng)前頁面抽取新的url,獲取這些網(wǎng)頁中的其他鏈接并將鏈接加入待爬URLs隊(duì)列中,直到滿足系統(tǒng)的一定停止條件,然后,索引器將相應(yīng)信息存入本地索引數(shù)據(jù)庫中。

      3)元搜索引擎元搜索引擎

      這類搜索引擎沒有自己的數(shù)據(jù),將現(xiàn)有的多個(gè)搜索引擎作為一個(gè)整體,為用戶提供一個(gè)統(tǒng)一的查詢界面,并將用戶的查詢請求同時(shí)向多個(gè)搜索引擎遞交,最后元搜索引擎再把從各個(gè)搜索引擎返回的結(jié)果收集起來,重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶將返回的結(jié)果進(jìn)行,這類搜索引擎兼集多個(gè)搜索引擎的信息,并且加入新的排序和信息過濾,可以很好的提高用戶滿意度,它的優(yōu)秀代表是萬緯搜索引擎[6]、vivisino[7]等

      4)分布式搜索引擎

      分布式搜索引擎按區(qū)域、主題、IP地址或其它標(biāo)準(zhǔn)創(chuàng)建分布式索引服務(wù)器,索引服務(wù)器之間相互可以交換中間信息,且查詢可以被重新定向。信息搜索機(jī)器人負(fù)責(zé)本區(qū)域內(nèi)的信息搜索,并建立索引信息存入索引數(shù)據(jù)庫。

      2 搜索引擎的發(fā)展方向

      網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以驚人的速度增長,一個(gè)搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結(jié)果垃圾太多。這樣以來,垂直搜索引擎(Vertical Seareh Engine)以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地。垂直搜索引擎,是針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。是搜索引擎的細(xì)分和延伸,也是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,其特點(diǎn)就是“專、精、深”,且具有行業(yè)色彩。它是與通用搜索引擎截然不同的引擎類型。垂直搜索引擎專注具體、深入的縱向服務(wù),致力于某一特定領(lǐng)域內(nèi)信息的全面和內(nèi)容的深入,可以簡單的說成是搜索引擎領(lǐng)域的行業(yè)化分工。

      目前,國內(nèi)外的搜索引擎的發(fā)展趨勢是通用型搜索引擎向特色垂直搜索引擎轉(zhuǎn)變。下面介紹一些較具有代表性的系統(tǒng)。

      2.1 職脈網(wǎng)

      職脈網(wǎng)是2006年初成立的網(wǎng)絡(luò)招聘網(wǎng)站,是一家由知名風(fēng)險(xiǎn)投資機(jī)構(gòu)投資的人力資源招聘服務(wù)公司,它融合了web2.0的概念,通過人才相互之間的推薦達(dá)到更有效的找到合適的人才。

      2.2 www.foloda.com

      房老大是一個(gè)專業(yè)的,提供純粹的房源信息的搜索平臺(tái)。該搜索引擎涉及二手房、租房、新房、別墅、寫字樓、商鋪以及廠房等七種不同的房源,涵蓋100多個(gè)城市。

      3 結(jié)論

      搜索技術(shù)是一個(gè)比較復(fù)雜,難度比較大的科目,其中涉及到網(wǎng)頁的搜索算法,倒排索引技術(shù),中文分詞技術(shù),以及網(wǎng)頁的排序算法等諸多問題。本文簡單介紹了搜索引擎的分類,及通用搜索引擎的體系結(jié)構(gòu),在最后簡單介紹了垂直搜索引擎的主要特點(diǎn)隨著網(wǎng)絡(luò)的發(fā)展,用戶需求的不斷增加,搜索引擎也將步入一個(gè)高速增長的時(shí)期。

      [1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第22次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告,2008,7:4-9.

      [2]梁斌.走進(jìn)搜索引擎.北京:電子工業(yè)出版社,2007.

      猜你喜歡
      爬蟲搜索引擎網(wǎng)頁
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
      贵港市| 蒙自县| 红桥区| 吉木乃县| 福安市| 高密市| 清河县| 中江县| 辽宁省| 绥棱县| 达孜县| 海林市| 若尔盖县| 屯门区| 东山县| 子洲县| 瓦房店市| 浦县| 白河县| 乌兰浩特市| 兴安县| 塔城市| 库伦旗| 叙永县| 双城市| 南华县| 辽宁省| 桑日县| 西畴县| 舒兰市| 仁化县| 将乐县| 土默特右旗| 朝阳区| 池州市| 巴南区| 阿鲁科尔沁旗| 阳山县| 田阳县| 碌曲县| 宜州市|