• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    主題網(wǎng)絡(luò)爬蟲研究綜述

    2020-05-25 02:30左薇張熹董紅娟于夢(mèng)君
    軟件導(dǎo)刊 2020年2期
    關(guān)鍵詞:搜索引擎

    左薇 張熹 董紅娟 于夢(mèng)君

    摘 要:隨著人們對(duì)信息資源的個(gè)性化需求不斷加大,主題網(wǎng)絡(luò)爬蟲應(yīng)時(shí)而生。闡述主題網(wǎng)絡(luò)爬蟲定義及工作原理;介紹了主題網(wǎng)絡(luò)爬蟲研究進(jìn)展,對(duì)主題網(wǎng)絡(luò)爬蟲爬行策略、網(wǎng)頁(yè)抓取優(yōu)先級(jí)以及系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)進(jìn)行闡述;總結(jié)當(dāng)前研究的不足,對(duì)未來研究方向進(jìn)行了展望。

    關(guān)鍵詞:主題網(wǎng)絡(luò)爬蟲;主題爬蟲;搜索引擎

    DOI:10. 11907/rjdk. 191351 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

    中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)002-0278-04

    英標(biāo):Overview of Research on Topic-focused Web Crawler

    英作:ZUO Wei1, ZHANG Xi2, DONG Hong-juan1, YU Meng-jun1

    英單:(1. School of Professional and Continuing Education, Yunnan University;2. School of Information, Yunnan University, Kunming 650000,China)

    Abstract: With the increase of peoples personalized demand for information resources, topic-focused web crawler emerged at the right time. The topic-focused web crawler and its working principle are stated. The research progress of theme web crawler is systematically analyzed, and three fields of topic-focused web crawler crawling strategy, web page crawling priority and design and implementation oftopic-focused web crawler system are expounded. The deficiencies of current research are summarized and the future research direction is prospected.

    Key Words: topic-focused web crawler; topic-focused crawler; search engine

    0 引言

    Internet的飛速發(fā)展加快了網(wǎng)絡(luò)信息量增長(zhǎng)。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心第41次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》 [1]顯示,“截止2018年6月,我國(guó)網(wǎng)民高達(dá)8.02億,互聯(lián)網(wǎng)普及率為57.7%”。在互聯(lián)網(wǎng)這個(gè)龐大的資源庫(kù)中,網(wǎng)頁(yè)搜索引擎是人們獲取外界信息的主要工具。為了提高檢索質(zhì)量,達(dá)到更好的檢索體驗(yàn),通用搜索引擎應(yīng)運(yùn)而生。通用搜索引擎利用爬蟲程序?qū)W(wǎng)站進(jìn)行檢索,如谷歌、百度等面向所有用戶的大型搜索引擎,把種子頁(yè)面作為搜索起點(diǎn),力圖遍歷整個(gè)網(wǎng)絡(luò),盡可能全面搜索到人們所需的信息。然而,針對(duì)某一特定主題,通用搜索引擎存在信息冗余大、內(nèi)存占用高、消耗系統(tǒng)資源、查準(zhǔn)率低和個(gè)性化需求弱等問題[2],為解決這些問題,出現(xiàn)了抓取特定領(lǐng)域信息資源的主題網(wǎng)絡(luò)爬蟲(Topical Web Crawler)技術(shù)。主題網(wǎng)絡(luò)爬蟲又稱主題爬蟲(Topical Crawler)和聚焦爬蟲(Focused Crawling),是網(wǎng)絡(luò)爬蟲的一個(gè)重要分支[3]。主題網(wǎng)絡(luò)爬蟲指盡可能爬行和收集用戶所需的網(wǎng)頁(yè),與通用網(wǎng)絡(luò)爬蟲有較大差異,它只抓取用戶特定的、與主題相關(guān)的網(wǎng)頁(yè),忽略與主題無關(guān)的網(wǎng)頁(yè),具有準(zhǔn)確性、深入性和專業(yè)性等特點(diǎn)。

    近年來,國(guó)內(nèi)外專家學(xué)者對(duì)主題網(wǎng)絡(luò)爬蟲技術(shù)研究取得了顯著成果,但鮮有文獻(xiàn)對(duì)主題網(wǎng)絡(luò)爬蟲研究發(fā)展?fàn)顩r進(jìn)行分析和系統(tǒng)梳理。因此,對(duì)近年來主題網(wǎng)絡(luò)爬蟲進(jìn)行綜述顯得至關(guān)重要。本文從主題網(wǎng)絡(luò)爬蟲的定義及工作原理、國(guó)內(nèi)外研究進(jìn)展、研究中存在的問題、未來研究方向展望4個(gè)部分進(jìn)行闡述,以期為今后主題網(wǎng)絡(luò)爬蟲研究與實(shí)踐方向提供借鑒與參考。

    1 主題網(wǎng)絡(luò)爬蟲定義與工作原理

    1.1 主題網(wǎng)絡(luò)爬蟲定義

    網(wǎng)絡(luò)爬蟲(Web Crawler)是依照一定規(guī)則主動(dòng)抓取網(wǎng)頁(yè)的程序,是搜索引擎獲得信息的渠道之一。通常根據(jù)給定URL種子爬取網(wǎng)頁(yè),得到新的URL存放至待爬行URL中,當(dāng)滿足一定條件時(shí)停止爬行。網(wǎng)絡(luò)爬蟲一般分為通用網(wǎng)絡(luò)爬蟲、深度網(wǎng)絡(luò)爬蟲和主題網(wǎng)絡(luò)爬蟲3類。

    主題網(wǎng)絡(luò)爬蟲通常給定URL種子集,依照預(yù)先規(guī)定的主題,由特定的分析算法算出爬行網(wǎng)頁(yè)的主題相關(guān)度,并過濾與主題無關(guān)的網(wǎng)頁(yè),優(yōu)先抓取相關(guān)度高的網(wǎng)頁(yè),當(dāng)滿足一定條件時(shí)停止。主題網(wǎng)絡(luò)爬蟲根據(jù)主題對(duì)Web進(jìn)行分塊采集并整合采集結(jié)果,從而提高Web頁(yè)面利用率。

    1.2 主題網(wǎng)絡(luò)爬蟲工作原理

    主題網(wǎng)絡(luò)爬蟲與通用爬蟲差異如下:

    主題相關(guān)性預(yù)測(cè)。主題爬蟲對(duì)提取的URL會(huì)采用一定策略預(yù)測(cè)其主題相關(guān)性,給出量化評(píng)價(jià),而通用爬蟲通常不需要對(duì)URL進(jìn)行相關(guān)性預(yù)測(cè)。

    主題相關(guān)度判斷。當(dāng)一篇網(wǎng)頁(yè)下載后,主題網(wǎng)絡(luò)爬蟲自動(dòng)分析頁(yè)面相關(guān)度,丟棄與主題無關(guān)的頁(yè)面,存儲(chǔ)相關(guān)頁(yè)面。通用爬蟲通常直接存儲(chǔ)下載的頁(yè)面。

    URL抓取排序。主題網(wǎng)絡(luò)爬蟲依據(jù)一定的規(guī)則將待抓取的URL排序并明確抓取順序,通常先抓取評(píng)分較高的URL,而通用爬蟲采用先進(jìn)先出原則。

    主題網(wǎng)絡(luò)爬蟲工作流程如圖 1 所示。

    2 主題網(wǎng)絡(luò)爬蟲研究現(xiàn)狀

    2.1 國(guó)外研究現(xiàn)狀

    國(guó)外主題爬蟲研究始于上世紀(jì) 90 年代,提出一些獲取特定內(nèi)容的爬行策略,只是當(dāng)時(shí)還沒有提出主題網(wǎng)絡(luò)爬蟲概念。1994年,DeBra[4]設(shè)計(jì)了Fish-search算法用來指導(dǎo)爬蟲抓取方向,在特定的范圍內(nèi)爬取網(wǎng)頁(yè)。若抓取到相關(guān)網(wǎng)頁(yè),則繼續(xù)游動(dòng),反之則停止。由于Fish不能估算出頁(yè)面和主題的相關(guān)程度,Michael Hersovici[5]基于Fish-Search算法于1998年提出了Shark-Search算法,該算法通過0~1的區(qū)間值表示候選URL的優(yōu)先級(jí)。直到1999年,Chakrabarti等[6]提出主題網(wǎng)絡(luò)爬蟲概念,主要用于描述超鏈接資源發(fā)現(xiàn)系統(tǒng),這一系統(tǒng)主要包括分類器和過濾器。分類器用來評(píng)估文本內(nèi)容和主題相關(guān)度,過濾器用來過濾無關(guān)鏈接網(wǎng)頁(yè),是早期主題網(wǎng)絡(luò)爬蟲較典型的研究之一。2001年,Junghoo Cho提出了best-first-search搜索策略。上述3類主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)思想主要涉及網(wǎng)頁(yè)上的文本和內(nèi)容,根據(jù)文本和內(nèi)容選擇下載頁(yè)面及將要訪問的URL。基于鏈接結(jié)構(gòu)評(píng)價(jià)這一爬取策略主要有PageRank算法和HITS算法。Larry Page[7]提出的PageRank算法,主要根據(jù)是否被權(quán)威網(wǎng)站指向及鏈接指向判斷網(wǎng)頁(yè)的關(guān)聯(lián)程度。1998年,Kleinberg[8]提出HITS算法,該算法通過權(quán)威和樞紐兩個(gè)維度衡量頁(yè)面的價(jià)值。若只使用網(wǎng)絡(luò)鏈接關(guān)系判斷網(wǎng)頁(yè)的關(guān)鍵性而不去判斷文本內(nèi)容,可能導(dǎo)致爬行結(jié)果與主題無關(guān),所以一般不單獨(dú)使用基于鏈接的爬取策略。

    Hati等[9]采用VIPS 算法把網(wǎng)頁(yè)劃為不同區(qū)塊,用區(qū)塊的相關(guān)度評(píng)分衡量頁(yè)面的主題相關(guān)度評(píng)分;Wenxian Wang等[10]利用TF-IDF特征并結(jié)合樸素貝葉斯方法判斷文本內(nèi)容的主題相關(guān)性;Taylan等[11]也依據(jù)樸素貝葉斯分類器將網(wǎng)頁(yè)鏈接分類,同時(shí)使用簡(jiǎn)單的鏈接分值優(yōu)化系統(tǒng)性能;Yohanes等[12]認(rèn)為局部搜索算法有缺陷,于是運(yùn)用遺傳算法指導(dǎo)爬行,精確率較Best-First-Search算法有很大提高;álvarez等[13]構(gòu)建了DeepBot[14]主題網(wǎng)絡(luò)爬蟲,獲得了較高的召回率和精確率;Singh等[15]采用提取關(guān)鍵詞擴(kuò)展主題詞權(quán)重表、移除重復(fù)鏈接等方式提高精確率;Diligenti等[16]構(gòu)建了一種名為 Context Focused Crawler的主題爬蟲,該系統(tǒng)通過分析頁(yè)面的層次結(jié)構(gòu)指導(dǎo)爬行,獲得了較高的爬行效率;Stamatakis等[17]構(gòu)建了包括3個(gè)不同版本的CROSSMARC 爬蟲系統(tǒng),針對(duì)不同的版本提供不同的起點(diǎn),從而獲得較高的收獲比;Seyfi等[18]將基于內(nèi)容和基于鏈接的方法相結(jié)合構(gòu)建了Treasure-Crawler爬蟲系統(tǒng),用來發(fā)現(xiàn)與主題有關(guān)的頁(yè)面,并建立T-Graph 結(jié)構(gòu)協(xié)助URL評(píng)分;Sougata Mukherjea[19]構(gòu)建了一種網(wǎng)頁(yè)主題管理系統(tǒng)(WTMS),用戶能采集和分析特定主題頁(yè)面。

    2.2 國(guó)內(nèi)研究現(xiàn)狀

    相比于國(guó)外,我國(guó)對(duì)主題網(wǎng)絡(luò)爬蟲的研究起步雖晚于國(guó)外,但也取得了不少成果。

    蕭婧婕等[20]設(shè)計(jì)出基于灰狼算法,旨在解決爬蟲在全局爬取中的優(yōu)先級(jí)問題,從而提高爬取的查全率和查準(zhǔn)率,能爬取更多網(wǎng)頁(yè);蔣宗禮等[21]把SVM、語(yǔ)義分析技術(shù)及貝葉斯結(jié)合,提高了主題相關(guān)度判斷;陳千[22]提出了一種改進(jìn)的best-first策略,該方法將VSM模型和貝葉斯分類器結(jié)合,能夠預(yù)測(cè)待爬行鏈接,從而提高網(wǎng)頁(yè)收獲率。為提高爬取性能,胡萍瑞[23]依據(jù)URL的特征和站點(diǎn)特點(diǎn),設(shè)計(jì)了基于URL模式集的主題爬蟲。實(shí)驗(yàn)證明,該爬蟲能快速判斷爬取頁(yè)面的相關(guān)度,保證了爬取的召回率和準(zhǔn)確率。劉林等[24]認(rèn)為并不是網(wǎng)頁(yè)的所有URL都與主題有關(guān),因而有必要先通過鏈接分析過濾掉無關(guān)鏈接,實(shí)驗(yàn)表明該方法極大提高了爬行速度;孟竹[25]借助點(diǎn)對(duì)互信息(PMI)與詞向量模型,判斷新的網(wǎng)頁(yè)鏈接與主題相關(guān)度;熊忠陽(yáng)等[26]提出基于信息自增益的主題爬蟲,該策略在爬行過程中自動(dòng)更新;白鶴[27]基于數(shù)據(jù)抽取器構(gòu)建了一個(gè)分布式主題爬蟲系統(tǒng),該系統(tǒng)使用分類標(biāo)注方法克服了多個(gè)主題的兼容問題。針對(duì)主題詞匯不夠細(xì)化、未考慮語(yǔ)義詞意義延伸等問題,孫紅光等[28]采用LDA(Latent Dirichlet Allocation,LDA)模型,基于語(yǔ)義相似度計(jì)算模型,引入語(yǔ)義信息的相似度計(jì)算模型(SVSM)設(shè)計(jì)了語(yǔ)義聚焦爬蟲(ESVSM)。實(shí)驗(yàn)證明,該算法相關(guān)網(wǎng)頁(yè)數(shù)量和平均相關(guān)度都高于其它算法,抓取精度高達(dá)85%;方啟明等[29]通過在配置文件里定義目標(biāo)網(wǎng)站的范圍和類型,實(shí)現(xiàn)可定制主題爬蟲。網(wǎng)頁(yè)鏈接權(quán)威評(píng)估方法主要采用PageRank算法、Hits算法以及基于它們的改進(jìn)算法,Hits主要應(yīng)用于特定領(lǐng)域排序,PageRank算法則用于全局排序[30]。

    3 存在的主要問題

    近年有關(guān)主題網(wǎng)絡(luò)爬蟲研究和探索取得了一定成果,但在文本信息抽取、主題相關(guān)度判別、搜索策略等方面還存在問題,具體如下:

    主題網(wǎng)絡(luò)爬蟲的爬行先在初始頁(yè)獲取源代碼,然后分析和處理源代碼以獲取網(wǎng)頁(yè)標(biāo)題、文本及鏈接等信息,文本信息提取準(zhǔn)確率有待進(jìn)一步提高。

    主題網(wǎng)絡(luò)爬蟲一般會(huì)判別網(wǎng)頁(yè)的主題相關(guān)度,同時(shí)將自動(dòng)保存相關(guān)度高的網(wǎng)頁(yè),當(dāng)前在主題判斷效率和準(zhǔn)確率兩方面有待提升。

    主題網(wǎng)絡(luò)爬蟲的搜索策略研究主要是鏈接結(jié)構(gòu)的價(jià)值評(píng)價(jià)問題,其對(duì)爬蟲進(jìn)一步爬行的搜索路徑、搜索結(jié)果和搜索效率有重要意義。目前,搜索策略存在主題偏離、效率不佳等問題。

    4 研究趨勢(shì)

    主題網(wǎng)絡(luò)爬蟲研究主要集中在搜索策略、網(wǎng)頁(yè)抓取優(yōu)先級(jí)設(shè)計(jì)、主題爬蟲系統(tǒng)設(shè)計(jì)3大領(lǐng)域。目前主題網(wǎng)絡(luò)爬蟲研究不斷進(jìn)步,但有待深入研究的問題如下:

    (1)當(dāng)前,基于網(wǎng)頁(yè)內(nèi)容的主題網(wǎng)絡(luò)爬蟲搜索策略研究方向是使用成熟的文本分類法對(duì)網(wǎng)頁(yè)中的文本進(jìn)行分類,忽略了網(wǎng)頁(yè)結(jié)構(gòu)影響主題相關(guān)度等問題,同時(shí),網(wǎng)頁(yè)是否進(jìn)行去噪處理直接影響到主題的判斷精度,因此對(duì)網(wǎng)頁(yè)去噪研究有待提升。此外,該策略未考慮到互聯(lián)網(wǎng)信息隨時(shí)發(fā)生變化的情況,因網(wǎng)頁(yè)未及時(shí)更新導(dǎo)致抓取到的信息可能已經(jīng)過時(shí)。

    (2)站點(diǎn)的質(zhì)量越高,URL就越規(guī)范,則基于鏈接的主題網(wǎng)絡(luò)爬蟲的主題判斷精確度越高;當(dāng)網(wǎng)站的URL路徑不規(guī)范時(shí),基于鏈接的主題網(wǎng)絡(luò)爬蟲判斷精確度就會(huì)降低。

    (3)現(xiàn)階段,主要的網(wǎng)頁(yè)鏈接分析是PageRank和Hits算法[34],有些使用了SALSA和Hilltop算法,在鏈接分析方面有良好效果。目前,搜索引擎查詢首要采用鏈接分析算法,假如將鏈接分析算法用于主題網(wǎng)絡(luò)爬蟲搜索策略以確定網(wǎng)頁(yè)抓取優(yōu)先級(jí),則會(huì)大大提高主題網(wǎng)絡(luò)爬蟲的信息提取和網(wǎng)頁(yè)搜索性能。

    5 結(jié)語(yǔ)

    隨著人們的個(gè)性化信息需求不斷加大,主題網(wǎng)絡(luò)爬蟲成為搜索引擎領(lǐng)域研究熱點(diǎn)。其中,主題網(wǎng)絡(luò)爬蟲研究重點(diǎn)是網(wǎng)頁(yè)抓取優(yōu)先級(jí)、爬行策略以及設(shè)計(jì)實(shí)現(xiàn)主題網(wǎng)絡(luò)爬蟲系統(tǒng)3大領(lǐng)域。本文先給出主題網(wǎng)絡(luò)爬蟲的定義和基本原理, 然后對(duì)國(guó)內(nèi)外主題網(wǎng)絡(luò)爬蟲研究發(fā)展?fàn)顩r進(jìn)行分析和系統(tǒng)梳理,給出了目前研究中存在的問題以及進(jìn)一步研究的方向。希望有更多學(xué)者關(guān)注、加入到主題網(wǎng)絡(luò)爬蟲研究實(shí)踐中,共同推動(dòng)主題網(wǎng)絡(luò)爬蟲研究健康快速發(fā)展。

    參考文獻(xiàn):

    [1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心. 中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201808/t20180 820_70488.htm

    [2] 張環(huán). 垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲算法研究[D]. 濟(jì)南:山東師范大學(xué),2016.

    [3] VIEIRA K, BARBOSA L, SILVA A S D, et al.Finding seeds to bootstrap focused crawlers[J]. World Wide Web,2016, 19(3):449-474

    [4] BRA P D,POST R D J. Information retrieval in the world-wide web: making client-based searching feasible[J].? Computer Networks and ISDN Systems, 1994, 27(2):183-192.

    [5] HERSOVICI M,JACOVI M,MAAREK Y S,et al. The shark-search algorithm. an application: tailored web site mapping[C].? International Conference on World Wide Web. Elsevier Science Publishers B. V. 1998.

    [6] CHAKRABARTI S,VAN DEN BERG M,DOM B. Focused crawling: a new approach to topic-specific? web? resource? discovery[J]. Computer Networks, May 1999, 31(11-16):1623-1640.

    [7] PAGE.L.The pagerank citation ranking:bringing order to the web[J]. Online manuscript,1998,9(1):1-14.

    [8] JON M. KLEINBERG. Authoritative sources in a hyperlinked environment[C]. Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms,1998:668-677.

    [9] HATI D, KUMAR A. Improved focused crawling approach for retrieving relevant pages based on block partitioning[C]. International Conference on Education Technology and Computer. IEEE,2010:269-273.

    [10] WANG W,CHEN X,ZOU Y,et al. A focused crawler based on naive bayes classifier[C].? Third International Symposium on Intelligent Information Technology & Security Informatics, IEEE Computer Society, 2010.

    [11] TAYLAN D,POYRAZ M,AKYOKU? S,et al. Intelligent focused crawler: learning which links to crawl[C]. International Symposium on Innovations in Intelligent Systems and Applications. IEEE, 2011:504-508.

    [12] YOHANES B W, HANDOKO H, WARDANA H K. Focused crawler optimization using genetic algorithm[J]. Telkomnika (Telecommunication Computing Electronics and Control),2013,9(3):403-410.

    [13] áLVAREZ M, RAPOSO J, PAN A,et al. Deepbot: a focused crawler for accessing hidden web content[C]. Proceedings of the 3rd international workshop on Data engineering issues in E-commerce and services: In conjunction with ACM Conference on Electronic Commerce (EC'07).? ACM, 2007:18-25.

    [14] BERGMAN M K. White paper: the deep web: surfacing hidden value[J].? Journal of electronic publishing, 2001, 7(1):597-600.

    [15] SINGH B, GUPTA D K, SINGH R M. Improved architecture of focused crawler on the basis of content and link analysis[J]. International Journal of Modern Education and Computer Science, 2017, 9(11):33-39.

    [16] DILIGENTI? M, COETZEE F, LAWRENCE S, et al. Focused crawling using context graphs[C]. International Conference on Very Large Data Bases. Morgan? Kaufmann PublishersInc, 2000:527-534.

    [17] STAMATAKIS K, KARKALETSIS V, PALIOURAS G, et al. Domain-specific web site identification: the crossmarc focused web crawler[C]. Proceedings of the 2nd International Workshop on Web Document Analysis (WDA2003), Edinburgh, UK, 2003:75-78.

    [18] SEYFI A, PATEL A. A? focused crawler combinatory link? and content model based on t-graph? principles[J].? Computer Standards & Interfaces, 2016(43):1-11.

    [19] MUKHERJEA S. WTMS: a system for collecting and analyzing topic-specific web information[J].? Computer Networks, 2000, 33(1):457-471.

    [20] 蕭婧婕,陳志云. 基于灰狼算法的主題爬蟲[J]. 計(jì)算機(jī)科學(xué),2018,45(S2):156-158,176.

    [21] 蔣宗禮,田曉燕,趙旭. 一種基于語(yǔ)義分析的主題爬蟲算法[J]. 計(jì)算機(jī)工程與科學(xué),2010, 32(9):145-147.

    [22] 陳千. 主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)的研究與應(yīng)用[D]. 北京:北京理工大學(xué),2015.

    [23] 胡萍瑞,李石君. 基于URL模式集的主題爬蟲[J]. 計(jì)算機(jī)應(yīng)用研究,2018,35(3):694-699.

    [24] 劉林,汪濤,樊孝忠. 主題爬蟲的解決方案[J]. 華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2004,32(z1):137-141.

    [25] 孟竹. 詞向量語(yǔ)義模型研究及在主題爬蟲系統(tǒng)中的應(yīng)用[D]. 北京:中國(guó)地質(zhì)大學(xué)(北京),2017.

    [26] 熊忠陽(yáng),史艷,張玉芳. 基于信息增益的自適應(yīng)主題爬行策略[J]. 計(jì)算機(jī)應(yīng)用研究,2012,29(2):501-504.

    [27] 白鶴,湯迪斌,王勁林. 分布式多主題網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程, 2009,35(19):13-16.

    [25] 閔鈺麟,黃永峰. 用戶定制主題聚焦爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2015,36(1):17-21.

    [26] 袁浩,黃煙波. 網(wǎng)頁(yè)標(biāo)題分析對(duì)主題爬蟲的改進(jìn)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2009, 19(6):22-24.

    [28] 孫紅光,藏潤(rùn)強(qiáng),姬傳德,等. 基于語(yǔ)義的聚焦爬蟲算法研究[J]. 東北師大學(xué)報(bào):自然科學(xué)版,2018, 50(2):56-62.

    [29] 方啟明,楊廣文,武永衛(wèi),等. 面向P2P搜索的可定制聚焦網(wǎng)絡(luò)爬蟲[J]. 華中科技大學(xué)學(xué)報(bào):自然科學(xué)版, 2007, 35(s2):148-152.

    [30] 蘇成,潘云濤,袁軍鵬,等. 基于優(yōu)化PageRank、HITS和SALSA算法的期刊評(píng)價(jià)研究[J]. 編輯學(xué)報(bào),2015,27(4):330-333.

    [31] 何曉陽(yáng),吳強(qiáng),吳治蓉. HITS算法與PageRank算法比較分析[J]. 情報(bào)雜志,2004,23(2):85-86.

    (責(zé)任編輯:杜能鋼)

    猜你喜歡
    搜索引擎
    Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項(xiàng)
    世界表情符號(hào)日
    大數(shù)據(jù)分析下智能搜索引擎的構(gòu)建研究
    網(wǎng)絡(luò)搜索引擎亟待規(guī)范
    網(wǎng)絡(luò)搜索引擎
    Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
    基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
    廣告主與搜索引擎的雙向博弈分析
    基于Lucene搜索引擎的研究
    一種自反饋式元搜索系統(tǒng)的設(shè)計(jì)
    99国产精品99久久久久| 亚洲精品粉嫩美女一区| 国产激情欧美一区二区| 一级a爱片免费观看的视频| 欧美成人午夜精品| 亚洲人成网站高清观看| 免费在线观看亚洲国产| 亚洲欧洲精品一区二区精品久久久| 国产精品电影一区二区三区| 精品日产1卡2卡| 国产成人一区二区三区免费视频网站| www.熟女人妻精品国产| 成人永久免费在线观看视频| 丁香欧美五月| 免费搜索国产男女视频| 亚洲人成伊人成综合网2020| cao死你这个sao货| 黄色视频不卡| 日韩欧美三级三区| 五月玫瑰六月丁香| 国产精品精品国产色婷婷| 一级片免费观看大全| 真人一进一出gif抽搐免费| 三级毛片av免费| 夜夜躁狠狠躁天天躁| 又紧又爽又黄一区二区| 免费在线观看完整版高清| 麻豆av在线久日| 日韩欧美在线二视频| 又黄又粗又硬又大视频| 国产不卡一卡二| 国产伦人伦偷精品视频| 欧美另类亚洲清纯唯美| 午夜两性在线视频| 99在线人妻在线中文字幕| 两性夫妻黄色片| 久久久久精品国产欧美久久久| 白带黄色成豆腐渣| 在线观看66精品国产| av欧美777| 欧美zozozo另类| www国产在线视频色| 欧美日韩国产亚洲二区| 亚洲国产精品sss在线观看| 国产精品精品国产色婷婷| 老司机午夜十八禁免费视频| 一级毛片高清免费大全| 国产亚洲精品第一综合不卡| 亚洲九九香蕉| xxxwww97欧美| 亚洲最大成人中文| 精品国产美女av久久久久小说| 99久久无色码亚洲精品果冻| 最新美女视频免费是黄的| 一二三四在线观看免费中文在| 日韩 欧美 亚洲 中文字幕| 51午夜福利影视在线观看| 性欧美人与动物交配| 女人爽到高潮嗷嗷叫在线视频| 神马国产精品三级电影在线观看 | 亚洲一区高清亚洲精品| 大香蕉久久网| 99久久中文字幕三级久久日本| 69av精品久久久久久| 日本爱情动作片www.在线观看| 十八禁国产超污无遮挡网站| 直男gayav资源| 亚洲av中文字字幕乱码综合| 最近最新中文字幕大全电影3| 日韩成人av中文字幕在线观看| 国产精品女同一区二区软件| 欧美成人一区二区免费高清观看| 人妻少妇偷人精品九色| 国内精品宾馆在线| 99热这里只有是精品在线观看| 一级av片app| 国产伦理片在线播放av一区 | 国产片特级美女逼逼视频| a级毛片a级免费在线| 91aial.com中文字幕在线观看| 自拍偷自拍亚洲精品老妇| 亚洲真实伦在线观看| 少妇丰满av| 深夜a级毛片| 91午夜精品亚洲一区二区三区| 精品国产三级普通话版| 久久中文看片网| 最近视频中文字幕2019在线8| 国产高清有码在线观看视频| av在线老鸭窝| 国产免费一级a男人的天堂| 变态另类丝袜制服| 国产69精品久久久久777片| 内射极品少妇av片p| av免费观看日本| 69av精品久久久久久| 国内久久婷婷六月综合欲色啪| 婷婷精品国产亚洲av| 在线观看66精品国产| 亚洲色图av天堂| 欧洲精品卡2卡3卡4卡5卡区| 哪个播放器可以免费观看大片| 日产精品乱码卡一卡2卡三| 99视频精品全部免费 在线| 亚洲成人av在线免费| 99久久久亚洲精品蜜臀av| 亚洲国产精品sss在线观看| 99久久精品热视频| 我要搜黄色片| 午夜激情福利司机影院| 国产色爽女视频免费观看| 婷婷亚洲欧美| 亚洲欧美精品专区久久| 国内揄拍国产精品人妻在线| 免费大片18禁| 久久韩国三级中文字幕| 青青草视频在线视频观看| 99热6这里只有精品| 天堂网av新在线| 国产高清不卡午夜福利| 天天躁夜夜躁狠狠久久av| 黄片无遮挡物在线观看| 久久精品人妻少妇| 欧美精品一区二区大全| 中文字幕av成人在线电影| 我的女老师完整版在线观看| kizo精华| 欧美日韩国产亚洲二区| 亚洲电影在线观看av| 久久精品国产自在天天线| 淫秽高清视频在线观看| 好男人在线观看高清免费视频| 免费黄网站久久成人精品| 久久亚洲国产成人精品v| 亚洲一区二区三区色噜噜| 亚洲综合色惰| 嫩草影院入口| 亚洲国产精品久久男人天堂| 岛国毛片在线播放| 日日啪夜夜撸| 国产精品爽爽va在线观看网站| 禁无遮挡网站| 国产精品永久免费网站| 熟妇人妻久久中文字幕3abv| 夫妻性生交免费视频一级片| 99视频精品全部免费 在线| 99久久久亚洲精品蜜臀av| avwww免费| 国产一区二区在线av高清观看| 床上黄色一级片| 男女做爰动态图高潮gif福利片| 久久久久久久久大av| 97在线视频观看| 国产黄片视频在线免费观看| 能在线免费观看的黄片| 免费看日本二区| 成人一区二区视频在线观看| 国产毛片a区久久久久| 91午夜精品亚洲一区二区三区| 高清日韩中文字幕在线| 性插视频无遮挡在线免费观看| 99在线人妻在线中文字幕| 免费观看人在逋| 成人无遮挡网站| 99久久人妻综合| 变态另类成人亚洲欧美熟女| 婷婷色综合大香蕉| 精品久久国产蜜桃| av卡一久久| 午夜激情欧美在线| 极品教师在线视频| 久久久久久久久久久丰满| 大又大粗又爽又黄少妇毛片口| 波野结衣二区三区在线| 九草在线视频观看| 亚洲成人中文字幕在线播放| 亚洲欧洲国产日韩| 美女国产视频在线观看| 久久亚洲精品不卡| 色哟哟·www| 久久午夜福利片| 欧美3d第一页| 亚洲在线观看片| 免费观看在线日韩| 国产一区二区三区av在线 | 又粗又硬又长又爽又黄的视频 | 麻豆精品久久久久久蜜桃| 中出人妻视频一区二区| 成人鲁丝片一二三区免费| 国产91av在线免费观看| 秋霞在线观看毛片| 久久这里有精品视频免费| 亚洲成人久久爱视频| 中文在线观看免费www的网站| www.av在线官网国产| 日韩欧美一区二区三区在线观看| 亚洲精品国产av成人精品| 成人二区视频| 岛国毛片在线播放| 搡女人真爽免费视频火全软件| 国产真实伦视频高清在线观看| 99久久中文字幕三级久久日本| 日本色播在线视频| 在线观看美女被高潮喷水网站| 男女下面进入的视频免费午夜| av在线观看视频网站免费| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 国产美女午夜福利| 成人无遮挡网站| 午夜精品国产一区二区电影 | 亚洲成人久久爱视频| 免费一级毛片在线播放高清视频| 国产精品1区2区在线观看.| 日韩中字成人| 久久综合国产亚洲精品| 欧美色视频一区免费| 久久久国产成人免费| 三级毛片av免费| 麻豆精品久久久久久蜜桃| a级毛色黄片| a级一级毛片免费在线观看| 国语自产精品视频在线第100页| 丰满的人妻完整版| 亚洲电影在线观看av| 免费黄网站久久成人精品| 国产精品不卡视频一区二区| av福利片在线观看| 国产精品国产三级国产av玫瑰| 麻豆乱淫一区二区| 欧美日韩一区二区视频在线观看视频在线 | 干丝袜人妻中文字幕| 成人亚洲欧美一区二区av| 国产精品日韩av在线免费观看| 成人鲁丝片一二三区免费| 国产成人精品久久久久久| 搡老妇女老女人老熟妇| 大又大粗又爽又黄少妇毛片口| avwww免费| 精品无人区乱码1区二区| 成人亚洲欧美一区二区av| 偷拍熟女少妇极品色| 亚洲在线自拍视频| 久久久久久久久大av| 干丝袜人妻中文字幕| 1000部很黄的大片| 国产精华一区二区三区| 国产毛片a区久久久久| a级毛片免费高清观看在线播放| 级片在线观看| 欧美bdsm另类| 最近2019中文字幕mv第一页| 国产一级毛片七仙女欲春2| 99国产精品一区二区蜜桃av| 国产伦在线观看视频一区| 亚洲国产欧洲综合997久久,| 亚洲人成网站在线播| 久久精品人妻少妇| 亚洲国产精品成人久久小说 | 国产麻豆成人av免费视频| 亚洲av二区三区四区| 国产精品爽爽va在线观看网站| 日本一本二区三区精品| 国产精品久久久久久精品电影| 欧美丝袜亚洲另类| 亚洲一区二区三区色噜噜| 夜夜爽天天搞| 亚洲最大成人中文| 超碰av人人做人人爽久久| 日韩视频在线欧美| 国产一区亚洲一区在线观看| 国内久久婷婷六月综合欲色啪| 欧美日韩在线观看h| 麻豆成人午夜福利视频| 精品熟女少妇av免费看| 最近手机中文字幕大全| av福利片在线观看| 欧美成人a在线观看| 国产午夜精品论理片| 少妇的逼好多水| 级片在线观看| 日韩欧美一区二区三区在线观看| 亚洲精品乱码久久久v下载方式| 国产亚洲5aaaaa淫片| 男人和女人高潮做爰伦理| 亚洲av二区三区四区| 校园人妻丝袜中文字幕| 亚洲欧美成人精品一区二区| 天堂√8在线中文| 日本在线视频免费播放| 看非洲黑人一级黄片| 99热6这里只有精品| 精品一区二区三区人妻视频| 毛片女人毛片| 女同久久另类99精品国产91| 成人无遮挡网站| 欧美激情久久久久久爽电影| 国产黄片视频在线免费观看| 日韩国内少妇激情av| 嫩草影院精品99| 大又大粗又爽又黄少妇毛片口| 高清日韩中文字幕在线| 亚洲天堂国产精品一区在线| 亚洲av男天堂| 老师上课跳d突然被开到最大视频| 五月伊人婷婷丁香| 婷婷色av中文字幕| 亚洲乱码一区二区免费版| 国产真实乱freesex| av.在线天堂| 一区二区三区免费毛片| 夫妻性生交免费视频一级片| 国产精品久久视频播放| www.av在线官网国产| 免费大片18禁| 91狼人影院| 丰满乱子伦码专区| 精品久久久久久久人妻蜜臀av| 亚洲av免费在线观看| 久久久久久久久久久丰满| 3wmmmm亚洲av在线观看| 亚洲欧美精品综合久久99| 亚洲乱码一区二区免费版| 国产中年淑女户外野战色| 亚洲中文字幕一区二区三区有码在线看| 精品久久久久久久末码| 成年版毛片免费区| 日韩av在线大香蕉| 少妇熟女aⅴ在线视频| 亚洲av一区综合| 亚洲国产日韩欧美精品在线观看| 噜噜噜噜噜久久久久久91| 国产激情偷乱视频一区二区| 国产成人精品婷婷| 久久精品国产鲁丝片午夜精品| 午夜a级毛片| 午夜福利成人在线免费观看| 看非洲黑人一级黄片| 亚洲精品456在线播放app| 国产精品福利在线免费观看| 色视频www国产| 亚洲精品久久久久久婷婷小说 | 亚洲av不卡在线观看| 国产三级在线视频| 免费看日本二区| 亚洲成人精品中文字幕电影| 女人被狂操c到高潮| 中文欧美无线码| 非洲黑人性xxxx精品又粗又长| 国产乱人视频| 国产日本99.免费观看| 波多野结衣高清无吗| 亚洲成人久久爱视频| 久久久久久九九精品二区国产| 国产精品久久久久久精品电影小说 | 亚洲精品自拍成人| 日韩一区二区三区影片| 91aial.com中文字幕在线观看| 桃色一区二区三区在线观看| 免费观看a级毛片全部| 男人狂女人下面高潮的视频| 3wmmmm亚洲av在线观看| 欧美色欧美亚洲另类二区| 婷婷精品国产亚洲av| 99国产精品一区二区蜜桃av| 人妻制服诱惑在线中文字幕| 久久久久久久午夜电影| 99热这里只有是精品50| 又粗又硬又长又爽又黄的视频 | av免费在线看不卡| 久久久久久久亚洲中文字幕| 亚洲av成人av| 一级毛片aaaaaa免费看小| 亚洲内射少妇av| 久久这里有精品视频免费| 国产一区二区激情短视频| 亚洲丝袜综合中文字幕| 成人特级av手机在线观看| 看片在线看免费视频| 亚洲精品国产成人久久av| 少妇的逼水好多| 91久久精品国产一区二区三区| 18+在线观看网站| 91久久精品国产一区二区三区| 国产精品人妻久久久久久| 嫩草影院精品99| 欧美日韩国产亚洲二区| 国产一区二区三区在线臀色熟女| 精品人妻一区二区三区麻豆| 97人妻精品一区二区三区麻豆| 男人的好看免费观看在线视频| 亚洲欧美成人精品一区二区| 亚洲av.av天堂| 亚洲精品456在线播放app| 寂寞人妻少妇视频99o| 九九久久精品国产亚洲av麻豆| 一级黄片播放器| 国产精品久久久久久久电影| 成人特级av手机在线观看| 久久人妻av系列| 永久网站在线| 一进一出抽搐动态| 亚洲自拍偷在线| 免费看日本二区| 男女下面进入的视频免费午夜| 久久久久久久久久久丰满| 色吧在线观看| 黄色欧美视频在线观看| 91久久精品国产一区二区三区| 国产精品不卡视频一区二区| 两个人视频免费观看高清| 网址你懂的国产日韩在线| 中国美女看黄片| 你懂的网址亚洲精品在线观看 | 国产精品电影一区二区三区| 国产精品精品国产色婷婷| kizo精华| 欧美zozozo另类| 免费av不卡在线播放| 99久久无色码亚洲精品果冻| 久久精品91蜜桃| av女优亚洲男人天堂| 大型黄色视频在线免费观看| 色视频www国产| 自拍偷自拍亚洲精品老妇| 极品教师在线视频| 91麻豆精品激情在线观看国产| 久久久久久久亚洲中文字幕| 一级毛片电影观看 | 女同久久另类99精品国产91| 亚洲国产精品成人久久小说 | 久久精品国产亚洲av天美| 亚洲av男天堂| 国产av麻豆久久久久久久| 青春草亚洲视频在线观看| 尾随美女入室| 欧美成人a在线观看| 欧美三级亚洲精品| 中文字幕精品亚洲无线码一区| 91午夜精品亚洲一区二区三区| 夜夜夜夜夜久久久久| www日本黄色视频网| av黄色大香蕉| 欧美精品国产亚洲| 欧美变态另类bdsm刘玥| 欧美日韩乱码在线| av天堂中文字幕网| 欧美色视频一区免费| 欧美又色又爽又黄视频| 99久国产av精品| 婷婷六月久久综合丁香| 99热精品在线国产| 少妇裸体淫交视频免费看高清| 亚洲色图av天堂| 国产亚洲av嫩草精品影院| 1000部很黄的大片| 欧美3d第一页| 亚洲av男天堂| 少妇的逼水好多| 国产黄片视频在线免费观看| 熟女电影av网| 久久人人爽人人片av| 最近最新中文字幕大全电影3| 草草在线视频免费看| 真实男女啪啪啪动态图| 久久久精品94久久精品| 伊人久久精品亚洲午夜| 亚洲精品国产av成人精品| 中文字幕av成人在线电影| 久久草成人影院| 国产蜜桃级精品一区二区三区| 免费观看精品视频网站| 日本免费a在线| 欧美区成人在线视频| 亚洲国产色片| 亚洲国产精品sss在线观看| 尤物成人国产欧美一区二区三区| 国产精品三级大全| 少妇熟女aⅴ在线视频| 亚洲精品国产av成人精品| 欧美+亚洲+日韩+国产| 老司机福利观看| 菩萨蛮人人尽说江南好唐韦庄 | 搞女人的毛片| 午夜老司机福利剧场| 91久久精品电影网| 国产麻豆成人av免费视频| 日韩人妻高清精品专区| 国产精品一区www在线观看| 边亲边吃奶的免费视频| 亚洲精品成人久久久久久| 亚洲av第一区精品v没综合| 麻豆成人av视频| 青青草视频在线视频观看| 成人午夜精彩视频在线观看| 深夜精品福利| 老女人水多毛片| 亚洲国产欧洲综合997久久,| 欧美成人精品欧美一级黄| 自拍偷自拍亚洲精品老妇| 一本久久精品| 久久久久免费精品人妻一区二区| 精品久久久久久久久av| 欧美一级a爱片免费观看看| 国产精品人妻久久久影院| 国产在线精品亚洲第一网站| 国产精品国产三级国产av玫瑰| 国产色爽女视频免费观看| 爱豆传媒免费全集在线观看| 十八禁国产超污无遮挡网站| 日韩欧美三级三区| 成人美女网站在线观看视频| 亚洲18禁久久av| 国产成人精品一,二区 | 国产一级毛片在线| 亚洲国产精品sss在线观看| 国产v大片淫在线免费观看| 日韩中字成人| 高清毛片免费看| 久久精品国产清高在天天线| 最近最新中文字幕大全电影3| 亚洲精品色激情综合| 99热精品在线国产| 国产一区二区亚洲精品在线观看| 波多野结衣巨乳人妻| 色哟哟·www| 天堂av国产一区二区熟女人妻| 亚洲最大成人av| 尾随美女入室| 亚洲七黄色美女视频| 成年版毛片免费区| 欧美xxxx黑人xx丫x性爽| 日本黄色视频三级网站网址| 给我免费播放毛片高清在线观看| 免费看a级黄色片| 亚洲天堂国产精品一区在线| 国产精品女同一区二区软件| 精品熟女少妇av免费看| 嘟嘟电影网在线观看| 深夜精品福利| 国产精品乱码一区二三区的特点| 男人和女人高潮做爰伦理| 亚洲精品日韩av片在线观看| 免费观看精品视频网站| 丝袜美腿在线中文| 欧美一区二区精品小视频在线| 欧美另类亚洲清纯唯美| 97在线视频观看| 欧美最新免费一区二区三区| 人妻系列 视频| 国产精品国产三级国产av玫瑰| 欧美+日韩+精品| 午夜精品在线福利| 黄片wwwwww| 联通29元200g的流量卡| 免费搜索国产男女视频| 男人舔奶头视频| 老师上课跳d突然被开到最大视频| 国产精品女同一区二区软件| 身体一侧抽搐| 99热这里只有精品一区| 国产精品日韩av在线免费观看| 波野结衣二区三区在线| a级毛色黄片| 黑人高潮一二区| 久久久久国产网址| 成人av在线播放网站| 亚洲真实伦在线观看| 国产精品伦人一区二区| 成人国产麻豆网| 亚洲国产色片| 高清在线视频一区二区三区 | 国产成人一区二区在线| 午夜亚洲福利在线播放| 国产探花极品一区二区| 欧美成人一区二区免费高清观看| 久久精品国产清高在天天线| 18禁在线无遮挡免费观看视频| 天堂中文最新版在线下载 | 精品无人区乱码1区二区| 免费观看a级毛片全部| 亚洲国产精品国产精品| 国产一区亚洲一区在线观看| 国产精品人妻久久久久久| av视频在线观看入口| 99视频精品全部免费 在线| 国产精品久久久久久精品电影小说 | 欧美激情在线99| 蜜桃亚洲精品一区二区三区| 亚洲欧美成人综合另类久久久 | 日本撒尿小便嘘嘘汇集6| 日韩精品有码人妻一区| 精品久久久久久久久久免费视频| 男女边吃奶边做爰视频| 国产在线男女| 亚洲av熟女| 网址你懂的国产日韩在线| 性色avwww在线观看| 欧美精品一区二区大全| 熟女人妻精品中文字幕| 国产精品久久久久久亚洲av鲁大| 婷婷色av中文字幕| 国产精品久久久久久精品电影| 一级毛片aaaaaa免费看小| 日本免费a在线| 小说图片视频综合网站| 乱系列少妇在线播放| 91av网一区二区| 国产大屁股一区二区在线视频| 精品午夜福利在线看| 亚洲欧美成人精品一区二区| 欧美成人a在线观看| 国产精品综合久久久久久久免费| 国产单亲对白刺激| 亚洲欧洲日产国产| 国产精品久久久久久久电影|