敬烜+魯紅英
摘要:判定鏈接錨文本與主題的相關度、評估鏈接的優(yōu)先級并過濾不相關的鏈接是實現(xiàn)聚焦爬行的關鍵。通過判定鏈接所在頁面是否主題相關、是否是導航頁面劃分鏈接的類別,結合鏈接錨文本與主題的相似度,提出了一種基于鄰居規(guī)則分類算法評估鏈接優(yōu)先級的聚焦爬蟲。該爬蟲包括一個主題相關網頁判別器、一個導航網頁判別器和一個基于鄰居規(guī)則分類算法的鏈接優(yōu)先級評估器。實驗結果表明,基于鄰居規(guī)則分類算法的聚焦爬蟲比僅僅根據錨文本判定鏈接優(yōu)先級的標準聚焦爬蟲具有更好的性能,因此更加適合用于信息檢索。
關鍵詞:信息檢索;聚焦爬蟲;鄰居規(guī)則;分類算法;鏈接優(yōu)先級
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)14-0151-113
1概述
隨著網絡數(shù)據的不斷增長,如何有效地發(fā)現(xiàn)、過濾、處理和利用這些數(shù)據成為了一個需要解決的問題。適合特定主題和個性化搜索的聚焦爬蟲是一個有效的解決途徑。聚集爬蟲可被分作三類:經典聚焦爬蟲,基于錨文本與主題詞匯集的相似性,利用機器學習評估鏈接優(yōu)先級;語義聚焦爬蟲,分析頁面與主題的語義相關性計算各鏈接下載優(yōu)先級;在線增量自學習聚焦爬蟲,采用可更新的分類器指定頁面優(yōu)先級,爬行過程中分類器可在線增強學習,從而提高分類準確性和爬行精度。本文提出了一種基于錨文本和網頁類型的聚焦爬蟲,相對于經典聚焦爬蟲,本文爬蟲考慮了鏈接所在頁面是否是主題相關網頁或導航網頁,并以此評估鏈接優(yōu)先級。
2聚焦爬蟲模型
2.1確定鏈接屬性
錨文本與主題間的相似度通過式(1)來確定。
2.2評估鏈接優(yōu)先級
本文采用基于鄰居規(guī)則的分類算法[1],根據鏈接與主題的相似度和鏈接的類別將鏈接分為0到5級,5級優(yōu)先級最高,0級優(yōu)先級最低,爬蟲爬行過程中優(yōu)先爬取優(yōu)先級高的鏈接并舍棄0級鏈接。
本文爬蟲通過有標注的訓練樣本D完成算法訓練過程,得到特征屬性集合S,在確定鏈接屬性sim(q,p)和類別后,通過算法分類過程得到鏈接類別,即確定鏈接優(yōu)先級。
2.3系統(tǒng)結構
根據上述原理建立的聚焦爬蟲模型如圖1。與通用web爬行器相比,圖3增加了三個組件:鏈接優(yōu)先級評估器、主題相關判定器和導航網頁判定器。主題相關判定器和導航網頁判定器用于確定抽取出來的鏈接類別,鏈接優(yōu)先級評估器用于確定提供主題相關頁面的可能性。
該系統(tǒng)運行過程如下:從種子鏈接開始爬取網頁,判定下載下來的網頁是否主題相關、是否是導航頁面,并由此確定抽取出來的鏈接的類別;計算鏈接錨文本與主題的相似度;利用鏈接優(yōu)先級評估器評估鏈接的優(yōu)先級,舍棄其中0級的鏈接后放入到優(yōu)先級隊列中;爬蟲不停地從優(yōu)先級隊列隊首取得最高優(yōu)先級鏈接進行爬取,爬取了指定數(shù)目的鏈接后終止。
3系統(tǒng)實現(xiàn)及實驗
3.1系統(tǒng)實現(xiàn)
根據上述的系統(tǒng)模型,在windows系統(tǒng)下MyEclipse 2013實現(xiàn)了一個聚焦爬蟲原型系統(tǒng)webcollector。主題相關判別器和導航頁面判別器均使用樸素貝葉斯分類器,鏈接優(yōu)先級評估器使用基于鄰居規(guī)則分類算法的分類器,將鏈接分為0到5級。主題相關判別器的計算和訓練采用頁面特征文本,包含當前頁面的標題、meta中keywords、description和tabs以及網頁正文;導航頁面判別器的計算和訓練采用頁面中所有鏈接的錨文本,包括相似度大于0的鏈接總數(shù)、鏈接相似度總和、平均鏈接相似度等。在計算主題相似度sim時,先進行分詞并過濾中文中”?!薄ⅰ?,”、”的”等常用符號和停用詞。系統(tǒng)實現(xiàn)參考了中國科學院計算所的漢語詞法分析系統(tǒng)ICTCLAS和懷卡托大學的weka機器學習軟件。
3.2實驗
為了檢驗本文所用算法的有效性,將本文模型的某些功能去掉,分別形成標準通用爬蟲模型和標準聚焦爬蟲模型,然后比較3種模型。實驗中爬蟲的種子網頁為新浪體育(http:∥sports.sina.com.cn)、網易體育(http:∥sports.163.com.cn)、搜狐體育(http:∥sports.sohu.com)。實驗選擇的評測指標為搜索到的主題相關頁面的個數(shù)、訪問鏈接數(shù)和搜索主題相關頁面的回調率。實驗平臺為windows 10,CPU為IntelI5-5200U 2.19GHz,內存為8GB,實驗主題為”足球”。用標準通用爬蟲從上述種子網頁爬取了495個頁面,進行兩次標記后分別作為主題相關判別器和導航網頁判別器的訓練數(shù)據。然后從中選取9個典型網頁抽取出1131鏈接,進行標記后作為鏈接優(yōu)先級評估器的訓練數(shù)據。爬蟲在爬行過程中記錄訪問的鏈接數(shù)、下載的頁面數(shù),以最終下載的最大相關頁面數(shù)為1計算回調率。
3.3實驗結果討論
由圖4可以看出,在爬取9500個頁面的過程中,基于CRN分類算法的聚焦爬蟲和標準聚焦爬蟲都比通用網絡爬蟲具有更好的性能。另外可以看出,本文聚焦爬蟲在下載頁面抽取鏈接的過程中,由于采用了CRN分類算法識別更有可能指向主題相關頁面的鏈接,爬行的主題相關頁面數(shù)高于標準聚焦爬蟲。由圖5可以看出,基于CRN分類算法的聚焦爬蟲能夠比較穩(wěn)定地爬取到主題相關頁面。
4結束語
聚焦爬蟲的研究,對個性化搜索引擎的應用和發(fā)展具有重要的意義。本文提出了一種基于鄰居規(guī)則分類算法的聚焦爬蟲,相對與標準聚焦爬蟲,能更好地搜索主題相關網頁。目前,鏈接優(yōu)先級評估器只是采用離線訓練數(shù)據,如果將下載下來的頁面中的鏈接處理得到分類結果后反饋給鏈接優(yōu)先級評估器,在線更新其訓練數(shù)據,可以增強評估器的分類性能和準確性,這是下一步要做的工作。