任 斌,毛應爽
(長春工程學院軟件職業(yè)技術學院,長春 130012)
最近幾年里,與主題爬行相關的研究越來越受到關注,達到了空前繁榮時期。搜索引擎研究人員,把面向主題的爬行技術定位為新一代搜索引擎的核心。新一代搜索技術最主要的特征是在不下載網頁內容的前提下判斷網頁內容與主題的相關性,并進行智能的指導性爬行,將機器學習和人工智能等智能方法應用其中,使其盡可能收集與某個主題相關的URL信息。因此,針對主題爬行的研究是非常有必要的。
基于本體的主動學習主題爬行將網絡爬行技術和本體的基于語義的知識表示和推理技術相結合,旨在提高爬蟲的抓取精度,減少不相關的結果,能夠更好地實現(xiàn)主題爬行的功能。
為實現(xiàn)上述目的,本文提出了一種基于本體的主動學習主題爬行的基本框架。該基本框架劃分為4個主要模塊:網絡爬行模塊、主題相關度計算模塊、相關網頁處理模塊、本體學習模塊。該框架最大的特點是引入了2個循環(huán)迭代過程,分別是爬蟲爬行迭代過程和增量式構建本體的迭代過程。系統(tǒng)基本框架圖如圖1所示。
圖1 基本本體的主動學習主題爬行基本框架圖
本體構建方法的核心思想是減少手工方式參與的程度,規(guī)范構建步驟,引入循環(huán)迭代方法,可以讓本體自主學習,實現(xiàn)自動化或半自動化方式的構建,使本體構建逐步細化、精煉、完善。
具體構建步驟過程如圖2所示。
圖2 本體構建方法的過程圖
確定核心概念類及結構的方法采用自頂向下的方法,從領域中頂級的核心概念類出發(fā),再分別建立相應頂級核心概念類的子類,以此類推逐步細化。旅游領域主要是圍繞著餐飲、住宿、交通、游玩、購物和娛樂6大元素展開的,另外與之有關的其他重要概念也要列舉出來。如圖3所示。
圖3 旅游概念類的子類的層級結構圖
在本體構建工具Protégé中創(chuàng)建概念類及子類,打開 OWL Classes視圖,通過在“owl:Thing”右鍵選擇“create subclass”創(chuàng)建核心的概念類。在OWL中,領域頂級的核心概念類被稱作Thing,它是所有類的父類。旅游領域本體的頂級核心概念類如圖4所示。
圖4 旅游領域本體的頂級核心概念類
本系統(tǒng)的本體中概念類之間的關系主要關心的是2大類關系:一個是繼承關系,另一個是同義關系。繼承關系表達概念類之間的繼承關系,如同父類與子類之間的關系。同義關系表達2個或2個以上概念類具有相同的語義,在語義檢索推理時可以相互替代。
在Protégé中,屬性定義分為2種:一個是對象屬性,另外一個是數(shù)據屬性。通過設置屬性值和屬性約束來爭搶語義的表達和推理。定義對象屬性如圖5所示。
圖5 對象屬性的定義
數(shù)據屬性表達概念類的特有屬性,這里只是列舉出常用屬性及屬性的值類型,如姓名、價格、時間等3個屬性,類型分別是string、float和time。數(shù)據屬性的定義如圖6所示。
圖6 數(shù)據屬性的定義
創(chuàng)建實例在“Individual”視圖中完成,本文以概念類中“省”和省份的名稱為例來介紹定義實例。選中概念類“省”,在“Instance Brower”中點擊新建按鈕創(chuàng)建實例,為實例定義名稱,并添加相應數(shù)據屬性。例如,在“長白山”實例上,我們定義了多個數(shù)據屬性,如門票價格、時間和級別。界面如圖7和圖8所示。
圖7 “長白山”實例定義及數(shù)據屬性
圖8 “省”的實例定義
第一組實驗從收獲率和響應速度兩方面比較基于關鍵字主題爬蟲和基于本體學習主題爬蟲的差別。通過實驗得到2種爬蟲各項對比數(shù)據,具體內容如表1所示。
表1 不同爬蟲各項數(shù)據對比表
通過對比以上數(shù)據,我們得知,基于關鍵字的主題爬蟲和基于本體學習的主題爬蟲在響應速度方面幾乎接近,但是明顯可以看出,在收獲率方面,爬蟲二要優(yōu)于爬蟲一。
第二組實驗關于本體學習中本體概念提取方法的對比,比較采用統(tǒng)計詞頻的方法和采用混合方法提取本體概念的準確率。如表2所示。
表2 不同提取概念方法數(shù)據對比表
通過對比以上數(shù)據,我們發(fā)現(xiàn)在花費時間方面幾乎接近的前提下,混合方法提取概念的準確率明顯高于基于統(tǒng)計詞頻的方法提取概念的準確率。
本系統(tǒng)中還存在一定不足,比如在利用網頁中超鏈接結構判斷網頁的相關度中,不能很好地解決網頁鏈接的隧道問題,需要進一步完善與改進。
[1]周立柱,林玲.聚焦爬蟲技術研究綜述[J].計算機應用,2005,25(9):1965-1969.
[2]Neches R,F(xiàn)ikes R E,Gruber T R,etc.Enabling Techenology for Knowledge Sharing[J].AI Magazine,1991,12(3):36-56.
[3]Studer R,Benjamins V R,F(xiàn)enselD.Knowledge Engineering,Principles and Methods[J].Data and Knowledge Engineering,1998,25(1-2):161-197.
[4]馮志勇.本體論工程及其應用[M].北京:清華大學出版社,2007:20-46.