• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于本體的主動學習主題爬行的研究與實現(xiàn)

      2011-03-12 00:39:36毛應爽
      關鍵詞:爬蟲實例本體

      任 斌,毛應爽

      (長春工程學院軟件職業(yè)技術學院,長春 130012)

      最近幾年里,與主題爬行相關的研究越來越受到關注,達到了空前繁榮時期。搜索引擎研究人員,把面向主題的爬行技術定位為新一代搜索引擎的核心。新一代搜索技術最主要的特征是在不下載網頁內容的前提下判斷網頁內容與主題的相關性,并進行智能的指導性爬行,將機器學習和人工智能等智能方法應用其中,使其盡可能收集與某個主題相關的URL信息。因此,針對主題爬行的研究是非常有必要的。

      1 基于本體主動學習的主題爬行總體設計

      基于本體的主動學習主題爬行將網絡爬行技術和本體的基于語義的知識表示和推理技術相結合,旨在提高爬蟲的抓取精度,減少不相關的結果,能夠更好地實現(xiàn)主題爬行的功能。

      為實現(xiàn)上述目的,本文提出了一種基于本體的主動學習主題爬行的基本框架。該基本框架劃分為4個主要模塊:網絡爬行模塊、主題相關度計算模塊、相關網頁處理模塊、本體學習模塊。該框架最大的特點是引入了2個循環(huán)迭代過程,分別是爬蟲爬行迭代過程和增量式構建本體的迭代過程。系統(tǒng)基本框架圖如圖1所示。

      圖1 基本本體的主動學習主題爬行基本框架圖

      2 基于旅游主題領域的本體構建

      2.1 本體構建方法

      本體構建方法的核心思想是減少手工方式參與的程度,規(guī)范構建步驟,引入循環(huán)迭代方法,可以讓本體自主學習,實現(xiàn)自動化或半自動化方式的構建,使本體構建逐步細化、精煉、完善。

      具體構建步驟過程如圖2所示。

      圖2 本體構建方法的過程圖

      2.2 領域本體構建實現(xiàn)

      2.2.1 確定核心概念類及結構

      確定核心概念類及結構的方法采用自頂向下的方法,從領域中頂級的核心概念類出發(fā),再分別建立相應頂級核心概念類的子類,以此類推逐步細化。旅游領域主要是圍繞著餐飲、住宿、交通、游玩、購物和娛樂6大元素展開的,另外與之有關的其他重要概念也要列舉出來。如圖3所示。

      圖3 旅游概念類的子類的層級結構圖

      2.2.2 編碼定義概念類

      在本體構建工具Protégé中創(chuàng)建概念類及子類,打開 OWL Classes視圖,通過在“owl:Thing”右鍵選擇“create subclass”創(chuàng)建核心的概念類。在OWL中,領域頂級的核心概念類被稱作Thing,它是所有類的父類。旅游領域本體的頂級核心概念類如圖4所示。

      圖4 旅游領域本體的頂級核心概念類

      2.2.3 定義概念類之間的關系

      本系統(tǒng)的本體中概念類之間的關系主要關心的是2大類關系:一個是繼承關系,另一個是同義關系。繼承關系表達概念類之間的繼承關系,如同父類與子類之間的關系。同義關系表達2個或2個以上概念類具有相同的語義,在語義檢索推理時可以相互替代。

      2.2.4 定義概念類屬性

      在Protégé中,屬性定義分為2種:一個是對象屬性,另外一個是數(shù)據屬性。通過設置屬性值和屬性約束來爭搶語義的表達和推理。定義對象屬性如圖5所示。

      圖5 對象屬性的定義

      數(shù)據屬性表達概念類的特有屬性,這里只是列舉出常用屬性及屬性的值類型,如姓名、價格、時間等3個屬性,類型分別是string、float和time。數(shù)據屬性的定義如圖6所示。

      圖6 數(shù)據屬性的定義

      2.2.5 定義概念類的實例

      創(chuàng)建實例在“Individual”視圖中完成,本文以概念類中“省”和省份的名稱為例來介紹定義實例。選中概念類“省”,在“Instance Brower”中點擊新建按鈕創(chuàng)建實例,為實例定義名稱,并添加相應數(shù)據屬性。例如,在“長白山”實例上,我們定義了多個數(shù)據屬性,如門票價格、時間和級別。界面如圖7和圖8所示。

      圖7 “長白山”實例定義及數(shù)據屬性

      圖8 “省”的實例定義

      3 系統(tǒng)實驗與數(shù)據分析

      第一組實驗從收獲率和響應速度兩方面比較基于關鍵字主題爬蟲和基于本體學習主題爬蟲的差別。通過實驗得到2種爬蟲各項對比數(shù)據,具體內容如表1所示。

      表1 不同爬蟲各項數(shù)據對比表

      通過對比以上數(shù)據,我們得知,基于關鍵字的主題爬蟲和基于本體學習的主題爬蟲在響應速度方面幾乎接近,但是明顯可以看出,在收獲率方面,爬蟲二要優(yōu)于爬蟲一。

      第二組實驗關于本體學習中本體概念提取方法的對比,比較采用統(tǒng)計詞頻的方法和采用混合方法提取本體概念的準確率。如表2所示。

      表2 不同提取概念方法數(shù)據對比表

      通過對比以上數(shù)據,我們發(fā)現(xiàn)在花費時間方面幾乎接近的前提下,混合方法提取概念的準確率明顯高于基于統(tǒng)計詞頻的方法提取概念的準確率。

      4 結語

      本系統(tǒng)中還存在一定不足,比如在利用網頁中超鏈接結構判斷網頁的相關度中,不能很好地解決網頁鏈接的隧道問題,需要進一步完善與改進。

      [1]周立柱,林玲.聚焦爬蟲技術研究綜述[J].計算機應用,2005,25(9):1965-1969.

      [2]Neches R,F(xiàn)ikes R E,Gruber T R,etc.Enabling Techenology for Knowledge Sharing[J].AI Magazine,1991,12(3):36-56.

      [3]Studer R,Benjamins V R,F(xiàn)enselD.Knowledge Engineering,Principles and Methods[J].Data and Knowledge Engineering,1998,25(1-2):161-197.

      [4]馮志勇.本體論工程及其應用[M].北京:清華大學出版社,2007:20-46.

      猜你喜歡
      爬蟲實例本體
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      利用網絡爬蟲技術驗證房地產灰犀牛之說
      基于Python的網絡爬蟲和反爬蟲技術研究
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      利用爬蟲技術的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      大數(shù)據環(huán)境下基于python的網絡爬蟲技術
      電子制作(2017年9期)2017-04-17 03:00:46
      《我應該感到自豪才對》的本體性教學內容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      完形填空Ⅱ
      完形填空Ⅰ
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      哈巴河县| 项城市| 望都县| 西贡区| 松阳县| 广河县| 靖边县| 麦盖提县| 昌黎县| 凤山市| 九龙坡区| 武平县| 六盘水市| 商都县| 子长县| 万盛区| 茂名市| 永定县| 德安县| 宿州市| 大同县| 阿拉尔市| 怀柔区| 乡城县| 田东县| 岳阳市| 仪征市| 赤城县| 海丰县| 林甸县| 清镇市| 钟祥市| 双鸭山市| 安龙县| 卫辉市| 蒲城县| 丹江口市| 包头市| 陆川县| 屯留县| 宜黄县|