• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于BP神經(jīng)網(wǎng)絡的主題爬蟲研究

      2019-05-24 14:11:40黃利斌陳慧
      電腦知識與技術(shù) 2019年4期
      關(guān)鍵詞:信息采集主題詞表BP神經(jīng)網(wǎng)絡

      黃利斌 陳慧

      摘要:主題爬蟲已經(jīng)成為當下信息采集的重要方式。傳統(tǒng)的主題爬蟲技術(shù),主題詞與其相關(guān)性權(quán)重是固定不變的,因此,存在隨著爬取頁面的增加而爬準率下降,錯誤率上升的問題。本文采用的主題爬蟲技術(shù),運用BP神經(jīng)網(wǎng)絡,根據(jù)下載網(wǎng)頁的特征,動態(tài)更新主題詞與其相關(guān)性權(quán)重,從而實現(xiàn)隨著爬取頁面的增加而爬準率上升,錯誤率下降。基于BP神經(jīng)網(wǎng)絡的主題爬蟲技術(shù),能提高信息采集的效率,降低因采集錯誤而產(chǎn)生的損失。

      關(guān)鍵詞:主題爬蟲;BP神經(jīng)網(wǎng)絡;信息采集;主題詞表

      中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2019)04-0160-03

      Abstract:Theme crawler has been an important way of obtaining modern information. For traditional theme crawler technology, the theme words and its relevance weights are fixed, which is a problem that the crawl rate decreases and the error rate increases as the number of crawling pages increases. Therefore, we propose a theme crawler technology based on BP neural network, which can dynamically update keywords and their relevance weights according to the characteristics of the downloaded webpage.Intelligent thematic crawler technology based on BP neural network can improve the efficiency of information collection and reduce the loss caused by the acquisition error.

      Key words:Theme crawler; BP neural network; Information Collection; Thesaurus

      1 引言

      互聯(lián)網(wǎng)具有豐富龐大的數(shù)據(jù),為了充分有效地利用互聯(lián)網(wǎng)的信息資源,并快速構(gòu)建專業(yè)知識庫和數(shù)據(jù)庫,應用爬蟲技術(shù)來采集信息是一種方便、快捷和有效的方式[1]。主題爬蟲是一種能在一定時間內(nèi)運用較少的計算資源、網(wǎng)絡資源和存儲資源來盡可能采集更多與主題相關(guān)的網(wǎng)頁文檔的特殊爬蟲技術(shù)[2],它能更好地滿足特地用戶的特地目的。主題爬蟲在抓取頁面之后進行解析,判斷這些頁面是否與主題相關(guān),從而決定是否采集,并且根據(jù)相關(guān)性制定采集的優(yōu)先順序,可以減少采集的數(shù)量,增加網(wǎng)頁文檔與主題的相關(guān)性,提高信息采集的效率,降低信息采集的錯誤率[3]。傳統(tǒng)的主題爬蟲技術(shù)主要基于鏈接地址和主題詞來解析、爬取,其關(guān)鍵詞的權(quán)重是固定不變的,因此,會隨著爬取頁面的增加,爬準率下降和錯誤率上升[4]。

      BP(back propagation)神經(jīng)網(wǎng)絡是目前研究最為成熟、應用最為廣泛的人工神經(jīng)網(wǎng)絡模型之一[5]。由于具有較強的非線性模擬能力、強大的自學習和自適應能力,且結(jié)構(gòu)簡單、可操作性強、具有較好的自學習能力、能夠有效地解決非線性目標函數(shù)的逼近問題等優(yōu)點,因此被廣泛應用于自動控制、模式識別、圖像識別、信號處理、預測、函數(shù)擬合、系統(tǒng)仿真等學科和領(lǐng)域中[6]。

      本文基于BP神經(jīng)網(wǎng)絡的主題爬蟲,主要通過計算網(wǎng)頁中的關(guān)鍵字與主題的相關(guān)性,來判斷此網(wǎng)頁是否符合這個主題。如果符合,下載并放入數(shù)據(jù)庫中,作為BP神經(jīng)網(wǎng)絡計算主題詞權(quán)重的資源。傳統(tǒng)的主題爬蟲技術(shù)運用關(guān)鍵詞來判斷網(wǎng)頁權(quán)重,其關(guān)鍵詞的權(quán)重是固定不變的。而本文采用BP神經(jīng)網(wǎng)絡算法,動態(tài)更新關(guān)鍵詞的權(quán)重,因此,他不僅不會隨著爬取頁面數(shù)量的增加而降低查準率,反而會隨著網(wǎng)頁數(shù)據(jù)庫中頁面的增加而增加查準率,降低錯誤率,實現(xiàn)信息采集效率的提高,降低因采集錯誤而產(chǎn)生的損失。

      2 系統(tǒng)設計

      本文采用的系統(tǒng)設計,在傳統(tǒng)的爬蟲技術(shù)上增加了詞匯權(quán)重處理模塊,動態(tài)更新主題詞與其相關(guān)性權(quán)重。詞匯權(quán)重處理模塊運用優(yōu)化后的BP神經(jīng)網(wǎng)絡算法和改進后的TF-IDF算法,判斷網(wǎng)頁中的關(guān)鍵詞與主題的相關(guān)度[7],篩選出一部分與主題密切相關(guān)的關(guān)鍵詞,作為主題詞,從而建立主題詞表。再判斷網(wǎng)頁中的詞匯與詞表中的詞匯是否相同,如果相同,給予它相應的權(quán)重,所有主題詞權(quán)重之和就是網(wǎng)頁與主題相關(guān)性的權(quán)重。網(wǎng)頁權(quán)重如果大于設置的閾值,下載并保存到數(shù)據(jù)庫中,否則,拋棄網(wǎng)頁。

      如圖1所示,具體流程如下:

      1)通過關(guān)鍵詞爬取部分網(wǎng)頁,放入網(wǎng)頁數(shù)據(jù)庫中;

      2)運用BP神經(jīng)網(wǎng)絡算法,計算出與主題相關(guān)詞匯的權(quán)值;

      3)選取權(quán)值大于閾值的關(guān)鍵詞,作為主題詞,構(gòu)建主題詞表;

      4)運用主題爬蟲,爬取下一個頁面,找到網(wǎng)頁中與主題詞表相同的關(guān)鍵詞,如果大于閾值,則下載到網(wǎng)頁數(shù)據(jù)庫中,否則丟棄;

      5)重復上述步驟,達到需要爬取的數(shù)量。

      3 詞匯處理模塊

      3.1 爬取數(shù)據(jù)的來源

      網(wǎng)頁是由HTML(Hypertext Markup Language)的標記語言,用于組織和標準化其在瀏覽器上的顯示效果[8]。HTML主要運用一些預定義的文檔、標簽來標記文檔的標題、頁面結(jié)構(gòu)和頁面關(guān)系等元素,這些元素共同修飾了網(wǎng)頁內(nèi)容的顯示效果。

      在數(shù)據(jù)爬取過程中,爬蟲程序無法直接判斷網(wǎng)頁與主題的相關(guān)性。因此,采取與瀏覽器處理網(wǎng)頁文檔類似的方式,來了解文檔的價值。瀏覽器系統(tǒng)直接處理的是以HTML標簽為主的網(wǎng)頁源碼,通過這些源碼,來處理網(wǎng)頁中的內(nèi)容。這些半結(jié)構(gòu)化的網(wǎng)頁標簽為本文獲得網(wǎng)頁相關(guān)信息提供了良好的定位,通過了解標簽以及其屬性的含義,可以從中了解到這網(wǎng)頁內(nèi)容所涉及的主題[9]。網(wǎng)頁,通??梢苑譃槿糠郑谝徊糠质?head>標簽所影響的頭部區(qū)域,它一般是對這個頁面的概述,以及說明編碼等狀態(tài)信息;第二部分是標簽所影響的主體部分,它主要顯示網(wǎng)頁的正文;第三部分是標簽所影響的腳注部分,它主要顯示該頁面的所有權(quán)以及建立時間等關(guān)聯(lián)信息。本文選擇擁有網(wǎng)頁主要信息的頭部區(qū)域作為主題相關(guān)性判斷的依據(jù)。

      頭部區(qū)域具有三個描述網(wǎng)頁文檔信息的重要元素、<meta name="Keywords"/>和<meta name="description"/>,第一個是網(wǎng)頁的標題,第二個是網(wǎng)頁文檔的關(guān)鍵字,第三個是網(wǎng)頁的概述,分析上述三個標簽內(nèi)的相關(guān)信息,可以大致判斷出網(wǎng)頁文檔所描述的信息。</p><p>3.2 詞匯權(quán)重處理</p><p>在爬取網(wǎng)頁頭部信息后,運用分詞技術(shù)對信息進行分詞。本文運用TF-IDF這一傳統(tǒng)的詞匯權(quán)重計算方法為關(guān)鍵詞[i]計算本身的權(quán)值[10]。TF-IDF作為詞匯價值的統(tǒng)計方法被廣泛運用在多個領(lǐng)域??紤]到不同的文檔位置代表不同的價值,因此,為不同標簽的關(guān)鍵字建立特別的權(quán)值,使其對其他關(guān)鍵詞更具代表性,增加算法的可操作性和準確度。</p><p>4 實驗設計與數(shù)據(jù)分析</p><p>本系統(tǒng)采用Python語言實現(xiàn),Python擁有豐富的框架和庫,能快速實現(xiàn)基于BP神經(jīng)網(wǎng)絡算法的智能主題爬蟲,操作系統(tǒng)為Windows7,數(shù)據(jù)庫為Mysql,內(nèi)存為4G,硬盤500G。主要爬取的網(wǎng)站為百度百科,百度百科中擁有各個領(lǐng)域和行業(yè)的相關(guān)信息且區(qū)分度高,本文爬取的主題為農(nóng)業(yè),程序運行界面如圖3所示。</p><p>為驗證基于BP神經(jīng)網(wǎng)絡的主題爬蟲的優(yōu)勢,本文比較了基于主題詞表和基于PageRank鏈接的主題爬蟲。如圖4所示,通過對比三種算法的爬準率,爬準率為下載總數(shù)除以爬取總數(shù),可以明顯看到隨著爬取總數(shù)的增加,基于BP神經(jīng)網(wǎng)絡算法的爬準率隨著爬取總數(shù)的增加而增加。如圖5所示,通過對比三種算法的錯誤率,錯誤率為與主題無關(guān)的下載數(shù)除以下載總數(shù)。可以明顯看到隨著爬取總數(shù)的增加,基于BP神經(jīng)網(wǎng)絡算法的錯誤率隨著爬取總數(shù)的增加而降低。</p><p>5 結(jié)束語</p><p>本論文設計了一種基于BP神經(jīng)網(wǎng)絡算法的主題爬蟲,實驗結(jié)果表明,基于BP神經(jīng)網(wǎng)絡算法的主題爬蟲能動態(tài)更新主題詞表,具有隨著爬取數(shù)量的增加,爬準率提升的優(yōu)勢,因此適合需要大量爬取網(wǎng)絡信息資源的相關(guān)業(yè)務,實現(xiàn)提升信息采集的效率,降低信息采集的錯誤率。</p><p>參考文獻:</p><p>[1]于娟,劉強.主題網(wǎng)絡爬蟲研究綜述[J].計算機工程與科學,2015,37(2):231-237.</p><p>[2]朱幸輝.論農(nóng)村信息綜合服務平臺設計[J].農(nóng)村經(jīng)濟與科技,2014,25(6):131-132+134.</p><p>[3]方逵,羅武,朱幸輝.農(nóng)業(yè)知識庫系統(tǒng)設計與實現(xiàn)[J].農(nóng)機化研究,2013,35(5):8-11.</p><p>[4]邢敏玲. 基于網(wǎng)頁分塊的主題爬蟲方法研究[D].重慶大學,2011.</p><p>[5]鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲研究[J].計算機應用研究,2009,26(9):3418-3420+3439.</p><p>[6]孫玲芳,周加波,林偉健,等.基于BP神經(jīng)網(wǎng)絡和遺傳算法的網(wǎng)絡輿情危機預警研究[J].情報雜志,2014,33(11):18-24.</p><p>[7]潘芳,張霞,仲偉俊.基于BP神經(jīng)網(wǎng)絡的微博網(wǎng)絡社群突發(fā)輿情的預警監(jiān)控[J].情報雜志,2014,33(05):125-128.</p><p>[8]許興軍,顏鋼鋒.基于BP神經(jīng)網(wǎng)絡的股價趨勢分析[J].浙江金融,2011(11):57-59+64.</p><p>[9]Wang Ying, Lu Cuijie, Zuo Cuiping.Coal mine safety production forewarning based on improved BP neural network[J].International Journal of Mining Science and Technology,2015,25(02):319-324.</p><p>[10]Zhao Qiu, Ceng Jun Dai, Tao Liu. Design of Theme Crawler for Web Forum[J]. Applied Mechanics and Materials,2014,3147(548).</p><p>[11]H. Hu, Y. J. Ge. Using Web Crawler Technology for Text Analysis of Geo-Events: A Case Study of the Huangyan Island Incident[J]. ISPRS - International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences,2013,XL-4/W3(1).</p><p>[12]Gaiyun He, Can Huang, Longzhen Guo, et al. Identification and Adjustment of Guide Rail Geometric Errors Based on BP Neural Network[J]. Measurement Science Review,2017,17(3).</p><p>【通聯(lián)編輯:唐一東】

      猜你喜歡
      信息采集主題詞表BP神經(jīng)網(wǎng)絡
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      《〈漢語主題詞表〉構(gòu)建研究》
      如何提高卷煙零售市場信息采集的有效性
      基于BP神經(jīng)網(wǎng)絡的旅行社發(fā)展方向研究
      商情(2016年39期)2016-11-21 09:30:36
      計算機網(wǎng)絡技術(shù)在信息工程中的應用
      復雜背景下的手勢識別方法
      BP神經(jīng)網(wǎng)絡在軟件質(zhì)量評價中的應用研究 
      軟件導刊(2016年9期)2016-11-07 18:25:50
      電力信息采集系統(tǒng)中對載波現(xiàn)場測試儀的應用
      苏州市| 枞阳县| 宿州市| 阿尔山市| 新余市| 穆棱市| 临夏市| 宜昌市| 吉安县| 双江| 固阳县| 营山县| 五大连池市| 嘉义市| 庄河市| 松滋市| 务川| 沙雅县| 察雅县| 元江| 定南县| 莫力| 华坪县| 大足县| 邵阳市| 眉山市| 鹤岗市| 商都县| 龙泉市| 德化县| 宁阳县| 赣州市| 南溪县| 锡林浩特市| 汝州市| 宁波市| 巴林左旗| 西丰县| 吐鲁番市| 章丘市| 突泉县|