• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向地震宏觀異常的主題爬蟲研究1

      2013-11-26 06:47:38張曉東
      震災(zāi)防御技術(shù) 2013年4期
      關(guān)鍵詞:異?,F(xiàn)象爬蟲宏觀

      方 帥 李 林 張曉東

      (中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083)

      引言

      隨著現(xiàn)代社會(huì)信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)超過報(bào)紙和電視等傳統(tǒng)媒體,成為公眾傳播和獲取信息最迅速的傳播平臺(tái)。地震信息作為公眾十分關(guān)注的熱點(diǎn)信息,在網(wǎng)絡(luò)上也有著極高的傳播量,并且在地震發(fā)生的前后一段時(shí)間內(nèi)具有爆炸性的增長。在這些地震信息中,有一類信息是描述地震宏觀異?,F(xiàn)象的,這類信息與地震的發(fā)生之間存在相關(guān)性,因此許多科學(xué)家致力于研究如何獲取網(wǎng)絡(luò)上的宏觀異常信息,并篩選和評(píng)價(jià)網(wǎng)絡(luò)上的這些地震宏觀異常信息,以期對(duì)地震的預(yù)測(cè)預(yù)報(bào)服務(wù)。網(wǎng)絡(luò)宏觀異常信息和其他網(wǎng)絡(luò)信息一樣日益龐大,采用傳統(tǒng)的人工檢索的方式采集這類信息無疑費(fèi)時(shí)費(fèi)力,這就要求我們采用一種新的自動(dòng)采集方式來獲取這類信息。

      傳統(tǒng)的網(wǎng)絡(luò)信息自動(dòng)獲取技術(shù),主要指網(wǎng)絡(luò)爬蟲技術(shù)。通過網(wǎng)絡(luò)爬蟲,可以盡可能多地爬取網(wǎng)絡(luò)信息頁面,在搜索引擎等信息檢索領(lǐng)域有著重大應(yīng)用。但這種技術(shù)在獲取特定的網(wǎng)絡(luò)信息,例如地震宏觀異?,F(xiàn)象時(shí),依然會(huì)采取原有的信息采集方式,消耗大量系統(tǒng)資源、網(wǎng)絡(luò)帶寬和時(shí)間,如何提高信息采集效率是本文的研究內(nèi)容。本文旨在使用主題爬蟲技術(shù),改進(jìn)原有的網(wǎng)絡(luò)爬蟲信息獲取方式,提高特定事件信息的獲取效率。

      1 主題爬蟲技術(shù)簡介

      網(wǎng)絡(luò)爬蟲是一種根據(jù)既定規(guī)則自動(dòng)抓取網(wǎng)頁信息的程序或者腳本。它從一個(gè)初始的URL鏈接或者URL集開始訪問,將訪問到的網(wǎng)頁或者網(wǎng)絡(luò)文檔中所包含的URL放入待訪問的URL隊(duì)列中,之后從隊(duì)列中取出URL繼續(xù)訪問,然后重復(fù)以上活動(dòng),直至滿足結(jié)束條件為止。

      主題爬蟲是在網(wǎng)絡(luò)爬蟲技術(shù)上發(fā)展而來的,主要通過對(duì)頁面內(nèi)主題內(nèi)容的鑒別,確定爬蟲URL訪問順序,并且根據(jù)對(duì)主題的判定,確定頁面的取舍。因此主題爬蟲的核心內(nèi)容是爬取策略的選取。主要的爬取策略分為三大類:基于文本啟發(fā)式的策略;基于Web連接分析的策略;基于分類器的策略。

      基于文本的啟發(fā)式的策略是最早出現(xiàn)的主題爬蟲采用的策略。1994年,Debra等(1994)提出了一種主題爬蟲的雛形,名為Fish Search。1998年,Hersovicim等(1998)在Fish Search基礎(chǔ)上改進(jìn)提出了Shark Search算法。同年,Cho等(1998)也提出了Best First Search算法,他利用了已爬取的網(wǎng)頁進(jìn)行待訪問網(wǎng)頁主題相關(guān)性的預(yù)測(cè),從而確定URL的訪問順序。

      基于Web連接分析的策略,起源于Brin等(1998)的Page Rank算法,這個(gè)算法用于Google搜索引擎的搜索結(jié)果排序。利用PR值可以方便地調(diào)整URL訪問序列,但問題是網(wǎng)絡(luò)重要度更大的網(wǎng)頁不一定與主題相關(guān)。

      基于分類器的策略,主要基于幾種常用的分類數(shù)學(xué)模型,如:SVM分類器、貝葉斯分類器、BP神經(jīng)網(wǎng)絡(luò)分類器等。例如:1999年Chakrabarti提出了基于樸素貝葉斯分類法,這個(gè)分類器在只有一個(gè)主題的爬蟲系統(tǒng)中效果很好,對(duì)于爬取的網(wǎng)頁可以進(jìn)行準(zhǔn)確的分類。

      上述幾類爬取策略在實(shí)現(xiàn)難度,適用領(lǐng)域,算法效率方面都有不同的優(yōu)缺點(diǎn)。對(duì)于不同主題,應(yīng)當(dāng)充分考慮目標(biāo)主題及目標(biāo)信息的特點(diǎn),選取合適的爬取策略,設(shè)計(jì)有針對(duì)性的主題爬蟲。對(duì)于地震宏觀異?,F(xiàn)象這個(gè)主題而言,可能發(fā)生異常的事物主體在以往的資料中多有記錄,因此可以采取文本啟發(fā)式的策略,將與地震宏觀異?,F(xiàn)象有關(guān)的詞語作為主題描述詞,挖掘頁面內(nèi)容與主題描述詞組的相關(guān)性,利用Best First Search的方式預(yù)測(cè)待訪問網(wǎng)頁鏈接的主題相關(guān)性,從而形成符合地震宏觀異?,F(xiàn)象主題的主題爬蟲爬取策略,并獲取網(wǎng)絡(luò)中的地震宏觀異常信息。

      2 主題爬蟲方案設(shè)計(jì)

      2.1 主題爬蟲框架

      本文設(shè)計(jì)的主題爬蟲是在Heritrix的基礎(chǔ)上進(jìn)行的二次開發(fā)。Heritrix是Source Forge上的開源產(chǎn)品,是一個(gè)JAVA語言下的爬蟲框架。它是由一系列組件構(gòu)成的,開發(fā)者可以根據(jù)自己的需要方便地修改和擴(kuò)展各個(gè)組件,來定制一個(gè)屬于自己的爬蟲。Heritrix主要包括:范圍部件、邊界部件、處理器鏈。范圍部件主要根據(jù)規(guī)則決定進(jìn)入訪問隊(duì)列的 URL;邊界部件跟蹤將被訪問的URL和已訪問的URL,選擇下一個(gè)待訪問的 URL鏈接,去除已處理的URL;處理器鏈包含幾個(gè)處理器獲取URL,分析結(jié)果并將其傳給邊界部件(孫庚等,2010)。Heritrix的框架構(gòu)圖如圖1所示。

      圖1 Heritrix框架圖Fig. 1 Framework of Heritrix

      從圖1可以看到Heritrix的主要組件:CrawlOrder、CrawlController、Frontier、Processor Chains。Heritrix的工作流程為:CrawlController是Heritrix的控制器,由它開始一次任務(wù);CrawlOrder決定這次抓取工作的起點(diǎn),從Frontier取出URL,傳遞給ProcessorChains中的線程池;ProcessorChains控制爬取線程,訪問并返回網(wǎng)頁信息,從中獲取發(fā)現(xiàn)新的URL交由Frontier;Frontier通過對(duì)ProcessorChains下載的網(wǎng)頁分析并獲取新的URL,根據(jù)訪問策略提供新的URL給CrawlOrder,繼續(xù)爬取工作。當(dāng)滿足任務(wù)結(jié)束條件時(shí),由CrawlController結(jié)束整個(gè)任務(wù)。

      初始 URL集應(yīng)當(dāng)選擇與地震宏觀異常信息相關(guān)的網(wǎng)站,通過對(duì)網(wǎng)絡(luò)上地震相關(guān)網(wǎng)站的查詢與搜集,共選擇198個(gè)地震專業(yè)網(wǎng)站,24個(gè)新聞門戶網(wǎng)站作為初始的URL集。對(duì)于定制的主題爬蟲,根據(jù)爬取策略和主題內(nèi)容重寫Frontier組件即可。在Frontier組件中,有三個(gè)接口是實(shí)現(xiàn)地震宏觀異常主題判別與爬取策略的關(guān)鍵,它們分別是:Finished、Schedule、Next。Finished接口負(fù)責(zé)分析ProcessorChains下載的頁面,從中取出URL,而計(jì)算主題相關(guān)性正需要進(jìn)行頁面分析,因此需要在這里重寫該接口,添加相關(guān)度計(jì)算模塊,利用地震宏觀異常主題描述詞組與相關(guān)度計(jì)算算法,計(jì)算該頁面的主題相關(guān)度與頁面內(nèi)URL鏈接的相關(guān)度。之后,根據(jù)計(jì)算出的相關(guān)度,利用Schedule接口調(diào)度 URL隊(duì)列,最后利用Next取出需要爬取的URL交予CrawlOrder,實(shí)現(xiàn)爬蟲的主題判別與爬取策略。

      2.2 地震宏觀異常主題的表示

      所謂地震的宏觀異?,F(xiàn)象,就是人的感官可以直接察覺到的,或者利用一些簡單的工具可以觀測(cè)到的與地震的發(fā)生具有一定聯(lián)系的自然現(xiàn)象。地震的宏觀異常現(xiàn)象表現(xiàn)形式復(fù)雜多樣,根據(jù)國內(nèi)外有關(guān)資料,異常的種類多達(dá)幾百種,異常的現(xiàn)象多達(dá)幾千種,大體上可分為動(dòng)植物異常、地下水異常、地形變異常、電磁異常、氣象異常等。通過對(duì)一些國內(nèi)權(quán)威機(jī)構(gòu)出版的地震宏觀異常資料查閱分析,共得出10大類,216小類異?,F(xiàn)象(中國地震局監(jiān)測(cè)預(yù)報(bào)司,2010)。

      由于網(wǎng)絡(luò)上的地震宏觀異常信息主要以文本信息為主,所以已確定的異常現(xiàn)象類別選取一定數(shù)量的關(guān)鍵詞用于描述地震宏觀異?,F(xiàn)象這個(gè)主題。一條完整且有價(jià)值的地震宏觀異?,F(xiàn)象應(yīng)當(dāng)具備時(shí)間、地點(diǎn)、事物主體、經(jīng)過、結(jié)果五大組成部分。其中與地震異常相關(guān)的主要是事物主體、經(jīng)過、結(jié)果三個(gè)部分。由于地震宏觀異常的具體現(xiàn)象種類繁多,對(duì)單一事物某類行為是否屬于地震宏觀異常需要特別分析,在此主要選擇可能發(fā)生地震宏觀異?,F(xiàn)象的事物主體作為主題相關(guān)詞。同時(shí),為了確保異常信息與地震相關(guān),最好采集到的信息已經(jīng)包含對(duì)該現(xiàn)象是否是地震宏觀異?,F(xiàn)象的判斷。關(guān)鍵詞的選取如表1所示。

      表1 地震宏觀異常現(xiàn)象主題關(guān)鍵詞Table 1 Keywords of earthquake macro-anomaly

      2.3 主題相關(guān)度計(jì)算

      主題相關(guān)度的計(jì)算應(yīng)當(dāng)達(dá)到兩個(gè)方面的目的:判別當(dāng)前頁面的相關(guān)性;預(yù)測(cè)待訪問URL的相關(guān)性。

      2.3.1 當(dāng)前頁面相關(guān)性

      由于主題關(guān)鍵詞已經(jīng)確定,因此計(jì)算主題相關(guān)性采取向量空間模型的方法較好,可以將關(guān)鍵詞中的詞語視為該向量空間的特征。因此對(duì)于關(guān)鍵詞組有特征向量:

      式中,MainKeyWords為異常的事物主體關(guān)鍵詞組特征向量;ExtreKeyWords為異常判別的關(guān)鍵詞組特征向量。

      對(duì)于一個(gè)頁面而言,由于其結(jié)構(gòu)化的特性,包含了不同的內(nèi)容塊,如:導(dǎo)航塊、廣告塊、主體塊等,因此可以利用頁面標(biāo)簽及內(nèi)容對(duì)頁面進(jìn)行分塊??梢缘玫巾撁鎯?nèi)容塊的特征向量:

      通過以上步驟,可以將當(dāng)前待處理的頁面文本特征化,使用向量表示當(dāng)前頁面。之后使用向量夾角余弦來計(jì)算主題相關(guān)度:

      式中,w代表權(quán)值,對(duì)于不同向量的權(quán)值,其計(jì)算公式也不同。

      同時(shí),由于頁面文本分為不同的文本塊,因此對(duì)于異常的事物主體關(guān)鍵詞組特征向量MainKeyWords,其第i個(gè)特征權(quán)值有:

      式中,,ijtf為關(guān)鍵詞i在j內(nèi)容塊中的詞頻;itl為第i個(gè)關(guān)鍵詞的詞長;jcbL為j內(nèi)容塊的文本長度;jcbi為j內(nèi)容塊的重要度。計(jì)算方法為該部分頁面代碼占頁面內(nèi)總代碼的百分比。

      對(duì)于異常判別的關(guān)鍵詞組特征向量ExtreKeyWords,其第i個(gè)特征權(quán)值有:

      由于異常判別這類關(guān)鍵詞并不是必需的,因此為防止頁面中未出現(xiàn)該類關(guān)鍵詞時(shí),該權(quán)值為0,故設(shè)其權(quán)值+1。

      對(duì)于頁面內(nèi)容塊的特征向量ContentBlock,其第i個(gè)特征權(quán)值有:

      通過上述算法可以計(jì)算得出當(dāng)前頁面的相關(guān)度Topic。設(shè)閾值M,當(dāng)Topic>M時(shí),則認(rèn)為當(dāng)前頁面符合地震宏觀異?,F(xiàn)象這個(gè)主題,保存它的頁面內(nèi)容,URL鏈接,主題相關(guān)度值、標(biāo)題、時(shí)間等信息,以便進(jìn)一步爬取和進(jìn)行下一步信息處理。這里的M值將由試驗(yàn)確定。

      2.3.2 URL相關(guān)性

      得到頁面的相關(guān)度后,需要對(duì)頁面內(nèi)的URL進(jìn)行預(yù)測(cè)及排序。URL相關(guān)度的計(jì)算一般考慮URL地址、錨文本、上下文相關(guān)度,在這里考慮錨文本和上下文相關(guān)度,使用頁面相關(guān)度作為上下文相關(guān)度(劉朋等,2009)。其計(jì)算公式為:

      式中,itnf、itmf分別為事物主體關(guān)鍵詞和異常判別關(guān)鍵詞的詞頻;itnl、itml為事物主體關(guān)鍵詞和異常判別關(guān)鍵詞的詞長;urlL為錨文本長度。

      通過計(jì)算Topicurl并與URL隊(duì)列中非初始URL比較排序,然后插入U(xiǎn)RL隊(duì)列相應(yīng)的位置中。至此,完成URL訪問策略的制定與主題相關(guān)度的計(jì)算,進(jìn)入常規(guī)的爬蟲工作流程。對(duì)于Heritrix,其URL隊(duì)列的控制主要由Frontier組件完成,因此重寫Frontier組件中相應(yīng)接口即可,主要是負(fù)責(zé)ProcessorChains中完成URL的下載后進(jìn)行鏈接抽取和頁面相關(guān)度計(jì)算的Finished,以及負(fù)責(zé)處理URL隊(duì)列的Schedule和負(fù)責(zé)提供下一個(gè)Next。

      3 實(shí)驗(yàn)分析

      實(shí)驗(yàn)的目的主要是為了確定頁面相關(guān)度的閾值R以及比較添加主題相關(guān)性預(yù)測(cè)的爬蟲,和為具備此項(xiàng)功能的爬蟲采集結(jié)果,共設(shè)計(jì)了兩項(xiàng)實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境為臺(tái)式PC機(jī),中央處理器為core2雙核2.7GHz,2G內(nèi)存,32位WIN7操作系統(tǒng)。所使用的Heritrix爬蟲為1.14.4版本,在Eclipse環(huán)境下,采用的JRE1.7版本。

      第一項(xiàng)實(shí)驗(yàn)為確定頁面相關(guān)度的閾值R,設(shè)定爬取線程為10,爬取深度為3,時(shí)間為900s,分別設(shè)定R值為0.1、0.3、0.5、0.7、0.9時(shí)進(jìn)行爬取,結(jié)果如表2所示。

      表2 閾值R實(shí)驗(yàn)結(jié)果Table 2 Experimental results of threshold value R

      由該實(shí)驗(yàn)結(jié)果可以看出,當(dāng)R值超過0.5后,符合主題的網(wǎng)頁急速減少,說明主題爬蟲的針對(duì)性更強(qiáng)。因此若想獲取更加準(zhǔn)確的網(wǎng)頁,應(yīng)當(dāng)將R值設(shè)置超過0.5。

      第二項(xiàng)實(shí)驗(yàn)為測(cè)試主題爬蟲與傳統(tǒng)爬蟲的效果比較。設(shè)定主題爬蟲R為0.5,利用相關(guān)度計(jì)算模塊計(jì)算傳統(tǒng)爬蟲的爬取結(jié)果,實(shí)驗(yàn)時(shí)間為900s,結(jié)果如表3所示。

      表3 主題爬蟲效果實(shí)驗(yàn)結(jié)果Table 3 Experimental results of the topic crawler

      由表3可以看出,雖然主題爬蟲在單位時(shí)間內(nèi)爬取數(shù)量不及傳統(tǒng)爬蟲,但獲取符合要求的信息的效率大大強(qiáng)于傳統(tǒng)爬蟲,這說明主題爬蟲在面向地震宏觀異?,F(xiàn)象這個(gè)主題的網(wǎng)絡(luò)信息獲取方面具有優(yōu)勢(shì)。

      4 結(jié)束語

      主題爬蟲是較好的地震宏觀異?,F(xiàn)象信息的自動(dòng)采集方式,但是其爬取策略的制定和主題相關(guān)性的判別依然是問題的難點(diǎn)。由于地震宏觀異?,F(xiàn)象本身的復(fù)雜多樣,目前的主題表述仍然是不足的,因此需要進(jìn)一步的研究,豐富主題關(guān)鍵詞組,在主題相關(guān)性上進(jìn)行進(jìn)一步優(yōu)化,這樣的主題爬蟲將能夠更好地解決地震信息采集問題。

      劉朋,林泓,高德威,2009. 基于內(nèi)容和鏈接分析的主題爬蟲策略. 計(jì)算機(jī)與數(shù)字工程,37(1):22—26.

      孫庚,馮艷紅,于紅等,2010. 一種基于Heritrix的網(wǎng)絡(luò)主題爬蟲算法——以漁業(yè)信息網(wǎng)絡(luò)為例. 軟件導(dǎo)刊,(5):47—49.

      中國地震局監(jiān)測(cè)預(yù)報(bào)司,2010. 地震宏觀異常摘編. 北京:地震出版社.

      Brin S., Page L., 1998. The anatomy of a large-scale hypertexual Web search engine. See: B. Furht. Proc. of the 7th World Web Conference, Brisbane [sn]. 30 (1): 107—117.

      Cho J., Garciam H., Page L., 1998. Efficient crawling through URL ordering. See: Computer Networks and ISDN Systems. 30 (17): 161—172.

      Debra P., HouBen G., Kornatzky Y. et al., 1994. Information retrieval in distributed hypertexts. See: M. Diligenti.Proc. of the 4th Riao Conference, NewYork. 23 (25): 481—491.

      Hersovicim, Jacovim, Maarekys, 1998. The Shark-Search algorithm: an application tailored Web sitemapping. See:H. Philip. Proc. of the 7th International World Wide Web Conference, Brisbane [sn]. 2 (10): 65—74.

      猜你喜歡
      異?,F(xiàn)象爬蟲宏觀
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      變壓器運(yùn)行中的異?,F(xiàn)象與故障處理
      電子制作(2017年7期)2017-06-05 09:36:14
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      宏觀與政策
      前向散射能見度儀的常見異?,F(xiàn)象處理及日常維護(hù)
      宏觀
      河南電力(2016年5期)2016-02-06 02:11:23
      DYF387S1基因座分型異?,F(xiàn)象
      食管疾病(2015年3期)2015-12-05 01:45:11
      RFCCU泵組水聯(lián)運(yùn)異?,F(xiàn)象原因分析及處理
      石狮市| 濉溪县| 杭锦旗| 延长县| 北流市| 上饶县| 满城县| 白水县| 安阳市| 嘉黎县| 桦川县| 辰溪县| 久治县| 寻甸| 和龙市| 朝阳区| 清镇市| 原阳县| 蓬莱市| 兴安盟| 翁源县| 贵南县| 新巴尔虎右旗| 海阳市| 错那县| 万盛区| 航空| 宜阳县| 白山市| 昌吉市| 襄汾县| 湾仔区| 神农架林区| 丁青县| 札达县| 民县| 安龙县| 道真| 麻城市| 绍兴市| 玉门市|