• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Web爬蟲檢測技術綜述

      2012-11-28 03:42:36吳曉暉紀星
      湖北汽車工業(yè)學院學報 2012年1期
      關鍵詞:閥值爬蟲日志

      吳曉暉 ,紀星

      (1.湖北汽車工業(yè)學 院經(jīng)管學院,湖北十堰42002;2.湖北省金螞蟻網(wǎng)絡有限公司,湖北十堰442002)

      0 前 言

      隨著互聯(lián)網(wǎng)的不斷發(fā)展,搜索引擎技術的越來越普及,帶來的弊端是許多搜索引擎網(wǎng)絡爬蟲大量地占據(jù)了互聯(lián)網(wǎng)帶寬。一旦一個中型的網(wǎng)站被技術不精的惡意或者非允許的網(wǎng)絡爬蟲爬取數(shù)據(jù),很可能使得網(wǎng)站速度降低甚至不能訪問。還有,好多的網(wǎng)絡爬蟲是以非法獲取數(shù)據(jù)為目的,把獲取的數(shù)據(jù)放到網(wǎng)站,制造虛假的PV,或者以獲得非法商業(yè)利潤為目的,例如:在點擊付費的網(wǎng)絡廣告中,利用網(wǎng)絡蜘蛛來模仿用戶點擊獲取付費。因此,網(wǎng)絡爬蟲不僅給網(wǎng)絡帶來沉重的負擔,使得網(wǎng)站性能大大降低,同時還會帶來非法盜竊數(shù)據(jù),隱私,知識產(chǎn)權,非法獲取商業(yè)利潤等問題,已經(jīng)嚴重妨礙了與互聯(lián)網(wǎng)相關的產(chǎn)業(yè)的健康發(fā)展。

      為消除惡意網(wǎng)絡爬蟲帶來的危害,國內(nèi)外相關學者,高校等對網(wǎng)絡爬蟲檢測識別技術進行了廣泛深入的研究。在國外,研究爬蟲檢測技術的代表性學者是塞浦路斯的Marios D.Dikaiakos和Athena Stassopoulou等[1-4],他們在國際知名期刊(Computer Network等)上發(fā)表了關于研究Web爬蟲的系列論文,其中包括通過分析訪問日志來獲取Web爬蟲行為與普通用戶訪問行為的特征區(qū)別[1,4],并在此基礎上采用了概率推理方法(即貝葉斯網(wǎng)絡)[2-3]來進行Web爬蟲檢測,取得了一定的成果。

      國內(nèi)的研究網(wǎng)絡爬蟲檢測技術的代表性學者主要有郭偉剛、菊時光、范純龍等研究的Web Robot識別檢測算法。郭等[9]在文獻中闡述了利用一個事務中人與爬蟲所請求的URL訪問模式不同來檢測網(wǎng)絡蜘蛛,同時還闡述了利用爬行內(nèi)容不同和設置閥值的方法來檢測蜘蛛,但這些方法都要依賴于用戶會話和日志分析,其實時反應慢。于是范等[7]在文獻中闡述了在網(wǎng)頁中設置陷阱的方法來捕獲蜘蛛,這種方法優(yōu)點是能快速實時的檢測出蜘蛛,同時不需根據(jù)事務中人與爬蟲所請求的URL的訪問特征的不同來檢測網(wǎng)絡蜘蛛,另外本文還闡述了利用爬行內(nèi)容不同和設置閥值的方法來檢測蜘蛛,但這些方法都要依賴用戶會話和日志分析,同時陷阱的方法也容易會造成鏈接污染,對正規(guī)合法搜索引擎形成影響,再者其特征明顯,也很容易被新的網(wǎng)絡蜘蛛所規(guī)避。

      1 爬蟲檢測技術的思路和方法

      到目前為止,在爬蟲檢測思路上,主要有2類:1)基于日志中的爬蟲和用戶行為不同特征分析再利用閥值,決策樹,貝葉斯網(wǎng)絡等來進行判斷檢測網(wǎng)絡蜘蛛;2)基于在網(wǎng)頁上布置陷阱方法來捕獲網(wǎng)絡爬蟲。

      1.1 基于特征分析的檢測技術

      基于行為分析的研究都是通過對Web訪問日志進行會話和事務劃分,然后找出會話中和事務訪問蜘蛛和人的訪問行為特征不同,來進行爬蟲檢測。在分析國內(nèi)外相關代表研究文獻基礎上,總結出人和蜘蛛的主要不同訪問行為特征:

      1)最大連續(xù)點擊率 從直覺上來講,用戶在一定的時間內(nèi),存在著一個最大點擊數(shù),……

      2)會話時長網(wǎng)絡蜘蛛的一個會話時長要比人的會話時長大的多的多。

      3)圖片訪問的百分比 在圖片嵌入的網(wǎng)頁中,爬蟲會話中,爬蟲所訪問的圖片所占訪問總量的百分比遠遠少于用戶會話中用戶所訪問的圖片所占訪問總量的百分比。

      4)4XX錯誤響應百分比 在爬蟲訪問請求中,4XX錯誤響應所出現(xiàn)的百分比比用戶訪問請求要更高。

      5)對robot.txt文件的訪問 合法的爬行蜘蛛會請求訪問robot.txt文件,但用戶不會對其訪問。

      6)Url訪問行為 用戶對一個網(wǎng)站的訪問通常都是按照網(wǎng)頁設計者思路走下去,即訪問的鏈接是滿足鏈接關系的。而爬蟲訪問通常是雜亂無章的,一般不會形成鏈接關系路徑。因為爬蟲抓取網(wǎng)頁通常只抓取新的或者已經(jīng)更新了的網(wǎng)頁。

      7)訪問內(nèi)容在 一個會話中,人訪問的內(nèi)容通常是雜亂無章的。而蜘蛛訪問內(nèi)容通常都是有規(guī)律可循的,要么都是Html,或者都是pdf/jpg,MP3等。

      基于以上特征,國內(nèi)外的學者采用了流量分析,機器學習,閥值控制等方法來

      1.2 基于陷阱捕獲的檢測技術

      基于陷阱方法捕獲蜘蛛的思路是通過在網(wǎng)頁上布置陷阱(即用戶看不到而爬蟲容易抓取的與URL相關的文件、網(wǎng)頁等)來捕獲網(wǎng)絡爬蟲。傳統(tǒng)的布置陷阱方法有3種:

      1)利用分布式蜜罐系統(tǒng) Honeynet Project[12],在大范圍內(nèi)捕獲和建設Spider地址庫;

      2)利用陷阱將Spider訪問引導到爬蟲收集網(wǎng);

      3)將Spider訪問引入到能產(chǎn)生無限鏈接循環(huán)的頁面,惡意消耗Spider訪問能力,污染其鏈接和內(nèi)容空間。

      這3種傳統(tǒng)的方式都有其缺點:第1種方式忽略考慮網(wǎng)絡上IP地址是動態(tài)分配的;第2種方式,對于爬蟲網(wǎng)站鏈接加入到黑名單中蜘蛛可以輕易跳過陷阱。第3種方式是損人不利己的方式,消耗蜘蛛資源同時也消耗自己資源。

      基于以上傳統(tǒng)的陷阱方式的缺點,國內(nèi)學者[7]陷阱檢測技術的理論及其模型進行了詳細分析和研究,得出可以通過網(wǎng)頁上布置一些url,這些url事實上是不存在的,如果爬蟲訪問這些url,就被重定向器定向到專門檢測蜘蛛的網(wǎng)頁集合中的理論模型和方法來捕捉蜘蛛。這種方法很好地彌補了傳統(tǒng)方法的缺點,布置靈活方便。

      2 爬蟲檢測技術效果評價

      由于基于爬蟲檢測技術而開發(fā)的識別分類器是二分類,即識別爬蟲類和用戶訪問類。因此對于爬蟲檢測方法效果的評價主要是基于精度(Precision),召回率(Recall)和F1-measure。其假設在集合中爬蟲類的訪問有N個,那么經(jīng)過識別分類器分類后,分出屬于爬蟲類的正確和錯誤分類和屬于非爬蟲類的正確和錯誤分類,其結果如表1所示。

      表1 爬蟲類識別分類情況

      根據(jù)表1,其檢測方法的定義如下:

      1)正確率:P=TP/(TP+TF),衡量原本是爬蟲類的劃為爬蟲類的精度。

      2)召回率:R=TP/(TP+FP),衡量原本屬于爬蟲類的正確識別能力。

      3)F1_measure=2PR/(P+R),是衡量一個爬蟲識別分類器的正確率和召回率的一個綜合指標,比較全面的測量爬蟲識別分類器的總體性能。

      2.1 各種爬蟲檢測技術的效果比較

      到目前為止,對于爬蟲檢測技術來講,還沒有建立一個公開權威的測試數(shù)據(jù)集,各個學者所采用的數(shù)據(jù)來源各不相同,大部分是來自于大學網(wǎng)站上的訪問日志數(shù)據(jù),記錄有幾千條到幾萬條不等,百萬條記錄以上的訪問日志數(shù)據(jù)很少。

      表2是各文獻中的實驗結果對比,由于國內(nèi)外的學者所采用的方法不同,如國外學者建立分類器的方法,國內(nèi)學者采用統(tǒng)計閥值的方法;測試數(shù)據(jù)不同,國外選擇人工標好的數(shù)據(jù),國內(nèi)是選擇的原始訪問日志,故國外學者給出了比較精確的測試結果。國內(nèi)學者給出的結果由于會話項目中訪問記錄數(shù)目的限制等原因,例如文獻[5],沒有能按測試三大指標(P,R,F(xiàn)1)給出各個精確測試結果,要么只是給出了部分指標的精確結果,要么只是給出了檢測出的網(wǎng)絡蜘蛛的列表。造成此結果差異的原因主要是采用的方法不同,缺乏權威測試集。例如,從理論上講,閥值限制的方法對于低于閥值的爬蟲,檢測出蜘蛛的百分比幾乎為零,高于閥值檢測的百分比幾乎為100%,所以比較難于進行效果測試。即使這樣,還是根據(jù)以上評價方法對各個網(wǎng)絡蜘蛛檢測技術性能做個大體的對比。

      表2 文獻中的實驗結果對比

      3 存在的問題和挑戰(zhàn)

      總體來講,當今的爬蟲檢測技術對于單點式爬蟲檢測的召回率較高,基本能穩(wěn)定在80%以上[7],但也存在著以下挑戰(zhàn)∶

      1)對于針對某些主題、模仿用戶行為、探測檢測閥值等網(wǎng)絡爬蟲,正確的檢測還面臨著檢測效果不理想的問題。隨著爬蟲檢測技術的不斷提高,惡意爬蟲技術也在不斷進行改進升級,從而達到躲避檢測的目的。例如,一些爬蟲減少單位時間內(nèi)訪問次數(shù),以低于檢測閥值的頻率訪問網(wǎng)站,躲過蜘蛛檢測系統(tǒng)竊取數(shù)據(jù)。

      2)當前國內(nèi)外研究對于爬蟲的身份標識基本都是基于IP地址的,這樣的身份標識很不合理,因為互聯(lián)網(wǎng)上的好多IP地址也是動態(tài)分配的,不是一直不變的,同時存在著有一個IP地址可能會有多個用戶共同使用,來源于此IP中的爬蟲或許只是其中一個或幾個用戶發(fā)出的,不一定是所有共享此IP地址的用戶發(fā)出的。因此基于IP標識爬蟲身份的方法是不合理的。

      3)這些成果研究的實驗數(shù)據(jù)基本上是來自于大學網(wǎng)站的訪問日志,研究的爬蟲更多的是正規(guī)的網(wǎng)絡爬蟲特征,因此此成果是否具有很好地普實性,還有待于進行進一步的驗證。同時,其研究所用培訓數(shù)據(jù)是2個月的訪問日志,測試數(shù)據(jù)是1個月的訪問日志。但是對于這樣1個月時間范圍內(nèi)數(shù)據(jù)總體測試效果,到了具體的實時的時間內(nèi)識別網(wǎng)絡爬蟲的效果是否理想,作者也沒有進一步的進行深入的研究。

      4)布置陷阱捕獲的方法對合法訪問蜘蛛產(chǎn)生鏈接污染。

      5)提出布置陷阱方法的學者在理論上還缺考慮到一個特殊情況,即非法用戶也可以通過正當搜索引擎獲得自己想要的數(shù)據(jù),例如,可以通過google搜索返回的結果,提取特定主題相關的信息,即利用google具體網(wǎng)站限定功能,對某個具體網(wǎng)站返回的搜索結果進行提取。

      4 結 語

      本文從網(wǎng)絡蜘蛛特征和檢測方法出發(fā),對其進行了優(yōu)點和存在的問題和挑戰(zhàn)進行了分析總結?;诖?,筆者認為,要想達到實時的準確的識別惡意蜘蛛并加以拒絕,可以采用陷阱結合內(nèi)容加密的方式來防止非法蜘蛛獲取數(shù)據(jù)。這也是作者接下來要研究的方法。

      [1]Marios D.Dikaiakos,Athena Stassopoulou,Loizos Papage Orgiou.An Investigation of Web Crawler Behaviour∶Chracterization and Metrics[J].Computer Communication,2005,28∶880-897.

      [2]Athena Stassopoulou,Marios D.Dikaiakos.Web Robot Detection∶A Probabilistic Reasoning Approach[J].Computer Networks,2009,53∶265-278.

      [3]Athena Stassopoulou,Marios D.Dikaiakos.A Probabilistic Reasoning Approach for Discovering Web Crawler Session[D].LNCS 4505,2007:265-272.

      [4]Marios D.Dikaiakos,Athena Stassopoulou,Loizos Papage Orgiou.Characterizing Crawler Behavior from Web-Server Access Logs[D].LNCS 2738,2003:369-378.

      [5]郭偉剛,菊時光.基于訪問內(nèi)容類型統(tǒng)計的Web Robot檢測算法[J].計算機科學,2005(32)∶179-181.

      [6]Tan Pang-Ning,Kumar v.Discovery of Robot Sessions based on their Navigational Patterns[J].Data Mining and Knowledge Discovery,2002,6(1):9~35k.

      [7]范純龍,袁濱,余周華,徐蕾.基于陷阱技術的網(wǎng)絡爬蟲檢測[J].計算機應用,2010(7)∶1782-1784.

      [8]郭偉剛,菊時光.電子商務網(wǎng)站中Web Robot的檢測技術[J].計算機工程,2005(12):219-221.

      [9]郭偉剛,菊時光.一個基于實務分析的Web Robot檢測算法[J].計算機應用,2005(7):1580-1583.

      猜你喜歡
      閥值爬蟲日志
      利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
      一名老黨員的工作日志
      華人時刊(2021年13期)2021-11-27 09:19:02
      基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      光敏傳感器控制方法及使用其的滅蚊器
      傳感器世界(2019年6期)2019-09-17 08:03:20
      基于小波分析理論的橋梁監(jiān)測信號去噪研究
      利用爬蟲技術的Geo-Gnutel la VANET流量采集
      電子測試(2018年1期)2018-04-18 11:53:04
      激光多普勒測速系統(tǒng)自適應閥值檢測算法
      游學日志
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
      電子制作(2017年9期)2017-04-17 03:00:46
      车险| 浮梁县| 淄博市| 稻城县| 普兰县| 庆云县| 东明县| 永定县| 镇安县| 藁城市| 西吉县| 长宁县| 东丽区| 新昌县| 顺义区| 怀宁县| 彭阳县| 腾冲县| 太谷县| 灯塔市| 海宁市| 五华县| 阿坝县| 辽宁省| 克拉玛依市| 高平市| 广平县| 乌拉特中旗| 翁牛特旗| 武宁县| 正定县| 邢台县| 秀山| 昆明市| 邵东县| 新龙县| 鸡泽县| 高雄市| 永兴县| 南京市| 甘泉县|