• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      對反爬蟲網(wǎng)站的應(yīng)對策略

      2017-07-11 08:02:28劉石磊
      電腦知識與技術(shù) 2017年15期
      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲

      劉石磊

      摘要:隨著網(wǎng)絡(luò)的發(fā)展和網(wǎng)絡(luò)爬蟲技術(shù)的普及,越來越多的個人用戶使用了網(wǎng)絡(luò)爬蟲技術(shù)從網(wǎng)站獲取信息,而過多的網(wǎng)絡(luò)爬蟲會對目標(biāo)網(wǎng)站的運(yùn)營造成一定的影響。某些網(wǎng)站為了防止自己的網(wǎng)站不被除搜索引擎以外的網(wǎng)絡(luò)爬蟲訪問,使用了一些反爬蟲技術(shù)。筆者探討了一些常見的反爬蟲措施以及對應(yīng)用了該類機(jī)制的網(wǎng)站的進(jìn)行爬蟲活動的手段和策略。

      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;反爬蟲;反反爬蟲;抓取策略;分布式爬蟲

      1概述

      隨著時代的發(fā)展和社會的進(jìn)步,互聯(lián)網(wǎng)技術(shù)得到了空前的發(fā)展,與此同時,互聯(lián)網(wǎng)容量已經(jīng)達(dá)到了一個空前的規(guī)模據(jù)。搜索引擎巨頭Google透露,在2012年時候,Google的網(wǎng)頁爬蟲Google bot每天都會經(jīng)過大約200億個網(wǎng)頁,并且追蹤著約300億個獨(dú)立的URL鏈接。此外,Google每個月的搜索請求接近1000億次。而支撐這一切背后的技術(shù),就是網(wǎng)絡(luò)爬蟲技術(shù)。

      網(wǎng)絡(luò)爬蟲,通常又被稱作網(wǎng)絡(luò)蜘蛛(Web Spider),是一個可以自動在互聯(lián)網(wǎng)上漫游并可以自動下載網(wǎng)頁的程序或腳本。網(wǎng)絡(luò)爬蟲通常從一個稱為種子集的URL集合開始運(yùn)行,它首先將這些URL全部放入到一個有序的待爬行隊(duì)列里,按照一定的順序從中取出URL并下載所指向的頁面,分析頁面內(nèi)容,提取新的URL并存人待爬行URL隊(duì)列中,如此重復(fù)上面的過程,直到URL隊(duì)列為空或滿足某個爬行終止條件,從而遍歷Web。該技術(shù)最早應(yīng)用于搜索引擎之中,但是隨著需求的增加和技術(shù)的普及,出現(xiàn)了基于某種特殊目的的個人定制化爬蟲,例如對微博內(nèi)容的爬蟲、對CSDN的爬蟲等。人們?yōu)榱耸占承┬枰男畔?,通常會定制好自己的爬蟲,并對目標(biāo)網(wǎng)站進(jìn)行抓取。

      但是,非搜索引擎爬蟲會帶來一些潛在性問題:第一,爬蟲的訪問速度要遠(yuǎn)高于正常人類,相應(yīng)的,爬蟲也會占用更多的目標(biāo)服務(wù)器帶寬,如果大量的用戶都使用了網(wǎng)絡(luò)爬蟲來抓取同一個目標(biāo)網(wǎng)站,那么海量的、高并發(fā)的非人類用戶會顯著地增加目標(biāo)網(wǎng)站的服務(wù)器的負(fù)載,甚至影響其他正常人類用戶的對目標(biāo)網(wǎng)站的訪問速度,導(dǎo)致網(wǎng)絡(luò)擁堵。第二,網(wǎng)站的內(nèi)容是網(wǎng)站提供商的收益來源,網(wǎng)絡(luò)供應(yīng)商出于保護(hù)數(shù)據(jù)的目的,不希望自己的網(wǎng)站被非搜索引擎之外的爬蟲訪問。因?yàn)槠胀ㄓ脩糁粫L問網(wǎng)站部分內(nèi)容,而爬蟲會對全站所有的網(wǎng)頁節(jié)點(diǎn)進(jìn)行掃描,從而遍歷網(wǎng)站中的數(shù)據(jù),降低了網(wǎng)站的競爭力。因此許多網(wǎng)站建立了反爬蟲機(jī)制來抵抗網(wǎng)絡(luò)爬蟲。

      反爬蟲機(jī)制fAnti-Spider),即一系列反爬蟲措施的集合。反爬蟲機(jī)制通過預(yù)處理請求頭、封鎖IP、異步加載、使用加密JS算法、設(shè)置驗(yàn)證碼、等措施達(dá)到封鎖爬蟲的目的。本文探討了一些常見的反爬蟲措施以及對應(yīng)用了該類機(jī)制的網(wǎng)站的進(jìn)行爬蟲活動的手段和策略。

      2常見的反爬蟲措施

      2.1預(yù)處理請求頭

      User-agent是HTTP協(xié)議的中的一個字段,其作用是描述發(fā)出HTYP請求的終端的一些信息。服務(wù)器通常通過這個字段來判斷訪問網(wǎng)站的對象。對于每個瀏覽器,訪問網(wǎng)站都會有其固定的user agent,通常以“Mozilla/4.0”開頭,而網(wǎng)絡(luò)爬蟲的User-agent一般為空缺的,或者以“Serapy”、“Python”等常見爬蟲框架/工具的名稱開頭,所以可以做出如下策略:審查訪問的請求頭,如果請求頭是常規(guī)瀏覽器的形式,判定為人類用戶,如果是其他爬蟲框架的形式,則判定為機(jī)器人用戶,返回403錯誤,禁止訪問。預(yù)處理請求頭是網(wǎng)站管理者技術(shù)實(shí)現(xiàn)最容易,且爬蟲編寫者最容易忽視的技術(shù)。

      猜你喜歡
      網(wǎng)絡(luò)爬蟲
      基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      微信平臺下的教務(wù)信息獲取和隱私保護(hù)方法研究
      基于網(wǎng)絡(luò)爬蟲的電子易購軟件設(shè)計(jì)與實(shí)現(xiàn)
      搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
      淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
      中國市場(2016年23期)2016-07-05 04:35:08
      基于淘寶某商品銷售量監(jiān)控系統(tǒng)
      網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究
      武陟县| 泗水县| 汝南县| 兴城市| 古田县| 团风县| 新疆| 海林市| 达拉特旗| 大田县| 石河子市| 嵩明县| 福安市| 普定县| 灵武市| 临西县| 平度市| 四会市| 麻栗坡县| 裕民县| 莲花县| 夹江县| 谢通门县| 马边| 临夏县| 博乐市| 阿合奇县| 巴马| 高雄县| 葵青区| 东海县| 开原市| 沧州市| 临漳县| 博乐市| 朝阳区| 九龙县| 新田县| 二连浩特市| 临夏市| 白水县|