梁思遠(yuǎn) 成都市鐵路中學(xué)
現(xiàn)在網(wǎng)上購物已成為人們生活的一部分,各類購物網(wǎng)站中蘊(yùn)含著巨大商品信息和商品價(jià)格。但是,因?yàn)樵谫徫锞W(wǎng)站中存在大量的商家,同一個(gè)商品的報(bào)價(jià)存在著差異,對于購買客戶來說價(jià)格比較是一個(gè)比較枯燥煩瑣的問題,因此,許多技術(shù)成熟的科研團(tuán)隊(duì)自行開發(fā)爬蟲系統(tǒng)來獲取商品信息和價(jià)格供購買客戶進(jìn)行價(jià)格比較,我們在這兒只是探討一下爬蟲技術(shù)的簡單實(shí)現(xiàn)。
Python 作為一個(gè)語法簡潔的程序設(shè)計(jì)語言,對于爬蟲開 發(fā)上有得天獨(dú)厚的優(yōu)勢,在模擬瀏覽器行為登入網(wǎng)站時(shí),Python 相比于 Java,C#,C++等擁有更簡潔抓取接口,當(dāng)模擬 session/cookie 的存儲和設(shè)置時(shí),Python 提供諸多優(yōu)秀的第 三方包譬如 Requests。在進(jìn)行網(wǎng)頁抓取后的處理工作時(shí),Python 提供的 BeautifulSoup 庫能用極簡短的代碼完成過濾html 標(biāo)簽,提取文本的工作。
[1]林曉麗,胡可可,胡青.基于 Python 的微博用戶關(guān)系挖掘 研究[J].情報(bào)雜志,2014,33(6):144-148.
[2]陳政伊 袁云靜 賀月錦 武瑞軒基于 Python 的微博爬蟲系統(tǒng)研究 [J].大眾科技,2017年8月第19卷216期:8-11.
[3]周中華,張惠然,謝 江 . 基于 Python 的新浪微博數(shù)據(jù)爬蟲 [J].計(jì)算機(jī)應(yīng)用,2014,34( 11) : 3131 - 3134
[4]Shih-Yu Huang,Yeuan-Kuen Lee,Graeme Bell,Zhan-he Ou,et al. An efficient segmentation algorithm for CAPTCHAs with line cluttering and character warping[J].Multimedia Tools and Applications,2009,48(2):267-289.