淺談利用paython語言完成電商網(wǎng)站商品信息的爬取代碼設(shè)計(jì)

2018-03-21 06:59:10梁思遠(yuǎn)成都市鐵路中學(xué)

數(shù)碼世界 2018年2期

梁思遠(yuǎn) 成都市鐵路中學(xué)

1 引言

現(xiàn)在網(wǎng)上購物已成為人們生活的一部分，各類購物網(wǎng)站中蘊(yùn)含著巨大商品信息和商品價(jià)格。但是，因?yàn)樵谫徫锞W(wǎng)站中存在大量的商家，同一個(gè)商品的報(bào)價(jià)存在著差異，對于購買客戶來說價(jià)格比較是一個(gè)比較枯燥煩瑣的問題，因此，許多技術(shù)成熟的科研團(tuán)隊(duì)自行開發(fā)爬蟲系統(tǒng)來獲取商品信息和價(jià)格供購買客戶進(jìn)行價(jià)格比較，我們在這兒只是探討一下爬蟲技術(shù)的簡單實(shí)現(xiàn)。

Python 作為一個(gè)語法簡潔的程序設(shè)計(jì)語言，對于爬蟲開發(fā)上有得天獨(dú)厚的優(yōu)勢，在模擬瀏覽器行為登入網(wǎng)站時(shí)，Python 相比于 Java，C#，C++等擁有更簡潔抓取接口，當(dāng)模擬 session/cookie 的存儲和設(shè)置時(shí)，Python 提供諸多優(yōu)秀的第三方包譬如 Requests。在進(jìn)行網(wǎng)頁抓取后的處理工作時(shí)，Python 提供的 BeautifulSoup 庫能用極簡短的代碼完成過濾html 標(biāo)簽，提取文本的工作。

2 利用Python語言實(shí)現(xiàn)的爬蟲代碼

[1]林曉麗,胡可可,胡青.基于 Python 的微博用戶關(guān)系挖掘研究[J].情報(bào)雜志,2014,33(6):144-148.

[2]陳政伊袁云靜賀月錦武瑞軒基于 Python 的微博爬蟲系統(tǒng)研究 [J].大眾科技,2017年8月第19卷216期:8-11.

[3]周中華，張惠然，謝江 . 基于 Python 的新浪微博數(shù)據(jù)爬蟲 [J].計(jì)算機(jī)應(yīng)用，2014，34( 11) : 3131 - 3134

[4]Shih-Yu Huang,Yeuan-Kuen Lee,Graeme Bell,Zhan-he Ou,et al. An efficient segmentation algorithm for CAPTCHAs with line cluttering and character warping[J].Multimedia Tools and Applications,2009,48(2):267-289.