利用Python語言爬取農(nóng)產(chǎn)品網(wǎng)站的技術研究

2018-07-27 10:09:52徐東升張昊辰

環(huán)球市場信息導報 2018年21期

徐東升張昊辰

一、刖吾

我國政府非常重視農(nóng)業(yè)的信息化建設，農(nóng)業(yè)信息化已有30多年的歷史，特別是近幾年，基于物聯(lián)網(wǎng)技術、傳感器、移動通信、云計算等技術為基礎的智慧農(nóng)業(yè)…的發(fā)展，農(nóng)業(yè)的信息化建設已經(jīng)融入到農(nóng)業(yè)產(chǎn)業(yè)的各個領域。

隨著農(nóng)業(yè)信息量的加大，如何利用數(shù)據(jù)爬取的方法，幫助農(nóng)業(yè)信息需求者從已存在的海量數(shù)據(jù)中快速定位自身需求的信息，從而使需求與信息匹配，最大程度的發(fā)揮農(nóng)業(yè)信息對農(nóng)業(yè)經(jīng)濟的支撐和引導作用是一個研究點。

二、技術研究

從海量的數(shù)據(jù)中爬取需要的數(shù)據(jù)并入庫是本研究的重點，以從農(nóng)業(yè)信息網(wǎng)（ WWW.nongnet.com）獲取“蘋果”信息為例進行接下來的研究。從農(nóng)業(yè)信息需要者的視角登錄并訪問該網(wǎng)站，打開任意1條“蘋果”的農(nóng)業(yè)信息，需要從首頁開始依次點擊“水果”一>“蘋果”，并點擊大圖列表才能進入具體的頁面。這個過程是非常繁瑣和低效的。對有信息需求者而言，最關注的的就是三個信息，即聯(lián)系人，聯(lián)系方式和地址，可以看到對應網(wǎng)站上的條目分別是“聯(lián)系人”、“手機號碼”、“所在地區(qū)”。加上要查找信息的條件，即“產(chǎn)品品種”，相當于對于任何來自于該網(wǎng)站的信息，最關鍵的只需要首先獲取者以上4條信息即可。

接下來利用python編寫一段程序，將該網(wǎng)站下的基于以上4個關鍵字段進行網(wǎng)頁爬取。部分代碼如下：

resp=requests.get（url，timeout=30）

resp.encoding= 'utf-8'

print（resp.status_code）

products= re.findall（r'pic_divxinxi_ title.+？