徐東升 張昊辰
一、刖吾
我國政府非常重視農(nóng)業(yè)的信息化建設,農(nóng)業(yè)信息化已有30多年的歷史,特別是近幾年,基于物聯(lián)網(wǎng)技術、傳感器、移動通信、云計算等技術為基礎的智慧農(nóng)業(yè)…的發(fā)展,農(nóng)業(yè)的信息化建設已經(jīng)融入到農(nóng)業(yè)產(chǎn)業(yè)的各個領域。
隨著農(nóng)業(yè)信息量的加大,如何利用數(shù)據(jù)爬取的方法,幫助農(nóng)業(yè)信息需求者從已存在的海量數(shù)據(jù)中快速定位自身需求的信息,從而使需求與信息匹配,最大程度的發(fā)揮農(nóng)業(yè)信息對農(nóng)業(yè)經(jīng)濟的支撐和引導作用是一個研究點。
二、技術研究
從海量的數(shù)據(jù)中爬取需要的數(shù)據(jù)并入庫是本研究的重點,以從農(nóng)業(yè)信息網(wǎng)( WWW.nongnet.com)獲取“蘋果”信息為例進行接下來的研究。從農(nóng)業(yè)信息需要者的視角登錄并訪問該網(wǎng)站,打開任意1條“蘋果”的農(nóng)業(yè)信息,需要從首頁開始依次點擊“水果”一>“蘋果”,并點擊大圖列表才能進入具體的頁面。這個過程是非常繁瑣和低效的。對有信息需求者而言,最關注的的就是三個信息,即聯(lián)系人,聯(lián)系方式和地址,可以看到對應網(wǎng)站上的條目分別是“聯(lián)系人”、“手機號碼”、“所在地區(qū)”。加上要查找信息的條件,即“產(chǎn)品品種”,相當于對于任何來自于該網(wǎng)站的信息,最關鍵的只需要首先獲取者以上4條信息即可。
接下來利用python編寫一段程序,將該網(wǎng)站下的基于以上4個關鍵字段進行網(wǎng)頁爬取。部分代碼如下:
resp=requests.get(url,timeout=30)
resp.encoding= 'utf-8'
print(resp.status_code)
products= re.findall(r'pic_divxinxi_ title.+?