• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Scrapy框架的電商數(shù)據(jù)分析平臺

      2017-11-15 11:35:52孫小越王超
      電腦知識與技術(shù) 2017年28期
      關(guān)鍵詞:網(wǎng)絡(luò)爬蟲數(shù)據(jù)分析電子商務(wù)

      孫小越+王超

      摘要:隨著電子商務(wù)的蓬勃發(fā)展,在各電商平臺中都蘊藏了大量有價值的信息數(shù)據(jù)。從海量數(shù)據(jù)信息中分析獲得較全面的、客觀的消費特征對商家的營銷策略有很大意義。網(wǎng)絡(luò)爬蟲是獲取網(wǎng)絡(luò)中大量數(shù)據(jù)的重要途徑,通過使用Scrapy爬蟲框架,深入解析并獲取京東網(wǎng)的產(chǎn)品信息和評論大數(shù)據(jù),從中分析品牌、商品、用戶三方的屬性特征,將數(shù)據(jù)整合后以簡潔、直觀的圖表形式呈現(xiàn)給商家和消費者,既為消費者提供可靠的參考信息,也使商家更好地了解顧客的特點和需求,從而提升服務(wù)質(zhì)量、促進消費。

      關(guān)鍵詞:電子商務(wù);網(wǎng)絡(luò)爬蟲;Scrapy;數(shù)據(jù)分析;SpringMVC

      中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2017)28-0276-03

      Abstract: With the rapid development of e-commerce, there are a lot of valuable information in various e-commerce platforms.It is of great significance to obtain and analyze comprehensive and objective consumption characteristics from mass data. Web crawler is an important way to obtain large amounts of data from the network, through the Scrapy crawler frame, probing information and comments of the products from JingDong website, and analyzing brands,products and user characteristics with intuitive charts for businesses and consumers.The study not only provides consumers with reliable reference information, but also makes business better understand the characteristics and requirements of customers to promote service quality and consumption.

      Key words: E-Commerce; web crawler; scrapy; data analysis; springmvc

      1 背景

      由于信息技術(shù)與電子商務(wù)的迅速發(fā)展,越來越多的人開始享受網(wǎng)上交易給生活帶來的諸多便利,國內(nèi)大批優(yōu)秀網(wǎng)絡(luò)商業(yè)門戶,如淘寶網(wǎng)、京東網(wǎng)、當當網(wǎng)等平臺的交易量和交易額都在快速增長中,隨之而產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)也在呈指數(shù)式的增長。在商品詳情和評論數(shù)據(jù)信息中含有許多涉及銷售的重要信息,如市場供求信息、潛在的用戶需求等。獲得網(wǎng)絡(luò)數(shù)據(jù)的渠道有很多,但是由于商品種類和特征的不同,消費者在購買產(chǎn)品時的行為是多樣的、復(fù)雜的,通常難以從中快速、精確的獲得有效信息。因此,挖掘海量商品數(shù)據(jù)中的有益信息對于用戶、電商和企業(yè)都具有非常重要的意義。

      本文以國內(nèi)熱門電商平臺京東網(wǎng)為例,研究如何爬取其冰箱分類下的所有商品數(shù)據(jù),并將商品特征和評論中的觀點進行提取和整合,挖掘出有價值的評價觀點和用戶購買傾向,并將結(jié)果可視化為動態(tài)可交互的圖表,達到清晰和直觀的信息呈現(xiàn)效果。

      2 基于Scrapy框架的爬蟲結(jié)構(gòu)設(shè)計

      2.1 Scrapy框架設(shè)計

      網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動地抓取網(wǎng)頁信息的程序,它們可以自動采集所訪問頁面內(nèi)容,使得用戶能快速地獲取到所需要的信息。Scrapy是純Python實現(xiàn)的應(yīng)用爬蟲框架,基于Twist的異步處理,使用起來相對簡單輕巧。其具體內(nèi)部原理實現(xiàn)的整體架構(gòu)如圖1。

      2.1.1 分析頁面內(nèi)容

      框架抓取解析的頁面分為兩種,一種是靜態(tài)HTML頁面,通過爬蟲程序訪問到目標頁面后,用正則表達式對其頁面代碼進行解析,即可獲得所需要的信息;而京東的價格、評論頁面均采用了動態(tài)頁面技術(shù),爬蟲無法直接提取網(wǎng)頁中的動態(tài)信息。為了獲得這些數(shù)據(jù),首先分析目標頁面結(jié)構(gòu),找到其對應(yīng)的通過AJAX加載的JavaScript請求數(shù)據(jù),獲取后得到Json格式的數(shù)據(jù)。

      2.1.2 抓取策略

      為了減輕對方服務(wù)器的負擔(dān),提高抓取的效率,設(shè)計抓取策略時要深入的分析目標網(wǎng)頁面格式,最大可能在每一個目標頁面中得到最多的信息,盡量減少對網(wǎng)站的訪問量。此外,由于獲取的數(shù)據(jù)規(guī)模較大,本文通過以下四個步驟合理地避免封鎖:

      1) 構(gòu)造合理的HTTP請求頭;

      2) 正確的設(shè)置合法的Cookie;

      3) 限定抓取頻率,以合理的時間間隔訪問網(wǎng)站;

      4) 使用可變的遠程IP地址訪問服務(wù)器。

      本文使用的Scrapy框架的工程目錄如圖2所示。

      2.2 結(jié)構(gòu)化數(shù)據(jù)的存儲

      在Scrapy框架中,通過Item Pipeline處理Spiders傳遞過來的網(wǎng)頁數(shù)據(jù)。 Item是Scrapy裝載數(shù)據(jù)的容器,因此需要編寫Item容器,自定義提取字段,將Item模型化。接下來Pipeline會對數(shù)據(jù)進行一些處理,在Pipeline中編寫一個Python類去檢查爬取的數(shù)據(jù)中是否有重復(fù),若是重復(fù)則刪去,然后將這些字段直接存儲到本地或數(shù)據(jù)庫。本文設(shè)計保存到MySQL數(shù)據(jù)庫中,爬蟲的流程示意圖如圖3。

      3 數(shù)據(jù)分析及信息可視化呈現(xiàn)endprint

      在綜合考慮性能、開發(fā)周期、系統(tǒng)功能的維護與擴展等多方面因素的基礎(chǔ)上,本文采用SpringMVC作為系統(tǒng)的框架模式,完成了系統(tǒng)的數(shù)據(jù)庫邏輯結(jié)構(gòu)、業(yè)務(wù)邏輯層和用戶界面表示層的設(shè)計。

      信息的可視化為人們更好地理解信息提供了極大便利。ECharts是來自開源的百度商業(yè)前端數(shù)據(jù)可視化團隊,它是基于Canvas的純Javascript 的圖表庫,提供直觀,生動,可交互的數(shù)據(jù)可視化圖表。創(chuàng)新的拖拽重計算、數(shù)據(jù)視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數(shù)據(jù)進行挖掘、整合的能力。

      3.1 市場分析

      3.1.1 熱賣參數(shù)分析

      以冰箱為例進行分析,在冰箱產(chǎn)品中多個參數(shù)中,選取影響銷售較大的價格、面板顏色、總?cè)莘e、開門方式、能效等級,制冷方式、控制方式、能效等級這8個參數(shù)進行分析,以評論中涉及的產(chǎn)品購買次數(shù)為銷量,計算得到整個市場中最熱銷參數(shù),以字符云的方式展示,如圖4。

      3.1.2 參數(shù)趨勢分析

      針對影響因素較大參數(shù)進行單獨分析,如價格、開門方式、容量、顏色等。以開門方式為例,可以計算出不同開門方式的冰箱每月銷售占比,以堆積條形圖的形式呈現(xiàn),通過點擊參數(shù),查看參數(shù)每月銷售趨勢,如圖5。

      如圖所示,可以得出市場售出冰箱的開門方式以雙開門和三開門為主,并且隨著時間月份增加,雙開門冰箱的銷量也在不斷增加。

      3.2 品牌及產(chǎn)品分析

      3.2.1 品牌地區(qū)分布對比分析

      針對不同的品牌進行對比,統(tǒng)計消費用戶的地區(qū)特征,既可以反映出同一品牌不同地區(qū)的喜好,也能反映出某一省份的用戶對不同品牌的喜愛程度。如圖6所示,柱狀圖表示幾個品牌在不同年份不同城市的銷額,餅狀圖表示某一年幾個品牌的銷額占比。可以看出,市場中的銷量主要來自于北京、上海、廣州、四川等城市。

      3.2.2 品牌價位銷量分析

      價格是影響消費者行為的重要因素,不同品牌對產(chǎn)品價格的定位不同,其不同價位的銷售能力也是各有不同。圖7中數(shù)字表示在該品牌下該價格區(qū)間的銷量占比,如調(diào)整藍色進度條為0.5 - 1,則圖示中只顯示品牌銷量占比在0.5-1區(qū)間的價位。通過拖動藍色進度可清晰地看出品牌在哪些價位銷量較高,更受用戶的歡迎。

      3.2.3 產(chǎn)品買家印象分析

      買家印象是評論數(shù)據(jù)中能夠獲取到的重要信息,在網(wǎng)站中以標簽的形式體現(xiàn)。用戶可以點擊產(chǎn)品進行對比,總結(jié)用戶購買后反映的不同意見。圖8通過雷達圖表示所選產(chǎn)品的買家印象中占比最高的6個特性,分別是“空間大”、“節(jié)能省電”、“外觀漂亮”、“噪音很小”、“制冷效果好”、“冰箱不錯”。將鼠標放到雷達圖某產(chǎn)品線上,可以看到該產(chǎn)品的6個特性占總評論數(shù)的比例。

      4 結(jié)束語

      在電商平臺中,商品性能和其他用戶的評論是影響消費者的重要因素。用戶在購買商品后能夠在電商平臺發(fā)表使用后的體驗,使得其他消費者也可以從網(wǎng)絡(luò)中獲取大量信息,從而進一步了解產(chǎn)品。因此,對電商平臺的數(shù)據(jù)信息進行挖掘,可以為消費者提供更好的參考,商家能夠進一步了解消費者喜好以便進行銷售策略的調(diào)整。

      對此,本文圍繞電商平臺中大數(shù)據(jù)的獲取、觀點提取和信息整合進行探討,深入研究了網(wǎng)絡(luò)爬蟲Scrapy框架的工作原理和數(shù)據(jù)的處理機制,實現(xiàn)了對電商平臺靜態(tài)及動態(tài)頁面評數(shù)據(jù)的爬取和結(jié)構(gòu)化入庫;使用SpringMVC框架構(gòu)件分析平臺,實現(xiàn)對任意品牌、產(chǎn)品的某些特征的對比和分析;將數(shù)據(jù)以直觀、易讀的方式可視化呈現(xiàn)給用戶,對企業(yè)、商家和消費者掌握整個市場的各方面情況具有重要意義。

      參考文獻:

      [1] 譚文斌. 基于電商平臺的產(chǎn)品評論大數(shù)據(jù)獲取及應(yīng)用[D]. 貴陽: 貴州師范大學(xué), 2016.

      [2] 王一博. 基于Scrapy的社交網(wǎng)絡(luò)異常用戶檢測系統(tǒng)研究與開發(fā)[J]. 信息與電腦:理論版, 2016(14):97-98.

      [3] 舒德華. 基于Scrapy爬取電商平臺數(shù)據(jù)及自動問答系統(tǒng)的構(gòu)建[D]. 武漢: 華中師范大學(xué), 2016.

      [4] 王靜. 基于Scrapy的電子商務(wù)網(wǎng)絡(luò)測量與網(wǎng)絡(luò)特征分析[D]. 北京: 北京交通大學(xué), 2012.

      [5] 鄭幸源, 洪親, 蔡堅勇, 等. 基于AJAX異步傳輸技術(shù)與Echarts3技術(shù)的動態(tài)數(shù)據(jù)繪圖實現(xiàn)[J]. 軟件導(dǎo)刊, 2017, 16(03):143-145.

      [6] 朱慧棟. 基于SpringMVC框架的電子商務(wù)系統(tǒng)的設(shè)計與實現(xiàn)[D]. 長沙: 湖南大學(xué), 2016.

      [7] 邵斐, 孫濟慶. 一種適用于動態(tài)網(wǎng)頁的網(wǎng)絡(luò)蜘蛛爬行策略研究[J]. 情報雜志, 2007(5):28-30.

      [8] 謝克武. 大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)[J]. 電子制作, 2017(9):44-45.

      [9] 王彥博, 樊營, 高潛. 大數(shù)據(jù)時代網(wǎng)絡(luò)爬蟲技術(shù)在商業(yè)銀行中的應(yīng)用[J]. 銀行家, 2016(6):114-116.endprint

      猜你喜歡
      網(wǎng)絡(luò)爬蟲數(shù)據(jù)分析電子商務(wù)
      《電子商務(wù)法》如何助力直銷
      電子商務(wù)
      煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
      Excel電子表格在財務(wù)日常工作中的應(yīng)用
      淺析大數(shù)據(jù)時代背景下的市場營銷策略
      新常態(tài)下集團公司內(nèi)部審計工作研究
      中國市場(2016年36期)2016-10-19 04:31:23
      淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
      基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
      主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
      淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
      中國市場(2016年23期)2016-07-05 04:35:08
      葫芦岛市| 托克托县| 舟曲县| 公安县| 湘阴县| 屏山县| 凭祥市| 红河县| 老河口市| 烟台市| 噶尔县| 塘沽区| 寻甸| 湄潭县| 个旧市| 河池市| 云梦县| 绩溪县| 涿鹿县| 策勒县| 清水县| 清涧县| 武冈市| 建湖县| 贵南县| 桂阳县| 宝清县| 库尔勒市| 汕头市| 海城市| 金川县| 阜宁县| 于都县| 永平县| 嘉荫县| 遵义市| 梨树县| 罗源县| 甘洛县| 深水埗区| 大安市|