• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于python數(shù)據(jù)分析技術(shù)的電商平臺(tái)大閘蟹市場(chǎng)分析

      2021-07-19 21:41:44黃港作張小慧牛薌潔
      電腦知識(shí)與技術(shù) 2021年15期
      關(guān)鍵詞:消費(fèi)者行為數(shù)據(jù)可視化

      黃港作 張小慧 牛薌潔

      摘要:隨著信息科技的日益進(jìn)步,手機(jī)、電腦集成了越來越多簡(jiǎn)單實(shí)用的程序與工具。而使用這些程序的同時(shí)產(chǎn)生了豐富的數(shù)據(jù),因此研究這些數(shù)據(jù)對(duì)于電商平臺(tái)以及分析人類的行為趨勢(shì)有著非常重要的意義。因此數(shù)據(jù)分析成為時(shí)下的熱門話題,而由于Python其本身語言的簡(jiǎn)潔性,成為眾多數(shù)據(jù)分析科學(xué)家所使用的工具。

      關(guān)鍵詞:數(shù)據(jù)可視化;消費(fèi)者行為;python

      中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2021)15-0248-03

      1 數(shù)據(jù)分析為何使用Python?

      1.1簡(jiǎn)單易學(xué)

      學(xué)習(xí)過其他語言如C++、C、JAVA的人應(yīng)該知道,相較于其他語言Python的語法簡(jiǎn)單、門檻低,代碼通俗易懂,并且擁有十分龐大的庫(kù)基本涵蓋了各個(gè)領(lǐng)域,只需要上網(wǎng)查詢調(diào)用即可。

      并且Python特別適合剛剛?cè)腴T的人去學(xué)習(xí),當(dāng)我們需要處理數(shù)據(jù)時(shí),處理數(shù)據(jù)的速度非常重要并且往往需要對(duì)大批量的數(shù)據(jù)集進(jìn)行可視化處理,而Python的學(xué)習(xí)人員只需要入門即可處理大量簡(jiǎn)單的數(shù)據(jù)。

      1.2 強(qiáng)大的編程能力

      Python不同于R語言以及Matlab,Python具備非常強(qiáng)大的數(shù)據(jù)分析能力,同時(shí)Python還可以用于爬蟲、游戲編寫,以及自動(dòng)化運(yùn)維,因此Python有利于多學(xué)科、多業(yè)務(wù)之間的融合,盡量減少一個(gè)項(xiàng)目中使用過多的語言造成不兼容的情況,所以Python可以大大地提高工作效率,而Python在運(yùn)算效率上的缺失也可以通過提升機(jī)器硬件來彌補(bǔ),畢竟時(shí)間成本有時(shí)遠(yuǎn)大于硬件成本。

      1.3 Python——一門面向世界的編程語言

      隨著大數(shù)據(jù)、數(shù)據(jù)分析、人工智能的火熱,Python在語言排行榜中的地位迅速上升,因?yàn)槿斯ぶ悄苄枰氖羌磿r(shí)性、邏輯性,而Python作為一門簡(jiǎn)潔的語言同時(shí)擁有豐富的社區(qū)以及大量人員在使用,能產(chǎn)生豐富的數(shù)據(jù)以及相應(yīng)的接口。因此操作人員無需再操心沒有豐富的數(shù)據(jù),節(jié)省了大量的時(shí)間以及相關(guān)功能的編程。

      2 數(shù)據(jù)分析

      數(shù)據(jù)分析作為大數(shù)據(jù)的一種必不可少的技能,只有明確分析概念、分析工具、分析流程等相關(guān)知識(shí)才能更好地去分析數(shù)據(jù)。

      2.1數(shù)據(jù)分析概念

      數(shù)據(jù)分析是指在分析大批量數(shù)據(jù)研究時(shí)運(yùn)用合理、適當(dāng)、可行的方法對(duì)需要分析的數(shù)據(jù)進(jìn)行分析,提取其背后的信息,形成結(jié)論。這是一個(gè)數(shù)據(jù)研究和總結(jié)的過程[1],隨著信息技術(shù)的發(fā)展與迭代,企業(yè)生產(chǎn)、收集、存儲(chǔ)和處理數(shù)據(jù)的能力有了質(zhì)的飛躍,每天的數(shù)據(jù)吞吐量達(dá)到了驚人的地步。因此,利用數(shù)據(jù)分析方法對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行細(xì)化,研究數(shù)據(jù)的發(fā)展規(guī)律并預(yù)測(cè)趨勢(shì),進(jìn)而幫助企業(yè)的管理層進(jìn)行決策[2]。

      2.2 數(shù)據(jù)分析的流程

      (1)明確分析目的提出問題

      首先明確項(xiàng)目分析的目的,才能精準(zhǔn)定位分析因子,提出有價(jià)值的問題以及清晰的思路。主要內(nèi)容是根據(jù)業(yè)務(wù)、生產(chǎn)和財(cái)務(wù)這些部門的需求,結(jié)合現(xiàn)有數(shù)據(jù)情況[3],對(duì)數(shù)據(jù)內(nèi)容進(jìn)行細(xì)化和分析,最終與目的達(dá)成一致。

      (2)數(shù)據(jù)采集

      獲取數(shù)據(jù)的手段有兩種方式:網(wǎng)絡(luò)爬蟲與社區(qū)收集。其中爬蟲指的是使用自定義的程序根據(jù)一定的規(guī)則去網(wǎng)頁(yè)中獲取特定規(guī)則的數(shù)據(jù)但需要注意的是通常有些數(shù)據(jù)是違法的。社區(qū)收集是指數(shù)據(jù)分析者通過去熱門的社區(qū)如阿里天池等社區(qū)具有豐富的電商資料以及各式各樣的數(shù)據(jù)內(nèi)容。收集到的原始數(shù)據(jù)還需要進(jìn)行數(shù)據(jù)加工,主要包括數(shù)據(jù)清洗、數(shù)據(jù)分組、數(shù)據(jù)檢索、數(shù)據(jù)抽取等處理方法。

      其中數(shù)據(jù)清洗涉及數(shù)據(jù)的格式、字體等相統(tǒng)一,同時(shí)需要對(duì)重復(fù)、異常的數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)的干凈以免在繪制可視圖以及分析時(shí)出現(xiàn)誤差。

      數(shù)據(jù)分組是指將數(shù)據(jù)根據(jù)需求分成對(duì)應(yīng)的數(shù)據(jù)組。數(shù)據(jù)檢索以及數(shù)據(jù)抽取分別指的是在收集的數(shù)據(jù)中搜索目標(biāo)內(nèi)容,以及在數(shù)據(jù)源抽取數(shù)據(jù)的過程。

      (3)分析建模

      分析建模是指通過對(duì)比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類模型、分類模型、關(guān)聯(lián)規(guī)則、智能推薦等模型和算法,發(fā)現(xiàn)數(shù)據(jù)中的有價(jià)值信息,并得出結(jié)論的過程[4]。

      (4)優(yōu)化數(shù)據(jù)模型

      模型優(yōu)化是指模型的性能經(jīng)過模型的評(píng)估,但當(dāng)前模型在實(shí)際生產(chǎn)環(huán)境下的性能并不理想,然后對(duì)模型進(jìn)行重構(gòu)和優(yōu)化[4]。

      (5)應(yīng)用部署

      應(yīng)用部署是指在具體環(huán)境中根據(jù)不同的應(yīng)用場(chǎng)景使用合適的數(shù)據(jù)分析模型。同時(shí)項(xiàng)目的進(jìn)度不同其表現(xiàn)的形式也不盡相同,在項(xiàng)目的部署階段可以通過數(shù)據(jù)分析對(duì)整個(gè)項(xiàng)目進(jìn)行評(píng)估,也可以是將模型部署在生產(chǎn)系統(tǒng)的解決方案[4]。通常情況下數(shù)據(jù)分析員可以通過根據(jù)項(xiàng)目方提供的對(duì)應(yīng)數(shù)據(jù),最終提供需求方的解決報(bào)告。

      3 常見的四種數(shù)據(jù)分析方法

      當(dāng)開始數(shù)據(jù)分析項(xiàng)目時(shí),通常首先分別分析每個(gè)變量,以描述擁有的數(shù)據(jù)并評(píng)估其質(zhì)量,接下來的步驟是探索變量之間存在的關(guān)系。這些關(guān)系可能會(huì)導(dǎo)致對(duì)數(shù)據(jù)所代表的總體得出某些推論或結(jié)論。結(jié)論將會(huì)分析出數(shù)據(jù)集中并不存在的數(shù)據(jù)。但是,在導(dǎo)致決策或行動(dòng)步驟之前,數(shù)據(jù)分析無效。

      3.1 描述性分析

      在四種數(shù)據(jù)分析方法中最簡(jiǎn)單的則是描述性分析,描述性分析通過總結(jié)數(shù)據(jù)集中的變量值。例如,調(diào)查者對(duì)一些特定的問題進(jìn)行1至10的評(píng)分,那么描述性分析可以通過總結(jié)受訪者的中位數(shù)、百分比或者數(shù)量,以及特定評(píng)分的一個(gè)趨勢(shì)變化。描述性分析需要熟悉數(shù)據(jù)集并識(shí)別數(shù)據(jù)問題。

      3.2 探索性分析

      在進(jìn)行數(shù)據(jù)分析之前,需要了解項(xiàng)目所擁有的數(shù)據(jù),然后尋找數(shù)據(jù)元素之間的關(guān)系,這被稱為探索性數(shù)據(jù)分析,一般側(cè)重于變量之間的相關(guān)性。

      3.2 推理分析

      以制定消費(fèi)者對(duì)市場(chǎng)經(jīng)濟(jì)恢復(fù)的信心指數(shù)為例,調(diào)查員無需向每一個(gè)消費(fèi)者去調(diào)查他關(guān)于市場(chǎng)經(jīng)濟(jì)的信心。只需要按一定比例在人口中進(jìn)行調(diào)研即可得出指數(shù)結(jié)果。理解推理分析是非常重要的,因?yàn)榭梢酝ㄟ^選擇不同的樣本從數(shù)據(jù)集中得出大相徑庭的結(jié)論[7]。所以消費(fèi)者信心指數(shù)需要在數(shù)據(jù)集中隨機(jī)選擇樣本,才能保證無論選擇何種樣本結(jié)論是一致的。

      3.3 預(yù)測(cè)分析

      預(yù)測(cè)分析在當(dāng)前商業(yè)智能程序中應(yīng)用非常廣泛。可以通過使用目前擁有的數(shù)據(jù)來預(yù)測(cè)將來的結(jié)果。例如,保險(xiǎn)公司可以根據(jù)用戶的身體健康、性別、年齡等數(shù)據(jù)來預(yù)測(cè)客戶屬于哪一種群體,進(jìn)而提高相應(yīng)的保費(fèi)。分析人員通過在已知結(jié)果的數(shù)據(jù)集上使用神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘手段訓(xùn)練模型,然后將模型接入App中。

      4 數(shù)據(jù)分析常用的工具

      主流的數(shù)據(jù)分析語言包括Python、R和MAT-LAB。其中,Python擁有豐富而強(qiáng)大的函式庫(kù),通常被稱為膠水語言,可以輕松地使各種以其他語言制作的模組。

      合在一起,它是一種更容易學(xué)習(xí)和嚴(yán)謹(jǐn)?shù)木幊陶Z言,常用于數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、矩陣運(yùn)算、科學(xué)數(shù)據(jù)可視化、數(shù)字圖像處理、網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)應(yīng)用[6]。

      R語言常用于統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、科學(xué)數(shù)據(jù)可視化等,MAT-LAB用于矩陣運(yùn)算、數(shù)值分析、科學(xué)數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)、符號(hào)運(yùn)算、數(shù)字圖像處理和信號(hào)處理。因此以上三種語言均可進(jìn)行數(shù)據(jù)處理分析。

      5 大閘蟹銷售數(shù)據(jù)分析

      本次收集數(shù)據(jù)共5090組,數(shù)據(jù)來源于天元數(shù)據(jù)網(wǎng)收集的于2018年9月份,天貓商城中關(guān)于大閘蟹的各個(gè)店鋪銷售數(shù)據(jù)。其中收集數(shù)據(jù)項(xiàng)包括:商品id、商品名稱、品牌名稱、價(jià)格、商品原價(jià)、商品銷售量、商品銷售額、商品url、類目id、類目、商品評(píng)價(jià)數(shù)、商品收藏?cái)?shù)、商品庫(kù)存、商品發(fā)貨地、商品產(chǎn)地國(guó)家、商品參數(shù)、店鋪id、店鋪名稱、店鋪省份、店鋪城市、店鋪開店時(shí)間、店鋪開店年數(shù)。同時(shí)使用numpy以及pandas中含有的數(shù)據(jù)分析包,來對(duì)其中的數(shù)據(jù)進(jìn)行可視化分析。

      在進(jìn)行數(shù)據(jù)分析前,先需要對(duì)數(shù)據(jù)進(jìn)行清洗,可以通過Jupyter進(jìn)行數(shù)據(jù)分析時(shí)使用is_null()方法來找出異常的空值。

      5.1 店鋪分布

      通過使用Python繪圖統(tǒng)計(jì)分析如圖一所示,所收集的數(shù)據(jù)中有售賣大閘蟹的店鋪共計(jì)5089家,分布在全國(guó)60個(gè)省市。其中江蘇蘇州店鋪?zhàn)疃?822家,廈門、???、贛州這三個(gè)城市最少各僅有1家。位列第二、第三的分別是上海與北京,分別為366與133家。

      可以看出店鋪多的地方,均為發(fā)達(dá)一線城市,而店鋪少的基本為沿海城市。

      5.2 店鋪總銷售額情況

      要獲取總銷售額的情況可以通過pandas先獲取表格數(shù)據(jù),然后再使用sort_values()函數(shù)對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行排序最終再獲取前10的排名,如圖1所示。

      從最終獲取的數(shù)據(jù),我們不難分析出,占據(jù)銷售前十的商品,天貓超市生鮮店占據(jù)頭部位置。其余的店鋪與天貓旗艦商店的銷售額差距還是非常大的。

      具體代碼如下:

      import numpy as np

      import pandas as pd

      import matplotlib.pyplot as plt

      from datetime import datetime

      from pylab import *

      mpl.rcParams['font.sans-serif'] =['SimHei']

      #設(shè)定繪圖風(fēng)格

      plt.style.use('ggplot') df=pd.read_csv(r'C:\Users\***\2020\sell_dazhaxie.csv',engine='python')

      x=df[['商品名稱','店鋪名稱','商品銷售額(元)']].sort_values(by=['商品銷售額(元)'],ascending=False).head(25)

      5.3 商品價(jià)格與商品銷售量

      通過排列、篩查等手段洗去極端值后,建立價(jià)格范圍為(0-1000元)所對(duì)應(yīng)的商品銷售量數(shù)據(jù)可視化圖形如圖2所示。

      從圖形上來看洗去極端值與空值后的4491組數(shù)據(jù),不難發(fā)現(xiàn)它們之間所對(duì)應(yīng)的數(shù)據(jù)沒有一個(gè)明顯的、平滑的規(guī)律,這是由于商品的銷售量可能是由多重因素決定的而不是簡(jiǎn)單地與商品的價(jià)格相聯(lián)系。如從5.2中的結(jié)論可以看出天貓旗艦店本身也是一個(gè)極端值,其店鋪所銷售的商品銷售額遠(yuǎn)大于其他的店鋪,這為得出商品價(jià)格與銷售額之間的關(guān)系產(chǎn)生了干擾。

      但從圖中也可以明顯的發(fā)現(xiàn)隨著價(jià)格的提升銷售量(只)以肉眼可見的速度下降。

      5.4 開店年數(shù)與商品銷售量

      經(jīng)過數(shù)據(jù)清洗完極端值與空值后,以店鋪開店年數(shù)為x軸間隔一年與商品銷售量(只)為y軸使用python繪圖工具進(jìn)行數(shù)據(jù)可視化如圖3。

      從圖中可以發(fā)現(xiàn),虹吸效應(yīng)在每個(gè)區(qū)間分外明顯,如[3-4]、[4-6]每個(gè)區(qū)間只有一家店鋪的銷量會(huì)遙遙領(lǐng)先于其他店鋪,并且在經(jīng)過數(shù)據(jù)清洗后剩下的3677家店鋪中,僅有不到3家達(dá)到了2018年9月份銷售20000只以上的大閘蟹。

      同時(shí)也可以從圖中得出,店鋪開店時(shí)間為一年或者多年,幾乎每一年都有接近2萬銷售量的店鋪誕生。

      5.5 商品收藏?cái)?shù)與商品銷售量

      該圖4經(jīng)過數(shù)據(jù)清洗后,剩余3677家店鋪,以每家店鋪大閘蟹商品收藏?cái)?shù)(個(gè))為x軸,商品銷售量(只)為Y軸,經(jīng)過數(shù)據(jù)可視化處理。

      不難發(fā)現(xiàn),當(dāng)商品收藏?cái)?shù)處于較大時(shí)仍有銷售量低迷的情況,而收藏量處于(0-10000條)銷售量分布比較均勻,同時(shí)也可以發(fā)現(xiàn),只有當(dāng)收藏量大時(shí)才有銷售量超高的存在。當(dāng)收藏量處于(0-10000條)時(shí)銷售量與商品收藏?cái)?shù)有著明顯的正相關(guān)性。

      6 結(jié)語

      大數(shù)據(jù)影響各行各業(yè)的發(fā)展,農(nóng)產(chǎn)品的銷售也不例外,首先從5.4的結(jié)論來看,只要用心做店鋪,即便開店年數(shù)不高仍有機(jī)會(huì)做爆款大閘蟹的潛力,其次從5.5中的結(jié)論可以發(fā)現(xiàn),商品收藏?cái)?shù)與商品銷售量有著明顯的正相關(guān)性,說明要提高銷售量可以適當(dāng)從打開店鋪知名度上入手,如提高收藏量至[5000-15000]之間。

      綜上所述,商品的銷售量與店鋪的開店年數(shù)沒有明顯的正相關(guān)性,而與店鋪的知名度有著明顯的正相關(guān)性,所以大閘蟹商家如果需要提高店鋪銷售量,可以從提高店鋪的收藏量入手。

      參考文獻(xiàn):

      [1] 翟高粵.基于Python的數(shù)據(jù)分析概述[J].甘肅科技縱橫,2018,47(11):5-7,26.

      [2] 劉熠.基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn)[D].荊州:長(zhǎng)江大學(xué),2018.

      [3] 顧榮.大數(shù)據(jù)處理技術(shù)與系統(tǒng)研究[D].南京:南京大學(xué),2016.

      [4] 郭雷風(fēng).面向農(nóng)業(yè)領(lǐng)域的大數(shù)據(jù)關(guān)鍵技術(shù)研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2016.

      [5] 吳瑕.大數(shù)據(jù)分析在農(nóng)產(chǎn)品電商中的應(yīng)用研究[J].現(xiàn)代營(yíng)銷(下旬刊),2020(6):196-197.

      [6] 趙書慧.電商市場(chǎng)中大數(shù)據(jù)挖掘的分析以及決策探究[J].中國(guó)新通信,2020,22(12):66.

      [7] 李海英.大數(shù)據(jù)在跨境電商產(chǎn)業(yè)鏈中的應(yīng)用對(duì)策探討[J].電子商務(wù),2020(5):28-29.

      【通聯(lián)編輯:梁書】

      猜你喜歡
      消費(fèi)者行為數(shù)據(jù)可視化
      大數(shù)據(jù)時(shí)代背景下本科教學(xué)質(zhì)量動(dòng)態(tài)監(jiān)控系統(tǒng)的構(gòu)建
      可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計(jì)研究
      我國(guó)數(shù)據(jù)新聞的發(fā)展困境與策略研究
      科技傳播(2016年19期)2016-12-27 14:53:29
      基于R語言的大數(shù)據(jù)審計(jì)方法研究
      部落電商背景下消費(fèi)者購(gòu)買行為模式研究
      電子商務(wù)環(huán)境下的消費(fèi)者行為分析
      天府可樂品牌營(yíng)銷策略研究
      消費(fèi)者在線生成廣告行為阻礙因素及作用路徑研究
      新聞界(2016年11期)2016-11-07 21:19:58
      克拉玛依市| 东宁县| 阳江市| 宜宾县| 新邵县| 靖州| 乌鲁木齐市| 六盘水市| 肇庆市| 鹤山市| 武乡县| 永顺县| 绩溪县| 攀枝花市| 江山市| 惠水县| 额敏县| 股票| 大洼县| 安平县| 巴林右旗| 新巴尔虎左旗| 金沙县| 香格里拉县| 岳池县| 丰都县| 临武县| 古田县| 阿合奇县| 新泰市| 五寨县| 安宁市| 通河县| 泌阳县| 通渭县| 蕉岭县| 仁布县| 墨脱县| 辉县市| 宁国市| 大足县|