黃港作 張小慧 牛薌潔
摘要:隨著信息科技的日益進(jìn)步,手機(jī)、電腦集成了越來越多簡(jiǎn)單實(shí)用的程序與工具。而使用這些程序的同時(shí)產(chǎn)生了豐富的數(shù)據(jù),因此研究這些數(shù)據(jù)對(duì)于電商平臺(tái)以及分析人類的行為趨勢(shì)有著非常重要的意義。因此數(shù)據(jù)分析成為時(shí)下的熱門話題,而由于Python其本身語言的簡(jiǎn)潔性,成為眾多數(shù)據(jù)分析科學(xué)家所使用的工具。
關(guān)鍵詞:數(shù)據(jù)可視化;消費(fèi)者行為;python
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)15-0248-03
1 數(shù)據(jù)分析為何使用Python?
1.1簡(jiǎn)單易學(xué)
學(xué)習(xí)過其他語言如C++、C、JAVA的人應(yīng)該知道,相較于其他語言Python的語法簡(jiǎn)單、門檻低,代碼通俗易懂,并且擁有十分龐大的庫(kù)基本涵蓋了各個(gè)領(lǐng)域,只需要上網(wǎng)查詢調(diào)用即可。
并且Python特別適合剛剛?cè)腴T的人去學(xué)習(xí),當(dāng)我們需要處理數(shù)據(jù)時(shí),處理數(shù)據(jù)的速度非常重要并且往往需要對(duì)大批量的數(shù)據(jù)集進(jìn)行可視化處理,而Python的學(xué)習(xí)人員只需要入門即可處理大量簡(jiǎn)單的數(shù)據(jù)。
1.2 強(qiáng)大的編程能力
Python不同于R語言以及Matlab,Python具備非常強(qiáng)大的數(shù)據(jù)分析能力,同時(shí)Python還可以用于爬蟲、游戲編寫,以及自動(dòng)化運(yùn)維,因此Python有利于多學(xué)科、多業(yè)務(wù)之間的融合,盡量減少一個(gè)項(xiàng)目中使用過多的語言造成不兼容的情況,所以Python可以大大地提高工作效率,而Python在運(yùn)算效率上的缺失也可以通過提升機(jī)器硬件來彌補(bǔ),畢竟時(shí)間成本有時(shí)遠(yuǎn)大于硬件成本。
1.3 Python——一門面向世界的編程語言
隨著大數(shù)據(jù)、數(shù)據(jù)分析、人工智能的火熱,Python在語言排行榜中的地位迅速上升,因?yàn)槿斯ぶ悄苄枰氖羌磿r(shí)性、邏輯性,而Python作為一門簡(jiǎn)潔的語言同時(shí)擁有豐富的社區(qū)以及大量人員在使用,能產(chǎn)生豐富的數(shù)據(jù)以及相應(yīng)的接口。因此操作人員無需再操心沒有豐富的數(shù)據(jù),節(jié)省了大量的時(shí)間以及相關(guān)功能的編程。
2 數(shù)據(jù)分析
數(shù)據(jù)分析作為大數(shù)據(jù)的一種必不可少的技能,只有明確分析概念、分析工具、分析流程等相關(guān)知識(shí)才能更好地去分析數(shù)據(jù)。
2.1數(shù)據(jù)分析概念
數(shù)據(jù)分析是指在分析大批量數(shù)據(jù)研究時(shí)運(yùn)用合理、適當(dāng)、可行的方法對(duì)需要分析的數(shù)據(jù)進(jìn)行分析,提取其背后的信息,形成結(jié)論。這是一個(gè)數(shù)據(jù)研究和總結(jié)的過程[1],隨著信息技術(shù)的發(fā)展與迭代,企業(yè)生產(chǎn)、收集、存儲(chǔ)和處理數(shù)據(jù)的能力有了質(zhì)的飛躍,每天的數(shù)據(jù)吞吐量達(dá)到了驚人的地步。因此,利用數(shù)據(jù)分析方法對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行細(xì)化,研究數(shù)據(jù)的發(fā)展規(guī)律并預(yù)測(cè)趨勢(shì),進(jìn)而幫助企業(yè)的管理層進(jìn)行決策[2]。
2.2 數(shù)據(jù)分析的流程
(1)明確分析目的提出問題
首先明確項(xiàng)目分析的目的,才能精準(zhǔn)定位分析因子,提出有價(jià)值的問題以及清晰的思路。主要內(nèi)容是根據(jù)業(yè)務(wù)、生產(chǎn)和財(cái)務(wù)這些部門的需求,結(jié)合現(xiàn)有數(shù)據(jù)情況[3],對(duì)數(shù)據(jù)內(nèi)容進(jìn)行細(xì)化和分析,最終與目的達(dá)成一致。
(2)數(shù)據(jù)采集
獲取數(shù)據(jù)的手段有兩種方式:網(wǎng)絡(luò)爬蟲與社區(qū)收集。其中爬蟲指的是使用自定義的程序根據(jù)一定的規(guī)則去網(wǎng)頁(yè)中獲取特定規(guī)則的數(shù)據(jù)但需要注意的是通常有些數(shù)據(jù)是違法的。社區(qū)收集是指數(shù)據(jù)分析者通過去熱門的社區(qū)如阿里天池等社區(qū)具有豐富的電商資料以及各式各樣的數(shù)據(jù)內(nèi)容。收集到的原始數(shù)據(jù)還需要進(jìn)行數(shù)據(jù)加工,主要包括數(shù)據(jù)清洗、數(shù)據(jù)分組、數(shù)據(jù)檢索、數(shù)據(jù)抽取等處理方法。
其中數(shù)據(jù)清洗涉及數(shù)據(jù)的格式、字體等相統(tǒng)一,同時(shí)需要對(duì)重復(fù)、異常的數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)的干凈以免在繪制可視圖以及分析時(shí)出現(xiàn)誤差。
數(shù)據(jù)分組是指將數(shù)據(jù)根據(jù)需求分成對(duì)應(yīng)的數(shù)據(jù)組。數(shù)據(jù)檢索以及數(shù)據(jù)抽取分別指的是在收集的數(shù)據(jù)中搜索目標(biāo)內(nèi)容,以及在數(shù)據(jù)源抽取數(shù)據(jù)的過程。
(3)分析建模
分析建模是指通過對(duì)比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類模型、分類模型、關(guān)聯(lián)規(guī)則、智能推薦等模型和算法,發(fā)現(xiàn)數(shù)據(jù)中的有價(jià)值信息,并得出結(jié)論的過程[4]。
(4)優(yōu)化數(shù)據(jù)模型
模型優(yōu)化是指模型的性能經(jīng)過模型的評(píng)估,但當(dāng)前模型在實(shí)際生產(chǎn)環(huán)境下的性能并不理想,然后對(duì)模型進(jìn)行重構(gòu)和優(yōu)化[4]。
(5)應(yīng)用部署
應(yīng)用部署是指在具體環(huán)境中根據(jù)不同的應(yīng)用場(chǎng)景使用合適的數(shù)據(jù)分析模型。同時(shí)項(xiàng)目的進(jìn)度不同其表現(xiàn)的形式也不盡相同,在項(xiàng)目的部署階段可以通過數(shù)據(jù)分析對(duì)整個(gè)項(xiàng)目進(jìn)行評(píng)估,也可以是將模型部署在生產(chǎn)系統(tǒng)的解決方案[4]。通常情況下數(shù)據(jù)分析員可以通過根據(jù)項(xiàng)目方提供的對(duì)應(yīng)數(shù)據(jù),最終提供需求方的解決報(bào)告。
3 常見的四種數(shù)據(jù)分析方法
當(dāng)開始數(shù)據(jù)分析項(xiàng)目時(shí),通常首先分別分析每個(gè)變量,以描述擁有的數(shù)據(jù)并評(píng)估其質(zhì)量,接下來的步驟是探索變量之間存在的關(guān)系。這些關(guān)系可能會(huì)導(dǎo)致對(duì)數(shù)據(jù)所代表的總體得出某些推論或結(jié)論。結(jié)論將會(huì)分析出數(shù)據(jù)集中并不存在的數(shù)據(jù)。但是,在導(dǎo)致決策或行動(dòng)步驟之前,數(shù)據(jù)分析無效。
3.1 描述性分析
在四種數(shù)據(jù)分析方法中最簡(jiǎn)單的則是描述性分析,描述性分析通過總結(jié)數(shù)據(jù)集中的變量值。例如,調(diào)查者對(duì)一些特定的問題進(jìn)行1至10的評(píng)分,那么描述性分析可以通過總結(jié)受訪者的中位數(shù)、百分比或者數(shù)量,以及特定評(píng)分的一個(gè)趨勢(shì)變化。描述性分析需要熟悉數(shù)據(jù)集并識(shí)別數(shù)據(jù)問題。
3.2 探索性分析
在進(jìn)行數(shù)據(jù)分析之前,需要了解項(xiàng)目所擁有的數(shù)據(jù),然后尋找數(shù)據(jù)元素之間的關(guān)系,這被稱為探索性數(shù)據(jù)分析,一般側(cè)重于變量之間的相關(guān)性。
3.2 推理分析
以制定消費(fèi)者對(duì)市場(chǎng)經(jīng)濟(jì)恢復(fù)的信心指數(shù)為例,調(diào)查員無需向每一個(gè)消費(fèi)者去調(diào)查他關(guān)于市場(chǎng)經(jīng)濟(jì)的信心。只需要按一定比例在人口中進(jìn)行調(diào)研即可得出指數(shù)結(jié)果。理解推理分析是非常重要的,因?yàn)榭梢酝ㄟ^選擇不同的樣本從數(shù)據(jù)集中得出大相徑庭的結(jié)論[7]。所以消費(fèi)者信心指數(shù)需要在數(shù)據(jù)集中隨機(jī)選擇樣本,才能保證無論選擇何種樣本結(jié)論是一致的。
3.3 預(yù)測(cè)分析
預(yù)測(cè)分析在當(dāng)前商業(yè)智能程序中應(yīng)用非常廣泛。可以通過使用目前擁有的數(shù)據(jù)來預(yù)測(cè)將來的結(jié)果。例如,保險(xiǎn)公司可以根據(jù)用戶的身體健康、性別、年齡等數(shù)據(jù)來預(yù)測(cè)客戶屬于哪一種群體,進(jìn)而提高相應(yīng)的保費(fèi)。分析人員通過在已知結(jié)果的數(shù)據(jù)集上使用神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘手段訓(xùn)練模型,然后將模型接入App中。
4 數(shù)據(jù)分析常用的工具
主流的數(shù)據(jù)分析語言包括Python、R和MAT-LAB。其中,Python擁有豐富而強(qiáng)大的函式庫(kù),通常被稱為膠水語言,可以輕松地使各種以其他語言制作的模組。
合在一起,它是一種更容易學(xué)習(xí)和嚴(yán)謹(jǐn)?shù)木幊陶Z言,常用于數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、矩陣運(yùn)算、科學(xué)數(shù)據(jù)可視化、數(shù)字圖像處理、網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)應(yīng)用[6]。
R語言常用于統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、科學(xué)數(shù)據(jù)可視化等,MAT-LAB用于矩陣運(yùn)算、數(shù)值分析、科學(xué)數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)、符號(hào)運(yùn)算、數(shù)字圖像處理和信號(hào)處理。因此以上三種語言均可進(jìn)行數(shù)據(jù)處理分析。
5 大閘蟹銷售數(shù)據(jù)分析
本次收集數(shù)據(jù)共5090組,數(shù)據(jù)來源于天元數(shù)據(jù)網(wǎng)收集的于2018年9月份,天貓商城中關(guān)于大閘蟹的各個(gè)店鋪銷售數(shù)據(jù)。其中收集數(shù)據(jù)項(xiàng)包括:商品id、商品名稱、品牌名稱、價(jià)格、商品原價(jià)、商品銷售量、商品銷售額、商品url、類目id、類目、商品評(píng)價(jià)數(shù)、商品收藏?cái)?shù)、商品庫(kù)存、商品發(fā)貨地、商品產(chǎn)地國(guó)家、商品參數(shù)、店鋪id、店鋪名稱、店鋪省份、店鋪城市、店鋪開店時(shí)間、店鋪開店年數(shù)。同時(shí)使用numpy以及pandas中含有的數(shù)據(jù)分析包,來對(duì)其中的數(shù)據(jù)進(jìn)行可視化分析。
在進(jìn)行數(shù)據(jù)分析前,先需要對(duì)數(shù)據(jù)進(jìn)行清洗,可以通過Jupyter進(jìn)行數(shù)據(jù)分析時(shí)使用is_null()方法來找出異常的空值。
5.1 店鋪分布
通過使用Python繪圖統(tǒng)計(jì)分析如圖一所示,所收集的數(shù)據(jù)中有售賣大閘蟹的店鋪共計(jì)5089家,分布在全國(guó)60個(gè)省市。其中江蘇蘇州店鋪?zhàn)疃?822家,廈門、???、贛州這三個(gè)城市最少各僅有1家。位列第二、第三的分別是上海與北京,分別為366與133家。
可以看出店鋪多的地方,均為發(fā)達(dá)一線城市,而店鋪少的基本為沿海城市。
5.2 店鋪總銷售額情況
要獲取總銷售額的情況可以通過pandas先獲取表格數(shù)據(jù),然后再使用sort_values()函數(shù)對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行排序最終再獲取前10的排名,如圖1所示。
從最終獲取的數(shù)據(jù),我們不難分析出,占據(jù)銷售前十的商品,天貓超市生鮮店占據(jù)頭部位置。其余的店鋪與天貓旗艦商店的銷售額差距還是非常大的。
具體代碼如下:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime
from pylab import *
mpl.rcParams['font.sans-serif'] =['SimHei']
#設(shè)定繪圖風(fēng)格
plt.style.use('ggplot') df=pd.read_csv(r'C:\Users\***\2020\sell_dazhaxie.csv',engine='python')
x=df[['商品名稱','店鋪名稱','商品銷售額(元)']].sort_values(by=['商品銷售額(元)'],ascending=False).head(25)
5.3 商品價(jià)格與商品銷售量
通過排列、篩查等手段洗去極端值后,建立價(jià)格范圍為(0-1000元)所對(duì)應(yīng)的商品銷售量數(shù)據(jù)可視化圖形如圖2所示。
從圖形上來看洗去極端值與空值后的4491組數(shù)據(jù),不難發(fā)現(xiàn)它們之間所對(duì)應(yīng)的數(shù)據(jù)沒有一個(gè)明顯的、平滑的規(guī)律,這是由于商品的銷售量可能是由多重因素決定的而不是簡(jiǎn)單地與商品的價(jià)格相聯(lián)系。如從5.2中的結(jié)論可以看出天貓旗艦店本身也是一個(gè)極端值,其店鋪所銷售的商品銷售額遠(yuǎn)大于其他的店鋪,這為得出商品價(jià)格與銷售額之間的關(guān)系產(chǎn)生了干擾。
但從圖中也可以明顯的發(fā)現(xiàn)隨著價(jià)格的提升銷售量(只)以肉眼可見的速度下降。
5.4 開店年數(shù)與商品銷售量
經(jīng)過數(shù)據(jù)清洗完極端值與空值后,以店鋪開店年數(shù)為x軸間隔一年與商品銷售量(只)為y軸使用python繪圖工具進(jìn)行數(shù)據(jù)可視化如圖3。
從圖中可以發(fā)現(xiàn),虹吸效應(yīng)在每個(gè)區(qū)間分外明顯,如[3-4]、[4-6]每個(gè)區(qū)間只有一家店鋪的銷量會(huì)遙遙領(lǐng)先于其他店鋪,并且在經(jīng)過數(shù)據(jù)清洗后剩下的3677家店鋪中,僅有不到3家達(dá)到了2018年9月份銷售20000只以上的大閘蟹。
同時(shí)也可以從圖中得出,店鋪開店時(shí)間為一年或者多年,幾乎每一年都有接近2萬銷售量的店鋪誕生。
5.5 商品收藏?cái)?shù)與商品銷售量
該圖4經(jīng)過數(shù)據(jù)清洗后,剩余3677家店鋪,以每家店鋪大閘蟹商品收藏?cái)?shù)(個(gè))為x軸,商品銷售量(只)為Y軸,經(jīng)過數(shù)據(jù)可視化處理。
不難發(fā)現(xiàn),當(dāng)商品收藏?cái)?shù)處于較大時(shí)仍有銷售量低迷的情況,而收藏量處于(0-10000條)銷售量分布比較均勻,同時(shí)也可以發(fā)現(xiàn),只有當(dāng)收藏量大時(shí)才有銷售量超高的存在。當(dāng)收藏量處于(0-10000條)時(shí)銷售量與商品收藏?cái)?shù)有著明顯的正相關(guān)性。
6 結(jié)語
大數(shù)據(jù)影響各行各業(yè)的發(fā)展,農(nóng)產(chǎn)品的銷售也不例外,首先從5.4的結(jié)論來看,只要用心做店鋪,即便開店年數(shù)不高仍有機(jī)會(huì)做爆款大閘蟹的潛力,其次從5.5中的結(jié)論可以發(fā)現(xiàn),商品收藏?cái)?shù)與商品銷售量有著明顯的正相關(guān)性,說明要提高銷售量可以適當(dāng)從打開店鋪知名度上入手,如提高收藏量至[5000-15000]之間。
綜上所述,商品的銷售量與店鋪的開店年數(shù)沒有明顯的正相關(guān)性,而與店鋪的知名度有著明顯的正相關(guān)性,所以大閘蟹商家如果需要提高店鋪銷售量,可以從提高店鋪的收藏量入手。
參考文獻(xiàn):
[1] 翟高粵.基于Python的數(shù)據(jù)分析概述[J].甘肅科技縱橫,2018,47(11):5-7,26.
[2] 劉熠.基于python的Web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn)[D].荊州:長(zhǎng)江大學(xué),2018.
[3] 顧榮.大數(shù)據(jù)處理技術(shù)與系統(tǒng)研究[D].南京:南京大學(xué),2016.
[4] 郭雷風(fēng).面向農(nóng)業(yè)領(lǐng)域的大數(shù)據(jù)關(guān)鍵技術(shù)研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2016.
[5] 吳瑕.大數(shù)據(jù)分析在農(nóng)產(chǎn)品電商中的應(yīng)用研究[J].現(xiàn)代營(yíng)銷(下旬刊),2020(6):196-197.
[6] 趙書慧.電商市場(chǎng)中大數(shù)據(jù)挖掘的分析以及決策探究[J].中國(guó)新通信,2020,22(12):66.
[7] 李海英.大數(shù)據(jù)在跨境電商產(chǎn)業(yè)鏈中的應(yīng)用對(duì)策探討[J].電子商務(wù),2020(5):28-29.
【通聯(lián)編輯:梁書】