陳岳軍 毛水凌
摘 要:在大數(shù)據(jù)時(shí)代,企業(yè)掌握了大量用戶信息。為了能夠讓這些海量信息以一種直觀的方式展現(xiàn)在企業(yè)管理者面前,從一個(gè)數(shù)據(jù)分析人員的視角,研究基于Apache Superset的商務(wù)智能數(shù)據(jù)可視化問題,并以某手機(jī)品牌線上銷售數(shù)據(jù)為例,從不同維度對(duì)銷售數(shù)據(jù)進(jìn)行選擇、過濾與轉(zhuǎn)換,最終以適當(dāng)方式將結(jié)果呈現(xiàn)出來,從而達(dá)到以可視化方式展示數(shù)據(jù)的目的。利用Superset可視化工具,不僅為數(shù)據(jù)分析人員帶來了極大便利,而且普通用戶也能通過連接數(shù)據(jù)庫自主選擇數(shù)據(jù)可視化操作,從而提高企業(yè)整體工作效率。
關(guān)鍵詞:商務(wù)智能;數(shù)據(jù)可視化;數(shù)據(jù)分析;管理決策
DOI:10. 11907/rjdk. 182465
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)006-0115-06
Abstract: In the era of big data, the enterprises have a large amount of user information. In order to make this massive amount of information presented to enterprise managers in an intuitive way, this paper studies the visualization of business intelligence data based on Apache Superset from the perspective of a data analyst. Taking the online sales data of a mobile phone brand as an example, the sales data is selected, filtered and converted from different dimensions, and finally the results are presented in an appropriate manner, thereby achieving the purpose of visualizing the data. By using Superset as an efficient visualization tool, it not only brings great convenience to data analysts, but also ordinary users can choose the visualization operation of data by connecting the database, and improve the overall work efficiency of the enterprise.
Key Words: business intelligence; data visualization; data analysis; management decision
0 引言
在如今的大數(shù)據(jù)時(shí)代,企業(yè)數(shù)據(jù)出現(xiàn)爆發(fā)式增長,利用大數(shù)據(jù)分析技術(shù)實(shí)現(xiàn)對(duì)數(shù)據(jù)的精細(xì)化運(yùn)用,從而驅(qū)動(dòng)業(yè)務(wù)增長已成為大部分企業(yè)的共識(shí)。將大數(shù)據(jù)技術(shù)與可視化技術(shù)相結(jié)合,可為數(shù)據(jù)分析人員提供一種強(qiáng)大、高效的數(shù)據(jù)分析工具,其能以一種更加直觀的方式揭示數(shù)據(jù)背后隱藏的商業(yè)價(jià)值。
國外自建立可視化學(xué)科以來,經(jīng)過幾十年的發(fā)展,在數(shù)據(jù)可視化研究方面已取得了很大進(jìn)展,推出了很多可視化工具。我國近年來針對(duì)可視化技術(shù)也進(jìn)行了大量研究,在可視化算法、可視化工具開發(fā)等方面也取得了一定成果[1-3]。Tableau[4]是源于斯坦福大學(xué)的商業(yè)智能軟件,其將數(shù)據(jù)運(yùn)算與圖表完美地嫁接在一起,可幫助用戶分析各類數(shù)據(jù),其功能強(qiáng)大,且注重細(xì)節(jié),但使用者多為專業(yè)的數(shù)據(jù)分析師;QilkView[5]是瑞典的一家商業(yè)智能公司推出的集ETL、OLAP分析與數(shù)據(jù)展示為一體的數(shù)據(jù)分析工具,該工具比較靈活,展示樣式多樣,但利用其構(gòu)建報(bào)表對(duì)開發(fā)人員的技能水平要求很高,且維護(hù)成本較高,并不適合大多數(shù)企業(yè);FineBI[6]是國內(nèi)帆軟公司研發(fā)的一款自主BI工具,其面向企業(yè)各個(gè)部門提供一套企業(yè)數(shù)據(jù)化管理與可視化BI方案,可有效支持企業(yè)對(duì)業(yè)務(wù)數(shù)據(jù)的應(yīng)用。
本文研究基于Apache Superset[7]的商務(wù)智能數(shù)據(jù)可視化問題,并以某手機(jī)品牌線上銷售數(shù)據(jù)為例,從不同維度對(duì)銷售數(shù)據(jù)進(jìn)行選擇、過濾與轉(zhuǎn)換,最終以適當(dāng)方式將結(jié)果呈現(xiàn)出來,從而達(dá)到以可視化方式展示數(shù)據(jù)的目的。主要工作分為以下幾個(gè)階段:
(1)數(shù)據(jù)準(zhǔn)備階段:明確需要哪些商品信息,以及如何獲取真實(shí)、有效的商品銷售數(shù)據(jù)。
(2)數(shù)據(jù)提取階段:對(duì)于第一步獲取的原始數(shù)據(jù),其格式、結(jié)構(gòu)參差不齊,因此如何對(duì)這些數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換并從中提取有效信息,是最為關(guān)鍵,也較為復(fù)雜的一步。
(3)數(shù)據(jù)存儲(chǔ)階段:對(duì)提取的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理及格式轉(zhuǎn)換,針對(duì)有效數(shù)據(jù)設(shè)計(jì)數(shù)據(jù)庫結(jié)構(gòu),建立相應(yīng)數(shù)據(jù)庫,并且能對(duì)數(shù)據(jù)庫中存取的數(shù)據(jù)表進(jìn)行查詢、更新等操作。
(4)數(shù)據(jù)可視化階段:對(duì)于不同維度甚至多維度數(shù)據(jù),選擇高效、靈活的可視化方式進(jìn)行展示,并且在可視化圖表中實(shí)現(xiàn)交互,用戶可通過圖表透視數(shù)據(jù)庫具體內(nèi)容。最后,將多個(gè)數(shù)據(jù)切片整合到一個(gè)可視化儀表盤中。
(5)數(shù)據(jù)分析總結(jié)階段:可視化圖表將數(shù)據(jù)以直觀的方式展現(xiàn)出來,管理者可通過對(duì)圖表信息的對(duì)照分析,總結(jié)產(chǎn)品銷售情況,并對(duì)未來作出合理預(yù)測(cè)。
1 相關(guān)技術(shù)基礎(chǔ)
1.1 多維數(shù)據(jù)分析
多維分析是指分析數(shù)據(jù)時(shí)將數(shù)據(jù)分為兩種類型:維度與度量[8]。維度即數(shù)據(jù)分析的各個(gè)出發(fā)角度,度量即數(shù)據(jù)在各維度上的某類屬性值。對(duì)數(shù)據(jù)進(jìn)行多維分析,第一步要對(duì)數(shù)據(jù)進(jìn)行多維建模,創(chuàng)建多維數(shù)據(jù)庫模型。構(gòu)建多維模型的過程即構(gòu)建多維數(shù)據(jù)庫,多維數(shù)據(jù)庫包括兩類數(shù)據(jù)表:事實(shí)表和維度表。例如:查詢公司某產(chǎn)品在某地區(qū)某個(gè)時(shí)點(diǎn)的銷售額,構(gòu)建多維模型,在其維度產(chǎn)品、地區(qū)與時(shí)間的交匯處會(huì)有一個(gè)度量值銷售額。在圖1中,事實(shí)表帶有3個(gè)外關(guān)鍵字(FK標(biāo)記),外關(guān)鍵字即外碼,連接維度表的主關(guān)鍵字。3個(gè)維度表可理解為事實(shí)表的分割部分,每個(gè)維度表都是對(duì)一個(gè)維度細(xì)節(jié)的描述,包含多個(gè)維度屬性,并具備較強(qiáng)的維度分析能力。
多維數(shù)據(jù)庫構(gòu)建成功后,必須在該數(shù)據(jù)庫基礎(chǔ)上建立多維視圖,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的查詢與分析,而數(shù)據(jù)cube (數(shù)據(jù)立方體)提供了數(shù)據(jù)的多維視圖。常見的多維數(shù)據(jù)分析方法包括:數(shù)據(jù)切片/切塊、數(shù)據(jù)鉆取、數(shù)據(jù)旋轉(zhuǎn),可從多個(gè)層次對(duì)數(shù)據(jù)進(jìn)行剖析。
1.2 Python網(wǎng)絡(luò)爬蟲
為獲取較大規(guī)模且結(jié)構(gòu)復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù),可采用爬蟲技術(shù)。若用戶想要獲取網(wǎng)絡(luò)上的數(shù)據(jù),可利用代碼程序模擬瀏覽器請(qǐng)求網(wǎng)絡(luò)站點(diǎn),站點(diǎn)返回網(wǎng)頁上的html代碼或Json數(shù)據(jù)到本地,根據(jù)需要提取有用的數(shù)據(jù)信息,并存放到數(shù)據(jù)庫中。
Python解析網(wǎng)頁數(shù)據(jù)時(shí),根據(jù)不同數(shù)據(jù)形式選擇不同方法,解析html數(shù)據(jù)采用re模塊的正則表達(dá)式或調(diào)用第三方解析庫,解析二進(jìn)制數(shù)據(jù)可直接以Web方式寫入文件,解析JSON數(shù)據(jù)則調(diào)用JSON模塊。
1.3 Superset可視化
Superset是由Airbnb公司研發(fā)的開源數(shù)據(jù)分析平臺(tái),是一款現(xiàn)代化的企業(yè)級(jí)商業(yè)智能Web應(yīng)用程序,其具有十分強(qiáng)大的可視化功能。Superset通過直觀的界面,提供多種可視化方法進(jìn)行數(shù)據(jù)分析,并創(chuàng)建交互式儀表盤,用戶可深入挖掘與剖析儀表盤中的數(shù)據(jù)。同時(shí),該平臺(tái)還集成了一個(gè)SQL編輯器,支持多種數(shù)據(jù)庫連接,能夠?qū)Υ笮蛯?shí)時(shí)數(shù)據(jù)集進(jìn)行快速切片與切割。
Superset可通過連接數(shù)據(jù)庫對(duì)數(shù)據(jù)庫中的單個(gè)表進(jìn)行配置,選擇可視化樣式,如基礎(chǔ)的柱狀圖等統(tǒng)計(jì)圖樣式,以及詞匯云圖、地圖、熱力圖、樹狀圖等。Superset為數(shù)據(jù)分析人員提供了豐富的可視化圖表,在最新版本中其支持的圖表類型已達(dá)到36種,而且在選擇圖表時(shí)還可看到每種圖表的縮略圖。圖2展示了部分圖表樣式。
當(dāng)Superset成功連接數(shù)據(jù)庫后,需要定義可視化所需的表字段信息,Superset對(duì)表的定義主要是通過選擇指標(biāo)(Metric)信息實(shí)現(xiàn)的。指標(biāo)是指對(duì)某個(gè)字段的統(tǒng)計(jì)結(jié)果,如求和、均值、最值等。對(duì)數(shù)據(jù)分析人員而言,不是直接在Superset上編輯SQL語句,而是通過選擇指標(biāo)(Metric)、分組條件(Group)與過濾條件(Filter)制作圖表。在對(duì)數(shù)據(jù)庫中的表數(shù)據(jù)進(jìn)行可視化并形成可視化圖表后,將其保存為切片(Slice)。創(chuàng)建多個(gè)用戶切片后,可將多個(gè)可視化切片展現(xiàn)在一個(gè)儀表盤(Dashboard)上,通過調(diào)整各切片大小和位置,構(gòu)造一個(gè)分布合理、外表美觀的儀表盤。每個(gè)儀表盤上展示的圖表都對(duì)應(yīng)一個(gè)數(shù)據(jù)分析主題,如圖3中的世界銀行數(shù)據(jù)統(tǒng)計(jì)儀表盤展示了可進(jìn)行交互式計(jì)算的數(shù)據(jù)透視表、時(shí)序線型圖、時(shí)序面積圖、旭日?qǐng)D、箱型圖及樹狀圖等。該圖表不僅多層次地展示了數(shù)據(jù)背后隱含的實(shí)際意義,同時(shí)也極大地豐富了視覺效果,使原本枯燥繁瑣的數(shù)據(jù)變得清晰明了。
2 需求分析
2.1 功能需求分析
2.1.1 產(chǎn)品價(jià)格對(duì)銷售額的影響
一般而言,影響銷售量的一個(gè)重要因素是產(chǎn)品價(jià)格,但產(chǎn)品價(jià)格對(duì)產(chǎn)品銷售量的影響并不是簡(jiǎn)單的線性關(guān)系,不是價(jià)格越低用戶購買量越高、價(jià)格越高購買量越低,消費(fèi)者追求的通常為性價(jià)比。但是針對(duì)不同層次的消費(fèi)者而言,性價(jià)比的定義又存在差異。因此,在分析產(chǎn)品價(jià)格因素的同時(shí),應(yīng)當(dāng)綜合考慮定位于不同消費(fèi)層次產(chǎn)品的購買者因素[10],從這兩個(gè)維度進(jìn)行分析將更為合理。
2.1.2 產(chǎn)品銷售額時(shí)序分析
每個(gè)產(chǎn)品都存在生命周期,由于消費(fèi)者消費(fèi)需求、消費(fèi)方式、消費(fèi)心理的變化以及影響市場(chǎng)其它因素導(dǎo)致的商品由盛轉(zhuǎn)衰周期綜短,使得產(chǎn)品銷售額分析變動(dòng)更加復(fù)雜。產(chǎn)品周期通常分為進(jìn)入期、成長期、成熟期和衰退期[11]。在生命周期的不同階段,企業(yè)可采取不同措施,以實(shí)現(xiàn)產(chǎn)品銷售額最大化。
如在產(chǎn)品進(jìn)入期,可通過加強(qiáng)新產(chǎn)品宣傳力度,告知消費(fèi)者該產(chǎn)品優(yōu)勢(shì),以便在產(chǎn)品投入市場(chǎng)時(shí)能夠吸引消費(fèi)者注意;在每年的購物狂歡節(jié)推出產(chǎn)品優(yōu)惠活動(dòng),從而提高產(chǎn)品銷售額的飽和度;在產(chǎn)品衰退期分析產(chǎn)品衰退原因或性能缺陷,以便更好地在開發(fā)新產(chǎn)品時(shí)對(duì)其進(jìn)行改進(jìn)。綜合分析華為幾種不同系列手機(jī)上市至今的銷售額,并針對(duì)店鋪采取的不同措施,分析相關(guān)措施產(chǎn)生的效果,從而為產(chǎn)品未來發(fā)展作好規(guī)劃。
2.1.3 產(chǎn)品配置對(duì)銷售額的影響
電子產(chǎn)品最吸引消費(fèi)者的通常是其硬件條件,對(duì)于手機(jī)而言主要包括兩個(gè)方面:性能和外觀。智能手機(jī)性能主要通過以下幾個(gè)數(shù)據(jù)指標(biāo)值體現(xiàn):內(nèi)核數(shù)、運(yùn)行內(nèi)存、存儲(chǔ)容量、分辨率與攝像頭像素等。同時(shí),外觀也是消費(fèi)者購買產(chǎn)品時(shí)考慮的重要因素之一,不同性別、年齡層次的消費(fèi)者對(duì)于外觀的選擇通常有所區(qū)別,應(yīng)當(dāng)考慮在同一類型消費(fèi)群體中消費(fèi)者更偏愛哪種外型。此外,在購買手機(jī)時(shí)往往還會(huì)涉及一個(gè)附加增值保障服務(wù),即手機(jī)保險(xiǎn),如全保修兩年、一年碎屏保險(xiǎn)等,由于青年消費(fèi)者往往容易發(fā)生手機(jī)碎屏事故,如提前購買碎屏保險(xiǎn),相比更換原裝手機(jī)屏幕要?jiǎng)澦愫芏?。所以針?duì)特定消費(fèi)群體的手機(jī)推出此類增值保障服務(wù),一方面考慮了消費(fèi)者實(shí)際需求,另一方面也能夠帶來增值消費(fèi),從而使雙方受益。
2.1.4 用戶評(píng)價(jià)內(nèi)容分析
在信息化時(shí)代,各種信息充斥著人們眼球,網(wǎng)購消費(fèi)者在選購商品時(shí)通常會(huì)參考其他顧客的評(píng)價(jià)信息。同樣,對(duì)于品牌商家而言,對(duì)評(píng)論信息進(jìn)行深入挖掘與分析,一方面可以了解顧客對(duì)商品的真實(shí)感受,另一方面,評(píng)論內(nèi)容在一定程度上可以反映用戶需求,從而使商家能夠更好地把握市場(chǎng)趨勢(shì),生產(chǎn)出令顧客滿意的產(chǎn)品[12]。評(píng)論信息往往能反映出用戶對(duì)商品、服務(wù)的關(guān)注點(diǎn)及不滿意之處,從情感分析角度可將其分為正面和負(fù)面,還可對(duì)用戶負(fù)面評(píng)價(jià)信息從細(xì)節(jié)粒度上進(jìn)行分類,例如是對(duì)商品某方面不滿意,還是對(duì)物流、店鋪服務(wù)態(tài)度等不滿意,從而更加精準(zhǔn)地定位需要改進(jìn)與優(yōu)化之處。但是用戶評(píng)價(jià)內(nèi)容往往多且雜,如何在相關(guān)數(shù)據(jù)中準(zhǔn)確挖掘出有效信息,最直接的方法就是提取關(guān)鍵詞,并統(tǒng)計(jì)不同關(guān)鍵詞重復(fù)出現(xiàn)的次數(shù)。某關(guān)鍵詞出現(xiàn)次數(shù)越多,表明用戶對(duì)該商品某個(gè)屬性或性能關(guān)注度很高,并且針對(duì)不同系列商品,相應(yīng)消費(fèi)群體對(duì)商品的關(guān)注點(diǎn)也不同,所以找出這些關(guān)注點(diǎn)是用戶評(píng)論內(nèi)容分析的關(guān)鍵。
2.1.5 產(chǎn)品銷售地域數(shù)據(jù)分析
通過對(duì)商品訂單地域數(shù)據(jù)進(jìn)行分析,可以得到不同地域銷售特點(diǎn),從而實(shí)施不同銷售策略。分析該品牌商家在不同城市的訂單金額和訂單數(shù)目,一方面,商品訂單金額可直觀反映某區(qū)域人群的消費(fèi)水平,訂單金額越大的城市往往消費(fèi)水平越高,消費(fèi)者購買能力越強(qiáng),其在購物時(shí)往往很少將價(jià)格作為首要考慮因素,而是更加注重商品質(zhì)量與售后服務(wù),因此這類消費(fèi)者群體通常追求高質(zhì)量的商品。另一方面,電子商務(wù)都涉及產(chǎn)品運(yùn)輸問題,通過分析商品訂單的地域數(shù)據(jù),有利于品牌商家針對(duì)不同地域設(shè)置不同條件以解決物流問題。對(duì)于訂單交易額大的區(qū)域,可根據(jù)實(shí)際情況合理選擇商品倉庫地點(diǎn),針對(duì)該區(qū)域用戶還可選擇包郵策略或多買多降策略,以此吸引顧客,提高訂單量和消費(fèi)金額。
2.2 可視化需求分析
2.2.1 氣泡圖
氣泡圖類似散點(diǎn)圖,但與散點(diǎn)圖的不同之處在于氣泡圖中的氣泡有大小和顏色之分,氣泡顏色可以代表一個(gè)維度(Series),而氣泡實(shí)體(Entity)可以代表該維度下的某個(gè)屬性,氣泡大?。˙ubble_Size)代表該屬性度量值大小,并且度量值越大,氣泡顏色越深。氣泡圖適用于表述某品牌不同類或不同系列商品的屬性值差異,并且品牌商品越多,數(shù)值型差異越大,氣泡圖中的區(qū)別也更加清晰可見。
2.2.2 南丁格爾玫瑰圖
南丁格爾玫瑰圖將不同顏色的餅狀圖與直方圖相結(jié)合,外形就像一朵綻放的玫瑰,因此稱為“玫瑰圖”。在分析不同系列手機(jī)在不同月份的銷售額變化情況時(shí),普通柱狀圖無法給人以直觀感受。南丁格爾玫瑰圖用扇形面積大小代替柱形長度,同時(shí)結(jié)合不同月份購物平臺(tái)節(jié)日活動(dòng)對(duì)不同消費(fèi)群體的影響對(duì)比,能更好地分析消費(fèi)者心理,針對(duì)不同消費(fèi)群體開展促銷活動(dòng),從而吸引更多消費(fèi)者。
2.2.3 旭日?qǐng)D
旭日?qǐng)D是一種現(xiàn)代餅圖,其超越了傳統(tǒng)餅圖和環(huán)圖,能明確表達(dá)層級(jí)與歸屬關(guān)系,并以父子結(jié)構(gòu)顯示數(shù)據(jù)構(gòu)成情況,又稱為“太陽圖”。越靠近圖中心則表示范圍更大、等級(jí)更高,通常相鄰兩層是內(nèi)層包含外層的關(guān)系。在很多實(shí)際應(yīng)用場(chǎng)景中都適合使用旭日?qǐng)D,如在銷售匯總中展示不同區(qū)域各種產(chǎn)品的銷售信息等。
在分析消費(fèi)者對(duì)手機(jī)性能與外觀的喜好時(shí),由于涉及兩個(gè)類別,而這兩個(gè)類別又存在相互包含的關(guān)系,手機(jī)內(nèi)存屬性下包含各種不同顏色,同時(shí)也可以理解為各顏色都配有不同內(nèi)存大小的手機(jī)。由于手機(jī)內(nèi)存大小通常只包括32G、64G、128G,故選擇手機(jī)內(nèi)存大小為內(nèi)環(huán)數(shù)據(jù),外環(huán)數(shù)據(jù)表示手機(jī)顏色屬性。此外,不同系列手機(jī)通常針對(duì)不同消費(fèi)群體,對(duì)不同系列手機(jī)通過旭日?qǐng)D進(jìn)行分析對(duì)比,可看出不同消費(fèi)群體對(duì)手機(jī)性能配置與手機(jī)外觀的喜好,從而可根據(jù)消費(fèi)群體的不同特點(diǎn)考慮兩者之間的取舍,使手機(jī)的設(shè)計(jì)更加個(gè)性化。旭日?qǐng)D不僅能清晰、明確地表達(dá)數(shù)據(jù)結(jié)構(gòu),同時(shí)相比于傳統(tǒng)餅圖與環(huán)形圖,其圖表效果更加美觀。
2.2.4 詞云圖
詞云圖也稱為文字云,用于處理復(fù)雜的文本數(shù)據(jù),并對(duì)其中的關(guān)鍵詞按詞頻高低進(jìn)行可視化展示。詞云分析可過濾掉大量低頻且無關(guān)的信息,使用戶能夠清晰看到文本數(shù)據(jù)主要傳達(dá)的信息。詞云圖最常用于對(duì)大量文本信息的發(fā)掘分析,如對(duì)熱門文章進(jìn)行分類統(tǒng)計(jì),通過詞云圖可以看出近期文章的熱點(diǎn)話題,或?qū)δ尘W(wǎng)站購物平臺(tái)的產(chǎn)品名詞匯總后進(jìn)行詞云分析,可以得出熱銷商品等。詞云中詞匯有大小與顏色兩個(gè)特征屬性,關(guān)鍵詞的詞頻越高,顏色越醒目、詞匯越大。
詞云圖也可適用于分析手機(jī)用戶評(píng)價(jià)信息,用戶更多的是關(guān)心該款手機(jī)運(yùn)行速度、內(nèi)存大小,還是外觀形狀,對(duì)手機(jī)的使用評(píng)價(jià)是正面肯定還是缺點(diǎn)吐槽等,相關(guān)信息有助于品牌商家未來對(duì)產(chǎn)品的改進(jìn)與優(yōu)化。
2.2.5 國家地圖
分析商品在不同城市的銷售額,人們大多數(shù)時(shí)候最先考慮的是柱狀圖,由柱形長度表示銷售額高低,能直觀地看出不同區(qū)域的銷售差異。但是數(shù)據(jù)可視化并不僅是統(tǒng)計(jì)圖表,可視化是借助圖形方式展現(xiàn)某一事物的邏輯規(guī)律[13],分析商品銷往地更重要的是了解某區(qū)域銷售情況,如國內(nèi)的沿海城市、中部地區(qū)、西北地區(qū)等區(qū)域,商品在不同地區(qū)的銷售額一定程度上反映了該地區(qū)經(jīng)濟(jì)水平。Superset提供了國家地圖圖表功能,地圖上的顏色深淺代表商品度量值大小,由于在地圖上數(shù)據(jù)指標(biāo)(Metric)可以根據(jù)需要進(jìn)行選擇,指標(biāo)為訂單數(shù)目時(shí)為不同地區(qū)銷售額差異,國家地圖在分析此類區(qū)域性數(shù)據(jù)時(shí)更為清晰、直觀。
3 可視化過程設(shè)計(jì)與實(shí)現(xiàn)
3.1 概述
本文基于ubuntu系統(tǒng)進(jìn)行設(shè)計(jì),利用Python獲取并處理網(wǎng)絡(luò)訂單交易數(shù)據(jù)后存入MySQL數(shù)據(jù)庫,將數(shù)據(jù)庫與Superset可視化工具連接,從而在Superset上實(shí)現(xiàn)對(duì)數(shù)據(jù)庫表的可視化投影,最終得到儀表盤如圖4所示。
3.2 數(shù)據(jù)獲取與處理
本文的數(shù)據(jù)可視化研究以華為手機(jī)線上銷售數(shù)據(jù)為例,由數(shù)據(jù)信息可知,華為手機(jī)分為4個(gè)系列:Mate系列、P系列、暢想系列以及Nova系列,4個(gè)系列又分別包含不同機(jī)型,如P系列的P10、P20等機(jī)型共18種,可以通過數(shù)據(jù)統(tǒng)計(jì)、網(wǎng)絡(luò)爬蟲及商家訂單報(bào)表等途徑獲取18種手機(jī)的銷售信息。
獲取源數(shù)據(jù)后,在其中提取所需信息,如在進(jìn)行銷售額時(shí)序分析時(shí),通過對(duì)訂單時(shí)間的統(tǒng)計(jì),以月份為單位觀察銷售額變化情況,再存入相應(yīng)數(shù)據(jù)庫中用于可視化。
3.3 可視化實(shí)現(xiàn)及結(jié)果分析
3.3.1 商品價(jià)格對(duì)銷售額影響氣泡圖
根據(jù)氣泡圖的3個(gè)屬性Series、Entity、Bubble_Size,建立bubble數(shù)據(jù)庫,3個(gè)列屬性分別對(duì)應(yīng)手機(jī)系列、手機(jī)名稱、銷售額。將價(jià)格—銷售額數(shù)據(jù)表導(dǎo)入Superset后進(jìn)入可視化界面,選擇可視化圖表類型(Visualization Type)為氣泡圖,設(shè)置Series屬性為手機(jī)系列,Entity為手機(jī)具體機(jī)型,氣泡尺寸表示總銷售額,同時(shí)設(shè)置x軸為商品價(jià)格,y軸為銷售額,點(diǎn)擊查詢即可生成氣泡圖,如圖7所示。
華為品牌旗下手機(jī)分為4個(gè)系列:Mate系統(tǒng)、P系列、Nova系列以及暢想系列[14],其中Mate系列主攻高端、商務(wù)續(xù)航,屏幕大,續(xù)航時(shí)間長,目標(biāo)群體為中年商務(wù)人士;P系列稍遜于Mate系列,主攻拍照技術(shù)以及創(chuàng)新軟件,以吸引年輕消費(fèi)者,目標(biāo)群體為年輕商務(wù)人士;Nova系列價(jià)格中等,主攻拍照技術(shù)與外型設(shè)計(jì),目標(biāo)群體為普通年輕群體;暢想系列價(jià)格實(shí)惠、性價(jià)比高,適用于中老年群體。
結(jié)合上述信息分析氣泡圖可得出,對(duì)于不同消費(fèi)群體,銷售額隨價(jià)格變化情況也不同,有的價(jià)格高購買量多,有的價(jià)格低反而購買量多,這是由于不同消費(fèi)習(xí)慣與消費(fèi)心理決定的。因此,面對(duì)不同消費(fèi)群體,應(yīng)當(dāng)采取不同策略,以推出最適合該群體的消費(fèi)產(chǎn)品。
3.3.2 商品銷售額時(shí)序分析玫瑰圖
南丁格爾玫瑰圖中列出了3款手機(jī)在2017年3月~2018年3月期間不同月份的銷售額,因此需要分別獲取3款手機(jī)的銷售數(shù)據(jù)。網(wǎng)購商品銷售額即商品用戶評(píng)價(jià)數(shù)目,只有用戶購買并使用了該款產(chǎn)品才能夠作出評(píng)價(jià)。在用戶評(píng)價(jià)頁面有購買時(shí)間記錄,該數(shù)據(jù)類型為datetime,格式為年-月-日-時(shí)-分-秒,因此一個(gè)購買時(shí)間記錄可以代表一個(gè)訂單,只要統(tǒng)計(jì)出不同月份的購買時(shí)間記錄數(shù)量總和即為該月銷售額。
玫瑰圖展示的是2017年3月~2018年3月期間3款手機(jī)的銷售額變化情況,這3款手機(jī)都是2017年3月上市,從圖中可得出以下信息:首先從整體上看,在2017年11月、2018年2月以及2018年3月銷售額較高,而這3個(gè)月份剛好是雙11和春節(jié)期間,春節(jié)期間銷售額達(dá)到最高,反而在新品上市期間銷售量較少。同時(shí),圖中深藍(lán)色部分面積最大,表示Mate9型號(hào)手機(jī)銷量最高。華為手機(jī)給大眾的感覺是“沉穩(wěn)、低調(diào)”,這也符合其主要目標(biāo)群體中年商務(wù)人士的形象定位。對(duì)于Pro10和暢想6s兩款手機(jī),銷售額一直保持平穩(wěn),但Pro10在11月份銷量出現(xiàn)大幅增長,主要由于雙11活動(dòng)期間最活躍的消費(fèi)群體是年輕消費(fèi)者;暢想6s手機(jī)僅在春節(jié)期間銷量增長,符合中老年群體的消費(fèi)習(xí)慣。根據(jù)以上信息,商家可以在不同節(jié)日有針對(duì)性地開展促銷活動(dòng),才能實(shí)現(xiàn)銷售額最大化。
3.3.3 商品銷售額配置分析旭日?qǐng)D
旭日?qǐng)D對(duì)應(yīng)數(shù)據(jù)表信息包括手機(jī)顏色、內(nèi)存大小與銷售額。圖9中的3張旭日?qǐng)D分別是Mate9、Pro10以及暢想6s手機(jī)的購買量分布情況。從內(nèi)存大小維度看,Mate系列手機(jī)的128G大內(nèi)存機(jī)型購買量較多,Pro系列中64G機(jī)型占絕大多數(shù),而暢想系列幾乎都為普通版(32G);從外觀顏色維度看,Mate系列主流顏色為金色和灰色,Pro系列手機(jī)顏色較為豐富,藍(lán)色、黑色、金色等5種顏色銷量分布均勻,而暢想系列金色手機(jī)的銷量占絕大部分。從上述數(shù)據(jù)可以看出,Mate系列手機(jī)用戶多選擇內(nèi)存大、顏色大氣的機(jī)型,Pro系列手機(jī)用戶追求時(shí)尚、配置要求中等,暢想系列手機(jī)用戶大多追求性價(jià)比,對(duì)外型和內(nèi)存要求不高。
3.3.4 商品評(píng)論內(nèi)容詞云圖
從源數(shù)據(jù)圖可以看出,用戶評(píng)論信息內(nèi)容多且詞匯多樣,需對(duì)詞匯進(jìn)行中文分詞。中文分詞是將漢字序列切分為一個(gè)個(gè)單獨(dú)詞匯,Python提供jieba模塊用于對(duì)文本數(shù)據(jù)進(jìn)行分詞[15],但該分詞方式效果不佳,分詞結(jié)果中會(huì)出現(xiàn)部分無用信息,且有些特定詞組被拆分,故需要為jieba模板加載自定義詞典和停用詞表。自定義詞典包含jieba詞庫中不存在的詞,如“創(chuàng)新軟件”、“指紋解鎖”等新詞匯,以保證分詞準(zhǔn)確率。停用詞是指在分詞過程中希望能自動(dòng)過濾掉的詞匯,如“一天”、“時(shí)間”等無實(shí)際意義的詞匯,以確保分詞得出的關(guān)鍵詞更加符合需求。
采用Superset分別對(duì)3款手機(jī)的評(píng)論信息進(jìn)行詞云圖可視化,對(duì)比圖11中的3張圖,可看出用戶的不同需求與使用產(chǎn)品的真實(shí)感受。從圖中可以看出,Mate手機(jī)用戶對(duì)手機(jī)續(xù)航、拍照、質(zhì)量要求較高,手機(jī)使用評(píng)價(jià)為“大氣”、“流暢”,還可以看到“老公”詞匯頻率也較高,表明多數(shù)情況是女性為其工作的丈夫選購;Pro手機(jī)云圖中,“外觀”、“時(shí)尚”、“指紋解鎖”字眼醒目,符合年輕消費(fèi)者對(duì)手機(jī)的需求,Pro系列手機(jī)的“指紋解鎖”、“創(chuàng)新軟件”等特點(diǎn)也得到了用戶的重點(diǎn)關(guān)注;由暢想系列手機(jī)詞云圖可以看到,“性價(jià)比”是用戶關(guān)心的主要方面,其次“質(zhì)量”、“實(shí)惠”符合中老年群體消費(fèi)特點(diǎn)。從用戶評(píng)價(jià)信息可以得出未來產(chǎn)品的發(fā)展定位,以及不同系列產(chǎn)品的優(yōu)化重點(diǎn)。
3.3.5 商品銷售城市分布圖
Superset提供的城市分布圖可更直觀地反應(yīng)不同區(qū)域銷售額,從商家報(bào)表中的用戶地址中提取省份名稱,并將其轉(zhuǎn)換為對(duì)應(yīng)序列號(hào),最后生成城市地圖。
從銷售額城市分布圖可以得出,沿海地區(qū)的浙江、江蘇、上海、廣東以及北京5個(gè)省份(城市)的訂單數(shù)量最多,其次是福建、四川、重慶以及東北地區(qū),中部地區(qū)訂單數(shù)量一般,最少的是西北地區(qū),因此可根據(jù)不同地域的銷售特點(diǎn)實(shí)施不同銷售策略。發(fā)達(dá)城市客戶購買能力強(qiáng),可以針對(duì)相關(guān)群體采取網(wǎng)購包郵策略,以進(jìn)一步提高訂單數(shù)量;對(duì)于其它城市,則可以通過降低商品價(jià)格以吸引客流。這里的降低商品價(jià)格并不是單純降低單個(gè)商品價(jià)格,而是可以采取多買多降策略,以提高消費(fèi)總量。網(wǎng)購平臺(tái)并不能只依靠一線城市的消費(fèi)群體支撐,其它城市的銷量也是需要重點(diǎn)關(guān)注的,所以應(yīng)當(dāng)針對(duì)不同區(qū)域消費(fèi)者特點(diǎn)實(shí)施差異化的銷售策略。
4 結(jié)語
商務(wù)智能在如今的商業(yè)決策領(lǐng)域發(fā)揮著越來越重要的作用,繼數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘等技術(shù)的廣泛應(yīng)用之后,數(shù)據(jù)可視化技術(shù)也開始應(yīng)用于商務(wù)智能領(lǐng)域。數(shù)據(jù)可視化技術(shù)可幫助企業(yè)管理者更加清晰、直觀地理解企業(yè)數(shù)據(jù),掌握企業(yè)發(fā)展趨勢(shì),以便作出關(guān)鍵決策。
本文的數(shù)據(jù)可視化研究是基于Apache Superset這一強(qiáng)大的可視化工具完成的,但Superset在處理結(jié)構(gòu)復(fù)雜的海量數(shù)據(jù)信息方面仍存在一些不足,其提供的可視化模型并不能完全滿足商業(yè)數(shù)據(jù)信息可視化需求。同時(shí),在數(shù)據(jù)可視化過程中,從數(shù)據(jù)信息的采集、存儲(chǔ),到分析、處理及可視化,每個(gè)階段都需要人工進(jìn)行處理,無疑大大增加了數(shù)據(jù)分析人員的工作量。因此,針對(duì)特定的數(shù)據(jù)分析工作,應(yīng)當(dāng)將相關(guān)大數(shù)據(jù)技術(shù)進(jìn)行系統(tǒng)化,建立智能化的信息集成控制平臺(tái),將數(shù)據(jù)處理工作全部交由系統(tǒng)完成,從而提高數(shù)據(jù)管理工作效率,實(shí)現(xiàn)企業(yè)信息數(shù)據(jù)資源利用的最大化。
參考文獻(xiàn):
[1] 史啟民,李東輝,何鵬. 大數(shù)據(jù)可視化技術(shù)在智能化行業(yè)中的應(yīng)用[J].軟件應(yīng)用,2017(30): 19-21.
[2] 陳紅軍. 商務(wù)智能基于大數(shù)據(jù)的有效決策[J]. 企業(yè)管理,2018(4):101-103.
[3] 陸遙. 數(shù)據(jù)可視化探索系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D]. 杭州:浙江大學(xué),2016.
[4] 蔣曉宇. 基于Tableau的可視化業(yè)務(wù)報(bào)表的設(shè)計(jì)與實(shí)現(xiàn)[J]. 數(shù)字通信世界,2017(2):230-231.
[5] 畢萬林. 基于BI的電信經(jīng)營分析系統(tǒng)報(bào)表工具[D]. 大連:大連交通大學(xué),2013.
[6] 柏茂源,代福平. 數(shù)據(jù)可視化在電子商務(wù)大數(shù)據(jù)領(lǐng)域的應(yīng)用研究[J]. 藝術(shù)與設(shè)計(jì):理論, 2017(3):76-78.
[7] 何雪瑩. 探索性數(shù)據(jù)可視化分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 成都:西南交通大學(xué),2017.
[8] 楊倩雯. 商務(wù)智能主要技術(shù)的發(fā)展和應(yīng)用[J]. 信息技術(shù),2015(8):24-25.
[9] 郝希亮,張海鵬. 基于Web的多維數(shù)據(jù)可視化系統(tǒng)設(shè)計(jì)[J]. 軟件導(dǎo)刊,2018,17 (8): 133-136.
[10] 劉志超,陳勇,姚志立. 大數(shù)據(jù)時(shí)代的電子商務(wù)服務(wù)模式革新[J]. 科技管理研究, 2014, 34(1):31-34.
[11] 王茜, 錢力. 大數(shù)據(jù)環(huán)境下電子商務(wù)個(gè)性化推薦服務(wù)發(fā)展動(dòng)向探析[J]. 商業(yè)研究, 2014(8):150-154.
[12] 董艷,高健飛. 大數(shù)據(jù)時(shí)代下如何打造個(gè)性化的商務(wù)智能實(shí)踐[J]. 科技資訊,2015,27(18):18-19.
[13] 崔迪,郭小燕,陳為. 大數(shù)據(jù)可視化的挑戰(zhàn)與最新進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用, 2017(7):226-231,238.
[14] 籍瑞華. 華為手機(jī)的定價(jià)戰(zhàn)略簡(jiǎn)析[J]. 新商務(wù)周刊,2018(7):151.
[15] 林川,王小華. 基于ERP的商務(wù)智能系統(tǒng)設(shè)計(jì)與應(yīng)用[J]. 航空制造技術(shù),2014(8):113-117.
(責(zé)任編輯:黃 ?。?/p>