張楠
摘 要:網(wǎng)絡交易數(shù)據(jù)可視化是一個新興研究領域,它將抽象的交易數(shù)據(jù)轉(zhuǎn)化為可視圖表展現(xiàn),能夠更直觀地分析交易數(shù)據(jù)特征,揭示交易數(shù)據(jù)內(nèi)涵,增強分析或決策人員的洞察力。本文廣泛調(diào)研了網(wǎng)絡交易數(shù)據(jù)可視化研究,首先對文獻中網(wǎng)絡交易數(shù)據(jù)可視化呈現(xiàn)進行了細致梳理及分類;其次對網(wǎng)絡交易數(shù)據(jù)特性進行了歸納總結(jié);最后對未來發(fā)展趨勢提出展望。
關鍵詞:交易數(shù)據(jù);可視化;時序數(shù)據(jù);交互設計
中圖分類號:F124.3 文獻標識碼:A 文章編號:2096-0298(2021)01(b)--06
隨著網(wǎng)絡交易的飛速增長,產(chǎn)生了大量的交易數(shù)據(jù)。如何理解和分析這些網(wǎng)絡交易數(shù)據(jù),又如何將原始數(shù)據(jù)轉(zhuǎn)化為有價值的信息,成為各大商家關注的焦點,同時也是學者和科研人員的研究熱點。
目前,對網(wǎng)絡交易數(shù)據(jù)分析多采用統(tǒng)計分析或數(shù)據(jù)挖掘的定量方法,即對數(shù)據(jù)關系分析研究,認識和揭示數(shù)據(jù)之間的規(guī)律,或者是利用自動算法,根據(jù)已有數(shù)據(jù)構建出相應模型,通過對模型進行研究,用戶可以從中提取出分析結(jié)果和蘊含的知識。就研究方法而言,統(tǒng)計分析或者數(shù)據(jù)挖掘在一定程度上可以反映出數(shù)據(jù)的特征,但無法直觀顯示,且缺乏交互性。
網(wǎng)絡交易數(shù)據(jù)可視化是一個新興研究領域[1]。它利用人眼的感知能力對商業(yè)數(shù)據(jù)進行交互的可視表達以增強認知的技術,將原始多維數(shù)據(jù)間的復雜關系、潛在信息以及發(fā)展趨勢通過圖形、符號、顏色、紋理等可視化呈現(xiàn),增強數(shù)據(jù)識別效率,傳遞有效信息,為數(shù)據(jù)分析任務提供更直觀的途徑。
本文主要對網(wǎng)絡交易數(shù)據(jù)可視化研究進行綜述。首先,根據(jù)可視化呈現(xiàn)角度不同,對已有研究成果進行分類,并闡述了代表性可視圖形技術;其次,歸納了網(wǎng)絡交易數(shù)據(jù)的特性;最后是總結(jié)及展望。
1 交易數(shù)據(jù)可視化圖形分類
國內(nèi)外學者已經(jīng)提出一定數(shù)量的網(wǎng)絡交易數(shù)據(jù)可視化方案,根據(jù)文章出現(xiàn)的先后順序,我們將網(wǎng)絡交易數(shù)據(jù)可視圖技術分為兩類:單視圖和多視圖,如表1所示。單視圖是熟知的、簡單圖形,包括柱狀圖、像素柱狀圖、值-單元格柱狀圖以及熱圖。多視圖是單視圖組合,能更多反映交易數(shù)據(jù)維度信息。
1.1 單視圖
1.1.1 柱狀圖
圖1是最簡單的統(tǒng)計圖形,通常使用柱形和顏色來編碼數(shù)據(jù)的屬性。柱狀圖的一個坐標軸表示比較的類別,另一個坐標軸表示對應類別的統(tǒng)計值。在商品交易中,柱狀圖,縱坐標表示商品銷售數(shù)量,橫坐標表示12個月[2,3]。
1.1.2 像素柱狀圖
像素柱狀圖由柱狀圖衍生而來,其基本思想是直接顯示數(shù)據(jù)值,而不是將數(shù)據(jù)聚集。在像素柱狀圖中,單個像素表示每個數(shù)據(jù)項,每個數(shù)據(jù)項的一個屬性的詳細信息被編碼為像素顏色。像素柱狀圖的一個重要問題是:如何排列每個柱狀圖中的像素。Keim提出:首先使用一個或兩個屬性將數(shù)據(jù)分布在各個柱狀圖中,其次使用兩個其他屬性在柱狀圖中排序,最后其他屬性使用顏色來映射。因此,像素柱狀圖可以看作普通柱狀圖和x-y圖的組合。像素柱狀圖的基本形式如下:劃分屬性(用于劃分像素柱狀圖)、排序?qū)傩裕ㄓ糜谙袼刂鶢顖D內(nèi)部像素排序)、著色屬性(像素著色)。像素柱狀圖被分成五元組:<像素對象,劃分屬性,X軸排序?qū)傩裕琘軸排序?qū)傩?,著色屬?。
在消費者交易案例中,一個像素對應一位顧客來可視化交易數(shù)據(jù)。圖2顯示了利用像素柱狀圖可視化電子商務交易數(shù)據(jù)。在圖2中,像素柱狀圖用商品類型作為劃分屬性,時間(月份)和商品價格作為x和y排序?qū)傩裕瑘D內(nèi)顏色分別表示時間(月份)、商品價格、訪問量和商品數(shù)量。在時間(月份)屬性圖2(a)中,第12個月(面積最大)客戶數(shù)量,而第2個月(面積最小)的客戶數(shù)量最少。在商品價格屬性圖2(b)中,2月、3月、4月和5月價格最高。在訪問量屬性圖2(c)中,從3月、4月、5月和6月中的顏色分布看出,這幾個月的客戶比其他幾個月的客戶回訪的頻率更高。在商品數(shù)量屬性圖2(d)中,均分布在整個一年中,表明大多數(shù)顧客購買不止一件商品。
通過像素柱狀圖的比對,商家能分析出消費者購買的規(guī)律,找出最有價值的消費者。但是像素柱狀圖的維度有限,隨著時間的推移和數(shù)據(jù)量增加,像素柱狀圖無法展現(xiàn)大量用戶信息和交易信息。
1.1.3 值-單元格柱狀圖
值-單元格柱狀圖[4]被用來可視化任何類型的交易數(shù)據(jù)。這些交易數(shù)據(jù)集通常是大量的多屬性數(shù)據(jù)集,包括類別型、標稱型以及數(shù)值型屬性。類別型或標稱型屬性用于將數(shù)據(jù)劃分為柱狀圖,而數(shù)字型屬性用于確定柱狀圖的高度。為顯示在常規(guī)柱狀圖中未顯示的單個交易值,將所有柱狀圖劃分為值-單元格。一個單元格代表一個值,并在視覺上顯示為固定大小的小矩形(不一定有邊框)。值單元格大小由柱狀圖的總值,柱狀區(qū)域,單元格值和柱狀圖內(nèi)X軸方向上的單元格個數(shù)共同定義。
在商品交易實例中,使用42,074個交易數(shù)據(jù)構建了一個值-單元格柱狀圖,顯示了銷售價值分布,如圖3所示。柱狀圖的尺寸代表一個月的總值,商品交易值離散到一個或多個單元格中。紅色和深紅色的區(qū)域表示交易額高于$ 1,000。與綠色和黃色區(qū)域中的低交易額相比,紅色和深紅色的區(qū)域占據(jù)更多空間,說明它們對總銷售額的貢獻更大。每個月都有高價值交易,尤其是第4個月。但在第12個月中,低于$ 500的低交易額(藍色,綠色和黃色區(qū)域)對銷售的貢獻要大于高于$ 1,000的高交易額(紅色和深紅色區(qū)域)。
值-單元格柱狀圖用以可視化交易日志的整體概括和細節(jié)信息,從而發(fā)現(xiàn)對交易金額和交易數(shù)量貢獻大的用戶。但值-單元格柱狀圖未考慮與用戶購買行為相關的用戶特征和商品特征。
1.1.4 熱力圖
熱力圖被用來表達二維數(shù)據(jù),數(shù)據(jù)常以矩形形式整齊排列,數(shù)據(jù)值大小用顏色來表示。Hayashi[5,6]采用熱圖與時間軸來可視化商品交易信息,如圖4所示?;舅枷胧菍⒗L圖空間劃分為網(wǎng)格,將時間變量分配給X軸,將另一個變量分配給Y軸,根據(jù)需要為網(wǎng)格空間著色相應記錄的數(shù)量。圖4(a)顯示了商品交易概況,其中X軸表示天數(shù),Y軸表示店鋪ID。此圖表明:周末或節(jié)假日在多家商店中始終有很多交易(如兩個紅色圓圈所示),商品交易在幾個商店中定期增加(圖4(a)中的紅色箭頭所示)。圖4(b)顯示了應用基于聚類的過濾并可視化特定聚類的內(nèi)容。從圖4(b)可看出,聚集中的商店在最后一個周末的商品交易活動相對較多(圖4(b)紅色箭頭所示)。 圖4(c)繪制了異常值和非異常值項;異常項目為亮粉紅色。圖4(c)表明:交易額度較大的商店始終具有大量交易,而其他商店則在一個月的下半月的特定日期或周末交易量急劇增加。從圖4(a)中發(fā)現(xiàn)這種趨勢并不容易,但是由于離群值檢測和顏色重新計算,可以輕松發(fā)現(xiàn)它們。
布局維度是用來表示事件組之間的關系,決定時序數(shù)據(jù)以何種布局方式進行排布。如圖10第三行所示,包括統(tǒng)一布局、多面布局、分段布局和多面+分段布局。統(tǒng)一布局是單個時間線。多面布局是通過屬性分成多個時間線。分段布局是根據(jù)有意義的時間劃分時間線,例如按月、周、天進行分段。
2.2 時序特性
交互特性用以響應用戶的交互操作,交易數(shù)據(jù)可視化系統(tǒng)提供了一系列交互設計[12],包括過濾(數(shù)據(jù)篩選)、編碼(顏色映射)、關聯(lián)(協(xié)調(diào)多視圖)、概述和詳細(時間切換)。
(1)過濾(數(shù)據(jù)篩選):用于設置約束條件實現(xiàn)信息查詢。例如,在交易數(shù)據(jù)可視化系統(tǒng)中的數(shù)據(jù)篩選,使用預定義關鍵字和其他條件過濾數(shù)據(jù),以提高系統(tǒng)的接受度。
(2)編碼(顏色映射):用于改變數(shù)據(jù)元素的可視化編碼。例如,在交易數(shù)據(jù)可視化系統(tǒng)中的顏色控制,使用極值映射和規(guī)律映射兩種顏色映射方法,同時還可調(diào)節(jié)結(jié)點的透明度。
(3)關聯(lián)(協(xié)調(diào)多視圖):用于顯示數(shù)據(jù)對象之間的聯(lián)系。例如,在交易數(shù)據(jù)可視化系統(tǒng)中的協(xié)調(diào)多視圖,單一視圖不能滿足所有要求,也不能顯示所有必要數(shù)據(jù)。協(xié)調(diào)多視圖系統(tǒng)允許用戶查看不同的數(shù)據(jù),同時能夠輕松理解視圖之間的聯(lián)系。
(4)概述和詳細(時間切換):用于有限條件下顯示總體和細節(jié)。例如,在交易數(shù)據(jù)可視化系統(tǒng)中的時間切換,在概述中查看一年、一月、一周和一天中所有交易數(shù)據(jù)的匯總視圖,詳細是選定單個交易數(shù)據(jù)信息。
3 總結(jié)及展望
網(wǎng)絡交易數(shù)據(jù)可視化是將電子商務數(shù)據(jù)分析和可視化技術有機結(jié)合起來,通過圖形化的交互工具,提高數(shù)據(jù)分析師的理解力,使分析師更深入地了解用戶的需求。從文本梳理可以發(fā)現(xiàn),網(wǎng)絡交易數(shù)據(jù)可視化已經(jīng)取得了豐碩的研究成果,但是隨著網(wǎng)絡交易的多變性,研究者們還面臨著諸多的挑戰(zhàn):
一是目前使用的網(wǎng)絡交易數(shù)據(jù)均來自于各個網(wǎng)絡交易公司的離線記錄數(shù)據(jù)。但實時數(shù)據(jù)對于數(shù)據(jù)分析更為重要,如何實時顯示網(wǎng)絡交易數(shù)據(jù)可視化對數(shù)據(jù)分析及圖形繪制提出新的要求。
二是目前使用的網(wǎng)絡交易數(shù)據(jù)均來自于PC端的傳統(tǒng)網(wǎng)站。隨著我國移動互聯(lián)網(wǎng)用戶數(shù)量的全面提升,網(wǎng)絡交易數(shù)據(jù)也來自于移動網(wǎng)絡。但移動網(wǎng)絡環(huán)境多變且移動設備屏幕有限,如何提高網(wǎng)絡交易數(shù)據(jù)的環(huán)境穩(wěn)定性,解決移動設備屏幕受限的問題,這將是研究人員所需要解決的關鍵問題。
三是目前網(wǎng)絡交易數(shù)據(jù)可視化系統(tǒng)都有交互設計,但為了能更好地分析交易數(shù)據(jù),更加深入地理解用戶的需求,需要加強用戶實測模塊方面的深入研究。
參考文獻
陳為,沈則潛,陶煜波,等.數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社,2019.
DANIEL K, MING H, JULIAN L, et al. Pixel Bar Charts: A new technique for visualizing large multi-attribute data sets without aggregation, Hewlett-Packard Laboratories Technical Report, HPL-2001-92, March 2001.
HAO M C, LADISCH J, DAYAL U, et al. Visual mining of e-customer behavior using pixel bar charts [C]. Proceedings of the ACM KDD. 2001: 1-7.
DANIEL K, MING H, UMESHWAR D, et al. Value-cell bar charts for visualizing large transaction data sets [J]. IEEE Transactions on visualization and computer graphics, 2007, 13(4): 1-12.
HAYASHI A, ITOH T, NAKAMURA S. A visual analytics tool for system logs adopting variable recommendation and feature-based filtering [C]. Proceedings of the 17th International Conference of Information Visualization, 2013: 1-10.
HAYASHI A, KOHJIMA M, MATSUBAYASHI T, et al. Regularity measure and influence weight for analysis and visualization of consumers attitude [C]. Proceedings of the 19th International Conference on Information Visualization, 2015: 290-299.
CHANG R, GHONIEM M, KOSARA R, et al. WireVis: Visualization of categorical, time-varying data from financial transactions [C].Proceedings of the 2007 IEEE symposium on Visual Analytics Science and Technology, 2007:155-162.
LIU Z, STASKO J,SULLIVAN T. SellTrend: inter-attribute visual analysis of temporal transaction data [J]. IEEE Transactions on Visualization and Computer Graphics. 2009, 15(6):1025-1032.
XIE C,CHEN W,HUANG X X, HU Y Q, et.al. VAET: a visual analytics approach for e-transactions time-series. IEEE Transactions on Visualization & Computer Graphics [J]. 2014,20(12):1743-1752.
賈若雨,曾昂,朱敏,等.面向在線交易日志的用戶購買行為可視化分析[J].軟件學報,2017,28(9):2450-2467.
BREHMER M, LEE B, BACH B, et al. Timelines Revisited: A design space and considerations for expressive storytelling [J].IEEE Transactions on Visualization and Computer Graphics.2017,23(9): 2151-2164.
SHNEIDRMAN B,PLAISANT C.Designing the user interface: strategies for effective human-computer interaction[M].Boston:Addison-Wesley,2005:40-50.