閆東
關(guān)鍵詞 數(shù)據(jù)可視化 數(shù)據(jù)分析 數(shù)據(jù)挖掘
大數(shù)據(jù)具有五“V”特征,即數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、價(jià)值密度低(Value)、真實(shí)性(Veracity)。大數(shù)據(jù)為人類生活帶來(lái)了翻天覆地的變化。面對(duì)海量的數(shù)據(jù),如何利用大數(shù)據(jù)來(lái)推動(dòng)社會(huì)的發(fā)展,如何將數(shù)據(jù)內(nèi)在的信息展現(xiàn)出來(lái),是數(shù)據(jù)研究的重要內(nèi)容之一。數(shù)據(jù)的價(jià)值不在于數(shù)據(jù)本身,而是在于對(duì)數(shù)據(jù)的解讀、分析。只有通過(guò)對(duì)數(shù)據(jù)的解讀、分析,才能夠挖掘數(shù)據(jù)隱藏的信息,發(fā)掘信息之中蘊(yùn)含的價(jià)值和智慧。數(shù)據(jù)可視化技術(shù)是一種研究數(shù)據(jù)的重要工具,其可以有效分析和挖掘數(shù)據(jù)。
1數(shù)據(jù)可視化的概念
數(shù)據(jù)可視化通過(guò)圖形等形式分析和展現(xiàn)數(shù)據(jù),從而有效傳達(dá)和溝通信息。數(shù)據(jù)可視化與信息圖形、信息可視化、科學(xué)可視化以及統(tǒng)計(jì)圖形密切相關(guān)。數(shù)據(jù)可視化可以利用信息圖表、統(tǒng)計(jì)圖形、圖表和其他工具傳遞信息[1] 。
2數(shù)據(jù)可視化的意義
數(shù)據(jù)可視化是將空間或者非空間數(shù)據(jù)等各種類型的無(wú)意義的數(shù)據(jù)通過(guò)計(jì)算機(jī)圖形、圖像等表現(xiàn)出來(lái),易于人們理解,提供啟發(fā)或挖掘規(guī)律的可能。
數(shù)據(jù)可視化不僅是讓數(shù)據(jù)簡(jiǎn)單的成為圖表,而是以數(shù)據(jù)為基礎(chǔ),通過(guò)映射,實(shí)現(xiàn)從數(shù)據(jù)視覺(jué)的角度描述世界、探索世界。數(shù)據(jù)可視化的目的和意義是通過(guò)分析、挖掘數(shù)據(jù)的深層次信息,發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,包括學(xué)習(xí)、探索、決策等。
3數(shù)據(jù)可視化的實(shí)現(xiàn)過(guò)程
數(shù)據(jù)可視化流程(圖1) 包括數(shù)據(jù)獲取、數(shù)據(jù)分析、數(shù)據(jù)過(guò)濾、數(shù)據(jù)挖掘、表示、修飾、界面交互等。
3.1數(shù)據(jù)獲取
數(shù)據(jù)獲取的方式(圖2)可以分為線上采集、線下采集兩種。
3.1.1線上采集
線上采集主要包括開(kāi)放數(shù)據(jù)、第三方數(shù)據(jù)平臺(tái)、物理數(shù)據(jù)、APP 數(shù)據(jù)等。
(1)開(kāi)放數(shù)據(jù):是一類可以被任何人免費(fèi)使用、再利用、再分發(fā)的數(shù)據(jù)———在其限制上,要求署名和使用類似的協(xié)議再分發(fā),如北京公共數(shù)據(jù)開(kāi)放平臺(tái)、深圳市政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)等。
(2)第三方數(shù)據(jù)平臺(tái):通過(guò)某第三方平臺(tái)提供的API 接口來(lái)調(diào)取相關(guān)數(shù)據(jù),如Toshare 大數(shù)據(jù)開(kāi)放平臺(tái)等。
( 3)物理數(shù)據(jù):通過(guò)傳感器設(shè)備或者射頻卡等設(shè)備進(jìn)行數(shù)據(jù)采集并進(jìn)行轉(zhuǎn)化。涵蓋氣敏、力敏、磁敏、光敏、聲敏等不同類別的工業(yè)傳感器,收集數(shù)據(jù)少,但產(chǎn)生數(shù)據(jù)的頻率很高。比如,在陀螺儀的使用中,記錄角速度用于手機(jī)導(dǎo)航等行為產(chǎn)生的數(shù)據(jù)。
(4)APP 數(shù)據(jù):當(dāng)用戶使用某個(gè)APP、Web 端應(yīng)用、小程序時(shí)就會(huì)產(chǎn)生數(shù)據(jù),如“瀏覽商品?確定?查看商品信息?放入購(gòu)物車?下單?物流信息”等數(shù)據(jù)。
3.1.2線下采集
線下采集主要包括問(wèn)卷調(diào)查、用戶訪談、實(shí)地調(diào)研等。
( 1)問(wèn)卷調(diào)查:是目前通用的調(diào)查形式,根據(jù)調(diào)研目的設(shè)計(jì)問(wèn)卷,從總體樣本中采用抽樣方式確定調(diào)查樣本,完成調(diào)查。
(2)用戶訪談:是用戶研究中常用的一種數(shù)據(jù)采集方式,通過(guò)使用有目的、有計(jì)劃、有方法的口頭交談等方式與用戶溝通,了解事實(shí)。
(3)實(shí)地調(diào)研:直接面對(duì)被調(diào)查對(duì)象,采用訪問(wèn)法、觀察法、實(shí)驗(yàn)法等方法來(lái)收集信息。
采集到的數(shù)據(jù)分為三種類型,即結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。無(wú)法定義結(jié)構(gòu)的數(shù)據(jù)稱為非結(jié)構(gòu)化數(shù)據(jù),常見(jiàn)的非結(jié)構(gòu)化數(shù)據(jù)為文本信息數(shù)據(jù)、圖像信息數(shù)據(jù)、視頻信息數(shù)據(jù)以及聲音信息數(shù)據(jù)等。
3.2數(shù)據(jù)分析
對(duì)獲取的原始數(shù)據(jù)進(jìn)行分析,使用對(duì)比分析、公式拆分、變化維度、結(jié)構(gòu)圖等方式來(lái)明確數(shù)據(jù)的意義,并根據(jù)不同類別進(jìn)行排序,分析數(shù)據(jù)的價(jià)值。
3.3數(shù)據(jù)過(guò)濾
數(shù)據(jù)過(guò)濾是將數(shù)據(jù)通過(guò)軟件篩選、編程等方式篩選出高質(zhì)量的可用數(shù)據(jù)。一般會(huì)篩除冗余數(shù)據(jù)、重復(fù)數(shù)據(jù)和含接頭的數(shù)據(jù)等。通過(guò)篩選,一方面減小數(shù)據(jù)量,另一方面提高數(shù)據(jù)的質(zhì)量。
3.4數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)信息特性的不同,選擇適合的分析工具,使用規(guī)則推理、事例推理、統(tǒng)計(jì)方法、決策樹(shù)、模糊集、神經(jīng)網(wǎng)絡(luò)、遺傳算法的方法處理信息,從而得到需要的信息。
3.5表示
表示是指將數(shù)據(jù)結(jié)合數(shù)據(jù)的維度采用合適的表示方法用一個(gè)基本的視覺(jué)模型表示出來(lái),可以用列表、樹(shù)狀結(jié)構(gòu)或其他方法。這個(gè)過(guò)程類似于構(gòu)造一個(gè)草圖,決定了可視化效果的雛形。同時(shí),實(shí)現(xiàn)對(duì)數(shù)據(jù)轉(zhuǎn)換過(guò)程的檢驗(yàn)和審查,尤其是對(duì)數(shù)據(jù)的獲取和過(guò)濾過(guò)程進(jìn)行檢驗(yàn)和審查。
3.6修飾
將草圖進(jìn)行上色,從而突出重點(diǎn),弱化輔助信息,進(jìn)行修飾改善,使草圖清晰明了、簡(jiǎn)單有趣,使圖表富有內(nèi)涵、豐富美觀、實(shí)用。
3.7界面交互
根據(jù)用戶的特點(diǎn)和使用場(chǎng)景,制作符合使用者操作的交互界面,從而讓用戶能夠?qū)χ暗玫降臄?shù)據(jù)內(nèi)容和屬性進(jìn)行操作和提取。通過(guò)界面交互,用戶可以單獨(dú)研究其中一種或多種屬性,而隱藏其他屬性。在三維空間的可視化效果方面,通過(guò)操作視角的變化,實(shí)現(xiàn)對(duì)數(shù)據(jù)的不同視角的認(rèn)識(shí)[2] 。之前,所有步驟主要由計(jì)算機(jī)實(shí)現(xiàn),在該階段,用戶的心理發(fā)生了“被動(dòng)接受到主動(dòng)發(fā)現(xiàn)”的變化,界面交互為他們提供了控制數(shù)據(jù)和探索數(shù)據(jù)的可能。通過(guò)這一階段,實(shí)現(xiàn)了將計(jì)算機(jī)的計(jì)算能力和人的智慧的結(jié)合。
4可視化應(yīng)用
數(shù)據(jù)可視化技術(shù)在金融、工業(yè)生產(chǎn)、現(xiàn)代農(nóng)業(yè)、醫(yī)療、教育等領(lǐng)域得到廣泛的應(yīng)用(圖3)。
4.1金融領(lǐng)域數(shù)據(jù)可視化
利用數(shù)據(jù)可視化技術(shù)掌控企業(yè)的日常業(yè)務(wù)動(dòng)態(tài),控制客戶數(shù)量、借款金額等數(shù)據(jù),實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)監(jiān)控,通過(guò)對(duì)核心數(shù)據(jù)多維度的分析,指導(dǎo)公司科學(xué)運(yùn)營(yíng),以提高公司運(yùn)營(yíng)能力。
4.2工業(yè)生產(chǎn)域數(shù)據(jù)可視化
(1)生產(chǎn)過(guò)程監(jiān)控。通過(guò)可視化界面可隨時(shí)監(jiān)控生產(chǎn)設(shè)備狀態(tài)、制造參數(shù),以及車間產(chǎn)品計(jì)劃、進(jìn)度、庫(kù)存、質(zhì)量等信息。
(2)生產(chǎn)過(guò)程協(xié)同管理。通過(guò)數(shù)據(jù)可視化界面控制數(shù)據(jù)信息的傳遞、共享等,實(shí)現(xiàn)車間各工種、任務(wù)、設(shè)備的協(xié)同生產(chǎn),提升車間運(yùn)營(yíng)效率。
(3)數(shù)據(jù)可視化。通過(guò)對(duì)企業(yè)數(shù)據(jù)的分析與處理,形成多維度的智能報(bào)表,通過(guò)分布圖、趨勢(shì)圖等多樣化圖形直觀、形象地展示相關(guān)數(shù)據(jù),幫助管理者進(jìn)行決策,實(shí)現(xiàn)精益化生產(chǎn)管理。
(4)追溯管理。發(fā)現(xiàn)問(wèn)題后,通過(guò)可視化界面便捷查詢歷史數(shù)據(jù)等相關(guān)數(shù)據(jù),便于快速找出原因,制訂整改措施,避免問(wèn)題再次發(fā)生。
(5)預(yù)測(cè)性分析。通過(guò)工業(yè)大數(shù)據(jù)分析、數(shù)據(jù)展示等模塊,實(shí)現(xiàn)計(jì)劃、生產(chǎn)、設(shè)備、質(zhì)量等要素的預(yù)測(cè)性分析,確保生產(chǎn)效率高效、成本更低,提升企業(yè)競(jìng)爭(zhēng)力。
4.3農(nóng)業(yè)數(shù)據(jù)可視化
農(nóng)業(yè)數(shù)據(jù)可視化可實(shí)現(xiàn)對(duì)農(nóng)業(yè)生產(chǎn)過(guò)程的全面監(jiān)控,通過(guò)數(shù)據(jù)可視化界面實(shí)時(shí)對(duì)農(nóng)作物的溫度、濕度、光照、降雨量等進(jìn)行監(jiān)控,便于管理人員得到相關(guān)數(shù)據(jù)信息,并通過(guò)軟件對(duì)相關(guān)環(huán)境參數(shù)進(jìn)行分析,如超過(guò)預(yù)警值,進(jìn)行報(bào)警提醒,讓管理人員提前準(zhǔn)備相關(guān)對(duì)策和方案。同時(shí),對(duì)農(nóng)作物在培育、質(zhì)檢、生產(chǎn)和運(yùn)輸過(guò)程中的數(shù)據(jù)信息進(jìn)行分析,得到可視化分析結(jié)果,從而準(zhǔn)確存儲(chǔ)和管理,提高了農(nóng)作物產(chǎn)量和質(zhì)量,降低風(fēng)險(xiǎn),提升了農(nóng)業(yè)生產(chǎn)效率和產(chǎn)品品質(zhì)。
4.4醫(yī)療領(lǐng)域數(shù)據(jù)可視化
數(shù)據(jù)可視化可將醫(yī)院產(chǎn)生的大量零碎數(shù)據(jù)進(jìn)行整合,建立一套高效的醫(yī)療管理系統(tǒng),可分門別類地呈現(xiàn)出來(lái),從而幫助醫(yī)院解決門診資料、用藥資料、疾病信息等方面的問(wèn)題。數(shù)據(jù)可視化技術(shù)可以用在診斷醫(yī)學(xué)方面,通過(guò)在數(shù)字化的診療設(shè)備中顯示多維圖像信息,為醫(yī)生進(jìn)行正確判斷和高效診療提供了保障。數(shù)據(jù)可視化技術(shù)可為臨床疾病預(yù)防、防治等疾病等提供有效的預(yù)測(cè)和分析數(shù)據(jù)。
4.5數(shù)據(jù)可視化技術(shù)在教學(xué)中的應(yīng)用
可視化教學(xué)是在計(jì)算機(jī)軟件、多媒體等工具的輔助下,形象的展示事物,使人的認(rèn)知、感覺(jué)、想象、推理等發(fā)生變化,使學(xué)生更好地接受、存儲(chǔ)、重組知識(shí),并提升學(xué)生多元思維能力。通過(guò)數(shù)據(jù)的可視化教學(xué),減少了信息的流失,提高有效認(rèn)知能力。
4.6數(shù)據(jù)可視化技術(shù)在其他領(lǐng)域的應(yīng)用
數(shù)據(jù)可視化技術(shù)還可以應(yīng)用于氣候變化、衛(wèi)星運(yùn)行監(jiān)測(cè)、城市基礎(chǔ)設(shè)施監(jiān)控、現(xiàn)代旅游業(yè)、股票交易、電力供應(yīng)、交通監(jiān)控、智能園區(qū)建設(shè)等方面。
5基于Python 的數(shù)據(jù)可視化
5.1Python 與數(shù)據(jù)可視化
目前,很多工具可以實(shí)現(xiàn)數(shù)據(jù)可視化,如Excel,PowerBI 等。其中,Python 作為一種開(kāi)源的計(jì)算機(jī)編程語(yǔ)言具有很強(qiáng)的靈活性和強(qiáng)大的功能,在數(shù)據(jù)分析和數(shù)據(jù)可視化中具有獨(dú)特的優(yōu)勢(shì)[3] 。
5.2Python 的特點(diǎn)和優(yōu)勢(shì)
Python 語(yǔ)言具有開(kāi)源免費(fèi)、語(yǔ)法簡(jiǎn)潔、簡(jiǎn)單易學(xué)、可移植性強(qiáng)特點(diǎn)。Python 數(shù)據(jù)分析及信息獲取過(guò)程具有較強(qiáng)的資源優(yōu)勢(shì),可以快速獲取數(shù)據(jù)資源并完成信息提取。其具有強(qiáng)大的標(biāo)準(zhǔn)庫(kù)和第三方庫(kù),內(nèi)置標(biāo)準(zhǔn)數(shù)據(jù)模型,可快捷高效地完成大型數(shù)據(jù)的處理。同時(shí),進(jìn)行文本處理、可視化、科學(xué)計(jì)算、人工智能和機(jī)器學(xué)習(xí)等數(shù)據(jù)處理時(shí),均可通過(guò)調(diào)用庫(kù)工具來(lái)實(shí)現(xiàn)。Python 的兼容性、包裝能力、組合性強(qiáng),可將復(fù)雜代碼包裝在腳本代碼中,利用少量代碼即可高效完成任務(wù)。Python 的應(yīng)用領(lǐng)域廣泛,包括大數(shù)據(jù)、網(wǎng)絡(luò)爬蟲(chóng)、Web 開(kāi)發(fā)、人工智能、云計(jì)算、科學(xué)計(jì)算以及游戲開(kāi)發(fā)等。
5.3常用的數(shù)據(jù)分析可視化工具
5.3.1Pandas
Pandas 基于NumPy 的一種為解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的工具[4] 。Pandas 納入了豐富的庫(kù)和標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效操作大型數(shù)據(jù)集所需的工具以及大量能便捷地操作和處理數(shù)據(jù)的方法和函數(shù)。
5.3.2Matplotlib
Matplotlib 是Python 的繪圖庫(kù),它可以將數(shù)據(jù)圖形化,并且提供多樣化的輸出格式。其具有強(qiáng)大的繪圖功能,將很多數(shù)據(jù)通過(guò)圖表的形式更直觀形象的呈現(xiàn)出來(lái)。它可以用來(lái)繪制靜態(tài)、動(dòng)態(tài)、交互式圖表,包括條形圖、散點(diǎn)圖、線圖、柱狀圖、等高線圖、3D 圖形、圖形動(dòng)畫等。
5.4利用Python 進(jìn)行數(shù)據(jù)可視化的流程和方法
5.4.1數(shù)據(jù)采集
常用的數(shù)據(jù)采集方式包括網(wǎng)絡(luò)爬蟲(chóng)、特定API 和數(shù)據(jù)文件(cave,excel)、數(shù)據(jù)庫(kù)等。
5.4.2數(shù)據(jù)處理和變換
采集到的原始數(shù)據(jù)可能含有噪音和誤差,需要進(jìn)行數(shù)據(jù)清洗、去除數(shù)據(jù)噪聲、提取特征等操作??衫肞andas 庫(kù)進(jìn)行處理的方法如下。
(1)缺失值處理常用函數(shù)
isnull()¬null()函數(shù):檢查是否空值。
fillna()函數(shù):用于填充缺失值數(shù)據(jù)。
dropna()函數(shù):含有空值的數(shù)據(jù)刪除。
(2)重復(fù)數(shù)據(jù)處理函數(shù)
Duplicated()函數(shù):查看重復(fù)數(shù)據(jù)。
drop_duplicates()函數(shù):刪除重復(fù)數(shù)據(jù)。
(3)異常值和極端值處理函數(shù)
Describe()函數(shù):針對(duì)Series 或DF 列匯總統(tǒng)計(jì),對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)的變量,可發(fā)現(xiàn)異常值和極端值。
Replace()函數(shù):可對(duì)異常值進(jìn)行替換處理,如一般常見(jiàn)用均值替換異常值。
5.4.3數(shù)據(jù)分析
數(shù)據(jù)分析需要提前熟悉數(shù)據(jù),通過(guò)Panda 中的head()函數(shù),預(yù)覽前幾行數(shù)據(jù),通過(guò)shape()函數(shù)獲取數(shù)據(jù)表大小,利用通過(guò)info()函數(shù)獲取數(shù)據(jù)類型,通過(guò)describe()函數(shù)獲取數(shù)值分布情況。把需要分析的數(shù)據(jù)篩選出來(lái),進(jìn)行數(shù)據(jù)分組、數(shù)據(jù)運(yùn)算及聯(lián)合查詢等操作。利用Pandas 的to_sql 函數(shù)可以將分析結(jié)果寫入數(shù)據(jù)庫(kù)中,便于進(jìn)一步展示。
Pandas 庫(kù)中常用函數(shù):
排序: sort_index(),sort_values()
基本統(tǒng)計(jì)函數(shù):describe()
累計(jì)統(tǒng)計(jì)函數(shù):cum?(),rolling().?()
相關(guān)性分析:corr(),cov()
5.4.4可視化映射
可視化映射是數(shù)據(jù)可視化的重要步驟,將處理后的數(shù)據(jù)進(jìn)行抽取、映射來(lái)構(gòu)成圖表,將各種屬性進(jìn)行組合,以二維或多維等形式展現(xiàn)出來(lái)[5] 。在這一過(guò)程中,要根據(jù)數(shù)據(jù)、特征、場(chǎng)景選擇合適的圖標(biāo)類型和視覺(jué)效果,空間布局等用Python 中Panda 庫(kù)的繪圖函數(shù)來(lái)實(shí)現(xiàn)(圖4)。
6結(jié)束語(yǔ)
本文介紹了數(shù)據(jù)可視化技術(shù)的實(shí)現(xiàn)過(guò)程和數(shù)據(jù)可視化應(yīng)用。數(shù)據(jù)可視化技術(shù)通過(guò)高效、高質(zhì)量的使用數(shù)據(jù),對(duì)各行業(yè)的快速、高效發(fā)展起到了積極的推動(dòng)作用。同時(shí),本文探討了采用Python 語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)可視化的方法,在具體使用方面,需要結(jié)合實(shí)際場(chǎng)景和應(yīng)用需求,不斷探索和實(shí)踐。隨著科技的發(fā)展,數(shù)據(jù)可視化技術(shù)和工具必定會(huì)得到進(jìn)一步發(fā)展,社會(huì)各行業(yè)的數(shù)據(jù)可視化應(yīng)用也會(huì)更加豐富,我們?cè)谏詈凸ぷ髦袑?huì)越來(lái)越多地體會(huì)到數(shù)據(jù)可視化帶來(lái)的便利。
計(jì)算機(jī)應(yīng)用文摘·觸控2022年13期