董俊龍 關(guān)利海 郝成龍
摘 要:車聯(lián)網(wǎng)數(shù)據(jù)包括車輛數(shù)據(jù)、駕駛員數(shù)據(jù)、出行數(shù)據(jù)以及環(huán)境數(shù)據(jù)。分析、挖掘車聯(lián)網(wǎng)數(shù)據(jù)之間的相關(guān)性,發(fā)現(xiàn)數(shù)據(jù)潛在規(guī)律,可以更好的指導(dǎo)業(yè)務(wù)策劃以及產(chǎn)品決策。本文歸納總結(jié)了相關(guān)性分析常用方法,并闡述每種方法的適用范圍、優(yōu)缺點(diǎn)以及如何應(yīng)用于車聯(lián)網(wǎng)數(shù)據(jù)。
關(guān)鍵詞:車聯(lián)網(wǎng);大數(shù)據(jù);相關(guān)性分析
1 前言
相關(guān)分析(Analysis of Correlation)是數(shù)據(jù)分析常用的分析方法之一。通過對(duì)不同特征或數(shù)據(jù)間的關(guān)系進(jìn)行分析,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性,并通過這種強(qiáng)關(guān)聯(lián)關(guān)系,可以對(duì)未來趨勢(shì)進(jìn)行預(yù)測(cè)。相關(guān)分析的方法很多,圖表描繪可以直觀發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,如正相關(guān),負(fù)相關(guān)或不相關(guān)。數(shù)值計(jì)算的方法可以對(duì)數(shù)據(jù)間關(guān)系的強(qiáng)弱進(jìn)行度量,如完全相關(guān),不完全相關(guān)等。模型擬合的方法可以將數(shù)據(jù)間的關(guān)系轉(zhuǎn)化為數(shù)學(xué)模型,并通過模型對(duì)未來的趨勢(shì)進(jìn)行預(yù)測(cè)。關(guān)聯(lián)規(guī)則挖掘的方法可以挖掘數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。本文結(jié)合車聯(lián)網(wǎng)數(shù)據(jù),著重介紹幾種數(shù)據(jù)相關(guān)性分析的基本方法。
2 車聯(lián)網(wǎng)數(shù)據(jù)類型
車聯(lián)網(wǎng)數(shù)據(jù)舉例說明,如表1所示:
3 相關(guān)性分析方法
3.1 數(shù)據(jù)可視化
通過數(shù)據(jù)可視化的方法分析數(shù)據(jù)之間的相關(guān)性,如散點(diǎn)圖、折線圖等,適合定性分析,可直觀的表達(dá)數(shù)據(jù)之間聯(lián)系、模式或趨勢(shì)。優(yōu)點(diǎn)是對(duì)相關(guān)關(guān)系的展現(xiàn)清晰,缺點(diǎn)是無法對(duì)相關(guān)關(guān)系進(jìn)行準(zhǔn)確的度量,缺乏說服力。比如,展現(xiàn)車速與轉(zhuǎn)速之間的關(guān)系,可以通過散點(diǎn)圖直接表現(xiàn)。
3.2 協(xié)方差
協(xié)方差用來衡量兩個(gè)變量的總體誤差,如果兩個(gè)變量的變化趨勢(shì)一致,協(xié)方差為正,說明兩個(gè)變量正相關(guān)。如果兩個(gè)變量的變化趨勢(shì)相反,協(xié)方差為負(fù),說明兩個(gè)變量負(fù)相關(guān)。如果兩個(gè)變量相互獨(dú)立,那么協(xié)方差就是0,說明兩個(gè)變量不相關(guān)。協(xié)方差用于定性分析,描述兩組數(shù)據(jù)之間關(guān)系的方向性。優(yōu)點(diǎn)在于可用數(shù)值表示相關(guān)性,缺點(diǎn)是無法對(duì)相關(guān)程度進(jìn)行度量。
3.3 相關(guān)系數(shù)
相關(guān)系數(shù)(Correlation coefficient)是反應(yīng)變量之間關(guān)系密切程度的統(tǒng)計(jì)指標(biāo),相關(guān)系數(shù)的取值區(qū)間在1到-1之間。1表示兩個(gè)變量完全線性相關(guān),-1表示兩個(gè)變量完全負(fù)相關(guān),0表示兩個(gè)變量不相關(guān)。相關(guān)系數(shù)包括pearson、spearman、kendall三種計(jì)算方法,優(yōu)點(diǎn)在于可以定量分析,描述數(shù)據(jù)之間的單調(diào)關(guān)系,可通過數(shù)值對(duì)變量的相關(guān)性及強(qiáng)弱進(jìn)行度量,缺點(diǎn)是無法利用這種關(guān)系對(duì)數(shù)據(jù)未來趨勢(shì)進(jìn)行預(yù)測(cè)。如分析駕駛員體征數(shù)據(jù)與駕駛數(shù)據(jù)之間的關(guān)系。
3.4 卡方獨(dú)立性檢驗(yàn)
獨(dú)立性檢驗(yàn),又稱卡方檢驗(yàn)是統(tǒng)計(jì)學(xué)的一種檢驗(yàn)方式,與適合性檢驗(yàn)同屬于X2檢驗(yàn),它是根據(jù)次數(shù)資料判斷兩類因子彼此相關(guān)或相互獨(dú)立的假設(shè)檢驗(yàn)。卡方獨(dú)立性檢驗(yàn),兩個(gè)類別變量的獨(dú)立性檢驗(yàn)回歸分析,優(yōu)點(diǎn)可通過數(shù)值對(duì)變量的相關(guān)性進(jìn)行度量,缺點(diǎn)是無法利用這種關(guān)系對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。卡方檢驗(yàn)僅適用于分類型數(shù)據(jù),如性別、天氣、開關(guān)狀態(tài)等。
3.5 回歸分析
回歸分析(regression analysis)是確定兩組或兩組以上變量間關(guān)系的統(tǒng)計(jì)方法?;貧w分析按照變量的數(shù)量分為一元回歸和多元回歸,它可以用于研究數(shù)據(jù)之間具體模型關(guān)系?;貧w分析優(yōu)點(diǎn)是對(duì)變量間的關(guān)系用數(shù)學(xué)表達(dá)式確定,可進(jìn)行數(shù)據(jù)預(yù)測(cè)。適用范圍:需要確定自變量和因變量??蓱?yīng)用于如車輛故障診斷預(yù)測(cè)、駕駛行為風(fēng)險(xiǎn)預(yù)測(cè)等。
3.6 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則(Association Rules)是數(shù)據(jù)挖掘中較為常用的方法,它是從大量數(shù)據(jù)中挖掘頻繁項(xiàng)集之間的有趣聯(lián)系或相關(guān)關(guān)系。關(guān)聯(lián)規(guī)則的任務(wù)就是為了發(fā)現(xiàn)數(shù)據(jù)集中不同數(shù)據(jù)項(xiàng)之間的關(guān)系,如數(shù)據(jù)項(xiàng)對(duì)另一數(shù)據(jù)項(xiàng)的影響。如分析駕駛員情緒對(duì)駕駛行為的影響。
4 總結(jié)
本文總結(jié)了數(shù)據(jù)之間相關(guān)性計(jì)算方法,并以車聯(lián)網(wǎng)數(shù)據(jù)為例,說明每種方法的優(yōu)缺點(diǎn)以及適用范圍。相關(guān)性分析是進(jìn)行機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘工作之前,前期數(shù)據(jù)探索的有效方法之一,在實(shí)際數(shù)據(jù)分析時(shí),需要根據(jù)數(shù)據(jù)類型進(jìn)行合理選擇。
參考文獻(xiàn):
[1]賈俊平.統(tǒng)計(jì)學(xué)[M].中國人民大學(xué)出版社:北京,2018.