姜詠梅,倪中華
(1.九州職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116; 2.商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476000)
基于大數(shù)據(jù)背景的相關(guān)系數(shù)研究
姜詠梅1,倪中華2
(1.九州職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116; 2.商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476000)
隨著信息技術(shù)的發(fā)展,我們迎來(lái)了大數(shù)據(jù)時(shí)代,許多領(lǐng)域都出現(xiàn)了海量的數(shù)據(jù).探求紛繁復(fù)雜的數(shù)據(jù)之間的相關(guān)關(guān)系比尋找因果關(guān)系更受關(guān)注,而統(tǒng)計(jì)學(xué)中的相關(guān)系數(shù)正是用來(lái)描述兩個(gè)變量之間相關(guān)關(guān)系的指標(biāo).文章先給出相關(guān)系數(shù)的由來(lái)以及在概率論中的定義和性質(zhì),再推導(dǎo)出統(tǒng)計(jì)學(xué)中常見(jiàn)的2個(gè)計(jì)算相關(guān)系數(shù)的公式,最后舉例計(jì)算以提高對(duì)相關(guān)系數(shù)的理解以及應(yīng)用的能力.
大數(shù)據(jù);相關(guān)系數(shù);均值;標(biāo)準(zhǔn)差;隨機(jī)變量
自然界中的各種現(xiàn)象總是普遍聯(lián)系和相互依存的,客觀現(xiàn)象之間的數(shù)量聯(lián)系,也叫相關(guān)關(guān)系.維克托·邁爾-舍恩伯格在其著作大數(shù)據(jù)時(shí)代[1]12中明確指出,大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是放棄對(duì)因果關(guān)系的渴求,取而代之關(guān)注相關(guān)關(guān)系.相關(guān)關(guān)系作為統(tǒng)計(jì)學(xué)中的一個(gè)工具的魅力在于將兩個(gè)變量的關(guān)聯(lián)精煉成一個(gè)描述性數(shù)據(jù):相關(guān)系數(shù)[2]73-74.相關(guān)系數(shù)是用來(lái)說(shuō)明變量之間在直線相關(guān)條件下相關(guān)關(guān)系密切程度和方向的統(tǒng)計(jì)分析指標(biāo)[3]206-207.例如,人的身高和體重,某種商品的價(jià)格與需求,證券市場(chǎng)價(jià)格與投資者心理之間都存在著一定的相關(guān)關(guān)系.而當(dāng)今社會(huì)隨著手機(jī)、電腦、互聯(lián)網(wǎng)的普及與發(fā)展,我們能獲取的數(shù)據(jù)越來(lái)越多,若能對(duì)這些數(shù)據(jù)及時(shí)地進(jìn)行分析和預(yù)測(cè)它們之間的相關(guān)關(guān)系,將會(huì)深刻影響人們的決策.
1.1 定義的由來(lái)
如何來(lái)描述兩個(gè)隨機(jī)變量的線性相關(guān)程度呢.謝明文[4]33-36利用最小二乘法:假設(shè)隨機(jī)變量X與Y具有一定的線性關(guān)系,則存在實(shí)數(shù)a和b,使得Y≈aX+b.為使這種近似程度達(dá)到最高,這就要求均方差S=E(Y-aX-b)2達(dá)到最小,有
1.2 概率中的定義
設(shè)對(duì)二維隨機(jī)變量(X,Y),E(X),E(Y)和E{[X-E(X)][Y-E(Y)]}都存在,則稱E{[X-E(X)][Y-E(Y)]}為X與Y的協(xié)方差,記作Cov(X,Y),即
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}.
若Cov(X,Y)存在,并且D(X),D(Y)存在且都不為0,則稱
為X與Y的相關(guān)系數(shù)[5]112-113.把(2)式帶入(1)式得
由(3)式可以得出相關(guān)系數(shù)的性質(zhì)如下:
1) -1≤ρXY≤1.
2) 若|ρXY|的值越大,則X與Y的相關(guān)程度越高;若|ρXY|的值越小,則X與Y的相關(guān)程度越低.
3)ρ=1為完全正相關(guān);ρ=-1為完全負(fù)相關(guān),表明隨機(jī)變量之間為完全線性相關(guān),即函數(shù)關(guān)系.ρ=0表明隨機(jī)變量之間無(wú)線性相關(guān)關(guān)系.
設(shè)x1,x2,…,xn為來(lái)自總體X的一組樣本觀測(cè)值,y1,y2,…,yn為來(lái)自總體Y的一組樣本觀測(cè)值,ρ表示總體的相關(guān)系數(shù),r表示樣本的相關(guān)系數(shù),σxy表示兩組變量的協(xié)方差,σx表示X的標(biāo)準(zhǔn)差,σy表示Y的標(biāo)準(zhǔn)差,則有
由概率知識(shí)得
將上面3個(gè)式子帶入(4)式得
即相關(guān)系數(shù)可以表示成兩組變量的協(xié)方差與兩組變量標(biāo)準(zhǔn)差乘積的商,(5)式也是統(tǒng)計(jì)學(xué)中常用的計(jì)算公式之一.
(6)式也是統(tǒng)計(jì)學(xué)中計(jì)算相關(guān)系數(shù)的一個(gè)常用公式.
相關(guān)系數(shù)可以反映兩組變量之間相互關(guān)聯(lián)的程度并且不受變量單位的限制(由(2)式可以看出我們把隨機(jī)變量單位化了),也就是說(shuō)我們可以計(jì)算體重和身高之間的關(guān)聯(lián)性,哪怕它們的單位分別是千克和厘米.
3.1 傳統(tǒng)統(tǒng)計(jì)學(xué)中相關(guān)系數(shù)的計(jì)算
由于以前的條件所限,搜集總體的數(shù)據(jù)比較困難,所以傳統(tǒng)統(tǒng)計(jì)學(xué)中用來(lái)計(jì)算相關(guān)系數(shù)的數(shù)據(jù)往往是對(duì)總體進(jìn)行抽樣,用樣本觀測(cè)值對(duì)總體進(jìn)行推測(cè).比如我們想考察某個(gè)城市青少年的體重和身高的相互關(guān)系,我們可以應(yīng)用公式(5)借助于Excel計(jì)算體重與身高的相關(guān)系數(shù),具體步驟為:
1) 選取一個(gè)樣本(比如取10個(gè)人),獲取樣本中每一位青少年體重與身高的觀測(cè)值;
2) 求出體重與身高的平均值和標(biāo)準(zhǔn)差;
3) 將每個(gè)人的體重和身高轉(zhuǎn)換成標(biāo)準(zhǔn)值:
(體重-平均體重)/ 體重標(biāo)準(zhǔn)差、(身高-平均身高)/ 身高標(biāo)準(zhǔn)差;
4) 將每個(gè)人體重標(biāo)準(zhǔn)值與身高標(biāo)準(zhǔn)值相乘;
5) 將第4步得到的乘積相加再除以總?cè)藬?shù)(即10),就得到體重與身高的相關(guān)系數(shù).(見(jiàn)表1)
表1 身高體重相關(guān)系數(shù)
3.2 大數(shù)據(jù)背景下相關(guān)系數(shù)的計(jì)算
在大數(shù)據(jù)時(shí)代,我們可以采集事物整體的全部數(shù)據(jù),并且得到的數(shù)據(jù)是動(dòng)態(tài)的而非靜態(tài)的,因此我們能夠用兩者之間的相關(guān)關(guān)系來(lái)捕捉到事物的現(xiàn)在和預(yù)測(cè)未來(lái),而非傳統(tǒng)的只是檢驗(yàn)過(guò)去.如我們想考察某個(gè)企業(yè)的產(chǎn)量與單位成本的相互關(guān)系,我們可以搜集到它們的全部數(shù)據(jù),然后按照如下步驟計(jì)算出兩者的相關(guān)系數(shù).
1) 分別求出產(chǎn)量和單位成本的平方;
2) 求出產(chǎn)量與單位成本的乘積;
3) 分別求出產(chǎn)量、單位成本、產(chǎn)量的平方、單位成本的平方、產(chǎn)量與單位成本乘積的和;
4) 代入公式(6)計(jì)算得出相關(guān)系數(shù).
根據(jù)經(jīng)驗(yàn)可將相關(guān)程度分為以下幾種情況:1)|r|≥0.8,一般稱為高度線性相關(guān); 2)0.5≤|r|<0.8,為顯著線性相關(guān);3)0.3≤|r|<0.5,為低度線性相關(guān);4)|r|<0.3,為無(wú)線性相關(guān).
對(duì)比上述兩種相關(guān)系數(shù)的計(jì)算方法,我們可以得出:傳統(tǒng)統(tǒng)計(jì)學(xué)是先算出樣本中體重與身高的相關(guān)系數(shù)繼而推測(cè)總體的身高和體重之間的相關(guān)關(guān)系.比如樣本的體重與身高的相關(guān)系數(shù)是0.97,從而得出總體的身高和體重為高度線性相關(guān),也就是說(shuō)一般情況下身高高的人體重也重,當(dāng)然也不排除個(gè)別情況,身高矮體重也是重的.由于抽取樣本的有限性,可能會(huì)隱藏一些數(shù)據(jù),從而使得到的結(jié)果與實(shí)際有偏差.但在大數(shù)據(jù)背景下,就可以很好的解決這個(gè)問(wèn)題,因?yàn)槲覀冇玫氖窃撈髽I(yè)產(chǎn)量和單位成本的全部數(shù)據(jù),這樣就能更全面地考察該企業(yè),從而給決策者提供有益參考.
在大數(shù)據(jù)時(shí)代,我們的核心任務(wù)是預(yù)測(cè),而相關(guān)系數(shù)是統(tǒng)計(jì)中常用的分析數(shù)據(jù)的工具,它可以將大量繁雜無(wú)序、單位不同的復(fù)雜數(shù)據(jù)加工成一個(gè)簡(jiǎn)潔、優(yōu)雅的描述性數(shù)據(jù),給人們提供有益參考.事物之間的相關(guān)關(guān)系可能不會(huì)準(zhǔn)確地告知事物發(fā)生的內(nèi)在原因,但是它會(huì)提醒人們事物之間的相互聯(lián)系[6]23-28,從而為社會(huì)的經(jīng)濟(jì)發(fā)展提供幫助.但需要注意的是相關(guān)關(guān)系不等于因果關(guān)系,也就是說(shuō)兩個(gè)變量存在高度相關(guān)關(guān)系并不代表其中一個(gè)變量的改變是由另一個(gè)變量的變化引起的.舉個(gè)例子,身高和體重存在高度的正相關(guān)關(guān)系的意思不是你想長(zhǎng)高就多吃飯?jiān)黾芋w重就可以了.當(dāng)然現(xiàn)在有許多流行的統(tǒng)計(jì)軟件,如SAS、SPSS和R語(yǔ)言等來(lái)分析處理大數(shù)據(jù),我們不光要會(huì)計(jì)算還要會(huì)分析數(shù)據(jù)和理論聯(lián)系實(shí)際.
[1] 維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].盛楊燕,周 濤,譯.杭州:浙江人民出版社,2013.
[2] 查爾斯·惠倫.赤裸裸的統(tǒng)計(jì)學(xué)[M].曹 檳,譯.北京:中信出版社,2013.
[3] 陳正偉.新編統(tǒng)計(jì)學(xué)[M].北京:北京郵電大學(xué)出版社,2012.
[4] 謝明文.關(guān)于協(xié)方差、相關(guān)系數(shù)與相關(guān)性的關(guān)系[J].數(shù)理統(tǒng)計(jì)與管理,2004,23(3).
[5] 王玉孝,姜炳麟,汪彩云.概率論、隨機(jī)過(guò)程與數(shù)理統(tǒng)計(jì)[M].北京:北京郵電大學(xué)出版社,2010.
[6] 秦榮生.大數(shù)據(jù)、云計(jì)算技術(shù)對(duì)審計(jì)的影響研究[J].審計(jì)研究,2014(6).
ResearchonCorrelationCoefficientBasedonBigDataBackground
JIANG Yongmei1, NI Zhonghua2
(1.JiuzhouCollegeofVocationandTechnology,Xuzhou221116,China;2.ShangqiuPolytenic,Shangqiu476000,China)
With the development of information technology, people ushered in the era of big data and there are many areas of massive data. The correlation between the complicated data is more concerned than looking for causality while the statistics of the correlation coefficient is used to describe the relationship between two variables. The paper first gives the origin of correlation coefficient and its definition and characteristics in probability theory, and then it deduces several common formulas for calculating correlation coefficient. Finally it gives examples of calculation to improve the understanding of this concept and applicable ability. Theory and practice are combined closely in this way.
big data; correlation coefficient; mean; standard deviation; random variable.
O211.5;O212.1
A
1671-8127(2017)05-0068-04
2017-04-28
姜詠梅(1981- ),女,山東煙臺(tái)人,九州職業(yè)技術(shù)學(xué)院副教授,理學(xué)碩士,主要從事概率論與數(shù)理統(tǒng)計(jì)研究。
[責(zé)任編輯梧桐雨]