周齊 黃少騫(華北理工大學理學院河北唐山063000)
高校相關系數(shù)授課的新思路
周齊 黃少騫
(華北理工大學理學院河北唐山063000)
針對目前高校統(tǒng)計專業(yè)方向關于相關系數(shù)以及相關性存在的一些問題,指出了目前大部分教材對于相關系數(shù)及相關性的介紹都存在相對混亂、界定不清的問題,本文由相關關系的定義,通過相關系數(shù)的內(nèi)涵,結合一定的定理與性質(zhì),給出了相關系數(shù)與相關性程度對應的一套完整定義及評價體系,對厘清相關程度等概念具有較好的作用,同時也有利于高校教師的講解以及學生形成較為全面、合乎邏輯的知識體系。
相關系數(shù)相關性相關程度簡單相關系數(shù)
目前高校教材關于相關關系、相關系數(shù)、樣本相關系數(shù)都存在界定不清,表述相對混亂的情況,對教學效果,尤其是對學生的理解不能形成系統(tǒng)清晰的理解脈絡,本文就此問題,提出相關系數(shù)的一些講授思路:
首先,關于關系大致存在函數(shù)關系和相關系兩種,如下表:
表一:兩種關系
那么,接下來關于相關關系,從廣義上按類型可以分為如下:
這是從關系“形態(tài)“上進行的分類,稍后會指明,概率論中的相關系數(shù)等都是作為線性相關的量度,即本科階段關于相關關系的研究對象主要是線性相關。
從程度上劃分,可以分為完全相關、不完全相關和不相關:
完全相關 當一個變量的數(shù)量完全由另一個變量的數(shù)量變化所確定時,二者之間即為完全相關。完全相關即為函數(shù)關系。不完全相關 如果兩個變量的關系介于完全相關和不相關之間,稱為不完全相關。不相關 又稱零相關,當變量之間彼此互不影響,其數(shù)量變化各自獨立時,則變量之間為不相關。在這里,相當于概率論當中的“獨立”。
可以認為,這里對于完全相關、不完全相關和不相關的表述給出的是完全相關、不完全相關和不相關的定義。
過度到概率論中完全(線性)相關當一個變量的數(shù)量完全由另一個變量的數(shù)量變化線性確定時,二者之間即為完全(線性)相關。完全(線性)相關即為線性函數(shù)關系。不完全(線性)相關如果兩個變量的關系介于完全(線性)相關和不(線性)相關之間,稱為不完全相關。不(線性)相關又稱零(線性)相關,當變量之間彼此互不線性影響,則變量之間為不(線性)相關。
現(xiàn)在的問題是對于所給定的兩個總體,很難通過定性的定義進行判定,所以定義相關系數(shù)進行量化:
首先根據(jù)相關系數(shù)定義和柯西—施瓦茨不等式可以得到如下定理:
由此定理基礎,“以概率一”和“充要性”,有理由做出如下定義,進行一次近似,完成完全線性相關的量化判定標準:
若隨機變量ξ和η的相關系數(shù)p=1,則ξ和η完全線性相關/具有完全線性關系。
另外,根據(jù)相關系數(shù)本身的內(nèi)涵,還會定義:
若隨機變量ξ和η的相關系數(shù)p=0,則稱ξ和η不線性相關。
注意:p=0并不意味著和不相關,只是不線性相關,有可能具有其他相關關系。
若隨機變量ξ和η的相關系數(shù)絕對值[0.8,1],則稱ξ和η高度線性相關。
若隨機變量ξ和η的相關系數(shù)絕對值[0.5,0.8],則稱ξ和η中度線性相關。
若隨機變量ξ和η的相關系數(shù)絕對值[0.3,0.5],則稱ξ和η低度線性相關。
若隨機變量ξ和η的相關系數(shù)絕對值[0,0.3],則稱ξ和η線性相關程度極弱。
但是由于兩個總體之間的相關系數(shù)仍舊是不好求得的,所以保留量化的優(yōu)勢,進一步定義簡單相關系數(shù),可以發(fā)現(xiàn)簡單相關系數(shù)具有性質(zhì):
樣本相關系數(shù)等于一?樣本點在一條直線上
由此性質(zhì)基礎,結合樣本相關系數(shù)是總體相關系數(shù)的極大似然估計,進行二次近似,可以定義:
若隨機變量ξ和η的樣本相關系數(shù)r=1,則ξ和η完全線性相關/具有完全線性關系。
同理可以有如下定義(在這里之所以寫成具有充要雙向的定義形式,為的是于總體相關系數(shù)的相關定義形成統(tǒng)一“整體齊性”)
若隨機變量ξ和η的樣本相關系數(shù)絕對值大于%5,則ξ和η高度顯著線性相關
若隨機變量ξ和η的樣本相關系數(shù)絕對值[1%,5%],則ξ和η顯著線性相關
若隨機變量ξ和η的樣本相關系數(shù)絕對值小于1%,則ξ和η線性相關程度不明顯。
關于邊界等號的位置,在這里不在作為討論的重點。
若隨機變量ξ和η的樣本相關系數(shù)為零,則ξ和η不線性相關
在這里,主要是通過相關系數(shù)的內(nèi)涵,根據(jù)定理性質(zhì)采取人為定義的方式對相關性程度與相關系數(shù)值做出了對應,國內(nèi)大部分教材都是沿續(xù)這一思路,國外的一些教材是從線性回歸模型的角度給出了另外形式的相關系數(shù)的定義式,根據(jù)相關系數(shù)具體取值對回歸方程的性態(tài)影響角度對應相關性程度,可能在某種意義上規(guī)避了本文需要“近似”的弱點,更能貼近相關關系的定義,但國外思想涉及到回歸方程建立的思路角度,與我曾經(jīng)發(fā)過一篇論文《回歸分析與灰色預測的比較與聯(lián)合應用》不是一致的,所以放棄了國外思想。
[1]陳希孺,何聲武.不獨立和不相關[J].應用概率統(tǒng)計,1996,02:193-195.
[2]蔡軍.關于不相關和不獨立問題的幾點注記[J].揚州師院學報(自然科學版),1999,03:45-50.
[3]章舜仲,王樹梅.相關系數(shù)矩陣與多元線性相關分析[J].大學數(shù)學,2011,01:195-199.
[4]楊聞起.強線性相關與弱線性無關[J].寶雞文理學院學報(自然科學版),2009,02:1-3.
[5]李秀敏,江衛(wèi)華.相關系數(shù)與相關性度量[J].數(shù)學的實踐與認識,2006,12:199-192.