廣東省中山市實驗中學
高中教材中對相關系數(shù)的介紹比較少,學生和老師對它的理解也不夠深入,只是知道它怎么用,但是不知道它為什么可以這樣用.可謂知其然但不知其所以然.所以本文借助教材和其它相關資料,對相關系數(shù)的有關知識做個深入的解讀,使大家更全面和徹底的理解它,從而更好的加以應用.
在人教A版《普通高中課程標準實驗教科書數(shù)學必修》中對相關系數(shù)在第92頁“閱讀與思考”部分的第一段中有這樣的描述:“我們知道,兩個變量x和y正(負)相關時,它們就有相同(反)的變化趨勢,即當x由小變大時,相應的y有由小(大)變大(小)的趨勢,因此可以用回歸直線來描述這種關系.與此相關的一個問題是:如何描述x和y之間的這種線性關系的強弱?”.顯而易見,教材中這句話表明了相關系數(shù)引入的必要性,同時也說明了引入相關系數(shù)的主要作用就是判斷兩個變量線性關系的強弱.
接著在第二段中寫到:“統(tǒng)計中用相關系數(shù)r來衡量兩個變量之間線性關系的強弱.若相應于變量x的取值xi,變量y的觀測值為yi(1≤i ≤n),則兩個變量的相關系數(shù)的計算公式為:
從而順理成章的給出了相關系數(shù)的計算公式.但是個人覺得,這個公式的出現(xiàn)有點突然,很多師生對它的理解僅僅停留在會用的階段,至于它怎么來的?分子分母的意義是什么?卻知之甚少.
圖1
圖2
圖3
圖4
(1)圖1,圖2中樣本點都是帶狀分布,而且數(shù)據(jù)好像集中在某一條線附近,反映了變量x和y之間很強的線性相關關系.而圖3,圖4中樣本點分布無明顯規(guī)律,雜亂無章,所以兩個變量的線性相關關系很弱.
(2)圖1中這些點散布在從左下角到右上角的區(qū)域,所以是正相關.圖2中這些點散布在從左上角到右下角的區(qū)域,所以是負相關.
另外上面的每個圖中都對應了相關系數(shù)r的一個值,或大或小,或正或負.這個值怎么解讀呢?教材中介紹說:“當r為正時,表明變量x和y正相關;當r為負時,表明變量x和y負相關”.另外教材還寫到:“統(tǒng)計學認為,對于變量x,y,如果r ∈[-1,-0.75],那么負相關很強;如果r ∈[0.75,1],那么正相關很強”.
這里我們很容易產(chǎn)生個疑問,為什么|r| →1時相關性越強呢?但是教材中卻沒有介紹.
下面我們從公式本身出發(fā)嘗試解釋正負相關和的符號之間的關系.
(1)正相關:事實上,從樣本的總體角度來看,對于每一個數(shù)對(xi,yi),如果中求和項大部分是正數(shù)的話,也可以理解為xi和yi同時同方向偏離各自的平均值,即使有少數(shù)樣本點不同向偏離,如果樣本點足夠多也不會影響即r >0.所以我們說變量x,y為正相關.
(2)負相關:從變化趨勢上來看,對于每一個數(shù)對(xi,yi),如果中求和項大部分是負數(shù)的話,也可以理解為當xi大于其均值時,yi卻小于其均值.也就是二者反方向偏離各自的平均值,即使有少數(shù)同向偏離,如果樣本點足夠多也不會影響解為xi和yi同時同方向偏離各自的平均值,即使有少數(shù)樣本點不同向偏離,如果樣本點足夠多也不會影響即r <0.所以我們說變量x,y為負相關.
(3)不相關:如果樣本中同方向偏離的和反方向偏離的樣本點的個數(shù)相當時,此時解為xi和yi同時同方向偏離各自的平均值,即使有少數(shù)樣本點不同向偏離,如果樣本點足夠多也不會影響的值接近于零.我們認為二者不相關或者相關關系很弱.
筆者查閱了相關資料有兩種解釋方式比較容易使高中師生接受.
(1)從柯西不等式的角度解讀
從r的計算公式可以看出,分子和分母剛好與柯西不等式的兩端相似.即其中ai,bi ∈R,并且當且僅當bi=0或存在一個數(shù)k,使得ai=kbi時等號成立.
(2)從最小二乘法的角度解讀
在教材《普通高中課程標準實驗教科書數(shù)學選修2-3》第80頁中,為了讓所有樣本點離直線的“整體距離”的值最小,構(gòu)造了函數(shù)
從而可知:
(1)相關指數(shù)R2的介紹
《普通高中課程標準實驗教科書數(shù)學選修2-3》中介紹說:
(2)相關系數(shù)r和相關指數(shù)R2區(qū)別和聯(lián)系.