張雁磊
【摘要】相關(guān)分析與回歸分析是統(tǒng)計學中研究兩個變量或多個變量之間關(guān)系的重要工具。在做兩個變量的線性相關(guān)分析時,要通過樣本統(tǒng)計量r對線性相關(guān)系數(shù)進行假設(shè)檢驗;在做兩變量的回歸分析時,既要對整體回歸效應(yīng)進行方差分析,又要對回歸系數(shù)進行假設(shè)檢驗。然而,在對兩個變量進行相關(guān)和回歸分析中,盡管上述三種統(tǒng)計推斷的目的各不相同,所選的統(tǒng)計量也不同,但它們的效果卻是等價的。
【關(guān)鍵詞】線性相關(guān) 線性回歸 統(tǒng)計推斷 等價
【中圖分類號】G642.1 【文獻標識碼】A 【文章編號】2095-3089(2017)39-0219-02
一、兩變量的線性相關(guān)及假設(shè)檢驗
在線性相關(guān)中我們只研究兩變量之間是否存在關(guān)聯(lián),如果存在關(guān)聯(lián)它們之間的關(guān)聯(lián)方向(的符號)及密切程度(與1的接近程度)如何。
定義1:隨機變量設(shè)X、Y之間呈線性趨勢的關(guān)系,稱為線性相關(guān),又稱簡單相關(guān)或相關(guān)。
線性相關(guān)系數(shù),又稱Pearson積矩相關(guān)系數(shù)[1],是定量描述兩個變量間線性密切程度和相關(guān)方向的統(tǒng)計指標,其定義為:
當樣本數(shù)據(jù)為,其中、分別表示X、Y的樣本均數(shù)。則樣本的相關(guān)系數(shù)可用下面公式計算:
式中、、分別表示X的離均差平方和、Y的離均差平方和、X與Y的離均差乘積和。
相關(guān)系數(shù)的統(tǒng)計推斷:
根據(jù)假設(shè)檢驗基本原理,原假設(shè)和備擇假設(shè)分別為:,采用檢驗,檢驗統(tǒng)計量為:,其中為樣本相關(guān)系數(shù)的標準誤,,由概率論可知[2]:成立時,服從自由度的分布。
二、兩變量整體回歸效應(yīng)的方差分析和回歸系數(shù)的假設(shè)檢驗
相關(guān)分析只研究兩變量之間線性關(guān)系的強度和方向,兩變量為同時測得的結(jié)果變量,不分主次。但在實際研究中,雖然我們知道兩變量之間存在線性關(guān)系,但常常其中一個變量不可測量或難以測量,這樣我們常常需要通過可測或易測的變量對不可測或難測的變量進行估計,以達到預(yù)測的目的?;貧w分析就是研究一個變量如何隨另一個變量的常用方法。而回歸分析的統(tǒng)計推斷有兩種,一是對整體回歸效應(yīng)的方差分析,一是對回歸系數(shù)的假設(shè)檢驗。
定義2:把研究變量X與Y之間的統(tǒng)計學關(guān)系的數(shù)學方法稱為回歸分析。
線性回歸模型:
其中:X為自變量,Y為因變量,為Y依賴于X的均值。為回歸模型的截距,為回歸系數(shù)或回歸模型的斜率。
樣本的線性回歸方程為:
其中,分別為的估計值;是與X相對應(yīng)的實測值Y的總體均數(shù)的估計值。
當樣本數(shù)據(jù)為,其中、分別表示X、Y的樣本均數(shù),則按照最小二乘原則可得和的計算公式:
1.整體回歸效應(yīng)的方差分析:
Y值的變異可用來反映,而每個[2]都可分解為經(jīng)數(shù)學推導(dǎo)可得下式:
式中,為Y的離均差平方和,表示應(yīng)變量Y的總變異,用來表示;稱為回歸平方和,表示在Y的總變異中,可以用Y與X的線性關(guān)系解釋的那部分變異,用來表示;稱剩余平方和或殘差平方和,用于說明除了X對Y的線性影響之外的其他隨機因素對Y的變異的影響,用表示。于是有:。
回歸方程檢驗的基本思想是:如果X與Y無線性回歸關(guān)系,則與都只包含隨機因素對Y的影響,因此其均方與應(yīng)近似相等,如果兩者差別較大,并超出能夠用隨機波動解釋的程度,則認為回歸方程具有統(tǒng)計學意義。因此可用方差分析方法對其進行檢驗。相應(yīng)的計算公式為:,,;它們?nèi)齻€的自由度分別為:,(自變量的個數(shù)),(,為自變量的個數(shù));。利用方差分析的基本原理,我們建立,的假設(shè),并構(gòu)造檢驗統(tǒng)計量:。由概率論可知:在成立時,統(tǒng)計量F服從的的分布。
2.回歸系數(shù)的統(tǒng)計推斷:
根據(jù)假設(shè)檢驗基本原理,原假設(shè)和備擇假設(shè)分別為:,采用檢驗,檢驗統(tǒng)計量為:,其中為樣本回歸系數(shù)的標準誤,,。由概率論可知:在成立時,服從自由度的t分布。
從三種統(tǒng)計推斷的目的來看它們之間有著本質(zhì)的區(qū)別。相關(guān)系數(shù)的統(tǒng)計推斷是為了檢驗兩個變量之間是否存在線性相關(guān)的關(guān)系;回歸方程中回歸系數(shù)的統(tǒng)計推斷是為了檢驗單個自變量與反應(yīng)變量之間是否存在線性關(guān)系;而整體回歸效應(yīng)的統(tǒng)計推斷是為了檢驗回歸方程對反映變量的解釋程度。但從三個假設(shè)檢驗的統(tǒng)計量構(gòu)造的過程來看,它們之間存在一定的關(guān)系;就兩個變量而言它們就是等價關(guān)系,也就是說它們從不同的角度解決了同一個問題。
三、三種統(tǒng)計推斷的等價性證明
1.線性相關(guān)系數(shù)與回歸系數(shù)統(tǒng)計推斷的等價性證明:
證:對于線性相關(guān)系數(shù)的統(tǒng)計推斷,在成立時,檢驗統(tǒng)計量服從自由度的分布。由,所以;又,代入上式可得: ⑴
對于一元回歸分析中回歸系數(shù)的統(tǒng)計推斷,在成立時,檢驗統(tǒng)計量服從自由度的分布。由,,可推得,把此式代入可得: ⑵
所以統(tǒng)計量,又因為與都滿足自由度為的t分布,所以在時與對應(yīng)的P也相等。從而,在同一檢驗水準下做出的統(tǒng)計推斷也應(yīng)相同。證畢。
2.回歸系數(shù)統(tǒng)計推斷與整體回歸效應(yīng)的等價性證明:
證:對于一元回歸分析中整體回歸效應(yīng)的統(tǒng)計推斷,在成立時,檢驗統(tǒng)計量F服從自由度第一自由度為1,第二自由度為的F分布。由,,可得:;由,可得:
所以, ⑶
顯然,即:。
又因為若隨機變量,則隨機變量[3],即:在統(tǒng)計量時,所對應(yīng)的P值與F所對應(yīng)的P值相等。從而,同一檢驗水準下做出的統(tǒng)計推斷也應(yīng)相同。證畢。
綜上,兩變量的線性相關(guān)系數(shù)的假設(shè)檢驗、回歸系數(shù)的假設(shè)檢驗以及整體回歸效應(yīng)的方差分析三者是等價的;也就是說在解決實際問題時,三種統(tǒng)計推斷任選擇一種便可;但鑒于線性相關(guān)系數(shù)假設(shè)檢驗的簡便性,我們常常用相關(guān)系數(shù)的假設(shè)檢驗來解決回歸系數(shù)的假設(shè)檢驗和整體回歸效應(yīng)的方差分析的問題。
參考文獻:
[1] 賈俊平.統(tǒng)計學[M].中國人民大學出版社,2015.
[2] 方積乾.衛(wèi)生統(tǒng)計學[M].人民衛(wèi)生出版社,2015.
[3] 魏宗舒.概率論與數(shù)理統(tǒng)計教程[M].高等教育出版社,2008.endprint