束容與
【摘要】相關分析和回歸分析是數(shù)理統(tǒng)計中兩種重要的統(tǒng)計分析方法,在實際生活中應用非常廣泛。兩種方法從本質(zhì)上來講有許多共同點,均是對具有相關關系的變量,從數(shù)據(jù)內(nèi)在邏輯分析變量之間的聯(lián)系,但同時二者存在不同。相關分析可以說是回歸分析的基礎和前提,而回歸分析則是相關分析的深入和繼續(xù)。當兩個或兩個以上的變量之間存在高度的相關關系時,進行回歸分析尋求其相關的具體形式才有意義。從本質(zhì)分析了相關分析和回歸分析,并比較兩種之間的異同,結合生活中的例子,進一步討論了利用相關分析和回歸分析的前提并得出相關結論。
【關鍵詞】數(shù)理統(tǒng)計 相關性 相關分析 回歸分析
一、相關關系與相關分析
1.相關關系
在數(shù)理統(tǒng)計學中,回歸分析與相關分析是兩種常用的統(tǒng)計方法,可以用來解決許多生產(chǎn)實踐中的問題,雖然二者之間關系密切,但在具體原理和應用上面有許多不同。首先從總體來說,兩者均是對具有相關性的變量或具有聯(lián)系的標志進行分析,可以借助函數(shù)和圖像等方法。當一個變量固定,同時另一個變量也有固定值與其相對應,這是一種一一對應的關系,也叫做函數(shù)關系。而當一個變量固定,同時與之相對應的變量值并不固定,但是卻按照某種規(guī)律在一定范圍內(nèi)分布,這兩者之間的關系即為相關關系。這里函數(shù)關系與相關關系是不同的。例如,正方形面積與其邊長是一種函數(shù)關系,因為正方形面積是邊長的平方,可用確定的數(shù)學表達式來描述。而相關關系通常沒有這種準確的一一對應的線性函數(shù)表達,如子女的身高與父母身高之間有關系,這其中僅考慮遺傳因素不考慮后期客觀影響等,從生物學角度來講,兩者的身高相關但不能根據(jù)父母的身高求出子女準確身高。相關分析與我們的生活聯(lián)系十分密切,許多問題都可以用相關關系來描述,如一個同學看書的時間與學習成績,收入水平和受教育程度等均可以利用相關分析。
2.相關分析分類
相關分析有許多分類,按相關的因素分為單相關與復相關(多元相關)、按相關形式可分為線性相關(直線相關)和非線性相關(曲線相關)、按相關的方向可分為正相關和負相關、按相關的程度可分為完全相關、不完全相關和不相關。針對不同情形,按需求選取合適的相關方法可以更好的描述變量之間的關系。在評價相關性時通常引用相關系數(shù)r,一般來講,相關系數(shù)介于-1~1之間,若r為正則表明兩者正相關,反之為負相關。同時,如果相關系數(shù)越接近與1(或-1),則表明兩者相關性越強;越接近與0,則表明兩者相關性越弱(r=0意味著不相關)。相關分析常常用到相關圖,又可稱為散點圖。它在笛卡爾坐標系內(nèi)標量x表示橫坐標,標量y表示縱坐標,把兩個變量之間的對應關系用坐標點直觀的描繪出來。
二、回歸分析原理及分類
1.回歸分析
“回歸”是英國生物學家高爾頓提出,他在研究人類遺傳問題時對試驗數(shù)據(jù)進行了分析,發(fā)現(xiàn)了許多數(shù)據(jù)間具有回歸效應。回歸分析研究因變量對于一個或多個其他變量的依賴關系,并在過程中依據(jù)現(xiàn)象之間的相關形態(tài),利用數(shù)學模型進行模擬,通過數(shù)學表達式來反映數(shù)據(jù)之間的回歸關系,并可以得到與之對應的回歸方程,來近似地反映變量之間聯(lián)系的緊密程度,可以從數(shù)量上近似地反映變量之間變動的一般規(guī)律,是一種常用的統(tǒng)計分析方法。建立的數(shù)學模型也就是回歸方程,實際上它將相關關系之間的不確定和不規(guī)則的數(shù)量一般化,從而更好的適用實際問題的解決。回歸分析又稱為因素分析法,屬于多元統(tǒng)計分析方法之一。從本質(zhì)上來講,它通過收集樣本數(shù)據(jù)然后利用一定的統(tǒng)計方法,來討論分析自變量與因變量之間的關系,即原因對結果影響的程度??偟膩碚f,回歸分析可以說是統(tǒng)計學中內(nèi)容最豐富、應用最廣泛的分支。
2.回歸分析分類及應用
回歸分析按照涉及自變量的多少,分為一元回歸分析和多元回歸分析。其中,一元回歸分析是對一個因變量和一個自變量建立回歸方程;與之對應,多元回歸分析是對兩個或兩個以上的自變量和一個因變量建立回歸方程。按照回歸方程的表現(xiàn)形式,分為線性回歸分析和非線性回歸分析。如果自變量和因變量之間的關系是線性相關的,建立直線方程便可以反映,這種分析稱為線性回歸分析。如果自變量和因變量之間的關系是非線性相關的,那么通過建立非線性回歸方程可以較為準確的反映兩者之間關系,即非線性回歸分析。常用的回歸分析方法有線性回歸、logistic回歸、cox回歸、poission回歸、probit回歸,等等。同時,卡方檢驗可以用logistic回歸代替,t檢驗以及方差分析也可以歸到回歸分析當中。
回歸分析可以依據(jù)不同需求對數(shù)據(jù)進行處理和分析,可以利用回歸方程可以進行回歸預測也可以計算或估算標準誤差。進行回歸預測時當自變量發(fā)生變化,由于回歸方程通常來說反映了變量之間的一般性關系,可以依據(jù)回歸方程估計出與自變量相對應的因變量可能發(fā)生相應變化的趨勢、范圍以及數(shù)值。因變量的回歸估計值不是一個必然的對應值,但從一般性角度來講可以反映因變量可能發(fā)生的數(shù)量變化。計算或估算標準差需要通過估計標準誤差這一指標,來分析實際值和回歸估算值之間的差異以及聯(lián)系來反映估計值的準確性,同時還可以利用估計標準誤差對因變量估計值進行區(qū)間估計。
三、相關分析與回歸分析的異同
1.相關分析與回歸分析的聯(lián)系
相關分析和回歸分析均是研究變量之間的相互關系,測定他們之間聯(lián)系的緊密程度,并可以描述因變量隨自變量變化的具體形式和規(guī)律的數(shù)理統(tǒng)計方法。它們通?;趦蓚€正態(tài)連續(xù)變量的假設,從研究數(shù)據(jù)內(nèi)在關系的角度來講,相關分析是回歸分析的基礎,而回歸分析是相關分析的延伸,回歸分析是以相關分析為前提條件。我們在研究幾組變量之間相互關系時,首先要計算相關系數(shù)r也就是進行相關分析。根據(jù)相關系數(shù)的大小,判斷能否運用線性相關等分析方法。比如,在研究同學們的考試成績y與學習時間x之間的關系,通常來講二者之間具有極強的相關性,相關系數(shù)r較大。但是,考試成績y與學習時間x并不具有因果性,因變量考試成績還會受到學習效率,心態(tài),考試發(fā)揮等等因素的影響,這時便不能利用回歸分析來處理問題。所以變量相關是回歸分析的必要不充分條件,相關分析可以表現(xiàn)變量之間的數(shù)量的相關程度,而回歸分析往往需要利用這種相關程度給出他們之間的具體形式。
在進行回歸分析時,回歸的效果可以用簡單的相關系數(shù)r來衡量。相關系數(shù)的平方值 即決定系數(shù),與消減誤差和全部誤差之間的比值相等。而決定系數(shù)可以反映因變量在變化的過程中有多少組分是由自變量引起的,具有消除誤差比例的意義。以考試成績y與學習時間x為例,那么y的變化等于x變化引起的部分加上未被解釋的變差,也就是學習效率等其他因素。回歸分析使用的數(shù)學關系的對應系數(shù)往往也可以與相關系數(shù)互相變換。假設考試成績與學習時間回歸模型為y=kx+b,考試成績y與學習時間x之間的相關系數(shù)r與k之間的關系為k=r(Sy/Sx),Sy是考試成績y的標準差,Sx是學習時間x的標準差。同時回歸分析得到的數(shù)學模型或方程可能適用于多種情況,在不同組數(shù)據(jù)間也可能同樣實現(xiàn)回歸擬合。如果在做出回歸分析之前,沒有對變量之間是否相關,以及變量之間的相關方向和程度做出正確判斷,會造成“虛假回歸”的現(xiàn)象。因此,在具體應用過程中,只有把相關分析和回歸分析結合起來,才能達到研究和分析的目的。
2.相關分析與回歸分析的區(qū)別
首先,在相關分析中,變量不會劃分為自變量和因變量,它的目的是檢驗兩個變量共同變化程度,且這兩組或者多組變量均是隨機變量,變量之間的關系是平等的。而回歸分析中需要將變量劃分為自變量和因變量,用以通過研究自變量的變化來預測因變量的結果,幾組變量中只有因變量是隨機變量,自變量在研究的過程中是確定的。也就是或在把自變量帶入回歸分析數(shù)學關系中得到的因變量的值不是唯一的,而是在一定區(qū)間內(nèi)呈隨機波動,變量之間的關系是不平等的。由于相關分析本身所限,如果兩組或幾組變量中的一個變量不是隨機變量,那么就不能進行相關分析。而同理對于回歸分析,因變量為隨機變量,自變量可以是普通變量也可以是隨機變量。
其次,相關相關分析通常利用一個標準也就是相關系數(shù)來衡量兩個變量之間的相關性,在這個前提下,由于變量之間的關系是平等的,這個衡量標準也是唯一確定的。但是在研究回歸分析的問題中,變量之間具有因果關系,而因變量往往受多個自變量的影響,自變量之間還可能具有一定的聯(lián)系,得到的數(shù)學關系也可能有很多個,在進行擬合的過程中需要利用到多個回歸方程。如果兩組或幾組變量之間具有因果關系,利用相關分析時得到的結果一致,而回歸分析結果不同。
總地來說,相關分析與回歸分析都是研究兩個或多個變量間關聯(lián)性的方法,兩者之間有密切的聯(lián)系,但這兩種數(shù)理統(tǒng)計方法存在本質(zhì)的區(qū)別。變量之間的相關性是否真實存在也是由他們內(nèi)在的聯(lián)系決定的,分析方法通過建立數(shù)學關系等方法,只能反映他們之間的關系和密切程度,但不能準確判斷他們之間存在的關聯(lián)性的真實性,也不能通過回歸分析方法判斷變量之間的因果性。所以我們在使用的時候,不僅僅要依據(jù)研究目的選擇何種數(shù)理統(tǒng)計方法,還需要定性與定量相結合,從本質(zhì)上分析問題,才能更好地利用相關分析與回歸分析等方法,更準確地解決問題。
參考文獻:
[1]張林泉.相關分析與回歸分析應用辨析[J].哈爾濱職業(yè)技術學院學報,2010,(04) :123-124.
[2]王娟.對統(tǒng)計中相關分析與回歸分析的論述[J].現(xiàn)代經(jīng)濟信息,2014,(08) :115.
[3]陳瑋.大數(shù)據(jù)時代下的相關分析方法變革[J].無錫職業(yè)技術學院學報,2017,(01) :50-52.