張宣昊
(上海第二工業(yè)大學理學院,上海201209)
回歸分析教學中的一個案例
張宣昊
(上海第二工業(yè)大學理學院,上海201209)
提出統(tǒng)計專業(yè)主干課程《應用回歸分析》的一個教學案例——財會行業(yè)男女薪資比較,包括一元線性回歸的基本理論和案例的具體數(shù)據(jù)分析,對財會行業(yè)男女薪資差異給出合理的統(tǒng)計解釋。幫助學生更好地理解并掌握回歸分析的統(tǒng)計方法,同時提供教師理論聯(lián)系實際的教學素材。
回歸分析;男女薪資;教學案例
《應用回歸分析》是統(tǒng)計專業(yè)的主干課程?;貧w分析是確定兩個或兩個以上變量間相互依賴定量關(guān)系的一種統(tǒng)計分析方法,運用十分廣泛。一般來說,回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實測數(shù)據(jù)來求解模型的各個參數(shù),然后評價回歸模型是否能夠很好地擬合實測數(shù)據(jù),如果能夠很好地擬合,則可以根據(jù)自變量作進一步的預測?;貧w分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析就稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。
本文運用回歸分析方法對2004年財會行業(yè)男女薪資數(shù)據(jù)進行統(tǒng)計分析,通過SPSS19.0統(tǒng)計軟件得到男性薪資的直線回歸模型和女性薪資的曲線回歸模型。對兩個回歸方程進行比較,可以確認男性收入隨年齡直線上升,而女性收入上升得比較緩慢。
通過財會行業(yè)男女薪資比較的實際案例,可使學生充分理解回歸分析方法的統(tǒng)計意義及其應用價值,幫助教師提高《應用回歸分析》課程的教學效果。
1.1 直線回歸方程
用以近似地描述具有相關(guān)關(guān)系變量間聯(lián)系的函數(shù),稱為回歸函數(shù)。
由于Y與X之間不存在完全確定的函數(shù)關(guān)系,因此必須把隨機波動產(chǎn)生的影響考慮在內(nèi),于是模型的一般形式為y乞=f(x乞)+ε乞,其中y是響應變量,x是自變量,ε是隨機項。若進行n次獨立試驗,得到變量y與x的一組觀測值(x乞,y乞)(乞=1,2,···,n),則有y乞=f(x乞)+ε乞(乞=1,2,···,n)。將點(x乞,y乞)畫在平面直角坐標系中得到的圖稱為散點圖,如果所有的散點大體上散布在某一條直線附近(見圖1),就可以認為y對x的回歸函數(shù)的類型為直線型,即?y=ax+b,稱此方程為y對x的直線回歸方程,并稱其中a,b為回歸系數(shù),在y的上方加“^”是為了區(qū)別于Y的實際觀測值y。
1.2 最小二乘法
設n次試驗得到的觀測數(shù)據(jù)為(x1,y1),(x2,y2),···,(xn,yn),則有y乞=ax乞+b+ε乞(乞=1,2,···,n),即ε
乞=y乞?ax乞?b(乞=1,2,···,n)。
圖1 散點圖Fig.1 Scatter plot
?
a,?b的求法如下:
求得的a,b即為最小二乘估計?a,?b,代入y=ax+b+ε即為一元回歸方程?y=?ax+?b,而利用回歸方程可對響應變量y作預測。
例如有一組觀測數(shù)據(jù)如下:(1,2.1),(2,2.9),(3,4),若直觀地認為直線回歸方程為:?y=x+1,則
所以回歸方程為:y=0.95x+1.1+ε(或?y=0.95x+1.1),于是
2.1 基本數(shù)據(jù)
根據(jù)2004年財會行業(yè)從業(yè)人員薪資調(diào)查分析報告[4],得到2004年財會行業(yè)從業(yè)人員的相關(guān)信息(表1):性別、年齡、收入。將不同年齡層次的人群進行對比,除50歲以上人群外,其他年齡層次的男性收入均高于女性。
由圖2、圖3的散點圖可以明顯看出,男性隨著年齡的增長收入也隨之線性增長,最高能達到8萬;而女性工資增長得較為緩慢,最高只有6萬。男性的收入與年齡之間有強烈的線性關(guān)系;而女性收入與年齡之間的斜率有逐步放緩的曲線趨勢。以下利用回歸分析法討論收入和年齡以及性別之間的關(guān)系(響應變量y為收入,自變量x為年齡段,且21歲以下取x=1,22~25歲取x=2,···,50歲以上取x=8)。
圖2 關(guān)于男性的收入與年齡之間的散點圖Fig.2 Scatter plot between male income and age
圖3 關(guān)于女性的收入與年齡之間的散點圖Fig.3 Scatter plot between female income and age
2.2 男性薪資的直線回歸
利用數(shù)據(jù)建立男性薪資與年齡的一元線性回歸模型,由統(tǒng)計軟件SPSS19.0得到男性的年齡與收入的線性回歸模型:?y=18 187.046+7 176.402x。
由表2得年齡變量的回歸系數(shù)為7 176.402,常數(shù)項系數(shù)為18 187.046。由表3得所用回歸模型的p值為0.000,即經(jīng)檢驗模型能顯著地反映男性薪資與年齡的數(shù)量關(guān)系。
2.3 女性薪資的曲線回歸
利用數(shù)據(jù)建立女性薪資與年齡的一元曲線回歸模型,由統(tǒng)計軟件SPSS19.0選擇三次方曲線模型、冪函數(shù)模型、S曲線模型分別進行回歸得到表4和圖4。
由圖4可知,三次方曲線模型更能反映女性薪資與年齡的數(shù)量關(guān)系,因此選擇三次方曲線模型,根據(jù)表4的回歸系數(shù)得:y=?14 430+32 040x?6 304x2+419.051x3。
表1 不同性別不同年齡層的收入對比Tab.1 Income comparison of the dif f erent ages of the dif f erent gender
表2 回歸系數(shù)表Tab.2 Regression coefficients
表3 方差分析表Tab.3 Analysis of variance table
表4 三個模型的檢驗報告Tab.4 Three models of inspection reports
圖4 三種曲線擬合的對比Fig.4 Three curve f i tting contrast
2.4 模型比較
利用回歸分析方法對財會行業(yè)男女薪資數(shù)據(jù)進行統(tǒng)計分析,通過兩個回歸方程的比較,可以確認男性收入隨年齡直線上升,而女性收入上升得比較緩慢和曲折。同時,可利用回歸方程對財會行業(yè)的男性和女性薪資進行預測估計。例如,某36~40歲男性可估計其薪資為18 187.046+7 176.402×5=54 069.056元/年,對于某36~40歲女性則估計其薪資為?14 430+32 040×5?6 304×52+419.051×53=40 551.375元/年,顯然中年男性的薪資高于中年女性,而其他年齡段的男女薪資也可利用以上回歸模型做估計和比較。
[1]何曉群,劉文卿.應用回歸分析[M].第二版.北京:中國人民大學出版社,2011.
[2]王學民.應用多元分析[M].第二版.上海:上海財經(jīng)大學出版社,2004.
[3]薛薇.SPSS統(tǒng)計分析方法及應用[M].北京:電子工業(yè)出版社,2004.
[4]國家統(tǒng)計局.中國統(tǒng)計年鑒(2007光盤版)[M].北京:中國統(tǒng)計出版社,2007.
[5]張翼,張慶靈.《多元統(tǒng)計與回歸分析》課程設計及教學探討[J].大學數(shù)學,2011(6):196-198.
[6]王靜敏.多元統(tǒng)計課程的創(chuàng)新改革研究[J].統(tǒng)計教育,2007(10):26-27.
A Teaching Case of Regression Analysis
ZHANG Xuan-hao
(School of Science,Shanghai Second Polytechnic University,Shanghai 201209,P.R.China)
A teaching case of the statistical main courses“Applied Regression Analysis”is proposed—the comparison of mens’s and women’s salaries in the accounting industry.There are the basic theory of a linear regression model and the case data analysis.The salary dif f erences between men and women in the accounting industry is given a reasonable statistical interpretation.It helps students better understand and master the regression analysis and provides teachers, theories with practical teaching material.
regression analysis;men’s and women’s salaries;teaching case
O212.4
A
1001-4543(2013)02-0135-06
2013-03-11;
2013-04-10
張宣昊(1981–),男,上海人,講師,碩士,主要研究方向為概率統(tǒng)計、試驗設計,電子郵箱xhzhang@sspu.cn。