鄧多杰 張崢
摘? ?要:為研究薪酬水平的影響因素以及與這些因素之間是否存在線性關(guān)系,以R語言中自帶數(shù)據(jù)集wgge1為例,借助R語言提供的豐富高效的統(tǒng)計(jì)模型處理方法,對(duì)wage1數(shù)據(jù)集中薪酬與教育水平、工作經(jīng)驗(yàn)以及婚姻狀況等因素進(jìn)行分析,建立影響薪酬水平的回歸模型?;诖耍谥赋瞿P头治鲋胁蛔愕耐瑫r(shí),也提出了幾點(diǎn)現(xiàn)實(shí)的參考意見。
關(guān)鍵詞:薪酬水平;R語言;回歸分析
中圖分類號(hào):F069;C936? ? 文獻(xiàn)標(biāo)志碼:A? ? 文章編號(hào):1673-291X(2021)23-0057-03
引言
薪酬是組織優(yōu)化人力資源的有效杠桿,理論界目前對(duì)薪酬結(jié)構(gòu)與其影響因素的實(shí)證研究也還存在很大空間。同時(shí),隨著大數(shù)據(jù)的興起,作為由統(tǒng)計(jì)學(xué)教授Ross·Ihaka 和Robert·Gentleman開發(fā)的用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán)境的一種軟件,R語言迅速成為一種熱門的數(shù)據(jù)分析工具。因其具有強(qiáng)大的數(shù)據(jù)處理能力和持續(xù)擴(kuò)展能力,處理統(tǒng)計(jì)和測(cè)量問題的方法也越來越豐富,覆蓋范圍也越來越廣[1],所以我們以R語言中自帶數(shù)據(jù)集wgge1為例,在認(rèn)真查閱和分析資料的前提下,利用R語言這一軟件,分析wooldridge包中的wage1數(shù)據(jù)集中的數(shù)據(jù)分布情況。
一、數(shù)據(jù)集描述性分析及數(shù)據(jù)說明
wage1數(shù)據(jù)集是由著名的經(jīng)濟(jì)學(xué)家杰弗里·伍德里奇和亨利·法伯爾在就讀于麻省理工學(xué)院時(shí),從1976年美國(guó)人口現(xiàn)狀調(diào)查中所收集的關(guān)于勞動(dòng)力薪酬情況。
(一)數(shù)據(jù)集描述性分析
wage1數(shù)據(jù)集中包含526行和24列。也就是說,該數(shù)據(jù)集是對(duì)樣本為n=526人所作出的24項(xiàng)調(diào)查,wage1數(shù)據(jù)集中共含有24個(gè)變量。
(二)數(shù)據(jù)說明與變量處理
結(jié)合研究主題和相關(guān)文獻(xiàn)的研究,擬采用的變量包括薪酬、教育水平、工作經(jīng)驗(yàn)、婚姻狀況、家屬人數(shù)及居住區(qū)域等。變量具體設(shè)定如表1。
二、R語言環(huán)境下回歸模型的建立與分析
對(duì)于薪酬水平與其影響因素的關(guān)系,已有許多學(xué)者做出了相關(guān)研究。葉勤等人對(duì)企業(yè)的薪酬環(huán)境、組織環(huán)境和員工具體所從事工作的性質(zhì)對(duì)員工薪酬水平的影響進(jìn)行了研究,認(rèn)為環(huán)境因素與薪酬水平和滿意度之間有顯著相關(guān)關(guān)系[2]。Lawler 和 Edward認(rèn)為,總體報(bào)酬以員工需求為導(dǎo)向的本質(zhì),突出了企業(yè)利益與個(gè)人利益協(xié)調(diào)、共贏的思想,對(duì)員工工作積極性、離職率和其他關(guān)鍵行為發(fā)揮著積極的影響[3]?;诖?,在wage1數(shù)據(jù)集中,為了更加細(xì)致清楚地描述薪酬與所選變量之間的關(guān)系,我們建立薪酬與研究變量之間的回歸方程。
(一)建立簡(jiǎn)單線性回歸模型
利用wooldridge包中的wage1中n=526 個(gè)人的數(shù)據(jù),估計(jì)薪酬與教育水平之間是否存在線性關(guān)系,建立如下的回歸模型1,即總體回歸方程為:
W=β0+β1educ+εi(1)
同時(shí)建立半對(duì)數(shù)的回歸模型2,其回歸方程為:
ln(W)=β0+β1educ+εi(2)
模型1、2中,W代表每小時(shí)薪酬水平,β0和β1是回歸系數(shù),εi是誤差項(xiàng),是其他一切不確定因素的總和。我們用參數(shù)為formula模型公式,函數(shù)lm會(huì)估計(jì)回歸系數(shù)β0和β1,分別用Intercept和x表示,可得模型中回歸方程的參數(shù)水平和判決系數(shù)(見表2、表3)。在此數(shù)據(jù)的基礎(chǔ)之上,進(jìn)一步分析所做回歸模型的合理性,并對(duì)模型回歸結(jié)果進(jìn)行分析。
顯然,調(diào)整之后模型2中的判決系數(shù)Multiple R-squared為0.185 8,其值并不接近于1,回歸結(jié)果也是不理想的;但同時(shí),p-value=2.2e-16,與模型1相比沒有變化。我們無法判斷哪個(gè)模型更好,因此,影響薪酬的因素不只是有教育水平,可能還有其他方面的,比如工作經(jīng)驗(yàn)、婚姻狀況等。為了更好解釋影響薪酬的因素,我們就必須用到多元回歸模型。
(二)建立多元線性回歸模型
在數(shù)據(jù)集wage1中,我們建立wage與educ、exper以及married之間的多元線性回歸模型3,其回歸方程為:
W=β0+β1educ+β2exper+β3married+εi(3)
同時(shí),在模型3的基礎(chǔ)之上建立模型4,其多元線性回歸方程為:
log(W)=β0+β1educ+β2exper+β3married+εi(4)
從回歸結(jié)果來看,模型3、模型4擬合的效果相對(duì)于模型1、模型2的效果還是不錯(cuò)的。常數(shù)項(xiàng)以及educ、exper的預(yù)測(cè)效果較為顯著,married的預(yù)測(cè)能力較好。同時(shí),如表5所示,模型3的判決系數(shù)為0.240 1,模型4的判決系數(shù)為0.275 8,與模型1中相比較大,回歸系數(shù)也是較為顯著的,但仍偏離1較遠(yuǎn)。我們用AIC函數(shù)來判斷4種模型哪一個(gè)的擬合效果更好,見表6。
綜合以上四種模型,對(duì)簡(jiǎn)單回歸模型而言,我們只能說模型2比模型1 的擬合效果好,但不能說模型2中薪酬與教育水平具有顯著的共線性關(guān)系。同樣,對(duì)多元回歸模型而言,也不能得出薪酬與教育水平、工作年限或者婚否這些因數(shù)之間存在明顯的線性關(guān)系。因此,我們預(yù)測(cè),薪酬是由多方面因素影響的,若將教育水平、工作經(jīng)驗(yàn)、當(dāng)前工作任期、婚否、家屬人數(shù)、居住區(qū)域等因素都考慮起來,其回歸方程的擬合效果會(huì)更好,可解釋性會(huì)更大。