袁 敏 智麗萍 高健孫 江 潔
(安徽醫(yī)科大學(xué)衛(wèi)生管理學(xué)院,安徽 合肥 230032)
多重線性回歸模型在社會實踐中地位舉足輕重,特別是在經(jīng)濟問題中,如家庭消費支出受家庭可支配收入、家庭所有的財富、物價水平、金融機構(gòu)存款利息等多種因素影響。如何探究各影響因素的權(quán)重問題,將關(guān)系生活決策和幸福指數(shù)。因而如何發(fā)揮多重線性回歸模型在日常生活中的價值,就得從知識的傳承開始。多重線性回歸模型傳統(tǒng)教法是從定義開始,挖掘模型的特性,理論的論證,公式結(jié)論的強行記憶,生搬硬套,使得我們的模型價值難以為人們接受。本文將從全新的角度,利用投影法開展多重線性回歸模型的研究過程,為我們推廣多重線性回歸模型揭開新的思路。
Weisberg(2005)一書的問題6.13中涉及的是美國中西部一所大學(xué)在20世紀80年代為“女性工資待遇受歧視”的法律訴訟案所收集的薪水?dāng)?shù)據(jù)(可從R軟件的alr3包中的salary數(shù)據(jù)獲得)。該數(shù)據(jù)包含52個正式教職工的年薪(Salary)及與其相關(guān)的 5 個變量,即 Sex(1 ∶女,0:男);Rank(1∶助理教授 2∶副教授3∶教授);Year(擁有當(dāng)前職稱的時間,單位:年);Degree(1:博士 0:碩士);YSdeg(工齡,單位:年)。
數(shù)據(jù)表明女性平均工資比男性低3340美元,假設(shè)工資的對數(shù)服從正態(tài),應(yīng)用獨立兩樣本t-檢驗得到p值為0.048,小于0.05,故認為在0.05的檢驗水平下男性和女性的平均工資有顯著的統(tǒng)計學(xué)差異。但是,男女性可能存在與工資有關(guān)的其它因素(比如職稱、學(xué)歷)的差異,而這些因素可能導(dǎo)致了男女性平均工資的差異,即混雜因素(confounding)。一般職稱與薪水是掛鉤的,職稱越高,平均薪水相對越高,因此我們分別考察男女性的職稱分布情況,畫出如下條圖:
圖1.1:salary數(shù)據(jù)中男性和女性的職稱分布條圖
從圖1.1可以看出,男性和女性在職稱組成上有很大的差異,男性中教授職稱所占的比例相對較高,而女性職員中助理教授所占的比例較高,因此男女性職員的職稱組成差異也許是導(dǎo)致薪水差異的混雜因素。
事實上,獨立兩樣本t檢驗即建立如下簡單線性回歸模型(simple linear regression model):
其中Sex取值0,1分別代表女性和男性。獨立兩樣本t檢驗等價于檢驗假設(shè)H0:b=0。由于薪水可能受其他因素的影響,比如職稱等,我們需要在上述簡單線性模型(1.1)的右端添加若干項以控制協(xié)變量的影響,即建立多重線性回歸模型(multiple linear regression model):
即可達到控制協(xié)變量Rank、YSdeg、Degree和Year的目的。在多重線性回歸模型中考察薪水是否會與性別有關(guān),即在模型(1.2)下檢驗假設(shè),相應(yīng)的p值為0.26〉0.05,說明在控制了其他可能影響薪水的因素前提下,男女的薪水差異沒有顯著的統(tǒng)計學(xué)意義。
一般而言,從簡單線性回歸模型到多重線性回歸模型是為了控制混雜因素,可用下面的流程圖直觀的表達:
新加項c'z是為了控制z的影響。系數(shù)b為給定z的條件下x的效應(yīng),所以在多重線性回歸模型y=a+bx+c'z+,N(0,σ2)中研究一維隨機變量x與y之間的關(guān)系可以分成兩步進行:
其次將y對x┸進行回歸,建立簡單線性回歸模型y=a+bx┸+即為多重線性回歸模型。
一般的多重線性回歸模型可表達成如下形式和條件:
則模型(2.1)可用矩陣向量形式表達成:Yn×1=Xn×pβp×1+n×1
(1)最小二乘法
假設(shè)設(shè)計矩陣X為列滿秩,為估計參數(shù)β,常用的估計方法為最小二乘法(Least Square,LS),即最小化誤差平方和:
minβ∈Rp2=minβ∈Rp∑n (y-x'i)2=minβ∈Rp‖Y-Xβ‖2注意到目標函數(shù) Q(β)=‖Y-Xβ‖2=Y'Y-2Y'Xβ+β'X'Xβ,則將函數(shù)Q對向量β求導(dǎo)數(shù)得到,令0,得到正則方程X('Y-Xβ)=0。注意到X為列滿秩,故X'X可逆。求解這個正則方程,得到LS估計為。進一步計算LS估計的方差為:
下面列舉了關(guān)于正則方程的幾個注解:
注5:當(dāng)p>n時,Y=Xβ是一個關(guān)于參數(shù)β的欠定方程(under-determined system)或稱為不定方程。為了求出欠定方程的有意義的解,通常需要施加某些約束條件,比如在數(shù)論中限制β為有理數(shù)或正整數(shù);比如在壓縮感知中限定β為稀疏的,即某一些分量為0,但不知道具體哪些分量為0。如果假設(shè)β的p個分量非0,則須解Cnp個適定方程,從得到的Cnp個解中發(fā)現(xiàn)滿足某些準則的有意義的解或者最優(yōu)解。
(2)最小二乘法與投影(projection)
投影(projection)是線性代數(shù)中的一個重要概念。那么什么是投影呢?形象點說,就是將你需要投影的東西上的每一點向你要投影的平面作垂線,垂線與平面的交點的集合就是投影。圖2.1是三維投影中向量b對平面的投影的圖示,
圖2.1 三維投影
定理2.1minβ‖Y-Xβ‖2等價于其中為Y在L(X)上的投影。
證明:注意到 Xβ=x(1)β1+x(2)β2+…+x(p)βp為 X 各列向量。的線性組合。根據(jù)投影的定義,因為與L(X)正交,所以與L(X)中的任何向量Y-u均正交。故。證畢。
多重線性回歸模型是探索多個協(xié)變量與因變量之間關(guān)系的一個重要工具。由具體的實例從簡單線性回歸模型應(yīng)用中可能帶來的問題引入多重線性回歸模型有利于激發(fā)學(xué)生的興趣,加深學(xué)生理解進行多重線性回歸的背景。最小二乘法是線性回歸模型分析中最經(jīng)典的估計方法。用投影法講解最小二乘估計,直觀簡潔地講清楚最小二乘法的幾何意義,避免了學(xué)生死記硬背最小二乘估計的公式以及協(xié)方差矩陣的公式。