李金德
(廣西民族大學 教育科學學院,廣西 南寧 530006)
效度概化(validity generalization)是1977年由Schmidt提出的一種研究人事選拔測量工具效標效度的研究方法,[1]作為一種元分析(meta-analysis)研究范式已經被許多研究領域采納,也包括心理與教育元分析領域.效度概化研究者認為因為統(tǒng)計誤差的存在致使測量工具的效標效度變異性被嚴重高估而它的大小卻被嚴重低估,只要將這些統(tǒng)計誤差剔除就會發(fā)現測量工具效標效度的真實大小和跨情境一致性,這便是效度概化的過程.常見的統(tǒng)計誤差有測量誤差、抽樣誤差、范圍限制、效標污染、計算和輸入誤差等,[2]目前效度概化研究中能矯正的主要是測量誤差、抽樣誤差和范圍限制.范圍限制的矯正比測量誤差和抽樣誤差的矯正復雜,鑒于國內該領域研究的匱乏,本文擬就如何矯正相關系數的范圍限制做相應介紹.
效標效度研究的目的是判斷預測變量X對總體被試的效標行為Y的預測作用,但是研究所能獲取的被試常常不是總體而是某種群體,這種群體的獲取方式很多,理想的方法是隨機抽樣.但在人員選拔和教育選拔的研究中,能獲取的群體通常只由那些通過某個分數點的人組成,這種選取被試的方式,本文稱為截取.因為被試是被截取的,所以其取值范圍受到了限制,這便是變量的范圍限制(range restriction).那些因為某種截取方式而保留下的被試稱為受限群體,而那些受限群體背后的總體稱為未受限群體.[3]
范圍限制有直接范圍限制(direct range restriction)和間接范圍限制(indirect range restriction)之分.[4-5]假如研究者要探討X預測效標行為Y的效度,測試了一個群體,然后將X分數由高到低進行排序,但最后只截取該群體的某個分數段的被試作為研究對象,如只截取高于X平均值的被試,此時X的取值范圍受到了直接限制,這便是直接范圍限制;假如研究者在篩選被試時依據的標準不是預測變量X的取值,而是第三個變量S,因為S與X有關聯,所以對S的直接截取會間接影響X的取值范圍,這便是間接范圍限制.一般情況下,因為存在范圍限制,受限群體的方差會比未受限群體低,這樣會降低X與Y的相關系數,[6-7]Thorndike(1949)提出矯正公式CaseⅠ、CaseⅡ和CaseⅢ進行矯正,后來又有研究者提出了CaseⅣ和CaseⅤ.本文將結合元分析的步驟對這幾個矯正公式做介紹,為方便論述下文將受限群體測量指標用下標“i”表示,將未受限群體測量指標用下標“a”表示,另外限于篇幅下文公式中的字母指代只在第一次出現做解釋.
如果直接范圍限制發(fā)生在預測變量X上,但X的未受限方差未知,而效標變量Y的未受限方差已知,可以使用CaseⅠ對相關系數進行矯正,[8]即
式中,RXY為矯正范圍限制后的相關系數;rXY為受限相關系數;uY=sY/SY,sY和SY分別表示Y的受限和非受限標準差.
因為CaseⅠ的適用條件不常見,所以很少被使用,[8-10]相比較而言CaseⅡ的使用就很頻繁.
2.2.1 單個因素矯正
如果直接范圍限制發(fā)生在預測變量X上,且X的未受限方差已知,可以使用CaseⅡ對相關系數進行矯正,[8]即
式中,uX=sX/SX,其中sX和SX分別表示X受限和未受限標準差.
CaseⅡ有兩個基本假設:[11]第一,線性假設,即受限群體和未受限群體中效標變量對預測變量的回歸系數(斜率)是相等的;第二,方差同質性假設,方差同質性假設要求未受限和受限群體的殘差方差相等.
2.2.2 元分析矯正步驟
利用CaseⅡ的矯正公式,Hunter和Schmidt構建了同時考慮信度和范圍限制時相關系數的元分析矯正步驟,[12]圖1可用來描述該矯正過程.圖中T表示預測變量的真實值,X表示預測變量的觀測值,T是無法測量的,可以理解為潛變量,它由顯變量X表征;同樣的,P表示效標變量的真實值,Y表示效標變量的觀測值,P也是潛變量,由顯變量Y表征;X上的虛線表示直接從變量X的分數上截取被試,即直接范圍限制發(fā)生在X上.
圖1 CaseⅡ直接范圍限制模型Fig.1 CaseⅡdirect range restriction model
假如每個研究的預測變量和效標變量的受限與未受限信度已知,同時預測變量的受限和未受限方差已知,此時元分析的基本思路是對每個研究的相關系數進行逐個矯正然后加權合成總系數,[12]步驟如下:
第一,矯正Y的受限信度rYYi對ρXYi的影響得到校正系數ρXPi,即
式中,ρXYi指每個研究的受限相關系數.
第二,矯正X的直接范圍限制對ρXPi的影響得到矯正系數ρXPa,即
第三,利用受限信度rXXi和u2X估算X的未受限測量信度rXXa,即
第四,矯正rXXa對ρXPa的影響得到單個研究較正系數ρTPa,即
式中,ρ指合成的平均效應量(總效應量);ρj指第j個研究的矯正效應量,即ρTPa;wj指第j個研究的權重,可以是該研究的樣本量或方差倒數,[13]也可以是聯合權重.[2]
如果個體研究未受限群體的信度和方差未知,研究者可以利用一些假設分布作為相關指標的計算依據,[1]步驟如下:
第一,計算受限相關系數的平均值,即
式中,ρXYi指平均受限相關系數;wj指權重,通常為方差倒數.[13]
第二,根據先驗知識構建假設分布以獲取變量信度和范圍限制比率等信息.[1]要獲取的指標有X的信度均值rXX、Y的信度均值rYY、X的范圍受限比率均值uX.
第三,將所有指標帶入以下公式便可獲得總相關系數ρTP,即
2.2.3 對CaseⅡ的評價
早期研究者們的模擬和實證研究顯示CaseⅡ的矯正效果較為理想.[14-15]研究者還發(fā)現當違背方差同質性假設時,CaseⅡ 的矯正結果仍然很穩(wěn)健,但CaseⅡ的矯正結果對違背線性假設卻非常敏感.[9]CaseⅡ面臨最大的質疑是現實研究中大部分的范圍限制是間接而非直接的,此時用CaseⅡ矯正范圍限制會低估效度,[10]研究者認為CaseⅡ早期的模擬研究之所以較理想不過是因為模擬的都是直接而非間接范圍限制案例.[12]總之,間接范圍限制應該采用與之對應的公式而非CaseⅡ.
若直接范圍限制發(fā)生在變量Z上,但因為Z與變量X有關,所以對X的取值產生了間接影響,進而影響X和Y的相關系數,此時可用CaseⅢ對相關系數進行矯正,[8]即
式中,rXY為X和Y的受限相關系數;rXZ為X和Z的受限相關系數;rYZ為Y和Z的受限相關系數.
使用CaseⅢ要假設X只受到Z這一個變量的影響,但影響X的變量常常是幾個而較少是一個.即使X確實只受一個變量Z的影響,要獲知rXY、rXZ、rYZ、sX和SX也十分困難,所以CaseⅢ很少被使用.[16]矯正公式caseⅣ的出現彌補了CaseⅢ的缺陷.
3.2.1 單個因素矯正
CaseⅣ需要的計算條件比CaseⅢ少,具有實踐應用價值.圖2是CaseⅣ的模型圖,該模型比圖1的模型增加了一個新變量S.[12]S相當于CaseⅢ中提到的Z變量,不過S變量在這里指的是潛變量,Z沒有這樣的假設.S的統(tǒng)計信息與Z一樣常難以獲取,有時因為沒有測量,更多時候是因為S是一個組合體而根本無法測量.在CaseⅣ中,對被試的截取首先直接發(fā)生在S上,而因為S和預測變量有關系,所以對S的直接截取會間接影響到預測變量的分數分布,即發(fā)生了間接范圍限制.需要注意的是,變量S是作用于預測變量的潛變量T而不是顯變量X.CaseⅣ同時還假設S對效標變量潛變量P的影響全部被T中介.
圖2 CaseⅣ間接范圍限制模型Fig.2 CaseⅣindirect range restriction model
在CaseⅣ中,關鍵是要估算出預測變量T的范圍限制比率uT,[2]即
式中,uT指潛變量T的范圍受限比率;rXXa是X未受限測量信度.
在只有范圍限制因素時,CaseⅣ對相關系數的矯正和CaseⅡ相似,即
3.2.2 元分析矯正步驟
假如每個研究的預測變量和效標變量的受限與未受限信度已知,同時預測變量的受限和未受限方差已知,可以對每個研究的相關系數逐個矯正然后將它們加權匯總,步驟如下:
第一,矯正Y的受限信度rYYi對ρXYi的影響得到校正系數ρXPi(參考公式(3)).
第二,估算X的受限信度rXXi,即
如果rXXi已知,可以直接到第三步.
第三,矯正rXXi對ρXPi的影響得到較正系數ρTPi,即
第四,估算X的未受限測量信度rXXa,即
如果rXXa已知,可以直接到第五步.
第五,對T的范圍受限比率uT進行估算(參考公式(11)).
第六,將指標帶入以下公式得到單個研究未受限相關系數ρTPa,即
第七,計算總的效應量ρ(參考公式(7)).
如果個體研究未受限群體的信度和方差信息不全,與CaseⅡ一樣研究者可以利用一些假設分布作為相關指標的計算依據,步驟如下:
第一,計算受限相關系數的平均值ρXYi(參考公式(8)).
第二,根據假設分布獲取X的信度均值rXX、Y的信度均值rYY、X的范圍受限比率均值uX,并利用rXX和uX,計算出uT,即
第三,將所有指標帶入以下公式便可獲得總相關系數ρTP,即
3.2.3 對CaseⅣ的評價
CaseⅣ假設發(fā)生在S上的直接限制對T產生間接范圍限制,同時假設S對P的影響全部通過T產生,假如這個假設成立,CaseⅣ和CaseⅢ在數學上是等價的.與CaseⅢ比,CaseⅣ讓間接范圍矯正成為可能,[17]與CaseⅡ比,CaseⅣ對間接范圍限制的矯正更準確.[18-19]當然,CaseⅣ對S、P和T的間接路徑假設在實際研究中很難滿足,[17,20]因為用于截取被試的變量S常常是未知的或者因為組合復雜而難以測量,這樣S與T和P的間接路徑就難以確定,基于此,研究者提出了矯正公式CaseⅤ.
3.3.1 單個因素矯正
在間接范圍限制中,如果第三個變量S與預測變量X和效標變量Y的相關是同向的,可以利用以下公式對相關系數進行矯正,[21]即
如果S與X和Y的相關是反向的,即一個為正,一個為負,可以利用以下公式對相關系數進行矯正,[22]即
公式(19)和公式(20)主要針對的是顯變量層面的相關系數矯正,從CaseⅣ中獲得靈感的Le等人[10]將其應用到潛變量層面的相關系數矯正,并且將其命名為CaseⅤ,其模型見圖3.從圖3可見,CaseⅤ模型比CaseⅣ模型多了一條從S到P的路徑,它表示S同時對T和P都有直接影響,Le等人認為這種模型更符合間接范圍限制的實際情況.
圖3 CaseⅤ間接范圍限制模型Fig.3 CaseⅤindirect range restriction model
CaseⅤ的關鍵是要估算出預測變量真分數T的范圍限制比率uT,同時還需要估算出效標變量真分數P的范圍限制比率uP,即
3.3.2 元分析矯正步驟
假如每個研究的預測變量和效標變量的受限與未受限信度已知,同時預測變量的受限和未受限方差已知,可以對每個研究的相關系數逐個矯正然后將它們加權匯總,步驟如下:
第一,矯正Y的受限信度rYYi對ρXYi的影響得到校正系數ρXPi(參考公式(3)).
第二,矯正rXXi對ρXPi的影響得到較正系數ρTPi(參考公式(14)).
第三,計算T和P的范圍受限比率uT和uP(參考公式(21)和(22)).
第四,將指標帶入以下公式得到單個研究未受限相關系數ρTPa,即
第七,計算總的效應量ρ(參考公式(7)).
如果個體研究未受限群體的信度和方差信息不全,與CaseⅡ和CaseⅣ一樣研究者可以利用假設分布作為相關指標的計算依據,步驟如下:
第一,計算受限相關系數的平均值ρXYi(參考公式(8)).
第二,根據假設分布獲取X的信度均值rXX、Y的信度均值rYY、X的范圍受限比率均值uX、Y的范圍受限比率均值uY.
第三,利用rXX、rYY、uX和uY計算出T和P的范圍受限比率uT和uP,即
第四,將指標帶入以下公式便可得總相關系數ρTP,即
3.3.3 對CaseⅤ的評價
CaseⅤ和CaseⅣ一樣不需要獲取S的相關信息,所以它比CaseⅢ要更具實踐意義.CaseⅤ不需要線性假設和方差同質性假設,與CaseⅡ比較起來這是優(yōu)勢.CaseⅤ另外一個優(yōu)勢是其矯正的相關系數允許符號的改變,因為S產生的間接范圍限制不一定降低也有可能是增強X和Y的相關系數.[23]當然,獲取Y的未受限群體的方差信息對于CaseⅤ來說也是有困難的.[10]另外,當X和Y的相關接近0時,S與X和Y的關系是隨機的,這時候不好決定采用公式(19)還是公式(20),這是CaseⅤ的不足.[10]
針對不同的范圍限制選用不同的方法可以減少方法誤用帶來的誤差.CaseⅠ和CaseⅡ矯正的是直接范圍限制,CaseⅢ、CaseⅣ和CaseⅤ矯正的是間接范圍限制,在使用條件滿足的情況下,他們的矯正結果都是準確的.在實踐中大多是間接而非直接范圍限制,所以使用CaseⅡ時要謹慎.因為第三方變量信息的獲取非常困難,所以CaseⅢ的使用就受到了極大的限制.而CaseⅣ雖然巧妙地避開了搜集第三方變量信息的難題,但是其核心假設(即假設S對P的影響全部由T中介)在現實研究中卻不多見,所以比較起來CaseⅤ似乎更好,它既不用考慮第三方變量的信息,同時也不需要假設T完全中介S對P的作用.不過當預測變量和效標變量的相關系數接近0的時候,因為難以判斷采用CaseⅤ的哪個矯正公式,這時使用CaseⅣ會更好.總之,方法的取舍需要研究者綜合判斷.