陳彥壘 葉寶娟
在教育、心理、管理等科學領域中,很多研究現(xiàn)象的數(shù)據(jù)結構都體現(xiàn)為兩水平(兩層)的數(shù)據(jù)結構,如學生嵌套在班級中、員工嵌套在企業(yè)中,在此,學生、員工代表了數(shù)據(jù)結構的第一層,而班級、企業(yè)代表了數(shù)據(jù)結構的第二層。近年來,越來越多的研究者采用兩水平研究,以便更準確地研究變量間的關系。在兩水平研究中,被試嵌套于更高的單元中,在研究現(xiàn)象上相關,即在所用的測驗量表或題目上被試不獨立,單元內的被試相互關聯(lián)。舉例來說,有研究表明,任務績效風險考量、組織利益風險考量、領導成員交換、組織集權度會影響管理者的授權行為,不同企業(yè)的任務績效風險考量、組織利益風險考量、領導成員交換、組織集權度不同,因此,不同企業(yè)的員工在評價管理者的授權行為時,就會有不同的表現(xiàn)。這樣,在研究任務績效風險考量、組織利益風險考量、領導成員交換、組織集權度對管理者授權行為的影響時,我們可以采用兩水平研究:員工嵌套在企業(yè)中,同一企業(yè)員工在作答《管理者授權行為》量表時,作答情況會類似、相互關聯(lián),不同企業(yè)員工在作答《管理者授權行為》量表時,其作答情況差別很大、沒有關聯(lián)。[1]
在兩水平研究中,我們經常會提到信度λj和λ。[2][3]信度λj和λ用于衡量兩水平研究中參數(shù)估計的精確性。研究者在重視λj和λ點估計的同時,應重視其區(qū)間估計,通過區(qū)間估計,我們可以了解信度估計的誤差,從而更準確地對其進行評價。[4][5]Delta法近年來被廣泛應用于求解信度的置信區(qū)間。本文首先介紹了λj和λ的含義及其基于的模型,在此基礎上,提出了簡單而精確地估計λj和λ置信區(qū)間的新方法。實例表明,相對于Raykov等人介紹的方法,新方法操作起來更簡單,得出的結果也更精確。
信度λj和λ指的是參數(shù)統(tǒng)計估計的信度或精確性。λj是第j個單元樣本均值的信度,表示第二水平第j單元的“真實”變異(或真正的單元的變異)占第一水平上觀測到的參數(shù)估計的變異的比例;[6]λ經常被稱為平均信度、均值的總體信度或總體均值信度(overall mean reliability),表示第二水平單元的平均值在各個第二水平單元間的變異中真參數(shù)(相對于估計誤差方差)所占的方差比例,λ的值越小,表示單元間的變異越小。[7][8]
在兩水平研究中,Yij表示第二水平第j(j=1,...,J)個單元的第i(i=1,...,nj)個被試的觀測分數(shù),兩水平研究所基于的階層模型,可由如下兩個方程來定義:
階層一水平的方程:
階層二水平的方程:
其中,γij是Yij對第j個單元的均值 β0j的偏差,γij是正態(tài)分布,均值為0,方差為 σ2;u0j是第j個單元的均值對總均值γ00的偏差,與γij不相關,均值為0,方差為τ00。我們將公式(2)代入公式(1),可得:
ρj表示第二層第j個單元的真分數(shù)的方差與觀測分數(shù)方差的比率。[9]公式(4)的信度系數(shù)只是第j個單元的信度系數(shù)。在此基礎上,研究者提出了一個更一般的信度,表示基于單元均值的信度的總體測量,定義為所有特定單元信度系數(shù)的均值,公式如下:
ρ系數(shù)經常被稱為均值的總體信度(或總體均值信度)。ρ系數(shù)越高,樣本單元均值作為第二層水平的均值,真值的指標就越可靠。如果在第二水平上添加其他預測變量,方程(2)變?yōu)闀l(fā)在兩水平研究中,如果多層線性模型的變量發(fā)生變化(增加或減少變量),如公式(7)所示,λj和λ的值可能發(fā)生變化。
公式(4)、(5)、(8)、(9)僅是 λj和 λ 點估計,而點估計提供的信息量有限,不能給出估計的偏差,用λj和λ的區(qū)間估計可以幫助應用工作者對兩水平研究中參數(shù)估計的精確性作出更準確的評價。[10]Delta法近年來被研究者廣泛用于求信度的置信區(qū)間。[11][12]葉寶娟和溫忠麟的研究顯示,Delta法是一種求參數(shù)置信區(qū)間的比較好的方法,這種方法簡單而精確。[13]
2010年,Raykov等人采用Delta法求ρ的標準誤,如公式(6)所示:
Raykov等人采用Delta法求ρ的標準誤后,為了保證求得的ρ的范圍是0<ρ<1,又引進了額外參數(shù)κ,并在κ和ρ之間建立了下列關系:
其中,ln(.)表示自然對數(shù)。用Delta法求κ的標準誤:
則κ的100(1-α)%的置信區(qū)間為:
研究者求得κ的置信區(qū)間后,即可求出ρ的置信區(qū)間:
其中,κl,κu分別表示κ的置信區(qū)間的下限和上限。
總結起來,采用這種方法求ρ的置信區(qū)間有兩個不足:
(1)比較麻煩。Raykov等人的研究給出了用R軟件完成這個計算過程一系列的變換,最后求得ρ的置信區(qū)間,這個過程比較麻煩。雖然R軟件的計算程序是現(xiàn)成的,但不熟悉R軟件的應用工作者(一般的應用工作者較少用R軟件)完成這個計算過程并不容易。
(2)不精確。Raykov等人的研究中,求ρ的置信區(qū)間的過程有兩個近似過程:用Delta法求ρ的SE的過程是近似過程;引進了額外參數(shù)κ,用Delta法求κ的SE時又進行了一次近似計算,此過程用到ρ的SE,相當于進行了兩次近似計算,此時求得的κ的置信區(qū)間的上限和下限是兩次近似計算后得到的,進而用κ求ρ的置信區(qū)間,相當于求ρ的置信區(qū)間的過程進行了兩次近似計算。
Raykov等人的研究中,求得ρ的SE后,引進額外參數(shù)κ求ρ的置信區(qū)間的方法并沒有改變ρ會大于1或小于0的事實,只是換了一種方法,使ρ在0和1之間。實際上,達到此目的遠不用這么麻煩,換用一種比較簡單的方法就可以,即先用Delta法求出ρ的SE,進而直接用下式求得ρ的置信區(qū)間:
如果求得的ρ的置信區(qū)間的范圍已經在0和1之間,那么ρ的置信區(qū)間就為實際求得的置信區(qū)間,這比Raykov等人提到“還要經過一次轉化再求得的置信區(qū)間”的方法要相對精確。如果求得的ρ的置信區(qū)間的下限小于0,上限大于1,研究者只需舍棄此范圍外的數(shù)值,即如果下限小于0,將小于0的部分舍棄,下限取到0,此時求得的上限至少是相對精確的;如果上限大于1,將大于1的部分舍棄,上限取到1,此時求得的置信區(qū)間的下限是相對精確的。如果求得的ρ的置信區(qū)間的下限小于0,上限大于1,此時求得的置信區(qū)間為(0,1),只有此種特殊情況下得出的結論,與采用Raykov等人介紹的方法得出的結論一致,精確程度較低。
用本文介紹的新方法求ρ的置信區(qū)間,只需在Mplus程序中“OUTPUT”中添加一個“CINTERVAL”命令,此時用結構方程軟件Mplus求得所需要的信度的點估計值,用Delta法計算得到的標準誤,用Delta法計算得到的信度的95%和99%的置信區(qū)間,并且Mplus程序會自動將上限大于1,下限小于0的數(shù)值舍棄,程序給出的最大上限為1,最小下限為0,讀者直接報告程序給出的置信區(qū)間即可。如果程序給出的置信區(qū)間的上限為1,下限為0,讀者報告置信區(qū)間時不取到0或1即可,這種方法非常簡單,也非常容易理解。
某學業(yè)能力測驗施測于600名被試,這600名被試來自12所學校,估計這個測驗的單元均值信度、總均值信度及其置信區(qū)間。用Mplus6.11軟件求12所學校的單元均值信度和總均值信度的點估計值、標準誤,以及本文介紹的新方法求信度置信區(qū)間的計算程序如下:
這個程序與普通的兩水平模型程序差不多,不同的是增加了幾個額外參數(shù)。由于這個模型是飽和模型(saturated model),模型擬合完美(perfect),χ2=0,df=0,p=1。12所學校的單元均值信度和總均值信度的點估計值、標準誤,以及用Raykov等人的方法和本文介紹的新方法求得的置信區(qū)間如下表所示。
12所學校的單元均值信度和總均值信度的點估計值、標準誤及置信區(qū)間
由上表我們可以看出,相比于本文介紹的新方法,Raykov等人介紹的求置信區(qū)間的方法有較大的偏差,下限差值最大的達0.032,最小也為0.017(見表中的Bias1-L列);上限差值最大的達0.030,最小也為0.013,(見表中的Bias1-U列),因此Raykov等人介紹的方法在求置信區(qū)間時有較大的偏差。同時,用Raykov等人介紹的方法求得的置信區(qū)間的下限到信度點估計值的距離,與上限到點估計值的距離并不相同(見表中的Bias2-L列和Bias2-U列),差值最大的達0.056,最小的也有0.030,可見,Raykov等人介紹的求置信區(qū)間的方法不準確。相對而言,本文介紹的新方法求階層線性研究中信度的置信區(qū)間更簡單,也更精確,即用Delta法求的信度的置信區(qū)間后,直接用p±1.96SE來求信度的置信區(qū)間。
從信度置信區(qū)間的設定與分析結果可信性的關系看,如果信度置信區(qū)間的上限小于設定的可接受的信度水平,那么此次測量的質量不高,后續(xù)統(tǒng)計分析的結果不可信。如果信度置信區(qū)間的下限大于可接受的信度水平,那么此次測量的質量較高,后續(xù)統(tǒng)計分析的結果可信。如果可接受的信度水平包含在信度置信區(qū)間中,那么此次測量的質量值得懷疑。
簡單而精確是一種方法的生命力所在。相比于Raykov等人所介紹的兩水平研究中信度置信區(qū)間的估計方法,本文介紹的新方法,簡單而又精確,一般的應用工作者很容易掌握。
值得一提的是,在兩水平研究中還有一個信度,即測驗信度。目前,比較好的估計兩水平研究中單維測驗信度的方法,是基于兩水平驗證性因子分析推導出來的信度系數(shù)。λj和λ與測驗信度不同,主要體現(xiàn)在四個方面。(1)本質不同。信度λj和λ指的是參數(shù)統(tǒng)計估計的精確性,λj和λ是兩個統(tǒng)計值。測驗的信度則用來衡量測驗的穩(wěn)定性和一致性程度,測驗信度值越小,表示測量誤差越大,測驗質量不高。(2)基于的模型不同。λj和 λ是基于多層線性模型(multilevel linear model),而測驗信度是基于兩水平驗證性因子模型。(3)信度數(shù)目不同。在兩水平研究中,λj數(shù)目對應著第二水平的組個數(shù),第二水平有多少個組,就有多少個λj,整個兩水平研究只有一個λ,λj與λ的個數(shù)與研究中所用的測驗數(shù)目無關。測驗信度則與測驗相對應,兩水平研究中有多少個測驗就有多少個測驗信度。(4)信度值變化。在兩水平研究中,如果多層線性模型的變量發(fā)生變化(增加或減少變量),λj和λ的值可能變化。測驗信度則與研究中是否加入其他測驗無關,即一個測驗信度獨立于另一個測驗信度。因此,我們不能混淆λj,λ與測驗信度。研究者在進行兩水平研究時,可同時估計λj,λ和測驗信度,從而獲取更多關于研究可靠性方面的信息。
[1]楊英,龍立榮,周麗芳.授權風險考量與授權行為:領導-成員交換和集權度的作用[J].心理學報,2010(42):875~885.
[2]Bonett,D.G.Varying coefficient meta-analytic methodsforalphareliability[J].Psychological Methods,2010(15):368~385.
[3]Woods,C.M.Confidence intervals for gamma-family of ordinal association[J].Psychological Methods,2007(12):185~204.
[4][13]葉寶娟,溫忠麟.單維測驗合成信度三種區(qū)間估計的比較[J].心理學報,2011(43):453~461.
[5]Zou,G.Y.Towards using confidence intervals to compare correlations[J].Psychological Methods,2007(12):399~413.
[6]Heck,R.H.,&Thomas,S.L.An introduction to multilevel modeling techniques[M].New York:Routledge,2009.
[7][14]Raykov,T.,&Penev,S.Evaluationofreliability coefficientsfortwo-levelmodelsvialatentvariableanalysis[J].StructuralEquationModeling,2010(17):629~641.
[8]張雷,雷靂,郭伯良.多層線性模型應用[M].北京:教育科學出版社,2003.
[9]Raudenbush,S.W.,&Bryk,A.S.Hierarchicallinear models.Applications and data analysis methods(2nd ed.)[M].ThousandOaks,CA:Sage,2002.
[10]Laenen,A.,Alonso,A.,Molenberghs,G.,&Vangeneugden,T.A family of measures to evaluate scale reliability in a longitudinal setting[J].Journal of the Royal StatisticalSociety,2009(172):237~253.
[11]Laenen,A.,Alonso,A.,Molenberghs,G.,&Vangeneugden,T.Reliability of a longitudinal sequence of scaleratings[J].Psychometrika,2009(74):49~64.
[12]Raykov,T.,&Penev,S.Estimation of maximal reliability for multiple-component instruments in multilevel designs[J].British Journal of Mathematical and Statistical Psychology,2009(62):129~142.