用De l t a法求兩水平研究中信度的置信區(qū)間

2014-04-20 10:23:22陳彥壘葉寶娟

教育測量與評價 2014年4期

陳彥壘葉寶娟

一、問題提出

在教育、心理、管理等科學領域中，很多研究現(xiàn)象的數(shù)據(jù)結構都體現(xiàn)為兩水平（兩層）的數(shù)據(jù)結構，如學生嵌套在班級中、員工嵌套在企業(yè)中，在此，學生、員工代表了數(shù)據(jù)結構的第一層，而班級、企業(yè)代表了數(shù)據(jù)結構的第二層。近年來，越來越多的研究者采用兩水平研究，以便更準確地研究變量間的關系。在兩水平研究中，被試嵌套于更高的單元中，在研究現(xiàn)象上相關，即在所用的測驗量表或題目上被試不獨立，單元內的被試相互關聯(lián)。舉例來說，有研究表明，任務績效風險考量、組織利益風險考量、領導成員交換、組織集權度會影響管理者的授權行為，不同企業(yè)的任務績效風險考量、組織利益風險考量、領導成員交換、組織集權度不同，因此，不同企業(yè)的員工在評價管理者的授權行為時，就會有不同的表現(xiàn)。這樣，在研究任務績效風險考量、組織利益風險考量、領導成員交換、組織集權度對管理者授權行為的影響時，我們可以采用兩水平研究：員工嵌套在企業(yè)中，同一企業(yè)員工在作答《管理者授權行為》量表時，作答情況會類似、相互關聯(lián)，不同企業(yè)員工在作答《管理者授權行為》量表時，其作答情況差別很大、沒有關聯(lián)。[1]

在兩水平研究中，我們經常會提到信度λj和λ。[2][3]信度λj和λ用于衡量兩水平研究中參數(shù)估計的精確性。研究者在重視λj和λ點估計的同時，應重視其區(qū)間估計，通過區(qū)間估計，我們可以了解信度估計的誤差，從而更準確地對其進行評價。[4][5]Delta法近年來被廣泛應用于求解信度的置信區(qū)間。本文首先介紹了λj和λ的含義及其基于的模型，在此基礎上，提出了簡單而精確地估計λj和λ置信區(qū)間的新方法。實例表明，相對于Raykov等人介紹的方法，新方法操作起來更簡單，得出的結果也更精確。

二、λj和λ的含義及其基于的模型

信度λj和λ指的是參數(shù)統(tǒng)計估計的信度或精確性。λj是第j個單元樣本均值的信度，表示第二水平第j單元的“真實”變異（或真正的單元的變異）占第一水平上觀測到的參數(shù)估計的變異的比例；[6]λ經常被稱為平均信度、均值的總體信度或總體均值信度（overall mean reliability），表示第二水平單元的平均值在各個第二水平單元間的變異中真參數(shù)（相對于估計誤差方差）所占的方差比例，λ的值越小，表示單元間的變異越小。[7][8]

在兩水平研究中，Yij表示第二水平第j（j=1，...，J）個單元的第i（i=1，...，nj）個被試的觀測分數(shù)，兩水平研究所基于的階層模型，可由如下兩個方程來定義：

階層一水平的方程：

階層二水平的方程：

其中，γij是Yij對第j個單元的均值 β0j的偏差，γij是正態(tài)分布，均值為0，方差為 σ2；u0j是第j個單元的均值對總均值γ00的偏差，與γij不相關，均值為0，方差為τ00。我們將公式（2）代入公式（1），可得：

ρj表示第二層第j個單元的真分數(shù)的方差與觀測分數(shù)方差的比率。[9]公式（4）的信度系數(shù)只是第j個單元的信度系數(shù)。在此基礎上，研究者提出了一個更一般的信度，表示基于單元均值的信度的總體測量，定義為所有特定單元信度系數(shù)的均值，公式如下：

ρ系數(shù)經常被稱為均值的總體信度（或總體均值信度）。ρ系數(shù)越高，樣本單元均值作為第二層水平的均值，真值的指標就越可靠。如果在第二水平上添加其他預測變量，方程（2）變?yōu)闀l(fā)在兩水平研究中，如果多層線性模型的變量發(fā)生變化（增加或減少變量），如公式（7）所示，λj和λ的值可能發(fā)生變化。

三、估計λj和λ置信區(qū)間

公式（4）、（5）、（8）、（9）僅是 λj和 λ 點估計，而點估計提供的信息量有限，不能給出估計的偏差，用λj和λ的區(qū)間估計可以幫助應用工作者對兩水平研究中參數(shù)估計的精確性作出更準確的評價。[10]Delta法近年來被研究者廣泛用于求信度的置信區(qū)間。[11][12]葉寶娟和溫忠麟的研究顯示，Delta法是一種求參數(shù)置信區(qū)間的比較好的方法，這種方法簡單而精確。[13]

2010年，Raykov等人采用Delta法求ρ的標準誤，如公式（6）所示：

Raykov等人采用Delta法求ρ的標準誤后，為了保證求得的ρ的范圍是0＜ρ＜1，又引進了額外參數(shù)κ，并在κ和ρ之間建立了下列關系：

其中，ln（.）表示自然對數(shù)。用Delta法求κ的標準誤：

則κ的100（1-α）%的置信區(qū)間為：

研究者求得κ的置信區(qū)間后，即可求出ρ的置信區(qū)間：

其中，κl，κu分別表示κ的置信區(qū)間的下限和上限。

總結起來，采用這種方法求ρ的置信區(qū)間有兩個不足：

（1）比較麻煩。Raykov等人的研究給出了用R軟件完成這個計算過程一系列的變換，最后求得ρ的置信區(qū)間，這個過程比較麻煩。雖然R軟件的計算程序是現(xiàn)成的，但不熟悉R軟件的應用工作者（一般的應用工作者較少用R軟件）完成這個計算過程并不容易。

（2）不精確。Raykov等人的研究中，求ρ的置信區(qū)間的過程有兩個近似過程：用Delta法求ρ的SE的過程是近似過程；引進了額外參數(shù)κ，用Delta法求κ的SE時又進行了一次近似計算，此過程用到ρ的SE，相當于進行了兩次近似計算，此時求得的κ的置信區(qū)間的上限和下限是兩次近似計算后得到的，進而用κ求ρ的置信區(qū)間，相當于求ρ的置信區(qū)間的過程進行了兩次近似計算。

四、估計λj和λ置信區(qū)間方法的改進

Raykov等人的研究中，求得ρ的SE后，引進額外參數(shù)κ求ρ的置信區(qū)間的方法并沒有改變ρ會大于1或小于0的事實，只是換了一種方法，使ρ在0和1之間。實際上，達到此目的遠不用這么麻煩，換用一種比較簡單的方法就可以，即先用Delta法求出ρ的SE，進而直接用下式求得ρ的置信區(qū)間：

如果求得的ρ的置信區(qū)間的范圍已經在0和1之間，那么ρ的置信區(qū)間就為實際求得的置信區(qū)間，這比Raykov等人提到“還要經過一次轉化再求得的置信區(qū)間”的方法要相對精確。如果求得的ρ的置信區(qū)間的下限小于0，上限大于1，研究者只需舍棄此范圍外的數(shù)值，即如果下限小于0，將小于0的部分舍棄，下限取到0，此時求得的上限至少是相對精確的；如果上限大于1，將大于1的部分舍棄，上限取到1，此時求得的置信區(qū)間的下限是相對精確的。如果求得的ρ的置信區(qū)間的下限小于0，上限大于1，此時求得的置信區(qū)間為（0,1），只有此種特殊情況下得出的結論，與采用Raykov等人介紹的方法得出的結論一致，精確程度較低。

用本文介紹的新方法求ρ的置信區(qū)間，只需在Mplus程序中“OUTPUT”中添加一個“CINTERVAL”命令，此時用結構方程軟件Mplus求得所需要的信度的點估計值，用Delta法計算得到的標準誤，用Delta法計算得到的信度的95%和99%的置信區(qū)間，并且Mplus程序會自動將上限大于1，下限小于0的數(shù)值舍棄，程序給出的最大上限為1，最小下限為0，讀者直接報告程序給出的置信區(qū)間即可。如果程序給出的置信區(qū)間的上限為1，下限為0，讀者報告置信區(qū)間時不取到0或1即可，這種方法非常簡單，也非常容易理解。

五、用D e l t a法求階層線性研究中測驗信度的置信區(qū)間示例

某學業(yè)能力測驗施測于600名被試，這600名被試來自12所學校，估計這個測驗的單元均值信度、總均值信度及其置信區(qū)間。用Mplus6.11軟件求12所學校的單元均值信度和總均值信度的點估計值、標準誤，以及本文介紹的新方法求信度置信區(qū)間的計算程序如下：

這個程序與普通的兩水平模型程序差不多，不同的是增加了幾個額外參數(shù)。由于這個模型是飽和模型（saturated model），模型擬合完美（perfect），χ2=0，df=0，p=1。12所學校的單元均值信度和總均值信度的點估計值、標準誤，以及用Raykov等人的方法和本文介紹的新方法求得的置信區(qū)間如下表所示。

12所學校的單元均值信度和總均值信度的點估計值、標準誤及置信區(qū)間

由上表我們可以看出，相比于本文介紹的新方法，Raykov等人介紹的求置信區(qū)間的方法有較大的偏差，下限差值最大的達0.032，最小也為0.017（見表中的Bias1-L列）；上限差值最大的達0.030，最小也為0.013，（見表中的Bias1-U列），因此Raykov等人介紹的方法在求置信區(qū)間時有較大的偏差。同時，用Raykov等人介紹的方法求得的置信區(qū)間的下限到信度點估計值的距離，與上限到點估計值的距離并不相同（見表中的Bias2-L列和Bias2-U列），差值最大的達0.056，最小的也有0.030，可見，Raykov等人介紹的求置信區(qū)間的方法不準確。相對而言，本文介紹的新方法求階層線性研究中信度的置信區(qū)間更簡單，也更精確，即用Delta法求的信度的置信區(qū)間后，直接用p±1.96SE來求信度的置信區(qū)間。

六、小結

從信度置信區(qū)間的設定與分析結果可信性的關系看，如果信度置信區(qū)間的上限小于設定的可接受的信度水平，那么此次測量的質量不高，后續(xù)統(tǒng)計分析的結果不可信。如果信度置信區(qū)間的下限大于可接受的信度水平，那么此次測量的質量較高，后續(xù)統(tǒng)計分析的結果可信。如果可接受的信度水平包含在信度置信區(qū)間中，那么此次測量的質量值得懷疑。

簡單而精確是一種方法的生命力所在。相比于Raykov等人所介紹的兩水平研究中信度置信區(qū)間的估計方法，本文介紹的新方法，簡單而又精確，一般的應用工作者很容易掌握。

值得一提的是，在兩水平研究中還有一個信度，即測驗信度。目前，比較好的估計兩水平研究中單維測驗信度的方法，是基于兩水平驗證性因子分析推導出來的信度系數(shù)。λj和λ與測驗信度不同，主要體現(xiàn)在四個方面。（1）本質不同。信度λj和λ指的是參數(shù)統(tǒng)計估計的精確性，λj和λ是兩個統(tǒng)計值。測驗的信度則用來衡量測驗的穩(wěn)定性和一致性程度，測驗信度值越小，表示測量誤差越大，測驗質量不高。（2）基于的模型不同。λj和 λ是基于多層線性模型（multilevel linear model），而測驗信度是基于兩水平驗證性因子模型。（3）信度數(shù)目不同。在兩水平研究中，λj數(shù)目對應著第二水平的組個數(shù)，第二水平有多少個組，就有多少個λj，整個兩水平研究只有一個λ，λj與λ的個數(shù)與研究中所用的測驗數(shù)目無關。測驗信度則與測驗相對應，兩水平研究中有多少個測驗就有多少個測驗信度。（4）信度值變化。在兩水平研究中，如果多層線性模型的變量發(fā)生變化（增加或減少變量），λj和λ的值可能變化。測驗信度則與研究中是否加入其他測驗無關，即一個測驗信度獨立于另一個測驗信度。因此，我們不能混淆λj，λ與測驗信度。研究者在進行兩水平研究時，可同時估計λj，λ和測驗信度，從而獲取更多關于研究可靠性方面的信息。

［1］楊英，龍立榮，周麗芳.授權風險考量與授權行為：領導－成員交換和集權度的作用［J］.心理學報，2010（42）：875～885.

［2］Bonett，D.G.Varying coefficient meta-analytic methodsforalphareliability［J］.Psychological Methods，2010（15）：368～385.

［3］Woods，C.M.Confidence intervals for gamma-family of ordinal association［J］.Psychological Methods，2007（12）：185～204.

［4］［13］葉寶娟，溫忠麟.單維測驗合成信度三種區(qū)間估計的比較［J］.心理學報，2011（43）：453～461.

［5］Zou，G.Y.Towards using confidence intervals to compare correlations［J］.Psychological Methods，2007（12）：399～413.

［6］Heck，R.H.，&Thomas，S.L.An introduction to multilevel modeling techniques［M］.New York：Routledge，2009.

［7］［14］Raykov，T.，&Penev，S.Evaluationofreliability coefficientsfortwo-levelmodelsvialatentvariableanalysis［J］.StructuralEquationModeling，2010（17）：629～641.

［8］張雷，雷靂，郭伯良.多層線性模型應用［M］.北京：教育科學出版社，2003.

［9］Raudenbush，S.W.，&Bryk，A.S.Hierarchicallinear models.Applications and data analysis methods（2nd ed.）［M］.ThousandOaks，CA：Sage，2002.

［10］Laenen，A.，Alonso，A.，Molenberghs，G.，&Vangeneugden，T.A family of measures to evaluate scale reliability in a longitudinal setting［J］.Journal of the Royal StatisticalSociety，2009（172）：237～253.

［11］Laenen，A.，Alonso，A.，Molenberghs，G.，&Vangeneugden，T.Reliability of a longitudinal sequence of scaleratings［J］.Psychometrika，2009（74）：49～64.

［12］Raykov，T.，&Penev，S.Estimation of maximal reliability for multiple-component instruments in multilevel designs［J］.British Journal of Mathematical and Statistical Psychology，2009（62）：129～142.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

用De l t a法求兩水平研究中信度的置信區(qū)間

一、問題提出

二、λj和λ的含義及其基于的模型

三、估計λj和λ置信區(qū)間