• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      新世紀20年國內(nèi)測驗信度研究*

      2022-08-09 11:04:34溫忠麟陳虹熹葉寶娟蔡保貞
      心理科學進展 2022年8期
      關(guān)鍵詞:同質(zhì)性測驗信度

      溫忠麟 陳虹熹 方 杰 葉寶娟 蔡保貞

      新世紀20年國內(nèi)測驗信度研究*

      溫忠麟1陳虹熹1方 杰2葉寶娟3蔡保貞1

      (1華南師范大學心理學院/心理應用研究中心, 廣州 510631) (2廣東財經(jīng)大學新發(fā)展研究院/應用心理學系, 廣州 510320) (3江西師范大學心理學院/心理健康教育研究中心, 南昌 330022)

      隨著驗證性因子分析模型的應用, 信度研究進入了嶄新的發(fā)展階段。新世紀前20年國內(nèi)有關(guān)測驗信度的研究有三條發(fā)展主線。一是基于驗證性因子模型的信度發(fā)展, 包括同質(zhì)性系數(shù)、合成信度、最大信度等; 二是數(shù)據(jù)類型的拓展, 包括兩水平和追蹤數(shù)據(jù)的信度; 三是信度用途的拓展, 如評分者信度、編碼者信度等。對于通常的測驗(題目之間的測量誤差不相關(guān)), 如果α系數(shù)夠高, 信度就夠高; 否則使用合成信度。如果一個統(tǒng)計模型中所有變量的合成信度都很高(超過0.95), 使用顯變量建模與使用潛變量建模的結(jié)果差別不大; 否則, 使用潛變量建模較好。

      信度, α系數(shù), 同質(zhì)性系數(shù), 合成信度, 區(qū)間估計

      在心理、教育、管理等領(lǐng)域, 研究者廣泛使用問卷測驗進行實證研究, 測驗信度(reliability)是測驗結(jié)果的穩(wěn)定性(stability)或一致性(consistency)程度, 是衡量測驗質(zhì)量的一個重要指標。信度反映了測驗的可靠性和精確性, 即使一個完美的研究設(shè)計也無法彌補不可靠和不精確測量所帶來的缺陷, 所以, 評價測驗信度是進行數(shù)據(jù)分析的必要前提和重要步驟(葉寶娟等, 2012)。

      信度的定義以經(jīng)典測驗理論的真分數(shù)模型=+為基礎(chǔ), 其中為觀測分數(shù),為真分數(shù),為測量誤差。對于被試總體, 假設(shè)、、滿足:誤差的均值為0, 誤差與真分數(shù)零相關(guān), 各題目誤差之間零相關(guān)。測驗信度ρ定義為真分數(shù)的方差與觀測分數(shù)的方差之比:ρ= S22(Lord & Novick, 1968; 孟慶茂, 劉紅云, 2002)。在有了樣本數(shù)據(jù)后, 可以得到觀測分數(shù)的方差, 但在經(jīng)典測驗理論中, 真分數(shù)的方差卻無法估計, 因而研究者只好用一些替代的方法去評估信度, 這就有了人們熟知的重測信度、復本信度、分半信度、α系數(shù)(coefficient alpha)等。

      直至上世紀末, 國內(nèi)信度研究的成果主要是針對α系數(shù)的不足提出了改進的信度估計的β和γ系數(shù)(陳希鎮(zhèn), 1991; 謝小慶, 1998), 但這些工作都和α系數(shù)一樣沒有從信度的定義出發(fā), 因此提出的信度估計方法都只是某種程度上比α系數(shù)有改進, 但難有根本的突破。隨著驗證性因子分析(confirmatory factor analysis, CFA)的引入, 新世紀伊始, 國內(nèi)信度研究進入了嶄新的發(fā)展階段。

      新世紀前20年, 測驗信度是僅次于結(jié)構(gòu)方程模型的心理統(tǒng)計方法研究熱點(溫忠麟等, 2021)。國內(nèi)學者對信度的研究主要集中于尋找更加合適的信度指標, 以及如何在不同的情況下更加精確地估計信度。以中國知網(wǎng)(https://www.cnki.net/)全文數(shù)據(jù)庫為數(shù)據(jù)源, 出版年限設(shè)為2001~2020年, 關(guān)鍵詞包括:信度、測驗信度、重測信度、復本信度、分半信度、α系數(shù)、同質(zhì)性系數(shù)、內(nèi)部一致性系數(shù)、合成信度、最大信度、評分者信度、編碼者信度、信度概化, 經(jīng)篩查得到有關(guān)信度的方法學研究論文51篇(見表1)。從發(fā)表刊物看, 大多數(shù)文章都發(fā)表在心理學期刊上(33篇), 這可能與心理學研究常需要使用問卷并報告問卷的信度有關(guān), 其中《心理科學》17篇, 《心理學探新》6篇, 《心理學報》4篇, 《中國臨床心理學雜志》3篇, 《心理科學進展》、《心理發(fā)展與教育》與《應用心理學》各1篇。此外, 《教育測量與評價(理論版)》3篇, 《中國衛(wèi)生統(tǒng)計》3篇, 《統(tǒng)計與信息論壇》2篇, 其余10篇。從研究內(nèi)容來看, 研究最多的是α系數(shù); 其次是合成信度(composite reliability)和同質(zhì)性系數(shù)(homogeneity coefficient)。

      表1 2001~2020年國內(nèi)信度的方法學研究文獻一覽

      注:表中文獻按發(fā)表時間先后排序

      國內(nèi)測驗信度的研究有三條發(fā)展主線, 第一條主線是基于驗證性因子模型的測驗信度的發(fā)展, 從圍繞α系數(shù)的研究發(fā)展到基于驗證性因子模型的信度研究, 包括同質(zhì)性系數(shù)、合成信度、最大信度(maximum reliability)、單指標信度和整個題目集分數(shù)的信度; 第二條主線是數(shù)據(jù)類型的拓展, 從單水平數(shù)據(jù)的測驗信度發(fā)展到多水平數(shù)據(jù)和追蹤數(shù)據(jù)(追蹤數(shù)據(jù)也可看成是多水平數(shù)據(jù))的測驗信度; 第三條主線是信度用途的拓展, 從測驗本身的信度發(fā)展到其他用途的信度, 如評分者信度、編碼者信度、認知診斷屬性分類一致性信度和差異分數(shù)的信度等。以下將按照這三條主線逐一評述國內(nèi)新世紀前20年的信度研究。

      1 有關(guān)α系數(shù)的研究

      1.1 α系數(shù)的點估計和區(qū)間估計

      α系數(shù)是最常用的信度指標, 信度的發(fā)展大都以α系數(shù)為基礎(chǔ), α系數(shù)的計算公式為:

      其中為量表中的題數(shù), 根據(jù)樣本計算α系數(shù)時將方差改為樣本方差便可。α系數(shù)可以用SPSS軟件計算得出, 也可在SAS軟件中調(diào)用PROC CORR過程計算α系數(shù), 只要在選擇項加上參數(shù)α即可(馬文軍, 潘波, 2000), 也可用Mplus軟件編寫程序計算α系數(shù)(王孟成, 葉寶娟, 2014)。

      α系數(shù)是一個總體參數(shù), 在實證研究中通常用樣本的α系數(shù)來估計, 最好同時計算其置信區(qū)間, 以此得到在所研究的總體上重復取樣時α系數(shù)的精確性(Raykov & Shrout, 2002; Zinbarg et al., 2006)。尤其在樣本容量不大、α較小時, 非常有必要報告α系數(shù)的置信區(qū)間(Maydeu-Olivares et al., 2007)。葉寶娟和溫忠麟(2013a)介紹了10種計算α系數(shù)置信區(qū)間的方法, 并通過模擬研究比較了其中較好的7種方法(包括Fisher法、Bonett-02法、Bonett-10法、精確Koning-Franses法、漸近ID法、漸近Koning-Franses法和ADF法)。結(jié)果發(fā)現(xiàn)Bonett-10法和精確Koning-Franses法較好。這兩種方法都比較簡單, 只需要樣本的α值、測驗題數(shù)、被試人數(shù)及臨界值, 通過簡單的運算便可得到α系數(shù)的置信區(qū)間。

      1.2 α系數(shù)和信度的關(guān)系

      許多研究表明, α系數(shù)不能很好地估計測驗信度(陳炳為等, 2005; 劉拓, 戴曉陽, 2011; 李春會, 朱永忠, 2012)。劉紅云(2008)通過模擬研究表明, 在基本τ-等價(essentially τ equivalent)測驗的條件下(即任意兩個題目的真分數(shù)只相差一個常數(shù), Graham, 2006), α系數(shù)于測驗信度, 否則α系數(shù)容易低估測驗信度。有時候α系數(shù)甚至還會出現(xiàn)負值(席仲恩, 汪順玉, 2007)。溫忠麟和葉寶娟(2011)通過梳理文獻后指出, 如果(i)各題的誤差不相關(guān)(這個條件容易滿足); (ii)測驗是基本τ等價(這個條件很強, 通常的測驗難以滿足), α系數(shù)等于測驗信度; 如果滿足條件(i), 但不滿足條件(ii), α系數(shù)小于信度??傊? 如果各題的誤差不相關(guān), α系數(shù)是信度的下限(即有可能低估信度); 否則α系數(shù)有可能高估信度。多數(shù)情況下, 各題的誤差是不相關(guān)的, 若α系數(shù)高到可以接受, 那么測驗信度就可以接受, 所以α系數(shù)還可以繼續(xù)使用(溫忠麟, 葉寶娟, 2011)。

      1.3 對α系數(shù)的誤解和誤用

      傳統(tǒng)上將α系數(shù)稱為內(nèi)部一致性信度或者同質(zhì)性系數(shù), 但實際上α系數(shù)不能用來衡量測驗的內(nèi)部一致性, 也不能用來衡量測驗的同質(zhì)性(溫忠麟, 葉寶娟, 2011), 因為題目數(shù)量的增加會導致α系數(shù)的增加, 哪怕是多維度的測驗, 只要題目夠多, α系數(shù)就會高(孟慶茂, 劉紅云, 2002)。已有研究發(fā)現(xiàn)α系數(shù)高不代表測驗是同質(zhì)的(劉紅云, 2008)。為了避免研究者為提高α系數(shù)而增加多余條目的行為, 有人認為α系數(shù)不宜超過0.9 (安勝利, 陳平雁, 2001; 孟慶茂, 劉紅云, 2002)。后面我們會看到, 合成信度可以用來衡量測驗的內(nèi)部一致性, 同質(zhì)性則要使用同質(zhì)性系數(shù)來衡量(見第2節(jié))。

      在應用α系數(shù)的過程中容易忽視正態(tài)分布這一使用前提。因為α系數(shù)以經(jīng)典測量理論的真分數(shù)模型為基礎(chǔ), 但經(jīng)典測量理論是以正態(tài)分布為前提的。焦璨等(2008)通過模擬研究表明, 當測驗數(shù)據(jù)為非正態(tài)時, 偏度越大, α系數(shù)越小。焦璨等建議, 先將非正態(tài)數(shù)據(jù)進行聚類, 假設(shè)聚為3個組, 則分別求3個組的α系數(shù), 用多個α系數(shù)來描述測驗可靠性。關(guān)守義(2009)進一步指出, α系數(shù)在實際應用中除了需要滿足正態(tài)分布的前提, 還需要確保每個個體方差相同、每次觀測均相互獨立, 并且各測量題目需要具有相同的心理刻度。

      2 基于驗證性因子模型的測驗信度

      隨著驗證性因子模型(包括雙因子模型)的引入, 信度研究得到了迅猛發(fā)展, 其中研究最多且成果最豐富的當屬同質(zhì)性系數(shù)和合成信度。

      2.1 同質(zhì)性系數(shù)

      同質(zhì)性是指所有題目都測量了相同的特質(zhì)(Revelle & Zinbarg, 2009; 劉紅云, 2008), 如果所有題目之間的相關(guān)都高, 則同質(zhì)性高。無論單維還是多維測驗, 都可以考慮測驗同質(zhì)性。

      2.1.1 單維測驗的同質(zhì)性系數(shù)

      其實新世紀前后國內(nèi)已經(jīng)有學者發(fā)現(xiàn)α系數(shù)不能很好地衡量同質(zhì)性, 提出了一些新的同質(zhì)性指標。陳希鎮(zhèn)(1991)提出了β系數(shù), 謝小慶(1998)提出了γ系數(shù), 丁樹良和周新蓮(2002)提出ξ系數(shù)。這些系數(shù)都只是某種程度上比α系數(shù)有改進, 但也和α系數(shù)一樣, 沒有從信度的定義出發(fā), 所以沒有根本上的突破。

      基于驗證性因子模型, Raykov (2001)提出用ρ系數(shù)作為單維測驗(也稱為同屬測驗)的同質(zhì)性系數(shù), 這是方法上的突破。在建立單因子模型后, 整份測驗的總分 = (題目的因子負荷之和) × 因子+ (題目誤差之和), 加號前面的為真分數(shù)部分, 加號后面的為誤差部分。這樣, 總分的方差就可以分解為真分數(shù)方差和誤差方差。將信度的定義應用于總分, 就得到ρ系數(shù), 它等于測驗總分的方差中, 真分數(shù)方差所占的比例(Raykov, 2001;陳希鎮(zhèn), 李學娟, 2011)。ρ系數(shù)可以用任意一款結(jié)構(gòu)方程軟件計算得到。

      顧海根和李超(2005)采用概化理論的研究方法, 對ρ系數(shù)、α系數(shù)、β系數(shù)、γ系數(shù)、ξ系數(shù)進行了比較研究。結(jié)果發(fā)現(xiàn), ρ系數(shù)最優(yōu), 表現(xiàn)在ρ系數(shù)最接近信度的真值, α系數(shù)最劣, βγξ系數(shù)基本處于一個水平, 介于ρ和α系數(shù)之間。因此, 應當將ρ系數(shù)作為單維測驗的同質(zhì)性系數(shù)指標。

      2.1.2 多維測驗的同質(zhì)性系數(shù)

      對于多維測驗, 在決定將多個維度的測驗分數(shù)合成測驗總分時, 應當考慮測驗同質(zhì)性的高低。如果測驗同質(zhì)性高(例如大于0.5), 合成總分是有意義的(溫忠麟等, 2018); 如果同質(zhì)性太低, 合成總分沒有什么意義, 以合成總分為基礎(chǔ)進行的統(tǒng)計分析也就沒有什么意義, 這時應當以維度為變量進行統(tǒng)計分析。

      估計同質(zhì)性系數(shù)可以使用雙因子模型(bi- factor model, 詳見:顧紅磊等, 2014)。在雙因子模型中, 測驗總分的方差就可以分解為三部分:全局因子分數(shù)的方差、局部因子分數(shù)的方差和誤差方差。測驗的同質(zhì)性系數(shù)定義為:測驗總分的方差中, 全局因子分數(shù)方差所占的比例, 有些文獻將其記為ω(Revelle & Zinbarg, 2009; 溫忠麟, 葉寶娟, 2011)。

      葉寶娟和溫忠麟(2012b)用Delta法推導出計算同質(zhì)性系數(shù)的標準誤公式, 進而計算其置信區(qū)間。他們通過模擬比較了用Delta法和Bootstrap法計算的置信區(qū)間, 發(fā)現(xiàn)兩者差異很小。他們還提供了簡單的計算多維測驗的同質(zhì)性系數(shù)及其置信區(qū)間的LISREL和Mplus程序。

      與同質(zhì)性密切相關(guān)的一個概念是單維性。在雙因子模型中, 將全部題目的全局因子分數(shù)的方差相加是全局因子解釋的方差, 將全部題目的局部因子分數(shù)的方差相加后再加上全局因子解釋的方差就是公共方差。全局因子對公共方差的解釋比例(explained common variance, ECV) = (各題的全局因子分數(shù)的方差之和) / (各題的全局因子分數(shù)的方差之和 + 各題的局部因子分數(shù)的方差之和)。ECV通常作為單維性指標(Bentler, 2009), 用來判斷多維測驗的單維傾向性的程度。如果ECV超過0.7, 可以認為測驗是單維的(顧紅磊, 溫忠麟, 2017; Reise, 2012)。ECV指標可用Mplus軟件進行計算(王孟成, 葉寶娟, 2014; 顧紅磊, 溫忠麟, 2017)。

      綜上可知, 同質(zhì)性系數(shù)和單維性指標ECV是兩個同源指標, 都源于雙因子模型將每個題目分解為三個部分, 如果從整份測驗的總分入手進行分析, 則可得同質(zhì)性系數(shù); 如果從題目的方差入手進行分析, 則可得ECV。隨著全局因子的方差的變大, 同質(zhì)性系數(shù)和ECV都會變高。兩者的區(qū)別也明顯, 因為ECV沒有涉及誤差方差, 單維測驗的同質(zhì)性不一定高(因為可能誤差方差大)。但同質(zhì)性系數(shù)越高, ECV也越高。

      2.1.3 題目表述效應對同質(zhì)性系數(shù)的影響

      題目表述效應是指由題目表述方式的差異(如正向題和反向題)引起的與測量內(nèi)容無關(guān)的系統(tǒng)變異。題目表述效應模型本質(zhì)上是一種雙因子模型, 包括全局因子(所測特質(zhì), 影響全部題目)、局部因子(如正向題目效應因子1, 反向題目效應因子2)和測量誤差。評價這類測驗的同質(zhì)性系數(shù)可以了解, 在排除了題目表述效應和測驗誤差引起的變異之后, 所測特質(zhì)的變異占總變異的比例, 進而評價合成總分是否有意義。顧紅磊和溫忠麟(2014)發(fā)現(xiàn)忽視題目表述效應會高估測驗的同質(zhì)性系數(shù)。韋嘉等(2017)發(fā)現(xiàn)忽視題目表述效應, 還會高估測驗的α系數(shù)和合成信度。

      2.2 合成信度

      2.2.1 合成信度的點估計和區(qū)間估計

      合成信度是量表的合成分數(shù)(均值或者總分)的信度。對于單維測驗, 合成信度與同質(zhì)性系數(shù)相同(溫忠麟, 葉寶娟, 2011), 即測驗總分的方差中真分數(shù)方差所占的比例。單維測驗的合成信度可用SPSS軟件(楊強等, 2014b)、LISREL和Mplus軟件(溫忠麟, 葉寶娟, 2011)計算得到。

      對于多維測驗, 使用雙因子模型將總分的方差分解為三部分:全局因子分數(shù)的方差、局部因子分數(shù)的方差和誤差方差。測驗的合成信度定義為:測驗總分方差中, 全局因子和所有局部因子分數(shù)方差所占的比例, 有些文獻將其記為ω(Revelle & Zinbarg, 2009; 溫忠麟, 葉寶娟, 2011)。總分的方差中, 如果將誤差方差之外的都理解為真分數(shù)的方差, 按信度定義計算得到的就是合成信度。多維測驗的合成信度可用LISREL (徐萬里, 2008; 屠金路等, 2010)和Mplus (王孟成, 葉寶娟, 2014)等結(jié)構(gòu)方程軟件計算得到。

      值得注意的是, 合成信度在計算測驗總分的時候, 通常直接將題目得分相加求和, 即將測驗所有的題目賦予了同樣的權(quán)重(權(quán)重為1)。也有研究者利用驗證性因子分析的結(jié)果, 選擇一組權(quán)重(每個題目的權(quán)重=該題目的因子負荷/該題目的誤差方差), 將題目得分乘以該題的權(quán)重, 再求和合成一個總分, 此時求得的合成信度達到最大值, 稱為最大信度(Fu et al., 2018; 田雪垠等, 2019; 葉寶娟, 楊強, 2011)。最大信度即可用于通常的單維測驗(葉寶娟, 楊強, 2011)和多維測驗(Fu et al., 2018), 也可用于被試有層級結(jié)構(gòu)的測驗(即多水平測驗; 田雪垠等, 2019)。

      有三種方法可以估計合成信度的標準誤進而計算合成信度的置信區(qū)間:Bootstrap法(屠金路等, 2005)、Delta法、直接用結(jié)構(gòu)方程建模軟件輸出的標準誤。葉寶娟和溫忠麟(2011)比較了以上三種方法在計算單維測驗合成信度的置信區(qū)間中的表現(xiàn), 推薦用Mplus軟件估計Delta法的單維測驗合成信度的置信區(qū)間。后續(xù)的一系列研究都表明, 無論單維還是多維, 是否偏態(tài)分布, 測驗誤差是否相關(guān), 都推薦使用Delta法估計合成信度的置信區(qū)間(楊強等, 2014a; 葉寶娟, 2012; 葉寶娟, 溫忠麟, 2012a; 葉寶娟, 楊強, 2014, 2015)。

      2.2.2 合成信度與內(nèi)部一致性、同質(zhì)性的關(guān)系

      內(nèi)部一致性可以定義為題目之間的相關(guān)性(Revelle & Zinbarg, 2009), 如果同一維度內(nèi)部的題目之間相關(guān)高, 則內(nèi)部一致性高。對于多維量表, 內(nèi)部一致性應當理解為同一維度內(nèi)部的題目之間的相關(guān)性, 而不是全部題目之間的相關(guān)性。這樣, 合成信度可以理解為內(nèi)部一致性信度 (Bentler, 2009; 溫忠麟, 葉寶娟, 2011)。同質(zhì)性高的測驗, 內(nèi)部一致性也高, 但反過來不一定成立(張力為, 2002)。

      可以證明同質(zhì)性系數(shù)不超過合成信度(因為合成信度的分子中包含局部因子方差), 當且僅當局部因子不存在時(即單維), 兩者相等(溫忠麟, 葉寶娟, 2011)。不論誤差是否相關(guān), 合成信度都不超過測驗信度(溫忠麟, 葉寶娟, 2011), 即同質(zhì)性系數(shù)≤合成信度≤測驗信度。因此, 用合成信度來估計測驗信度更為準確。溫忠麟和葉寶娟(2011)總結(jié)出一個測驗信度分析流程(見圖1), 可以對量表合成分數(shù)的信度做出評價。

      圖1 測驗信度分析流程(溫忠麟, 葉寶娟, 2011)

      2.2.3 合成信度的實際意義

      研究變量之間關(guān)系既有基于顯變量(合成分數(shù))的分析(可以使用回歸模型), 也有基于潛變量(帶有指標)的分析(可以使用結(jié)構(gòu)方程模型)。什么時候使用顯變量分析已經(jīng)足夠, 什么時候需要潛變量分析才好, 判斷的主要依據(jù)就是量表的合成信度。兩個顯變量之間的相關(guān)系數(shù), 等于兩個相應的潛變量之間的相關(guān)系數(shù)乘以兩個合成信度的幾何平均(侯杰泰等, 2004)。如果兩個合成信度都超過0.95 (題目較多的許多量表都滿足), 使用顯變量分析與使用潛變量分析的結(jié)果差別不大, 否則, 使用潛變量分析較好。對于回歸系數(shù), 關(guān)鍵是自變量的合成信度(因為因變量通過殘差考慮了測驗誤差)。使用顯變量得到的回歸系數(shù), 等于使用潛變量得到的回歸系數(shù)乘以自變量的合成信度。如果自變量的合成信度超過0.95, 使用顯變量分析與使用潛變量分析的結(jié)果差別不大, 否則, 使用潛變量分析較好。

      2.3 其他測驗信度

      2.3.1 單指標信度

      根據(jù)真分數(shù)模型, 測驗中的單個題目是無法按信度的定義計算其信度的。但基于驗證性因子分析, 真分數(shù)的方差也是可以估計的, 因而可以估計單個題目的信度, 即單指標信度。單指標信度反映單一題目得分受潛變量影響的程度, 其值越高, 表示真分數(shù)所占的比重越大(方敏, 2009)。王孟成和葉寶娟(2014)給出了計算單指標信度的Mplus程序。對于完全標準化估計, 題目負荷的平方就是單指標信度。

      2.3.2 整個題目集分數(shù)的信度

      用合成信度和最大信度衡量測驗的信度是有前提的, 即測驗的各個題目可以相加得一總分。而在實際應用中, 有些測驗的各個題目相加得一總分并沒有多大意義, 雖然此時仍可計算合成信度及最大信度, 但沒有意義。Alonso等(2010)用驗證性因子分析推導出了兩個新的信度系數(shù)R和Λ。R信度系數(shù)是用觀測分數(shù)與誤差分數(shù)的方差-協(xié)方差矩陣的跡, 來概括觀測分數(shù)與誤差分數(shù)的變異得到的; 而Λ是用觀測分數(shù)與誤差分數(shù)方差?協(xié)方差矩陣的行列式, 來概括觀測分數(shù)與誤差分數(shù)的變異得到的。

      葉寶娟和楊強(2011)比較了合成信度、最大信度、R和Λ, 并討論了這4種信度系數(shù)估計方法的差異:(1)信度計算時對每個題目分數(shù)的處理方法不一樣。合成信度及最大信度是將各題目分數(shù)單位加權(quán)或不等加權(quán)合成總分, 計算的是測驗總分的信度, 而R和Λ系數(shù)計算的是整個測驗題目集分數(shù)的信度。(2)測驗長度對信度的影響不一樣。隨著題目的增多, 合成信度不一定變大, 如果加入質(zhì)量不好的題目(如題目的因子負荷小), 合成信度和R都可能降低; 而最大信度和Λ會隨著題目的增多而增大。(3)信度系數(shù)的數(shù)值大小不同。最大信度=Λ≥合成信度≥R。

      3 特殊數(shù)據(jù)類型的測驗信度

      前面介紹的信度用于常規(guī)的測驗數(shù)據(jù)。對于有層級結(jié)構(gòu)的數(shù)據(jù)(多水平數(shù)據(jù))、追蹤研究的重復測量數(shù)據(jù)(縱向數(shù)據(jù)), 需要有相應的方法得到更準確的信度估計。

      3.1 兩水平研究的信度

      在心理、教育、管理等研究領(lǐng)域中, 經(jīng)常會遇到兩水平的數(shù)據(jù)結(jié)構(gòu), 如學生嵌套于班級中, 員工嵌套于企業(yè)中, 這樣的兩層數(shù)據(jù)結(jié)構(gòu)能夠更準確地研究變量之間的關(guān)系。葉寶娟和溫忠麟(2013b)用兩水平驗證性因子分析模型推導出兩水平研究中單維測驗的信度公式, 無論組間因子負荷是自由還是固定都適用。組間因子負荷自由估計的兩水平研究中, 單維測驗信度的點估計可用Mplus軟件得到(葉寶娟, 溫忠麟, 2013b)。但如何得到單維測驗信度的區(qū)間估計還亟待解決。

      田雪垠等(2019)以兩層數(shù)據(jù)為例討論多水平研究的信度估計。將觀察分數(shù)分解為層1真分數(shù)和層2真分數(shù)、層1誤差和層2誤差四個部分。然后分別估計層1信度和層2信度, 包括層1和層2的α系數(shù)、合成信度和最大信度。例如, 將α系數(shù)公式分別應用于層1的方差和層2的方差, 得到層1的α系數(shù)和層2的α系數(shù)。他們使用Mplus軟件展示了如何利用兩水平驗證性因子分析計算兩水平多維測驗的信度。但如何得到多維測驗信度的區(qū)間估計還亟待解決。另外, 劉霖芯等(2018)將單層數(shù)據(jù)(個被試完成個題目)看成是題目嵌套于被試的兩層數(shù)據(jù)(題目為層1, 被試為層2), 利用兩水平模型計算α系數(shù)。

      3.2 追蹤研究的信度

      有研究者用體現(xiàn)追蹤數(shù)據(jù)特點的數(shù)學模型提出相應的信度估計, 包括基于單純形模型的ρ, 基于概化單純形模型的ρ(S), 但ρ和ρ(S)都只估計了單個時間點測驗的信度, 而沒有給出整個追蹤研究測驗的信度。還有研究者基于線性混合模型, 利用前面介紹的計算R和Λ的思想定義了追蹤數(shù)據(jù)中的R和Λ,R和Λ既可估計追蹤研究中單個時間點的測驗信度, 也可估計整個追蹤研究的測驗信度, 推薦同時使用R和Λ來估計追蹤研究的測驗信度(葉寶娟等, 2012)。但是在非線性條件以及非平衡設(shè)計等條件下, 它們的適用性還有待進一步的研究。實際上, 追蹤數(shù)據(jù)還可看成重復測量的時間點嵌套于被試的兩水平嵌套數(shù)據(jù), 用兩水平信度測量方法進行信度估計。關(guān)于R和Λ與兩水平信度系數(shù)在追蹤數(shù)據(jù)的信度計算中的表現(xiàn)孰優(yōu)孰劣, 有待進一步研究。

      4 其他用途的測驗信度

      除了用來評價測驗(如問卷和試題)結(jié)果的一致性外, 信度還可以有其他用途, 例如評價不同評分者對被試作答的評分的一致性(評分者信度)、評價不同編碼者對相同文本獨立編碼的一致性(編碼者信度)、評價認知診斷屬性分類的一致性(認知診斷屬性分類一致性信度)、評價培訓或者練習效果的一致性(差異分數(shù)的信度)等。

      4.1 評分者信度

      評分者信度的計算方法有相關(guān)法(孫曉敏, 張厚粲, 2005; 何佳等, 2007; 蔣小花等, 2010), 百分比法(孫曉敏, 張厚粲, 2005)和基于概化理論的方法(嚴芳, 李偉明, 2002; 李斌等, 2011)。相比相關(guān)法和百分比法, 概化理論對評分者一致性的估計更為靈活(所需前提假設(shè)更少, 適用面更廣)和主動(不僅可以得到概化系數(shù), 還可以根據(jù)所得到的方差分量估計值算出為達到一定的概化系數(shù), 選擇多少評分者是合適的), 孫曉敏和張厚粲(2005)推薦用概化理論估計表現(xiàn)性評價中的評分者信度。

      4.2 編碼者信度

      檢驗編碼者信度的方法有歸類一致性指數(shù)、編碼信度系數(shù)、相關(guān)系數(shù)、中位數(shù)檢驗、概化系數(shù)(徐建平, 張厚粲, 2005)。其中, 歸類一致性指數(shù)是指對編碼歸類相同數(shù)占歸類總數(shù)的百分比, 因此其穩(wěn)定性更多地受相同編碼數(shù)目的影響, 相同編碼數(shù)據(jù)越多, 歸類一致性指數(shù)越高; 概化系數(shù)則受編碼者和編碼題目數(shù)量的影響。具體地, 編碼者側(cè)面、以及與編碼者相關(guān)的交互效應變異分量越小, 編碼者一致性就越高。在編碼題目數(shù)量較小時, 概化系數(shù)的增幅較大(徐建平, 張厚粲, 2005)。

      4.3 認知診斷屬性分類一致性信度

      對于認知診斷的屬性分類一致性信度的點估計, 可用改進后的α系數(shù)法(汪文義等, 2018)、四分相關(guān)法(郭磊, 張金明, 2018)、一致性法(郭磊, 張金明, 2018; 汪文義等, 2018)、基于Bootstrap的積差相關(guān)法和修正的一致性法(郭磊, 張金明, 2018)進行估計。郭磊和張金明(2018)的模擬研究表明, 積差相關(guān)法表現(xiàn)最優(yōu)(平均偏差的絕對值更接近0和誤差均方根指標最小), 修正的一致性法和一致法居中, 四分相關(guān)法最差。

      對于認知診斷屬性分類一致性信度的區(qū)間估計, 汪文義等(2018)在一致法獲得屬性分類一致性的點估計的基礎(chǔ)上, 比較了三種估計信度置信區(qū)間的方法:Bootstrap法、平行測驗配對法和平行測驗法, 推薦使用Bootstrap法估計認知診斷屬性分類一致性信度的置信區(qū)間。汪文義等(2020)進一步發(fā)現(xiàn), 用Bootstrap法估計的屬性分類一致性信度平均數(shù)和標準誤在不同研究條件的模型選擇率較穩(wěn)定, 總體表現(xiàn)較好。

      4.4 差異分數(shù)的信度

      差異分數(shù)(也稱增長分數(shù))是指同一批被試兩次測試的得分之差, 用以判斷培訓或者練習的效果。關(guān)丹丹等(2005)給出了差異分數(shù)的信度點估計的計算公式, 差異分數(shù)的信度不超過兩次測試中信度相對較高的那次測試的信度。兩次測試的信度、標準差和相關(guān)都會影響差異分數(shù)的信度。

      5 討論與拓展

      新世紀20年來, 國內(nèi)學者努力探索如何更準確地估計測驗的信度, 既包括理論層面的探索(從經(jīng)典測驗理論→概化理論; 陳社育, 余嘉元, 2001), 也包括工具層面的探索(從無因子分析模型→驗證性因子分析模型→雙因子模型), 使得信度領(lǐng)域的方法學研究取得了長足的發(fā)展, 加深了我們對信度的認識。本文從有關(guān)α系數(shù)的研究開始, 系統(tǒng)回顧了這期間國內(nèi)有關(guān)信度的研究, 重心是基于驗證性因子分析模型的信度, 也包括兩水平和追蹤數(shù)據(jù)的信度、其他用途的測驗信度等。但也還有一些尚未介紹的發(fā)展情況需要補充一下。

      第一, 國內(nèi)信度研究在信度的元分析方面也有發(fā)展。信度的元分析有兩類研究。一類是利用變化系數(shù)模型對單維測驗的合成信度進行元分析, 并提出用Delta法估計合成信度元分析置信區(qū)間(葉寶娟等, 2013)。他們還以區(qū)間覆蓋率為衡量指標, 用模擬研究證明Delta法的合成信度元分析區(qū)間估計的方法是得當?shù)?。另一類是信度概?reliability generalization), 信度概化是概化理論的應用, 它是以某一特定的測驗工具(如問卷)在不同研究中的信度系數(shù)作為研究樣本, 對這些信度系數(shù)作再研究, 探究影響信度的變量, 即使信度系數(shù)發(fā)生變化的預測源, 并研究與信度系數(shù)有關(guān)的測量條件及因素的變異性(關(guān)丹丹, 張厚粲, 2004; 焦璨等, 2009)。

      第二, 已有一些學者嘗試在傳統(tǒng)心理測驗中引入計算機化自適應測驗技術(shù)(例如, 李宇斌等, 2020; 汪大勛, 涂冬波, 2021; 張龍飛等, 2020), 但目前還沒有合適的方法估計計算機化自適應測驗信度, 有待研究。

      為了更好地對信度的當下研究有所了解, 下面從三個方面介紹國外期刊信度研究的情況, 或許可以發(fā)現(xiàn)一些值得未來探索和拓展的方向。

      5.1 α系數(shù)該不該放棄?

      McNeish (2018)認為α系數(shù)過時了, 建議用合成信度、最大信度等替代α系數(shù)。Raykov和Marcoulides (2019)則認為, 在某些條件下, α系數(shù)還可以作為信度的估計值, 不用放棄。Sijtsma和Pfadt (2021)指出, 即使題目誤差相關(guān), α系數(shù)的屬性仍保持不變。國外學者現(xiàn)在還在爭論的這個問題, 國內(nèi)學者在10年前已經(jīng)說得相當清楚。溫忠麟和葉寶娟(2011)已明確指出, 對于大多數(shù)測驗來說, 假設(shè)誤差不相關(guān)是合理的, 如果α系數(shù)高到可以接受, 那么測驗信度就可以接受。因而對于大多數(shù)測驗來說, 計算并報告α系數(shù), 已經(jīng)足以支持測驗信度。所以, 多數(shù)情況下, α系數(shù)還可以繼續(xù)使用。

      5.2 有關(guān)合成信度的研究

      Edwards等(2021)比較了單維的合成信度、多維的合成信度、信度的最大下限和α系數(shù)的表現(xiàn), 結(jié)果發(fā)現(xiàn)合成信度和α系數(shù)比較準確地反映了總體信度, 且信度估計受樣本大小、基本τ-等價的違反程度、總體信度大小和題目數(shù)量的影響。合成信度受樣本大小和題目數(shù)量的影響更大, 特別是當總體信度低的時候, 而α系數(shù)對違反τ-等價性的程度比較敏感。

      Padilla和Divers (2016)比較了6種合成信度的置信區(qū)間獲得方法(不包括貝葉斯法), 結(jié)果發(fā)現(xiàn)bootstrap置信區(qū)間表現(xiàn)最優(yōu)。Kelley和Pornprasertmanit (2016)比較了4種信度系數(shù)的置信區(qū)間, 包括類別變量的合成信度, 建議使用bootstrap置信區(qū)間。Pfadt等(in press)提出在貝葉斯框架下, 利用Gibbs抽樣得到信度系數(shù)的后驗分布后, 估計信度系數(shù)的可信區(qū)間。模擬研究表明, 在無信息先驗條件下, 95%的貝葉斯可信區(qū)間與95%的bootstrap置信區(qū)間相當。

      如果因子模型有跨因子負荷卻被忽略, 結(jié)果會如何?Fu等(2022)用模擬研究比較了探索性結(jié)構(gòu)方程模型(麥玉嬌, 溫忠麟, 2013)和驗證性因子模型在求合成信度中的表現(xiàn)。結(jié)果表明, 基于探索性結(jié)構(gòu)方程模型和驗證性因子模型得到的合成信度相當接近, 說明忽略跨因子負荷對合成信度的估計影響不大。

      Lai等(2020)將合成信度拓展到多水平模型中, 定義了6種適用于多水平數(shù)據(jù)的合成信度指標, 并給出R和Mplus程序計算信度的置信區(qū)間。

      5.3 基于概化理論的信度研究

      Scherer和Teo (2020)指出信度概化存在三個不足:信度系數(shù)估計中存在不切實際的假設(shè)(例如, α系數(shù)的基本τ-等價假設(shè)); 忽略量表總分和分量表分數(shù)的信度系數(shù)的相關(guān)性; 不同類型的信度系數(shù)之間缺乏可比性。他們提出元分析結(jié)構(gòu)方程(meta-analytic structural equation modeling, MASEM)來解決這三個不足, 進行信度概化分析。ten Hove等(in press)將評分者信度拓展到多水平模型, 用概化理論考察多水平觀測數(shù)據(jù)的評分者信度, 用馬爾可夫鏈蒙特卡羅法來估計多水平觀測數(shù)據(jù)的方差。

      安勝利, 陳平雁. (2001). 量表的信度及其影響因素.(4), 315–318.

      陳炳為, 許碧云, 倪宗瓚, 楊惠芳. (2005). 證實性因子分析在量表信度中的應用研究.(4). 261–263.

      陳社育, 余嘉元. (2001). 經(jīng)典真分數(shù)理論與概化理論信度觀評析.(3), 258–263.

      陳希鎮(zhèn). (1991). 如何正確使用信度估計公式.(1), 41–49.

      陳希鎮(zhèn), 李學娟. (2011). 結(jié)構(gòu)方程模型下的信度估計.(1), 13–15.

      丁樹良, 周新蓮. (2002). 一種新的信度估計.(3), 222–224.

      方敏. (2009). 結(jié)構(gòu)方程模型下的信度檢驗.(5), 524–526.

      顧海根, 李超. (2005). 同質(zhì)信度多種指標的比較研究.(5), 1196–1198.

      顧紅磊, 溫忠麟. (2014). 項目表述效應對自陳量表信效度的影響——以核心自我評價量表為例.(5), 1245–1252.

      顧紅磊, 溫忠麟. (2017). 多維測驗分數(shù)的報告與解釋: 基于雙因子模型的視角.(4), 504–512.

      顧紅磊, 溫忠麟, 方杰. (2014). 雙因子模型: 多維構(gòu)念測量的新視角.,(4), 973–979.

      關(guān)丹丹, 張厚粲. (2004). 信度的再認識與信度概括化研究.(2), 445–448.

      關(guān)丹丹, 張厚粲, 李中權(quán). (2005). 差異分數(shù)的信度分析.(1), 161–163.

      關(guān)守義. (2009). 克龍巴赫α系數(shù)研究述評.(3), 685–687.

      郭磊, 張金明. (2018). 使用Bootstrap方法計算認知診斷評估中的信度.(5), 433–439.

      何佳, 何懼, 席雁, 徐超. (2007). 評分者信度的分析方法簡介及比較.(6), 76–77.

      侯杰泰, 溫忠麟, 成子娟. (2004).北京:教育科學出版社.

      蔣小花, 沈卓之, 張楠楠, 廖洪秀, 徐海燕. (2010). 問卷的信度和效度分析.(3), 429–431.

      焦璨, 吳利, 張敏強, 張文怡. (2009). 信度概化研究的新進展評析.(2), 54–59.

      焦璨, 張敏強, 黃慶均, 張文怡, 黎光明. (2008). 非正態(tài)分布測量數(shù)據(jù)對克隆巴赫信度α系數(shù)的影響.(3), 276–281.

      李斌, 辛濤, 張淑梅, 孫佳楠. (2011). 多評分者多任務情境下評分者信度的模型擬合研究.(6), 107–110.

      李春會, 朱永忠. (2012). 基于信度系數(shù)與α系數(shù)分析結(jié)構(gòu)方程模型.,(3), 250–252.

      李宇斌, 蔡艷, 涂冬波. (2020). 手機依賴的計算機化自適應測量及其效果評估.(3), 748–755.

      劉紅云. (2008). α系數(shù)與測驗的同質(zhì)性.(1), 185–188.

      劉霖芯, 張韜, 楊珉. (2018). 利用多水平模型計算及校正Cronbach alpha系數(shù).(6), 838–842.

      劉拓, 戴曉陽. (2011). 不擬合被試對測驗信、效度的影響.(6), 743–745.

      馬文軍, 潘波. (2000). 問卷的信度和效度以及如何用SAS軟件分析.(6), 364–365.

      麥玉嬌, 溫忠麟. (2013). 探索性結(jié)構(gòu)方程建模(ESEM): EFA和CFA的整合.(5), 934–939.

      孟慶茂, 劉紅云. (2002). α系數(shù)在使用中存在的問題.(3), 42–47.

      孫曉敏, 張厚粲. (2005). 表現(xiàn)性評價中評分者信度估計方法的比較研究——從相關(guān)法、百分比法到概化理論.(3), 646–649.

      田雪垠, 鄭蟬金, 郭少陽, 賀冠瑞. (2019). 基于多層驗證性因素分析的各種信度系數(shù)方法.(5), 461–467.

      屠金路, 金瑜, 王庭照. (2005). bootstrap法在合成分數(shù)信度區(qū)間估計中的應用.(5), 1199–1200.

      屠金路, 王庭照, 金瑜. (2010). 結(jié)構(gòu)方程模型下多因子非同質(zhì)測量合成分數(shù)的信度估計.(3), 666–669.

      汪大勛, 涂冬波. (2021). 認知診斷計算機化自適應測量技術(shù)在心理障礙診斷與評估中的應用.(2), 111–117.

      王孟成, 葉寶娟. (2014). 通過Mplus計算幾種常用的測驗信度.(1), 48–52.

      汪文義, 方小婷, 葉寶娟. (2018). 認知診斷屬性分類一致性信度區(qū)間估計三種方法.(6), 1492–1499.

      汪文義, 朱黎君, 葉寶娟, 方小婷. (2020). Bootstrap區(qū)間估計在認知診斷模型誤設(shè)中的應用.(6), 1498–1505.

      韋嘉, 郭磊, 張進輔. (2017). 表述效應對平衡量表內(nèi)部一致性信度的影響.(8), 133–139.

      溫忠麟, 方杰, 沈嘉琦, 譚倚天, 李定欣, 馬益銘. (2021). 新世紀20年國內(nèi)心理統(tǒng)計方法研究回顧.(8). 1331–1344.

      溫忠麟, 黃彬彬, 湯丹丹. (2018). 問卷數(shù)據(jù)建模前傳.(1), 204–210.

      溫忠麟, 葉寶娟. (2011). 測驗信度估計: 從α系數(shù)到內(nèi)部一致性信度.(7), 821–829.

      吳瑞林, 袁克海. (2012). 基于結(jié)構(gòu)方程模型的合成信度及其使用問題研究.(12), 14–20.

      席仲恩, 汪順玉. (2007). 論負克倫巴赫alpha系數(shù)和分半信度系數(shù).(6), 785–787.

      謝小慶. (1998). 信度估計的γ系數(shù).(2), 193–196.

      徐建平, 張厚粲. (2005). 質(zhì)性研究中編碼者信度的多種方法考察.(6), 152–154.

      徐萬里. (2008). 結(jié)構(gòu)方程模式在信度檢驗中的應用.(7), 9–13.

      嚴芳, 李偉明. (2002). 用結(jié)構(gòu)方程建模(SEM)估計概化理論(GT)中的評分者信度.(5), 534–539.

      楊強, 葉寶娟, 溫忠麟. (2014a). 兩種估計多維測驗合成信度置信區(qū)間方法比較.(1), 43–47.

      楊強, 葉寶娟, 溫忠麟. (2014b). 用SPSS軟件計算單維測驗的合成信度.(3), 496–498.

      葉寶娟. (2012). 偏態(tài)分布下單維測驗合成信度三種區(qū)間估計的比較.(10), 28–32.

      葉寶娟, 溫忠麟. (2011). 單維測驗合成信度三種區(qū)間估計的比較.(4), 453–461.

      葉寶娟, 溫忠麟. (2012a). 用 Delta 法估計多維測驗合成信度的置信區(qū)間.(5), 1213–1217.

      葉寶娟, 溫忠麟. (2012b). 測驗同質(zhì)性系數(shù)及其區(qū)間估計.(12), 1687–1694.

      葉寶娟, 溫忠麟. (2013a). α系數(shù)的區(qū)間估計方法比較.(1), 215–222.

      葉寶娟, 溫忠麟. (2013b). 兩水平研究中單維測驗信度的估計.(3), 728–733.

      葉寶娟, 溫忠麟, 陳啟山. (2012). 追蹤研究中測驗信度的估計.(3), 467–474.

      葉寶娟, 溫忠麟, 胡竹菁. (2013). 單維測驗合成信度元分析.(6), 1464–1469.

      葉寶娟, 楊強. (2011). 用驗證性因子分析估計單維測驗的信度.(11), 8–12.

      葉寶娟, 楊強. (2014). 偏態(tài)分布下多維測驗合成信度區(qū)間估計的比較.,(11), 8–11.

      葉寶娟, 楊強. (2015). 用Delta法估計誤差相關(guān)測驗合成信度的置信區(qū)間: 以FAD為例.(3), 251–256.

      張力為. (2002). 信度的正用與誤用.(3), 348–350.

      張龍飛, 劉凱, 宋鴿, 涂冬波. (2020). 計算機化自適應測驗技術(shù)在情緒智力智能測評中的初步應用——基于項目反應理論.(5), 454–461.

      Alonso, A., Laenen, A., Molenberghs, G., Helena Geys, H., & Vangeneugden, T. (2010). A unified approach to multi- item reliability.(4), 1061–1068.

      Bentler, P. M. (2009). Alpha, dimension-free, and model- based internal consistency reliability.(1), 137–143.

      Edwards, A. A., Joyner, K. J., & Schatschneider, C. (2021). A simulation study on the performance of different reliability estimation methods.(6), 1089–1117.

      Fu, Y., Wen, Z., & Wang, Y. (2018). The total score with maximal reliability and maximal criterion validity: An illustration using a career satisfaction measure.(6), 1108–1122.

      Fu, Y., Wen, Z., & Wang, Y. (2022). A comparison of reliability estimation based on confirmatory factor analysis and exploratory structural equation models.,(2), 205–224.

      Graham, J. M. (2006). Congeneric and (essentially) tau- equivalent estimates of score reliability: What they are and how to use them.(6)930–944.

      Kelley, K., & Pornprasertmanit, S. (2016). Confidence intervals for population reliability coefficients: Evaluation of methods, recommendations, and software for composite measures.(1), 69–92.

      Lai, M. H. C. (2020). Composite reliability of multilevel data: It's about observed scores and construct meanings.(1), 90–102.

      Lord, F. M., Novick, M. R. (1968).. Reading, MA: Addison-Wesley.

      Maydeu-Olivares, A., Coffman, D. L., & Hartmann, W. M. (2007). Asymptotically distribution free (ADF) interval estimation of coefficient alpha.(2)157–176.

      McNeish, D. (2018). Thanks coefficient alpha, we’ll take it from here.(3), 412–433.

      Padilla, M. A., & Divers, J. (2016). A comparison of composite reliability estimators: Coefficient omega confidence intervals in the current literature.(3), 436–453.

      Pfadt, J. M., van den Bergh, D., Sijtsma, K., Moshagen, M., & Wagenmakers, E. (in press). Bayesian estimation of single-test reliability coefficients..

      Raykov, T. (2001). Estimation of congeneric scale reliability using covariance structure analysis with nonlinear constraints.(2), 315–323.

      Raykov, T., & Marcoulides, G. A. (2019). Thanks coefficient alpha, we still need you!(1), 200–210.

      Raykov, T., & Shrout, P. E. (2002). Reliability of scales with general structure: Point and interval estimation using a structural equation modeling approach.(2), 195–212.

      Reise, S. P. (2012). The rediscovery of bifactor measurement models. Multivariate Behavioral Research(5), 667–696.

      Revelle, W., & Zinbarg, R. E. (2009). Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma.(1), 145–154.

      Scherer, R., & Teo, T. (2020). A tutorial on the meta- analytic structural equation modeling of reliability coefficients.(6), 747–775.

      Sijtsma, K., & Pfadt, J. M. (2021). Part Ⅱ: On the use, the misuse, and the very limited usefulness of cronbach's alpha: Discussing lower bounds and correlated errors.(4), 843–860.

      ten Hove, D., Jorgensen, T. D., & van der Ark, L. A. (in press). Interrater reliability for multilevel data: A generalizability theory approach..

      Zinbarg, R. E., Yovel, I., Revelle, W., & McDonald, R. P. (2006). Estimating generalizability to a latent variable common to all of a scale's indicators: A comparison of estimators for ω.(2), 121–144.

      Research on test reliability in China’s mainland from 2001 to 2020

      WEN Zhonglin1, CHEN Hongxi1, FANG Jie2, YE Baojuan3, CAI Baozhen1

      (1School of Psychology & Center for Studies of Psychological Application, South China Normal University, Guangzhou 510631, China) (2Institute of New Development & Department of Applied Psychology, Guangdong University of Finance & Economics, Guangzhou 510320, China) (3School of Psychology & Center of Mental Health Education and Research, Jiangxi Normal University, Nanchang 330022, China)

      With the application of confirmatory factor analysis, research on reliability has entered a new stage. In the first two decades of the 21st century, the studies on test reliability in China’s mainland show three main lines of development. The first is the development of test reliability based on confirmatory factor models, including homogeneity coefficient, composite reliability, maximum reliability, etc. The second is the expansion of data types collected by scales, including the reliability of two-level data and longitudinal study. The third is the extended use of reliability, involving rater reliability, encoder reliability, etc. For a common test (with item-errors uncorrelated each other), if the coefficient αis high enough, test reliability is acceptable; otherwise composite reliability is recommended. If the composite reliability of every variable in a statistical model is very high (over 0.95), modeling with composite scores does not differ much from modeling with latent variables. Otherwise, it is better to use latent variable modeling.

      reliability, coefficient α, homogeneity coefficient, composite reliability, interval estimation

      2021-12-29

      * 國家自然科學基金項目(32171091)資助。

      溫忠麟, E-mail: wenzl@scnu.edu.cn

      B841

      猜你喜歡
      同質(zhì)性測驗信度
      《廣東地區(qū)兒童中醫(yī)體質(zhì)辨識量表》的信度和效度研究
      《新年大測驗》大揭榜
      趣味(語文)(2018年7期)2018-06-26 08:13:48
      基于同質(zhì)性審視的高職應用型本科工程教育研究
      職教論壇(2017年4期)2017-03-13 16:43:19
      兩個處理t測驗與F測驗的數(shù)學關(guān)系
      考試周刊(2016年88期)2016-11-24 13:30:50
      科技成果評價的信度分析及模型優(yōu)化
      體育社會調(diào)查問卷信度檢驗的方法學探索——基于中文核心體育期刊163篇文章分析
      耳鳴殘疾問卷中文版的信度和效度檢驗及其臨床應用
      理性程度的異質(zhì)性:基于理論與實踐的考察
      你知道嗎?
      少年科學(2014年10期)2014-11-14 07:38:17
      高等工程教育與高等職業(yè)教育的同質(zhì)性
      德兴市| 滨州市| 乌兰浩特市| 伊川县| 古交市| 宾阳县| 准格尔旗| 汉源县| 三亚市| 文安县| 商河县| 万安县| 双峰县| 塔城市| 叙永县| 泊头市| 莫力| 沁源县| 郴州市| 浮山县| 滁州市| 天台县| 二连浩特市| 三穗县| 十堰市| 灵川县| 景宁| 渝中区| 铅山县| 平湖市| 克拉玛依市| 杂多县| 济源市| 望江县| 东乡| 隆回县| 汤阴县| 密山市| 剑川县| 德惠市| 米林县|