郭 磊,張金明
(1.西南大學(xué)心理學(xué)部,重慶 400715;2.西南大學(xué)統(tǒng)計(jì)學(xué)博士后科研流動(dòng)站,重慶 400715; 3.中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心西南大學(xué)分中心,重慶 400715;4.重慶市腦科學(xué)協(xié)同創(chuàng)新中心,重慶 400715; 5.伊利諾伊大學(xué)香檳分校教育心理學(xué)系,香檳,伊利諾伊州 61820 美國)
認(rèn)知診斷評(píng)估(cognitive diagnostic assessment,CDA)已成為國內(nèi)外測量學(xué)研究的關(guān)注熱點(diǎn)。CDA優(yōu)勢為不僅能獲得被試能力水平,還能診斷其在知識(shí)點(diǎn)上的掌握情況。通過對(duì)知識(shí)狀態(tài)的估計(jì),可知曉強(qiáng)項(xiàng)與弱項(xiàng),指導(dǎo)教師開展針對(duì)性的教學(xué)補(bǔ)救,實(shí)現(xiàn)個(gè)性化教學(xué)。由此,認(rèn)知診斷被視為新一代心理測量理論的核心(涂冬波,蔡艷,丁樹良,2012)。
CDA依賴測驗(yàn)進(jìn)行評(píng)估,因此,測驗(yàn)質(zhì)量決定了評(píng)估質(zhì)量。測驗(yàn)信度是衡量測驗(yàn)質(zhì)量的一個(gè)重要指標(biāo)(溫忠麟,葉寶娟,2011)。一個(gè)良好的測驗(yàn),首先應(yīng)該保證在評(píng)價(jià)同一批被試時(shí),在不同時(shí)間或場合得到的測量結(jié)果是一致的。在心理與教育測驗(yàn)中,常用信度來衡量測驗(yàn)的穩(wěn)定性,信度越高,穩(wěn)定性越強(qiáng)。信度向來都是心理測量學(xué)的重要研究領(lǐng)域,國內(nèi)外有關(guān)信度的研究數(shù)不勝數(shù),但大多都屬于經(jīng)典測驗(yàn)理論或項(xiàng)目反應(yīng)理論框架內(nèi)的研究。而在CDA中,卻很少看見信度方面的研究。因此,對(duì)于同樣依賴測驗(yàn)的CDA,對(duì)其信度的研究也就非常有必要和有價(jià)值。
目前,CDA中的信度研究剛剛處于發(fā)展階段,國內(nèi)外相關(guān)研究主要有:(1)Templin等(2013)提出了屬性信度的計(jì)算方法,但未關(guān)注到模式信度的指標(biāo)。本文將Templin的方法稱作“四分相關(guān)法”。(2)Cui,Gierl和Chang(2012)基于后驗(yàn)概率分布信息,構(gòu)建了分類一致性指標(biāo)以衡量CDA中的模式信度,但未提出屬性信度。(3)Wang,Song,Chen,Meng和Ding(2015)基于前人研究,提出了屬性信度和模式信度指標(biāo),完善了之前的研究。和Cui等的方法進(jìn)行比較后發(fā)現(xiàn)新指標(biāo)具有同樣表現(xiàn)。本文將Wang的方法稱作“一致性法”。這些研究有一個(gè)相同的基本假設(shè):被試在兩次相同測驗(yàn)上估計(jì)的后驗(yàn)概率分布和邊際分布分別相同。該假設(shè)的目的是為了構(gòu)建重測信度(test-retest reliability)指標(biāo),但該假設(shè)與現(xiàn)實(shí)有些許不符。但凡測量總會(huì)存在誤差,即使同一批人第二次作答同一批試題,由于隨機(jī)誤差的存在,也很難保證前后兩次測驗(yàn)的結(jié)果完全一致。在經(jīng)典測驗(yàn)理論中表現(xiàn)為觀察分?jǐn)?shù)不一致,而在CDA中則表現(xiàn)為后驗(yàn)概率分布、邊際分布不一致。因此,在CDA中開發(fā)出符合測驗(yàn)實(shí)際情況,能夠?qū)㈦S機(jī)誤差考慮在內(nèi)的信度指標(biāo)至關(guān)重要。本研究基于一次施測結(jié)果,采用Bootstrap方法對(duì)后驗(yàn)概率及邊際分布抽樣,提出了兩類新的屬性和模式信度指標(biāo)。第一類稱作積差相關(guān)法,有兩個(gè)指標(biāo):ARC(Attribute-level Reliability base on Correlation)和PRC(Pattern-level Reliability base on Correlation);第二類稱作修正一致性法,有兩個(gè)指標(biāo):ARM(Attribute-level Reliability base on Multiplication)和PRM(Pattern-level Reliability base on Multiplication)。新指標(biāo)同樣是通過計(jì)算兩次測驗(yàn)結(jié)果的一致性來反映重測信度,不同之處在于構(gòu)造第二次測驗(yàn)結(jié)果的方式。四分相關(guān)法以及一致性法直接假設(shè)第二次測驗(yàn)結(jié)果恒等于第一次測驗(yàn)結(jié)果,而新方法將隨機(jī)誤差考慮在內(nèi),通過Bootstrap方法合理構(gòu)造第二次測驗(yàn)結(jié)果。為探查新指標(biāo)在模擬和實(shí)證研究中的表現(xiàn),本研究將與四分相關(guān)法和一致性法進(jìn)行比較。
文章按如下方式組織:第二部分分別介紹四分相關(guān)法、一致性法、基于Bootstrap抽樣構(gòu)建的新指標(biāo),并給出計(jì)算步驟。第三部分是模擬研究。第四部分是實(shí)證研究。最后一部分是結(jié)論與討論。
Templin等(2013)認(rèn)為CDA中的屬性信度是前后兩次施測后被試在第k個(gè)屬性上掌握情況的一致性程度。由于知識(shí)狀態(tài)α是二分變量,故使用四分相關(guān)計(jì)算重測信度,其步驟為:
(1)
基于四格表計(jì)算四分相關(guān),即得到屬性k的重測信度。
從公式(1)中可以看出,Templin等創(chuàng)建了第二次施測結(jié)果(實(shí)際并未施測),并假設(shè)第二次估計(jì)結(jié)果恒等于第一次結(jié)果。經(jīng)典測驗(yàn)理論模型為X=T + E,X為觀測分?jǐn)?shù),T為真分?jǐn)?shù),E表示隨機(jī)誤差。該模型認(rèn)為真實(shí)能力和觀察分?jǐn)?shù)之間呈線性關(guān)系,并相差一個(gè)隨機(jī)誤差部分。盡管CDA測量模型與經(jīng)典測驗(yàn)理論不同,但基于同樣道理,即使是同一批被試作答同一份測驗(yàn),也很難保證兩次測驗(yàn)的邊際概率完全一致。因此,四分相關(guān)法的前提假設(shè)較強(qiáng),在現(xiàn)實(shí)中不太容易滿足,會(huì)得到誤差較大的信度估計(jì)值。
Wang等延續(xù)了Templin等對(duì)CDA中重測信度定義的思想,提出了屬性信度的計(jì)算方法:
(2)
和模式信度的計(jì)算方法:
(3)
由公式(2)和(3)可以看出,這兩個(gè)指標(biāo)的計(jì)算仍然假設(shè)第二次測驗(yàn)的后驗(yàn)概率分布和邊際概率恒等于第一次測驗(yàn)的結(jié)果。該假設(shè)和Templin等一樣,偏于理想化。
Bootstrap是以樣本來代表總體,在該樣本中進(jìn)行放回抽樣,直至抽取n個(gè)數(shù)據(jù)組成一個(gè)樣本。這樣的程序反復(fù)進(jìn)行多次,即可產(chǎn)生多個(gè)樣本,基于每個(gè)樣本數(shù)據(jù)就可以進(jìn)行統(tǒng)計(jì)計(jì)算(江程銘,李紓,2015)。
2.3.1 屬性信度的計(jì)算
使用Bootstrap方法計(jì)算CDA的屬性信度步驟如下:
分別計(jì)算屬性信度ARC和ARM指標(biāo):
(4)
(5)
2.3.2 模式信度的計(jì)算
(6)
(7)
下面將分別通過模擬研究和實(shí)證研究比較四種方法在不同實(shí)驗(yàn)條件下的表現(xiàn)。
本研究以DINA模型(Culpepper,2015;de la Torre,2009;Junker & Sijtsma,2001)為例,但不局限于該模型。s和g參數(shù)均從U(0.15,0.25)中抽取??疾?個(gè)變量對(duì)信度估計(jì)的影響:(1)屬性個(gè)數(shù)K:3個(gè)和5個(gè)。(2)題目數(shù)量J:5題、10題、20題。Q矩陣如附錄表1和表2所示,行代表屬性數(shù),列代表題目;1表示題目考察到該屬性,0表示未考察。K=3時(shí),將Q10重復(fù)即可得20題的Q矩陣。(3)協(xié)方差矩陣Σ的非對(duì)角線元素ρ:0.2(低相關(guān))、0.5(中相關(guān))、0.8(高相關(guān))。
1000名被試知識(shí)狀態(tài)的生成方式如下:依據(jù)多元正態(tài)分布MVNK(0,Σ)生成K維連續(xù)變量矩陣,設(shè)定各連續(xù)變量滿足標(biāo)準(zhǔn)正態(tài)分布,用0為切點(diǎn)對(duì)各連續(xù)變量進(jìn)行兩段切割,并且可以通過設(shè)定Σ矩陣的非對(duì)角線元素ρ來調(diào)控各屬性之間的四分相關(guān)(詹沛達(dá),陳平,邊玉芳,2016)。
Bootstrap取樣次數(shù)M設(shè)置為30000次。本研究為2×3×3的完全交叉設(shè)計(jì),每個(gè)實(shí)驗(yàn)條件重復(fù)30次,以減小隨機(jī)誤差。
固定被試的知識(shí)狀態(tài)、以及題目參數(shù),使用DINA模型重復(fù)生成H次被試的作答數(shù)據(jù),將這H次作答數(shù)據(jù)看作多次重測(test-retest)的結(jié)果。計(jì)算所有作答數(shù)據(jù)兩兩配對(duì)[H*(H-1)/2對(duì)]的估計(jì)一致性值,然后將這些一致性值的均值作為信度的真值rT,當(dāng)重復(fù)數(shù)量足夠大時(shí),均值可以逼近信度的真值,本研究中H取200次,該做法可參見Wang等(2015)的研究。其中,一致性值的計(jì)算方法采用Wang等(2015)文中的指標(biāo):
(8)
(9)
PTRCR1,2表示模式重測一致性指標(biāo),下角標(biāo)1和2表示第一次和第二次施測。ATRCRk,1,2表示屬性k的重測一致性指標(biāo)。
①平均偏差
(10)
其中,rT為信度的真值,ri為每次實(shí)驗(yàn)的信度估計(jì)值。該值越接近于0越好。
②誤差均方根:
(11)
表1和表2是各個(gè)指標(biāo)在不同實(shí)驗(yàn)條件下屬性和模式信度估計(jì)結(jié)果的bias和RMSE值。圖1和圖2為對(duì)應(yīng)的bias(A)和RMSE(B)折線圖。由于信度真值是H次作答估計(jì)一致性的均值,因此,bias和RMSE的本質(zhì)是“離均差的和”與“離均差平方和的算術(shù)平方根”,兩者反映的是估計(jì)值與均值的波動(dòng)大小。從整體上看,屬性信度的估計(jì)比模式信度穩(wěn)定,偏差值更小。
就屬性信度來說,新方法對(duì)屬性信度的估計(jì)精確度更高。表現(xiàn)最好的是ARC方法,bias的絕對(duì)值離0最近,RMSE在大部分實(shí)驗(yàn)條件下是最小的,從圖1中也可看出,其bias的趨勢線在0周圍波動(dòng)最小,RMSE的趨勢線位于最下方。ARM的結(jié)果與一致性法表現(xiàn)基本相當(dāng),bias和RMSE與一致性法非常接近,ARM與一致性法的趨勢線基本重合。四分相關(guān)法表現(xiàn)最差,bias在0周圍波動(dòng)最大,RMSE最大、趨勢線最高。屬性間相關(guān)性ρ對(duì)屬性信度的影響并未呈現(xiàn)一致性趨勢;隨屬性個(gè)數(shù)增加,估計(jì)偏差在整體上呈現(xiàn)不斷增大趨勢,bias波動(dòng)變大,但ARC的表現(xiàn)仍最好;隨題目數(shù)量增多,估計(jì)偏差在整體上呈不斷減小趨勢。就模式信度來說,PRC、PRM的估計(jì)精度與一致性法相當(dāng),三種方法的bias和RMSE值非常接近。而在有些實(shí)驗(yàn)條件下,PRC的精確性要比ARM和一致性法要高(表2的第2至第4行結(jié)果)。由圖2可知,PRC、PRM與一致性法的bias趨勢線波動(dòng)幅度較一致,RMSE趨勢線也基本重合。除此之外,屬性間的相關(guān)性、屬性個(gè)數(shù)以及題目數(shù)量對(duì)模式信度的影響與屬性信度的結(jié)果基本一致。
表1 不同方法的屬性信度估計(jì)精度結(jié)果
表2 不同方法的模式信度估計(jì)精度結(jié)果
續(xù)表2
KρJPRCPRM一致性法BiasRMSEBiasRMSEBiasRMSE模式信度真值200.0350.0620.0090.0150.0100.0150.7340.85-0.0270.0480.0650.0820.0670.0820.484100.0440.0730.0460.0590.0520.0610.644200.0180.0240.0140.0200.0170.0230.79550.250.0630.1170.0600.1070.0590.1070.23910-0.0660.1160.0640.1130.0640.1130.269200.0580.104-0.0470.0850.0510.0860.3480.55-0.1070.1580.1180.1560.1200.1560.285100.0690.1080.0630.0930.0610.0930.313200.0520.0940.0570.0870.0550.0860.4280.85-0.1070.164-0.1300.1770.1330.1810.334100.0430.0690.0380.0510.0390.0520.403200.0140.0210.0230.0370.0230.0380.574
圖1 屬性信度的bias(A)和RMSE(B)折線圖
圖2 模式信度的bias(A)和RMSE(B)折線圖
該數(shù)據(jù)來自于R軟件CDM程序包中英語能力認(rèn)證考試,包含2922人在28道題目上的作答數(shù)據(jù),考察了3個(gè)屬性:構(gòu)詞規(guī)則(Morphosyntactic rules)、銜接規(guī)則(Cohesive rules)、詞匯規(guī)則(Lexical rules)。作答矩陣和Q矩陣可分別由data.ecpe$data[,-1]和data.ecpe$q.matrix進(jìn)行調(diào)用。
使用四種方法估計(jì)該數(shù)據(jù)的屬性和模式信度,結(jié)果見表3。
表3 ECPE信度估計(jì)結(jié)果
對(duì)于屬性信度,模擬研究結(jié)果表明,當(dāng)屬性個(gè)數(shù)增大時(shí),ARC的估計(jì)精確度最高,之后是ARM和一致性法,四分相關(guān)法表現(xiàn)較差。結(jié)合表3結(jié)果可知,使用四分相關(guān)法會(huì)高估ECPE的屬性信度(均值為0.888),ARM和一致性法的屬性信度均值基本接近(0.86左右),ARC估計(jì)的屬性信度均值為0.825。對(duì)于模式信度,模擬研究結(jié)果表明,PRC的表現(xiàn)較好,計(jì)算得到ECPE模式信度為0.616,而PRM和一致性法基本相當(dāng)為0.685左右。有趣的發(fā)現(xiàn)是,不論使用何種指標(biāo),屬性A2的信度是最低的,通過表5的Q矩陣分析,A1考察了13次,A3考察了18次,而A2只考察了6次,說明考察次數(shù)會(huì)影響屬性信度。其原因可能有:①當(dāng)屬性考察次數(shù)較少時(shí),該屬性估計(jì)的準(zhǔn)確性自然會(huì)降低,導(dǎo)致其穩(wěn)定性降低;②影響信度的因素之一為測驗(yàn)長度,在認(rèn)知診斷中表現(xiàn)為屬性考察次數(shù),當(dāng)次數(shù)較少時(shí),信度理應(yīng)不會(huì)太高。
分?jǐn)?shù)減法數(shù)據(jù)同樣來自CDM程序包,包含536人在15道題上的作答數(shù)據(jù),考察了5個(gè)屬性。作答矩陣和Q矩陣可分別由data.fraction1$data和data.fraction1$q.matrix進(jìn)行調(diào)用。使用四種方法估計(jì)該批數(shù)據(jù)的屬性和模式信度,結(jié)果見表4。
模擬研究表明ARC表現(xiàn)最好,表現(xiàn)最差為四分相關(guān)法。結(jié)合表4結(jié)果可知,四分相關(guān)法仍高估屬性信度(均值為0.876),ARM和一致性法估計(jì)的屬性信度均值接近(均值為0.86左右),ARC估計(jì)的屬性信度均值為0.818。對(duì)于模式信度,模擬研究結(jié)果表明當(dāng)屬性個(gè)數(shù)增加后,PRC、PRM和一致性法基本相當(dāng),模式信度約為0.6左右。同樣,屬性A5的信度最低,其次是A2和A4。這是因?yàn)锳5只考察了3次,A2和A4分別考察了8次和9次,A1和A3分別考察了14次和12次。
信度是衡量測驗(yàn)質(zhì)量的一個(gè)重要指標(biāo),CDA同樣需要重視信度問題。本文基于Bootstrap抽樣思想,提出了兩類計(jì)算屬性和模式信度指標(biāo)。新指標(biāo)更加符合現(xiàn)實(shí),突破了“假設(shè)被試兩次測驗(yàn)的后驗(yàn)概率和邊際概率完全相同”的局限。通過模擬和實(shí)證研究,與四分相關(guān)法和一致性法進(jìn)行比較,驗(yàn)證了新指標(biāo)的優(yōu)越性,得到了以下主要的結(jié)論:
(1)整體上,屬性信度的估計(jì)比模式信度穩(wěn)定,且偏差更小;
(2)對(duì)屬性信度而言,ARC表現(xiàn)最優(yōu),其次是ARM和一致性法,四分相關(guān)法表現(xiàn)最差。屬性個(gè)數(shù)增加會(huì)增大估計(jì)偏差,題目數(shù)量增加則會(huì)減小其估計(jì)偏差;
(3)對(duì)模式信度而言,PRC、PRM估計(jì)精度與一致性法相當(dāng)。屬性間相關(guān)性、屬性個(gè)數(shù)、題目數(shù)量對(duì)模式信度的影響與屬性信度基本一致;
(4)實(shí)證研究可知,每種方法均能報(bào)告屬性和模式信度。結(jié)合模擬研究結(jié)果,積差相關(guān)包括的兩個(gè)指標(biāo)(ARC和PRC)表現(xiàn)較好。想要提高屬性信度,可適當(dāng)增加該屬性考察次數(shù)。
綜上所述,計(jì)算屬性信度時(shí),綜合排名為:ARC>ARM≈一致性法>四分相關(guān)法,推薦使用ARC。計(jì)算模式信度時(shí),綜合排名為:PRC>PRM≈一致性法,推薦使用PRC。
本文結(jié)合模擬和實(shí)證研究結(jié)果,擬探討以下幾個(gè)問題:
Huebner和Wang(2011)比較了三種參數(shù)估計(jì)方法:后驗(yàn)眾數(shù)法MAP、后驗(yàn)期望法EAP、極大似然估計(jì)MLE。不同的估計(jì)方法影響后驗(yàn)概率分布和屬性邊際概率,進(jìn)而影響標(biāo)準(zhǔn)誤,導(dǎo)致Bootstrap抽樣范圍發(fā)生變化。本文基于MAP得到的結(jié)果計(jì)算的信度,未來需探討不同參數(shù)估計(jì)方法對(duì)信度的影響。
在經(jīng)典測驗(yàn)理論中,除重測信度,還有復(fù)本信度、內(nèi)部一致性信度等。不同信度指標(biāo),其關(guān)注點(diǎn)不同,應(yīng)用場景也不同。在報(bào)告信度時(shí),需指出是何種信度。目前關(guān)于CDA中信度的研究,均從重測角度出發(fā),這是因?yàn)樵摲椒ㄒ子诶斫?、指?biāo)容易構(gòu)建。未來應(yīng)考慮如何將其余信度指標(biāo)拓展至CDA中,豐富CDA的信度指標(biāo)體系。
除上述問題之外,不同的屬性層級(jí)結(jié)構(gòu)可能會(huì)對(duì)信度的估計(jì)帶來影響,未來研究可以嘗試在不同的屬性層級(jí)結(jié)構(gòu)下,以及不同認(rèn)知診斷模型下探討本文所提出新指標(biāo)的表現(xiàn)。