周文杰 童望望 郭 磊,2**
(1.西南大學(xué)心理學(xué)部,重慶 400715;2.中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心西南大學(xué)分中心,重慶 400715)
當(dāng)前傳統(tǒng)測驗領(lǐng)域僅提供籠統(tǒng)的測驗總分或?qū)W生能力值來衡量學(xué)生的學(xué)業(yè)水平,但隨著對教育評估要求愈加精細(xì),這種傳統(tǒng)測驗形式已不能滿足人們對評估的需求。因此,心理教育研究者不斷深入認(rèn)知診斷測評(cognitive diagnostic assessment,CDA)研究,使其既可報告?zhèn)€體具有的認(rèn)知結(jié)構(gòu)或?qū)χR的掌握情況,也便于教育者為學(xué)生進(jìn)行更客觀、更有針對性的教育評價,并為教育補(bǔ)救指明方向。
在各種大型測驗中,如高考、TOEFL、PISA 等,常存在多個題目隸屬于一個共同刺激的情況,如閱讀理解、完形填空、選詞填空等。這種一組題目共用一個刺激或材料的集合稱為題組(testlet)(Wainer &Kiely,1987)。使用題組有較多優(yōu)勢:閱讀材料能被充分利用,不僅節(jié)約作答時間提高作答效率,還能節(jié)約成本(DeMars,2012;Huang,2013);由于題目隸屬于相同刺激,使得題目結(jié)構(gòu)更復(fù)雜,相關(guān)性與邏輯性更強(qiáng),就能測量被試更高層次思維能力(Haladyna,1992)。例如,圖1 是一道考察“確定平面圖中物體的位置的方法”(屬性1)和“線段比例尺的應(yīng)用”(屬性2)的六年級數(shù)學(xué)綜合題,該題目有兩個小題,考生在作答過程中受到材料的共同刺激,因此這兩個小題屬于一個題組結(jié)構(gòu),題目(1)考察了屬性1,滿分為3 分,題目(2)考察了屬性1和屬性2,滿分為4 分。這是一個典型的帶有題組結(jié)構(gòu)的多級計分題目。
圖1 六年級數(shù)學(xué)能力測試?yán)}
在項目反應(yīng)理論(item response theory,IRT)的領(lǐng)域中,研究者提出了多種處理題組結(jié)構(gòu)的方式,其中具有代表性的方法有:(1)視同一個題組下的題目具有雙重維度特性,一個維度是題組效應(yīng),一個維度是題目自身的效應(yīng),例如二階模型(second-order mode)(Rijmen,2010) 和雙因子模型(bi-factor model)(Demars,2006;Li et al.,2005);(2)將題目得分合成為題組得分,把同一個題組的題目看作一個多級評分題目(Wainer & Kiely,1987;Rosenbaum,1988);(3)將題組效應(yīng)視為影響反應(yīng)結(jié)果的潛變量,例如題組反應(yīng)模型(testlet response models,TRM)(Bradlow et al.,1999)等。第一種處理方法具有較強(qiáng)的限制,僅能處理當(dāng)題目只具有一層題組結(jié)構(gòu)時的情況。第二種方法則會導(dǎo)致信息丟失,能得到題組得分,卻不能獲得被試精確的作答結(jié)果,且測驗信度會被低估(Yen,1993)。第三種處理方法更靈活地表征了題組內(nèi)的局部依賴性,獲得更精確的參數(shù)估計結(jié)果,且具有較好的拓廣性,可以處理多維題組的情況,是目前最常見的方式,本研究即采用該方法處理題組效應(yīng)。
認(rèn)知診斷領(lǐng)域中,詹沛達(dá)等人(2015)提出了能處理題組效應(yīng)的認(rèn)知診斷模型,后續(xù)結(jié)合反應(yīng)時模型提出聯(lián)合題組認(rèn)知診斷模型(Zhan et al.,2018),Hansen(2013)結(jié)合2-tier 模型(Cai,2010)和LCDM 也提出了一種適用于認(rèn)知診斷測驗的題組模型。但這些模型只適用于二級評分?jǐn)?shù)據(jù),無法處理多級評分?jǐn)?shù)據(jù)。而實際上,心理、教育及社會學(xué)等領(lǐng)域中存在大量多級評分題型,如簡答題、材料分析題、Likert 量表等,尤其我國許多測驗二級和多級評分題目經(jīng)常混合使用(涂冬波等,2010),若采用二分模型擬合多級評分?jǐn)?shù)據(jù),會造成信息丟失(Ma&de la Torre,2016)。另外,雖然研究者已開發(fā)多種多級評分診斷模型,如Sequential GDINA 模型(Ma et al.,2016)、一般化多級評分認(rèn)知診斷模型(General Polytomous Diagnosis Model,GPDM)(Chen & de la Torre,2018)、一般化分部評分認(rèn)知診斷模型(General Partial Credit Diagnostic Model,GPCDM)(高旭亮等,2019)等,但是均不能處理題組效應(yīng)??梢钥闯?,目前能夠處理題組數(shù)據(jù)的診斷模型不適用于多級評分?jǐn)?shù)據(jù),而已有的多級評分診斷模型不能處理題組效應(yīng),多級診斷模型與題組反應(yīng)模型仍處于獨立研究階段。
綜上所述,本研究擬將多級評分診斷與題組效應(yīng)融合,開發(fā)多級評分認(rèn)知診斷題組模型(Polytomous Cognitive Diagnosis Testlet Model,PCDTM)。本文首先介紹PCDTM 開發(fā)過程;其次介紹馬爾可夫鏈蒙特卡洛算法(Markov chain Monte Carlo,MCMC)參數(shù)估計內(nèi)容;第三,使用模擬研究探究模型參數(shù)返真性;第四,使用實證數(shù)據(jù)檢驗?zāi)P蜕鷳B(tài)效度。最后總結(jié)研究結(jié)果,展望未來研究發(fā)展方向。
GPCDM 由高旭亮等(2019)提出,是一種以飽和模型GDINA 作為加工函數(shù)開發(fā)的多級評分認(rèn)知診斷模型。GPCDM 用公式可描述為:
式中a1=(al1,al2,…,alk,…,alK)為被試屬性掌握模式,l=1,…,L,L=2K。alk為屬性掌握模式為a1的被試在第k 個屬性掌握情況,若被試掌握第k 個屬性,有alk=1,否則alk=0。qjx=(qjx1,qjx2,…,qjxk,…,qjxK)為第j 題第x 分屬性考察情況,若考察了第k 個屬性,則qjxk=1,否則qjxk=0。P(Xj=x)為屬性掌握模式為a1的被試在第j 題得x 分的概率。λjx,k為alk主效應(yīng),λjx,k′k為alk′和alk的二階交互效應(yīng);λjx,12,…,Kjx是掌握所有屬性時對作答產(chǎn)生的效應(yīng)大小。
2.2.1 多維題組效應(yīng)
圖2(a)表示單維題組效應(yīng),除被試能力θ 外,題目3 的作答還受到一個題組影響,且不同題組之間相互獨立;而圖2(b)多維題組測驗中的題目3,4,5 同時受到了兩個題組的影響(魏丹等,2017;詹沛達(dá)等,2015)。可見,單維題組是多維題組的特例。
圖2 單維/多維題組示意圖
多維題組效應(yīng)用公式可以描述為:
公式(2)表示被試i 在題目j 上共受到M 個題組效應(yīng)的影響。協(xié)方差矩陣Σ 表示題組效應(yīng)大小,Σ=(γi1,…,γim,…,γiM),γim~N(0,),γim表示被試i 在第m 個題組上的效應(yīng)大小。用判定矩陣U 矩陣表示每個題目在不同題組上的歸屬,其中列表示題組,行表示題目,U=(Uj1,…,Ujm,…,UjM),Ujm表示題目j 是否歸屬于第m 個題組,屬于則Ujm=1,否則Ujm=0。根據(jù)判定規(guī)則,圖2(b)的題組效應(yīng)可用圖3 表示。
圖3 U 矩陣示意圖
2.2.2多級評分認(rèn)知診斷題組模型(PCDTM)
進(jìn)一步結(jié)合多維題組和多級評分結(jié)構(gòu),見圖4(a)表示二級評分的多維題組結(jié)構(gòu),圖4(b)表示多級計分的多維題組結(jié)構(gòu),mj表示第j 題的滿分,可以發(fā)現(xiàn)在多級計分題組結(jié)構(gòu)中,被試屬性掌握模式α 影響所有的題目作答,同時題組效應(yīng)γ 可以影響同一個題組中不同題目在不同得分的作答,從而進(jìn)一步區(qū)別題組效應(yīng)在不同得分水平的影響。為使多級評分認(rèn)知診斷模型能有效處理題組效應(yīng),本研究在GPCDM基礎(chǔ)上引入多維題組效應(yīng)參數(shù),得到了多級評分認(rèn)知診斷題組模型(PCDTM),其函數(shù)表達(dá)式為:
圖4 二級/多級評分多維題組示意圖
研究采用R 語言R2jags 包,調(diào)用MCMC 算法進(jìn)行參數(shù)估計,設(shè)定每種實驗條件循環(huán)30 次,每次循環(huán)設(shè)定鏈數(shù)為3,每條鏈長5000,間隔數(shù)5,預(yù)熱前2000 次,取后3000 次參數(shù)收斂結(jié)果平均數(shù)為該鏈參數(shù)估計結(jié)果。若所有被估計參數(shù)的小于1.1 或1.2,則參數(shù)基本收斂(Brooks&Gelman,1998)。參考Zhan 等(2019)設(shè)置,設(shè)定待估計參數(shù)的先驗分布為:λjx0~N(-1.096,4),λjx,k~N(0,4)I(λjx,k>0),λjx,k′k~N(0,4),alk~Bernoulli(0.5),γim~N(0,),~invGam(1,1)。PCDTM 模型代碼已上傳https://doi.org/10.6084/m9.figshare.21581331,供讀者參考和使用。
模擬研究使用模型對比的方式,分別以PCDTM 和GPCDM 為真模型,生成有題組和無題組效應(yīng)作答數(shù)據(jù),再分別使用兩個模型擬合數(shù)據(jù)。研究自變量包括:(1)真模型(GPCDM,PCDTM);(2) 樣本量(500,1000,2000);(3)題目質(zhì)量(高,低);(4)題目數(shù)量(20,40 題)。
類別Q 矩陣(Category-Q,Cat-Q)和U矩陣間附表1 和附表2 所示(40 題Cat-Q矩陣與U 矩陣為20 題重復(fù))。在Cat-Q 矩陣中,共考察了5 個屬性,每個得分類別最多考察2 個屬性,且每個屬性考察次數(shù)相同。測驗中第1~11 題為三級評分題目,第12~15 題為四級評分題目,第16~20 題為二級評分題目。測驗包含四個題組結(jié)構(gòu),題組1 包含第1~11 題,題組2 包含12~15 題,題組3 包含16~20 題,3 個題組分別有部分題目包含于題組4,構(gòu)成項目內(nèi)多維題組結(jié)構(gòu)。
表1 被試判準(zhǔn)率PCCR/AACCR 值
4.3.1 被試參數(shù)設(shè)置
被試屬性從伯努利分布中隨機(jī)生成,即alk~Bernoulli(0.5),alk>0.5 取1,alk≤0.5則取0 從而得到不同屬性掌握模式。
4.3.2 題目參數(shù)與題組效應(yīng)設(shè)置
參考Ma 等人(2016) 和高旭亮等(2019)的生成方法,將高質(zhì)量題目參數(shù)設(shè)置為:logit{gx[P(Xj=x | a1=0)]}從均勻分布U(0,0.25)中隨機(jī)生成,logit{gx[P(Xj=x |a1=0)]}從均勻分布U(0.75,1)中隨機(jī)生成;低質(zhì)量題目參數(shù)設(shè)置為:logit{gx[P(Xj=x | a1=0)]}從均勻分布U(0,0.4)中隨機(jī)生成,logit{gx[P(Xj=x | a1=0)]}從均勻分布U(0.6,1)中隨機(jī)生成。
4 個題組效應(yīng)滿足多元正態(tài)分布,γ~MVN4(0,Σ),題組效應(yīng)方差取值=0.25,=0.5,=0.75,=1(Wang & Wilson,2005),對角矩陣如下所示:
4.3.3 模擬作答
將被試及題目參數(shù)真值帶入公式(1)和公式(3),計算被試在第j 題得x 分的作答概率P(Xj=x | a1),被試在該題最終作答結(jié)果根據(jù)對應(yīng)概率大小進(jìn)行抽取。
使用均方根誤差(root mean square error,RMSE) 和相對偏差的絕對值(the absolute of relative bias,ARB)作為題目參數(shù)和題組參數(shù)評價指標(biāo)。平均屬性判準(zhǔn)率(average attribute correct classification rate,AACCR)考察屬性返真性;屬性模式判準(zhǔn)率(pattern correct classification rate,PCCR)作為屬性掌握模式返真性評價指標(biāo)。以上指標(biāo)是認(rèn)知診斷研究中常見的參數(shù)估計精度的評價指標(biāo)(詹沛達(dá)等,2015;Ma et al.,2016;Chen&de la Torre,2018)。
4.5.1 被試判準(zhǔn)率返真性
表1 為被試判準(zhǔn)率返真性。當(dāng)真模型為GPCDM 時,PCDTM 與GPCDM 的判準(zhǔn)精度非常相近,二者的PCCR 值最大差異僅為0.003,AACCR 最大差異為0.001。當(dāng)真模型為PCDTM 時,PCDTM 明顯優(yōu)于GPCDM,二者PCCR 最大差異0.094,AACCR 最大差異0.021。這說明,當(dāng)存在題組效應(yīng)時,PCDTM 可以更準(zhǔn)確地對被試進(jìn)行判別。
當(dāng)存在題組效應(yīng)時,自變量中,題目質(zhì)量的影響最大,樣本量的影響最小。具體而言:①題目質(zhì)量越高,被試判準(zhǔn)率越高。在各題目質(zhì)量條件下,PCDTM 判準(zhǔn)精度均優(yōu)于GPCDM,隨著題目質(zhì)量提高,使得兩個模型判準(zhǔn)精度均有較大提高,PCCR 最大可分別提高12.5%和12.3%。②隨著題目數(shù)量增多,兩個模型判準(zhǔn)率均有所提高,但PCDTM 對題目數(shù)量變化更敏感,PCDTM的PCCR 最大可提升17%,GPCDM 最大僅為12.7%。在低質(zhì)量條件下,隨著題目數(shù)量的增加,兩個模型判準(zhǔn)率差距也隨之增大,PCDTM 模式判準(zhǔn)率大幅度提高,均維持在0.9 以上;而在高題目質(zhì)量條件下,不論題目數(shù)量如何變化,PCDTM 始終有著較高判準(zhǔn)率。③隨著樣本量增加,PCDTM 模型判準(zhǔn)率也在穩(wěn)步提升,PCCR 從[0.748,0.918]提高至[0.766,0.974]。
4.5.2 題目參數(shù)返真性
附表3 為題目參數(shù)返真性。整體上,當(dāng)真模型為GPCDM 時,PCDTM 可以達(dá)到與GPCDM 相近的題目參數(shù)估計精度;而當(dāng)真模型為PCDTM 時,GPCDM 參數(shù)估計精度要明顯差于PCDTM。當(dāng)GPCDM 為真模型時,兩個模型題目參數(shù)估計精度大致相同。當(dāng)PCDTM 為真模型時,GPCDM 的RMSE和ARB 整體增大,題目參數(shù)估計精度大幅度降低,而PCDTM 有較高的題目參數(shù)估計精度,且隨著樣本量、題目質(zhì)量、題目數(shù)量的提高,估計精度進(jìn)一步提高。其中,樣本量影響最大,其次是題目質(zhì)量,題目數(shù)量影響相對較小,GPCDM 題目參數(shù)返真性卻出現(xiàn)混亂的情況。
表3 實證研究模型擬合結(jié)果
4.5.3 題組效應(yīng)估計結(jié)果
圖5 和圖6 分別為PCDTM 為真模型時(即存在題組效應(yīng))和GPCDM 為真模型時(即不存在題組效應(yīng)時)時,PCDTM 的題組效應(yīng)參數(shù)返真性。整體上PCDTM 具有較小的估計偏差,隨著樣本量、題目數(shù)量的提高,對題組效應(yīng)參數(shù)估計精度進(jìn)一步提高,并且PCDTM 能較好識別沒有題組效應(yīng)的情境,結(jié)果表明PCDTM 模型在各種情境下均能較好地估計題組效應(yīng)參數(shù)。
圖5 PCDTM 為真模型時,PCDTM 的題組效應(yīng)參數(shù)誤差均方根(RMSE)
圖6 GPCDM 為真模型時,PCDTM 的題組效應(yīng)參數(shù)誤差均方根(RMSE)
綜上所述,當(dāng)GPCDM 為真模型時,GPCDM 和PCDTM 判準(zhǔn)率和題目參數(shù)估計精度差異較??;當(dāng)PCDTM 為真模型時,PCDTM 判準(zhǔn)率和題目參數(shù)估計精度明顯優(yōu)于GPCDM,且有較好的題組效應(yīng)參數(shù)估計結(jié)果,而GPCDM 估計精度大幅度降低,且估計結(jié)果還出現(xiàn)混亂情況。因此,PCDTM診斷能力更佳,更具普適性。
分別使用PCDTM 與GPCDM 模型分析2012 年數(shù)學(xué)大規(guī)模測評數(shù)據(jù),探查二者在實際數(shù)據(jù)應(yīng)用中的效果。該測驗為二級與多級評分題目混合,共114 題,考察了9476 名學(xué)生的三個數(shù)學(xué)認(rèn)知屬性:數(shù)與代數(shù)、空間幾何與概率統(tǒng)計(魏丹等,2017),Cat-Q 矩陣見附表4。其中,測驗有7 個題組,Testlet7 中5 個題目又分別屬于其他5個題組中,形成項目內(nèi)多維題組效應(yīng),加粗的題目即構(gòu)成項目內(nèi)多維題組效應(yīng)(如表2 所示)。
表4 題目參數(shù)估計均值(括號內(nèi)為估計標(biāo)準(zhǔn)誤)
使用MCMC 參數(shù)估計中常用的偏差信息量準(zhǔn)則(Deviance information criterion,DIC)擬合指標(biāo)來評價模型在實證數(shù)據(jù)中的擬合效果。
5.3.1 模型與測驗整體擬合度比較
表3 為模型擬合結(jié)果。由結(jié)果可知,PCDTM 的擬合指標(biāo)更小,數(shù)據(jù)擬合更優(yōu),表明在包含題組結(jié)構(gòu)的測驗中,更適合用PCDTM 進(jìn)行分析。PCDTM 對七個題組效應(yīng)方差的估計結(jié)果為=0.001,=0.507,=0.639,=0.397,=0.498,=0.846,=1.071。其中,第一個題組效應(yīng)非常小,該題組可能不存在,其余6 個題組對該數(shù)學(xué)測驗產(chǎn)生中等或高程度的題組效應(yīng)。正是由于GPCDM 忽視了該測驗的題組效應(yīng),導(dǎo)致模型擬合偏差增大。
5.3.2 題目參數(shù)估計均值比較
表4 為兩個模型對實證研究題目的截距項和主效應(yīng)項的參數(shù)估計均值及標(biāo)準(zhǔn)誤。其中λjx0為截距項,λjx,1,λjx,2和λjx,3分別為三個屬性的主效應(yīng)參數(shù)。結(jié)果顯示,相比于GPCDM,PCDTM 的題目參數(shù)估計的標(biāo)準(zhǔn)誤更小,表明PCDTM 模型估計的可靠性更高。
整體而言,PCDTM 模型與實證數(shù)據(jù)的擬合情況更好,題目參數(shù)估計結(jié)果更佳,是處理帶題組測驗的優(yōu)勢模型。
本文將多維題組隨機(jī)效應(yīng)參數(shù)引入多級評分認(rèn)知診斷模型中,成功構(gòu)建了PCDTM 模型,并得出以下結(jié)論:
(1)PCDTM 合理有效,無論測驗是否含有題組效應(yīng),均能得到精確的參數(shù)估計結(jié)果。隨著樣本量、題目質(zhì)量、題目數(shù)量增加,被試判準(zhǔn)率、題目參數(shù)與題組效應(yīng)參數(shù)估計精度均有所提高。
(2)忽視題組效應(yīng),會降低題目參數(shù)估計精度和被試判準(zhǔn)率,甚至出現(xiàn)估計結(jié)果混亂的情況。
(3)實證研究中,PCDTM 模型擬合更優(yōu),參數(shù)估計精度更高,是處理題組數(shù)據(jù)的優(yōu)勢模型,值得推廣。
6.2.1 PCDTM 適用性
整體而言,PCDTM 模型具有較好的參數(shù)估計表現(xiàn),對無題組效應(yīng)的作答數(shù)據(jù)也能達(dá)到與GPCDM 相近的精度,同時對有題組效應(yīng)的作答數(shù)據(jù),PCDTM 模型擬合效果更佳,參數(shù)估計精度也更高。這是因為PCDTM 模型對局部依賴性進(jìn)行表征,將其視為影響作答結(jié)果的另一種影響因素,不僅能有效處理題目間存在的依賴性,還能減少了模型的系統(tǒng)誤差,提高了模型對數(shù)據(jù)的擬合程度,從而提高對被試能力和題目參數(shù)估計的精確性。
6.2.2 PCDTM 使用建議
模擬研究中,題目質(zhì)量對判準(zhǔn)率影響最大,樣本量影響最??;樣本量對題目參數(shù)影響最大,其次是題目質(zhì)量。當(dāng)樣本量增多,題目參數(shù)表現(xiàn)情況更好,若想得到較精準(zhǔn)的參數(shù)估計結(jié)果,又保證運(yùn)行效率,建議樣本量不低于1000。高題目質(zhì)量時,參數(shù)估計精度均較高,低題目質(zhì)量時,即使樣本量增加,判準(zhǔn)率也較低,此時通過提高題目數(shù)量,參數(shù)估計精度便能大幅度提高。因此,在實際應(yīng)用時樣本量至少1000 人;題目質(zhì)量較低時,題目至少40 題。
6.2.3 研究展望
未來研究可從以下方面探索:(1)本研究是以分部評分思想構(gòu)建模型,未來可基于不同建模思想,構(gòu)建豐富的多級評分題組模型;(2)項目功能差異檢驗(differential item function,DIF)是衡量測驗公平性的重要指標(biāo),而目前基于題組模型的DIF 檢驗方法大多基于CTT 或IRT,也需要適合認(rèn)知診斷的題組DIF 檢驗方法;(3)多項選擇題(Multiple-Choice,MC)常以題組形式出現(xiàn),雖已有對MC 題診斷方法的研究(Di-Bello et al.,2015;Liu&Liu,2021;郭磊,周文杰,2021),卻未處理存在的題組效應(yīng),未來也需開發(fā)合適的診斷模型。