劉彥樓 辛 濤, 李令青 田 偉 劉笑笑
(1北京師范大學(xué)發(fā)展心理研究所,北京 100875) (2中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875)(3泰山學(xué)院教師教育學(xué)院,山東泰安 271000)
General Diagnostic Model,
GDM)、Henson,Templin 和 Willse (2009)提出的對數(shù)線性認(rèn)知診斷模型(Log-Linear Cognitive Diagnosis Model,
LCDM)以及 de la Torre (2011)的G-DINA模型,常見的特殊的認(rèn)知診斷模型有決定性輸入,噪音與門模型(Deterministic Input,Noisy And Gate,
DINA) (de la Torre &Douglas,2004;Haertel,1989;Junker &Sijtsma,2001),補(bǔ)償?shù)闹貐?shù)化統(tǒng)一模型(Compensatory Reparameterized Unified Model,
C-RUM) (e.g.,Hartz,2002)等。從統(tǒng)計(jì)上來講,以上這些一般性的認(rèn)知診斷模型與特殊的認(rèn)知診斷模型都屬于有約束的潛在類別模型(von Davier,2009)。這些“約束”主要是通過Q矩陣來實(shí)現(xiàn)的。Q矩陣是一個(gè)設(shè)計(jì)矩陣,其中的元素一般是“0”與“1”,雖然有研究(Chen &de la Torre,2013)已經(jīng)將 Q矩陣擴(kuò)展為多級(jí)的,但在絕大多數(shù)的實(shí)際應(yīng)用中仍假定其是二分的,因此本研究仍假定Q矩陣是二分的。在認(rèn)知診斷模型中一般將受測者的知識(shí)或技能統(tǒng)稱為潛在屬性,簡稱屬性。Q矩陣的功能在于設(shè)定認(rèn)知診斷測驗(yàn)中項(xiàng)目與屬性之間的對應(yīng)關(guān)系,Q矩陣中元素取值為1代表正確作答某一項(xiàng)目需要某一對應(yīng)的屬性,取值為0則代表不需要。將認(rèn)知診斷模型與Q矩陣在項(xiàng)目水平上進(jìn)行組合,可以反映出研究者對于受測者在作答項(xiàng)目時(shí)的潛在認(rèn)知過程或操作的假定。
在使用認(rèn)知診斷測驗(yàn)對于受測者的屬性掌握狀況進(jìn)行診斷的時(shí)候,研究者面臨的一個(gè)重要的理論及現(xiàn)實(shí)問題是如何進(jìn)行項(xiàng)目功能差異(Differential Item Functioning,
DIF)檢驗(yàn)。因?yàn)楫?dāng)測驗(yàn)中含有功能差異的項(xiàng)目時(shí),不僅會(huì)產(chǎn)生測驗(yàn)公平性的問題,而且也會(huì)影響到受測者屬性掌握模式的判別(王卓然,邊玉芳,郭磊,2015)。在認(rèn)知診斷模型中一個(gè)被廣泛接受的 DIF定義是不同組中具有相同屬性掌握模式的受測者正確作答某一項(xiàng)目的概率不同(Hou et al.,2014;Li,2008)。當(dāng)前研究者們提出了一些不同的方法用于檢驗(yàn)認(rèn)知診斷模型中的DIF (Hou et al.,2014;Li,2008;王卓然,郭磊,邊玉芳,2014;Li &Wang,2015;Zhang,2006)。Zhang (2006)提出使用 MH法(Holland &Thayer,1988;Mantel &Haenszel,1959)以及SIBTEST法(Shealy &Stout,1993),用受測者的測驗(yàn)總分以及屬性掌握模式作為匹配變量去檢驗(yàn) DINA模型中的 DIF。Zhang (2006)所提出的方法中的不足之處在于:目標(biāo)組以及對照組的項(xiàng)目參數(shù)以及屬性掌握模式參數(shù)是作為一個(gè)整體被同時(shí)估計(jì)出來的,因此會(huì)導(dǎo)致其估計(jì)值不準(zhǔn)確;另外,MH法以及SIBTEST法只能檢驗(yàn)一致性DIF。Hou(2013)的研究中指出邏輯斯蒂克回歸法(Logistic Regression,
LR) (Swaminathan &Rogers,1990),MH法以及 SIBTEST法的統(tǒng)計(jì)檢驗(yàn)力都受到測驗(yàn)中DIF項(xiàng)目比例的影響。Li (2008)使用改進(jìn)的高階DINA模型(de la Torre &Douglas,2004)去檢驗(yàn)DIF,然而,Li研究的不足之處在于:在某些模擬條件下,經(jīng)驗(yàn)一類錯(cuò)誤率(指的是在實(shí)際模擬中所觀察到的一類錯(cuò)誤)過高或者過低;另外這一方法只適用于高階模型而非一般性的模型。Hou等人(2014)提出使用 Wald統(tǒng)計(jì)量檢驗(yàn)項(xiàng)目功能差異,并且認(rèn)為Wald統(tǒng)計(jì)量的檢驗(yàn)方法的效果接近或者是優(yōu)于MH以及SIBTEST方法,然而,Hou等人所提出的Wald統(tǒng)計(jì)量存在以下不足:首先是一類錯(cuò)誤率過高,不符合預(yù)先設(shè)置的顯著性水平;其次,統(tǒng)計(jì)功效研究中,正確拒絕率是使用的每個(gè)模擬條件下的10,000次重復(fù)所獲得統(tǒng)計(jì)量的經(jīng)驗(yàn)分布來計(jì)算的,這使得其研究結(jié)果無法推廣到一般性的模型以及實(shí)際應(yīng)用中。另外,需要指出,Hou等人(2014)在計(jì)算Wald統(tǒng)計(jì)量時(shí)使用的是de la Torre (2009,2011)所提出認(rèn)知診斷模型信息矩陣的計(jì)算方法。王卓然等人(2014)的研究發(fā)現(xiàn)盡管 Wald方法的檢驗(yàn)力要高于LR法與MH法,但是也存在一類錯(cuò)誤率膨脹的問題。Li和Wang (2015)比較了使用馬爾可夫鏈蒙特卡羅(Markov chain Monte Carlo,
MCMC)法計(jì)算項(xiàng)目參數(shù)時(shí),LCDM-DIF方法以及Wald方法在評價(jià)項(xiàng)目功能差異時(shí)的表現(xiàn)。Li和Wang發(fā)現(xiàn),他們所使用的LCDM-DIF方法以及Wald統(tǒng)計(jì)量具有較好的一類錯(cuò)誤控制率(僅有稍許的膨脹),并且當(dāng)被比較的組數(shù)為 3時(shí),Wald統(tǒng)計(jì)量的統(tǒng)計(jì)功效要優(yōu)于LCDM-DIF。通過以上文獻(xiàn)綜述我們可以發(fā)現(xiàn),盡管研究者們一致地認(rèn)為Wald統(tǒng)計(jì)量在檢驗(yàn)DIF時(shí)有著高的統(tǒng)計(jì)檢驗(yàn)力,但是不同的研究對于 Wald統(tǒng)計(jì)量的一類錯(cuò)誤控制率的表現(xiàn)卻有著不同的結(jié)果。澄清不同的方法構(gòu)建的Wald統(tǒng)計(jì)量為什么在一類錯(cuò)誤控制率的表現(xiàn)不同這個(gè)問題,不僅在理論上具有重要意義,而且對于測驗(yàn)實(shí)踐也有重要意義。Hou等人(2014)以及王卓然等人(2014)所使用Wald統(tǒng)計(jì)量,均是基于de la Torre (2009,2011)所提出的項(xiàng)目參數(shù)的經(jīng)驗(yàn)交叉相乘信息矩陣而構(gòu)建的,而非基于全部的模型參數(shù)(即模型中所有自由估計(jì)的參數(shù))。然而,相關(guān)研究指出(Tian,Cai,Thissen,&Xin,2013;Paek&Cai,2013)通過對信息矩陣求逆計(jì)算誤差—協(xié)方差矩陣時(shí),信息矩陣應(yīng)該包括全部的模型參數(shù),而非僅僅是項(xiàng)目參數(shù);并且研究發(fā)現(xiàn)當(dāng)模型的參數(shù)是通過EM (Expectation-Maximization)方法(de la Torre,2009,2011)所估計(jì)獲得時(shí),應(yīng)該通過對觀察信息矩陣(基于樣本觀測數(shù)據(jù)所計(jì)算的信息矩陣,有些研究中也將其簡稱為觀察矩陣)求逆的方法計(jì)算誤差—協(xié)方差矩陣(Kenward &Molenberghs,1998;Louis,1982)。已有研究發(fā)現(xiàn)在項(xiàng)目反應(yīng)理論中觀察信息矩陣的逆可以很好的漸近誤差—協(xié)方差矩陣(Paek &Cai,2013)。
針對以往研究中Wald統(tǒng)計(jì)量構(gòu)建方法的局限,解決在認(rèn)知診斷模型中更加準(zhǔn)確地估計(jì)Wald統(tǒng)計(jì)量這一重大理論問題,促進(jìn)認(rèn)知診斷測驗(yàn)在實(shí)踐中的運(yùn)用,本研究擬將觀察信息矩陣的計(jì)算方法引入到認(rèn)知診斷模型中,期望獲得一個(gè)好的誤差—協(xié)方差矩陣的估計(jì)方法,從而改進(jìn) Wald統(tǒng)計(jì)量在檢驗(yàn)DIF時(shí)的表現(xiàn)。研究包括主要包括以下3個(gè)部分:首先,介紹用于檢驗(yàn)認(rèn)知診斷模型中 DIF的 Wald統(tǒng)計(jì)量的構(gòu)建,重點(diǎn)強(qiáng)調(diào)誤差—協(xié)方差矩陣在構(gòu)建中所起的重要作用;其次,介紹認(rèn)知診斷模型中經(jīng)驗(yàn)交叉相乘信息矩陣以及觀察信息矩陣的計(jì)算方法;第三,采用模擬的方法,探索本研究所提出的改進(jìn)后的Wald統(tǒng)計(jì)量在計(jì)算DIF時(shí)的一類錯(cuò)誤控制率以及統(tǒng)計(jì)檢驗(yàn)力的表現(xiàn),并且與通過經(jīng)驗(yàn)交叉相乘信息矩陣而構(gòu)建的Wald統(tǒng)計(jì)量所獲得的結(jié)果進(jìn)行比較;為了更好的說明本研究中的研究結(jié)果,我們也將本研究的結(jié)果與其他采用相同實(shí)驗(yàn)設(shè)計(jì)的研究的結(jié)果(如,Hou et al.,2014;Li &Wang,2015)進(jìn)行了直接的比較。
在本研究中,我們將使用LCDM作為例子,說明在認(rèn)知診斷模型中如何應(yīng)用改進(jìn)后的Wald統(tǒng)計(jì)量進(jìn)行DIF檢驗(yàn)。LCDM是一個(gè)廣義的認(rèn)知診斷模型,對于其中的參數(shù)進(jìn)行約束,便可以獲得一些特殊的模型,如DINA以及C-RUM等(Henson et al.,2009)。
i
在各個(gè)項(xiàng)目上的作答是獨(dú)立的,其反應(yīng)向量X的似然函數(shù),可以表示如下,p
(α)是屬性掌握模式 α的概率,在LCDM中,所有屬性掌握模式的概率之和為1。為滿足這一約束,本研究參考 Rupp,Templin和 Henson(2010)所使用的概念,設(shè)η=(η,…,η)′為模型的結(jié)構(gòu)參數(shù)(structural parameters
),用以描述任一受測者來自特定屬性掌握模式的概率,使用以下表達(dá)式,再進(jìn)一步假定,受測者之間的作答都是獨(dú)立的,因此所有受測者作答X的似然函數(shù)為可以用如下公式來表示,
從公式(8)可以發(fā)現(xiàn)方差—協(xié)方差矩陣估計(jì)的準(zhǔn)確性,對于 Wald統(tǒng)計(jì)量會(huì)產(chǎn)生重大的影響,這也就是說LCDM中信息矩陣的估計(jì)會(huì)對Wald統(tǒng)計(jì)量的計(jì)算產(chǎn)生重大影響。
EM算法(Dempster,Laird,&Rubin,1977)對于心理測量學(xué)產(chǎn)生了非常大的影響,它將復(fù)雜的計(jì)算非完整數(shù)據(jù)似然函數(shù)最大值問題轉(zhuǎn)換為較為簡單的一系列偽完整數(shù)據(jù)問題,在認(rèn)知診斷模型分析軟件中得到了廣泛的應(yīng)用。然而,在通過EM算法計(jì)算參數(shù)時(shí),信息矩陣(或者是其逆方差—協(xié)方差矩陣)并不是伴隨產(chǎn)生的,因此,需要去進(jìn)行專門的計(jì)算。研究發(fā)現(xiàn),當(dāng)使用期望—最大化算法去計(jì)算模型的極大似然估計(jì)值時(shí),使用觀察信息矩陣能夠很好的去漸近模型的方差—協(xié)方差矩陣(Louis,1982),感興趣的研究者可以參考 Kenward和 Molenberghs(1998)的研究。對于 LCDM 而言,包含所有自由估計(jì)參數(shù)的經(jīng)驗(yàn)交叉相乘信息矩陣的公式可以表達(dá)如下:
R
語言(R Core Team,2015)編程實(shí)現(xiàn)。每種實(shí)驗(yàn)條件均重復(fù)1000次,以獲得穩(wěn)定的結(jié)果。為了便于與以往研究結(jié)果進(jìn)行直接的比較,本研究所采用Hou等人(2014)所設(shè)計(jì)的實(shí)驗(yàn)條件,這些實(shí)驗(yàn)條件也被Li和Wang (2015)所采用。與Hou等人(2014)研究不同的是,本研究中 Wald統(tǒng)計(jì)量的計(jì)算是通過包含全部模型參數(shù)的觀察信息矩陣或者是經(jīng)驗(yàn)交叉相乘信息矩陣所計(jì)算獲得的。本研究中所采用Q矩陣中包含30個(gè)測驗(yàn)項(xiàng)目,5個(gè)屬性,并且限制每個(gè)項(xiàng)目所包含的屬性數(shù)量最多為3。Q矩陣采用平衡設(shè)計(jì),每個(gè)屬性被項(xiàng)目所測量的次數(shù)相等,同樣使包含 1、2、3個(gè)屬性的項(xiàng)目數(shù)量也相等即包含1、2、3個(gè)屬性的項(xiàng)目分別有10個(gè)。具體的Q矩陣設(shè)計(jì)見表1。
為方便與以往研究結(jié)果進(jìn)行直接對比,本研究設(shè)計(jì)中的數(shù)據(jù)生成模型也同樣采用DINA模型,對照組中的猜測以及滑動(dòng)參數(shù)設(shè)置為相等,且有三個(gè)水平:0.1,0.2以及0.3,猜測以及滑動(dòng)參數(shù)值設(shè)置的越小,說明項(xiàng)目越能夠區(qū)分出受測者是否掌握了所測的屬性(Templin &Henson,2006)。DIF類型有兩個(gè)水平:一致性DIF以及非一致性 DIF。一致性 DIF指的是對于某一個(gè)組而言,正確作答某個(gè)項(xiàng)目的概率在所有可能的屬性掌握模式下均一致性地高或者是低;非一致性DIF指的是正確作答某個(gè)項(xiàng)目的概率在一些屬性掌握模式下高,在另外一些屬性掌握模式下低,或者是相反,即正確作答的概率具有非一致性。DIF大小有兩個(gè)水平:0.05與0.1,當(dāng)項(xiàng)目參數(shù)值為0.1時(shí)僅考慮了0.05這一水平的DIF大小,以防項(xiàng)目參數(shù)值等于 0。樣本大小有兩個(gè)水平:500與1000。在認(rèn)知診斷模型中樣本的大小會(huì)對模型參數(shù)估計(jì)值的精確性產(chǎn)生影響,進(jìn)而也會(huì)影響到Wald統(tǒng)計(jì)量的計(jì)算,因此,樣本大小也是一個(gè)需要考慮的重要因素。
表1 Q矩陣
本研究中所采用的評價(jià)指標(biāo)為經(jīng)驗(yàn)一類錯(cuò)誤率以及統(tǒng)計(jì)檢驗(yàn)力。經(jīng)驗(yàn)一類錯(cuò)誤率是通過 1000次模擬中,錯(cuò)誤地檢驗(yàn)出每個(gè)項(xiàng)目出現(xiàn)DIF的百分比,然后參照以往研究結(jié)果的呈現(xiàn)方式(Hou et al.,2014),分別對包含一個(gè)、兩個(gè)以及三個(gè)屬性的項(xiàng)目求平均。統(tǒng)計(jì)檢驗(yàn)力指的是在這1000次循環(huán)中正確拒絕原假設(shè)的比例。當(dāng)認(rèn)知診斷測驗(yàn)中不存在 DIF時(shí),如果我們所構(gòu)建 Wald統(tǒng)計(jì)量是漸近卡方分布的,那么它觀察到的一類錯(cuò)誤率應(yīng)該符合預(yù)先設(shè)置的理論上的一類錯(cuò)誤控制率,如0.05;如果在認(rèn)知診斷測驗(yàn)中存在 DIF,那么 Wald統(tǒng)計(jì)量正確拒絕的比例越高,說明它能夠檢驗(yàn)出DIF項(xiàng)目的能力越強(qiáng)。
N
=500)且項(xiàng)目的猜測參數(shù)以及滑動(dòng)參數(shù)較大的情況下(g
=s
=0.3),平均的經(jīng)驗(yàn)一類錯(cuò)誤率表現(xiàn)較差,但根據(jù) Bradley (1978)的健壯寬松準(zhǔn)則(當(dāng)顯著性水平為 0.05時(shí)經(jīng)驗(yàn)一類錯(cuò)誤控制率在0.025與 0.075之間),仍然可以認(rèn)為是得到了較好的控制??梢园l(fā)現(xiàn),本研究中所提出的改進(jìn)的Wald統(tǒng)計(jì)量計(jì)算方法所獲得的結(jié)果并不存在過度膨脹的現(xiàn)象,這與 Hou等人(2014)以及王卓然等人(2015)的結(jié)果恰好相反,說明本研究中所提出的Wald統(tǒng)計(jì)量的計(jì)算方法明顯優(yōu)于以上兩個(gè)研究所使用的 Wald統(tǒng)計(jì)量的計(jì)算方法。通過比較表2與表3中的一類錯(cuò)誤控制率可以發(fā)現(xiàn)基于觀察信息矩陣計(jì)算的Wald統(tǒng)計(jì)量的表現(xiàn)要優(yōu)于基于經(jīng)驗(yàn)交叉相乘信息矩陣而計(jì)算的Wald統(tǒng)計(jì)量?;诮?jīng)驗(yàn)交叉相乘矩陣而獲得的Wald統(tǒng)計(jì)量的一類錯(cuò)誤控制率較為保守,但是表3的結(jié)果同樣顯示包含一個(gè)、兩個(gè)以及三個(gè)屬性的項(xiàng)目的一類錯(cuò)誤控制率仍大致相等。Li和 Wang (2015)在 MCMC框架下采用LCDM-DIF以及Wald統(tǒng)計(jì)量對于DIF檢驗(yàn)方法進(jìn)行了研究,在其研究一中同樣采用了 Hou等人(2014)的研究設(shè)計(jì),因此本研究的研究結(jié)果同樣也是可以直接與 Li等人的結(jié)果進(jìn)行比較。通過對比研究結(jié)果可以發(fā)現(xiàn),本研究中所提出基于觀察信息矩陣計(jì)算的Wald統(tǒng)計(jì)量與Li等人的研究中所使用的LCDM-DIF以及Wald統(tǒng)計(jì)量均具有較好的一類錯(cuò)誤控制率。一個(gè)非常有意思的現(xiàn)象是在本研究中的一些實(shí)驗(yàn)條件下(見表2)Wald統(tǒng)計(jì)量一類錯(cuò)誤率有細(xì)微的保守而Li等人研究結(jié)果中的LCDM-DIF以及 Wald統(tǒng)計(jì)量在某些實(shí)驗(yàn)條件中一類錯(cuò)誤率卻有稍許膨脹。從公式(8)中可以發(fā)現(xiàn)Wald統(tǒng)計(jì)量的準(zhǔn)確性,依賴于模型參數(shù)估計(jì)值的準(zhǔn)確性。當(dāng)受測者數(shù)量較少(如N
=500時(shí))或者是模型中的“噪音”過大時(shí)(如項(xiàng)目的猜測與滑動(dòng)參數(shù)均為 0.3時(shí)),模型參數(shù)估計(jì)值的準(zhǔn)確性會(huì)受到相對較大的影響,因此,在本研究的N
=500以及g
=s
=0.3這兩種條件下Wald統(tǒng)計(jì)量一類錯(cuò)誤率有細(xì)微的保守。表2 基于觀察信息矩陣的平均的經(jīng)驗(yàn)一類錯(cuò)誤率(α=0.05)
表3 基于經(jīng)驗(yàn)交叉相乘信息矩陣的平均的經(jīng)驗(yàn)一類錯(cuò)誤率(α=0.05)
表4中呈現(xiàn)的是當(dāng)認(rèn)知診斷測驗(yàn)中存在一致性DIF時(shí)的考察一個(gè)、兩個(gè)以及三個(gè)屬性項(xiàng)目在1000次循環(huán)中的基于觀察信息矩陣計(jì)算的 Wald統(tǒng)計(jì)量的平均經(jīng)驗(yàn)拒絕比例,所使用的參照分布同樣為自由度為2的卡方分布。從表4中可以看出,隨著DIF的增大,Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力也會(huì)隨之增大,并且當(dāng)項(xiàng)目的猜測以及滑動(dòng)參數(shù)都為 0.2的時(shí)候,總平均的拒絕率要大于同為0.3時(shí)的項(xiàng)目參數(shù)值的條件。這是由于同項(xiàng)目參數(shù)值0.3相比,DIF大小為0.1時(shí),這一值對于項(xiàng)目參數(shù)值0.2而言相對更大。隨著樣本量的增加,Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力也在變大,即樣本量的大小對用于檢驗(yàn)DIF的Wald統(tǒng)計(jì)量而言也是一個(gè)重要因素。因?yàn)殡S著樣本量的增加,模型參數(shù)估計(jì)值的準(zhǔn)確性也會(huì)增加,進(jìn)而會(huì)使得參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤變小,因此,在對照組與目標(biāo)組項(xiàng)目參數(shù)差異相等的情況下,更傾向于獲得一個(gè)大的Wald統(tǒng)計(jì)量的值。另外,通過觀察平均值可以發(fā)現(xiàn),當(dāng)目標(biāo)組具有負(fù)向的 DIF時(shí),同正向 DIF相比,Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力更大。比較表4與表5,可以發(fā)現(xiàn)基于觀察信息矩陣的Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力均要明顯優(yōu)于基于經(jīng)驗(yàn)交叉相乘信息矩陣的Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力。這也說明基于經(jīng)驗(yàn)交叉相乘信息矩陣的Wald統(tǒng)計(jì)量存在保守的問題。
表4 基于觀察信息矩陣的一致性DIF的平均經(jīng)驗(yàn)統(tǒng)計(jì)檢驗(yàn)力(α=0.05)
表6中呈現(xiàn)的是非一致性DIF條件下采用觀察信息矩陣的Wald統(tǒng)計(jì)量的1000次模擬結(jié)果,計(jì)算統(tǒng)計(jì)檢驗(yàn)力所使用的參照分布同樣為自由度為2的卡方分布。從表6中同樣可以發(fā)現(xiàn)隨著DIF的增大,Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力也在增大。隨著樣本量的增加,Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力同樣是在增大的。而且在DIF大小相同條件下,當(dāng)項(xiàng)目的猜測以及滑動(dòng)參數(shù)相對較小時(shí),Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力會(huì)相對較大。比較表6與表7同樣可以發(fā)現(xiàn),在非一致性DIF條件下,采用觀察信息矩陣計(jì)算的Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力均高于采用經(jīng)驗(yàn)交叉相乘信息矩陣而計(jì)算獲得的Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力。
表5 基于經(jīng)驗(yàn)交叉相乘信息矩陣的一致性DIF的平均經(jīng)驗(yàn)統(tǒng)計(jì)檢驗(yàn)力(α=0.05)
表6 基于觀察信息矩陣的非一致性DIF的平均經(jīng)驗(yàn)統(tǒng)計(jì)檢驗(yàn)力(α=0.05)
表7 基于經(jīng)驗(yàn)交叉相乘信息矩陣的非一致性DIF的平均經(jīng)驗(yàn)統(tǒng)計(jì)檢驗(yàn)力(α=0.05)
認(rèn)知診斷模型能夠提夠關(guān)于受測者屬性掌握模式的較為詳盡的診斷性信息,它不僅能為老師的教以及學(xué)生的學(xué)提供有針對性的建議,而且也有助于教育者深入理解受測者的認(rèn)知心理。在使用這一模型來解釋受測者的作答之前,研究者需要確定認(rèn)知診斷測驗(yàn)項(xiàng)目的參數(shù)對于所有受測者都是不變的,否則會(huì)對受測者的屬性掌握模式的估計(jì)帶來不良的影響(王卓然等,2015),進(jìn)而導(dǎo)致錯(cuò)誤的診斷性信息。DIF檢驗(yàn)可以用以確認(rèn)不同組的受測者在同一個(gè)項(xiàng)目的作答上是否存在差異,即除了屬性掌握模式外,受測者所在的組會(huì)影響到他們對于項(xiàng)目的反應(yīng)。為保證測驗(yàn)的效度,在使用認(rèn)知診斷模型來擬合受測者的作答數(shù)據(jù)前,需要進(jìn)行DIF檢驗(yàn)。先前研究者發(fā)現(xiàn)Wald統(tǒng)計(jì)量在檢驗(yàn)DIF時(shí),有著許多其他統(tǒng)計(jì)量所不具備的優(yōu)點(diǎn),然而前人研究中對于Wald統(tǒng)計(jì)量在檢驗(yàn)DIF時(shí)的一類錯(cuò)誤率的表現(xiàn),存在明顯的結(jié)論沖突。如,Hou等人(2014)以及王卓然等人(2014)的模擬研究發(fā)現(xiàn) Wald統(tǒng)計(jì)量會(huì)存在一類錯(cuò)誤控制率膨脹的問題,Li和Wang (2015)的模擬研究卻發(fā)現(xiàn),其研究中所用的 LCDM-DIF以及Wald統(tǒng)計(jì)量在使用MCMC計(jì)算時(shí)有著良好的一類錯(cuò)誤控制率。本研究采用Hou等人以及Li等人研究中所使用的同等條件通過模擬發(fā)現(xiàn),這些差異主要是由于 Wald統(tǒng)計(jì)量計(jì)算方法的差異引起的。因此,我們認(rèn)為本研究提出的改進(jìn)的 Wald統(tǒng)計(jì)量的計(jì)算方法解決了 DIF研究中一直困擾研究者的Wald統(tǒng)計(jì)量在檢驗(yàn)DIF時(shí)的一類錯(cuò)誤率的表現(xiàn)不同這一重要問題,具有重大的理論意義。
在模型正確設(shè)定的前提下,如果統(tǒng)計(jì)量能夠很好的服從漸近分布,那么,它的一類錯(cuò)誤控制率應(yīng)該能夠較好的接近預(yù)先設(shè)定好的顯著性水平。本研究中所提出改進(jìn)的 Wald統(tǒng)計(jì)量的計(jì)算方法具有這一特征,從結(jié)果中可以發(fā)現(xiàn),本研究的一類錯(cuò)誤控制率均較好地接近預(yù)先設(shè)定的 0.05這一顯著性水平。因此,我們認(rèn)為在Hou等人(2014)以及王卓然等人(2014)研究中所產(chǎn)生的 Wald統(tǒng)計(jì)量一類錯(cuò)誤膨脹的問題,是由于不恰當(dāng)?shù)男畔⒕仃嚬烙?jì)方法而引起的。本研究的這一結(jié)果明確地解釋了為什么 Wald統(tǒng)計(jì)量在不同研究中有不同表現(xiàn)的問題,對于認(rèn)知診斷模型的理論發(fā)展有一定的推動(dòng)作用。另外,相對于MCMC參數(shù)估計(jì)方法,MMLE/EM具有運(yùn)算量小、耗時(shí)短等優(yōu)點(diǎn),本研究所提出的改進(jìn)的 Wald統(tǒng)計(jì)量正是基于 MMLE/EM,因此,本研究不僅具有重大的理論意義,而且對于認(rèn)知診斷實(shí)踐也具有重要的現(xiàn)實(shí)意義。
N
=1000),改進(jìn)后的Wald統(tǒng)計(jì)量在檢驗(yàn)DIF時(shí)的統(tǒng)計(jì)檢驗(yàn)力均明顯的高于樣本量比較小時(shí)(N
=500)的統(tǒng)計(jì)檢驗(yàn)力。因此,本研究建議在應(yīng)用Wald統(tǒng)計(jì)量進(jìn)行DIF檢驗(yàn)的時(shí)候,如果想要達(dá)到較高的統(tǒng)計(jì)檢驗(yàn)力,應(yīng)保證較大的樣本量。因?yàn)镠ou等人(2014)發(fā)現(xiàn),其研究中所采用的 Wald統(tǒng)計(jì)量計(jì)算方式,會(huì)導(dǎo)致一類錯(cuò)誤率膨脹,因此,在計(jì)算統(tǒng)計(jì)檢驗(yàn)力的時(shí)候,她們采用了兩種方式進(jìn)行。第一種方式是直接用 Wald統(tǒng)計(jì)量的理論分布即自由度為2的卡方分布的理論值來計(jì)算,由于其開發(fā)的 Wald統(tǒng)計(jì)量的計(jì)算方式的一類錯(cuò)誤率膨脹會(huì)使得原本不存在 DIF的項(xiàng)目被誤判為存在 DIF,因此計(jì)算結(jié)果不夠可靠;她們所采用的第二種方式是計(jì)算當(dāng)不存在 DIF項(xiàng)目時(shí)Wald統(tǒng)計(jì)量在每種實(shí)驗(yàn)條件組合下10,000次模擬的經(jīng)驗(yàn)分布,然后通過獲得的顯著性水平的臨界值,來計(jì)算Wald統(tǒng)計(jì)量的統(tǒng)計(jì)檢驗(yàn)力,這種計(jì)算方式雖然保證了模擬實(shí)驗(yàn)結(jié)果具有較高的可靠性,但是不具備現(xiàn)實(shí)的可操作性,因此,對于其研究目的而言只能算是一種不完整解決的方案。因?yàn)镠ou等人(2014)的第二種計(jì)算方式具有較高的理論上的結(jié)果可靠性,因此可以作為研究結(jié)果的一個(gè)參考。通過研究結(jié)果對照我們發(fā)現(xiàn),本研究所采用的自由度為2的卡方分布理論值所計(jì)算獲得的研究結(jié)果與 Hou等人(2014)的第二種計(jì)算方式所獲結(jié)果具有很高的一致性,這也能夠間接的表明,本研究所使用的改進(jìn)后的Wald統(tǒng)計(jì)量計(jì)算方式具有準(zhǔn)確性及可靠性的特點(diǎn)。由于本研究關(guān)注的重點(diǎn)在于,在EM算法框架下提出一個(gè)恰當(dāng)?shù)?Wald統(tǒng)計(jì)量的計(jì)算方式,用以準(zhǔn)確有效地來檢驗(yàn)認(rèn)知診斷測驗(yàn)中可能存在的DIF項(xiàng)目,澄清以往研究中所用de la Torre (2009,2011)所提出的信息矩陣方法計(jì)算Wald統(tǒng)計(jì)量時(shí)所產(chǎn)生的令人困惑的結(jié)果。因此,本研究僅采用了Hou等人(2014)的研究設(shè)計(jì),通過結(jié)果對比的方式來證明本研究所提出的改進(jìn)的Wald統(tǒng)計(jì)量在檢驗(yàn)DIF時(shí)具有準(zhǔn)確性可靠性等特點(diǎn)。具體而言,研究者可以就以下幾方面進(jìn)行后續(xù)研究:首先,樣本大小對于 Wald統(tǒng)計(jì)量有重要影響,因此,后續(xù)研究中可以使用本研究中所用Wald統(tǒng)計(jì)量考察這一因素對于DIF的影響;其次,目前的研究中普遍采用 DINA或者是高階DINA作為例證模型,本研究出于結(jié)果比較的因素考慮,也是以DINA模型為例,在其他認(rèn)知診斷模型中Wald統(tǒng)計(jì)量用以檢驗(yàn)DIF時(shí)的表現(xiàn),也是一個(gè)非常有意思的研究方向。由于本研究所采用的是對于LCDM模型進(jìn)行約束而獲得的DINA模型,因此,可以很方便的進(jìn)行擴(kuò)展;第三,本研究所采用的項(xiàng)目數(shù)量為 30,且受測者組的數(shù)量為 2,在不同項(xiàng)目數(shù)量下以及不同的受測者組數(shù)量數(shù)下,Wald統(tǒng)計(jì)量的表現(xiàn)也值得研究者關(guān)注;第四,在認(rèn)知診斷模型中,除了Wald統(tǒng)計(jì)量可以進(jìn)行DIF檢驗(yàn)之外,還有一些其他的統(tǒng)計(jì)量也可以進(jìn)行 DIF檢驗(yàn)(Li,2008;Sünbül &Sünbül,2015,July),雖然目前研究表明,Wald統(tǒng)計(jì)量在檢驗(yàn)DIF時(shí),具有一些其他統(tǒng)計(jì)量所不具有的優(yōu)點(diǎn),但是,在另外的應(yīng)用情景中,這些DIF檢驗(yàn)方法的優(yōu)缺點(diǎn),仍然值得研究者的關(guān)注。
本研究中所提出的改進(jìn)的 Wald統(tǒng)計(jì)量的計(jì)算方法,在認(rèn)知診斷測驗(yàn)中不存在DIF項(xiàng)目時(shí),有著良好的一類錯(cuò)誤控制率,能夠較為準(zhǔn)確地接近預(yù)先設(shè)定的顯著性水平,即當(dāng)認(rèn)知診斷模型為DINA時(shí),改進(jìn)的Wald統(tǒng)計(jì)量服從自由度為2的卡方分布;在認(rèn)知診斷測驗(yàn)中存在DIF時(shí),改進(jìn)的Wald統(tǒng)計(jì)量能夠準(zhǔn)確有效的鑒別出存在DIF的項(xiàng)目。本研究同樣發(fā)現(xiàn)樣本量對于 Wald統(tǒng)計(jì)量的一類錯(cuò)誤控制率及統(tǒng)計(jì)檢驗(yàn)力存在重要影響。另外,我們建議認(rèn)知診斷模型的研究者與使用者,當(dāng)采用EM算法進(jìn)行參數(shù)估計(jì)時(shí),在確認(rèn)認(rèn)知診斷模型正確設(shè)定后,使用本研究中所使用觀察信息矩陣的方法計(jì)算項(xiàng)目參數(shù)的標(biāo)準(zhǔn)誤。
Bradley J.V.(1978).Robustness?.British Journal of Mathematical and Statistical Psychology,31
,144-152.Chen,J.S.,&de la Torre,J.(2013).A general cognitive diagnosis model for expert-defined polytomous attributes.Applied Psychological Measurement,37
,419-437.de la Torre,J.(2009).DINA model and parameter estimation:A didactic.Journal of Educational and Behavioral Statistics,34
,115-130.de la Torre,J.(2011).The generalized DINA model framework.Psychometrika,76
,179-199.de la Torre,J.,&Douglas,J.A.(2004).Higher-order latent trait models for cognitive diagnosis.Psychometrika,69
,333-353.Dempster,A.P.,Laird,N.M.,&Rubin,D.B.(1977).Maximum likelihood estimation from incomplete data via the EM algorithm.Journal of the Royal Statistical Society,Series B,39
,1-38.Greeno,J.G.(1980).Trends in the theory of knowledge for problem solving.In D.T.Tuma &F.Reif (Eds.),Problem solving and education: Issues in teaching and research
(pp.9-23).Hillsdale,NJ:Erlbaum.Haertel,E.H.(1989).Using restricted latent class models to map the skill structure of achievement items.Journal of Educational Measurement,26
,301-321.Hartz,S.M.(2002).A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality
(Unpublished doctorial dissertation).Department of Statistics,University of Illinois at Urbana-Champaign.Henson,R.A.,Templin,J.L.,&Willse,J.T.(2009).Defining a family of cognitive diagnosis models using log-linear models with latent variables.Psychometrika,74
,191-210.Holland,P.W.,&Thayer,D.T.(1988).Differential item functioning and the Mantel-Haenszel procedure.In H.Wainer &H.I.Braun (Eds.),Test validity
(pp.129-145).Hillsdale,NJ:Lawrence Erlbaum.Hou,L.K.,de la Torre,J.,&Nandakumar,R.(2014).Differential item functioning assessment in cognitive diagnosis modeling:Applying Wald test to investigate DIF for DINA model.Journal of Educational Measurement,51
,98-125.Junker,B.W.,&Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.Applied Psychological Measurement,25
,258-272.Kenward,M.G.&Molenberghs,G.(1998).Likelihood based frequentist inference when data are missing at random.Statistical Science,13
,236-247.Leighton,J.,&Gierl,M.(2007).Cognitive diagnostic assessment for education: Theory and applications
.Cambridge:Cambridge University Press.Li,F.M.(2008).A modified higher-order DINA model for detecting differential item functioning and differential attribute functioning
(Unpublished doctorial dissertation).University of Georgia.Li,X.M.,&Wang,W.C.(2015).Assessment of differential item functioning under cognitive diagnosis models:The DINA model example.Journal of Educational Measurement,52
,28-54.Louis,T.A.(1982).Finding the observed information matrix when using the EM algorithm.Journal of the Royal Statistical Society,Series B,44
,226-233.Mantel,N.,&Haenszel,W.(1959).Statistical aspects of the analysis of data from retrospective studies of disease.Journal of the National Cancer Institute,22
,719-748.Paek,I.,&Cai,L.(2013).A comparison of item parameter standard error estimation procedures for unidimensional and multidimensional item response theory modeling.Educational and Psychological Measurement,74
,58-76.R Core Team (2015).R: A language and environment for statistical computing.
R foundation for statistical computing,Vienna,Austria.Retrieved July 2,2015,from http://www.R-project.orgRupp,A.A.,Templin,J.,&Henson,R.A.(2010).Diagnostic measurement: Theory,methods,and applications
.New York,NY:Guilford.Shealy,R.,&Stout,W.(1993).A model-based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DTF as well as item bias/DIF.Psychometrika,58
,159-194.Sünbül,?.,&Sünbül,S.?.(2015,July).Evaluating performance of differential item functioning detection methods for DIF data in DINA model
.Paper presented at the meeting of the annual meeting of the International Meeting of the Psychometric Society,Beijing,China.Swaminathan,H.,&Rogers,H.J.(1990).Detecting differential item functioning using logistic regression procedures.Journal of Educational Measurement,27
(4),361-370.Templin,J.L.,&Henson,R.A.(2006).Measurement of psychological disorders using cognitive diagnosis models.Psychological Methods,11
,287-305.Tian,W.,Cai,L.,Thissen,D.,&Xin,T.(2013).Numerical differentiation methods for computing error covariance matrices in item response theory modeling:An evaluation and a new proposal.Educational and Psychological Measurement,73
,412-439.von Davier,M.(2005).A general diagnostic model applied to language testing data (ETS Research Report RR-05-16).
Princeton:Educational Testing Service.von Davier,M.(2009).Some notes on the reinvention of latent structure models as diagnostic classification models.Measurement:Interdisciplinary Research and Perspectives, 7
,67-74.Wang,Z.R.,Bian,Y.F.,&Guo,L.(2015).The impact of DIF on estimating accuracy of cognitive diagnostic test.Psychological Exploration,35
,272-278.[王卓然,邊玉芳,郭磊.(2015).項(xiàng)目功能差異對于認(rèn)知診斷測驗(yàn)估計(jì)準(zhǔn)確性的影響.心理學(xué)探新,35
,272-278.]Wang,Z.R.,Guo,L.,&Bian,Y.F.(2014).Comparison of DIF detecting methods in cognitive diagnostic test.Acta Psychologica Sinica,46
,1923-1932.[王卓然,郭磊,邊玉芳.(2014).認(rèn)知診斷測驗(yàn)中的項(xiàng)目功能差異檢測方法比較.心理學(xué)報(bào),46
,1923-1932.]Zhang,W.(2006).Detecting differential item functioning using the DINA model
(Unpublished doctorial dissertation).University of North Carolina at Greensboro.