郭 磊 鄭蟬金 邊玉芳 宋乃慶 夏凌翔
(1西南大學(xué)心理學(xué)部,重慶 400715) (2西南大學(xué)統(tǒng)計(jì)學(xué)博士后科研流動站,重慶 400715)(3中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心西南大學(xué)分中心,重慶 400715) (4江西師范大學(xué)心理學(xué)院,南昌 330022)(5北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875) (6西南大學(xué)基礎(chǔ)教育研究中心,重慶 400715)
formative assessment
),它要求提供給教育工作者和學(xué)生更多的測驗(yàn)信息,以幫助教師教學(xué)和學(xué)生改進(jìn)?;诖?認(rèn)知診斷評估(Cognitive Diagnostic Assessment,
CDA)通過測查學(xué)生是否掌握了某一知識領(lǐng)域內(nèi)的認(rèn)知屬性和技能而蓬勃發(fā)展。計(jì)算機(jī)化適應(yīng)性測驗(yàn)(Computerized adaptive testing,
CAT)是量體裁衣式的新型測驗(yàn)形式,在美國得以廣泛運(yùn)用,例如研究生入學(xué)考試(Graduate Record Examination
,GRE)、美國護(hù)士資格考試(The National Council of State Boards of Nursing,
NCSBN)等。和傳統(tǒng)紙筆測驗(yàn)相比,CAT測驗(yàn)長度更短,能力估計(jì)精度更高。將CDA和CAT結(jié)合兼具二者優(yōu)勢,能夠快速精準(zhǔn)地得到學(xué)生知識狀態(tài)(Knowledge State,
KS),該測驗(yàn)形式被稱作認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn)(Cognitive Diagnostic Computerized adaptive testing,
CD-CAT;Cheng,2009)。和傳統(tǒng)CAT一樣,CD-CAT同樣具有5個重要組成部分(郭磊,2014)。其中,研究最多的當(dāng)屬選題策略(Cheng,2009;Wang,Chang,&Douglas,2012;Wang,Chang,&Huebner,2011;Xu,Chang,&Douglas,2003;毛秀珍,辛濤,2011;尚志勇,丁樹良,2011;汪文義,丁樹良,宋麗紅,2014),因?yàn)檫x題策略的好壞不僅影響測驗(yàn)效率,還影響題庫的使用情況,通常被視作CAT系統(tǒng)的核心成分。CD-CAT在形成性評估中的一個重要作用是讓教師能在課堂中快速地掌握學(xué)生的學(xué)習(xí)動態(tài)。例如,上課前幾分鐘,教師用較短的測驗(yàn)可以初步掌握學(xué)生的知識狀態(tài),便于接下來有針對性地進(jìn)行課堂教學(xué)。因此,如何能在較短測驗(yàn)中準(zhǔn)確地估計(jì)學(xué)生的知識狀態(tài)尤為重要,這就跟選題策略息息相關(guān)。目前,在眾多選題策略中,效果較好并且應(yīng)用較多的是后驗(yàn)加權(quán)庫爾貝克-萊布勒信息量法(Posterior-Weighted Kullback-Leibler,
PWKL;Cheng,2009)。該方法將每次更新后的被試知識狀態(tài)的后驗(yàn)概率作為權(quán)重融合到庫爾貝克-萊布勒信息量(Kullback-Leibler information
)指標(biāo)中,大大提高了被試KS的估計(jì)精度。但PWKL指標(biāo)僅從個體層面(person-level
)對KL信息量進(jìn)行加權(quán),并未考慮項(xiàng)目質(zhì)量對估計(jì)精度的影響,屬于單源指標(biāo)(single-source index
)。在經(jīng)典測驗(yàn)理論(Classical Test Theory
,CTT)和項(xiàng)目反應(yīng)理論(Item Response Theory
,IRT)中,題目的質(zhì)量決定著測驗(yàn)的質(zhì)量,而題目質(zhì)量中比較關(guān)鍵的指標(biāo)之一就是項(xiàng)目區(qū)分度(item discrimination
)。項(xiàng)目區(qū)分度較高,表明該題目能夠較好地區(qū)分出高能力被試和低能力被試,這也是測驗(yàn)編制所追求的目標(biāo)之一。正是基于項(xiàng)目區(qū)分度如此重要的作用,Chang和Ying (1999)在傳統(tǒng)CAT中提出了著名的a分層選題法。他們建議在測驗(yàn)初期使用區(qū)分度較低的項(xiàng)目,因?yàn)闇y驗(yàn)初期對被試能力值的估計(jì)還不是很精確,無需使用項(xiàng)目信息量較高的項(xiàng)目,等到測驗(yàn)后期需要對被試能力值進(jìn)行精確估計(jì)時,再使用高區(qū)分度的項(xiàng)目。同樣,在CDA領(lǐng)域,我們?nèi)孕杩紤]項(xiàng)目質(zhì)量的問題。若項(xiàng)目區(qū)分度較高,則題目能夠區(qū)分出掌握該題目所考察屬性的被試和未掌握該題目所考察屬性的被試的能力(power
)就較大(Rupp,Templin,&Henson,2010)。可以看出,不論測驗(yàn)理論是CTT,IRT,還是CDA,項(xiàng)目區(qū)分度均是用來衡量題目能否有效區(qū)分出高能力被試和低能力被試(或不同知識狀態(tài))的關(guān)鍵指標(biāo)。Rupp等(2010)書中第13章總結(jié)了當(dāng)前CDA中常用的一些項(xiàng)目區(qū)分度指標(biāo),主要包括兩大類:一類是基于CTT思想提出的項(xiàng)目區(qū)分度指標(biāo),另一類是基于KL信息量提出的項(xiàng)目區(qū)分度指標(biāo)。另一方面,Wang(2013)基于互信息理論提出了互信息選題方法(Mutual Information Method
,MIM),模擬研究結(jié)果表明 MIM 在大多數(shù)實(shí)驗(yàn)條件下的判準(zhǔn)率要優(yōu)于PWKL,特別是在測驗(yàn)長度較短(5題)時,但 MIM并未考慮項(xiàng)目區(qū)分度信息。與傳統(tǒng)CAT一樣,在CD-CAT的實(shí)際應(yīng)用中,不容忽視的一個重要問題是項(xiàng)目曝光問題。當(dāng)前CD-CAT著重于測量精度的實(shí)現(xiàn),較少考慮項(xiàng)目曝光問題,導(dǎo)致題庫使用極其不均勻,優(yōu)質(zhì)題目曝光十分嚴(yán)重(Wang et al.,2011)。在選題策略的研究中,估計(jì)精度和項(xiàng)目曝光度往往是相互制約的。因此,要全面考察一個選題指標(biāo)的好壞,并與實(shí)際應(yīng)用情景相符,對項(xiàng)目過度曝光的控制是很重要的。但即使是在 Wang (2013)的研究中,也未曾考慮曝光控制問題。
查閱國內(nèi)外相關(guān)文獻(xiàn),將區(qū)分度信息納入CD-CAT選題過程的研究并不多,據(jù)我們所知,汪文義等(2014)基于CTT的思想將項(xiàng)目區(qū)分度信息納入選題策略中進(jìn)行了研究,但該方法不僅在加權(quán)形式上與 Rupp等(2010)提出的加權(quán)形式不同,而且也不是對PWKL指標(biāo)的加權(quán)。除此之外,尚未見到基于KL信息量提出的項(xiàng)目區(qū)分度加權(quán)指標(biāo)。因此,本文以確定性輸入,噪音“與”門(the Deterministic Inputs,Noisy “and”Gate
,DINA)模型為例(DINA 模型是認(rèn)知診斷研究中最常使用的模型,由于 DINA模型參數(shù)較少、簡單易懂、方便解釋,因此成為了許多研究者修正和拓展的基礎(chǔ)模型),將項(xiàng)目區(qū)分度信息融入選題策略中,對 PWKL指標(biāo)進(jìn)行修正,提出4個新的多源選題指標(biāo)(multiple-source index
),分別稱作:基于經(jīng)典測驗(yàn)理論的項(xiàng)目區(qū)分度加權(quán)法(CTT-analogous item-discrimination-posterior-weighted Kullback-Leibler
,CIDPWKL)、基于KL信息量的全局項(xiàng)目區(qū)分度加權(quán)法(KLI-based global-itemdiscrimination-posterior-weighted Kullback-Leibler,
GIDPWKL)、基于KL信息量的屬性層面項(xiàng)目區(qū)分度加權(quán)法(KLI-based attribute-specific-itemdiscrimination-posterior-weighted Kullback-Leibler,
AIDPWKL)、以及使用汪文義等(2014)提出的權(quán)重加權(quán)方法(本文將該方法稱作 KLEDPWKL法),并在加入曝光控制技術(shù)下,將4種新方法和PWKL、MIM 在不同實(shí)驗(yàn)條件下進(jìn)行系統(tǒng)比較,以驗(yàn)證新方法的優(yōu)越性。本文按如下方式組織。首先對DINA模型進(jìn)行簡單介紹,其次對 PWKL、4種新的選題方法、以及MIM方法進(jìn)行詳細(xì)介紹。第四部分和第五部分分別進(jìn)行兩個模擬研究,最后部分為本文的研究結(jié)論,討論及展望。
DINA模型是具有顯式項(xiàng)目特征函數(shù)的診斷模型(Haertel,1989;Junker &Sijtsma,2001),其數(shù)學(xué)表達(dá)式為:
K
個屬性的信息(即Q矩陣中的q
向量),還包含了項(xiàng)目參數(shù)以及被試KS之間不同組合提供的信息,提供的信息更加豐富。下面將分別對本文涉及的6種選題方法進(jìn)行介紹。但KL選題策略中KL指標(biāo)是計(jì)算當(dāng)前估計(jì)的KS與所有可能KS之間的KL距離的等權(quán)之和,該做法不太合理。Cheng (2009)認(rèn)為,隨著被試作答項(xiàng)目數(shù)量的增長,被試能提供更多的診斷信息,因此各種可能的KS之間的后驗(yàn)概率差異會越來越大,即該被試從屬于某類KS的可能性會逐漸增大。于是,她利用后驗(yàn)概率對 KL信息量進(jìn)行修正,提出了PWKL方法,PWKL指標(biāo)為:
可以看出,一個題目的猜測參數(shù)和失誤參數(shù)的和越小,該題目的區(qū)分度就越大。因此,結(jié)合了基于CTT思想推導(dǎo)出的項(xiàng)目區(qū)分度后,CIDPWKL指標(biāo)的公式如下:
CIDPWKL指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大CIDPWKL信息量的題目給被試作答。
Cognitive Diagnostic Index
)。題目j
的CDI計(jì)算公式如下:GIDPWKL指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大 GIDPWKL信息量的題目給被試作答。
attribute-specific
)的項(xiàng)目區(qū)分度指標(biāo)C
,該指標(biāo)表示項(xiàng)目j
能夠區(qū)分掌握屬性k
和未掌握屬性k
的效能(power
)。基于D
矩陣,C
關(guān)注只在屬性k
上有差異的那些元素。例如,測驗(yàn)考察3個屬性,那么在第一個屬性上有差異的元素共包括 8組:000和100、100和000、010和110、001和101、110和010、101和001、011和111、111和011。類似地,可以在D
矩陣中找出在第二個和第三個屬性上有差異的元素。由此,項(xiàng)目j
在第k
個屬性上的區(qū)分度計(jì)算公式如下:i
考察的屬性個數(shù)多于項(xiàng)目j
,則項(xiàng)目i
的屬性區(qū)分度個數(shù)也要多于項(xiàng)目j
,因此,項(xiàng)目i
能夠貢獻(xiàn)的效能就越多。基于此,結(jié)合了屬性層面的項(xiàng)目區(qū)分度指標(biāo)C
后,AIDPWKL指標(biāo)的公式如下:AIDPWKL指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大 AIDPWKL信息量的題目給被試作答。
X
和Y
,互信息為兩變量邊際分布的乘積f
(x
)f
(y
)與它們聯(lián)合分布f
(x
,y
)的KL距離,其表達(dá)式為:I
(X
;Y
)測量了X
和Y
之間的依賴程度,X
能夠提供給Y
越多信息(或Y
能夠提供給X
越多信息【互信息的對稱性】),I
(X
;Y
)越大。在CD-CAT中,互信息可以看作是臨近兩次后驗(yàn)概率分布的期望 KL距離(expected KL distance
)。Wang (2013)將KS為α的被試作答完t
-1題的后驗(yàn)概率π
(α|x)替換公式(10)中的f
(y
),將給定作答完t
-1題在第t
題上反應(yīng)的二項(xiàng)分布p
(x
|x)替換公式(10)中的f
(x
),并通過簡單的運(yùn)算,得到了互信息指標(biāo)為:MI指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大MI值的題目給被試作答。
汪文義等(2014)提出了 KLED 選題方法,在DINA模型下可以將其換算為:
w
與PWKL結(jié)合后的KLEDPWKL計(jì)算公式如下:KLEDPWKL指標(biāo)選擇題目的標(biāo)準(zhǔn)是:從剩余題庫中選擇具有最大KLEDPWKL值的題目給被試作答。
D
矩陣以及相應(yīng)的C
和C
計(jì)算好。在每次使用項(xiàng)目區(qū)分度信息時,直接從該矩陣中調(diào)取即可,這樣可以有效提高選題速度。除了一開始計(jì)算D
矩陣等需要較短的時間以外,整個選題過程所用時間和PWKL所用時間基本相同。U
(0.05,0.15)中抽取;(2)低質(zhì)量題目的s參數(shù)和g參數(shù)的波動范圍與高質(zhì)量題目相同,其平均數(shù)被定義為0.2,因此均從U
(0.15,0.25)中抽取。測驗(yàn)長度為5題和10題,分別表示較短測驗(yàn)長度和中等測驗(yàn)長度(Wang,2013)。1000個被試KS的真值按照高階DINA模型生成(Wang,2013),其中高階能力值θ
從標(biāo)準(zhǔn)正態(tài)分布N (
0,1)中抽取,斜率λ
從對數(shù)正態(tài)分布中抽取,截距λ
從標(biāo)準(zhǔn)正態(tài)分布中抽取。在高階DINA模型中,被試i
在屬性k
上的掌握情況為:因此,本研究共包括 2(Q矩陣結(jié)構(gòu))× 2(題目質(zhì)量)× 2(測驗(yàn)長度)×6(選題策略)=48 種實(shí)驗(yàn)條件。每個實(shí)驗(yàn)條件重復(fù)30次以減小隨機(jī)誤差。
表1 簡單結(jié)構(gòu)和復(fù)雜結(jié)構(gòu)中每個屬性的項(xiàng)目比例
Wang等(2011)提出了兩種 CD-CAT中的曝光控制方法:限制進(jìn)度法(Restrictive Progressive method
,RP)和限制閾值法(Restrictive Threshold method
,RT)。估計(jì)精度和項(xiàng)目曝光度往往是相互制約的,比起RT法,RP法在平衡估計(jì)精度和項(xiàng)目曝光度方面做得更好,而且本文的目的也并非比較不同曝光控制方法之間的差異,因此,本文借用 RP法的思想作為曝光控制方法(由于篇幅所限,RP法請參見相關(guān)文獻(xiàn))。具體而言,當(dāng)采用本文提出的新選題策略時,按RP法的思想將Wang等(2011)提出的原始公式中的PWKL指標(biāo)分別替換成CIDPWKL、GIDPWKL、AIDPWKL、KLEDPWKL和MIM 指標(biāo),從而實(shí)現(xiàn)對題目的曝光控制。其中,允許的最大曝光率設(shè)置為0.2,β
=2。Average Attribute Correct Classification Rate
,AACCR)K
個屬性,有N
個被試參加了測驗(yàn),現(xiàn)在考察第k
個屬性,如果被試i
掌握(未掌握)第k
個屬性,今診斷其掌握(未掌握)該屬性,則表明對第k
個屬性判準(zhǔn)了一次,記為g
=1,否則g
=0。(2)模式判準(zhǔn)率(Pattern Correct Classification Rate
,PCCR)PCCR
考察被試屬性掌握模式(α
=(α
,α
,…,α
))的返真性。假設(shè)測驗(yàn)共考察了K
個屬性,有N
個被試參加了測驗(yàn),被試i
真實(shí)的屬性掌握向量記為X,但把該被試歸類為 Ζ,如果有X=Z,記n
=1;否則記n
=0。(3)測驗(yàn)重疊率
測驗(yàn)重疊率被定義為兩個隨機(jī)抽取的被試作答相同題目的期望數(shù)除以測驗(yàn)長度,計(jì)算公式如下:
T
表示測驗(yàn)重疊率,M
是第j
個題目被調(diào)用的次數(shù),J
是題庫大小,L
是測驗(yàn)長度,N
是被試人數(shù)。測驗(yàn)重疊率越小,說明兩個隨機(jī)抽取的被試作答相同題目的比例越小。(4)題庫使用均勻性指標(biāo),卡方χ
er
是第j
個題目的曝光率,其大小等于作答題目j
的被試人數(shù)除以參加測驗(yàn)的總被試人數(shù),其余符號定義同測驗(yàn)重疊率指標(biāo)。χ
越小越好,χ
越小,說明整個題庫使用越均勻。除上述指標(biāo)外,研究結(jié)果還記錄了題庫中未使用的題目數(shù)量。
表2和表3分別是簡單結(jié)構(gòu)和復(fù)雜結(jié)構(gòu)中6種選題策略在不同測驗(yàn)長度和不同題目質(zhì)量下的平均屬性判準(zhǔn)率和模式判準(zhǔn)率。由結(jié)果可知,在各種實(shí)驗(yàn)條件下,與PWKL方法相比,其余5種選題策略的AACCR和PCCR均有不同程度的提高。整體上來看,表現(xiàn)最好的是GIDPWKL指標(biāo),其判準(zhǔn)率的增長幅度均是最大的,如表2和表3中粗體數(shù)值所示。表現(xiàn)次之的是AIDPWKL方法。而CIDPWKL、KLEDPWKL和MIM方法并未呈現(xiàn)出一致的表現(xiàn)結(jié)果。例如在簡單結(jié)構(gòu)×5題×高質(zhì)量題目實(shí)驗(yàn)條件下,KLEDPWKL的判準(zhǔn)率要高于 CIDPWKL和MIM,但在簡單結(jié)構(gòu)×5題×低質(zhì)量題目實(shí)驗(yàn)條件下,MIM的判準(zhǔn)率要高于其余兩種方法。具體來看,在絕大多數(shù)實(shí)驗(yàn)條件下,測驗(yàn)長度越短,GIDPWKL和AIDPWKL方法的優(yōu)勢越明顯,且均要優(yōu)于其余方法。例如,在簡單結(jié)構(gòu)中題目質(zhì)量較高時,測驗(yàn)長度為5題條件下,與PWKL相比,GIDPWKL和AIDPWKL的AACCR值分別提高了0.025和0.019;PCCR值分別提高了0.051和0.049;當(dāng)測驗(yàn)長度增加至10題時,GIDPWKL和AIDPWKL的AACCR值分別提高了0.017和0.014;PCCR值分別提高了0.033和0.022。而 CIDPWKL、KLEDPWKL 和MIM之間并沒有展現(xiàn)出一致的優(yōu)勢結(jié)果,但三者的表現(xiàn)相差無幾。
大部分實(shí)驗(yàn)結(jié)果表明,題目質(zhì)量越高,GIDPWKL和AIDPWKL方法的優(yōu)勢越明顯,且均要優(yōu)于其余方法。例如,在簡單結(jié)構(gòu)中測驗(yàn)長度為5題時,高題目質(zhì)量條件下,與 PWKL相比,GIDPWKL和AIDPWKL的AACCR值分別提高了0.025和0.019;PCCR值分別提高了0.051和0.049;低題目質(zhì)量條件下,GIDPWKL和AIDPWKL的AACCR值分別提高了0.024和0.005;PCCR值分別提高了0.037和0.032。而CIDPWKL、KLEDPWKL和MIM 之間并沒有展現(xiàn)出一致的優(yōu)勢結(jié)果,但三者的表現(xiàn)相差無幾。
Q矩陣結(jié)構(gòu)的復(fù)雜性也會影響不同選題方法的表現(xiàn)。在大部分實(shí)驗(yàn)條件下,Q矩陣越復(fù)雜,不同選題方法的AACCR和PCCR的增長幅度也越大。例如,測驗(yàn)長度為10題的高質(zhì)量題目條件下,在復(fù)
雜結(jié)構(gòu)中,GIDPWKL、AIDPWKL、CIDPWKL、KLEDPWKL和MIM的 AACCR值分別提高了0.021,0.015、0.007、0.013和0.015;PCCR值分別提高了0.056、0.043、0.034、0.041和0.038;在簡單結(jié)構(gòu)中,GIDPWKL、AIDPWKL、CIDPWKL、KLEDPWKL和MIM的 AACCR值分別提高了0.017,0.014、0.010、0.008和0.011;PCCR值分別提高了0.033、0.022、0.019、0.014和0.020。
表2 簡單結(jié)構(gòu)下不同選題策略的判準(zhǔn)率及題庫使用情況
表3 復(fù)雜結(jié)構(gòu)下不同選題策略的判準(zhǔn)率及題庫使用情況
在題庫使用情況上,由于GIDPWKL和AIDPWKL方法的判準(zhǔn)精度更高,因此這兩種方法的測驗(yàn)重疊率,未使用的題目數(shù)量以及卡方值也是最大的,其余3種方法雖然判準(zhǔn)精度比GIDPWKL和AIDPWKL低,但它們的題庫使用情況要更好。該結(jié)果正是CAT形式測驗(yàn)中精度與題庫使用情況的權(quán)衡(trade-off
)問題的體現(xiàn)。由于本研究加入了曝光控制,因此題庫使用情況是可以控制在預(yù)期范圍之內(nèi)的。采用蒙特卡洛模擬方法,在固定測驗(yàn)精度(Hsu,Wang,&Chen,2013;Tatsuoka,2002;郭磊,2014),即變長終止規(guī)則條件下比較6種選題策略。重點(diǎn)考察不同選題策略下的測驗(yàn)使用情況,主要包括平均測驗(yàn)長度 Mean,測驗(yàn)長度的標(biāo)準(zhǔn)差 SD,最大測驗(yàn)長度Max和最小測驗(yàn)長度Min。其中,PWKL法作為基線。所有程序采用Matlab 2012b進(jìn)行編程。將測驗(yàn)的使用情況作為該研究的評價指標(biāo)是因?yàn)椋罕容^不同的選題策略質(zhì)量差異時(控制其他條件均相同),若使用定長終止規(guī)則,那么判準(zhǔn)率高的選題方法較好;若使用變長終止規(guī)則,即在固定終止精度時,主要看平均用題量,即平均用題量少的選題方法較好。因此,在研究 2中,我們不再關(guān)注判準(zhǔn)精度,而是比較不同方法的測驗(yàn)使用情況。
P
)來控制終止精度(Tatsuoka,2002)。本研究的終止精度包括3個水平:P
=0.7,P
=0.8和P
=0.9,其余條件同研究1。郭磊、鄭蟬金和邊玉芳(2015)提出了3種變長CD-CAT的項(xiàng)目曝光控制方法,研究結(jié)果表明,修正的RT法和修正的RP法在項(xiàng)目曝光率的控制上存在過度控制現(xiàn)象,而simple法不存在該現(xiàn)象,并且操作更加簡潔,因此,本文選用simple法作為變長CD-CAT中的曝光控制方法。同時為了不讓變長CD-CAT的題目過長,與實(shí)際情況更加貼近,本文將測驗(yàn)長度上限設(shè)置為30題(郭磊等,2015)。simple法是在選題指標(biāo)前乘以曝光控制因子f
,計(jì)算公式如下:r
為允許的最大項(xiàng)目曝光率(本研究設(shè)置為0.2),m
為第j
個項(xiàng)目當(dāng)前的被調(diào)用次數(shù),N
為參加測驗(yàn)的總?cè)藬?shù)。由于研究2和研究1的目的不同,因此,本研究的評價指標(biāo)主要是測驗(yàn)的使用情況,主要包括平均測驗(yàn)長度 Mean,測驗(yàn)長度的標(biāo)準(zhǔn)差 SD,最大測驗(yàn)長度Max和最小測驗(yàn)長度Min。
表4和表5是6種選題策略的測驗(yàn)使用情況。由結(jié)果可知,與PWKL方法相比,其余5種方法的平均測驗(yàn)長度更少,其中表現(xiàn)最好的依然是 GIDPWKL方法。
從表4結(jié)果可以看出,除了按照最大測驗(yàn)長度終止以外,大部分的實(shí)驗(yàn)條件下,其余 5種方法的最大測驗(yàn)長度要低于 PWKL方法,最小測驗(yàn)長度和PWKL相差無幾。該結(jié)果表明其余 5種方法較PWKL方法的優(yōu)勢所在:在具有相同測量精度時,可以有效降低被試作答的最大測驗(yàn)長度。
與 AIDPWKL、CIDPWKL、KLEDPWKL和MIM相比,GIDPWKL的平均測驗(yàn)長度與PWKL的平均測驗(yàn)長度之差是最大的(除表5中最后一行以外),節(jié)約的平均題目數(shù)量介于 0.47~0.87之間,如表5中粗體數(shù)值所示。該結(jié)果表明,4種新方法和MIM的選題效率更高,在相同的測驗(yàn)情景中,新方法能夠用更少的題目達(dá)到與 PWKL方法相同的測量精度。
值得注意的是,不論采用何種方法,隨著終止精度P
的增大,平均測驗(yàn)長度和最大測驗(yàn)長度均增大,該結(jié)果和Hsu等(2013)的研究結(jié)果一致。Q矩陣結(jié)構(gòu)和題目質(zhì)量均會影響這幾種選題策略的測驗(yàn)使用情況。例如,當(dāng)固定Q矩陣結(jié)構(gòu)時,題目質(zhì)量越高,平均測驗(yàn)長度和最大測驗(yàn)長度越小;當(dāng)固定題目質(zhì)量時,Q矩陣結(jié)構(gòu)越簡單,平均測驗(yàn)長度和最大測驗(yàn)長度越小。該結(jié)果表明,在實(shí)際編制Q矩陣和題目時,應(yīng)注重提高題目的質(zhì)量和適當(dāng)減小Q矩陣的復(fù)雜性。表4 變長終止規(guī)則下測驗(yàn)長度的最大值和最小值
表5 變長終止規(guī)則下測驗(yàn)長度的平均值和標(biāo)準(zhǔn)差
本文首先指出了傳統(tǒng)的 PWKL指標(biāo)僅考慮了被試 KS后驗(yàn)分布所提供的信息,并未關(guān)注在選題過程中題目能夠提供的項(xiàng)目層面的信息,因此,PWKL屬于單源指標(biāo)。隨后,本文將能夠提供更加豐富信息的項(xiàng)目區(qū)分度融入到 PWKL指標(biāo)中,對PWKL指標(biāo)進(jìn)行了修正,提出了4種新的多源選題指標(biāo):GIDPWKL、AIDPWKL、CIDPWKL和KLEDPWKL指標(biāo)。另一方面,根據(jù) Wang (2013)的研究結(jié)果表明:MIM 在大部分實(shí)驗(yàn)條件下的表現(xiàn)要優(yōu)于 PWKL,特別是在測驗(yàn)長度較短時。但Wang本人并未考慮在曝光控制條件下MIM的表現(xiàn),目前也沒有新方法與MIM之間的比較研究。因此,本文通過兩個模擬研究,在控制項(xiàng)目曝光基礎(chǔ)上,系統(tǒng)比較了這 6種方法在不同實(shí)驗(yàn)條件下的表現(xiàn),并得到以下結(jié)論:
(1)在定長測驗(yàn)情景下,不論實(shí)驗(yàn)條件如何改變,4種新方法以及MIM方法的平均屬性/模式判準(zhǔn)率均要高于原始的PWKL方法。4種新方法中表現(xiàn)最好的是GIDPWKL,PCCR最大增幅高達(dá)5.8個百分點(diǎn)(復(fù)雜結(jié)構(gòu)×高質(zhì)量題目×5題),這意味著在1000人參加的較短測驗(yàn)中,比 PWKL方法可以多判準(zhǔn)58人;
(2)在定長測驗(yàn)情景下的絕大多數(shù)實(shí)驗(yàn)結(jié)果表明,測驗(yàn)長度越短,新方法的優(yōu)勢越明顯。表現(xiàn)最好的是 GIDPWKL方法,之后是 AIDPWKL方法,而CIDPWKL、KLEDPWKL和MIM方法的優(yōu)勢隨實(shí)驗(yàn)條件不同而不同。該結(jié)果表明,新的選題策略在測驗(yàn)初期就會收到較大成效,能夠加快對被試KS判準(zhǔn)的速度;
(3)在定長測驗(yàn)情景下的絕大多數(shù)實(shí)驗(yàn)結(jié)果表明,題目質(zhì)量越高,新方法的優(yōu)勢越明顯。表現(xiàn)最好的是 GIDPWKL方法,之后是 AIDPWKL方法,其余 3種方法(CIDPWKL、KLEDPWKL和MIM)之間并沒有展現(xiàn)出一致的優(yōu)勢結(jié)果,但三者的表現(xiàn)相差無幾。該結(jié)果表明,項(xiàng)目區(qū)分度信息的確可以,也應(yīng)該作為另一方面的信息源加入到選題過程中,以此提高被試KS的判準(zhǔn)率;
(4) Q矩陣結(jié)構(gòu)的復(fù)雜性影響著不同選題策略的表現(xiàn)。從實(shí)驗(yàn)結(jié)果可以看出,與簡單結(jié)構(gòu)相比,復(fù)雜結(jié)構(gòu)的Q矩陣更能體現(xiàn)出新方法的優(yōu)勢,表明新方法更能有效處理復(fù)雜的測驗(yàn)情景;
(5)在變長測驗(yàn)情景下,4種新方法及MIM的平均測驗(yàn)長度要低于 PWKL方法,表現(xiàn)最好的是GIDPWKL方法。該結(jié)果表明新方法能夠用更少的題目達(dá)到與PWKL方法相同的測量精度,效率更高。
(6)整體來看,4種新方法以及MIM均比PWKL表現(xiàn)好。但相對而言,在4種新方法中,CIDPWKL和KLEDPWKL的表現(xiàn)不如 GIDPWKL和AIDPWKL。這是因?yàn)?CIDPWKL和KLEDPWKL指標(biāo)的項(xiàng)目區(qū)分度比較簡單,只考慮了項(xiàng)目參數(shù)的信息(即s和g參數(shù)),而其余二者是基于D
計(jì)算得到的項(xiàng)目區(qū)分度,能提供的區(qū)分信息更加豐富。本文提出的 4種新方法通過將項(xiàng)目區(qū)分度作為權(quán)重融入PWKL指標(biāo)中,提高了選題效率。一個良好的選題方法的標(biāo)準(zhǔn)應(yīng)該是在固定測驗(yàn)長度時,具有較高的判準(zhǔn)率;或在固定測驗(yàn)精度時,具有較少的測驗(yàn)長度,而不是看該指標(biāo)/方法應(yīng)該有多復(fù)雜。根據(jù)實(shí)驗(yàn)結(jié)果表明,本文提出的4種新方法在較短測驗(yàn)長度時,比PWKL更加高效。根據(jù)上述結(jié)論,多源指標(biāo)是更加有效的選題策略。在定長測驗(yàn)中,GIDPWKL方法的判準(zhǔn)率是最高的;在變長測驗(yàn)中,GIDPWKL方法的平均測驗(yàn)長度是最少的,因此,在實(shí)際應(yīng)用中應(yīng)該首選測驗(yàn)效率最高的GIDPWKL方法。
本文成功地將項(xiàng)目區(qū)分度信息融入到傳統(tǒng)的PWKL指標(biāo)中,取得了令人滿意的結(jié)果,但仍有繼續(xù)可以研究的地方:
(1)本研究僅選用了 DINA模型作為認(rèn)知診斷模型進(jìn)行研究,而融合模型(Fusion Model
,FM)被認(rèn)為是目前最優(yōu)的診斷模型,本文提出的4種新方法在FM中表現(xiàn)如何,特別是CIDPWKL表現(xiàn)如何值得進(jìn)一步研究。在FM中,基于CTT思想的項(xiàng)目區(qū)分度指標(biāo)不再是公式(4)所示,而是下式:(2)本研究并未考慮一些非統(tǒng)計(jì)約束條件,例如內(nèi)容平衡(Mao &Xin,2013),答案平衡和屬性平衡(Cheng,2010)等因素對新方法的影響,未來可以進(jìn)行這方面的研究。
(3)本研究是從項(xiàng)目區(qū)分度角度對 PWKL進(jìn)行的改進(jìn),未來研究可以考慮其他加權(quán)方法。例如,可以根據(jù)Rupp等(2010;P242)提出的計(jì)算屬性標(biāo)準(zhǔn)誤的方法,將計(jì)算出來的屬性標(biāo)準(zhǔn)誤作為權(quán)重,考察利用屬性標(biāo)準(zhǔn)誤進(jìn)行加權(quán)方法的效果。
Chang,H.H.,&Ying,Z.L.(1999).α-stratified multistage computerized adaptive testing.Applied Psychological Measurement,23
(3),211–222.Cheng,Y.(2009).When cognitive diagnosis meets computerized adaptive testing:CD-CAT.Psychometrika,74
(4),619–632.Cheng,Y.(2010).Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverage:The modified maximum global discrimination index method.Educational and Psychological Measurement,70
(6),902–913.Guo,L.(2014).Variable-length cognitive diagnostic computerized adaptive testing:Termination rules,exposure control and quality monitoring technique
(Unpublished doctorial dissertation).Beijing Normal University.[郭磊.(2014).變長認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn):終止規(guī)則、曝光控制及題庫質(zhì)量監(jiān)控技術(shù)
(博士學(xué)位論文).北京師范大學(xué).]Guo,L.,Zheng,C.J.,&Bian,Y.F.(2015).Exposure control methods and termination rules in variable-length cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica,47
(1),129–140.[郭磊,鄭蟬金,邊玉芳.(2015).變長 CD-CAT中的曝光控制與終止規(guī)則.心理學(xué)報,47
(1),129–140.]Haertel,E.H.(1989).Using restricted latent class models to map the skill structure of achievement items.Journal of Educational Measurement,26
(4),301–321.Henson,R.,&Douglas,J.(2005).Test construction for cognitive diagnosis.Applied Psychological Measurement,29
(4),262–277.Henson,R.,Roussos,L.,Douglas,J.,&He,X.M.(2008).Cognitive diagnostic attribute-level discrimination indices.Applied Psychological Measurement,32
(4),275–288.Hsu,C.L.,Wang,W.C.,&Chen,S.Y.(2013).Variable- length computerized adaptive testing based on cognitive diagnosis models.Applied Psychological Measurement,37
(7),563–582.Junker,B.W.,&Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.Applied Psychological Measurement,25
(3),258–272.Mao,X.Z.,&Xin,T.(2011).Improvement of item selection method in cognitive diagnostic computerized adaptive testing.Journal of Beijing Normal University (Natural Science),47
(3),326–330.[毛秀珍,辛濤.(2011).認(rèn)知診斷 CAT中選題策略的改進(jìn).北京師范大學(xué)學(xué)報 (自然科學(xué)版),47
(3),326–330.]Mao,X.Z.,&Xin,T.(2013).The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.Applied Psychological Measurement,37
(6),482–496.Rupp,A.A.,Templin,J.,&Henson,R.A.(2010).Diagnostic measurement:Theory,methods,and applications
.New York:Guilford Press.Shang,Z.Y.,&Ding,S.L.(2011).The exploration of item selection strategy of computerized adaptive testing for cognitive diagnosis.Journal of Jiangxi Normal University(Natural Science),35
(4),418–421.[尚志勇,丁樹良.(2011).認(rèn)知診斷自適應(yīng)測驗(yàn)選題策略探新.江西師范大學(xué)學(xué)報 (自然科學(xué)版),35
(4),418–421.]Tatsuoka,C.(2002).Data analytic methods for latent partially ordered classification models.Journal of the Royal Statistical Society:Series C (Applied Statistics),51
(3),337–350.Templin,J.L.,&Henson,R.A.(2006).Measurement of psychological disorders using cognitive diagnosis models.Psychological Methods,11
(3),287–305.Wang,C.(2013).Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length.Educational and Psychological Measurement,73
(6),1017–1035.Wang,C.,Chang,H.H.,&Douglas,J.(2012).Combining CAT with cognitive diagnosis:A weighted item selection approach.Behavior Research Methods,44
(1),95–109.Wang,C.,Chang,H.H.,&Huebner,A.(2011).Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement,48
(3),255–273.Wang,W.Y.,Ding,S.L.,&Song,L.H.(2014).Item selection methods for balancing test efficiency with item bank usage efficiency in CD-CAT.Journal of Psychological Science,37
(1),212–216.[汪文義,丁樹良,宋麗紅.(2014).兼顧測驗(yàn)效率和題庫使用率的CD-CAT選題策略.心理科學(xué),37
(1),212–216.]Xu,X.L.,Chang,H.H.,&Douglas,J.(2003).A simulation study to compare CAT strategies for cognitive diagnosis
.Paper presented at the Paper presented at the annual meeting of National Council on Measurement in Education,Montreal,Canada.