杜文久 周 娟 李洪波
(1西南大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400715)(2重慶市教育考試院,重慶 401147)
Computerized Adaptive Testing
,CAT)自20世紀(jì)70年代早期被引入測(cè)驗(yàn)領(lǐng)域,而實(shí)施 CAT需要一個(gè)優(yōu)質(zhì)、大型的題庫(kù),同時(shí)題庫(kù)還需要不斷更新(陳平,辛濤,2011),淘汰一些質(zhì)量不夠好的試題,加入一些新的試題??梢?對(duì)項(xiàng)目參數(shù)進(jìn)行準(zhǔn)確估計(jì)就非常重要(Maij-de Meij,Kelderman,&van der Flier,2008)。目前,國(guó)內(nèi)外對(duì)項(xiàng)目參數(shù)估計(jì)精度的研究,大部分是基于在已知項(xiàng)目參數(shù)真值的情況下,運(yùn)用各種參數(shù)估計(jì)方法(常用的參數(shù)估計(jì)方法有極大似然法、貝葉斯方法、MCMC方法等)產(chǎn)生新的估計(jì)值,再和真值進(jìn)行偏度(BIAS)和均方根差(RMSE)的比較,從而說明該種估計(jì)方法的有效性(Liang &Wells,2009;Finch,2010) 。均方根差RMSE、Bias的計(jì)算公式分別為:
x
表示第j
個(gè)項(xiàng)目參數(shù)(a或 b)的真值,x
表示第j
個(gè)項(xiàng)目參數(shù)的估計(jì)值,n
表示重復(fù)試驗(yàn)的次數(shù)。通過公式可看出,均方根差反映的是n
次重復(fù)試驗(yàn)中項(xiàng)目參數(shù)真值與項(xiàng)目參數(shù)估計(jì)值之間的平均偏差大小;偏差的值反映了項(xiàng)目參數(shù)真值與參數(shù)估計(jì)值之間偏差的平均。這種方法只能得出每個(gè)參數(shù)真值的估計(jì)誤差,無法反映不同的參數(shù)之間的估計(jì)誤差是如何隨著參數(shù)真值的變化而變化的。為了彌補(bǔ)這些缺陷,本文嘗試從項(xiàng)目參數(shù)信息函數(shù)的角度出發(fā),研究二參數(shù)邏輯斯蒂模型項(xiàng)目參數(shù)的估計(jì)精度。目前,國(guó)內(nèi)外主要研究能力參數(shù)的信息函數(shù),而對(duì)于項(xiàng)目參數(shù)的信息函數(shù)還沒有人研究,本文嘗試填補(bǔ)這一空缺。同時(shí)還探索了影響估計(jì)精度的主要因素有哪些,以及這些因素是怎樣影響項(xiàng)目參數(shù)的估計(jì)精度的。希望通過本文的研究,能夠?yàn)轭}庫(kù)編制者和測(cè)驗(yàn)編制者提供一些有價(jià)值的參考信息。
a
,b
)的極大似然估計(jì),從而獲得項(xiàng)目參數(shù)估計(jì)值的置信區(qū)間。設(shè)X
,X
,… ,X
為N
個(gè)能力分別為θ
,θ
,… ,θ
的被試在某個(gè)二級(jí)評(píng)分項(xiàng)目上的得分,如果被試j
在項(xiàng)目上答對(duì),則X
=1,否則X
=0。于是根據(jù)被試j
在項(xiàng)目上的反應(yīng)可得似然函數(shù):a
,b
求導(dǎo),除以N
后令其等于零,得:a
,b
)表示向量(a
,b
)的轉(zhuǎn)置,I
(a
,b
)表示矩陣I
(a
,b
)的逆,a
,b
用a
,b
代替。根據(jù)Lord(1980)的計(jì)算(漆書青,戴海崎,1992;Hambleton &Swaminathan,1985),I
、I
(I
=I
)、I
的表達(dá)式如表1。表1 Iaa、Iab(Iba= Iab)、Ibb的表達(dá)式
I
(a
)、I
(b
)值越大,參數(shù)a
、b
估計(jì)值的方差越小,從而估計(jì)值也就越精確;反之,I
(a
)、I
(b
)值越小,估計(jì)值的方差就越大。因此,可用項(xiàng)目參數(shù)a
、b
的估計(jì)信息函數(shù),描述參數(shù)a
、b
的估計(jì)精度。μ
=1.96,于是在 95%的概率意義下,a
,b
的置信區(qū)間分別為:a
,b
的信息函數(shù)和其估計(jì)值的置信區(qū)間,就能對(duì)項(xiàng)目參數(shù)的估計(jì)精度進(jìn)行研究。為了探明被試的樣本容量和能力分布對(duì)項(xiàng)目參數(shù)的估計(jì)精度的影響,按以下方法和實(shí)驗(yàn)設(shè)計(jì)進(jìn)行模擬研究:
(1)假設(shè)被試能力參數(shù)已知,被試的能力分布取兩種情形:標(biāo)準(zhǔn)正態(tài)分布N
(0,1)和均勻分布U
[?3,+3];(2)被試樣本容量為3個(gè)水平:100人,500人,1000人;
(3)以區(qū)分度參數(shù)a
為橫坐標(biāo),難度參數(shù)b
為縱坐標(biāo),項(xiàng)目參數(shù)a
,b
的估計(jì)信息函數(shù)I
(a
),I
(b
)分別為垂直坐標(biāo)繪制各種情形下I
(a
),I
(b
)的三維圖像。(4)所有隨機(jī)生成數(shù)據(jù)和作圖過程均由Matlab2009(王沫然,2009)程序?qū)崿F(xiàn)。為制圖方便,區(qū)分度參數(shù)a
的取值范圍確定為[0,3],難度參數(shù)b的取值范圍確定為[?3,3]。根據(jù)上述設(shè)計(jì),本實(shí)驗(yàn)共有2× 3×2=12種不同的類別。
N
(0,1)和均勻分布U[?3 ,+3]的100個(gè)、500個(gè)、1000個(gè)被試的能力參數(shù)值,根據(jù)公式(2.3),畫出不同情形下(2×3)I
(a
)的三維圖形,如表2。表2 不同情形下區(qū)分度參數(shù)a的估計(jì)信息函數(shù)I(a)的三維圖像
由表2可知:區(qū)分度參數(shù)a
的信息函數(shù)同時(shí)受到參數(shù)a
、參數(shù)b
和被試樣本容量的影響。首先討論樣本容量的影響:比如,當(dāng)能力參數(shù)θ~N
(0,1)時(shí),在a
=1,b
=0附近,被試樣本容量從100人、500人增加到1000人時(shí),I
(a
)值從20、100增加到約200??梢?增加被試的樣本容量,能有效提高區(qū)分度參數(shù)a
的信息量,從而提高參數(shù)a
的估計(jì)精度。當(dāng)固定參數(shù)b
和被試樣本容量時(shí),區(qū)分度參數(shù)a
的信息量受a
參數(shù)真值本身的影響很大。如當(dāng)能力參數(shù)θ~N
(0,1),樣本容量為1000,b
=0時(shí),在區(qū)分度參數(shù)a
的真值a
=0.5附近,a
的信息量約為450,而隨著a
真值的增大,a
的信息量迅速減小。當(dāng)b
=0,a
>3時(shí),a
的信息量迅速減小到接近于零。上述結(jié)果表明,如果測(cè)試項(xiàng)目的區(qū)分度參數(shù)a
的真值過大,即使被試樣本容量很大,其區(qū)分度參數(shù)a
的估計(jì)精度也不高。參數(shù)a
的信息量不僅受到被試樣本和參數(shù)a
的真值的影響,同時(shí)還受到難度參數(shù)b
的真值的影響。圖1是被試樣本容量為 1000人,能力參數(shù)θ
~N
(0,1)時(shí)區(qū)分度參數(shù)a
的估計(jì)信息函數(shù)I
(a
)的三維圖像在b
軸和I
(a
)軸所在平面的正投影。圖1 I(a)在b軸和I(a)軸平面的正投影圖
由圖1可知,對(duì)任意給定的a
值,I
(a
)的圖像都是一條鐘形曲線。例如,假設(shè)參數(shù)a
的真值為a
=0.5時(shí),在b
=0處,I
(a
)取得最大值。隨著參數(shù)b
漸漸遠(yuǎn)離零點(diǎn),I
(a
)值也逐漸減小。這與表2中圖形所呈現(xiàn)的結(jié)論是一致的,即b
=0時(shí),I
(a
)的三維圖像有一條明顯隆起的脊線,而脊線上的點(diǎn)就是I
(a
)在不同a
參數(shù)位置時(shí)的最大值點(diǎn)。另外,當(dāng)a
=1時(shí),盡管I
(a
)的圖像仍然是一條鐘形曲線,但該曲線整體上比a
=0.5時(shí)的I
(a
)圖像降低了很多。也就是說,當(dāng)參數(shù)a
值增大時(shí),測(cè)驗(yàn)所提供的參數(shù)a
的信息量迅速減少,即對(duì)參數(shù)a
的估計(jì)精度迅速降低。這與前面提到的隨著a
真值的增大,a
的信息量減小的結(jié)論也是保持一致的。從表2中可看到,被試能力參數(shù)呈均勻分布與被試能力參數(shù)呈標(biāo)準(zhǔn)正態(tài)分布時(shí)的估計(jì)信息函數(shù)I
(a
)的圖像十分類似,只是在I
(a
)圖形的陡平程度上有差異。在樣本容量相同時(shí),能力分布服從正態(tài)分布的的I
(a
)的曲線相對(duì)于能力分布服從均勻分布的I
(a
)的曲線要陡峭。由此可得,被試的能力分布對(duì)參數(shù)a
的估計(jì)精度有影響。I
(b
)的三維圖像,如表3。由表3可知,難度參數(shù)b
的估計(jì)信息函數(shù)I
(b
)的圖像與區(qū)分度參數(shù)的信息函數(shù)I
(a
)的圖像差別很大,而且信息函數(shù)I
(b
)明顯受到被試的能力分布的影響。比如,在樣本容量為1000時(shí),若被試的能力分布服從標(biāo)準(zhǔn)正態(tài)分布,那么任意給定一個(gè)a
值,如a
=3,則I
(b
)的曲線與正態(tài)分布的密度函數(shù)曲線非常相似;同樣,若被試的能力分布服從均勻分布,則在a
=3處,I
(b
)的曲線也非常類似于均勻分布的曲線。I
(a
)、I
(b
)的圖像與能力分布之間的關(guān)系如表4所示。可知,難度參數(shù)b
的信息函數(shù)受能力分布的影響很大,相對(duì)來說,區(qū)分度參數(shù)a
的信息函數(shù)受能力分布的影響要小一些。另外從表3中還可得出結(jié)論,難度參數(shù)b
的信息函數(shù)也受到參數(shù)a
的真值、參數(shù)b
的真值和被試樣本容量的影響。(1)參數(shù)b
的信息函數(shù)值隨著樣本容量的增大而增大。(2)參數(shù)b
的真值對(duì)估計(jì)信息值的影響因能力參數(shù)分布的不同而不同。(3)當(dāng)區(qū)分度參數(shù)a
的真值增大時(shí),b
的信息函數(shù)也隨之增大。I
(b
)與區(qū)分度參數(shù)a
之間的關(guān)系如圖2所示。圖2是在樣本容量為1000,被試能力分布服從標(biāo)準(zhǔn)狀態(tài)分布時(shí)I
(b
)的三維圖形在a
軸和I
(b
)軸所在平面的正投影。從圖中可看到,在任意給定的b
值,I
(b
)的圖像是區(qū)分度參數(shù)a
的單調(diào)遞增曲線,在a
=0附近,I
(b
)取得最小值,I
(b
)值隨著a
值的增大而增大。當(dāng)b
=1.5時(shí),盡管這時(shí)I
(b
)的圖像仍然是一條單調(diào)遞增的曲線,但該曲線上的I
(b
)值比b
=0時(shí)的I
(b
)值小很多。也就是說,隨著b
逐漸的遠(yuǎn)離零點(diǎn),b
的信息量也漸漸減小,當(dāng)|b
|>3時(shí),b
的信息量減小到接近于零。上述結(jié)果表明,對(duì)于能力分布服從正態(tài)分布的情形,在b
=0附近,測(cè)驗(yàn)才能提供最大的b
參數(shù)信息量。如果測(cè)試項(xiàng)目的難度參數(shù)的絕對(duì)值|b
|過大,即使被試樣本容量很大,其難度參數(shù)b
的估計(jì)精度也不高。因此,在測(cè)驗(yàn)編制或者題庫(kù)建設(shè)中項(xiàng)目不應(yīng)過于簡(jiǎn)單或是難。a
、b
的信息函數(shù)方面的討論,根據(jù)公式(2.5)、公式(2.6),可畫出a
,b
的置信區(qū)間。圖3和圖4分別為區(qū)分度參數(shù)a
和難度參數(shù)b
的 95%的置信區(qū)間的三維圖像,其中,能力參數(shù)服從標(biāo)準(zhǔn)正態(tài)分布,被試樣本容量為1000。圖3的橫軸表示區(qū)分度參數(shù),縱軸為難度參數(shù),豎軸表示區(qū)分度參數(shù)a
的真值,下曲面表示置信區(qū)間的左端點(diǎn)曲面,上曲面表示置信區(qū)間的右端點(diǎn)曲面,任意作一條與a
、b
軸所在平面垂直的直線,直線與兩曲面相交部分的線段長(zhǎng)度就是區(qū)分度參數(shù)a
的真值的置信區(qū)間長(zhǎng)度,該直線與a
、b
坐標(biāo)平面的交點(diǎn)的橫坐標(biāo)就是a
的估計(jì)值。圖4的橫軸表示難度參數(shù)b
,縱軸表示區(qū)分度參數(shù)a
,其余與圖3有類似的解釋。1)區(qū)分度參數(shù)a
的估計(jì)誤差由圖3可知,在難度參數(shù)b
∈[?2,2]內(nèi),對(duì)于區(qū)分度參數(shù)值位于 0—2之間的試題,其對(duì)a
的估計(jì)誤差約為0.15個(gè)單位。例如,假設(shè)區(qū)分度參數(shù)a
的估計(jì)值為 1,那么在 95%的概率意義下,其真值位于區(qū)間(0.85,1.15)內(nèi)。當(dāng)難度參數(shù)b
∈[?2,2]外時(shí),a
參數(shù)的估計(jì)誤差迅速增大,例如,當(dāng)a
=2.7,b
=?2.2時(shí),a
參數(shù)的估計(jì)誤差約為2.5個(gè)單位,這樣大的估計(jì)誤差實(shí)際上已經(jīng)沒有什么價(jià)值。表3 不同情形下難度參數(shù)b的估計(jì)信息函數(shù)I(b)的三維圖像
表4 被試能力分布對(duì)I(a)、I(b)的影響(被試樣本容量N=1000)
圖2 θ ~ N(0,1)時(shí)1000個(gè)被試下參數(shù)b的信息函數(shù)投影圖
2)難度參數(shù)b
的估計(jì)誤差由圖4可知,在固定參數(shù)a
時(shí),對(duì)于難度參數(shù)位于?1—1之間的試題,其估計(jì)誤差約為 0.3個(gè)單位。例如,如果項(xiàng)目的難度參數(shù)估計(jì)值為0,那么在95%的概率意義下,其真值將位于區(qū)間(?0.3,0.3)內(nèi)。當(dāng)參數(shù)a
變化時(shí),參數(shù)b的置信區(qū)間也受到參數(shù)a
的影響,在a
=0=0附近兩曲面間的距離相對(duì)較大,即a
值越大,對(duì)b
的估計(jì)精度越好。在b=0時(shí)對(duì)b
的估計(jì)精度最好,|b
|越大,I
(b
)的值逐漸變小,估計(jì)精度就越差。圖3 區(qū)分度參數(shù)a的置信區(qū)間
圖4 難度參數(shù)b的置信區(qū)間
本研究定義了二參數(shù) logistic模型項(xiàng)目參數(shù)的估計(jì)信息函數(shù),并討論了項(xiàng)目參數(shù)的估計(jì)精度,給出了參數(shù)估計(jì)值的置信區(qū)間。從本文的討論可以得到:
在已知被試的能力參數(shù)估計(jì)項(xiàng)目參數(shù)時(shí),對(duì)于不同的測(cè)驗(yàn)項(xiàng)目,其項(xiàng)目參數(shù)的估計(jì)誤差也不相同;
與采用均方根差方法來估計(jì)項(xiàng)目誤差的方法相比,借助于項(xiàng)目參數(shù)的估計(jì)信息函數(shù)能夠更精確的描述項(xiàng)目參數(shù)的估計(jì)誤差;
(當(dāng)能力參數(shù)已知時(shí))項(xiàng)目參數(shù)的估計(jì)誤差僅與項(xiàng)目有關(guān),而與能力參數(shù)無關(guān);
(當(dāng)能力參數(shù)已知時(shí))項(xiàng)目區(qū)分度參數(shù)a
與難度參數(shù)b的估計(jì)精度相互影響,相互制約。項(xiàng)目難度參數(shù)b與能力分布的期望值越接近,對(duì)b的估計(jì)精度越高,同時(shí)項(xiàng)目區(qū)分度參數(shù)a
越大,b的估計(jì)精度越高;對(duì)a
參數(shù)而言,a
越小,對(duì)a
的估計(jì)精度越高,同時(shí)b的絕對(duì)值越小,a
的估計(jì)精度越高。項(xiàng)目參數(shù)a
、b的估計(jì)精度還受到被試樣本容量和能力分布的影響,樣本容量越大,對(duì)項(xiàng)目參數(shù)的估計(jì)越精確。如果被試的能力參數(shù)服從標(biāo)準(zhǔn)正態(tài)分布,只要樣本容量足夠大,對(duì)位于[?1.5,1.5]之間的項(xiàng)目難度參數(shù) b,都能獲得較為滿意的估計(jì)精度。而對(duì)于難度參數(shù)b大于1.5的項(xiàng)目,則需要足夠多的高能力被試參與測(cè)驗(yàn),否則估計(jì)誤差會(huì)很大。同樣,對(duì)于低難度的測(cè)試項(xiàng)目,要獲得理想的估計(jì)精度,也需要有足夠多的低能力被試參與測(cè)驗(yàn),才能獲得滿意的估計(jì)精度;對(duì)于項(xiàng)目的區(qū)分度參數(shù)a
,一般情況下,a
應(yīng)位于(0.5,2)之間才能獲得較好的估計(jì)精度,如果a
真值過大,即使樣本容量很大,其估計(jì)精度也不理想。不管是編制測(cè)試還是構(gòu)建題庫(kù),掌握每一道題目的性質(zhì)和信息非常重要。本研究定義的項(xiàng)目參數(shù)的信息函數(shù)可研究在一次測(cè)驗(yàn)中的每個(gè)試題在區(qū)分度和難度兩個(gè)指標(biāo)上分別能給全體被試提供多大的信息(能力信息函數(shù)是指一次測(cè)驗(yàn)中所有的測(cè)驗(yàn)項(xiàng)目能為某特定能力的被試提供多大的信息量)。區(qū)分度參數(shù)的信息函數(shù)可考察一道試題在區(qū)分度方面給一組被試提供的信息量。難度參數(shù)的信息函數(shù)能考察具有特定難度的試題在難度方面能給一組被試提供多大的信息量。結(jié)合項(xiàng)目參數(shù)的信息函數(shù)和估計(jì)方差,可以對(duì)試題的參數(shù)估計(jì)精確問題進(jìn)行更系統(tǒng)的研究,在編制試題時(shí)也可根據(jù)測(cè)試的性質(zhì)(選拔性、資格性)控制項(xiàng)目參數(shù)的信息量。希望上述討論能夠?yàn)轭}庫(kù)編制者和測(cè)驗(yàn)編制者提供一個(gè)有價(jià)值的參考信息。
Chen,P.,&Xin,T.(2011).Item replenishing in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica,43
(7),836–850.[陳平,辛濤.(2011).認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中的項(xiàng)目增補(bǔ).心理學(xué)報(bào),43
(7),836–850.]Finch,H.(2010).Item parameter estimation for the MIRT model:Bias and precision of confirmatory factor analysis--based models.Applied Psychological Measurement
,34
(1),10–26.Hambleton,R.K.,&Swaminathan,H.(1985).Item response theory:Principles and applications.
Boston:Kluwer-Nijhoff.Li,X.P.(1997).Foundation of probability theory.
Beijing,China:Higher Education Press.[李賢平.(1997).概率論基礎(chǔ)
.北京:高等教育出版社.]Liang,T.,&Wells,C.S.(2009).Amodel fit statistic for generalized partial credit model.Educational and Psychological Measurement,69
(6),913–928.Lord,F.M.(1980).Applications of item response theory to practical testing problems.
Hillsdale,NJ:Lawrence Erlbaum Associates.Maij-de Meij,A.M.,Kelderman,H.,&van der Flier,H.(2008).Fitting a mixture item response theory model to personality questionnaire data:Characterizing latent classes and investigating possibilities for improving prediction.Applied Psychological Measurement
,32
(8),611–631.Mao,S.S.,Cheng,Y.M.,&Pu,X.L.(2004).Probability theory and mathematical statistics.
Beijing,China:Higher Education Press.[茆詩(shī)松,程依明,濮曉龍.(2004).概率論與數(shù)理統(tǒng)計(jì)教程
.北京:高等教育出版社.]Qi,S.Q.,&Dai,H.Q.(1992).Item response theory and its application
.Nanchang,China:Jiangxi Universities and Colleges Press.[漆書青,戴海崎.(1992).項(xiàng)目反應(yīng)理論及其應(yīng)用研究
.南昌:江西高校出版社.]Tu,D.B.,Cai,Y.,Dai,H.Q.,&Ding,S.L.(2011).Parameters estimation of MIRT model and its application in psychological tests.Acta Psychologica Sinica,43
(11),1329–1340.[涂冬波,蔡艷,戴海琦,丁樹良.(2011).多維項(xiàng)目反應(yīng)理論:參數(shù)估計(jì)及其在心理測(cè)驗(yàn)中的應(yīng)用.心理學(xué)報(bào),43
(11),1329–1340.]Wang,M.R.(2009).MATLAB and science compute
(2nd ed).Beijing:Publishing House of Electronics Industry.[王沫然.(2009).MATLAB與科學(xué)計(jì)算
(第2版).北京:電子工業(yè)出版社.]