馮艷賓 馬洪超
“熵增值”在試題質(zhì)量分析中的應(yīng)用
馮艷賓 馬洪超
難度和區(qū)分度是傳統(tǒng)試題質(zhì)量分析所采用的指標(biāo),而依據(jù)(難度,區(qū)分度)二維向量指標(biāo)對(duì)試題質(zhì)量進(jìn)行排序需要主觀權(quán)衡,從而造成了試題質(zhì)量評(píng)判的不穩(wěn)定性。基于此,根據(jù)信息熵理論,構(gòu)建一種基于考生得分分布變化的客觀試題質(zhì)量指標(biāo)“熵增值”。通過(guò)HSK閱讀分測(cè)驗(yàn)的實(shí)證分析,“熵增值”的大小有效地反映了試題質(zhì)量的優(yōu)劣,其對(duì)應(yīng)的難度和區(qū)分度指標(biāo)符合經(jīng)典測(cè)量理論的分析原則。最后采用模擬仿真的方式論證了“熵增值”和難度、區(qū)分度的相互影響關(guān)系。
試題質(zhì)量;熵增值;難度;區(qū)分度
通過(guò)率、區(qū)分度常常作為傳統(tǒng)的題目分析指標(biāo)。一般認(rèn)為在經(jīng)典理論中難度在0.3~0.7之間為好,難度為0.5最合適(謝小慶,1998)。在大規(guī)模考試中,難易試題均應(yīng)保持在合理范圍,例如,漢語(yǔ)水平考試HSK(初中級(jí))試題在難易度分布上是由易逐步過(guò)渡到難,呈正態(tài)曲線分布。難度系數(shù)區(qū)間在0.1~0.9之間,難度值為0.4~0.6(<0.6)的中等難度題目最多(李慧,2000)。在經(jīng)典理論中難度值為通過(guò)率,區(qū)分度的值則是采用鑒別指數(shù)法、積差相關(guān)或點(diǎn)二列相關(guān)計(jì)算獲得的。區(qū)分度一般理解為題目具有區(qū)分不同水平考生的能力,區(qū)分度的含義因計(jì)算方法的不同而存在差異。理論上區(qū)分度取值范圍為[-1,1],實(shí)際上區(qū)分度應(yīng)為正值才有意義,一般認(rèn)為區(qū)分度大于0.4時(shí),題目才具有良好的鑒別能力。
項(xiàng)目反應(yīng)理論中題目難度b的取值為項(xiàng)目特征曲線拐點(diǎn)在橫坐標(biāo)上的投影,其值與被試能力被統(tǒng)一在相同的尺度上;拐點(diǎn)處曲線的斜率為題目區(qū)分度,a值越大說(shuō)明題目對(duì)被試的區(qū)分程度越高(馮艷賓和馬洪超,2012)。項(xiàng)目反應(yīng)理論中的難度值和區(qū)分度均依賴項(xiàng)目特征曲線拐點(diǎn),以拐點(diǎn)的值作為整體指標(biāo),無(wú)法全面反映不同被試在試題上的作答情況。
在經(jīng)典理論中,以通過(guò)率計(jì)算得來(lái)的題目難度值可能會(huì)掩蓋具有一定能力的考生能全部答對(duì),而能力較低的考生答對(duì)率低和高猜測(cè)的現(xiàn)象。這種“天花板效應(yīng)”和“地板效應(yīng)”意味著該題對(duì)部分被試失去意義。而用鑒別指數(shù)法計(jì)算出來(lái)的區(qū)分度只是區(qū)分高分組和低分?jǐn)?shù)的能力,采用相關(guān)方法計(jì)算的區(qū)分度值也只反映題目得分和總體得分之間的相關(guān)關(guān)系。因此,以經(jīng)典理論的難度值和區(qū)分度值來(lái)判定試題質(zhì)量的好壞,可能會(huì)出現(xiàn)誤斷的情況,也即是說(shuō)即使0.5難度值的試題,其質(zhì)量也未必很好。
兩種理論中的難度均為中間點(diǎn)的值來(lái)度量,而且難度和區(qū)分度因計(jì)算方法不同其含義完全不同,簡(jiǎn)單的難度值無(wú)法全面反映被試的整體反應(yīng)狀況。此外,經(jīng)典理論的區(qū)分度和項(xiàng)目反應(yīng)理論的區(qū)分度均無(wú)法全面體現(xiàn)試題對(duì)考生的鑒別功能。通過(guò)(難度,區(qū)分度)二維向量項(xiàng)指標(biāo)來(lái)判定試題質(zhì)量的優(yōu)劣,需要依賴主觀權(quán)衡,從而影響試題質(zhì)量評(píng)判的效率,增加了評(píng)判結(jié)果的不穩(wěn)定性。基于此,本研究以HSK數(shù)據(jù)為研究對(duì)象,采用“熵增值”來(lái)分析閱讀測(cè)試中題目的質(zhì)量,將傳統(tǒng)的試題分析指標(biāo)與熵增值進(jìn)行比較,探討“熵增值”在題目分析中的應(yīng)用。
在信息論中,熵表示的是不確定性的量度。信息論的創(chuàng)始人香農(nóng)在其著作《通信的數(shù)學(xué)理論》中提出了建立在概率統(tǒng)計(jì)模型上的信息度量。其中自信息和熵是信息論中兩個(gè)最基本的度量單位。在一個(gè)離散事件集合X,它含有N個(gè)事件:X={x1,x2,…,xn},事件xi出現(xiàn)的概率為pi,則事件xi的自信息為I(xi)=-logpi。自信息給出了一個(gè)隨機(jī)事件未出現(xiàn)時(shí)所呈現(xiàn)的不確定性,同時(shí)它也度量了該事件出現(xiàn)后所給出的信息量。因此,事件自信息的大小也表明了它在該集合中所占的比重。即事件對(duì)集合X的自信息越大,它隸屬于該集合的程度也就越高(Thomas M.Cover&Joy A.Thomas,2007)。
熵給出了集合X中各個(gè)事件未出現(xiàn)時(shí)所呈現(xiàn)的平均不確定性,也度量了集合X中一個(gè)事件出現(xiàn)時(shí)所給出的平均信息量。
對(duì)于一個(gè)由n道0、1得分的試題構(gòu)成的大規(guī)??荚噥?lái)說(shuō),總成績(jī)的所有可能分?jǐn)?shù)為0~n分,總成績(jī)分?jǐn)?shù)的概率分布為P(X=i)=pi(i=0,1,…,n),總成績(jī)分?jǐn)?shù)的熵記為Hn;當(dāng)增加一第n+1道0、1得分的試題時(shí),總成績(jī)的所有可能得分變成了0~n+1分,這時(shí)總成績(jī)分?jǐn)?shù)的概率分布為P(X=i)=(i=0,1,…,n+1),該分?jǐn)?shù)集合的熵記為Hn+1,根據(jù)熵理論知Hn+1≥Hn。我們將熵的增加值Hn+1-Hn稱作第n+1題相對(duì)于前n道試題的熵增值,簡(jiǎn)稱第n+1題的熵增值。
由表1可知,第33題的熵增值最小,41題的熵增值最大。因?yàn)殪卦鲋凳且环N動(dòng)態(tài)的相對(duì)值,因而不同試題具有相同的熵增值?,F(xiàn)根據(jù)熵增值的大小,選擇兩組試題,將試題的熵增值與經(jīng)典理論和項(xiàng)目反應(yīng)理論中試題參數(shù)進(jìn)行比較。如表2、表3所示。
表2中的6道試題均為熵增值較低的題目,其中1、3、46題難度偏易且區(qū)分度低,27、49題難度偏難且區(qū)分度也低。根據(jù)經(jīng)典測(cè)量理論的分析原則,偏難和偏易的題目都不是理想的試題。而33題難度雖然是中等,但區(qū)分度極低,依然不是理想試題。由以上數(shù)據(jù)我們看到,熵增值較小的試題在經(jīng)典測(cè)量理論中的參數(shù)指標(biāo)均不理想。同樣,這幾道試題在項(xiàng)目反應(yīng)理論中的參數(shù)指標(biāo)也均不理想。
表3中的題目在兩種理論下的參數(shù)指標(biāo)都很理想,其熵增值較大。綜合表2和表3的數(shù)據(jù)可以看到,熵增值大時(shí),試題質(zhì)量較好,熵增值小時(shí),試題質(zhì)量較差。為展現(xiàn)不同熵增值試題的特征,給出熵增值最大的44題和熵增值最小的33題的考察熵增值較小試題的累計(jì)概率曲線,如圖1所示。
表1 閱讀測(cè)試試題熵增值(從小到大排序)
表2 熵增值較小試題的題目參數(shù)
表3 熵增值較大試題的題目參數(shù)
圖1 熵增值最小最大試題累積概率曲線比較
圖1中,33題熵增值最小,累積概率曲線在0分到25分的考生群體中呈增長(zhǎng)趨勢(shì),但在25分到50分之間的考生群體中卻沒(méi)有繼續(xù)增長(zhǎng),曲線趨于水平,這說(shuō)明33題在25分到50分之間的考生群體,沒(méi)有隨著能力的提高而增加答對(duì)率,表明33題對(duì)水平比較高的考生沒(méi)有鑒別力。而第41題,曲線漸進(jìn)上升,說(shuō)明隨著考生能力的提高,答對(duì)率也逐步提高,在25分到30分之間的中等能力的考生群體上,答對(duì)率有顯著提高,這與項(xiàng)目反應(yīng)理論中的假設(shè)相一致,也符合我們直觀的理解和常識(shí)。
熵增值是一種相對(duì)值,是在總體分布的基礎(chǔ)上,減少某一試題,形成新的分?jǐn)?shù)分布。由于減少的某一試題與其他試題并不同質(zhì),因而對(duì)得分分布產(chǎn)生不同影響,使得不同得分分布的熵值發(fā)生變化,這種熵值的差稱為某一試題的熵增值。
以下采用模擬仿真,對(duì)熵值與難度、區(qū)分度之間的關(guān)系進(jìn)行分析。首先假定考試群體的能力分布為標(biāo)準(zhǔn)正態(tài)分布,考試試卷由6道0、1計(jì)分的試題構(gòu)成,其中難度均為bi=0,區(qū)分度取ai=1(i=1,2,…,6,采用IRT中難度、區(qū)分度定義)。分三種情況來(lái)添加第7道題目:第一種情況,區(qū)分度和難度和前6道題一致,即b7=0,a7=1。第二種情況,區(qū)分度不變,而難度為2,即b7=2,a7=1。經(jīng)計(jì)算,第一種情況下,總分分布的偏度SK=0,第7題的熵增值為ΔH(a=1,b=0)=0.2073。屬于較難的試題。第二種情況下,總分分布出現(xiàn)右偏,該第7題的熵增值為ΔH(a=1,b=2)=0.137??吹溅(a=1,b=2)小于ΔH(a=1,b=0),這種熵增值差異是由試題的難度造成的(見(jiàn)圖2)。
圖2 試題難度對(duì)得分分布的影響
第三種情況,增加第7道題的難度為b6=0,區(qū)分度a6=0.5,這時(shí)總分的分布的峰度值增大,得分更加集中,計(jì)算得到第7題的熵增值為ΔH(a=0.5,b=0)=0.1732,小于ΔH(a=1,b=0)=0.2073。這種熵增值差異是由區(qū)分度不同造成的(見(jiàn)圖3)。
圖3 試題區(qū)分度對(duì)得分分布的影響
由圖3可知,熵增值與試題自身的難度和區(qū)分度緊密相關(guān),因?yàn)椴煌y度和區(qū)分度的試題會(huì)影響考生得分分布,從而導(dǎo)致熵的變化,它是參數(shù)指標(biāo)的綜合反映。在信息論中,熵是整個(gè)系統(tǒng)的平均信息量,是概率分布的函數(shù)。在能力考試中,考試分?jǐn)?shù)的分布是研究試卷質(zhì)量的基本指針之一,而考試分?jǐn)?shù)分布的熵是反映考生能力和試題參數(shù)的一個(gè)綜合指標(biāo)。當(dāng)試題的參數(shù)指標(biāo)異常時(shí),熵增值也會(huì)有相應(yīng)的體現(xiàn),能夠體現(xiàn)考生群體對(duì)試題的全面反應(yīng)。
在經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論中,評(píng)判試題質(zhì)量主要依靠難度和區(qū)分度。難度體現(xiàn)了考生總體對(duì)題目的作答的整體反映。區(qū)分度體現(xiàn)了考生不同能力部分考生作答差異的反映。傳統(tǒng)的題目質(zhì)量分析主要通過(guò)難度和區(qū)分度來(lái)進(jìn)行評(píng)判,而在實(shí)踐中要對(duì)題目質(zhì)量?jī)?yōu)劣進(jìn)行排序時(shí),評(píng)判者需要綜合考慮難度和區(qū)分度,形成一個(gè)主觀判斷,這在試題取舍時(shí)一方面會(huì)增大抉擇的難度,另一方面也會(huì)帶來(lái)評(píng)判結(jié)果的不穩(wěn)定性。熵增值是在考生分?jǐn)?shù)分布的基礎(chǔ)上,通過(guò)調(diào)整某一試題,計(jì)算得來(lái)的,綜合體現(xiàn)了難度和區(qū)分度對(duì)分?jǐn)?shù)分布的影響,是一個(gè)綜合指標(biāo),便于對(duì)考試試題質(zhì)量進(jìn)行排序,方便判斷試題的優(yōu)劣。
熵增值綜合體現(xiàn)了試題難度和區(qū)分度,避免理論模型選擇帶來(lái)的誤差,比如項(xiàng)目反應(yīng)理論單、雙、三參數(shù)logistic模型的題目參數(shù)均有差異,有些計(jì)算出來(lái)的試題參數(shù)與題目特征曲線并不擬合,有的甚至存在較大的偏差。熵增值與試題自身的難度和區(qū)分度緊密相關(guān),當(dāng)試題的難度和區(qū)分度異常時(shí),熵增值也會(huì)有相應(yīng)的體現(xiàn),利用熵增值對(duì)試題進(jìn)行甄別,能快速找出參數(shù)異常的試題。
另外,熵增值是基于得分分布計(jì)算出來(lái)的數(shù)值,應(yīng)該考慮考生群體的代表性和測(cè)驗(yàn)的針對(duì)性;同時(shí)熵增值在大規(guī)模測(cè)試的試題質(zhì)量分析效果比較明顯,對(duì)于小規(guī)模考試,尤其是考生人數(shù)較少的測(cè)試,效果不明顯。
[1]謝小慶.心理學(xué)講義[M].武漢:華中師范大學(xué)出版社,1998.
[2]李慧.漢語(yǔ)水平考試(初中級(jí))閱讀理解命題中的效度考慮[J].漢語(yǔ)學(xué)習(xí),2000(5):55-59.
[3]馮艷賓,馬洪超.關(guān)于經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論中難度和區(qū)分度的探討[J].中國(guó)考試,2012(4):10-14.
[4]Thomas M.Cover&Joy A.Thomas.信息論基礎(chǔ)[M].北京:機(jī)械工業(yè)出版社,2007.
(責(zé)任編輯 周黎明)
Quality Analysis of Items Based on Increased Value of Entropy
FENG Yanbin and MA Hongchao
Difficulty and discrimination are traditional index in item analysis.To distinguish the quality of items and sequence the items basing on difficulty and discrimination need subjective weigh,so the instability of the items estimation cannot be avoided.So according to the information entropy theory,increased value of entropy is constructed as the index to measure the quality of items basing on the examinee score distribution.Through the empirical analysis of HSK reading test,the entropy value reflects the quality of items effectively;and they are consistent with the indexes in Classical Test Theory.In the end,It is showed that increased value of entropy is affected by difficulty and discrimination by using analog simulation.
Item quality;Increased Value of Entropy;Difficulty;Discrimination
G405
A
1005-8427(2014)11-0017-5
本課題為北京語(yǔ)言大學(xué)青年自主科研支持計(jì)劃資助項(xiàng)目(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金)項(xiàng)目批號(hào):11JBB016;北京語(yǔ)言大學(xué)院級(jí)科研項(xiàng)目(中央高?;究蒲袠I(yè)務(wù)專項(xiàng)資金資助),項(xiàng)目編號(hào):14YJ030008。
馮艷賓,男,北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院,講師(北京 100083)
馬洪超,男,北京語(yǔ)言大學(xué)漢語(yǔ)速成學(xué)院,講師(北京 100083)