張泉慧 張穎 何佳 鄒杰文 王嬌艷
(國(guó)家醫(yī)學(xué)考試中心,北京 100097)
基于固定共同題方法的IRT等值模型比較研究
張泉慧 張穎 何佳 鄒杰文 王嬌艷
(國(guó)家醫(yī)學(xué)考試中心,北京 100097)
等值模型的選擇是題庫(kù)建設(shè)的重要環(huán)節(jié)。本研究在IRT理論框架下,選擇最為常用的Logistic模型,針對(duì)醫(yī)學(xué)考試某一學(xué)科測(cè)試比較三種Logistic模型下固定共同題等值方法的差異。結(jié)果表明,單參數(shù)模型對(duì)共同題的參數(shù)固定更穩(wěn)定,等值的精確性優(yōu)于雙參數(shù)模型和三參數(shù)模型,更適合用于該學(xué)科測(cè)試。
題庫(kù);Logistic模型;等值;IRT
隨著國(guó)內(nèi)考試行業(yè)的發(fā)展,等值的重要性已經(jīng)受到廣泛關(guān)注。等值是將一個(gè)測(cè)驗(yàn)不同版本的分?jǐn)?shù)統(tǒng)一在一個(gè)量表上的過(guò)程,是實(shí)現(xiàn)測(cè)驗(yàn)公平的保證,也是題庫(kù)建設(shè)的重要環(huán)節(jié)。等值方法需要基于特定的理論,目前主要有經(jīng)典測(cè)驗(yàn)理論(CTT)和項(xiàng)目反應(yīng)理論(IRT)兩種,相比CTT理論,IRT理論采用非線性模型,建立被試對(duì)項(xiàng)目的反應(yīng)與其潛在特質(zhì)之間的非線性關(guān)系,項(xiàng)目參數(shù)穩(wěn)定,不易受被試樣本的影響,而且能夠提供被試能力估計(jì)的精確性指標(biāo)——測(cè)驗(yàn)信息函數(shù)。因此,IRT理論更適用于指導(dǎo)等值,并在實(shí)踐應(yīng)用中顯示出了更大的優(yōu)勢(shì),這也使其成為國(guó)外大型考試應(yīng)用最廣泛的理論模型。
在IRT理論中,最為常用的是Logistic模型。Logistic模型包括單參數(shù)模型(1PLM)、雙參數(shù)模型(2PLM)和三參數(shù)模型(3PLM)?,F(xiàn)階段,國(guó)內(nèi)一些大型考試中也采用了IRT理論,如公共英語(yǔ)等級(jí)考試(PETS)、大學(xué)英語(yǔ)四六級(jí)考試、漢語(yǔ)水平考試(HSK)等,這些考試都選擇了不同的模型。但對(duì)于特定的考試,選擇什么樣的等值模型,尚沒(méi)有相關(guān)的數(shù)據(jù)論證,更多的是基于經(jīng)驗(yàn)的判斷。因此,本研究使用醫(yī)學(xué)考試中的一個(gè)學(xué)科測(cè)試作為研究對(duì)象,針對(duì)Logistic三種模型下的等值結(jié)果進(jìn)行比較,等值方法主要選擇目前較為常用的固定共同題參數(shù)方法,該方法需要固定共同題的參數(shù),從而使兩卷數(shù)據(jù)通過(guò)共同題的數(shù)據(jù)連接起來(lái),位于統(tǒng)一的量表中。最后通過(guò)比較共同題固定前后的變化來(lái)評(píng)價(jià)等值的精確性,共同題固定得越好,說(shuō)明這種等值模型越穩(wěn)定,也就越適合于該測(cè)試,這一嘗試也將為該學(xué)科的題庫(kù)建設(shè)起到一定的鋪墊作用。
本研究使用同一類別、同一學(xué)科的兩個(gè)年度的試卷,其中1份為標(biāo)桿卷(設(shè)為Y卷),1份為待等值卷(設(shè)為X卷),試卷題目數(shù)量為66道,兩卷包含14道共同題。
本研究采用固定共同題方法進(jìn)行等值,軟件使用BILOGⅢ軟件。研究中需要先估計(jì)標(biāo)桿卷(Y卷)的參數(shù)(在BILOG中,參數(shù)是通過(guò)EM算法求解似然方程而得到的極大似然估計(jì)值);然后,將Y卷共同題的參數(shù)固定,再估計(jì)待等值卷(X卷)的參數(shù);雖然這一等值方法試圖完全固定標(biāo)桿卷中的已知參數(shù),但在等值過(guò)程中,已知參數(shù)還是會(huì)隨著等值的迭代而發(fā)生一些變化,所以最后我們通過(guò)分析這些變化的差異,對(duì)不同模型下的估計(jì)精確性進(jìn)行比較。
考生背景的描述統(tǒng)計(jì)如表1所示。
由表1可知,兩卷樣本量相近,不同背景的考生人數(shù)及比例也比較接近,說(shuō)明該考試在年度間的群體沒(méi)有較大變化,相對(duì)穩(wěn)定。
兩卷因素分析結(jié)果如表2所示。
在表2中,比較兩份試卷的相關(guān)系數(shù)值與偏相關(guān)系數(shù)值,其KMO檢驗(yàn)值接近1,說(shuō)明樣本采集充足度高,因素分析的結(jié)果可以接受。對(duì)兩份試卷的相關(guān)系數(shù)矩陣進(jìn)行Bartlett球形檢驗(yàn),P<0.01,即相關(guān)矩陣不是一個(gè)單位矩陣,使用因子分析模型適宜。分析表中比值,試卷的第一特征值均超過(guò)第二特征值的3倍。根據(jù)Hambleton和Swaminathan的單維性檢驗(yàn)標(biāo)準(zhǔn)[1],第一特征值大于第二特征值的3倍,就可以認(rèn)為測(cè)驗(yàn)是單維的。由此判斷,該試卷考查的潛在特質(zhì)是單一的,考生的作答主要受到考查特質(zhì)的影響。這符合IRT理論的基本假設(shè)。
表1 考生背景描述統(tǒng)計(jì)
表2 兩卷因素分析結(jié)果
2.3.1 共同題信息
每份試卷中均包含14道共同題,共同題與總卷的相關(guān)系數(shù)見(jiàn)表3,其中共同題均來(lái)自Y卷。
表3 共同題相關(guān)分析結(jié)果
按IRT理論來(lái)進(jìn)行測(cè)驗(yàn)等值設(shè)計(jì)時(shí),要求共同題應(yīng)具有良好的代表性,與測(cè)驗(yàn)有較高的相關(guān),題數(shù)不應(yīng)少于題目總數(shù)的1/5。據(jù)表3顯示,共同題與試卷之間的相關(guān)較高,題數(shù)超過(guò)1/5,說(shuō)明共同題代表性良好,滿足等值的要求。
2.3.2 參數(shù)估計(jì)結(jié)果
參數(shù)估計(jì)前,刪去了試卷中缺考或全部答錯(cuò)的被試樣本,三種模型下的估計(jì)結(jié)果見(jiàn)表4。
從整體來(lái)看,各試卷的樣本量充足,完全滿足IRT理論的樣本量要求。三個(gè)模型下的參數(shù)估計(jì)結(jié)果并不相同,這和函數(shù)解析式不同有關(guān),因?yàn)椴煌哪P椭袇?shù)數(shù)量不同,對(duì)項(xiàng)目特征曲線的描述也會(huì)不同。總體來(lái)看,各模型中試卷平均b值大都在(-1.5,1.5)的區(qū)間內(nèi),2PLM和3PLM中平均a值都在0.4以上,3PLM中的平均c值小于0.25,說(shuō)明試卷整體難度適中,區(qū)分度良好,猜測(cè)度低,質(zhì)量良好。
對(duì)于試卷中的每一道題目,BILOG輸出結(jié)果中都包含擬合度檢驗(yàn)值(當(dāng)測(cè)驗(yàn)題目大于20個(gè),擬合度選擇似然比統(tǒng)計(jì)量G2值計(jì)算)和每道題所提供的信息函數(shù)值。以一道試題為例,結(jié)果見(jiàn)表5。
分析表5,該題在三個(gè)模型中的擬合度均良好,擬合度良好的指標(biāo)為Chi-sq值較小,PROB值>0.01,提供的信息函數(shù)值(Info)較大。具體來(lái)看,該題在1PLM中的Chi-sq值最小,PROB值最大,Info值也最大,其次為2PLM,最后為3PLM??梢?jiàn),對(duì)于這道題,三個(gè)模型均適合,以1PLM的擬合度為最優(yōu)。
等值中的迭代會(huì)使Y卷中需要固定的共同題參數(shù)發(fā)生變化,通過(guò)分析這些變化的差異,可以對(duì)方法的精確性進(jìn)行比較。三個(gè)模型下的共同題變化如表6~表8所示。
將表6~表8中共同題的絕對(duì)偏差求平均,得到平均差異量(見(jiàn)表9),可知固定共同題參數(shù)法在三個(gè)模型中的等值存在差異,共同題固定的情況是:(1)b值以1PLM最優(yōu),參數(shù)值在等值前后僅有微小變化,其次為3PLM,而在2PLM中b值出現(xiàn)較大偏差,這主要是因?yàn)榈?道共同題發(fā)生了嚴(yán)重的參數(shù)漂移,使得整體誤差急速增大,除去該題目,其余題目固定較好,平均差異量為0.026,但這一數(shù)值也依然是三個(gè)模型中變化差異最大的。(2)a值比較:2PLM的差異量比3PLM小,這是因?yàn)?PLM中許多題目的a值發(fā)生了較大的漂移。(3)3PLM中c值的平均差異量為0.053,雖然數(shù)值變動(dòng)在小數(shù)點(diǎn)后2位,但由于c值的變化范圍很小,大致在(0,0.5)之間,所以微小的變化都會(huì)引起偏差。
表4 試卷平均參數(shù)信息
表5 項(xiàng)目參數(shù)估計(jì)信息
綜上所述,隨著模型參數(shù)的增加,計(jì)算愈加復(fù)雜,參數(shù)漂移的現(xiàn)象開(kāi)始出現(xiàn),這樣就使得等值結(jié)果受到影響,可以設(shè)想如果隨著多份試卷的等值并進(jìn)入題庫(kù),誤差會(huì)逐漸增大并不斷累積。為了有效控制誤差,保證等值的精確性,采用單參數(shù)模型是最佳的選擇。
表6 1PLM模型中等值前后的共同題變化(b值)
表7 2PLM模型中等值前后的共同題變化(b值/a值)
表8 3PLM模型中等值前后的共同題變化(b值/a值/c值)
表9 三種模型下的共同題平均差異量比較
有關(guān)IRT等值模型的選擇,在學(xué)術(shù)界并沒(méi)有定論。單參數(shù)模型比較簡(jiǎn)單,使用較為方便,但它對(duì)項(xiàng)目參數(shù)性質(zhì)的要求較多,比如區(qū)分度大致相同、猜測(cè)度很小等;2PLM要求項(xiàng)目的猜測(cè)度較??;3PLM涵蓋較多項(xiàng)目信息,但參數(shù)估計(jì)更為繁雜。從題目的擬合度來(lái)看,由于3PLM增加了猜測(cè)度參數(shù),對(duì)曲線的擬合程度更高,所以相比其他模型的總體擬合度要高;而2PLM比單參數(shù)模型增加了區(qū)分度指標(biāo),所以總體的擬合度也相對(duì)1PLM要好。但是參數(shù)的增加必然會(huì)增加估計(jì)誤差。漆書(shū)青、戴海琦、丁樹(shù)良在專著中也曾提到:盡管三參數(shù)模型在資料擬合上顯示出很大優(yōu)越性,但其參數(shù)估計(jì)很復(fù)雜,且單參數(shù)模型對(duì)伴隨參數(shù)存在充分估計(jì)量,這是三參數(shù)模型無(wú)法比擬的。因此,選擇模型時(shí)還需要結(jié)合具體情況來(lái)分析[2]。因此在本研究通過(guò)比較等值的穩(wěn)定性,即共同題等值前后的變化差異來(lái)選擇模型。數(shù)據(jù)表明,單參數(shù)模型等值的穩(wěn)定性更好,參數(shù)固定的誤差最小,運(yùn)算更簡(jiǎn)單可行,因此最適合用于該學(xué)科測(cè)試。
此外,我們還發(fā)現(xiàn)等值過(guò)程中參數(shù)漂移現(xiàn)象,這說(shuō)明參數(shù)變化超過(guò)了隨機(jī)誤差可以解釋的范圍。具體原因是,共同題在兩個(gè)測(cè)驗(yàn)形式中所發(fā)揮的功能或不一致,雖然在形式上還是同一題目,但已無(wú)法起到媒介或鏈接的作用,這種共同題給等值帶來(lái)的是一種系統(tǒng)誤差。由于參數(shù)漂移的影響因素很多,如果簡(jiǎn)單剔除題目,也會(huì)引入誤差,因此,本研究中并未刪除漂移題目,而是將漂移的原因探討作為進(jìn)一步的研究方向。
[1]HAMBLETON R K,SWAMINATHAN H.Item response theory:Principles and applications[M].Boston,MA:Kluwer-Nijhoff,1985.
[2]漆樹(shù)青,戴海崎,丁樹(shù)良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002.
A Comparative Study of IRT Equivalence Model Based on Fixed Common Item Parameters Method
ZHANG Quanhui,ZHANG Ying,HE Jia,ZOU Jiewen,WANG Jiaoyan
(National Medicine Examination Center,Beijing 100097,China)
Choosing a certain measurement model is an important part of constructing item bank.This study attempts to analyse the differences in three types of Logistic model by fixed common item parameters method under the IRT theory.The object of study is some kind of medical examination.The result is that the method of 1PLM is more stable,the parameters is smaller than 2PLM and 3PLM,so the 1PLM is suitable in this examination.
Item Bank;Logistic Model;Equivalence;IRT
G405
A
1005-8427(2017)06-0065-5
10.19360/j.cnki.11-3303/g4.2017.06.011
(責(zé)任編輯:周黎明)
張泉慧(1982—),女,國(guó)家醫(yī)學(xué)考試中心,助理研究員;
張 穎(1973—),女,國(guó)家醫(yī)學(xué)考試中心,研究員;
何 佳(1973—),女,國(guó)家醫(yī)學(xué)考試中心,副研究員;
鄒杰文(1986—),女,國(guó)家醫(yī)學(xué)考試中心,實(shí)習(xí)研究員;
王嬌艷(1984—),女,國(guó)家醫(yī)學(xué)考試中心,助理研究員。