• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      CAT中能力參數(shù)估計方法的改進:R-MLE估計法*

      2016-04-07 05:28:02
      心理學探新 2016年1期

      蔡 艷

      (江西師范大學心理學院,江西省心理與認知科學重點實驗室,南昌 330022)

      ?

      CAT中能力參數(shù)估計方法的改進:R-MLE估計法*

      蔡艷

      (江西師范大學心理學院,江西省心理與認知科學重點實驗室,南昌 330022)

      摘要:本文對CAT中能力估計的常用方法——最大似然估計法(MLE)進行改進,研究中結(jié)合EAP方法提出了改進的MLE法(R-MLE)。Monte Carlo模擬研究發(fā)現(xiàn):不論是在定長CAT還是非定長CAT中,不論是在1PL模型下還是在2PL或3PL模型中,不論是在何種CAT題庫結(jié)構(gòu)下,R-MLE法較傳統(tǒng)的MLE法具有更佳的估計精度及更有效的測驗效率;R-MLE法不僅可以提高CAT的能力估計精度還可以進一步改善CAT測試的效率,具有一定的應(yīng)用前景。

      關(guān)鍵詞:計算機化自適應(yīng)測驗;能力估計方法;EAP;MLE

      1引言

      計算機化自適應(yīng)測驗(CAT)是項目反應(yīng)理論最為成功的應(yīng)用之一(Van der linden & Glas,2010)。CAT因“量體裁衣、因人施測”的現(xiàn)代測量思想而深受研究者和應(yīng)用者的推崇,目前國際上大型CAT的具體實例包括美國研究入學測驗(GRE)、美國商學院研究生招生測驗(GMAT)等。

      當前,對于CAT的研究已引起了國內(nèi)外學者的廣泛關(guān)注(如陳平,丁樹良,2008;戴海琦,陳德枝,丁樹良,鄧太萍,2006;簡小珠,張敏強,2010;羅芬,丁樹良,王曉慶,2012;Barrada,Olea,Ponsoda,& Abad,2010;Chang & Ying,1999,2008;Doebler,2012;Kieftenbeld & Natesan,2012;等)。但從目前研究來看,國內(nèi)外關(guān)于CAT的研究主要集中在CAT的選題策略研究,對這一領(lǐng)域的研究成果也最為豐富。但關(guān)于CAT中能力估計方法的研究國內(nèi)外的文獻卻不多,尤其是關(guān)于CAT能力估計新方法的研究則更少。我們知道,CAT中能力估計的精度不足會導致CAT的優(yōu)勢難于發(fā)揮,其自適應(yīng)(adaptive)的選題策略宗旨也是建立在對被試能力準確估計的基礎(chǔ)之上,因此選擇合適的CAT能力估計方法或者開發(fā)估計精度更高的新方法值得進一步探討。

      目前國際上,CAT中能力參數(shù)估計的方法主要有最大似然估計(MLE)、貝葉斯期望后驗估計(EAP)、貝葉斯眾數(shù)估計(MAP)和馬爾科夫鏈蒙特卡羅(MCMC)方法等,每種方法各有特點。Wang和Vispoel(1998)認為,CAT中MLE方法的主要缺點是參數(shù)估計中需要不斷迭代估計以及被試全對或全錯的情況下無法估計等,但優(yōu)點是MLE估計是能力參數(shù)的充分估計量;EAP和MAP等貝葉斯法的主要缺點是先驗分布的選擇非常重要,但EAP法不需要迭代估計。當然,MCMC算法最大的缺點在于耗時很長,不利于CAT的即時估計及選題,但其估計的精度較高。因此,CAT中,各種能力參數(shù)估計方法各有千秋,研究者可以根據(jù)實際情況選擇恰當?shù)墓烙嫹椒ā?/p>

      查閱國內(nèi)外相關(guān)文獻,我們發(fā)現(xiàn)傳統(tǒng)CAT能力估計方法中,研究者一般是自始至終采用某種估計方法(如MLE或EAP或其它),對于同一個CAT中,在CAT不同階段采用不同估計方法對同一被試能力進行估計的研究未見相關(guān)文獻。我們認為,參數(shù)估計的不同算法各有優(yōu)劣,在CAT中由于能力估計是一種動態(tài)即時估計(每做完一題都需重新估計被試能力),因此在CAT不同階段/不同情況下可以采用不同的估計方法,以充分發(fā)揮各種估計方法的優(yōu)勢,從而提高CAT能力估計的精度及提高CAT的測試效率,這種全新的思路將會在更多領(lǐng)域進行嘗試。

      為此,本研究擬探討CAT中不同能力估計方法的結(jié)合,以充分發(fā)揮各種估計方法的優(yōu)勢。本研究擬重點探討MLE法與EAP法的結(jié)合,過程分析如下:對于采用MLE法進行能力參數(shù)估計的CAT,其初始階段一般不是正式自適應(yīng)選題階段,通常是先從題庫中隨機抽取幾題(如3~5題)供被試作答,然后根據(jù)被試在這幾題的做答情況初估被試能力,但只有當被試得分不全為0分也不全為滿分時,方能采用MLE法進行估計,否則仍需從題庫中繼續(xù)選題直至被試得分不全為0分也不全為滿分后進行能力初估;接著在能力初估的基礎(chǔ)上進入正式的CAT自適應(yīng)選題策略。由于CAT的初始題較少且一般為難度中等試題,能力較高的被試或能力較低的被試在初始階段獲得滿分或0分的可能性較大,這勢必導致如下問題:在CAT初始階段得滿分或0分的被試進入正式的自適應(yīng)選題策略階段較晚,對于定長CAT則會大大降低MLE法對被試能力估計的精度,而對于不定長CAT則會大大降低CAT自適應(yīng)的測試效率(即需要更多試題方能結(jié)束測試)。那么在實踐中有沒有方法可以克服MLE法的以上不足呢?一方面對于所有被試,可以較快進入CAT自適應(yīng)選題階段;另一方面,對于得分為滿分或0分時,仍可估計被試的能力。為了彌補MLE法的以上不足,本研究擬采用EAP法與MLE相結(jié)合,具體結(jié)合的思路為:一旦被試全得滿分或0分則采用EAP進行估計,否則采用MLE估計,這樣就可以從CAT的第2題始就實現(xiàn)對被試的自適應(yīng)選題,大大提高了CAT自適應(yīng)的宗旨及測試的效率。由于這種新方法更多的是彌補MLE法不能估計“全得滿分或0分的被試”不足的基礎(chǔ)上提出來的,因此本文稱此方法為改進的MLE法(簡記為R-MLE)。

      為了進一步驗證本研究提出的R-MLE的效果,本文采用Monte Carlo實驗的方法進行,分別考察定長CAT和不定長CAT,不同IRT模型下(1PLM、2PLM和3PLM)及不同CAT題庫下R-MLE方法的可行性及合理性,并與傳統(tǒng)的MLE方法進行比較。

      2研究一:CAT中改進的MLE法(R-MLE)與傳統(tǒng)MLE法的比較

      2.1實驗1:定長CAT下R-MLE估計精度

      采用3×3兩因素實驗設(shè)計,考察定長CAT中測驗長度和所采用的IRT模型兩種因素下,比較改進的MLE法(即R-MLE法)與傳統(tǒng)的MLE法的參數(shù)估計精度,其中測驗長度分別為10題、20題和30題,IRT模型分別為1PLM、2PLM和3PLM。

      本實驗為定長CAT,當被試的測驗長度達到預(yù)先指定的要求(如10題、20題或30題)則結(jié)束CAT。

      2.2實驗2:不定長CAT下R-MLE估計精度

      采用2×3兩因素實驗設(shè)計,考察不定長CAT中測量信度和采用的IRT模型兩種因素下,比較改進的MLE法與傳統(tǒng)的MLE法的參數(shù)估計精度,其中測量信度分別為0.8和0.9,IRT模型分別為1PLM、2PLM和3PLM。

      本實驗不定長CAT中,當被試的測量信度達到預(yù)先指定的要求(如r=0.8和r=0.9)則結(jié)束CAT。

      根據(jù)Wang和Vispoel(1998)的研究,信度與信息量間存在如下轉(zhuǎn)換公式:

      在能力θ的標準正態(tài)分布中,Sx=1。當信度為0.8時,則信息量為5;當信度為0.9時,則信息量為10。因此,在不定長CAT中,只有當被試的測量信度(或測驗信息量)達到預(yù)先設(shè)定的要求則終止CAT。

      2.3模擬過程

      (1)題庫項目參數(shù):共模擬300道試題。對于3PLM,a的取值范圍限定在[0.25,2.5],b限定在[-4,4],c小于0.3。當令參數(shù)c=0時,則模型變?yōu)?PLM;令參數(shù)c=0和a=1時則模型變?yōu)?PLM。

      (2)被試參數(shù):θ~N(0,1)。每種實驗處理模擬被試1000人,并重復(fù)實驗30次,即每種實驗處理模擬30000被試。其中實驗1有3×3=9種實驗處理,模擬270000名被試;實驗2有2×3=6種實驗處理,模擬180000名被試,共計模擬被試450000名被試。

      2.4評價指標

      分別比較傳統(tǒng)MLE和改進后的MLE(即R-MLE)兩種參數(shù)估計方法對被試參數(shù)估計的精度即返真性(Recovery)以及測試的效率(即不定長CAT中被試平均使用的測驗項目數(shù))。返真性采用平均絕對離差(ABS)指標,即能力參數(shù)估計值與真值的平均絕對離差。

      2.5結(jié)果

      表1和圖1為在二級評分CAT下,MLE與R-MLE兩種方法的參數(shù)估計精度。

      表1 R-MLE法對能力參數(shù)估計精度的改善(ABS)

      圖1 R-MLE與MLE平均ABS比較

      表1和圖1表明:

      在定長CAT的實驗1中,不論CAT測驗長度是10題、20題還是30題,R-MLE法的平均絕對離差(ABS)都小于MLE法;同樣,不論是在1PLM、2PLM還是3PLM,R-MLE法的平均絕對離差(ABS)也都小于MLE法。這表明改進的MLE法即R-MLE法的參數(shù)估計的精度優(yōu)于傳統(tǒng)的MLE法,新方法具有更小的估計誤差。

      在不定長CAT的實驗2中,實驗結(jié)果與實驗1基本相同,不論測量的信度是0.8還是0.9,R-MLE法的平均絕對離差(ABS)都小于MLE法;同樣,不論是在1PLM、2PLM還是3PLM,R-MLE法的平均絕對離差(ABS)也都小于MLE法。數(shù)據(jù)顯示改進的MLE法即R-MLE法的參數(shù)估計的精度優(yōu)于傳統(tǒng)的MLE法,新方法具有更小的估計誤差。對于測驗效率指標(見表2),除了在1PLM實驗情景下,R-MLE法的被試平均使用項目數(shù)少于MLE,說明R-MLE法較MLE法具有更高的測試效率。

      表2 R-MLE與MLE的測驗效率比較

      通過本研究中的實驗1和實驗2,我們可以看出,在二級評分的CAT中,本文提出的綜合法即R-MLE法較傳統(tǒng)的MLE法具有更高的估計精度和更高的測驗效率,新方法具有一定的應(yīng)用前景。

      3研究二:不同題庫結(jié)構(gòu)下R-MLE法對能力參數(shù)估計精度的改善

      為便于說明問題及簡化實驗,本研究采用的IRT模型均為2PLM。

      3.1實驗3:定長CAT下R-MLE估計精度

      本實驗CAT定長為20題,采用單因素實驗設(shè)計,考察不同題庫下R-MLE法與傳MLE法參數(shù)估計精度。

      3.2實驗4:不定長CAT下R-MLE估計精度

      本實驗CAT的信度固定為0.9,采用單因素實驗設(shè)計,考察不同題庫下R-MLE法與傳MLE法參數(shù)估計精度。

      3.3模擬過程

      本模擬與研究一基本一致,但題庫結(jié)構(gòu)不同,具體模擬四種不同類型的題庫,分別為:

      (1)題庫1:難度參數(shù)正態(tài)分布(b~∈N(0,1)),區(qū)分度對數(shù)正態(tài)分布(a~logN(0,1))

      (2)題庫2:難度參數(shù)正態(tài)分布(b~N(0,1)),區(qū)分度均勻分布(a~U(0.25,2.5))

      (3)題庫3:難度參數(shù)均勻分布(b~U(-4,4),區(qū)分度對數(shù)正態(tài)分布(a~logN(0,1))

      (4)題庫4:難度參數(shù)均勻分布(b~U(-4,4),區(qū)分度均勻分布(a~U(0.25,2.5))

      3.4評價指標

      采用平均絕對離差(ABS)以及測試的效率(即不定長CAT中被試平均使用的測驗項目數(shù))。

      3.5結(jié)果

      從實驗結(jié)果可以看出(見表3及表4),不論是在何種題庫結(jié)構(gòu)下,R-MLE法的估計精度優(yōu)于MLE法,且測試的效率也優(yōu)于MLE法。當然,表3與表4說明不同題庫結(jié)構(gòu)下,兩種方法的估計精度不完全一致,這說明題庫的結(jié)構(gòu)在一定程度上會影響CAT的能力估計精度,這也一點與以前研究基本一致。

      表3 不同題庫結(jié)構(gòu)下R-MLE法與MLE的比較(2PLM)

      表4 不同題庫結(jié)構(gòu)下R-MLE與MLE的

      4研究結(jié)論及討論

      本研究對傳統(tǒng)CAT能力估計方法進行改善,具體改善的方法是將不同方法進行結(jié)合,在CAT的不同階段采用合適的估計方法,本研究重點關(guān)注了采用EAP方法來彌補MLE方法的不足,由此提出了R-MLE估計法。Monte Carlo實驗表明:不論是在定長CAT還是非定長CAT中,不論是在1PL模型下還是在2PL或3PL中,不論是在何種CAT題庫結(jié)構(gòu)下,R-MLE法較傳統(tǒng)的MLE法具有更佳的估計精度及更有效的測驗效率。R-MLE法不僅可以提高CAT的能力估計精度還可以進一步改善CAT測試的效率,因而具有較好的應(yīng)用前景。

      當然,本研究還有許多不足,如只考慮EAP和MLE兩種方法的結(jié)合,未來研究還可以進一步考察其它方法的結(jié)合;研究中只考察二級評分模型下R-MLE的效果,它在多級評分CAT的適用性還有待進一步探討。我們撰寫此文,希望能起著拋磚引玉的作用,讓更多研究者參與到CAT能力估計方法改進的研究中,以進一步推動我國在這領(lǐng)域的發(fā)展。

      參考文獻

      陳平,丁樹良.(2010).允許檢查并修改答案的計算機化自適應(yīng)測驗.心理學報,40(6),737-747.

      戴海崎,陳德枝,丁樹良,鄧太萍.(2006).多級評分題計算機自適應(yīng)測驗選題策略比較.心理學報,38(5),778-783.

      簡小珠,張敏強.(2010).CAT初始階段被試能力估計方法改進探究.心理科學,(6),1470-1472.

      羅芬,丁樹良,王曉慶.(2012).多級評分計算機化自適應(yīng)測驗動態(tài)綜合選題策略.心理學報,44(3),400-412.

      Barrada,J.R.,Olea,J.,Ponsoda,V.,& Abad,F(xiàn).J.(2010).A method for the comparison of item selection rules in computerized adaptive testing.AppliedPsychologicalMeasurement,34(6),438-452.

      Chang,H.H.,& Ying,Z.L.(2008).To weight or not to weight?Balancing influence of initial items in adaptive testing.Psychometrik,73(3),441-450.

      Chang,H.H.,& Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement,23,211-222.

      Doebler,A.(2012).The Problem of Bias in Person Parameter Estimation in Adaptive Testing.AppliedPsychologicalMeasurement,36(54),255-270.

      Kieftenbeld,V.,& Natesan,P.(2012).Recovery of Graded Response Model Parameters A Comparison of Marginal Maximum Likelihood and Markov Chain Monte Carlo Estimation.AppliedPsychologicalMeasurement,36(5),399-419.

      Van der linden,W.J.,& Glas,C.A.(2010).ElementsofAdaptiveTesting.Springer,New York Dordrecht Heidelberg London.

      Wang,T.,& Vispoel,W.P.(1998).Properties of ability estimation methods in computerized adaptive testing.JournalofEducationalMeasurement,35(2),109-135.

      The Revised MLE Algorithm of Ability Estimated Method in CAT:R-MLE Algorithm

      Cai Yan

      (School of Psychology,Jiangxi Key Laboratory of Psychology and Cognitive Science,Jiangxi Normal University,Nanchang 330022)

      Abstract:In this paper,referring to the most popular ability estimation algorithm(maximum likelihood estimation method,MLE),some modification were done integrated into expected a posterior method(EAP),the new algorithm was called R-MLE method.The basic idea of this method was the following:once the score of the examinee was zero or full,his ability was estimated by EAP method;otherwise it was estimated by MLE method.Thus the adaptive choose of items was started from the second item in CAT,which was expected to be more effective and more adaptive than ever.The Monte Carlo simulation method was used here.The ABS index was used to test theprecision of ability parameter estimate and the average use ration index of items was used to test the efficiency of testing.Two studies were employed here.The first one was designed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under the fixed and unfixed test length rule of CAT and under 1PLM,2PLM and 3PLM.The second one was employed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under different structure of item bank,but only the 2PLM being considered.The findings suggested:Under any kind of CAT item bank,whether the fixed test length rule or unfixed test length rule was used,whether the one,two or three parameter logistic model were used,it was found that the estimation accuracy and efficiency of the R-MLE method was greater than that of the MLE method.It was also found that it would be more effective during CAT test when R-MLE method was used,which would be more applicable in practice.

      Key words:computerized adaptive testing;ability estimation method;EAP;MLE

      中圖分類號:B841.2

      文獻標識碼:A

      文章編號:1003-5184(2016)01-0092-05

      通訊作者:蔡艷,E-mail:cy1979123@aliyun.com。

      *基金項目:教育部人文社科基金(11YJC190002),國家自然科學基金(31300876,31100756,31160203),高等院校博士點基金項目(20103604120001,20123604120001),江西省教育科學規(guī)劃項目(13YB029,12YB088),江西師范大學青年英才培育資助計劃項目資助。

      平乐县| 琼海市| 金沙县| 武乡县| 托里县| 惠水县| 高邮市| 聂荣县| 南召县| 惠水县| 西宁市| 安龙县| 沙坪坝区| 浏阳市| 新乐市| 扶沟县| 梁河县| 潮州市| 泾川县| 柯坪县| 天气| 杭锦后旗| 即墨市| 宜川县| 姜堰市| 铁力市| 平远县| 兴城市| 金华市| 德州市| 云梦县| 原阳县| 尤溪县| 肇州县| 普格县| 略阳县| 永新县| 静乐县| 温泉县| 丰县| 古田县|