朱乙藝 韋小滿
近年來(lái),項(xiàng)目功能差異(differential itemfunctioning,簡(jiǎn)稱DIF)是心理與教育測(cè)量領(lǐng)域的一個(gè)研究熱點(diǎn)。到目前為止,有很多的方法可以用于檢測(cè)DIF,檢測(cè)DIF的方法包括MH方法、STND方法、LRDIF方法、基于IRT的方法、MIMIC方法和SIBTEST方法等。不同的DIF檢測(cè)方法的檢驗(yàn)力(即正確識(shí)別率)是不盡相同的,即便對(duì)于特定的某種檢測(cè)方法而言,其檢驗(yàn)力也不是固定不變的,有一系列因素影響著其檢驗(yàn)力。影響DIF檢測(cè)方法檢驗(yàn)力的因素包括樣本量、測(cè)驗(yàn)長(zhǎng)度、被試的能力分布、DIF項(xiàng)目的比例、DIF值的大小等。國(guó)外學(xué)者對(duì)這些檢測(cè)DIF的方法進(jìn)行了很多比較研究,也做了很多探討這些檢測(cè)方法的影響因素的研究。通過(guò)這些研究,國(guó)外學(xué)者探討了各種DIF檢測(cè)方法的效率及優(yōu)缺點(diǎn),為實(shí)踐者選擇合適的DIF檢測(cè)方法提供了很好的依據(jù)。在國(guó)外學(xué)者的啟發(fā)下,我國(guó)學(xué)者利用現(xiàn)實(shí)存在的成就測(cè)驗(yàn)數(shù)據(jù)進(jìn)行了一些DIF檢測(cè)方法的比較研究,也對(duì)影響DIF檢測(cè)方法的因素進(jìn)行了研究。董圣鴻等認(rèn)為采用1000人左右的樣本進(jìn)行DIF分析是完全可取的,如果要更為謹(jǐn)慎的話,那么選用2000人左右的樣本就可以了[1]。李付鵬以某年度6000名考生普通高考文科綜合選擇題的作答數(shù)據(jù)為樣本,探討了能力水平分組對(duì)MH方法檢驗(yàn)敏感性的影響[2],研究結(jié)果表明:不同能力水平分組的檢驗(yàn)結(jié)果均具有較好的一致性;檢驗(yàn)結(jié)果對(duì)能力水平分組組數(shù)的敏感性較小,MH方法具有較好的穩(wěn)定性。
應(yīng)該說(shuō),國(guó)內(nèi)對(duì)DIF檢測(cè)方法的研究有助于對(duì)國(guó)外的相關(guān)研究結(jié)論進(jìn)行驗(yàn)證,是對(duì)DIF檢測(cè)方法研究的有益補(bǔ)充。但是國(guó)內(nèi)的研究基本上都是基于實(shí)測(cè)數(shù)據(jù),這就決定了國(guó)內(nèi)的研究和國(guó)外的模擬研究相比存在以下兩點(diǎn)不足:
第一,國(guó)內(nèi)的研究由于基于實(shí)測(cè)數(shù)據(jù),所以只能在實(shí)測(cè)數(shù)據(jù)的基礎(chǔ)上對(duì)變量進(jìn)行一定程度的操縱。例如,從現(xiàn)有的樣本中隨機(jī)抽取一定比例的被試從而實(shí)現(xiàn)對(duì)樣本量的操縱,但是諸如被試的能力分布、測(cè)驗(yàn)長(zhǎng)度等變量則無(wú)法自由進(jìn)行操縱。
第二,國(guó)內(nèi)的研究由于是利用實(shí)測(cè)數(shù)據(jù),因而無(wú)法事先知道哪些題目存在DIF,所以無(wú)法給出檢驗(yàn)力和I型錯(cuò)誤(即錯(cuò)誤接受率)指標(biāo),只能進(jìn)行相對(duì)的比較。在方法的比較研究中,國(guó)內(nèi)的研究一般會(huì)觀察若干種檢測(cè)方法共同檢測(cè)出來(lái)的題目個(gè)數(shù)和每種方法各自檢測(cè)出來(lái)的題目個(gè)數(shù),然后進(jìn)行相對(duì)比較,顯而易見(jiàn),這樣的相對(duì)比較是存在問(wèn)題的,因?yàn)闄z測(cè)出來(lái)的題目并不一定是事實(shí)上存在DIF的題目,有可能是錯(cuò)誤標(biāo)記為DIF的題目。在方法的影響因素研究中也存在類似的問(wèn)題,由于事先不知道哪些題目存在DIF,所以無(wú)法分離正確識(shí)別的題目和錯(cuò)誤接受的題目。
因此,為了能夠自由地操縱實(shí)驗(yàn)變量并且給出令同行信服的檢驗(yàn)力和I型錯(cuò)誤指標(biāo),國(guó)內(nèi)的學(xué)者有必要基于模擬數(shù)據(jù)進(jìn)行DIF檢測(cè)方法的研究。本研究探討了DIF值和樣本量對(duì)SIBTEST檢測(cè)方法的影響效應(yīng),以期一方面探明DIF值和樣本量對(duì)SIBTEST檢測(cè)方法的檢驗(yàn)力和I型錯(cuò)誤之間的關(guān)系,另一方面為國(guó)內(nèi)學(xué)者未來(lái)開(kāi)展模擬研究時(shí)選取DIF值提供參考。
SIBTEST方法(Simultaneous Item Bias Procedure)是由Shealy和Stout于1993年提出的一種DIF檢測(cè)方法。SIBTEST方法采用潛在能力作為匹配變量,用回歸校正方法來(lái)估計(jì)匹配分?jǐn)?shù)(Bolt&Stout,1995)。SIBTEST方法的DIF指標(biāo)為[3]:
其中,PS為第S能力水平組中答對(duì)該項(xiàng)目的人數(shù)比率,、分別是第S能力水平組中參照組和目標(biāo)組被試在該題上的平均得分。
SIBTEST還包括一個(gè)顯著性檢驗(yàn):Z=β/σ(β)來(lái)檢驗(yàn)項(xiàng)目的功能差異量是否顯著:
其中,σ2(Y|S,G)是匹配測(cè)驗(yàn)分?jǐn)?shù)為S的G組(G=R或F)被試在所研究的項(xiàng)目上得分的方差。Z近似于N(0,1)的正態(tài)分布(Hua-Hua Chang&Jhon Mazzeo,1996),如果Z大于1.96或小于-1.96時(shí)(α=0.05,雙側(cè)檢驗(yàn)),則拒絕零假設(shè),即認(rèn)為該項(xiàng)目存在DIF。
SIBTEST設(shè)計(jì)了一個(gè)迭代程序,把被懷疑存在功能差異的項(xiàng)目排除在匹配標(biāo)準(zhǔn)之外。此外,SIBTEST不僅可以對(duì)單個(gè)項(xiàng)目進(jìn)行項(xiàng)目功能差異檢驗(yàn),還可以對(duì)一批項(xiàng)目進(jìn)行項(xiàng)目束功能差異檢測(cè)[4]。
題目的作答數(shù)據(jù)是利用三參數(shù)邏輯斯蒂克項(xiàng)目反應(yīng)模型(3PLM)來(lái)產(chǎn)生的,在該模型中,單維能力為θ的被試正確作答題目i的概率為:
其中,ai為題目i的區(qū)分度參數(shù),bi為題目i的難度參數(shù),ci為題目i的偽猜測(cè)系數(shù),D為量尺化系數(shù)(一般取D=1.7)。
難度參數(shù)b是從N(0,1)正態(tài)分布中隨機(jī)選取的,區(qū)分度參數(shù)a是從N(0.5,0.2)正態(tài)分布中隨機(jī)選取的,偽猜測(cè)系數(shù)c設(shè)定為0.2,具體的題目參數(shù)見(jiàn)表1。能力θ是從N(0,1)正態(tài)分布中隨機(jī)選取的。測(cè)驗(yàn)的長(zhǎng)度為40,即測(cè)驗(yàn)包含40道題目。
兩級(jí)記分的題目作答數(shù)據(jù)是通過(guò)以下的過(guò)程得到的:首先通過(guò)上面的方程分別計(jì)算每個(gè)被試在每道題目上的正確作答概率,然后從U(0,1)一致性分布中隨機(jī)選取一個(gè)數(shù)字,如果該數(shù)字小于Pi(θ),則將該被試在題目i上的作答記為1,如果該數(shù)字大于Pi(θ),則將該被試在題目i上的作答記為0。
目標(biāo)組和參照組的能力分布均為N(0,1)正態(tài)分布,即目標(biāo)組和參照組的能力是一致的。選取第5題來(lái)產(chǎn)生DIF,第5題的難度為-0.208,為中等難度;區(qū)分度為0.808,為中等區(qū)分度。DIF的引入是通過(guò)改變目標(biāo)組的題目難度參數(shù)來(lái)實(shí)現(xiàn)的,即有利于參照組的DIF項(xiàng)目是通過(guò)bF=bR+來(lái)產(chǎn)生的。
表1 用來(lái)產(chǎn)生題目作答數(shù)據(jù)的參照組的題目參數(shù)
本研究操縱了兩個(gè)變量:DIF值和樣本量。DIF值指的是目標(biāo)組和參照組的DIF項(xiàng)目的項(xiàng)目反應(yīng)函數(shù)之間的面積,DIF值包含6個(gè)水平,分別是0.24、0.32、0.40、0.48、0.56和0.64,在產(chǎn)生DIF項(xiàng)目時(shí)對(duì)應(yīng)的Δb分別是0.3、0.4、0.5、0.6、0.7和0.8。樣本量包含6個(gè)水平,分別是250、500、1000、2000、5000、7000。因此,總共有6×6=36種條件,每個(gè)條件產(chǎn)生100個(gè)復(fù)本。
SIBTEST方法的DIF檢測(cè)是通過(guò)William Stout和Louis Roussos開(kāi)發(fā)的SIBTEST軟件[5]來(lái)進(jìn)行分析的,判定題目存在DIF的標(biāo)準(zhǔn)是p<0.05,分析過(guò)程中分別記錄每種條件下的檢驗(yàn)力和I型錯(cuò)誤。
在本研究中,SIBTEST方法檢測(cè)結(jié)果的檢驗(yàn)力的操作定義是在100個(gè)復(fù)本中第5題被標(biāo)記為存在DIF的比例。Cohen(1988)提出在0.05顯著性水平上如果檢驗(yàn)力>0.80則可以認(rèn)為檢驗(yàn)力是充分的[6]。
從表2中可以看出,當(dāng)DIF值較小時(shí)(0.24和0.32),在樣本量小于2000時(shí),SIBTEST方法的檢驗(yàn)力隨樣本量的增大而增大,當(dāng)樣本量大于等于2000時(shí),檢驗(yàn)力達(dá)到最大值,不再隨著樣本量的增大而增大;當(dāng)DIF值為中等大小時(shí)(0.40、0.48、0.56),在樣本量小于1000時(shí),SIBTEST方法的檢驗(yàn)力隨樣本量的增大而增大,當(dāng)樣本量大于等于1000時(shí),檢驗(yàn)力達(dá)到最大值,不再隨著樣本量的增大而增大;當(dāng)DIF值很大時(shí)(0.64),當(dāng)樣本量大于等于500時(shí),檢驗(yàn)力達(dá)到最大值,不再隨著樣本量的增大而增大,樣本量對(duì)SIBTEST方法的檢驗(yàn)力的影響可以忽略不計(jì)。
表2 不同DIF值和樣本量條件下SIBTEST方法的檢驗(yàn)力
表2顯示,當(dāng)樣本量小于等于500時(shí),SIBTEST方法的檢驗(yàn)力隨著DIF值的增大而增大;當(dāng)樣本量為1000時(shí),在DIF值較小時(shí)(0.24和0.32),SIBTEST方法的檢驗(yàn)力隨著DIF值的增大而增大,當(dāng)DIF值達(dá)到中等大小以后,SIBTEST方法的檢驗(yàn)力達(dá)到最大值,不再隨著DIF值的增大而增大;當(dāng)樣本量大于等于2000時(shí),SIBTEST方法的檢驗(yàn)力均為最大值。
在本研究中,SIBTEST方法檢測(cè)結(jié)果的I型錯(cuò)誤的操作定義是不存在DIF的項(xiàng)目被錯(cuò)誤地標(biāo)記為存在DIF的比例,根據(jù)Bradley(1978)提出的嚴(yán)格、保守的檢測(cè)結(jié)果穩(wěn)健標(biāo)準(zhǔn),如果I型錯(cuò)誤介于0.025到0.075之間,那么可以認(rèn)為檢測(cè)結(jié)果是穩(wěn)健的[7]。
從表3可以看出,在所有的DIF水平上,當(dāng)樣本量大于等于2000時(shí),SIBTEST方法的I型錯(cuò)誤隨著樣本量的增大而增大,而樣本量小于2000時(shí),SIBTEST方法的I型錯(cuò)誤的變化與樣本量的變化沒(méi)有明顯的關(guān)系。
表3顯示,當(dāng)樣本量小于等于1000時(shí),SIBTEST方法檢測(cè)結(jié)果的I型錯(cuò)誤的變化與DIF值的變化沒(méi)有明顯的關(guān)系;當(dāng)樣本量大于等于2000時(shí),I型錯(cuò)誤大致隨著DIF值的增大而增大。
在以往的模擬研究中,基于研究者對(duì)DIF產(chǎn)生原因的理解差異,模擬研究中DIF的產(chǎn)生一般有兩種思路:第一種思路是基于單維的項(xiàng)目反應(yīng)理論模型,通過(guò)改變目標(biāo)組的題目參數(shù)來(lái)引進(jìn)DIF;第二種思路是基于多維的項(xiàng)目反應(yīng)理論模型,沒(méi)有DIF的題目只測(cè)量首要維度,存在DIF的題目除了測(cè)量首要維度外,還測(cè)量到了其他維度。現(xiàn)有的大多數(shù)DIF模擬研究是采用第一種思路來(lái)產(chǎn)生DIF的,研究者們傾向于采用第一種思路是因?yàn)槟壳皢尉S的IRT理論較為穩(wěn)健,前人用該思路來(lái)產(chǎn)生DIF積累了很多寶貴的經(jīng)驗(yàn),用該思路來(lái)產(chǎn)生DIF操作較為簡(jiǎn)單。另一些研究者傾向于采用第二種思路的原因是他們認(rèn)為多維測(cè)驗(yàn)更符合實(shí)際情況,并且認(rèn)為通過(guò)引入新的維度來(lái)產(chǎn)生DIF是更為合理的。鑒于技術(shù)操作上的考慮,為了保證本研究的可行性,采用第一種思路來(lái)產(chǎn)生DIF。在第一種思路下,研究者一般根據(jù)其需要選取某種項(xiàng)目反應(yīng)理論模型(Rasch模型、單參數(shù)邏輯斯蒂克模型、兩參數(shù)邏輯斯蒂克模型或三參數(shù)邏輯斯蒂克模型),然后通過(guò)改變目標(biāo)組的難度參數(shù)或者同時(shí)改變目標(biāo)組的難度參數(shù)和區(qū)分度參數(shù)來(lái)產(chǎn)生DIF。本研究采用三參數(shù)邏輯斯蒂克模型來(lái)產(chǎn)生作答數(shù)據(jù)。
表3 不同DIF值和樣本量條件下SIBTEST方法的I型錯(cuò)誤
樣本量是DIF檢測(cè)效果的重要影響因素之一,通過(guò)設(shè)置不同樣本量的實(shí)驗(yàn)條件來(lái)探討樣本量對(duì)SIBTEST檢測(cè)方法的影響具有重要的理論意義和實(shí)踐意義?;诘谝环N思路來(lái)產(chǎn)生DIF時(shí),采用多大的DIF值是一個(gè)值得認(rèn)真考慮的問(wèn)題。當(dāng)用某種DIF檢測(cè)方法對(duì)模擬的數(shù)據(jù)進(jìn)行檢測(cè)時(shí),DIF值設(shè)置得過(guò)小或者過(guò)大,都可能對(duì)DIF檢測(cè)的效果造成不良影響。因此本研究的DIF值的變化范圍設(shè)置為0.24~0.64。從研究結(jié)果來(lái)看,樣本量和DIF值確實(shí)影響SIBTEST方法的檢測(cè)效果,并且樣本量和DIF值對(duì)SIBTEST方法的檢測(cè)效果的影響存在交互作用。由于本研究所選用的SIBTEST檢測(cè)軟件本身的限制,該軟件能檢測(cè)的最大樣本量是7000,如果想要檢測(cè)更大樣本量的數(shù)據(jù),則需要對(duì)SIBTEST軟件進(jìn)行拓展。從本研究的研究結(jié)果來(lái)看,當(dāng)樣本量達(dá)到5000~7000時(shí),DIF值為中等偏大時(shí)SIBTEST方法的檢測(cè)效果就不太穩(wěn)健了??梢韵胂螅绻麡颖玖吭龃蟮?萬(wàn)或者更大,那么可能DIF值為中等大小時(shí)SIBTEST方法的I型錯(cuò)誤就不再滿足穩(wěn)健的標(biāo)準(zhǔn)。當(dāng)樣本量很大的時(shí)候,在用SIBTEST方法來(lái)檢測(cè)DIF前就很有必要采取一些必要的措施,例如對(duì)樣本進(jìn)行隨機(jī)抽樣達(dá)到降低樣本量的目的,或者在檢測(cè)時(shí)采用效應(yīng)值來(lái)對(duì)抗虛假的統(tǒng)計(jì)顯著性。
(1)在一定的DIF值和樣本量條件下,SIBTEST方法的檢驗(yàn)力和I型錯(cuò)誤隨著樣本量和DIF值的增大而增大。樣本量和DIF值太小,會(huì)導(dǎo)致SIBTEST方法的檢驗(yàn)力不充分。樣本量和DIF值過(guò)大,不僅對(duì)檢驗(yàn)力的提高沒(méi)有幫助,反而會(huì)使I型錯(cuò)誤急劇增大。
(2)當(dāng)用SIBTEST方法對(duì)實(shí)測(cè)數(shù)據(jù)進(jìn)行DIF檢測(cè)時(shí),1000~2000的樣本量是比較合適的。
(3)當(dāng)用模擬數(shù)據(jù)進(jìn)行SIBTEST方法的模擬研究時(shí),如果選用的DIF值較小時(shí)(0.24~0.32),那么樣本量不能少于2000;如果選用的DIF值為中等大小時(shí)(0.40~0.56),那么樣本量不能少于1000;如果選用的DIF值為較大時(shí)(0.64),那么樣本量不能少于500。
[1]董圣鴻,馬世曄.三種常用DIF檢測(cè)方法的比較研究[J].心理學(xué)探新,2001(1).
[2]李付鵬.能力水平分組對(duì)Mantel-Haenszel方法檢驗(yàn)DIF效應(yīng)的影響分析[J].中國(guó)考試,2011(9).影響分析[J].中國(guó)考試,2011(9).
[3]Shealy,R.,Stout,W.A model-based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DIF as well as item bias/DIF.Psychometrika,1993,58:159-194.
[4]Clauser,B.E.,&Mazor,K.M.Using statistical procedures to identify differential item functioning test items.Educational Measurement:Issuesand Practice,1998,17:31-44.
[5]William Stout,Louis Roussos.SIBTESTManual,1996.
[6]Cohen,J.Statistical power analysis for the behavioral sciences.Hillsdale,NJ:Erlbaum.1988,2nd ed.
[7]Bradley,J.V.Robustness?The British Journal of Mathematical&Statistical Psychology,1978,31:144-152.