張軍
單維項(xiàng)目反應(yīng)理論在刻畫被試潛在能力與作答反應(yīng)間的關(guān)系時(shí),根據(jù)理論模型是否含參數(shù),劃分為兩類:參數(shù)型項(xiàng)目反應(yīng)理論(Parametric Item Response Theory,PIRT)和非參數(shù)型項(xiàng)目反應(yīng)理論(Nonparametric Item Response Theory,NIRT)。前者不僅要求數(shù)據(jù)滿足單維性、單調(diào)性、局部獨(dú)立性三個(gè)假設(shè)外,還要求數(shù)據(jù)擬合邏輯斯蒂函數(shù)或正態(tài)密度函數(shù)等,模型包含1個(gè)或多個(gè)參數(shù),因此PIRT對數(shù)據(jù)的約束更多,對題目參數(shù)和被試能力參數(shù)的估計(jì)都需要較大樣本,方法更復(fù)雜;后者只要求數(shù)據(jù)滿足單維性、單調(diào)性、局部獨(dú)立性三個(gè)假設(shè),并不假設(shè)數(shù)據(jù)擬合某種特定函數(shù),模型不含參數(shù)。因此與PIRT相比,NIRT更靈活、更容易被理解和接受,更適于描寫人格測驗(yàn)等小樣本數(shù)據(jù)[1][2][3]。
運(yùn)用單維NIRT項(xiàng)目反應(yīng)理論估計(jì)被試潛在能力時(shí),需要根據(jù)數(shù)據(jù)本身的特性,估計(jì)潛在能力與答對概率間的對應(yīng)關(guān)系,刻畫項(xiàng)目特征反應(yīng)曲線(ICC)。NIRT的ICC不具備某種特殊形態(tài),如PIRT中ICC的“S”形等。Ramsay[4]提出用非參數(shù)高斯核平滑法平滑估計(jì)ICC,模擬研究表明這種方法估計(jì)時(shí)間快速,速度是LOGIST和BILOG兩款軟件的500~1000倍;而且能充分利用數(shù)據(jù)本身的特點(diǎn),有效地估計(jì)被試能力并刻畫ICC[5]。目前,這種方法的介紹與運(yùn)用在國內(nèi)尚屬少見,而且此方法在題目數(shù)(題量)、被試樣本數(shù)等不同測驗(yàn)條件下的適用性尚未進(jìn)行過具體考察。
假設(shè)有N個(gè)被試,J個(gè)題目,題目有M個(gè)選項(xiàng)。被試的潛在能力值為θa,a=1,…,N。yjma為被試a選擇題目j中選項(xiàng)m的指示變量,當(dāng)被試a選擇題目j中的選項(xiàng)m時(shí),yjma取值為1,反之為0。被試a選擇題目 j中選項(xiàng)m的概率是Pjm(θa),在非參數(shù)高斯核平滑估計(jì)法中,通過平滑處理被試潛在能力θa與題目作答反應(yīng)的關(guān)系進(jìn)行估計(jì)。在高斯核平滑估計(jì)前,應(yīng)進(jìn)行如下步驟:
1.排序。被試按某統(tǒng)計(jì)量取值由小到大排序,統(tǒng)計(jì)量通常采用被試總分;
2.賦值。按標(biāo)準(zhǔn)正態(tài)分布規(guī)律,計(jì)算被試的百分位數(shù),并將其百分位數(shù)作為被試潛在能力值θa的值,a=1,…,N。
3.整理。按θa取值大小給全體被試的作答反應(yīng)形式進(jìn)行整理排序,如第a個(gè)被試的反應(yīng)形式為(xa1,xa2,…,xaj)。
對自變量θa與因變量Pjm(θa)進(jìn)行平滑處理,就是根據(jù)二者之間的對應(yīng)關(guān)系,構(gòu)擬出一條平滑曲線。被試潛在能力值一般從-3到3,在這一區(qū)間取若干個(gè)值θq作為估計(jì)點(diǎn),比如以0.1為步長,取-3,-2.9,-2.8,……,2.9,3這61個(gè)值為估計(jì)點(diǎn)。 θa可能與θq重合,也可能不同。通過公式(1)估計(jì)每個(gè)估計(jì)點(diǎn)θq的Pjm(θq),構(gòu)擬出一條平滑曲線。
平滑估計(jì)的關(guān)鍵原則是局部平均(local averaging),Pjm(θq)是以 θq為中心,以h為寬度的某一范圍中所有θa所對應(yīng)的yjma的加權(quán)平均數(shù)。在理論上,θa越接近 θq,θa所對應(yīng)的 yjma與 Pjm(θq)關(guān)系越密切,權(quán)重waq越大,反之權(quán)重越小。計(jì)算權(quán)重時(shí),使用高斯核函數(shù)K(u ) =e(-u2/2),其中 u=(θa-θq)/h 。因此,
設(shè)定寬度h時(shí),不宜過寬或過窄,過寬導(dǎo)致范圍內(nèi)θq過多,直接影響精度;過窄導(dǎo)致范圍內(nèi)θq過少,以致誤差過大。一般設(shè)定h=1.1N-0.2。
為檢測非參數(shù)高斯核平滑法在不同題量、不同樣本數(shù)條件下,估計(jì)被試能力值的精確性設(shè)計(jì)本實(shí)驗(yàn)。
實(shí)驗(yàn)希望解決三個(gè)問題:(1)非參數(shù)高斯核平滑法是否適用于估計(jì)小樣本被試的能力值;(2)題量和樣本數(shù)兩個(gè)因素對這種方法的估計(jì)精度是否存在顯著影響;(3)如果題量、樣本數(shù)對這種方法有顯著影響,那么兩者應(yīng)滿足何種條件才能保證或達(dá)到相應(yīng)的估計(jì)精度。
由于真實(shí)的測驗(yàn)數(shù)據(jù)難以嚴(yán)格滿足實(shí)驗(yàn)控制要求,實(shí)驗(yàn)使用軟件WinGen3[6],采用蒙特卡羅方法模擬若干套擬合雙參數(shù)邏輯斯蒂克模型的二分(0/1)項(xiàng)目反應(yīng)數(shù)據(jù),然后使用Testgraf98[7],運(yùn)用非參數(shù)高斯核平滑法估計(jì)被試能力值,估計(jì)程序中設(shè)定了61個(gè)估計(jì)點(diǎn),h=1.1N-0.2。最后,實(shí)驗(yàn)比較分析模擬被試的能力值與估計(jì)值之間的一致性與偏差。
本實(shí)驗(yàn)為6×7設(shè)計(jì),含題量和樣本數(shù)兩個(gè)因素,題量因素分6個(gè)水平,每個(gè)水平分別含20、50、100、150、200、250個(gè)題;樣本數(shù)分7個(gè)水平,每個(gè)水平分別含200、500、1000、2000、3000、4000、5000個(gè)被試。潛在能力一般服從正態(tài)分布,實(shí)驗(yàn)?zāi)M了7個(gè)被試群體,均為單維能力,分布為Θ(均值=0,標(biāo)準(zhǔn)差=1)。在項(xiàng)目反應(yīng)理論中,難度參數(shù)與能力參數(shù)處于同一量綱中,所以實(shí)驗(yàn)?zāi)M了6種題量的難度分度都是B(0,1),區(qū)分度處于0到2之間,服從均勻分布。實(shí)驗(yàn)共模擬42套數(shù)據(jù),具體見表1。
被試群體的模擬能力值是判定非參數(shù)高斯核平滑法估計(jì)精度的唯一標(biāo)準(zhǔn)。判定的指標(biāo)有兩個(gè):(1)模擬能力值與估計(jì)值兩組數(shù)據(jù)的皮爾遜相關(guān)系數(shù),系數(shù)越大,兩者的一致性越強(qiáng);(2)兩組數(shù)據(jù)之差的絕對值的平均數(shù)B平均,公式為B平均越大說明兩組數(shù)據(jù)間的總體偏差越大。42組數(shù)據(jù)的相關(guān)系數(shù)及B平均,分別見表2、表3。
表2、表3數(shù)據(jù)表明:在某種樣本數(shù)條件下,隨著題量的增加,模擬能力值與估計(jì)值的相關(guān)逐漸增大,如第2行從左至右,相關(guān)系數(shù)從0.86增至0.99;而且模擬能力值與估計(jì)值之間的偏差越來越小,如第2行從左至右,B平均從0.38縮減至0.12。因此,使用非參數(shù)高斯核平滑法估計(jì)被試能力值,題量越大,估計(jì)的精度越高。當(dāng)試卷含50個(gè)題以上時(shí),可保證能力估計(jì)值與模擬值一致程度在0.9以上,平均偏差在0.29以下。如果希望達(dá)到一個(gè)更良好的精度,如相關(guān)系數(shù)0.95以上,那么試卷至少應(yīng)含100個(gè)題。
表1 實(shí)驗(yàn)設(shè)計(jì)表
表2 能力估計(jì)值與實(shí)際值的皮爾遜系數(shù)
表3 B平均值
另外,在某種題量條件下,樣本數(shù)的增加對模擬能力值與估計(jì)值的相關(guān)程度、B平均大小似乎無明顯改善趨勢,如表2和表3的第1列。為進(jìn)一步考察樣本數(shù)和題量兩個(gè)因素對兩組數(shù)據(jù)間的B平均的影響,實(shí)驗(yàn)以表3中的B平均值為因變量,以樣本數(shù)和題量兩個(gè)因素為自變量,分別做單因素方差分析,見表4、表5。
樣本數(shù)因素有7個(gè)水平,各水平間的F值為.055,P=.999,組間差異不顯著,被試樣本數(shù)的增加,并未顯著改善非參數(shù)高斯核平滑法對能力值得估計(jì)精度。換言之,被試樣本數(shù)對估計(jì)精度沒有影響。由此可知,非參數(shù)高斯平滑法不僅適用于估計(jì)大樣本被試,同樣也適用于小樣本被試。
題量因素有6個(gè)水平,6個(gè)水平間的F值為240.478,組間差異在.01水平下顯著,這說明題量的大小對估計(jì)精度有顯著影響。經(jīng)方差齊次性檢驗(yàn),Levene 統(tǒng)計(jì)量為3.905,P=.006>.5,方差不齊,因此使用Tamhane法對題量不同水平間進(jìn)行多重比較。表6中第1列中1~6依次代表20題、50題、100題、150題、200題和250題6個(gè)水平。
從表6可知,題量為100和150時(shí)(水平3和水平4),兩種條件下的模擬能力值與估計(jì)值的B平均無顯著差別,即估計(jì)精度無顯著改善;題量為200和250時(shí)(水平5和水平6)同理。除此之外,其他水平間偏差大小有顯著差異,對估計(jì)精度有顯著改善。
(1)在某種樣本數(shù)條件下,隨著題量的增加,模擬能力值與估計(jì)值的相關(guān)系數(shù)逐漸加大,一致性越來越強(qiáng);而且估計(jì)的偏差越來越小,精度越高。
(2)被試樣本數(shù)因素的7個(gè)水平的B平均的組間差異在統(tǒng)計(jì)上不顯著,樣本數(shù)的多寡對估計(jì)精度沒有影響,非參數(shù)和平滑法不僅適用于估計(jì)大樣本被試,同樣也適用于小樣本被試。
(3)題量因素的6個(gè)水平的B平均的組間差異在統(tǒng)計(jì)上顯著,題量的增加能較好改善非參數(shù)高斯核平滑法對被試潛在能力值的估計(jì)精度。
(4)當(dāng)試卷含50個(gè)題以上時(shí),可保證能力估計(jì)值與實(shí)際值一致程度在0.9以上,平均偏差在0.29以下。如果希望達(dá)到一個(gè)良好的精度,如相關(guān)系數(shù)0.95以上,那么試卷至少應(yīng)含100個(gè)題。
(5)題量為100題和150題、200題和250題時(shí),這兩對水平間的估計(jì)總體偏差無顯著差異。因此,當(dāng)試卷從100題增加至150題時(shí),或者從200題增加到250題時(shí),總體偏差并未縮小,對估計(jì)精度沒有顯著改善。在測驗(yàn)實(shí)際中,如果只從估計(jì)精度考慮,沒有必要把題量從100題增加至150題,或從200題增加到250題。
表4 樣本數(shù)單因素方差分析
表5 題量單因素方差分析
表6 題量因素6個(gè)水平間多重比較
[1] Junker,B.W.&Sijtsma,K.,Nonparametric item response theory in action:An overview of the special issue[J].Applied Psychological Measurement,2001.
[2] Meijer,R.R.,&Sijtsma,K.,Methodology review:Evaluating person fit[J].Applied Psychological Measurement,2001.
[3] 張軍.非參數(shù)項(xiàng)目反應(yīng)理論在小規(guī)模測驗(yàn)中的運(yùn)用[J].考試研究,2014(1).
[4] Ramsay,J.O.,Kernel smoothing approaches to nonparametric item characteristic curve estimation[J].Psychometrika,1991(56):611-630.
[5] Ramsay,J.O.TestGraf:A Program for the Graphical Analysis of Multiple Choice Test and Questionnaire Data[EB/OL].http://www.psych.mcgill.ca/faculty/ramsay/TestGraf.html,2000.
[6] Han,K.T.&Hambleton,R.K.,“Windows Software that Generates IRT Model Parameters and Item Responses”WinGen3[EB/OL].http://www.umass.edu,2007.
[7] J.O.Ramsay,TestGraf[M].McGill University,2000.