劉 玥 劉紅云
(北京師范大學(xué)心理學(xué)部,北京 100875)
在成就測驗中,存在著一種高能力被試答錯容易題目的“睡眠現(xiàn)象(sleeping phenomenon)”(Wright,1977)。造成這種現(xiàn)象的原因可能有:焦慮、不良的測試環(huán)境導(dǎo)致被試分心、粗心、誤解題意,測驗動機過強和家長期望壓力過大等。同時,在心理測驗(如人格測驗)中,也存在一種由于被試掩飾、說謊等原因,在試題上表現(xiàn)出人格特征維度低水平方向的傾向性作答,使得被試在這一人格特征維度上總分偏低的現(xiàn)象(簡小珠,焦璨,彭春妹,2010)。睡眠現(xiàn)象會導(dǎo)致測驗總分偏低,從而造成測量偏差。在項目反應(yīng)理論下,為了對睡眠現(xiàn)象進行修正,McDonald(1967)最早提出使用參數(shù)來反映一部分高能力被試答錯了容易試題的現(xiàn)象。睡眠現(xiàn)象可能會單獨出現(xiàn)。例如,對于一些難度較大的填空題,高能力被試未必能全部答對,而低能力被試則很難猜對。這時可以使用含有難度、區(qū)分度和睡眠參數(shù)(上漸近線參數(shù))的三參數(shù)Logistic模型擬合數(shù)據(jù)。另外,睡眠現(xiàn)象和猜測現(xiàn)象可能同時出現(xiàn),這時可以在傳統(tǒng)IRT模型(以下簡稱傳統(tǒng)模型)基礎(chǔ)上加入睡眠參數(shù),來反映數(shù)據(jù)結(jié)構(gòu)。
1.2.1四參數(shù)Logistic模型定義
Waller和Reise(2010)在最早的四參數(shù)Logistic模型基礎(chǔ)上進行拓展,提出了廣義模型。該模型中每道題目的睡眠參數(shù)是不同的。
其中,aj,bj,cj分別表示區(qū)分度、難度、猜測參數(shù)。dj表示睡眠參數(shù),在傳統(tǒng)模型中,dj固定為1,而在此模型中,dj可以小于1且在題目間變化。
另外,如果測驗中僅存在睡眠現(xiàn)象而不存在猜測現(xiàn)象,則可以使用含有難度、區(qū)分度和睡眠參數(shù)的三參數(shù)logistics模型(Waller & Reise,2010)。
1.2.2四參數(shù)Logistic模型估計
四參數(shù)Logistic模型在產(chǎn)生初期應(yīng)用并不廣泛,這主要是由于傳統(tǒng)的極大似然估計方法很難實現(xiàn)該模型的參數(shù)估計(Waller & Reise,2010)。而貝葉斯估計方法對于估計復(fù)雜、多參數(shù)的模型非常有效。因此,Loken和Rulison(2010)使用貝葉斯估計方法實現(xiàn)了對四參數(shù)Logistic模型的參數(shù)估計。
1.2.3四參數(shù)Logistic模型應(yīng)用
在Barton和Lord(1981)的研究中,將四參數(shù)Logistic模型應(yīng)用于成就測驗。但是測驗極大似然值沒有顯著增加,被試能力估計值沒有顯著的變化,四參數(shù)模型還增加了計算的復(fù)雜性。因此,他們不提倡使用該模型。在之后的近二十年里,關(guān)于該模型的研究論文幾乎沒有,該模型只在一些教材中被提及。在此期間的BILOG、MULTILOG等軟件都沒有相應(yīng)程序模塊(簡小珠,張敏強,彭春妹,2010)。
直至近幾年,研究者開始關(guān)注心理測驗中的睡眠現(xiàn)象和四參數(shù)Logistic模型。2003年,Reise和Waller(2003)在分析人格測驗MMPI-2 時,發(fā)現(xiàn)了一些試題存在睡眠現(xiàn)象,建議使用四參數(shù)Logistic模型擬合數(shù)據(jù)。簡小珠、戴海崎和彭春妹(2007)在分析高考數(shù)據(jù)時,發(fā)現(xiàn)了一些試題同時存在猜測現(xiàn)象和睡眠現(xiàn)象,或單獨存在猜測現(xiàn)象和睡眠現(xiàn)象。目前,關(guān)于四參數(shù)Logistic模型在成就測驗中的應(yīng)用主要關(guān)注CAT測試中高能力被試在初始階段答錯容易試題后,該模型對能力值低估的修正作用(Rulison & Loken,2009)。但是,國內(nèi)外關(guān)于四參數(shù)Logistic模型的文章還較少,尤其國內(nèi)關(guān)于該模型在實際數(shù)據(jù)中應(yīng)用的研究則更少(簡小珠,2006)。
對于四參數(shù)Logistic模型的研究,大多關(guān)注了該模型與傳統(tǒng)模型在估計結(jié)果和信息量上的差異。研究多以四參數(shù)Logistic模型模擬作答反應(yīng),以睡眠現(xiàn)象作為既定的前提。然而,在實際的測驗中,睡眠現(xiàn)象真實發(fā)生的頻率如何?四參數(shù)Logistic模型與傳統(tǒng)模型的估計結(jié)果到底存在多大區(qū)別?還需要在實證研究中尋找答案。另外,關(guān)于四參數(shù)Logistic模型的應(yīng)用研究多針對成就測驗或心理測驗中的一種,并且多數(shù)認為該模型更適用于心理測驗。那么,在成就測驗中,四參數(shù)Logistic模型是否對于模型擬合和參數(shù)估計沒有顯著改善呢?研究以焦慮量表和兩種分布的數(shù)學(xué)測驗為例,同時比較了在心理測驗和成就測驗中,四參數(shù)Logistic模型和傳統(tǒng)模型在模型擬合和參數(shù)估計值上的結(jié)果,分析了四參數(shù)Logistic模型的必要性,提出了應(yīng)用建議。
心理測驗選擇了泰勒焦慮調(diào)查量表(Taylor Manifest Anxiety Scale),共有50道題目,所有題目都要求被試回答是或否,因此均為0/1計分。被試共計5410名,其中男性占44.27%,女性占55.73%,年齡為30.12±11.87,被試得分呈負偏態(tài)分布。
成就測驗選擇了某大規(guī)模數(shù)學(xué)測驗,共60道題目,均為有4個備選答案的單項選擇題,0/1計分,滿分為60分。參加測驗的學(xué)生為來自47所學(xué)校的4882名高一學(xué)生,總分偏度為0.097,基本符合正態(tài)分布。
從數(shù)學(xué)測驗得分小于30分的學(xué)生中隨機剔除50%,構(gòu)造一個新樣本,其樣本量為3740人,偏度為-0.199,得到一個相對原有分布的負偏態(tài)分布,以考察含有睡眠參數(shù)模型的優(yōu)勢是否能夠在負偏態(tài)分布的成就測驗中顯現(xiàn)。
泰勒焦慮調(diào)查量表和數(shù)學(xué)測驗的描述統(tǒng)計結(jié)果如下表:
使用R中的sirt軟件包(Robitzsch & Robitzsch,2015)進行模型與數(shù)據(jù)的擬合。擬合的模型有以下七種。
模型1:Rasch模型
模型2:兩參數(shù)Logistic模型(2PM)。
模型3:三參數(shù)Logistic模型(3PM),含有難度、區(qū)分度和猜測參數(shù)的Logistic模型。
模型4:三參數(shù)睡眠logistics模型(3PMR),含有難度、區(qū)分度和睡眠參數(shù)的logistc模型。適用于睡眠現(xiàn)象單獨存在的情況。
模型5:四參數(shù)Logistic模型(4PM),同時含有難度、區(qū)分度、猜測參數(shù)和睡眠參數(shù)的Logistic模型。
模型6:模型5的基礎(chǔ)上將所有題目猜測參數(shù)固定相等估計的模型(4PMc)。
模型7:模型5的基礎(chǔ)上將所有題目睡眠參數(shù)都固定相等估計的模型(4PMd)。
表2列出了對于不同數(shù)據(jù),各模型的擬合指標結(jié)果。AIC、BIC結(jié)果具有較高的一致性。對于所有測驗來說,Rasch模型的擬合結(jié)果均最差,對于泰勒焦慮調(diào)查量表,3PMR的AIC指標最好,2PM的BIC指標最好;對于原始的和構(gòu)造的負偏態(tài)數(shù)學(xué)測驗,4PM的AIC指標最好,4PMd的BIC結(jié)果最好。由于這兩個擬合指標均考慮了模型的復(fù)雜程度,因此,綜合來看,上漸近線參數(shù)非1的模型能提供較好的擬合結(jié)果。
表2 不同測驗?zāi)P蛿M合結(jié)果
為考察四參數(shù)Logistic模型與傳統(tǒng)模型參數(shù)估計結(jié)果的差異,計算了擬合情況最好的四參數(shù)Logistic模型(或上漸近線參數(shù)非1的模型,以下簡稱四參數(shù)Logistic模型)與擬合情況次之的上漸近線參數(shù)固定為1的傳統(tǒng)模型的題目參數(shù)、能力參數(shù)的相關(guān)。
3.2.1題目參數(shù)相關(guān)
表3列出了不同測驗四參數(shù)Logistic模型與擬合情況最接近的傳統(tǒng)模型題目參數(shù)估計值的相關(guān)。
表3 四參數(shù)Logistic模型與傳統(tǒng)模型題目參數(shù)估計值相關(guān)
從以上結(jié)果可以看出,對于不同測驗,四參數(shù)Logistic模型與傳統(tǒng)模型的難度參數(shù)估計結(jié)果具有較高的一致性,但是區(qū)分度參數(shù)具有較大的差異,并且,對于構(gòu)造的負偏態(tài)數(shù)學(xué)測驗,不同模型區(qū)分度參數(shù)估計值差異最大。不同模型區(qū)分度參數(shù)估計值的差異如圖1所示。
圖1 四參數(shù)Logistic模型與傳統(tǒng)模型區(qū)分度參數(shù)估計值
從圖中可以看出,四參數(shù)Logistic模型得到的區(qū)分度參數(shù)估計值高于傳統(tǒng)模型。
表4列出了按照四參數(shù)Logistic模型的難度參數(shù)估計值,刪除最簡單的5、10、15道題目后,不同模型參數(shù)估計值的相關(guān)。
表4 刪除簡單題目后四參數(shù)Logistic模型與傳統(tǒng)模型題目參數(shù)估計值相關(guān)
從表中可以看出,刪除簡單題目對難度參數(shù)估計值的相關(guān)沒有顯著影響。但是,隨著刪除簡單題目數(shù)量增加,不同模型區(qū)分度參數(shù)的一致性增強,該現(xiàn)象對于構(gòu)造的負偏態(tài)數(shù)學(xué)測驗尤其明顯。這可能是由于簡單題目數(shù)量越少,睡眠現(xiàn)象發(fā)生的概率相對越少,則上漸近線參數(shù)為1的情況更為普遍,因此,四參數(shù)Logistic模型與傳統(tǒng)模型區(qū)分度參數(shù)估計值越接近。
3.2.2能力參數(shù)相關(guān)
表5列出了不同測驗四參數(shù)Logistic模型與擬合情況最接近的傳統(tǒng)模型所有能力參數(shù)估計值、部分能力參數(shù)估計值的相關(guān)。
表5 四參數(shù)Logistic模型與傳統(tǒng)模型能力參數(shù)估計值相關(guān)
注:不同測驗所比較的模型與表3一致。
從結(jié)果可以看出,雖然對于所有的被試,不同模型能力參數(shù)估計值相關(guān)很高,但是對于能力越高的群體,不同模型能力參數(shù)估計值的一致性越低,特別是對于能力最高的100名被試,不同模型能力參數(shù)估計值的相關(guān)僅為0.672、0.530和0.527,對于高能力被試,四參數(shù)Logistic模型得到的能力參數(shù)估計值高于傳統(tǒng)模型。
以數(shù)學(xué)測驗為例,選取了四參數(shù)Logistic模型能力參數(shù)估計值為1以上、2以上的被試,并分別計算了對于這些群體,使用4PM和3PM得到的能力參數(shù)估計值的相關(guān)。結(jié)果顯示,對于所有被試、能力為1以上被試、能力為2以上被試,兩種模型能力參數(shù)估計值的相關(guān)分別為0.996、0.942、0.590。進一步驗證了對于能力水平越高的被試,四參數(shù)Logistic模型與傳統(tǒng)模型能力參數(shù)估計值差異越大。另外,如圖2所示,對于高能力被試,4PM得到的能力參數(shù)估計結(jié)果普遍高于3PM。
圖2 不同被試四參數(shù)Logistic模型與三參數(shù)Logistic模型能力參數(shù)估計值
圖3 四參數(shù)Logistic模型與傳統(tǒng)模型項目特征曲線
為了進一步證明上漸近線參數(shù)非1現(xiàn)象的存在,在泰勒焦慮調(diào)查量表和數(shù)學(xué)測驗中分別選取了d參數(shù)顯著小于1的一道題目,繪制不同模型的項目特征曲線(ICC),如圖3所示。
從圖中可以看出,實際測驗中確實存在上漸近線參數(shù)顯著小于1的題目。對于這些題目,傳統(tǒng)模型的上漸近線為1,高能力被試答對題目的概率接近1;而四參數(shù)Logistic模型的上漸近線小于1,高能力被試答對題目的概率顯著小于1。
研究以實際數(shù)據(jù)為例,展示了四參數(shù)Logistic模型如何用于分析心理測驗和成就測驗,并與傳統(tǒng)模型的擬合性和參數(shù)估計結(jié)果比較,總結(jié)出四參數(shù)Logistic模型的必要性。
4.1.1四參數(shù)Logistic模型對心理測驗的必要性
早期關(guān)于四參數(shù)Logistic模型的文章中,多認為該模型更適用于心理和人格測驗。這是由于三個原因造成的:一是心理測驗題目存在著極端性,即某些題目有基礎(chǔ)的選擇率,會存在非0下漸近線現(xiàn)象和非1 上漸近線現(xiàn)象。例如,有調(diào)查顯示,有自殺傾向的青少年比例小于0.50,那么在青少年的抑郁量表中,即使有重度抑郁的人,也不一定有自殺傾向。二是心理測驗項目上存在“非對稱的項目特征模糊性(non-symmetric item ambiguity)”,即人格測驗在人格特征維度上的一端測量可以模糊,而在人格特征維度的另一端的測量要求精確。這時需要c或d參數(shù)來反映,以得到更精確的測量(簡小珠,焦璨,彭春妹,2010)。三是相比于成就測驗,心理測驗所關(guān)注的峰值具有較強的靈活性。在大多數(shù)心理測驗中,量尺的兩端都具有一定的意義。如果由于解釋分數(shù)的需要,將原有的量表方向反向,那么原本需要猜測參數(shù)的題目反向后需要睡眠參數(shù)。因此,在很多研究中都證明了在心理測驗中,四參數(shù)Logistic模型的適用性(Waller & Reise,2010)。
四參數(shù)Logistic模型用于泰勒焦慮調(diào)查量表也具有較大的優(yōu)勢。第一,從模型擬合指標來看,考慮了睡眠參數(shù)的模型其AIC擬合指標結(jié)果最好。第二,從參數(shù)估計結(jié)果來看,考慮了d參數(shù)的模型與傳統(tǒng)模型在區(qū)分度、能力參數(shù)估計值上具有一定的差異,傳統(tǒng)模型會低估一些題目的區(qū)分度參數(shù),低估高能力被試的能力參數(shù)。第三,從具體的題目參數(shù)估計結(jié)果來看,確實存在d參數(shù)顯著小于1的題目。例如第15題,題目為“我的手腳經(jīng)常是暖的。(My hands and feet are usually warm)”,該題為反向計分,d參數(shù)顯著小于1(d=0.58,se=0.007)。測驗設(shè)計者假設(shè),越焦慮的人,他們的手腳就越不會暖。但是實際數(shù)據(jù)證明,在所有被試中,有接近半數(shù)選擇了“是”,這可能是因為手腳溫暖也存在基礎(chǔ)選擇率,即在所有人群中,本來就有很大比例的人手腳是暖的。因此,對于這類題目,加入d參數(shù)進行數(shù)據(jù)擬合就非常必要。
4.1.2四參數(shù)Logistic模型對成就測驗的必要性
研究者曾經(jīng)對ETS所收集的成就測驗的數(shù)據(jù)(如SAT的語言部分、SAT的數(shù)學(xué)部分、GRE的語言部分等)采用四參數(shù)Logistic模型進行擬合,結(jié)果證明,四參數(shù)Logistic模型沒有提高測驗的似然值,得到的能力估計結(jié)果也沒有顯著的差異,并且計算復(fù)雜,因此沒有較大的實踐價值(Barton & Lord,1981)。
但是隨著ETS讓參加測試的學(xué)生免費重考事件的出現(xiàn)(Carlson,2000),許多研究者開始關(guān)注在CAT中被試能力被嚴重低估而導(dǎo)致不可信的問題(Rulison & Loken,2009)。
在傳統(tǒng)的紙筆測驗中,也可能存在由于睡眠現(xiàn)象而導(dǎo)致被試能力低估的問題。這時,也可以應(yīng)用四參數(shù)Logistic模型來對能力估計值進行矯正,得到更為準確的測量結(jié)果。對于數(shù)學(xué)測驗和構(gòu)造的負偏態(tài)數(shù)學(xué)測驗,四參數(shù)Logistic模型在各擬合指標上均優(yōu)于傳統(tǒng)模型;在區(qū)分度參數(shù)估計結(jié)果上與傳統(tǒng)模型有較大的差異,并且當?shù)碗y度題目比例相對較大時,這種差異更為明顯;高能力被試的能力估計結(jié)果也普遍高于傳統(tǒng)模型。另外,在具體的題目參數(shù)估計結(jié)果上,也有一些題目的d參數(shù)估計值顯著小于1。對比原始數(shù)學(xué)測驗和構(gòu)造的負偏態(tài)數(shù)學(xué)測驗的估計結(jié)果可以發(fā)現(xiàn),對于構(gòu)造的負偏態(tài)數(shù)學(xué)測驗,四參數(shù)Logistic模型和傳統(tǒng)模型在區(qū)分度參數(shù)估計結(jié)果上的差異更大;而在兩種分布下,不同模型在能力參數(shù)估計結(jié)果上的差異沒有顯著區(qū)別。研究假設(shè)在負偏態(tài)的分布中,由于高能力的被試比例較大,因此四參數(shù)Logistic模型的優(yōu)勢應(yīng)更明顯。但是實際結(jié)果并沒有證明這一假設(shè)。這可能是由于一方面,構(gòu)造的負偏態(tài)分布是基于測驗的原始分得到的,這種經(jīng)典測量理論下的原始分對被試能力水平的描述本來就存在較大的誤差;另一方面,所構(gòu)造的數(shù)據(jù)偏度為-0.199,偏度較小,可能尚未達到使得四參數(shù)Logistic模型優(yōu)勢得以突顯的程度。因此,未來的研究可以考慮使用模擬的方法,構(gòu)造不同分布的數(shù)據(jù),系統(tǒng)地考察四參數(shù)Logistic模型與傳統(tǒng)模型的差異。
綜上,成就測驗實際數(shù)據(jù)分析結(jié)果證明,對于研究所選用的成就測驗,有必要使用四參數(shù)Logistic模型進行擬合。
傳統(tǒng)模型是四參數(shù)Logistic模型的特例,在實際中,是否需要選擇四參數(shù)Logistic模型進行數(shù)據(jù)擬合可以考慮以下幾個方面的問題:
一是測驗的類型。對于心理測驗,由于被試無意識的社會期望反應(yīng)和掩飾防御反應(yīng)等等,被試作答存在著非0下漸近線現(xiàn)象和非1 上漸近線現(xiàn)象,會影響測驗結(jié)果的準確性(簡小珠,焦璨,彭春妹,2010)。因此,建議使用四參數(shù)Logistic模型進行參數(shù)估計。對于成就測驗,有條件的情況下,可以在三參數(shù)Logistic模型的基礎(chǔ)上,使用四參數(shù)Logistic模型的估計結(jié)果作為驗證與補充,糾正高能力被試答錯容易試題時的能力低估現(xiàn)象。另外,如果測驗中簡單題目的比例較高,使用四參數(shù)Logistic模型可能會得到較為準確的結(jié)果。
二是測驗的目的。對于某些成就測驗而言,準確地估計被試的能力水平非常重要。例如在一些高利害的測驗(如高考)中,每個考生的能力估計結(jié)果都會造成直接和重要的后果,其準確性就顯得尤為重要。如果由于睡眠現(xiàn)象的存在,低估了高能力考生的能力值,就會對高能力人才的發(fā)展產(chǎn)生諸多不利的影響。另外,對于安置性測驗(placement test),考生能力的估計結(jié)果直接影響到學(xué)生的分班、分級,如果由于使用了不合適的模型進行擬合而低估了高能力考生的能力值,會導(dǎo)致分班結(jié)果的偏差,進而影響到高能力學(xué)生后續(xù)階段的學(xué)習。因此,在這些成就測驗中,考慮到測驗的目的,可以使用四參數(shù)Logistic模型,保證高能力被試能力估計結(jié)果的準確性。
三是運算的復(fù)雜程度。早期使用四參數(shù)Logistic模型的主要障礙在于計算的復(fù)雜性和費時,隨著估計方法和計算機性能的發(fā)展,最新的IRT 軟件WINSTEPS(Linacre,2009)包含了四參數(shù)logistic 模型的項目參數(shù)估計模塊,R語言中的sirt軟件包也具有擬合四參數(shù)Logistic模型的功能。這些軟件的發(fā)展使得在選擇四參數(shù)Logistic模型時,運算的復(fù)雜程度已不是制約模型應(yīng)用的主要因素,為其廣泛應(yīng)用奠定了基礎(chǔ)。
研究所涉及的實際數(shù)據(jù),均為0/1計分。今后,可以將四參數(shù)Logistic模型推廣到多級評分的題目,甚至混合題型的測驗中。
其次,四參數(shù)Logistic模型的等值也是值得深入研究的問題??梢蕴剿魇褂迷撃P褪欠衲軌蝻@著提高高能力群體被試能力等值結(jié)果的準確性。
最后,隨著多維項目反應(yīng)理論越來越受到關(guān)注,如何將四參數(shù)Logistic模型推廣至多維情境中,也需要更多的研究者付諸努力。
在實際測驗中,確實存在睡眠現(xiàn)象。四參數(shù)Logistic模型能夠顯著提高模型對心理測驗和成就測驗數(shù)據(jù)的擬合性,糾正區(qū)分度參數(shù)低估和高能力被試答錯容易試題時的能力低估現(xiàn)象。因此,在實際測驗的數(shù)據(jù)分析中,應(yīng)當根據(jù)具體情況,必要時使用四參數(shù)Logistic模型替代傳統(tǒng)模型,對參數(shù)估計結(jié)果進行驗證與補充,以提高測量結(jié)果的準確性。