江蘇省蘇州市滄浪新城第一實驗小學校 華艷秋
《教育部辦公廳關于加強義務教育學??荚嚬芾淼耐ㄖ罚ㄒ韵潞喎Q《通知》)明確指出,“義務教育學??荚嚸鎸Φ氖俏闯赡陮W生,主要發(fā)揮診斷學情教情、改進加強教學、評價教學質量等方面功能”,同時要求“大幅壓減考試次數(shù)”,要求“小學一二年級不進行紙筆考試,義務教育其他年級由學校每學期組織一次期末考試”。這意味著期末試題的質量將成為有效實現(xiàn)考試功能的關鍵因素,客觀、科學地分析期末試題質量在學情診斷的有效性和教學質量評價的真實性等方面都具有重要意義。通過查閱已有文獻發(fā)現(xiàn),一線教師對試題質量研究的關注度較低。國內已有的試題質量研究大多聚焦于中學試題,小學段的試題質量分析研究較少。因此,本文旨在探討運用Rasch模型分析小學段試題質量的可行性,以期給廣大一線小學教師的試題開發(fā)及質量分析工作提供助力。
當前的試題質量分析方法主要源于兩種理論:經(jīng)典測量理論(Classical Test Theory,CTT)和項目反應理論(Item Response Theory,IRT)。經(jīng)典測量理論的弱假設、相對簡單的數(shù)學模型、簡單明了的數(shù)據(jù)統(tǒng)計方法等優(yōu)勢,使其得到了迅速發(fā)展和廣泛應用。與此同時,它測量結果的順序性(ordinal)、天花板效應、樣本依賴性等缺陷也給測量帶來了更多誤差。項目反應理論作為一種非線性概率模型成功填補了經(jīng)典測量理論的不足,利用強假設克服了測量結果對樣本的依賴,實現(xiàn)等距(interval)測量。
Rasch模型認為被試在回答任一試題時,回答正確的概率(P)與被試的能力估計值和試題難度之間的差距(Bn-Di)存在著某種函數(shù)關系。這一關系的函數(shù)表達式如下:
式中Bn表示被試n的能力估計值,Di表示試題i的難度值。那么式(1)表示的就是能力估計值為Bn的被試n在回答難度為Di的試題i時正確作答(X=1)的概率(P)。
筆者于2021年1月對S市某小學五年級學生進行了整體取樣,學生獨立完成測試題并當堂回收,得有效樣本119份,其中男生59人,女生60人。運用Excel 2010統(tǒng)計作答得分情況并采用Rasch模型分析軟件Winsteps3.72.0對數(shù)據(jù)統(tǒng)計結果進行分析,分析質量參數(shù)包括測量工具整體質量分析、試題質量分析和試題單維性分析。在此基礎上討論Rasch模型在小學段試題質量分析中的應用。
本次科學測試卷有五個大題共49個計分點,滿分50分。其中標簽為“302”的試題為畫圖題,采用0,1,2多級計分,其余題目均為二級計分。
整體質量分析主要包括區(qū)分度與信度(Separation and reliability)和個人能力-試題匹配度分析(Person-Item Match)兩個參數(shù)。測評量表的區(qū)分度與信度值包括試題區(qū)分度信度和樣本區(qū)分度信度兩部分。當二者的區(qū)分度大于2或信度值(Cronbach's alpha)大于0.8時可以認為試題的區(qū)分度與信度良好。個人能力-試題匹配度分析(Person-Item Match)參數(shù)表示試題難度值與個人能力估計值之間的匹配度。其中題目的難度估計值通常在-5logit~+5logit范圍之內變化,需要將項目難度變化范圍與學生能力估計值的變化范圍進行比較,力求題目難度能覆蓋不同能力估計值的學生,這一過程通常根據(jù)Wright圖(或“懷特圖”)分布來判斷。
試題標準誤差(S.E.)和試題擬合度(model-datafit)能較大程度地表現(xiàn)出單個試題的質量。標準誤差表示對題目難度估計的準確程度,誤差值越接近0,說明題目難度的logit分值精確度越高??山邮艿恼`差范圍通常在0~0.5之間。試題擬合度表示數(shù)據(jù)真實值與模型期望值之間的擬合關系,主要關注四個指標:加權后的平均殘差(Infit MNSQ),未加權的平均殘差(Outfit MNSQ),加權后的標準平均殘差(Infit ZSTD,加權t值),未加權的標準平均殘差(Outfit ZSTD,未加權t值)。其中對MNSQ的期待值為1,離1越遠表明擬合度越不好??山邮艿腗NSQ范圍是0.7-1.3。對ZSTD的期待范圍是-2~+2之間。
質量良好的測評工具應當是單維的。測評工具的單維性要求指所有試題所檢測的心理特質只有一個,學生在測試中對試題做出響應時不受其他潛在特質(latent trait)的影響?;赗asch模型檢驗測評工具的單維性一般通過對殘差(MNSQ)進行因子分析來判斷。
運用Winsteps3.72.0對119名學生的測試結果進行分析,得到結果如表1所示(N=119)。
表1 整體質量分析數(shù)據(jù)統(tǒng)計
Rasch模型中通常將試題難度估計值設為0,個人能力估計值隨著測試的不同而發(fā)生變化。檢驗結果顯示,本測試卷的個人能力估計值為1.99,這意味著本次測試對大多數(shù)學生來說是比較簡單的,同時說明該測試卷可能存在著對高水平學生能力區(qū)分度不高的問題。標準誤差均在0~0.5之間(學生能力值標準誤.09,試題難度標準誤.21),說明本次測試對學生能力和試題難度的估計較為準確。
數(shù)據(jù)顯示四個擬合參數(shù)(Infit MNSQ,Infit ZSTD,Outfit MNSQ,Outfit ZSTD)均在期待范圍內,這表明本套試題整體擬合性良好,大部分試題具有較高的質量。在區(qū)分度與信度方面,試題區(qū)分度表現(xiàn)良好(區(qū)分度3.73>2,信度.93>.8),個人區(qū)分度和信度略低于理想值(.79<.8),說明部分學生的能力估計值無法得到有效區(qū)分,這可能和試題難度偏低有關。
基于Rasch模型的測量,可以將順序的觀測數(shù)據(jù)轉化為線性的測量結果,實現(xiàn)真正的等值測量,這一優(yōu)勢體現(xiàn)在Wright圖中。
本次測量的Wright圖顯示試題難度分布廣泛且分散,說明不同難度題目的數(shù)量安排是基本合理的;與此同時,大部分學生能力值位于0以上,其中能力值為2logit值及以上的學生接近半數(shù),卻只有第11-2題用作區(qū)分;相應的,能力值低于0的學生人數(shù)僅6人卻有大量試題與之對應。說明本次測試中大部分試題難度較低,對一半以上的學生都不具備區(qū)分功能。這一分析結果與整體質量分析數(shù)據(jù)中的信度值(.79<.8)實現(xiàn)了相互驗證。
具體試題的質量分析包括對標準誤差(S.E.)、模型-數(shù)據(jù)擬合指數(shù)(model-data-fit)的分析,它們可以通過氣泡圖(bubble chart)的表現(xiàn)來加以確定。本次測驗結果的擬合度及誤差表現(xiàn)如圖1所示。圖中X軸表示未加權的平均殘差,期待范圍是-2~+2。該值大于2時表示該試題擬合度不足(underfit),小于-2時表示該試題過度擬合(overfit),均難以對學生的真實能力水平加以有效測量或區(qū)分。氣泡半徑的大小表明測量誤差的大小,半徑越大則誤差越大。從圖中可以看出,大部分試題的outfit ZSTD值介于-2到2之間,說明這些試題擬合性良好。但第2-4、3-2、11-2三個小題擬合不足而第7-5和7-3兩個小題過度擬合。測量誤差方面,大部分題目的測量誤差在允許范圍內,但仍有4個題目的測量誤差較大,分別是2-1、2-2、2-5、5-1,這意味著這些題目的測量結果的準確性不足。造成不擬合或誤差大的原因很多,比如被試在考試過程中的偶然嘗試、作弊、創(chuàng)造性作答等,有待結合題目和作答情況進一步進行分析,此處不再展開敘述。
圖1 氣泡圖
為檢驗本次測量試題的單維性,采用因子分析的方法進行檢驗,結果呈現(xiàn)在因子載荷分布圖中,如圖2所示。從圖中可以看出,大部分試題的因子載荷分布在-0.4~+0.4之間,符合單維性要求。但A、b、a三個小題的單維性表現(xiàn)不佳,查表得出分別對應第7-2,5-2和第2-4小題。這表明這三個小題測試的心理特質不止一個,有一個或多個因素影響了學生的作答情況。
圖2 因子載荷分布圖
綜上所述,本套測試卷基本滿足信效度和區(qū)分度要求,大部分試題與Rasch模型實現(xiàn)較好擬合,但試題整體難度較低,對中高能力水平的學生難以進行區(qū)分。同時,部分試題的單維性和擬合性不佳,需要進一步分析。ZSTD也接近-2。這意味著過多學生對這道題反應一致,盡管有些學生的能力水平難以達到。因此,重復做第7題并沒有幫助學生改善他在測量中的表現(xiàn),因此無論是在日常練習還是質量測評中,都盡量不要讓學生重復做同一個題目。另一方面,筆者認為,Rasch模型的應用能有效幫助一線教師提高自身的命題能力?!锻ㄖ诽岢?,要“不斷提高教師命題水平”。Rasch模型的擬合性分析和單維性分析能幫助教師篩選高質量試題,為教師修改試題、提高試題質量提供證據(jù)支撐;Wright圖分析則能幫助教師在命題時兼顧不同能力層次學生的需求,擴大試題難度范圍,合理調整試題結構,使試卷具有更高的質量,從而不斷提升教師的命題水平。
通過對S市某小學五年級科學期末試題進行質量分析可以發(fā)現(xiàn),Rasch模型對小學階段的試題質量分析也能進行有效評價。因此,運用Rasch模型進行試題質量分析能幫助教師分析測評結果的難度、信度、效度、區(qū)分度等。與此同時,Rasch模型能幫助教師篩選和鑒別高質量的試題,為后續(xù)工作中測評工具的開發(fā)提供參考。
本次分析結果還帶給筆者更多啟示。一方面,原題在測量中并不能起到診斷或鞏固作用。如第7大題(包括7-1至7-5共5小題)是做過的原題,在測量中發(fā)現(xiàn),7-3和7-5題是過度擬合,而7-2和7-4的outfit