儲林林 李付鵬 宋吉祥
美國心理與教育測量學家桑代克曾提出一個假說:“凡是存在必有數(shù)量,既有數(shù)量即可測量?!边@表明,事物的質(zhì)可以轉(zhuǎn)化為量來計算。考試(測驗)就是一種測量,基于心理特質(zhì)在一定時間范圍內(nèi)是相對穩(wěn)定的假設,通過一組或幾組試題,被試的心理特質(zhì)是可以測量出來的。由此我們可以進一步提出若干問題:對于參加某個測驗的不同群體(男生與女生、農(nóng)村學生與城市學生等),測驗分數(shù)是否具有群體差異?分數(shù)差異是否是被試群體的真正能力體現(xiàn)?測驗分數(shù)群體差異的原因是什么?這些問題與教育測驗研究中的項目功能差異(differentialitemfunctioning,DIF)相關。
本研究在Rasch 試題難度計算的基礎上,根據(jù)一個常見的效應量計算公式,以一份普通高中語文學科試卷成績的抽樣數(shù)據(jù)為例進行實驗設計,偵測考試分數(shù)在不同性別中的DIF 現(xiàn)象。為保持與相關DIF 研究文獻表述的一致性,文中有時把試題稱為項目,項目和試題是同一概念。
心理測量的目的是了解被試在成就、能力、水平、人格等心理特質(zhì)上的差異。任何測量(考試)都是由具體的試題構成的,具有不同文化背景和生活環(huán)境的被試由于對試題的熟悉程度、理解能力等存在差異,可能獲取不同的結(jié)果,從而出現(xiàn)測量結(jié)果對一些群體或個體有利,對另一些群體或個體有偏見或者不利的情況,即導致項目(試題)的功能差異,這就是DIF 現(xiàn)象。Angoff[1]將DIF 定義為在控制群體能力之后,一個項目在不同團體中顯示的不同統(tǒng)計特性。Dorans 等人[2]更明確地把DIF 定義為兩組能力或表現(xiàn)相匹配的群體,在答題表現(xiàn)上出現(xiàn)顯著的差異。DIF 分析作為一種統(tǒng)計方法,已經(jīng)成為當前偵測測驗公平性的重要手段。
在DIF 研究中有兩個易于與DIF 混淆的概念:項目影響(itemimpact)和項目偏差(itembias)。
項目影響主要是比較兩個原始群體(沒有經(jīng)過匹配的被試群體)在某個項目上的表現(xiàn),例如男生群體和女生群體在同一份試卷上的差異。項目影響與DIF 的區(qū)別在于:項目影響常被解釋為被試能力分布中群體之間穩(wěn)定的、一致的差異,而DIF 則是經(jīng)過匹配后的不同群體在項目功能上的差異;項目影響通過在項目表現(xiàn)上的差異來反映全體被試的能力分布,DIF 則比較經(jīng)過匹配的兩個群體之間的差異,并且這一差異不是測驗編寫者所期望的。與DIF 相比,項目影響是“真正的”差異;DIF 則是由不恰當或不相關的含有DIF的項目造成的差異,是“人為的”差異。
項目偏差是指試題中與測驗構念(test construct)無關的因素造成的試題難度對不同背景被試群體的差異。舉例來說,如果一道以足球賽為背景的數(shù)學推理問題,除了測試被試的數(shù)學知識,也許還測量了足球方面的知識,如果該題設計時并沒有將足球知識作為考查的目標,但因不同背景群體的被試對足球知識的了解程度不同,造成試題對兩個群體被試產(chǎn)生了不同的功能,從而測試結(jié)果出現(xiàn)了差異,這類差異是由項目偏差造成的,這類試題屬于具有偏差的試題,不屬于具有DIF 的試題。
偵測不同群體的DIF 現(xiàn)象是教育測量的一個熱點研究問題,目前已發(fā)展了多種DIF 方法,其中大部分方法都依賴于專門的分析工具,這不利于DIF 研究的普及和推廣。根據(jù)不同群體均值差異效應量偵測DIF[3]是一種易于推廣的方法,不需要借助專門的DIF 分析工具。下面給出不同性別群體均值差異效應量的DIF 計算公式。對于某個給定的試題i,計算該試題性別差異的效應量的公式[3][4]為:
判定效應量大小的標準如下:如果|t|>1.96,顯示了該試題具有DIF 存在,數(shù)值的絕對值越大,DIF 越嚴重;t>1.96,表示該試題的難度相對于男生更難一些,即該試題有利于女生;t<-1.96,表示該試題的難度相對于女生更難一些,即該試題有利于男生;-1.96≤t≤1.96,可認為試題不存在DIF 或者存在輕微的DIF。判斷效應量可根據(jù)實際的研究需要來確定,難有統(tǒng)一的標準,也有研究[5]確定了比上述更為嚴格的判斷標準。
需要指出的是,上述方法僅僅能夠偵測試題在不同性別之間的一致性(uniform)DIF 現(xiàn)象。這意味著,如果以試題特征曲線顯示不同性別之間的DIF 差異,兩個曲線不會相交。其原因不在于上述計算公式,而在于所使用的試題難度計算方法。本文選擇了基于單一難度參數(shù)Rasch 測量理論的試題難度計算方法,如果選擇基于兩參數(shù)(難度和區(qū)分度)或三參數(shù)(難度、區(qū)分度和猜測度)IRT 模型計算難度,則存在不同性別試題特征曲線相交的現(xiàn)象。實際測驗中,不同群體間既存在一致性DIF 現(xiàn)象也存在不一致DIF 現(xiàn)象,但選擇兩參數(shù)或三參數(shù)模型,這是一個模型選擇問題,也一直是研究界長期存在的“測量”與“統(tǒng)計”之爭的問題,超出了本研究的范圍。
而浙江省氣象臺此前使用的省級海洋業(yè)務平臺因為開發(fā)應用多年,且主要功能以多種產(chǎn)品顯示為主,不具有GIS縮放、格點訂正等功能,無法很好展示近年來發(fā)展的海洋氣象客觀預報產(chǎn)品的精細化程度,已不能滿足現(xiàn)代化海洋預報業(yè)務的需求。為此,省氣象臺及時組織力量開發(fā)新一代省級海洋預報業(yè)務平臺。新一代海洋預報業(yè)務平臺是立足于為全省氣象預報員服務,基于海洋業(yè)務扁平化的理念,提供集數(shù)據(jù)采集、精細分析、格點訂正、預報制作、快速發(fā)布、產(chǎn)品展示、工作記錄等功能于一體,基于Silverlight和SQL數(shù)據(jù)庫技術進行開發(fā)的專業(yè)業(yè)務平臺,并將在使用中不斷發(fā)展來更好滿足臺風和海洋氣象預報業(yè)務需求。
從效應量公式可知,效應量的計算涉及求解不同性別考生在每道試題的難度和標準誤。目前有兩種方法供選擇:一種是基于經(jīng)典測量理論(CTT)的試題難度和標準誤的求解;一種是基于Rasch 測量理論的試題難度和標準誤的求解。兩種方法有著本質(zhì)的區(qū)別。CTT 下的試題難度具有被試樣本依賴問題,選擇不同能力水平的被試樣本集,計算得到的試題難度有較大的差異:低水平被試樣本集的試題難度系數(shù)更低一些,顯示試題更難一些;高水平被試樣本集的試題難度系數(shù)則更高一些,顯示試題更簡單一些。這也導致了一個尷尬的問題:哪一個被試樣本集得到的試題難度更接近試題的“真實”難度?CTT 無法回答這個問題,因為有多少個被試樣本集,理論上就可能有多少個試題的難度系數(shù)。
Rasch 測量理論下的試題難度計算具有樣本獨立性。Rasch 模型下的測量具有等距性和客觀性兩個最顯著的特性。[6][7]這兩個特性也是Rasch得以廣泛應用的基礎,解決了CTT 下試題難度對樣本依賴的問題。以兩名被試和兩道試題為例:客觀性可表述為,兩名被試的能力水平比與試題的難度無關,即被試能力水平是客觀的和等比率的;等距性可表述為,兩名被試的能力水平差距和題目難度無關,無論兩名被試的能力水平高低如何,二者之間的差距不會改變,因此是等距量尺。Rasch 測量的等距性和客觀性反映了樣本的選擇與試題難度的計算無關,類似地,試題的選擇也與樣本能力水平的計算無關,Rasch 具有被試能力水平和項目難度測量的不變性。
從上述分析可知:CTT 下的試題難度對選擇的樣本有依賴性,試題難度不穩(wěn)定;Rasch 測量理論下的試題難度與選擇的樣本無關,試題難度具有穩(wěn)定性?;诖?,本研究選擇以Rasch 測量理論為基礎獲取試題的難度。
本研究有兩個目標:一方面,對一份普通高中語文學科試卷的學生成績抽樣數(shù)據(jù)進行分析,偵測試題是否存在不同性別的DIF 現(xiàn)象;另一方面,將研究的DIF 結(jié)果與其他DIF 偵測方法的結(jié)果進行對比分析,檢驗上述DIF 偵測方法的有效性。
數(shù)據(jù)預處理包含3 個方面的內(nèi)容:成績數(shù)據(jù)編碼;試題擬合統(tǒng)計;群體能力匹配。
(1)成績數(shù)據(jù)編碼
對考試成績數(shù)據(jù)進行編碼是因為Rasch 測量模型僅能處理具有0,1,2……這樣連續(xù)分數(shù)的試題,因此,需要對試卷中的主觀性試題的原始分數(shù)重新編碼。編碼參照了考生在主觀性試題上的分數(shù)分布和評分細則,并邀請了語文學科專家進行評估。編碼結(jié)果如表1 所示。
表1 高中語文學科試卷的試題編碼
(2)試題擬合統(tǒng)計
在基于模型的測量統(tǒng)計中,數(shù)據(jù)是否擬合模型是分析問題的前提。項目擬合統(tǒng)計是一個反映數(shù)據(jù)滿足測量模型期望的重要指示,只有數(shù)據(jù)擬合模型,模型產(chǎn)生的結(jié)果才有意義,這就要求研究之前要進行數(shù)據(jù)與模型的擬合分析。表2 以非擬合數(shù)值大小順序給出了試題擬合統(tǒng)計信息。從表2 可知,大部分試題的加權擬合MNSQ 指標都在參照值1.00 左右浮動,部分試題的未加權擬合MNSQ 指標偏離參照值1.00 遠一些。編號為T14,T17,T16 的試題加權擬合MNSQ 指標偏離1.00 較遠。為盡量減少非擬合對后續(xù)DIF 的影響,本研究刪除了這3 個試題,對剩余的19 個試題進行DIF 分析。
表2 高中語文學科試卷的試題擬合統(tǒng)計
根據(jù)DIF 的定義,僅僅在分數(shù)或能力匹配之后,不同群體之間的差異才能稱為DIF,否則,可能僅僅是因為上述的項目影響,這是進行不同群體被試能力匹配的原因。本文采取的匹配方法是對不同性別群體被試分別分層抽樣,確保不同性別群體每個分數(shù)段的被試數(shù)量大致相同,再將抽樣數(shù)據(jù)合并為一個數(shù)據(jù)集。為確保被試能力覆蓋盡量寬廣,要保證每個群體的高分端和低分端都有一定數(shù)量的被試。
數(shù)據(jù)分析包含總體差異、試題難度和標準誤分布,以及試題不同性別的DIF 效應量這3 個部分。
(1)總體差異
總體差異將抽樣樣本分為男生組和女生組,分析不同群體的測驗功能差異(differential test functioning,DTF),該分析有助于初步了解不同性別考生在這套試卷中的總體表現(xiàn)。圖1 顯示了不同性別考生的試題難度差異情況。圖中每個點都代表一個試題,Y 軸是女生的試題難度,X 軸是男生的試題難度,點劃線是試題均值的趨勢線,兩側(cè)曲線圖具有近似95%的置信區(qū)間。圖1 顯示:對于女生,編號為7 的試題更有難度;對于男生,編號為6 和9的試題更有難度。由前述DIF 與項目影響的區(qū)別可知,圖1 顯示,不同性別考生的個別試題存在著明顯的差異。為驗證這些差異是由DIF 造成的,我們需要繼續(xù)進行進一步的分析。圖中各試題編號是刪除非擬合試題之后的新的編號,共19 道試題。
(2)試題難度和標準誤分布
與上述總體差異分析不同,這里把男、女生視為一個抽樣總體,利用上述效應量公式分析試題在不同性別中的DIF 差異。表3 給出了男、女生在每道試題上的難度、標準誤、難度差異。
圖2 更加直觀地呈現(xiàn)了不同性別考生在試題難度上的差異,圖中略小的方形點為男生的試題難度,略大的方形點為女生的試題難度,圖形上方同時給出了試題編號和題號,較難試題的題號為T11 和T12,較易試題的題號為T4,這3 道試題對于女生來說都略微難一些。圖2 也清晰地顯示了其他試題相對于不同性別的難度差異。
(3)試題不同性別的DIF 效應量
圖1 不同性別考生的試題難度差異
圖2 不同性別考生的DIF
表3 不同性別考生的試題難度和標準誤統(tǒng)計
依據(jù)表3 給出的不同性別考生的試題難度和標準誤,利用公式1,我們可以直接計算出男、女考生在每個試題上的DIF 效應量,計算結(jié)果如表4 所示。表中的“DIF 效應量”列中,數(shù)值為正表示有利于女生,數(shù)值為負表示有利于男生。我們按照試題DIF 的程度進行了分類:|t|<1.96 歸為A類,這類試題具有輕微的DIF 現(xiàn)象;1.96≤|t|≤2.5×1.96 歸為B 類,這類試題具有中等程度的DIF 現(xiàn)象;|t|>2.5×1.96 歸為C 類,這類試題具有較為嚴重的DIF 現(xiàn)象。表4 按照這個標準給出了每個試題的DIF 分類,其中A 類共有11 題,B 類共有8 題,沒有C 類DIF 試題。
為檢驗上述DIF 方法的有效性,本研究還進行了與其他DIF 偵測方法的結(jié)果比較,主要進行了兩個方面的比較:一方面,根據(jù)Mantel 卡方檢驗試題的顯著性,結(jié)果見表4 中的“Mantel 卡方”列,試題T6,T7,T9,T15,T20,T21,T22 在0.05 的水平呈現(xiàn)出顯著性;另一方面,根據(jù)基于Rasch理論拓展的RCML 通用模型進行DIF 性別檢驗,結(jié)果見表4 中的“RCML 模型”列,試題T6,T7,T9,T18,T22 呈現(xiàn)出以字母“B”表示的中等程度的DIF 現(xiàn)象,該分類方法參照了ETS 的Mantel-Haenszel DIF 檢驗分類標準。綜合表4 中的信息可知:在本文所使用的效應量方法中,以字母“B”表示的中等DIF 程度的試題都顯示了Mantel 卡方檢驗顯著性,其中大部分試題也在RCML 通用模型DIF 性別檢驗中呈現(xiàn)出了中等程度的DIF現(xiàn)象;所顯示出有差異的試題T15,T20 和T21 均處于兩種檢驗方法劃分DIF 類別的臨界水平,如T15 的效應量數(shù)值為2.22,接近效應量方法A 類和B 類1.96 的臨界水平,如果把這3 個試題均劃歸為A 類DIF,該方法和RCML 通用模型DIF性別檢驗方法將完全一致。這顯示了兩種分類方法的差異,并不是兩種DIF 檢驗方法自身的差異。
本研究通過兩個群體均值差異效應量公式偵測試題的DIF 現(xiàn)象,對一份普通高中語文學科試卷的學生成績抽樣數(shù)據(jù)進行了DIF 分析。結(jié)果顯示,大部分試題僅具有輕微的DIF 現(xiàn)象,部分試題具有一定程度的DIF 現(xiàn)象。分析也顯示,該方法簡單、易于理解,實際數(shù)據(jù)處理也不復雜,只要給出試題的難度和標準誤就可以進行DIF 分析。更加有意義的是,該方法可以統(tǒng)一對一套包含二分計分的客觀題和多分計分的主觀題同時進行分析。目前較多的文獻是對一份試卷中的二分計分試題和多分計分試題分別進行DIF 分析,這種處理方法割裂了一份完整的試卷,破壞了測驗整體的結(jié)構,具有一定的局限性。本文使用的DIF 效應量方法是建立于考生在整張試卷所反映的能力水平的基礎上的,分析保持了試卷的完整性,結(jié)果更加有效。此外,本文給出了一個基于該方法的DIF 程度分類標準,結(jié)果顯示該標準與現(xiàn)有的DIF 分類標準具有一致性。
表4 試題的DIF 效應量