麥裕華 黎光明 錢揚(yáng)義
表現(xiàn)性評價是在真實(shí)情境下,對人們問題解決過程中表現(xiàn)的復(fù)雜知識、能力和情意進(jìn)行測量的評價方式。中學(xué)理科課程的實(shí)驗(yàn)操作考查作為典型的表現(xiàn)性評價,主要評估學(xué)生完成理科常見實(shí)驗(yàn)的基本實(shí)驗(yàn)操作能力。自20 世紀(jì)80 年代末以來,國內(nèi)各地教育行政部門加強(qiáng)中學(xué)理科課程管理,設(shè)置初、高中理科實(shí)驗(yàn)操作考查,借此提高學(xué)生實(shí)驗(yàn)操作能力。教育部提出,初中學(xué)業(yè)水平考試“要重視對有關(guān)學(xué)科教學(xué)實(shí)驗(yàn)操作的考查”[1],普通高中學(xué)業(yè)水平考試“要對相關(guān)科目的實(shí)驗(yàn)操作的考試提出要求”[2]。國務(wù)院辦公廳“鼓勵有條件的地方將技術(shù)科目和理化生實(shí)驗(yàn)操作納入省級統(tǒng)一考試”[3]。中學(xué)理科實(shí)驗(yàn)操作考查逐漸成為選拔中學(xué)優(yōu)秀人才、有高利害關(guān)系的表現(xiàn)性評價。然而,實(shí)驗(yàn)操作考查的研究主要集中在試題命制和考務(wù)組織[4][5][6][7]、評分方式[8][9]、對理科實(shí)驗(yàn)教學(xué)的反撥作用[10]等主題上,鮮少討論評分者效應(yīng)、評分者信度等關(guān)鍵問題。相關(guān)的實(shí)證研究有麥裕華等人應(yīng)用百分比法和相關(guān)法,初步探討考查學(xué)生高階思維的化學(xué)復(fù)雜實(shí)驗(yàn)的評分者信度及其影響因素。[11]
評分者的認(rèn)識、情緒和疲勞等主觀因素,容易使其在表現(xiàn)性評價中出現(xiàn)偏差,產(chǎn)生評分者效應(yīng)(rater effect)。[12]評分者效應(yīng)包括寬嚴(yán)效應(yīng)(leniency/severity effect)、 趨 中 效 應(yīng)(central tendency effect)、隨機(jī)效應(yīng)(randomness effect)、光環(huán)效應(yīng)(halo effect)和區(qū)分性寬嚴(yán)效應(yīng)(differential leniency/severityeffect)。[13]評分者效應(yīng)的存在會影響評分者信度(包括評分者間信度和評分者內(nèi)信度)。但是常用計算評分者信度的百分比法、相關(guān)法和概化理論[14]均無法清楚地顯示每位評分者的評分對作答者得分、評分者效應(yīng)和評分者信度等的具體影響,也無法同時考慮計分規(guī)則、測試任務(wù)的難度等因素可能產(chǎn)生的作用。
Linacre 提出的多面Rasch 模型(many-facet Rasch model,MFRM)以項(xiàng)目反應(yīng)理論的Rasch 模型為基礎(chǔ),將可以對測量結(jié)果產(chǎn)生系統(tǒng)誤差的因素作為側(cè)面,既估計每位評分者評分的寬嚴(yán)度,分離和校正評分者誤差對作答者得分的影響,又估計其他側(cè)面對作答者得分的影響,以及評分者與其他側(cè)面的偏差作用,可以提供豐富的評價信息。[15][16]許多研究者曾應(yīng)用MFRM 研究不同形式表現(xiàn)性評價的評分者效應(yīng)或評分者信度,包括寫作[17][18][19][20][21]、口頭匯報[22][23][24][25][26]、無領(lǐng)導(dǎo)小組討論[27]和創(chuàng)造力測驗(yàn)[28][29]等,但鮮少應(yīng)用MFRM 探討中學(xué)理科實(shí)驗(yàn)操作考查的相關(guān)問題。另外,在考務(wù)管理中,當(dāng)評分者監(jiān)考不同人數(shù)考生時,其對考生實(shí)驗(yàn)操作過程的觀察和判斷可能有不同反應(yīng),這都可能影響評分者信度。因此,了解監(jiān)考人數(shù)和評分者信度的具體關(guān)系十分重要。
總的來說,探討中學(xué)理科實(shí)驗(yàn)操作考查的評分者效應(yīng)和評分者信度的實(shí)證研究,亟須應(yīng)用高級測量和統(tǒng)計方法,如MFRM。這一方面有助于評分者了解和提高評分質(zhì)量,避免錯誤評分,完善實(shí)驗(yàn)操作考查的組織管理;另一方面有助于彌補(bǔ)過往研究的不足,認(rèn)識評分者效應(yīng)和評分者信度對學(xué)生評價的影響,最終為促進(jìn)國家教育考試招生制度改革提供實(shí)質(zhì)性支持?;谏鲜隹紤],本研究以初三化學(xué)實(shí)驗(yàn)操作考查常見試題為例,探討如下問題:(1)實(shí)驗(yàn)操作考查的評分者效應(yīng)如何?(2)實(shí)驗(yàn)操作考查的評分者信度如何?(3)監(jiān)考學(xué)生人數(shù)對評分者信度有何影響?
本研究通過隨機(jī)抽樣,在廣州市400 所初中隨機(jī)選擇某學(xué)校,再隨機(jī)選擇該校初三年級某班36 位學(xué)生作為被試。這些學(xué)生已學(xué)習(xí)初三化學(xué)課程的過濾實(shí)驗(yàn)操作,能夠獨(dú)立完成“過濾粗鹽水”實(shí)驗(yàn)。學(xué)生被隨機(jī)分為3 個大組,第一、第二、第三大組分別有6 人、12 人、18 人。3 個大組分別按每小組2 人、4 人、6 人的標(biāo)準(zhǔn)隨機(jī)分成3 個小組,依次編號為1~9 號小組。
評分者在中學(xué)理科實(shí)驗(yàn)操作考查中的表現(xiàn)是本研究的重點(diǎn),評分者的選擇是影響研究質(zhì)量的關(guān)鍵因素。因此,本研究隨機(jī)選擇3 所初中,在每所學(xué)校的初三化學(xué)教師中再隨機(jī)選擇一位教師作為評分者(甲、乙、丙)。3 位評分者均為大學(xué)化學(xué)類專業(yè)畢業(yè),有多年初三化學(xué)課程教學(xué)經(jīng)驗(yàn),而且都開展過所在學(xué)校初三化學(xué)實(shí)驗(yàn)操作考查工作,有著豐富的實(shí)驗(yàn)操作考查評分經(jīng)驗(yàn)。選擇他們作為評分者,具有一定的代表性。在研究開始前,3 位評分者對評分標(biāo)準(zhǔn)進(jìn)行過討論,具有一致的評分認(rèn)識。
初三化學(xué)實(shí)驗(yàn)操作考查主要以初三化學(xué)課程常見的、重要的實(shí)驗(yàn)為試題素材。如“過濾粗鹽水”實(shí)驗(yàn)主要考查學(xué)生的過濾實(shí)驗(yàn)操作,是初三化學(xué)實(shí)驗(yàn)操作??嫉膬?nèi)容。本研究選擇該實(shí)驗(yàn)作為考查內(nèi)容,是為了模擬實(shí)驗(yàn)操作考查的真實(shí)情境?!斑^濾粗鹽水”實(shí)驗(yàn)被劃分為9 個評分要點(diǎn),分別是:(1)正確制作濾紙過濾器;(2)濾紙邊緣低于漏斗口;(3)濕潤濾紙貼緊漏斗內(nèi)壁;(4)調(diào)整漏斗合理高度;(5)漏斗下端管口靠燒杯內(nèi)壁;(6)用玻璃棒引流濁液;(7)玻璃棒靠在三層濾紙上;(8)濁液面低于濾紙邊緣;(9)濁液過濾結(jié)果良好。評分要點(diǎn)(3)(5)(6)(7)各計2 分,其他評分要點(diǎn)各計1 分,滿分是13 分。評分要點(diǎn)經(jīng)過化學(xué)教育學(xué)科專家討論,具有良好的內(nèi)容效度和專家效度。
實(shí)驗(yàn)操作考查分9 個場次進(jìn)行,每個場次分別安排對應(yīng)編號的小組參加。第1~3 場分別由第一大組的3 個小組參加,每場2 位學(xué)生。類似地,第4~6 場、第7~9 場依次分別由第二大組的3 個小組(每組4 人)、第三大組的3 個小組(每組6人)參加。學(xué)生在15 分鐘內(nèi)獨(dú)立完成實(shí)驗(yàn)操作。3位評分者同時監(jiān)考每個場次的所有學(xué)生,分別觀察學(xué)生的實(shí)驗(yàn)操作,依據(jù)評分要點(diǎn)獨(dú)立評分。
本研究建構(gòu)學(xué)生、評分者、評分要點(diǎn)和學(xué)生組別4 個側(cè)面。其中,學(xué)生組別側(cè)面是虛擬側(cè)面,根據(jù)學(xué)生所在大組編號來確定。研究使用Linacre編制的MFRM 計算機(jī)統(tǒng)計軟件FACETS(版本為3.81.1)處理數(shù)據(jù),了解各側(cè)面的觀察值、模型預(yù)測值和模型適配度統(tǒng)計量。為了解評分者側(cè)面與其他側(cè)面是否存在交互作用,本研究進(jìn)一步對“評分者與學(xué)生(及其組別)”“評分者與評分要點(diǎn)”“評分者與學(xué)生(及其組別)、評分要點(diǎn)”進(jìn)行偏差分析。
本研究通過FACETS 計算卡方值和分隔信度等統(tǒng)計量,檢視評分者寬嚴(yán)度的內(nèi)部是否有極大的差異,以及作答者能力值、組別能力值和測試任務(wù)難度的內(nèi)部是否分別有極小的差異,從而判斷評分者在群體上存在的各種評分者效應(yīng)。[13][30][31]由于卡方檢驗(yàn)的顯著結(jié)果易受樣本量影響,所以研究者建議主要參考分隔比率(separation ratio)、分隔指數(shù)(separation index)和分隔信度(reliability of the separation index)等統(tǒng)計量。[13]這些統(tǒng)計量的數(shù)值越小,表示各側(cè)面數(shù)據(jù)內(nèi)部差異程度越小。分隔信度的取值范圍是0~1。Myford 和Wolfe 認(rèn)為,當(dāng)分隔信度達(dá)到0.70 時,就存在可識別的統(tǒng)計上的顯著差異。[13]
筆者使用FACETS 計算加權(quán)均方擬合統(tǒng)計量(infit MNSQ)和未加權(quán)均方擬合統(tǒng)計量(outfit MNSQ),評估每個側(cè)面的觀察值與模型擬合的情況。由于outfit 值對極端值比較敏感,一般以infit值作為評估的主要指標(biāo)。研究者提出多個不同的infit 值范圍,以判斷觀察值是否擬合模型。[15][32]為了獲得較高精確度的測量結(jié)果,本研究采用的infit 值范圍是0.80~1.20。[26][32]當(dāng)infit 值在該范圍內(nèi),表示觀察值適合使用MFRM 分析;當(dāng)infit 值大于1.20 時,表示多位評分者的觀察值與模型預(yù)測值的差異過于懸殊,說明評分一致性程度和評分者間信度較低;當(dāng)infit 值小于0.80 時,表示多位評分者的觀察值與模型預(yù)測值的差異過于一致,說明評分一致性程度過高。
偏差分析通過分析不同側(cè)面間的交互作用,判斷評分者的評分是否存在顯著偏差。FACETS提供交互作用組合的t 值,可以將該值的絕對值大于2 作為判斷評分存在顯著偏差的標(biāo)準(zhǔn)。[13][33]當(dāng)t 值是負(fù)數(shù)且數(shù)值越小時,表示評分者評分越嚴(yán)格。同時,F(xiàn)ACETS 提供非期望反應(yīng)(unexpected responses),以標(biāo)準(zhǔn)殘差stRes 的絕對值大于3 作為評分存在顯著偏差的判斷標(biāo)準(zhǔn),呈現(xiàn)多個側(cè)面具體的顯著差異情況。
(1)學(xué)生能力值:顯示可接受的評分者間信度
“過濾粗鹽水”實(shí)驗(yàn)是初三化學(xué)課程的重要教學(xué)內(nèi)容,36 位學(xué)生的能力值范圍是0.19~4.67 logits,平均能力為2.40 logits,說明學(xué)生的能力在該實(shí)驗(yàn)操作考查中均處于較高水平。卡方檢驗(yàn)顯示,學(xué)生能力值的χ2(35)=97.60,p<0.001。但分隔比率是0.91,分隔指數(shù)是1.55,分隔信度是0.45,這說明學(xué)生能力的差異不顯著。學(xué)生具體的評分情況如下。
首先,4 位學(xué)生的原始成績獲得滿分,他們的infit 值顯示為“maximum”,另有16 位學(xué)生的infit 值在建議值范圍。這20 位學(xué)生約占總?cè)藬?shù)的56%,說明評分者對全體學(xué)生的評分一致性程度,即評分者間信度處于可接受的一般水平。
其次,學(xué)生的infit 值高于1.20 的有8 人,占總?cè)藬?shù)的22%。第一至第三大組分別有該情況的學(xué)生是2 人、2 人、4 人,占各大組人數(shù)的33%、17%、22%。這顯示3 位評分者對學(xué)生各個評分要點(diǎn)的評分與模型預(yù)測值之間差異較大,對于監(jiān)考學(xué)生人數(shù)最少的第一大組,評分者評分差異較大的情況出現(xiàn)得最多、較低評分者間信度出現(xiàn)的比例最大。
最后,學(xué)生的infit 值低于0.80 的有8 人,占總?cè)藬?shù)的22%。第二、第三大組分別有該情況的學(xué)生是5 人、3 人,占各大組人數(shù)的42%、17%。這顯示3 位評分者對學(xué)生各個評分要點(diǎn)的評分與模型預(yù)測值的差異高度一致,對于監(jiān)考學(xué)生人數(shù)居中的第二大組,評分者評分高度一致的情況出現(xiàn)得最多。
此外,根據(jù)學(xué)生組別虛擬側(cè)面的統(tǒng)計結(jié)果,第二、第三大組的infit 值在0.80~1.20,第一大組的infit 值略大于1.20,這顯示評分者在第一大組的評分者間信度略低。卡方檢驗(yàn)顯示,學(xué)生組別能力值的差異不顯著,χ2(2)=0.00,p=0.99>0.05。學(xué)生組別能力值的分隔比率是0.00,分隔指數(shù)是0.33,分隔信度是0.00,說明學(xué)生組別能力的差異不顯著。
(2)評分者寬嚴(yán)度:顯示良好的評分者內(nèi)信度
評分者寬嚴(yán)度指評分者在評分時的寬松或嚴(yán)厲程度,可以表現(xiàn)評分者效應(yīng)的寬嚴(yán)效應(yīng)。寬嚴(yán)度的logits 值越高,表示評分者的嚴(yán)厲程度越大,反之則表示寬松程度越大。表1 顯示:3 位評分者寬嚴(yán)度范圍是-0.35~0.36 logits,平均寬嚴(yán)度為0.00 logits,其中,評分者丙最嚴(yán)格、寬嚴(yán)度最高,評分者乙最寬松、寬嚴(yán)度最低。3 位評分者寬嚴(yán)度的infit 值均在0.80~1.20,這顯示3 位評分者個人評分一致性程度,即評分者內(nèi)信度良好。
(3)評分要點(diǎn)難度:顯示較低的考查難度
表2 顯示:9 個評分要點(diǎn)的難度范圍是-4.13~0.62 logits,平均難度為-1.84 logits。學(xué)生在評分要點(diǎn)(1)(2)(4)(9)均獲得原始成績滿分,評分要點(diǎn)(5)的難度最大,說明“過濾粗鹽水”實(shí)驗(yàn)操作考查整體難度偏低,但符合考查考生基本實(shí)驗(yàn)操作能力的目標(biāo)。
評分要點(diǎn)(1)(2)(4)(9)的infit 值顯示為“minimum”,這與學(xué)生在上述要點(diǎn)上均獲得原始成績滿分有關(guān)。評分要點(diǎn)(3)(6)的infit 值分別是0.71,1.22,其余評分要點(diǎn)的infit 值均在0.80~1.20??ǚ綑z驗(yàn)顯示,評分要點(diǎn)難度的χ2(8)=40.20,p<0.001。但分隔比率是1.42,分隔指數(shù)是2.23,分隔信度是0.67,說明評分要點(diǎn)難度的差異未達(dá)到顯著。
表1 評分者寬嚴(yán)度統(tǒng)計
表2 評分要點(diǎn)難度統(tǒng)計
表3 評分等級的使用情況
(4)評分等級使用:顯示合理的等級使用
評分者在各評分要點(diǎn)使用的評分等級情況見表3。隨著評分等級的提高,評分者使用次數(shù)和評分等級預(yù)測能力值都相應(yīng)遞增,最高評分等級的使用比例也相應(yīng)增大,這說明評分者合理地使用了評分等級。
除了已經(jīng)在“評分者寬嚴(yán)度”中討論的寬嚴(yán)效應(yīng),其余4 種評分者效應(yīng)的表現(xiàn)情況如下。
首先,趨中效應(yīng)指評分者在具有多個評分等級的量尺中,過度使用量尺中間的評分等級,因而無法有效區(qū)分不同水平的學(xué)生。在本研究中,表3 顯示:評分者在評分要點(diǎn)(3)(5)(6)(7)上使用1 分(中間評分等級)的次數(shù),并未同時顯著高于2 分(最高評分等級)和0 分(最低評分等級)的次數(shù),說明評分者并未過度使用量尺中間的評分等級,在群體上不存在趨中效應(yīng)。
其次,隨機(jī)效應(yīng)指評分者由于理解或其他原因,與其他評分者相比,不一致地使用評分等級,因而無法有效區(qū)分不同水平的學(xué)生。在本研究中,學(xué)生能力值的分隔信度顯示學(xué)生的能力差異不顯著,說明評分者在群體上存在隨機(jī)效應(yīng)。[13]使用獨(dú)立評分者-其他評分者相關(guān)系數(shù)“single rater-rest of the raters(SR/ROR)correlations”,可以進(jìn)一步確定具有隨機(jī)效應(yīng)的評分者。當(dāng)某評分者的相關(guān)系數(shù)比其他評分者的系數(shù)明顯更小,這說明該評分者具有隨機(jī)效應(yīng)。評分者甲、乙、丙的相關(guān)系數(shù)分別是0.46、0.41、0.53,各評分者的相關(guān)系數(shù)都較低且接近,說明他們可能都存在一定的隨機(jī)效應(yīng)。
再者,光環(huán)效應(yīng)指評分者不能清晰地辨別不同項(xiàng)目的含義,在這些項(xiàng)目中均給予學(xué)生相似的分?jǐn)?shù),因而無法有效區(qū)分不同水平的學(xué)生。在本研究中,評分要點(diǎn)分為2 個或3 個層次,分隔指數(shù)和分隔信度并不算小,評分要點(diǎn)難度的差異接近顯著,說明評分者在群體上不存在光環(huán)效應(yīng)。[13]
最后,區(qū)分性寬嚴(yán)效應(yīng)指評分者對某些組別學(xué)生給予更寬松或更嚴(yán)厲的評分,因而無法有效區(qū)分不同水平的學(xué)生。在本研究中,通過綜合比較評分者的評分情況可知,評分者在群體上不存在區(qū)分性寬嚴(yán)效應(yīng)。
(1)二側(cè)面偏差分析:未顯示光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)
本研究中,4 位學(xué)生和4 個評分要點(diǎn)(1)(2)(4)(9)均獲得原始成績滿分,這些學(xué)生和評分要點(diǎn)均未被軟件納入偏差分析的計算。如表4 所示,根據(jù)交互作用組合的t 值和卡方檢驗(yàn),評分者與學(xué)生、評分者與學(xué)生組別、評分者與評分要點(diǎn)的二側(cè)面交互作用均不顯著。這顯示評分者不會因?yàn)閷W(xué)生、學(xué)生組別和評分要點(diǎn)的不同,而使用顯著不同的評分寬嚴(yán)尺度。同時,評分者與評分要點(diǎn)、評分者與學(xué)生組別的偏差分析t 值,可以作為判斷評分者在個人上是否存在光環(huán)效應(yīng)、區(qū)分性寬嚴(yán)效應(yīng)的方法。[13]表4 也顯示3 位評分者均不存在光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)。
表4 評分者與不同側(cè)面的偏差分析
(2)三側(cè)面或四側(cè)面偏差分析:顯示較弱的區(qū)分性寬嚴(yán)效應(yīng)
在評分者與學(xué)生組別、評分要點(diǎn)的三側(cè)面偏差分析中,χ2(45)=36.90,p=0.80>0.05,交互作用組合的t 值的絕對值均小于2,這顯示評分者與學(xué)生組別、評分要點(diǎn)的三個側(cè)面交互作用不顯著。
在評分者與學(xué)生、評分要點(diǎn)的三側(cè)面偏差分析中,χ2(480)=694.50,p<0.001,共有58 個交互作用組合的t 值小于-2,達(dá)到顯著偏差,占交互作用組合總數(shù)(480 個)的12%,這顯示評分者與學(xué)生、評分要點(diǎn)的三個側(cè)面交互作用顯著。其中,3 位評分者在評分要點(diǎn)(8)上的評分存在顯著偏差。
在評分者與學(xué)生及其組別、評分要點(diǎn)的四側(cè)面偏差分析中,僅出現(xiàn)9 個非期望反應(yīng),占交互作用組合總數(shù)(1440 個)的0.63%。9 個非期望反應(yīng)具有以下共同點(diǎn):對于學(xué)生及其組別,主要是第三大組學(xué)生,尤其是第34 號學(xué)生出現(xiàn)非期望反應(yīng);對于評分者,主要是評分者甲出現(xiàn)非期望反應(yīng);對于評分要點(diǎn),主要是在評分要點(diǎn)(5)和(8)上出現(xiàn)非期望反應(yīng);在這9 個非期望反應(yīng)中,評分者的觀察值均比預(yù)測值小,說明評分者給予了顯著嚴(yán)格的評分。這些具體的多側(cè)面偏差分析信息顯示評分者在個體上存在較弱的區(qū)分性寬嚴(yán)效應(yīng),有助于評分者做出準(zhǔn)確評估。
本研究應(yīng)用MFRM 探討中學(xué)理科實(shí)驗(yàn)操作考查的評分者效應(yīng)、評分者信度,其若干發(fā)現(xiàn)對提升實(shí)驗(yàn)操作考查的評分質(zhì)量有一定助益。
實(shí)驗(yàn)操作考查作為水平性的標(biāo)準(zhǔn)參照考試,不過分追求試題的區(qū)分度,主要是對考生完成理科常見實(shí)驗(yàn)的基本實(shí)驗(yàn)操作能力進(jìn)行系統(tǒng)的評價。實(shí)驗(yàn)操作的科學(xué)性和規(guī)范性是極其明確的,有著容易判斷對錯的評分標(biāo)準(zhǔn)。因此,評分者對評分維度、項(xiàng)目內(nèi)涵和評分標(biāo)準(zhǔn)(即評價規(guī)則)可以形成共識,也容易根據(jù)考生的實(shí)際表現(xiàn)(即評價對象)給予較一致的評分。
實(shí)驗(yàn)操作考查的這些特點(diǎn)容易對評分者效應(yīng)和評分者信度產(chǎn)生重要影響。在本研究中,評分者不存在群體上的寬嚴(yán)效應(yīng)、趨中效應(yīng)、光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng),但存在一定的隨機(jī)效應(yīng),同時考慮學(xué)生組別和其他側(cè)面時存在較弱的區(qū)分性寬嚴(yán)效應(yīng)。由于評分者效應(yīng)不嚴(yán)重,對評分質(zhì)量的影響不大,說明本研究具有一般的評分者間信度和良好的評分者內(nèi)信度。值得關(guān)注的是,一般的評分者間信度可能由評分者的隨機(jī)效應(yīng)所致。
偏差分析結(jié)果顯示:首先,本研究發(fā)現(xiàn)評分者與學(xué)生組別、評分者與評分要點(diǎn)的二側(cè)面交互作用均不顯著,評分者與學(xué)生組別、評分要點(diǎn)的三側(cè)面交互作用不顯著,其結(jié)果與一些報道評分者與不同側(cè)面偏差分析結(jié)果的研究[18][19][22][25][27][28]相比,結(jié)論不同,在這些研究中,評分者與學(xué)生等側(cè)面的二側(cè)面交互作用存在顯著性;其次,本研究也發(fā)現(xiàn),在評分者與學(xué)生、評分要點(diǎn)的三側(cè)面交互作用組合中,顯著偏差組合占交互作用組合總數(shù)的12%,在評分者與其他側(cè)面的四側(cè)面交互作用組合中,非期望反應(yīng)僅占交互作用組合總數(shù)的0.63%,這些統(tǒng)計數(shù)據(jù)也低于許多研究結(jié)果。
造成上述研究差異,主要是因?yàn)樵趯懽鳌⒖陬^匯報、小組討論、創(chuàng)造力測驗(yàn)等研究主題中,評分者較難對評價對象和評價規(guī)則形成一致的認(rèn)識。上述表現(xiàn)性評價的評分維度、項(xiàng)目內(nèi)涵和評分標(biāo)準(zhǔn)并不容易明確,評分范圍也比較寬泛。評分者對評分維度和內(nèi)容存在較多的主觀判斷,不容易形成共識,在使用評分等級時容易出現(xiàn)各種情況,產(chǎn)生各種評分者效應(yīng)[17][24],使得評分者信度不高。這些均可能導(dǎo)致評分者與各側(cè)面的交互作用顯著,顯著偏差組合、非期望反應(yīng)占交互作用總數(shù)比例較高。
綜上所述,初三化學(xué)實(shí)驗(yàn)操作考查結(jié)果顯示,評分者效應(yīng)和評分者信度可被接受。但本研究只是孤立的案例,研究者仍須在日后開展大量的實(shí)驗(yàn)操作考查實(shí)證研究,進(jìn)一步了解評分者效應(yīng)和評分者信度在不同情況下的具體表現(xiàn),為優(yōu)化實(shí)驗(yàn)操作考查提供參考。
本研究特別地安排評分者監(jiān)考不同人數(shù)學(xué)生,以了解監(jiān)考學(xué)生人數(shù)的變化對評分者信度的影響。根據(jù)常識,監(jiān)考學(xué)生人數(shù)較少時,評分者可以對每位學(xué)生有充足的觀察,更準(zhǔn)確地評分,因而較高評分者間信度的出現(xiàn)比例可能較大。當(dāng)監(jiān)考學(xué)生人數(shù)較多時,評分者可能對每位學(xué)生缺乏充足的觀察,給予不準(zhǔn)確的評分,因而較低評分者間信度的出現(xiàn)比例可能較大。
但本研究顯示,監(jiān)考學(xué)生人數(shù)為最少的2 人時,學(xué)生能力值的infit 值大于1.20 的人數(shù)比例最大(33%),遠(yuǎn)高于監(jiān)考人數(shù)處于中間的4 人(17%)和最多的6 人(22%)。換而言之,與監(jiān)考4位、6 位學(xué)生相比,評分者監(jiān)考2 位學(xué)生時,評分差異較大的學(xué)生人數(shù)比例和較低評分者間信度出現(xiàn)的比例最大。該研究結(jié)果似乎與常識相悖,其可能的原因是評分者在不同的學(xué)生群體中使用了不同的評分策略。實(shí)驗(yàn)操作有明顯動作和細(xì)微動作之分,當(dāng)監(jiān)考學(xué)生人數(shù)最少時,評分者只需關(guān)注較少的學(xué)生,能夠?qū)W⒌?、長時間地觀察每一位學(xué)生的明顯動作和細(xì)微動作。當(dāng)評分者對某個學(xué)生細(xì)微動作的判斷不一致時,容易出現(xiàn)評分不一致的情況,導(dǎo)致評分者間信度較低,在同類學(xué)生群體中,較低評分者間信度的出現(xiàn)比例就容易較高。當(dāng)監(jiān)考學(xué)生人數(shù)最多時,評分者需要關(guān)注較多的學(xué)生,未必能夠?qū)W⒌?、長時間地觀察每一位學(xué)生的實(shí)驗(yàn)操作,特別是細(xì)微動作。如果學(xué)生不是做出明顯的錯誤操作,評分者可能采用保守的評分策略,給予學(xué)生滿分,這可能導(dǎo)致評分者間信度較高,在同類學(xué)生群體中,較低評分者間信度的出現(xiàn)比例則較低。但評分者使用評分策略的真實(shí)想法仍然有待研究者通過非結(jié)構(gòu)型的個人訪談來確定。
另外,本研究的評分要點(diǎn)具有明確的評分標(biāo)準(zhǔn),可以使用的評分等級較少。部分學(xué)生能力值的infit 值小于0.80,出現(xiàn)這種結(jié)果可能是因?yàn)樵u分者采用了保守的評分策略,也可能是因?yàn)樵u分者觀察到學(xué)生實(shí)驗(yàn)操作的某些狀況,所以給予相近的評分等級。因此,現(xiàn)在尚難以直接判斷第二、第三大組中能力值的infit 值小于0.80 的學(xué)生究竟屬于何種情況,各組人數(shù)比例差異的成因也有待后續(xù)研究解釋。
總體而言,本研究顯示,監(jiān)考學(xué)生人數(shù)對評分者間信度產(chǎn)生重要影響,但這種影響的方向和強(qiáng)度與常識相悖,尚需要更多的實(shí)證研究來共同判斷。公平和科學(xué)是高利害考試的基本要求,評分者對每位考生的評分都極其重要。如果條件允許,建議教育行政部門在組織實(shí)驗(yàn)操作考查時,應(yīng)用信息技術(shù)手段拍攝每位學(xué)生完整的實(shí)驗(yàn)操作過程,評分者可以結(jié)合實(shí)驗(yàn)錄像對學(xué)生評分,以避免監(jiān)考學(xué)生人數(shù)對評分者的評分產(chǎn)生負(fù)面影響。
中學(xué)理科實(shí)驗(yàn)操作考查是一些省份高中學(xué)業(yè)水平考試和中考的重要內(nèi)容。評分質(zhì)量的控制決定著實(shí)驗(yàn)操作考查能否在中、高考中進(jìn)一步廣泛應(yīng)用。為提高評分質(zhì)量,可以從評分者事前培訓(xùn)和評分結(jié)果事后檢查兩方面開展工作。
首先,評分者事前培訓(xùn)對減少評分者效應(yīng),提高評分質(zhì)量具有重要的正面影響。[34][35][36]教育招生考試機(jī)構(gòu)可以組織系統(tǒng)的考前評分實(shí)踐培訓(xùn),增加評分者對評分維度、項(xiàng)目內(nèi)涵、評分標(biāo)準(zhǔn),尤其是對不同類型評分者效應(yīng)的一致性理解,提高個人準(zhǔn)確評分的能力,并基于培訓(xùn)結(jié)果的反饋建議,增強(qiáng)評分者對個人評分能力的認(rèn)知。[37][38]結(jié)合評分者的認(rèn)知和評分表現(xiàn),教育招生考試機(jī)構(gòu)可以先將評分者分類,再給予有針對性的培訓(xùn)。[39][40]但已有研究也表明,評分者培訓(xùn)及其反饋并不能完全消除評分者效應(yīng),教育招生考試機(jī)構(gòu)仍然要面對潛在的評分者效應(yīng)對評分質(zhì)量的影響。[36][41]因此,建議教育招生考試機(jī)構(gòu)把評分者效應(yīng)控制在極小的變動范圍,努力減少隨機(jī)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)。
其次,MFRM 是一種效果不錯的實(shí)驗(yàn)操作考查評分質(zhì)量分析方法,它能夠清晰和詳細(xì)地呈現(xiàn)學(xué)生能力值、評分者寬嚴(yán)度和不同側(cè)面的偏差分析,有助于教育招生考試機(jī)構(gòu)檢查可能存在問題的學(xué)生評分和評分者,及時了解評分者效應(yīng)。因此,在評分結(jié)果事后檢查方面,可將MFRM 作為評分質(zhì)量控制的分析方法。如果學(xué)生的實(shí)驗(yàn)操作過程被錄像,評分者可以回放錄像,重新對存疑的學(xué)生進(jìn)行評分。
此外,實(shí)驗(yàn)操作考查作為水平性的標(biāo)準(zhǔn)參照考試,學(xué)生容易獲得一致或相近的評分,評分要點(diǎn)也有相同或相近的難度。這會導(dǎo)致MFRM 統(tǒng)計的學(xué)生(及其組別)能力值、評分要點(diǎn)難度產(chǎn)生極小的差異,形成評分者在群體上存在各種評分者效應(yīng)的現(xiàn)象,但實(shí)際上這些評分者效應(yīng)可能并不真實(shí)存在。因此,研究者有必要積極使用真實(shí)考查情境下的評分?jǐn)?shù)據(jù),探討適應(yīng)實(shí)驗(yàn)操作考查特點(diǎn)的評分者效應(yīng)判斷規(guī)則,為準(zhǔn)確判斷評分者效應(yīng)提供可信賴的依據(jù),更好地開展表現(xiàn)性評價。