中學(xué)理科實(shí)驗(yàn)操作考查的評分者效應(yīng)和評分者信度
——基于多面Rasch 模型的分析

2020-12-21 03:16:04麥裕華黎光明錢揚(yáng)義

教育測量與評價 2020年11期

麥裕華黎光明錢揚(yáng)義

一、問題提出

表現(xiàn)性評價是在真實(shí)情境下，對人們問題解決過程中表現(xiàn)的復(fù)雜知識、能力和情意進(jìn)行測量的評價方式。中學(xué)理科課程的實(shí)驗(yàn)操作考查作為典型的表現(xiàn)性評價，主要評估學(xué)生完成理科常見實(shí)驗(yàn)的基本實(shí)驗(yàn)操作能力。自20 世紀(jì)80 年代末以來，國內(nèi)各地教育行政部門加強(qiáng)中學(xué)理科課程管理，設(shè)置初、高中理科實(shí)驗(yàn)操作考查，借此提高學(xué)生實(shí)驗(yàn)操作能力。教育部提出，初中學(xué)業(yè)水平考試“要重視對有關(guān)學(xué)科教學(xué)實(shí)驗(yàn)操作的考查”[1]，普通高中學(xué)業(yè)水平考試“要對相關(guān)科目的實(shí)驗(yàn)操作的考試提出要求”[2]。國務(wù)院辦公廳“鼓勵有條件的地方將技術(shù)科目和理化生實(shí)驗(yàn)操作納入省級統(tǒng)一考試”[3]。中學(xué)理科實(shí)驗(yàn)操作考查逐漸成為選拔中學(xué)優(yōu)秀人才、有高利害關(guān)系的表現(xiàn)性評價。然而，實(shí)驗(yàn)操作考查的研究主要集中在試題命制和考務(wù)組織[4][5][6][7]、評分方式[8][9]、對理科實(shí)驗(yàn)教學(xué)的反撥作用[10]等主題上，鮮少討論評分者效應(yīng)、評分者信度等關(guān)鍵問題。相關(guān)的實(shí)證研究有麥裕華等人應(yīng)用百分比法和相關(guān)法，初步探討考查學(xué)生高階思維的化學(xué)復(fù)雜實(shí)驗(yàn)的評分者信度及其影響因素。[11]

評分者的認(rèn)識、情緒和疲勞等主觀因素，容易使其在表現(xiàn)性評價中出現(xiàn)偏差，產(chǎn)生評分者效應(yīng)（rater effect）。[12]評分者效應(yīng)包括寬嚴(yán)效應(yīng)（leniency/severity effect）、趨中效應(yīng)（central tendency effect）、隨機(jī)效應(yīng)（randomness effect）、光環(huán)效應(yīng)（halo effect）和區(qū)分性寬嚴(yán)效應(yīng)（differential leniency/severityeffect）。[13]評分者效應(yīng)的存在會影響評分者信度（包括評分者間信度和評分者內(nèi)信度）。但是常用計算評分者信度的百分比法、相關(guān)法和概化理論[14]均無法清楚地顯示每位評分者的評分對作答者得分、評分者效應(yīng)和評分者信度等的具體影響，也無法同時考慮計分規(guī)則、測試任務(wù)的難度等因素可能產(chǎn)生的作用。

Linacre 提出的多面Rasch 模型（many-facet Rasch model，MFRM）以項(xiàng)目反應(yīng)理論的Rasch 模型為基礎(chǔ)，將可以對測量結(jié)果產(chǎn)生系統(tǒng)誤差的因素作為側(cè)面，既估計每位評分者評分的寬嚴(yán)度，分離和校正評分者誤差對作答者得分的影響，又估計其他側(cè)面對作答者得分的影響，以及評分者與其他側(cè)面的偏差作用，可以提供豐富的評價信息。[15][16]許多研究者曾應(yīng)用MFRM 研究不同形式表現(xiàn)性評價的評分者效應(yīng)或評分者信度，包括寫作[17][18][19][20][21]、口頭匯報[22][23][24][25][26]、無領(lǐng)導(dǎo)小組討論[27]和創(chuàng)造力測驗(yàn)[28][29]等，但鮮少應(yīng)用MFRM 探討中學(xué)理科實(shí)驗(yàn)操作考查的相關(guān)問題。另外，在考務(wù)管理中，當(dāng)評分者監(jiān)考不同人數(shù)考生時，其對考生實(shí)驗(yàn)操作過程的觀察和判斷可能有不同反應(yīng)，這都可能影響評分者信度。因此，了解監(jiān)考人數(shù)和評分者信度的具體關(guān)系十分重要。

總的來說，探討中學(xué)理科實(shí)驗(yàn)操作考查的評分者效應(yīng)和評分者信度的實(shí)證研究，亟須應(yīng)用高級測量和統(tǒng)計方法，如MFRM。這一方面有助于評分者了解和提高評分質(zhì)量，避免錯誤評分，完善實(shí)驗(yàn)操作考查的組織管理；另一方面有助于彌補(bǔ)過往研究的不足，認(rèn)識評分者效應(yīng)和評分者信度對學(xué)生評價的影響，最終為促進(jìn)國家教育考試招生制度改革提供實(shí)質(zhì)性支持?；谏鲜隹紤]，本研究以初三化學(xué)實(shí)驗(yàn)操作考查常見試題為例，探討如下問題：（1）實(shí)驗(yàn)操作考查的評分者效應(yīng)如何？（2）實(shí)驗(yàn)操作考查的評分者信度如何？（3）監(jiān)考學(xué)生人數(shù)對評分者信度有何影響？

二、研究方法

1.被試學(xué)生

本研究通過隨機(jī)抽樣，在廣州市400 所初中隨機(jī)選擇某學(xué)校，再隨機(jī)選擇該校初三年級某班36 位學(xué)生作為被試。這些學(xué)生已學(xué)習(xí)初三化學(xué)課程的過濾實(shí)驗(yàn)操作，能夠獨(dú)立完成“過濾粗鹽水”實(shí)驗(yàn)。學(xué)生被隨機(jī)分為3 個大組，第一、第二、第三大組分別有6 人、12 人、18 人。3 個大組分別按每小組2 人、4 人、6 人的標(biāo)準(zhǔn)隨機(jī)分成3 個小組，依次編號為1～9 號小組。

2.評分者

評分者在中學(xué)理科實(shí)驗(yàn)操作考查中的表現(xiàn)是本研究的重點(diǎn)，評分者的選擇是影響研究質(zhì)量的關(guān)鍵因素。因此，本研究隨機(jī)選擇3 所初中，在每所學(xué)校的初三化學(xué)教師中再隨機(jī)選擇一位教師作為評分者（甲、乙、丙）。3 位評分者均為大學(xué)化學(xué)類專業(yè)畢業(yè)，有多年初三化學(xué)課程教學(xué)經(jīng)驗(yàn)，而且都開展過所在學(xué)校初三化學(xué)實(shí)驗(yàn)操作考查工作，有著豐富的實(shí)驗(yàn)操作考查評分經(jīng)驗(yàn)。選擇他們作為評分者，具有一定的代表性。在研究開始前，3 位評分者對評分標(biāo)準(zhǔn)進(jìn)行過討論，具有一致的評分認(rèn)識。

3.研究工具

初三化學(xué)實(shí)驗(yàn)操作考查主要以初三化學(xué)課程常見的、重要的實(shí)驗(yàn)為試題素材。如“過濾粗鹽水”實(shí)驗(yàn)主要考查學(xué)生的過濾實(shí)驗(yàn)操作，是初三化學(xué)實(shí)驗(yàn)操作?？嫉膬?nèi)容。本研究選擇該實(shí)驗(yàn)作為考查內(nèi)容，是為了模擬實(shí)驗(yàn)操作考查的真實(shí)情境?！斑^濾粗鹽水”實(shí)驗(yàn)被劃分為9 個評分要點(diǎn)，分別是：（1）正確制作濾紙過濾器；（2）濾紙邊緣低于漏斗口；（3）濕潤濾紙貼緊漏斗內(nèi)壁；（4）調(diào)整漏斗合理高度；（5）漏斗下端管口靠燒杯內(nèi)壁；（6）用玻璃棒引流濁液；（7）玻璃棒靠在三層濾紙上；（8）濁液面低于濾紙邊緣；（9）濁液過濾結(jié)果良好。評分要點(diǎn)（3）（5）（6）（7）各計2 分，其他評分要點(diǎn)各計1 分，滿分是13 分。評分要點(diǎn)經(jīng)過化學(xué)教育學(xué)科專家討論，具有良好的內(nèi)容效度和專家效度。

4.研究流程

實(shí)驗(yàn)操作考查分9 個場次進(jìn)行，每個場次分別安排對應(yīng)編號的小組參加。第1～3 場分別由第一大組的3 個小組參加，每場2 位學(xué)生。類似地，第4～6 場、第7～9 場依次分別由第二大組的3 個小組（每組4 人）、第三大組的3 個小組（每組6人）參加。學(xué)生在15 分鐘內(nèi)獨(dú)立完成實(shí)驗(yàn)操作。3位評分者同時監(jiān)考每個場次的所有學(xué)生，分別觀察學(xué)生的實(shí)驗(yàn)操作，依據(jù)評分要點(diǎn)獨(dú)立評分。

5.數(shù)據(jù)處理

本研究建構(gòu)學(xué)生、評分者、評分要點(diǎn)和學(xué)生組別4 個側(cè)面。其中，學(xué)生組別側(cè)面是虛擬側(cè)面，根據(jù)學(xué)生所在大組編號來確定。研究使用Linacre編制的MFRM 計算機(jī)統(tǒng)計軟件FACETS（版本為3.81.1）處理數(shù)據(jù)，了解各側(cè)面的觀察值、模型預(yù)測值和模型適配度統(tǒng)計量。為了解評分者側(cè)面與其他側(cè)面是否存在交互作用，本研究進(jìn)一步對“評分者與學(xué)生（及其組別）”“評分者與評分要點(diǎn)”“評分者與學(xué)生（及其組別）、評分要點(diǎn)”進(jìn)行偏差分析。

6.數(shù)據(jù)分析

本研究通過FACETS 計算卡方值和分隔信度等統(tǒng)計量，檢視評分者寬嚴(yán)度的內(nèi)部是否有極大的差異，以及作答者能力值、組別能力值和測試任務(wù)難度的內(nèi)部是否分別有極小的差異，從而判斷評分者在群體上存在的各種評分者效應(yīng)。[13][30][31]由于卡方檢驗(yàn)的顯著結(jié)果易受樣本量影響，所以研究者建議主要參考分隔比率（separation ratio）、分隔指數(shù)（separation index）和分隔信度（reliability of the separation index）等統(tǒng)計量。[13]這些統(tǒng)計量的數(shù)值越小，表示各側(cè)面數(shù)據(jù)內(nèi)部差異程度越小。分隔信度的取值范圍是0～1。Myford 和Wolfe 認(rèn)為，當(dāng)分隔信度達(dá)到0.70 時，就存在可識別的統(tǒng)計上的顯著差異。[13]

筆者使用FACETS 計算加權(quán)均方擬合統(tǒng)計量（infit MNSQ）和未加權(quán)均方擬合統(tǒng)計量（outfit MNSQ），評估每個側(cè)面的觀察值與模型擬合的情況。由于outfit 值對極端值比較敏感，一般以infit值作為評估的主要指標(biāo)。研究者提出多個不同的infit 值范圍，以判斷觀察值是否擬合模型。[15][32]為了獲得較高精確度的測量結(jié)果，本研究采用的infit 值范圍是0.80～1.20。[26][32]當(dāng)infit 值在該范圍內(nèi)，表示觀察值適合使用MFRM 分析；當(dāng)infit 值大于1.20 時，表示多位評分者的觀察值與模型預(yù)測值的差異過于懸殊，說明評分一致性程度和評分者間信度較低；當(dāng)infit 值小于0.80 時，表示多位評分者的觀察值與模型預(yù)測值的差異過于一致，說明評分一致性程度過高。

偏差分析通過分析不同側(cè)面間的交互作用，判斷評分者的評分是否存在顯著偏差。FACETS提供交互作用組合的t 值，可以將該值的絕對值大于2 作為判斷評分存在顯著偏差的標(biāo)準(zhǔn)。[13][33]當(dāng)t 值是負(fù)數(shù)且數(shù)值越小時，表示評分者評分越嚴(yán)格。同時，F(xiàn)ACETS 提供非期望反應(yīng)（unexpected responses），以標(biāo)準(zhǔn)殘差stRes 的絕對值大于3 作為評分存在顯著偏差的判斷標(biāo)準(zhǔn)，呈現(xiàn)多個側(cè)面具體的顯著差異情況。

三、研究結(jié)果

1.各側(cè)面的統(tǒng)計結(jié)果分析

（1）學(xué)生能力值：顯示可接受的評分者間信度

“過濾粗鹽水”實(shí)驗(yàn)是初三化學(xué)課程的重要教學(xué)內(nèi)容，36 位學(xué)生的能力值范圍是0.19～4.67 logits，平均能力為2.40 logits，說明學(xué)生的能力在該實(shí)驗(yàn)操作考查中均處于較高水平。卡方檢驗(yàn)顯示，學(xué)生能力值的χ2（35）=97.60，p＜0.001。但分隔比率是0.91，分隔指數(shù)是1.55，分隔信度是0.45，這說明學(xué)生能力的差異不顯著。學(xué)生具體的評分情況如下。

首先，4 位學(xué)生的原始成績獲得滿分，他們的infit 值顯示為“maximum”，另有16 位學(xué)生的infit 值在建議值范圍。這20 位學(xué)生約占總?cè)藬?shù)的56%，說明評分者對全體學(xué)生的評分一致性程度，即評分者間信度處于可接受的一般水平。

其次，學(xué)生的infit 值高于1.20 的有8 人，占總?cè)藬?shù)的22%。第一至第三大組分別有該情況的學(xué)生是2 人、2 人、4 人，占各大組人數(shù)的33%、17%、22%。這顯示3 位評分者對學(xué)生各個評分要點(diǎn)的評分與模型預(yù)測值之間差異較大，對于監(jiān)考學(xué)生人數(shù)最少的第一大組，評分者評分差異較大的情況出現(xiàn)得最多、較低評分者間信度出現(xiàn)的比例最大。

最后，學(xué)生的infit 值低于0.80 的有8 人，占總?cè)藬?shù)的22%。第二、第三大組分別有該情況的學(xué)生是5 人、3 人，占各大組人數(shù)的42%、17%。這顯示3 位評分者對學(xué)生各個評分要點(diǎn)的評分與模型預(yù)測值的差異高度一致，對于監(jiān)考學(xué)生人數(shù)居中的第二大組，評分者評分高度一致的情況出現(xiàn)得最多。

此外，根據(jù)學(xué)生組別虛擬側(cè)面的統(tǒng)計結(jié)果，第二、第三大組的infit 值在0.80～1.20，第一大組的infit 值略大于1.20，這顯示評分者在第一大組的評分者間信度略低。卡方檢驗(yàn)顯示，學(xué)生組別能力值的差異不顯著，χ2（2）=0.00，p=0.99＞0.05。學(xué)生組別能力值的分隔比率是0.00，分隔指數(shù)是0.33，分隔信度是0.00，說明學(xué)生組別能力的差異不顯著。

（2）評分者寬嚴(yán)度：顯示良好的評分者內(nèi)信度

評分者寬嚴(yán)度指評分者在評分時的寬松或嚴(yán)厲程度，可以表現(xiàn)評分者效應(yīng)的寬嚴(yán)效應(yīng)。寬嚴(yán)度的logits 值越高，表示評分者的嚴(yán)厲程度越大，反之則表示寬松程度越大。表1 顯示：3 位評分者寬嚴(yán)度范圍是-0.35～0.36 logits，平均寬嚴(yán)度為0.00 logits，其中，評分者丙最嚴(yán)格、寬嚴(yán)度最高，評分者乙最寬松、寬嚴(yán)度最低。3 位評分者寬嚴(yán)度的infit 值均在0.80～1.20，這顯示3 位評分者個人評分一致性程度，即評分者內(nèi)信度良好。

（3）評分要點(diǎn)難度：顯示較低的考查難度

表2 顯示：9 個評分要點(diǎn)的難度范圍是-4.13～0.62 logits，平均難度為-1.84 logits。學(xué)生在評分要點(diǎn)（1）（2）（4）（9）均獲得原始成績滿分，評分要點(diǎn)（5）的難度最大，說明“過濾粗鹽水”實(shí)驗(yàn)操作考查整體難度偏低，但符合考查考生基本實(shí)驗(yàn)操作能力的目標(biāo)。

評分要點(diǎn)（1）（2）（4）（9）的infit 值顯示為“minimum”，這與學(xué)生在上述要點(diǎn)上均獲得原始成績滿分有關(guān)。評分要點(diǎn)（3）（6）的infit 值分別是0.71，1.22，其余評分要點(diǎn)的infit 值均在0.80～1.20?？ǚ綑z驗(yàn)顯示，評分要點(diǎn)難度的χ2（8）=40.20，p＜0.001。但分隔比率是1.42，分隔指數(shù)是2.23，分隔信度是0.67，說明評分要點(diǎn)難度的差異未達(dá)到顯著。

表1 評分者寬嚴(yán)度統(tǒng)計

表2 評分要點(diǎn)難度統(tǒng)計

表3 評分等級的使用情況

（4）評分等級使用：顯示合理的等級使用

評分者在各評分要點(diǎn)使用的評分等級情況見表3。隨著評分等級的提高，評分者使用次數(shù)和評分等級預(yù)測能力值都相應(yīng)遞增，最高評分等級的使用比例也相應(yīng)增大，這說明評分者合理地使用了評分等級。

2.其余4 種評分者效應(yīng)的情況

除了已經(jīng)在“評分者寬嚴(yán)度”中討論的寬嚴(yán)效應(yīng)，其余4 種評分者效應(yīng)的表現(xiàn)情況如下。

首先，趨中效應(yīng)指評分者在具有多個評分等級的量尺中，過度使用量尺中間的評分等級，因而無法有效區(qū)分不同水平的學(xué)生。在本研究中，表3 顯示：評分者在評分要點(diǎn)（3）（5）（6）（7）上使用1 分（中間評分等級）的次數(shù)，并未同時顯著高于2 分（最高評分等級）和0 分（最低評分等級）的次數(shù)，說明評分者并未過度使用量尺中間的評分等級，在群體上不存在趨中效應(yīng)。

其次，隨機(jī)效應(yīng)指評分者由于理解或其他原因，與其他評分者相比，不一致地使用評分等級，因而無法有效區(qū)分不同水平的學(xué)生。在本研究中，學(xué)生能力值的分隔信度顯示學(xué)生的能力差異不顯著，說明評分者在群體上存在隨機(jī)效應(yīng)。[13]使用獨(dú)立評分者-其他評分者相關(guān)系數(shù)“single rater-rest of the raters（SR/ROR）correlations”，可以進(jìn)一步確定具有隨機(jī)效應(yīng)的評分者。當(dāng)某評分者的相關(guān)系數(shù)比其他評分者的系數(shù)明顯更小，這說明該評分者具有隨機(jī)效應(yīng)。評分者甲、乙、丙的相關(guān)系數(shù)分別是0.46、0.41、0.53，各評分者的相關(guān)系數(shù)都較低且接近，說明他們可能都存在一定的隨機(jī)效應(yīng)。

再者，光環(huán)效應(yīng)指評分者不能清晰地辨別不同項(xiàng)目的含義，在這些項(xiàng)目中均給予學(xué)生相似的分?jǐn)?shù)，因而無法有效區(qū)分不同水平的學(xué)生。在本研究中，評分要點(diǎn)分為2 個或3 個層次，分隔指數(shù)和分隔信度并不算小，評分要點(diǎn)難度的差異接近顯著，說明評分者在群體上不存在光環(huán)效應(yīng)。[13]

最后，區(qū)分性寬嚴(yán)效應(yīng)指評分者對某些組別學(xué)生給予更寬松或更嚴(yán)厲的評分，因而無法有效區(qū)分不同水平的學(xué)生。在本研究中，通過綜合比較評分者的評分情況可知，評分者在群體上不存在區(qū)分性寬嚴(yán)效應(yīng)。

3.各側(cè)面間的偏差分析

（1）二側(cè)面偏差分析：未顯示光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)

本研究中，4 位學(xué)生和4 個評分要點(diǎn)（1）（2）（4）（9）均獲得原始成績滿分，這些學(xué)生和評分要點(diǎn)均未被軟件納入偏差分析的計算。如表4 所示，根據(jù)交互作用組合的t 值和卡方檢驗(yàn)，評分者與學(xué)生、評分者與學(xué)生組別、評分者與評分要點(diǎn)的二側(cè)面交互作用均不顯著。這顯示評分者不會因?yàn)閷W(xué)生、學(xué)生組別和評分要點(diǎn)的不同，而使用顯著不同的評分寬嚴(yán)尺度。同時，評分者與評分要點(diǎn)、評分者與學(xué)生組別的偏差分析t 值，可以作為判斷評分者在個人上是否存在光環(huán)效應(yīng)、區(qū)分性寬嚴(yán)效應(yīng)的方法。[13]表4 也顯示3 位評分者均不存在光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)。

表4 評分者與不同側(cè)面的偏差分析

（2）三側(cè)面或四側(cè)面偏差分析：顯示較弱的區(qū)分性寬嚴(yán)效應(yīng)

在評分者與學(xué)生組別、評分要點(diǎn)的三側(cè)面偏差分析中，χ2（45）=36.90，p=0.80＞0.05，交互作用組合的t 值的絕對值均小于2，這顯示評分者與學(xué)生組別、評分要點(diǎn)的三個側(cè)面交互作用不顯著。

在評分者與學(xué)生、評分要點(diǎn)的三側(cè)面偏差分析中，χ2（480）=694.50，p＜0.001，共有58 個交互作用組合的t 值小于-2，達(dá)到顯著偏差，占交互作用組合總數(shù)（480 個）的12%，這顯示評分者與學(xué)生、評分要點(diǎn)的三個側(cè)面交互作用顯著。其中，3 位評分者在評分要點(diǎn)（8）上的評分存在顯著偏差。

在評分者與學(xué)生及其組別、評分要點(diǎn)的四側(cè)面偏差分析中，僅出現(xiàn)9 個非期望反應(yīng)，占交互作用組合總數(shù)（1440 個）的0.63%。9 個非期望反應(yīng)具有以下共同點(diǎn)：對于學(xué)生及其組別，主要是第三大組學(xué)生，尤其是第34 號學(xué)生出現(xiàn)非期望反應(yīng)；對于評分者，主要是評分者甲出現(xiàn)非期望反應(yīng)；對于評分要點(diǎn)，主要是在評分要點(diǎn)（5）和（8）上出現(xiàn)非期望反應(yīng)；在這9 個非期望反應(yīng)中，評分者的觀察值均比預(yù)測值小，說明評分者給予了顯著嚴(yán)格的評分。這些具體的多側(cè)面偏差分析信息顯示評分者在個體上存在較弱的區(qū)分性寬嚴(yán)效應(yīng)，有助于評分者做出準(zhǔn)確評估。

四、思考與建議

本研究應(yīng)用MFRM 探討中學(xué)理科實(shí)驗(yàn)操作考查的評分者效應(yīng)、評分者信度，其若干發(fā)現(xiàn)對提升實(shí)驗(yàn)操作考查的評分質(zhì)量有一定助益。

1.本研究的評分者效應(yīng)和評分者信度可被接受

實(shí)驗(yàn)操作考查作為水平性的標(biāo)準(zhǔn)參照考試，不過分追求試題的區(qū)分度，主要是對考生完成理科常見實(shí)驗(yàn)的基本實(shí)驗(yàn)操作能力進(jìn)行系統(tǒng)的評價。實(shí)驗(yàn)操作的科學(xué)性和規(guī)范性是極其明確的，有著容易判斷對錯的評分標(biāo)準(zhǔn)。因此，評分者對評分維度、項(xiàng)目內(nèi)涵和評分標(biāo)準(zhǔn)（即評價規(guī)則）可以形成共識，也容易根據(jù)考生的實(shí)際表現(xiàn)（即評價對象）給予較一致的評分。

實(shí)驗(yàn)操作考查的這些特點(diǎn)容易對評分者效應(yīng)和評分者信度產(chǎn)生重要影響。在本研究中，評分者不存在群體上的寬嚴(yán)效應(yīng)、趨中效應(yīng)、光環(huán)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)，但存在一定的隨機(jī)效應(yīng)，同時考慮學(xué)生組別和其他側(cè)面時存在較弱的區(qū)分性寬嚴(yán)效應(yīng)。由于評分者效應(yīng)不嚴(yán)重，對評分質(zhì)量的影響不大，說明本研究具有一般的評分者間信度和良好的評分者內(nèi)信度。值得關(guān)注的是，一般的評分者間信度可能由評分者的隨機(jī)效應(yīng)所致。

偏差分析結(jié)果顯示：首先，本研究發(fā)現(xiàn)評分者與學(xué)生組別、評分者與評分要點(diǎn)的二側(cè)面交互作用均不顯著，評分者與學(xué)生組別、評分要點(diǎn)的三側(cè)面交互作用不顯著，其結(jié)果與一些報道評分者與不同側(cè)面偏差分析結(jié)果的研究[18][19][22][25][27][28]相比，結(jié)論不同，在這些研究中，評分者與學(xué)生等側(cè)面的二側(cè)面交互作用存在顯著性；其次，本研究也發(fā)現(xiàn)，在評分者與學(xué)生、評分要點(diǎn)的三側(cè)面交互作用組合中，顯著偏差組合占交互作用組合總數(shù)的12%，在評分者與其他側(cè)面的四側(cè)面交互作用組合中，非期望反應(yīng)僅占交互作用組合總數(shù)的0.63%，這些統(tǒng)計數(shù)據(jù)也低于許多研究結(jié)果。

造成上述研究差異，主要是因?yàn)樵趯懽鳌⒖陬^匯報、小組討論、創(chuàng)造力測驗(yàn)等研究主題中，評分者較難對評價對象和評價規(guī)則形成一致的認(rèn)識。上述表現(xiàn)性評價的評分維度、項(xiàng)目內(nèi)涵和評分標(biāo)準(zhǔn)并不容易明確，評分范圍也比較寬泛。評分者對評分維度和內(nèi)容存在較多的主觀判斷，不容易形成共識，在使用評分等級時容易出現(xiàn)各種情況，產(chǎn)生各種評分者效應(yīng)[17][24]，使得評分者信度不高。這些均可能導(dǎo)致評分者與各側(cè)面的交互作用顯著，顯著偏差組合、非期望反應(yīng)占交互作用總數(shù)比例較高。

綜上所述，初三化學(xué)實(shí)驗(yàn)操作考查結(jié)果顯示，評分者效應(yīng)和評分者信度可被接受。但本研究只是孤立的案例，研究者仍須在日后開展大量的實(shí)驗(yàn)操作考查實(shí)證研究，進(jìn)一步了解評分者效應(yīng)和評分者信度在不同情況下的具體表現(xiàn)，為優(yōu)化實(shí)驗(yàn)操作考查提供參考。

2.監(jiān)考學(xué)生人數(shù)會影響評分者信度

本研究特別地安排評分者監(jiān)考不同人數(shù)學(xué)生，以了解監(jiān)考學(xué)生人數(shù)的變化對評分者信度的影響。根據(jù)常識，監(jiān)考學(xué)生人數(shù)較少時，評分者可以對每位學(xué)生有充足的觀察，更準(zhǔn)確地評分，因而較高評分者間信度的出現(xiàn)比例可能較大。當(dāng)監(jiān)考學(xué)生人數(shù)較多時，評分者可能對每位學(xué)生缺乏充足的觀察，給予不準(zhǔn)確的評分，因而較低評分者間信度的出現(xiàn)比例可能較大。

但本研究顯示，監(jiān)考學(xué)生人數(shù)為最少的2 人時，學(xué)生能力值的infit 值大于1.20 的人數(shù)比例最大（33%），遠(yuǎn)高于監(jiān)考人數(shù)處于中間的4 人（17%）和最多的6 人（22%）。換而言之，與監(jiān)考4位、6 位學(xué)生相比，評分者監(jiān)考2 位學(xué)生時，評分差異較大的學(xué)生人數(shù)比例和較低評分者間信度出現(xiàn)的比例最大。該研究結(jié)果似乎與常識相悖，其可能的原因是評分者在不同的學(xué)生群體中使用了不同的評分策略。實(shí)驗(yàn)操作有明顯動作和細(xì)微動作之分，當(dāng)監(jiān)考學(xué)生人數(shù)最少時，評分者只需關(guān)注較少的學(xué)生，能夠?qū)Ｗ⒌?、長時間地觀察每一位學(xué)生的明顯動作和細(xì)微動作。當(dāng)評分者對某個學(xué)生細(xì)微動作的判斷不一致時，容易出現(xiàn)評分不一致的情況，導(dǎo)致評分者間信度較低，在同類學(xué)生群體中，較低評分者間信度的出現(xiàn)比例就容易較高。當(dāng)監(jiān)考學(xué)生人數(shù)最多時，評分者需要關(guān)注較多的學(xué)生，未必能夠?qū)Ｗ⒌?、長時間地觀察每一位學(xué)生的實(shí)驗(yàn)操作，特別是細(xì)微動作。如果學(xué)生不是做出明顯的錯誤操作，評分者可能采用保守的評分策略，給予學(xué)生滿分，這可能導(dǎo)致評分者間信度較高，在同類學(xué)生群體中，較低評分者間信度的出現(xiàn)比例則較低。但評分者使用評分策略的真實(shí)想法仍然有待研究者通過非結(jié)構(gòu)型的個人訪談來確定。

另外，本研究的評分要點(diǎn)具有明確的評分標(biāo)準(zhǔn)，可以使用的評分等級較少。部分學(xué)生能力值的infit 值小于0.80，出現(xiàn)這種結(jié)果可能是因?yàn)樵u分者采用了保守的評分策略，也可能是因?yàn)樵u分者觀察到學(xué)生實(shí)驗(yàn)操作的某些狀況，所以給予相近的評分等級。因此，現(xiàn)在尚難以直接判斷第二、第三大組中能力值的infit 值小于0.80 的學(xué)生究竟屬于何種情況，各組人數(shù)比例差異的成因也有待后續(xù)研究解釋。

總體而言，本研究顯示，監(jiān)考學(xué)生人數(shù)對評分者間信度產(chǎn)生重要影響，但這種影響的方向和強(qiáng)度與常識相悖，尚需要更多的實(shí)證研究來共同判斷。公平和科學(xué)是高利害考試的基本要求，評分者對每位考生的評分都極其重要。如果條件允許，建議教育行政部門在組織實(shí)驗(yàn)操作考查時，應(yīng)用信息技術(shù)手段拍攝每位學(xué)生完整的實(shí)驗(yàn)操作過程，評分者可以結(jié)合實(shí)驗(yàn)錄像對學(xué)生評分，以避免監(jiān)考學(xué)生人數(shù)對評分者的評分產(chǎn)生負(fù)面影響。

3.可通過評分者事前培訓(xùn)和評分結(jié)果事后檢查提高評分質(zhì)量

中學(xué)理科實(shí)驗(yàn)操作考查是一些省份高中學(xué)業(yè)水平考試和中考的重要內(nèi)容。評分質(zhì)量的控制決定著實(shí)驗(yàn)操作考查能否在中、高考中進(jìn)一步廣泛應(yīng)用。為提高評分質(zhì)量，可以從評分者事前培訓(xùn)和評分結(jié)果事后檢查兩方面開展工作。

首先，評分者事前培訓(xùn)對減少評分者效應(yīng)，提高評分質(zhì)量具有重要的正面影響。[34][35][36]教育招生考試機(jī)構(gòu)可以組織系統(tǒng)的考前評分實(shí)踐培訓(xùn)，增加評分者對評分維度、項(xiàng)目內(nèi)涵、評分標(biāo)準(zhǔn)，尤其是對不同類型評分者效應(yīng)的一致性理解，提高個人準(zhǔn)確評分的能力，并基于培訓(xùn)結(jié)果的反饋建議，增強(qiáng)評分者對個人評分能力的認(rèn)知。[37][38]結(jié)合評分者的認(rèn)知和評分表現(xiàn)，教育招生考試機(jī)構(gòu)可以先將評分者分類，再給予有針對性的培訓(xùn)。[39][40]但已有研究也表明，評分者培訓(xùn)及其反饋并不能完全消除評分者效應(yīng)，教育招生考試機(jī)構(gòu)仍然要面對潛在的評分者效應(yīng)對評分質(zhì)量的影響。[36][41]因此，建議教育招生考試機(jī)構(gòu)把評分者效應(yīng)控制在極小的變動范圍，努力減少隨機(jī)效應(yīng)和區(qū)分性寬嚴(yán)效應(yīng)。

其次，MFRM 是一種效果不錯的實(shí)驗(yàn)操作考查評分質(zhì)量分析方法，它能夠清晰和詳細(xì)地呈現(xiàn)學(xué)生能力值、評分者寬嚴(yán)度和不同側(cè)面的偏差分析，有助于教育招生考試機(jī)構(gòu)檢查可能存在問題的學(xué)生評分和評分者，及時了解評分者效應(yīng)。因此，在評分結(jié)果事后檢查方面，可將MFRM 作為評分質(zhì)量控制的分析方法。如果學(xué)生的實(shí)驗(yàn)操作過程被錄像，評分者可以回放錄像，重新對存疑的學(xué)生進(jìn)行評分。

此外，實(shí)驗(yàn)操作考查作為水平性的標(biāo)準(zhǔn)參照考試，學(xué)生容易獲得一致或相近的評分，評分要點(diǎn)也有相同或相近的難度。這會導(dǎo)致MFRM 統(tǒng)計的學(xué)生（及其組別）能力值、評分要點(diǎn)難度產(chǎn)生極小的差異，形成評分者在群體上存在各種評分者效應(yīng)的現(xiàn)象，但實(shí)際上這些評分者效應(yīng)可能并不真實(shí)存在。因此，研究者有必要積極使用真實(shí)考查情境下的評分?jǐn)?shù)據(jù)，探討適應(yīng)實(shí)驗(yàn)操作考查特點(diǎn)的評分者效應(yīng)判斷規(guī)則，為準(zhǔn)確判斷評分者效應(yīng)提供可信賴的依據(jù)，更好地開展表現(xiàn)性評價。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

中學(xué)理科實(shí)驗(yàn)操作考查的評分者效應(yīng)和評分者信度——基于多面Rasch 模型的分析