劉斯佳,張建新
(1.中國科學(xué)院心理研究所,北京100101;2.中國科學(xué)院大學(xué),北京100049)
主觀題包括簡答題、論述題、應(yīng)用題、作文題等。相對客觀題,主觀題能更為真實地反映考生的能力,因此被廣泛運用于人員選拔考試和語言類考試中,對人員的錄用和篩選具有重要的現(xiàn)實意義。然而,主觀題評分的客觀性和有效性卻不容樂觀(關(guān)丹丹,2008)。前期研究發(fā)現(xiàn)甚至某國家級考試論述題依然存在評分員寬嚴(yán)程度異常的現(xiàn)象(李中權(quán),孫曉敏,張厚粲,張立松,2008)。作文題作為一種復(fù)雜主觀題型,其誤差控制問題相較其他類型的主觀題型更為棘手,也更早受到研究者關(guān)注(劉遠我,張厚粲,1998)。有研究發(fā)現(xiàn),評分員對作文評分寬嚴(yán)程度同樣存在著顯著差異(劉紅云,陳閱,駱方,王云峰,2010)。
主觀題評分的信度受到許多因素影響,包括題目難度、評分程序復(fù)雜程度、評分者間差異等等。有作者指出評分者誤差復(fù)雜性最高(王博,卞冉,車宏生,王蓉,2012)。評分者因為不能很好地掌握評分標(biāo)準(zhǔn),造成他們在評分過程中認(rèn)知負(fù)荷過大,對不同等級評分標(biāo)準(zhǔn)認(rèn)識模糊,從而擴大了評分誤差;另一方面,為了減少認(rèn)知負(fù)荷,評分者可能形成保守的打分策略,使考生評分結(jié)果難以進行區(qū)分(Gilfert &Harada,1992)。王博等(2012)對某大型人事考試評分分析中,首次描述了保守現(xiàn)象的“習(xí)得”過程??梢灶A(yù)見的是,作文的評分過程可能存在更為嚴(yán)重的失真現(xiàn)象。因此,在有效評價主觀評分誤差的基礎(chǔ)上,有必要通過優(yōu)化評分流程來降低作文評分的誤差程度。
在此背景下,國外研究者提出了分步增值評分模式(rating augmentation)以進行有效的流程控制(Johnson,Penny,& Gorden,2000)。王博等(2012)在國內(nèi)首先對這種評分模式進行了介紹。分步增值評分模式首先在較為寬泛的檔位上(bench mark)對試卷進行打分,比如1 至4 檔;然后評分者通過附加分?jǐn)?shù)對試卷傾向性(lean)進行評估,以“+”“-”進行表示;最后分?jǐn)?shù)通過統(tǒng)一算法轉(zhuǎn)化為數(shù)值,形成考生的原始成績。這種方式可以幫助評分者確保評分成績的一致性和區(qū)分性。分步增值評分模式近期在國外的作文評分和言語類考試評分中得到了較為廣泛的應(yīng)用(如Penny & Johnson,2011;Morgan,Zhu,Johnson,& Hodge,2014)。然而對中文數(shù)據(jù)庫搜索之后,尚未發(fā)現(xiàn)分步增值評分模式的實證研究。
在另一個方面,如何選擇方法更好地量化主觀題的評分評價也是需要考慮的一個問題。關(guān)丹丹(2008)認(rèn)為項目反應(yīng)理論對于主觀題的評分評價具有較明顯的優(yōu)勢,并且特別對多面Rasch 模型(MFRM)進行了介紹。MFRM 是項目反應(yīng)理論的衍生模型,可以很好地量化主觀題的區(qū)分度以及評分者評分時的寬嚴(yán)程度和偏差程度,MFRM 模型在往期研究中較為常見(李中權(quán)等,2008;劉紅云等,2010)。本文主要旨在通過MFRM 模型,分別考察傳統(tǒng)綜合評分模式和分步增值評分模式對于評分結(jié)果的區(qū)分度以及評分者的評分寬嚴(yán)程度和偏差程度;另外,通過引入專家評分,并假定其為評分的真分?jǐn)?shù)后,進而考察綜合評分模式和分步增值評分模式的誤差程度;最后,通過評分用時來描述兩種評分模式的評分效率。研究假設(shè)相對于綜合評分模式,分步增值評分模式對評分結(jié)果的區(qū)分度更好、評分者在評分偏差程度指標(biāo)上的表現(xiàn)更加理想,并且可以提高評分效率。
研究抽取某國家級大型考試的實測作文題答卷500 份作為樣本。挑選20 名評分經(jīng)驗在三年以上的評分者參與評分。評分種類包括了傳統(tǒng)評分使用的綜合評分模式,以及上述介紹的分步增值評分模式。其中,綜合評分模式由6 名評分者參與評分,而分步增值評分模式由其余14 名評分者參與評分。在評分之前,首先對評分者進行集中培訓(xùn),讓所有評分者了解作文題評分的要求和標(biāo)準(zhǔn)(見表1)。而參與分步增值評分模式的評分者則附加培訓(xùn)了分步評分過程中的等級、檔位和傾向(即“+”、“-”)標(biāo)準(zhǔn)(見表2)。評分者分為綜合評分組和分步評分組,他們的評分過程在下文中詳細(xì)介紹。
表1 綜合評分法的評分標(biāo)準(zhǔn)
綜合評分組:隨機選擇6 名評分者采用雙評方式獨立對500 份試卷進行評價,要求評分者按照表1 中的分制直接給考生打分。如果兩名評分者的評分結(jié)果超出誤差允許范圍,則要求第三名評分者進行評分??忌淖罱K成績?nèi)∽詢擅u分者評定成績的平均值,或者第三名評分者和與其評分最接近的評分成績的平均值。
分步評分組:評分過程共分兩個階段。第一階段隨機選擇4 名評分者對500 份試卷參照表1 中的等級標(biāo)準(zhǔn)進行定級工作;第二階段,對已經(jīng)定好等級的試卷,在每個等級內(nèi)再分為三檔,評分者對照各等級內(nèi)挑選的檔位標(biāo)桿卷進行歸檔,歸檔原則是判斷當(dāng)前試卷水平與哪份檔位標(biāo)桿卷水平更為接近;評分者從整數(shù)水平對文章進行歸檔后,還須進一步指出文章是否有必要通過“+”和“-”進行額外評分。如果標(biāo)記“+”,則代表比標(biāo)桿卷的能力水平要高;反之則要低(見表2)。評分者按照等級評分結(jié)果分成了四種類型,其中1 類卷(8.3%)每組由2 人評分,2 類卷(58. 2%)每組由3 人評分,3 類卷(30.5%)每組由3 人評分,4 類卷(3.0%)每組由2人評分。上述兩階段均采用評分者獨立評分的雙評方式。
表2 分步評分分?jǐn)?shù)轉(zhuǎn)換對應(yīng)表
需要說明的是,在分步評分中,對于第一階段評分者12 評給出等級不一致的情況,先保留各自評判等級到第二階段,在第二階段分別在不一致的等級上再進行雙評,即在定檔階段會出現(xiàn)12 評和1234評兩種情況。這么處理是因為,對于大多數(shù)判等不一致卷而言,由于有可能試卷本身就處于等級臨界水平上下,如果第二階段定檔時各評分者分歧不大,且所給出的檔位也在這個臨界點附近,第一階段定級的不一致就是可以接受的。另外,在第二階段如果認(rèn)為待評卷定級不夠準(zhǔn)確,可以做出“裁定”操作,不再進行歸檔,重新回到第一階段進行定級工作。
對兩種評分模式下的評分結(jié)果進行等級不一致分析。其中綜合評分組不一致評分卷數(shù)為177 份(占35.40%),分步評分組不一致評分卷數(shù)為185 份(占37.00%)。兩種評分模式下評分不一致情況沒有顯著差異(χ2=0.22,p=0.64,odds ratio=1.03)。
圖1 綜合評分組及分步評分組評分成績的直方圖和密度線
如圖1 所示,綜合評分組的評分成績(M =27.91,SD =3.92)相比分步評分組的評分成績(M=24. 14,SD = 6. 18)偏高,t(998)= 11. 51,p <0.001。并且綜合評分的峰度(Kurtosis=5.31,SE=0.22)相對分步評分的峰度(Kurtosis = -0.12,SE =0.22)更高,因此成績相對更為集中。另外,綜合評分的偏度(Skewness = -1.47,SE =0.11)相比分步評分(Skewness= -0.28,SE =0.11)顯示出更高的負(fù)偏態(tài)趨勢。另外,相比綜合評分組12 評的相關(guān)性(r=0.67,p <0.001),分步評分組12 評的相關(guān)性更高(r=0.76,p <0.001)。并且,以1 評作為因變量,一般線性模型發(fā)現(xiàn)2 評成績 × 組別(綜合、分步組)的交互作用顯著,F(xiàn) =33. 26,p <0. 001,η2=0.59,說明兩組相關(guān)系數(shù)大小存在顯著差異。
使用Facets 3.71.4 學(xué)生版對兩種評分模式下的平均評分結(jié)果進行多面Rasch 模型分析。首先將兩種評分模式成績劃分為12 個檔位,通過概率曲線進行描述。理想情況下,概率曲線的峰值在每個檔位的分布比較均勻,如果概率分布過高或過低則表明檔位較難以區(qū)分。從圖2A 的檔位概率曲線可見綜合評分成績在低檔位較難區(qū)分,然而分步評分成績的概率曲線相比較綜合評分卻較為均勻。將12個檔位歸并成6 個分?jǐn)?shù)段之后,結(jié)果顯示分步評分成績的概率曲線依然較為理想(見圖2B)。
繼而對評分者的寬嚴(yán)程度、偏差程度以及區(qū)分度進行分析(Linacre,2014)。分析選取綜合評分1評成績和分步評分第二步1 評成績作為因變量,考察各自1 評評分者的寬嚴(yán)程度、偏差程度和分?jǐn)?shù)的區(qū)分度。由于在分步增值評分模式中,每個評分者分別對某一等級的答卷進行評分,故被給予高分答卷的評分者在寬嚴(yán)程度的結(jié)果上自然會“更高”或“更低”,因此并不能有效評定評分者的寬嚴(yán)程度,因此本研究只對綜合評分組評分者的寬嚴(yán)程度進行分析。結(jié)果如表3 所示。
表3 評分者的寬嚴(yán)程度、偏差程度以及區(qū)分度
續(xù)表3
圖2 不同評分成績層次的概率曲線
寬嚴(yán)程度指標(biāo)(severity estimate)是對某個評分者總體對評分是否呈現(xiàn)偏低或偏高的趨勢(大于0為評分寬松,反之亦然),而寬嚴(yán)程度所對應(yīng)的標(biāo)準(zhǔn)誤可以判斷評分的穩(wěn)定程度。從表3 中的寬嚴(yán)程度指標(biāo)來看,所有綜合評分組評分者在這個指標(biāo)的分值都為正,因此說明評分存在過于寬松的現(xiàn)象。
偏差程度,或偏差診斷指標(biāo)(misfit diagnosis)由OUTFIT 和INFIT 卡方指標(biāo)來進行評價。其中,OUTFIT 對位于兩端的成績比較敏感,而INFIT 則對所有成績等級中存在的偏差現(xiàn)象比較敏感,可以診斷成績中不可預(yù)期的復(fù)雜特性。如果OUTFIT 和INFIT 分?jǐn)?shù)在0.5 和1.5 之間,則說明成績比較合理;如果分?jǐn)?shù)高于1.5,則說明在某個成績段上存在評分偏差,而如果分?jǐn)?shù)低于0.5,則可能說明評分者沒有用所有的分?jǐn)?shù)段進行評分。結(jié)果顯示,綜合評分組評分者ID 01 和ID 06 的偏差程度超出了可接受的范圍,說明評分偏差過高;而評分者ID 02 的偏差沒有達到可接受的范圍,說明可能沒有使用所有的評分段來進行評分。相比之下,分步評分組評分者的評分結(jié)果卻沒有出現(xiàn)評分偏差過大或過小的現(xiàn)象。
區(qū)分度(item discrimination)考察的是考生的評分成績相對于理想的區(qū)分度之間的偏差程度。區(qū)分度越接近1 越好,表明成績的區(qū)分與檔位相符合,大于1 則說明在某些成績上的區(qū)分度比預(yù)期更高,相比合理區(qū)分度打分更為細(xì)致;而小于1 則說明在某些成績上的區(qū)分度比預(yù)期更低,相比合理區(qū)分度打分較為粗疏。結(jié)果顯示,綜合評分組評分者的評分成績的區(qū)分度較1 的偏差(M =0.29,SD =0.17),相比分步評分組偏差更大(M =0.15,SD =0.10),Cohen’s d=1.15,達到高差異水平。
為了進一步探究兩種評分方法在評分效果上的差異,研究選取了不同評分方法下最終成績爭議較大的試卷進行評分準(zhǔn)確性分析。在挑選爭議卷時,選取兩種評分方法最終得分差值在8 分以上的試卷共94 份,由專家先進行評定。一般認(rèn)為,主觀閱卷雙評的評分差值閾限在滿分的20%以內(nèi)是可接受的。專家閱卷時,并沒有限定具體的評分方式,而是讓專家根據(jù)自己的評分習(xí)慣進行評分。假定專家評分結(jié)果為真分?jǐn)?shù),分別計算綜合評分組和分步評分組成績和專家評分的差異,并且再由分步評分組挑出1 評成績作為比較,其差值視為評分誤差。
結(jié)果發(fā)現(xiàn),綜合評分組的誤差值最高(M=7.11,SD=2.53),分步評分組(M=3.22,SD=2.34)和分步評分組1 評誤差值較小(M=3.51,SD=2.95)。三組間的差異顯著(F=64.12,p <0.001,η2=0.32),而事后檢驗發(fā)現(xiàn)綜合評分組和分步評分組(MD =3.88,p<0.001,Cohen’s d =0.20)以及分步評分1 評成績(MD=3.59,p <0.001)的差異均顯著,然而分步評分組和分步評分1 評成績之間的差異卻不顯著(MD =0.29,p=0.73,Cohen’s d=1.71)。
實驗中,對評分者的評分時間進行了測量。由于評分時間記錄了裝訂了10 至20 份試卷的試卷本為單位,通過求平均計算了在某個試卷本中試卷評分的平均時間;另外,分步評分組試卷在第二階段進行了不同等級的匯總,因此可以相應(yīng)地計算出每個等級卷本的評分時間,并與第一階段相應(yīng)的試卷評分時間進行求和;最后求得500 份試卷在綜合評分組12 評、分步評分組12 評和分步評分1 評中所用的總評分時間進行比較。
結(jié)果發(fā)現(xiàn),綜合評分組的平均用時(秒)較短(M=112.20,SD=23.31),分步評分組的平均用時較長(M=169.49,SD =26.89),而分步評分1 評的總評分時間卻比綜合評分12 評所用的總時間更短(M=91.68,SD=19.59)。三組間的差異顯著(F =1478.82,p <0.001,η2=0.66),而事后檢驗發(fā)現(xiàn)綜合評分組評分效率比分步評分組更高(MD=57.29,p <0.001,Cohen’s d =0.60),但卻不如分步評分1評(MD= -20.52,p <0.001,Cohen’s d=0.17)。
實證結(jié)果顯示,作文題成績的確存在大量評分等級不一致情況。這樣的結(jié)果和往期作文題或其他主觀題成績研究結(jié)果是相互吻合的(關(guān)丹丹,2008;劉遠我,張厚粲,1998;劉紅云,陳閱,駱方,王云峰,2010)。這說明雖然主觀題能更好地反映考生能力,然而對主觀題評分進行控制存在問題。劉紅云等(2010)通過多面Rasch 模型對作文綜合評分模式下評分者的寬嚴(yán)程度和區(qū)分度進行了量化分析,然而現(xiàn)在尚沒有探討作文評分模式的其他實證研究文獻。
通過引入分步增值評分模式進行流程控制(王博等,2012),我們發(fā)現(xiàn)分步評分組相對于傳統(tǒng)綜合評分組的評分分布情況確實存在一些優(yōu)越性,并且12 評的一致性程度也更高。概率曲線結(jié)果進一步表明,分步評分相較于綜合評分的平均值在不同難度上區(qū)分程度更好。這樣的結(jié)果說明,分步增值評分模式是一種有價值的嘗試,或許可以有效解決主觀題(特別是作文題)中的評分質(zhì)量問題。
從各個評分者評分寬嚴(yán)程度、偏差程度和區(qū)分度的角度而言,分步評分組相較于綜合評分組同樣更加優(yōu)越,而綜合評分組某些評分者的偏差程度指標(biāo)則出現(xiàn)過高或過低的異常現(xiàn)象,說明存在評分不穩(wěn)定或者某些分?jǐn)?shù)段數(shù)值太少的不利現(xiàn)象。因此,分步增值評分模式不僅對于總體評分成績有積極影響,對評分者導(dǎo)致評分成績差異的現(xiàn)象或許也可以起到良好的控制作用。然而,為何分步評分組相比綜合評分組在評分者的偏差程度和區(qū)分度層面有更好的控制作用呢?這樣的差異或許來自于主觀題考試對評分尺度的選擇層面。
值得注意的是,我國國家級作文題一般采用15分以上的大量尺評分量表。而陳睿(2011)、關(guān)丹丹等人(2011)的實證研究認(rèn)為大尺度評分量表下評分者間的一致性有待提高。在保持大尺度評分的前提下,分步增值評分模式將難以區(qū)分的評分標(biāo)準(zhǔn)細(xì)化成可控制的等級和檔位尺度,將大尺度評分化簡為不同階段的小尺度評分。如同王博等(2012)文中的介紹,我們的研究結(jié)果證實分步評分優(yōu)化了評分流程且提高了作文評分的質(zhì)量;而評分成績分布的合理性以及對評分者差異性的降低,或許來自對大尺度評分認(rèn)知負(fù)荷和保守打分策略的有效控制(Gilfert & Harada,1992)。
在評分的實用性方面,研究抽取了分步評分1評和綜合評分12 評的情況進行比較。結(jié)果發(fā)現(xiàn)分步評分1 評比綜合評分12 評的誤差程度還要低,而分步評分1 評和分步評分12 評的誤差程度卻不存在顯著差異。然而分步評分單評所用的時間卻要比綜合雙評所用的時間更短。因此,分步增值評分模式不僅是一種更為準(zhǔn)確的評分方式,還是一種更為經(jīng)濟有效的評分策略。
雖然主觀題(特別是作文題)總是存在著評分不一致的問題,然而分步增值評分模式能夠有效的控制評分的質(zhì)量問題。這種新的評分模式相對于傳統(tǒng)綜合評分模式的優(yōu)越性表現(xiàn)在評分成績分布的合理性以及對評分者差異有效控制這兩個層面。其次,分步增值評分模式不僅能降低評分成績的誤差,還能有效提高評分程序的效率,或許可以視為一種更為實用的評分模式。
研究中抽取了500 份作文主觀題答卷,未來可以抽取樣本量更大的答卷來進行分析,并且分別對不同類型主觀題評分成績的情況進行分析。后期訪談中,筆者發(fā)現(xiàn)部分評分者對定級和定檔的標(biāo)準(zhǔn)有時把握不準(zhǔn),也就是在相鄰等級或相鄰檔位水平的試卷評定上有時把握不太穩(wěn)定。如何更好地規(guī)范評分者評分的準(zhǔn)確性也是未來流程設(shè)計需要改進的方向。另外,研究中的評分時間以裝訂試卷本為單位,未來研究或許可以通過網(wǎng)絡(luò)評分手段,對每一份試卷的評分時間進行單獨測量。最后,本次研究并沒有對評分過程中的認(rèn)知加工過程進行深入分析。通過引入與認(rèn)知加工能力相關(guān)的行為測試,或許可以更好地考察認(rèn)知個體差異對試卷評分的影響情況。
陳睿.(2011).國內(nèi)外寫作評分量表的對比研究.考試研究,6,59 -67.
關(guān)丹丹,陳睿,張開,趙靜宇. (2011). 兩種評分量表的評分效應(yīng)比較研究.教育研究與實驗,4,92 -96.
關(guān)丹丹.(2008). 主觀題評分質(zhì)量的估計方法評述.中國考試,10,52 -55.
李中權(quán),孫曉敏,張厚粲,張立松.(2008).多面Rasch 模型在主觀題評分培訓(xùn)中的應(yīng)用.中國考試,1,26 -31.
劉紅云,陳閱,駱方,王云峰. (2010). 學(xué)業(yè)水平測試中作文評分誤差的多面Rasch 分析.心理科學(xué),33(4),925 -927.
劉遠我,張厚粲. (1998). 概化理論在作文評分中的應(yīng)用研究.心理學(xué)報,30,211 -218.
王博,卞冉,車宏生,王蓉. (2012). 主觀評分保守現(xiàn)象的形成機制與控制研究.心理學(xué)探新,32(5),429 -438.
Gilfert,S.,& Harada,K. (1992). Two composition swcoring methods:The analytic vs. holistic method. Bulletin of Faculty of Foreign Languages,1,17 -22.
Johnson,R. L.,Penny,J.,& Gordon,B. (2000). The relation between score resolution methods and interrater reliability:An empirical study of an analytic scoring rubric.Applied Measurement in Education,13,121 -138.
Morgan,G. B.,Zhu,M.,Johnson,R. L.,& Hodge,K. J.(2014). Interrater reliability estimators commonly used in scoring language assessments:A monte carlo investigation of estimator accuracy.Language Assessment Quarterly,11,304 -324.Penny,J. A.,& Johnson,R. L. (2011). The accuracy of performance task scores after resolution of rater disagreement:A Monte Carlo study.Assessing Writing,16,221 -236.