涂穎
寫作測試的評分涉及包含評分員、評分量表、考生、 寫作任務(wù)和評分員培訓(xùn)在內(nèi)的一系列影響因素及其之間的交互作用 (Milanovic & Saville,1996;Weigle,2002;Barkaoui,2008;陸遠,2010)[1-4]。 這些因素及其交互作用的存在導(dǎo)致評分過程和結(jié)果呈現(xiàn)出差異性。在寫作測試中,這種差異很大程度上來自于評分員差異。 Eckes(2008)發(fā)現(xiàn),評分員差異與評分員特征有關(guān),而與考生的表現(xiàn)無關(guān)[5]。 評分員差異導(dǎo)致了評分結(jié)果與真分?jǐn)?shù)的偏離, 因此對寫作測試的信度和效度及考試的公平性構(gòu)成了直接威脅。 寫作評估和教育測量領(lǐng)域的專家普遍認(rèn)為, 評分員培訓(xùn)對于獲得可信的作文考試評分至關(guān)重要。 例如,Weigle(1994)指出,寫作測試評分信效度的核心問題是評分員培訓(xùn);培訓(xùn)幫助評分員界定了評分標(biāo)準(zhǔn),調(diào)整了其對考生和任務(wù)的期望值, 從而提高了評分員之間的一致性[6]。
對作文評分員培訓(xùn)效果的實證研究(Shohamy et al.,1992;Weigle,1994;顏靜蘭,2018)表明,培訓(xùn)能夠減少評分員之間的差異,提高評分一致性[7-9]。 然而, 一 些研究 (Hoyt & Kerns,1999;Barrett,2001;Myford & Wolfe,2000;燕翔宇,2010;張文星、鄒申,2015)[10-14]則揭示出評分員培訓(xùn)在減少評分員差異等方面的效果比預(yù)期要低得多。由此可見,研究者對評分員培訓(xùn)效果尚未達成共識。同時,在對相關(guān)文獻的梳理中發(fā)現(xiàn),許多研究對培訓(xùn)過程的描述十分簡略,使得我們對培訓(xùn)過程到底是如何進行的、 培訓(xùn)又是如何產(chǎn)生作用的等信息知之甚少。
因此,基于培訓(xùn)效果的爭論及其實證結(jié)果,本文將從評分員培訓(xùn)對評分員差異的積極影響和消極影響兩個方面對相關(guān)文獻進行梳理, 分析當(dāng)前研究存在的不足,并提出進一步的探究方法,以期對今后的研究提供一些參考。
大量研究者對評分員培訓(xùn)持積極態(tài)度 (如Jacobs et al.,1981;Charney,1984;Lumley & McNamara,1995;Wolfe et al.,1999;Elder et al.,2007;Knoch et al.,2007;陸遠,2010)[15-21]。他們認(rèn)為評分員培訓(xùn)有利于調(diào)和由不同專業(yè)背景評分員所造成的評判差異(Jacobs et al.1981)[22]; 有助于評分員更加清晰地理解評分標(biāo)準(zhǔn), 同時有助于鼓勵評分員依照設(shè)定好的標(biāo)準(zhǔn)、 而不是根據(jù)他們自己的標(biāo)準(zhǔn)作出判斷(Charney,1984)[23]; 能通過使評分員熟悉寫作任務(wù)的要求以及不同考生的特征來減少評分員對作文期望值的偏差,提高評分一致性(Elder,2007)[24];可以幫助評分員準(zhǔn)確地理解評分標(biāo)準(zhǔn), 從而減少評分員嚴(yán)厲度的總體差異(陸遠,2010)[25]。
以上觀點在一些實證研究中得到了證明。例如,Shohamy et al.(1992)[26]對比了不同職業(yè)背景和培訓(xùn)情況下的評分員作文打分的可靠性。結(jié)果發(fā)現(xiàn):評分員的職業(yè)背景對評分效果沒有影響, 而評分員是否經(jīng)過訓(xùn)練對評分效果有顯著的影響, 受過培訓(xùn)的評分員比未受培訓(xùn)的評分員評分更可信 (比率分別是0.91-0.93 vs.0.80-0.90)。 這一研究成果突出了評分員培訓(xùn)的重要性,Weigle(1994)[27]對此做了進一步的探索。 Weigle 采取有聲思維和跟進訪談形式對有經(jīng)驗和無經(jīng)驗的評分員(各8 名)在培訓(xùn)前后分別評判相同的作文進行調(diào)查研究, 探討培訓(xùn)對ESL 水平測試作文評分員的影響。 通過對比培訓(xùn)前后各評分員對評分標(biāo)準(zhǔn)中三個子類(內(nèi)容、修辭、語言)的給分差,研究發(fā)現(xiàn),規(guī)范的培訓(xùn)成功地使這些評分員的打分更一致。最后,通過分析4 名評分員在培訓(xùn)前后的有聲思維和跟進訪談內(nèi)容, 總結(jié)了評分員培訓(xùn)的積極效果。 Weigle 表示,培訓(xùn)幫助他們“界定了評分標(biāo)準(zhǔn)(clarification of the rating criteria)、調(diào)整了對考生和任務(wù)的期望值 (revising expectations of examinees and task)、關(guān)注評分員之間一致性(concern for interrater agreement)”。
隨著計算機網(wǎng)絡(luò)的發(fā)展與成熟, 機器評分和網(wǎng)絡(luò)在線培訓(xùn)逐步興起, 并引發(fā)了討論。 Elder et al.(2007)[28]就網(wǎng)絡(luò)評分培訓(xùn)進行了問卷調(diào)查。 結(jié)果表明,網(wǎng)絡(luò)培訓(xùn)對評分員內(nèi)部一致性、評分員嚴(yán)厲度及偏差的影響非常小,只是局限在某些方面。這次研究從側(cè)面證明了面對面培訓(xùn)的重要性, 盡管面對面培訓(xùn)相比網(wǎng)絡(luò)培訓(xùn)而言更耗費時間和金錢, 但仍是較為有效的培訓(xùn)方式。Knoch et al.(2007)[29]則詳細對比了傳統(tǒng)的面對面培訓(xùn)和在線培訓(xùn)在嚴(yán)厲度、 內(nèi)在一致性、集中趨勢、光環(huán)效應(yīng)以及顯著偏誤等方面的效果。 結(jié)果顯示,兩種方式都能有效降低評分員效應(yīng),并且從正面證明了面對面培訓(xùn)由于結(jié)合了個性化反饋,對減少各種偏差更有效。
最近的一項研究(顏靜蘭,2018)[30]證實,培訓(xùn)較大程度上縮小了評分員給分與專家給分之間的差異,能幫助其掌握新的評分標(biāo)準(zhǔn),確保閱卷質(zhì)量。 實驗首先對TEM 評分員進行寫作專項培訓(xùn),包括TEM作文新題型的理解與認(rèn)識、 寫作題目和材料的解讀與分析以及寫作評分標(biāo)準(zhǔn)的培訓(xùn), 再將TEM4 評分員參加專項培訓(xùn)后對一套樣卷的打分情況 (包括給分平均分、集體平均分值差異、個體最大分值差異)與專家給分進行對比。結(jié)果顯示,培訓(xùn)前評分員對第一套樣卷的打分與專家組的評分差距較大, 平均分值差異可達到5-8 分, 個體最大分差可達10 分;經(jīng)過培訓(xùn),集體平均分值差異最大為3 分,個體分值最大差異為4 分,總體情況得到了很大改善。該項研究對培訓(xùn)過程的描述較為詳細, 為評分員培訓(xùn)研究提供了很好的參照。
從上述研究不難看出, 評分員培訓(xùn)提高了評分員之間給分的一致性,降低了評分員效應(yīng),對減少評分員差異產(chǎn)生了積極影響,提高了評分信度。
有學(xué)者對培訓(xùn)的效果持相反觀點。 有些研究人員(如Charney,1984;Huot,1990)認(rèn)為,如果評分員培訓(xùn)的目的是為了達到評分的一致性, 那么所達成的共識很可能只是停留在文章表面,如書寫和拼寫,而不是基于任何實質(zhì)性的標(biāo)準(zhǔn), 寫作質(zhì)量真正的優(yōu)劣往往被忽略[31,32]。 Barritt et al.(1986)同樣提出擔(dān)憂, 一味強調(diào)對評分員進行培訓(xùn)以達成共識會迫使他們忽略自己在評判文章方面所積累的經(jīng)驗和專業(yè)知識[33]。 Vaughan(1991)指出,不管如何培訓(xùn),評分員依舊會關(guān)注不同的文本特征并形成不同的評分內(nèi)化標(biāo)準(zhǔn)[34]。
以上觀點在一些實證研究中也得到了印證。Vaughan(1991)采取有聲思維研究受過培訓(xùn)的評分員使用整體評分法評閱作文的心理過程, 確定了一些獨特的閱讀策略或閱讀風(fēng)格,如“第一印象主導(dǎo)風(fēng)格 (first-impression-dominates style)”、“兩類別風(fēng)格(two-category style)”、只關(guān)注結(jié)構(gòu)和語法的“語法導(dǎo)向風(fēng)格(grammar-oriented style)”等,并得出結(jié)論:盡管經(jīng)過相同的培訓(xùn), 不同的評分員依舊關(guān)注不同的文章要素,并可能存在閱讀文章的個性化方式[35]。 與之相似,Eckes(2008)使用李克特四級量表考察了64名受過培訓(xùn)的托??荚噷懽鞑糠衷u分員對評分標(biāo)準(zhǔn)各個維度,如流利性、完整性和語法正確性等的重視度。 多面Rasch 分析表明,評分員對各標(biāo)準(zhǔn)的重要性看法有很大不同。 而后,通過雙模聚類技術(shù)(a twomode clustering technique)凸現(xiàn)了6 種不同類型的評分員。 其中四種類型是根據(jù)評分員對評分標(biāo)準(zhǔn)中某一項目給予高度重視而命名, 分別是: 句法至上型(Syntax Type)、準(zhǔn)確度至上型(Correctness Type)、結(jié)構(gòu)至上型 (Structure Type)、 流利度至上型(Fluency Type)評分員。 另外兩種類型則根據(jù)評分員對標(biāo)準(zhǔn)中某一項目的忽視而命名, 即非流利型 (Non-fluency Type)和非論證型(Non-argumentation Type)評分員。因此,正如Eckes 所說,評分員遠沒有將他們的注意力均衡地分布在一套評分標(biāo)準(zhǔn)中[36]。 Winke & Lim(2015)引入眼動追蹤技術(shù)(eye-tracking technology)更加直觀地證明了這一點。 研究通過記錄9 名受過培訓(xùn)的評分員使用分項評分量表評閱40 篇作文時的眼動數(shù)據(jù)表明,并非每個子類別(內(nèi)容、結(jié)構(gòu)、詞匯、語言使用、書寫)都受到了同等的關(guān)注,具體表現(xiàn)為評分員對結(jié)構(gòu)和內(nèi)容兩個維度最為關(guān)注, 而對書寫的關(guān)注最少[37]。Eckstein et al.(2019)同樣使用眼動追蹤技術(shù),探究5 名受過培訓(xùn)的TESOL 英語教師在評閱L1 和L2 寫作時的評分行為差異。 結(jié)果表明,評分員有意地閱讀L1 文本的修辭、組織和語法,而忽略L2 文本的語法。 這表明評分員對文本的關(guān)注點存在明顯的偏向;同時說明,即使經(jīng)過培訓(xùn),評分員對不同考生背景的文本仍然表現(xiàn)出不同的評閱風(fēng)格[38]。
此外,越來越多的相關(guān)研究表明,即使經(jīng)過嚴(yán)格的培訓(xùn),評分員之間的嚴(yán)厲度仍然存在顯著的差異。Weigle (1998) 利用基于項目反應(yīng)理論的多層面Rasch 模型(Many-Facet Rasch Model,MFRM)分析發(fā)現(xiàn), 盡管經(jīng)過培訓(xùn)后大多數(shù)評分員的一致性有所改善,評分員之間的嚴(yán)厲度仍然存在顯著差異[39]。 張文星、鄒申(2015)和李美娟、劉紅云(2015)同樣運用多層面Rasch 模型對大規(guī)模英語考試作文評分員的評分?jǐn)?shù)據(jù)進行分析,二者的實驗結(jié)果均表明,評分員在寬嚴(yán)度方面存在顯著差異[40,41]。 可見,評分員培訓(xùn)效果似乎又不盡如人意。
基于相關(guān)文獻就評分員培訓(xùn)對評分員差異的影響進行了回顧。整體而言,評分員培訓(xùn)的研究在近四十年取得了豐碩成果。 盡管評分員培訓(xùn)效果的研究結(jié)論不一, 但評分員培訓(xùn)目前仍是寫作測試人工評分的必經(jīng)環(huán)節(jié), 也是最常見的減少評分員差異的重要途徑,其目的在于增強評分員一致性,提高測試信效度,保證考試公平性。 因此,評分員培訓(xùn)研究無論對于施測者還是受測者均有重要意義。
研究得出的評分員培訓(xùn)效果不一, 其原因可能在于以下幾點:
首先, 使用的評分標(biāo)準(zhǔn)不同。 如有的研究 (如Vaughan,1991)使用的是整體性評分標(biāo)準(zhǔn)[42],而有的研究(Weigle,1994)使用的是分析性評分標(biāo)準(zhǔn)[43]。 按照Weigle(2002)和Weir(2005)的說法,分析性量表比整體性量表更有助于提高培訓(xùn)效果[44,45]。由此可見,評分標(biāo)準(zhǔn)不一,培訓(xùn)效果有別也就不足為奇。
第二,在內(nèi)容方面大多關(guān)注培訓(xùn)后評分寬嚴(yán)度、一致性和偏差的變化, 對培訓(xùn)后的評分過程是如何影響評分結(jié)果的,尚不明確,如培訓(xùn)前后關(guān)注焦點的變化。
第三,在培訓(xùn)方法上,多采取統(tǒng)一的集中培訓(xùn)模式,忽略了評分員在閱讀方式、決策風(fēng)格、認(rèn)知特點等方面的個體差異,因此可能抵消培訓(xùn)效果。
最后,在培訓(xùn)效果評估方面,大多是從統(tǒng)計學(xué)的角度出發(fā), 如采用Rasch 模型對評分結(jié)果進行統(tǒng)計分析。Rasch 模型的輸出數(shù)據(jù)雖能較為全面地診斷評分員在評分中所存在的問題, 卻無法提供更為直觀且有針對性的反饋。
此外, 盡管在寫作評估的文獻中對評分員培訓(xùn)的討論頗多, 但培訓(xùn)是如何使評分員就評分達成一致的, 評分員培訓(xùn)又是如何影響評分過程等方面的研究相對較少。 早在Weigle1998 年的研究中就強調(diào), 僅僅能夠為考生的表現(xiàn)分配一個更準(zhǔn)確的數(shù)字是不夠的, 除非我們確定這個數(shù)字代表了被測試能力的更準(zhǔn)確的定義[46]。 徐鷹、曾用強同樣認(rèn)為,評分員培訓(xùn)“不僅應(yīng)關(guān)注以分?jǐn)?shù)為代表的評分結(jié)果,也應(yīng)關(guān)注分?jǐn)?shù)所代表的意義和評分人的給分過程”[47]。 這就意味著, 未來評分員培訓(xùn)研究應(yīng)更多地將關(guān)注點放在培訓(xùn)過程上, 通過對比培訓(xùn)前后評分員的決策過程來探究培訓(xùn)效果。在研究方法上,未來的研究可以引入眼動追蹤技術(shù),該技術(shù)具有實時追蹤優(yōu)勢,能夠生動、清晰地記錄評分員評分過程的眼動軌跡,為評分員決策過程研究提供直接的測量工具。 通過眼動指標(biāo)以及注視圖和熱點圖可以驗證與探討評分員培訓(xùn)前后評判關(guān)注點的變化, 進一步揭示培訓(xùn)后評分過程與評分信效度的關(guān)系。此外,利用眼動追蹤技術(shù)能夠為評分員提供直觀而又有針對性的反饋信息,由此最大化培訓(xùn)的積極效果,從而提高閱卷質(zhì)量與考試公平性, 也為寫作教學(xué)與測試提供建設(shè)性的啟發(fā)。