徐 鷹
(華南理工大學(xué)外國語學(xué)院,廣東廣州 510641)
CET-4作文評分人評分標(biāo)準(zhǔn)使用情況的研究
徐 鷹
(華南理工大學(xué)外國語學(xué)院,廣東廣州 510641)
本研究采用混合研究法對CET-4作文評分人如何使用評分標(biāo)準(zhǔn)進(jìn)行分析。26位CET-4作文評分人對30篇CET-4模擬作文評分,并提供3條按重要性排序的評分理由。研究結(jié)果顯示:(1)雖然存在嚴(yán)厲度的差異,但是26位評分人之間的一致性比較好,且大部分評分人的自身一致性也較好。(2)部分評分人的評分理由呈現(xiàn)了單一化趨勢。(3)評分人所給評分理由的71.91%體現(xiàn)了CET-4作文評分標(biāo)準(zhǔn)所規(guī)定的5個(gè)文本特征,說明大部分評分人對標(biāo)準(zhǔn)的理解和把握還是比較準(zhǔn)確的。
CET-4作文評分標(biāo)準(zhǔn);混合研究法;評分理由
CET-4寫作測試采用的是總體評分法,即用一個(gè)分?jǐn)?shù)和不同層級的描述語來表征寫作質(zhì)量[1]。雖然Charney[2]、Elbow[3]等人對總體評分法的主觀性提出了質(zhì)疑,但由于其具有較高的信度和效度、較強(qiáng)的可操作性等優(yōu)點(diǎn)[4],還是得到了廣泛肯定和運(yùn)用。在這種評分模式下,閱卷質(zhì)量除了受客觀因素(如評分標(biāo)準(zhǔn))的影響,同時(shí)還取決于評分人的主觀判斷,即評分人所給分?jǐn)?shù)是否反映了文本特征[5]。因此,對評分人的研究歷來也是語言測試研究的核心內(nèi)容之一。本文擬在前人研究[6-7]的基礎(chǔ)上,探討CET-4作文評分人對評分標(biāo)準(zhǔn)的理解和使用情況,具體回答以下兩個(gè)問題:(1)CET-4作文評分人給分一致性如何?(2)CET-4作文評分人所給評分理由能否反映評分標(biāo)準(zhǔn)?
來自廣州市9所高校的26位CET-4作文評分人在2012年7月CET-4作文閱卷期間參與了本研究。他們都通過了當(dāng)次CET-4作文閱卷培訓(xùn),且都教授大學(xué)英語課程,擁有碩士及以上學(xué)位。評分人平均年齡為32.96歲(SD=3.80),平均教齡為9.35年(SD=4.10),平均參加CET-4作文改卷次數(shù)為8.15次(SD=3.93)。為方便操作,以ri(i=1,2,…,26)的方式來標(biāo)識評分人。
來自廣州某大學(xué)的200名大一非英語專業(yè)學(xué)生參加了本研究,他們都沒有參加2012年6月的CET-4考試,筆者擔(dān)任他們的大學(xué)英語任課教師。首先,在這次CET-4考試結(jié)束后第三天的課堂教學(xué)中,要求學(xué)生就作文題目“On Excessive Packaging”寫一篇隨堂作文。然后,筆者按照CET-4作文評分標(biāo)準(zhǔn)對作文進(jìn)行了初評。最后,根據(jù)初評分進(jìn)行隨機(jī)分層抽樣,從200篇作文中選擇了30篇作文作為研究材料。這30篇作文涵蓋了2分檔(0~3分)、5分檔(4~6分)、8分檔(7~9分)、11分檔(10~12分)和14分檔(13~15分)等5個(gè)評分等級。
研究工具有CET-4作文評分標(biāo)準(zhǔn)[8]以及評分理由編碼框架。CET-4作文評分標(biāo)準(zhǔn)要求評分人從以下5個(gè)文本特征給分:切題、表達(dá)思想的清晰性、語篇的連貫性、語言表達(dá)的準(zhǔn)確性、篇幅及完整度。在Shi評分理由編碼方案[9]324-325的基礎(chǔ)上,筆者制定了本研究的評分理由編碼草案,經(jīng)過3輪實(shí)驗(yàn)和多次修正,最終確定了能對所有評分人的評分理由進(jìn)行歸類的評分理由編碼框架。接著還邀請了一名語言測試方向的博士研究生對7位評分人(占總評分人數(shù)的26.92%)的評分理由進(jìn)行編碼。在她所編碼的606條評分理由中,不同編碼人之間的信度(intercoder reliability)達(dá)到了95.71%,從而驗(yàn)證了該編碼框架的可靠性。
閱卷工作第一天主要是對評分人進(jìn)行培訓(xùn),因此本研究在閱卷開始后第二天進(jìn)行。30篇作文復(fù)印后隨機(jī)排序,并在第二天工作結(jié)束時(shí)分發(fā)給評分人。評分人在第二天晚上給全部作文評分,同時(shí)按重要性順序?yàn)槊科魑奶峁?條評分理由,所有材料要求在第三天工作開始前交回。相較于有聲思維法,提供評分理由的方法相對更為簡單,容易操作,有利于搜集更多的樣本。
由于可以在同一洛基量尺(logit scale)上對所有層面(如考生、評分人)進(jìn)行建模,多層面Rasch模型(Multi-faceted Rasch Model)在做事測試中的培訓(xùn)效果研究、評分人偏頗性研究以及量表效度驗(yàn)證等方面得到了廣泛的運(yùn)用[10-12]。本研究采用FACETS 3.58軟件[13]進(jìn)行數(shù)據(jù)分析,構(gòu)建的數(shù)學(xué)模型包括評分人、考生兩個(gè)層面,這兩個(gè)層面可用下面數(shù)學(xué)模型表示:
其中Pijk表示評分人j給考生i打k分?jǐn)?shù)的概率;Pijk-1表示評分人j給考生i打k-1分?jǐn)?shù)的概率;Bi是考生i的寫作能力;Cj是評分人j的嚴(yán)厲度;Fk是k分?jǐn)?shù)相對于k-1分?jǐn)?shù)的難度。
SPSS 18.0軟件的統(tǒng)計(jì)結(jié)果顯示26位評分人的Cronbach ɑ值為0.991,說明參加研究的評分人間一致性非常好,其主要原因在于參加此次實(shí)驗(yàn)的大部分評分人的閱卷經(jīng)驗(yàn)豐富。
多層面Rasch模型分析結(jié)果顯示:26位評分人的嚴(yán)厲度存在顯著差異,最嚴(yán)格的評分人r15(0.90 logits)和最寬松的評分人r18(-1.00 logits)之間相差1.90 logits。全體評分人的平均嚴(yán)厲度為0.00 logits(SD=0.39)。12位評分人的嚴(yán)厲度高于平均值,14位評分人的嚴(yán)厲度低于平均值。Knoch指出,如果評分人的嚴(yán)厲度在平均值±0.50 logits之外,則可以認(rèn)為其顯著偏嚴(yán)或偏松[14]。因此r15、r10和r11顯著偏嚴(yán),r25、r18顯著偏松,其他21位評分人的嚴(yán)厲度適中(見表1)。
表1 評分結(jié)果統(tǒng)計(jì)
表1的第4列是加權(quán)均方擬合度(Infit MnSq),顯示的是評分人自身一致性。McNamara建議其可接受的取值范圍在平均值±2SD之間[15],因此本研究設(shè)定取值區(qū)間為(0.38,1.46):大于1.46的評分人評分出現(xiàn)不擬合(misfit),即評分人自身一致性較差;小于0.38的評分人的評分出現(xiàn)過度擬合(overfit),即評分人的評分沒有區(qū)分考生的差異,可能存在集中趨勢。除r20外其他所有評分人的加權(quán)均方擬合度均在合理范圍內(nèi),說明絕大部分評分人自身一致性較好。此外,表1的第5列標(biāo)準(zhǔn)Z值也可作為判斷自身一致性的依據(jù),Z>2為顯著不擬合,而Z<-2為過度擬合[16]。所有評分人中只有r20出現(xiàn)了過度擬合,這進(jìn)一步驗(yàn)證了上述結(jié)論。
表1的最后一列數(shù)據(jù)顯示,26位評分人的點(diǎn)二列相關(guān)系數(shù)(PtBis)介于0.84至0.96之間(Mean=0.91,SD=0.03),沒有出現(xiàn)典型的隨機(jī)效應(yīng),在可接受的范圍內(nèi)[17]208。但r18的點(diǎn)二列相關(guān)系數(shù)(0.84)低于平均值-2SD(0.85),說明該評分人的評分具有一定隨機(jī)性,在使用某些分?jǐn)?shù)段時(shí)其評分有明顯不一致的地方,導(dǎo)致其對部分考生的分?jǐn)?shù)高低排序與其他評分人有顯著差別。分隔信度(0.87)和卡方分析(χ2=176.50,df=25,p=0.00)說明評分人的嚴(yán)厲度有顯著差異。分隔比率(2.54)說明評分人的嚴(yán)厲度差異比測量誤差大2倍多。按照Myford&Wolfe的分離指數(shù)計(jì)算公式(4G+1)/3,其中G為分隔比率[17]196,可算出分隔指數(shù)為3.72,說明評分人的嚴(yán)厲度大約可分為4個(gè)不同層次。
以上分析說明,雖然26位評分人之間的一致性較好,且大部分評分人的自身一致性也較好,但也存在一些個(gè)別問題,如r20的評分出現(xiàn)過度擬合,而r18的評分具有一定隨機(jī)性。
由于評分人對CET-4作文評分標(biāo)準(zhǔn)理解和把握存在差異,容易導(dǎo)致分?jǐn)?shù)相同但評分理由不同,而評分理由編碼分析可以在一定程度上揭示這種差異。
1.評分理由編碼框架概述
評分人評分理由編碼框架包括6個(gè)大類和15個(gè)小類,具體見表2。
表2 CET-4作文評分人評分理由編碼框架
2.評分理由編碼的描述性統(tǒng)計(jì)
因?yàn)橛猩贁?shù)評分人沒有對每篇文章給足3條評分理由,所以26位評分人對30篇作文共提出了2104條評分理由,低于理想值(2340),其描述性統(tǒng)計(jì)見表3。
表3 評分理由編碼的描述性統(tǒng)計(jì)
表3的第2列是評分理由1(即最重要的評分理由),B3(論證)數(shù)量最多(407條)。第4列是評分理由2,D3(準(zhǔn)確度)數(shù)量最多(246條)。第6列是評分理由3,D3(準(zhǔn)確度)的數(shù)量也是最多(309條)。在全部2104條評分理由中,語言大類(D)出現(xiàn)頻數(shù)最多(1102),占比最高(52.38%);而準(zhǔn)確度(D3)在小類中出現(xiàn)頻數(shù)最多(681),占比最高(32.37%)。這個(gè)結(jié)論也印證了前人研究的結(jié)果:英語為非母語評分人在作文評分時(shí)更關(guān)注語言形式,尤其是語言的準(zhǔn)確性[9]312[18]。
卡方分析顯示,3條評分理由在5個(gè)大類上(由于F類頻數(shù)太少,無法做統(tǒng)計(jì)分析)有顯著差異(χ2=438.10,df=8,p=0.000)。且3 條評分理由在 B 類(χ2=351.21,df=2,p=0.000)、C 類(χ2=21.26,df=2,p=0.000)、D 類(χ2=84.39,df=2,p=0.000)和 E 類(χ2=14.31,df=2,p=0.001)上都有顯著差異。
3.評分人的評分理由與CET-4評分標(biāo)準(zhǔn)的契合度分析
就評分人個(gè)體而言,評分人提供的主要評分理由占比情況的描述性統(tǒng)計(jì)見表4。
表4 評分人主要評分理由占自己全部評分理由的百分比
由表4可見:(1)就評分人個(gè)體而言,B類、C類和D類總占比的平均值達(dá)到了93.15%(SD=4.83),全體評分人中該值最小的r7也達(dá)到了85.06%,說明全部評分人的評分理由都集中分布在B類、C類和D類。(2)B類和D類總占比在全體評分人中最小的r14達(dá)到了62.12%,且B類和D類總占比的平均值高于B類和C類,而B類和D類總占比的標(biāo)準(zhǔn)差低于B類和C類,說明相較于B類和C類,全部評分人的評分理由更集中分布在B類和D類。(3)r3的評分理由中沒有出現(xiàn)B類和C類,而D類則有94.52%;r12的D3類占比為93.33%;在r22所提出的全部評分理由中,B3類占比為66.67%,同時(shí)B3是其唯一的B類評分理由。這些結(jié)果都說明部分評分人的評分理由呈現(xiàn)標(biāo)準(zhǔn)單一化趨勢,即所謂的評分還原主義(reductionism)[19]。
圖1是B類和D類評分理由分布散點(diǎn)圖。由圖1可見,20位評分人(76.92%)的評分理由中D類占比高于40%,而11位評分人(42.31%)的評分理由中B類占比高于40%。上述現(xiàn)象的主要原因如下:首先,評分人都是有多年經(jīng)驗(yàn)的、母語為非英語的大學(xué)英語教師,在教學(xué)中接觸大量語言錯誤,對語言錯誤特別敏感;其次,參與本研究的學(xué)生的二語能力還不高,尤其是寫作等產(chǎn)出性能力,因而語言準(zhǔn)確性能較有效地區(qū)分學(xué)生。
圖1 B類和D類理由分布散點(diǎn)圖
在本研究中,與CET-4作文評分標(biāo)準(zhǔn)相關(guān)特征對應(yīng)的評分理由編碼頻數(shù)為1513條(71.91%),這說明大體上評分人能按照CET-4作文評分標(biāo)準(zhǔn)所規(guī)定的文本特征評分,但仍有超過1/4的評分理由同評分標(biāo)準(zhǔn)不相關(guān),典型例子如論證的創(chuàng)新性、套用模版等(見表5)。張潔對13位CET-4評分人的有聲思維的文本編碼研究也得出了類似結(jié)論[20]。這種評分標(biāo)準(zhǔn)不相關(guān)特征對測試的效度構(gòu)成威脅,同時(shí)也間接說明CET-4作文評分標(biāo)準(zhǔn)作為一個(gè)基于專家直覺和經(jīng)驗(yàn)開發(fā)的量表,需要不斷進(jìn)行效度驗(yàn)證并在相關(guān)研究基礎(chǔ)上加以改進(jìn)。
表5 評分理由編碼與CET-4作文評分標(biāo)準(zhǔn)相關(guān)特征的對應(yīng)
對于以上研究結(jié)果,有兩個(gè)問題值得進(jìn)一步思考:
第一,考慮到大部分評分人經(jīng)驗(yàn)豐富,為什么還會出現(xiàn)28.09%的與CET-4作文評分標(biāo)準(zhǔn)不相關(guān)的評分理由呢?Pula&Huot[21]的觀點(diǎn)值得參考:評分人豐富的評分經(jīng)驗(yàn)已經(jīng)幫助評分人建構(gòu)了一套內(nèi)在標(biāo)準(zhǔn),多年的評分實(shí)踐已經(jīng)證明了這套標(biāo)準(zhǔn)的有效性。然而,仍有必要立足實(shí)證研究結(jié)果對CET-4作文評分標(biāo)準(zhǔn)進(jìn)一步加以完善。
第二,為什么在有部分評分理由與CET-4作文評分標(biāo)準(zhǔn)不完全契合的情況下,大部分評分人評分的嚴(yán)厲度和自身一致性仍然在可接受范圍之內(nèi)呢?我們認(rèn)為最重要的原因還是在于總體評分標(biāo)準(zhǔn)本身。首先,CET-4作文評分采用印象分,主觀性較強(qiáng),因此評分理由的差異和分?jǐn)?shù)理解的歧義不可避免[22]。Lumley認(rèn)為,即使評分人盡可能按照評分標(biāo)準(zhǔn)來評分,但還是會受到對文本初次閱讀時(shí)的復(fù)雜直覺心理意象的影響,而這種影響難以用評分標(biāo)準(zhǔn)消除[23]。最終評分人是按照他們的感覺對文本的心理意象進(jìn)行評分,而不是按照評分標(biāo)準(zhǔn)的規(guī)定進(jìn)行評分;而且在實(shí)際評分工作中,由于評分人工作壓力大,且每天要完成一定的評分量,這種情況就更明顯。其次,F(xiàn)reedman&Calfee的作文評分信息加工模型[24]說明,評分人在閱讀文本時(shí)建構(gòu)了文本的心理意象并儲存在工作記憶中,而文本質(zhì)量的評判就是對文本的心理意象評分。每個(gè)評分人對同一文本產(chǎn)生不同的心理意象,故而給出不同的評分理由。再次,該現(xiàn)象也間接說明評分人采用了某些與CET-4作文評分標(biāo)準(zhǔn)不相關(guān),但與語言能力相關(guān)的評分理由(比如語言的多樣性),這在某種程度上能夠有效區(qū)分考生。因此,修改評分標(biāo)準(zhǔn)時(shí)應(yīng)考慮對這些特征作出明確界定。
本研究以26位CET-4作文評分人為研究對象,系統(tǒng)分析了他們對評分標(biāo)準(zhǔn)的理解和使用情況,主要發(fā)現(xiàn)有:(1)雖然評分人之間存在嚴(yán)厲度的差異,但是26位評分人之間的一致性比較好,且大部分評分人的自身一致性也較好。(2)部分評分人的評分理由反應(yīng)了內(nèi)在評分標(biāo)準(zhǔn)單一化的問題。(3)全部評分理由中有71.91%體現(xiàn)了CET-4作文評分標(biāo)準(zhǔn)所規(guī)定的5個(gè)文本特征,說明大部分評分人對標(biāo)準(zhǔn)的理解和把握還是比較準(zhǔn)確的。對于上述不一致問題,還需要通過進(jìn)一步加強(qiáng)評分人培訓(xùn)(尤其是對分?jǐn)?shù)意義的培訓(xùn))和不斷完善評分標(biāo)準(zhǔn)(如增加評分標(biāo)準(zhǔn)描述語、充實(shí)對不同評分檔位的定義)來解決。未來的研究可以繼續(xù)深入討論如何將評分人按照評分理由分成不同決策類型,以及如何處理評分標(biāo)準(zhǔn)不相關(guān)的評分理由。
[1]Hamp-Lyons L.Scoring procedures for ESL contexts[C]//Hamp-Lyons L.Assessing Second Language Writing in Academic Contexts.Norwood,New Jersey:Ablex Publishing Corporation,1991:241-276.
[2]Charney D.The validity of using holistic scoring to evaluate writing:A critical review[J].Research in the Teaching of English,1984(1):65-81.
[3]Elbow P.Ranking,evaluating,and liking:Scoring out three forms of judgment[J].College English,1993(2):187-206.
[4]Weigle S C.Assessing Writing[M].Cambridge:Cambridge University Press,2002.
[5]DeRemer M.Writing assessment:Raters’elaboration of the rating task[J].Assessing Writing,1998(1):7-29.
[6]鄒申,楊任明.他們?nèi)绾问褂脤懽髟u分標(biāo)準(zhǔn)?——TEM4新老評分員調(diào)查[J].國外外語教學(xué),2002(3):1-6.
[7]徐鷹.不同性別評分人差異的實(shí)證研究[J].外語測試與教學(xué),2013(3):16-24.
[8]楊惠中,Weir C.大學(xué)英語四、六級考試效度研究[M].上海:上海外語教育出版社,1998.
[9]Shi L.Native and nonnative-speaking EFL teachers’evaluation of Chinese students’English writing[J].Language Testing,2001(3).
[10]Weigle S C.Using FACETS to model rater training effects[J].Language Testing,1998(2):263-287.
[11]Kondo-Brown K.A FACETSanalysis of rater bias in measuring Japanese second language writing performance[J].Language Testing,2002(1):3-31.
[12] Knoch U.Diagnostic Writing Assessment:The Development and Validation of a Rating Scale[M].Berlin:Peter Lang,2009.
[13]Linacre J M.A User’s Guide to FACETS:Rasch-model Computer Program[M].Chicago:Chicago MESA Press,2005.
[14]Knoch U.Investigating the effectiveness of individualized feedback to rating behavior——A longitudinal study[J].Language Testing,2011(2):179-200.
[15]McNamara T.Measuring Second Language Performance[M].Harlow,Essex:Pearson Education,1996.
[16]李清華,孔文.TEM-4寫作新分項(xiàng)式評分標(biāo)準(zhǔn)的多層面Rasch模型分析[J].外語電化教學(xué),2010(1):19-25.
[17]Myford C M,Wolfe E W.Detecting and measuring rater effects using Many-faceted Rasch measurement:Part II[J].Journal of Applied Measurement,2004(2).
[18]Connor-Linton J.Looking behind the curtain:What do L2 composition ratings really mean? [J].TESOL Quarterly,1995(4):762-765.
[19]Rezaei A R,Lovorn M.Reliability and validity of rubrics for assessment through writing[J].Assessing Writing,2010(1):18-39.
[20]張潔.評分過程與評分員信念——評分員差異的內(nèi)在因素研究[D].廣州:廣東外語外貿(mào)大學(xué),2009.
[21]Pula J J,Huot B A.A model of background influences on holistic raters[C]//Williamson M M,Huot B A.Validating Holistic Scoring for Writing Assessment:Theoretical and Empirical Foundations.Cresskill,NJ:Hampton Press,1993:237-265.
[22]Knoch U.Diagnostic assessment of writing:A comparison of two rating scales[J].Language Testing,2009(2):275-304.
[23]Lumley T.Assessment criteria in a large-scale writing test:What do they really mean to the raters? [J].Language Testing,2002(3):246-276.
[24]Freedman S W,Calfee R C.Holistic assessment of writing:Experimental design and cognitive theory[C]//Mosenthal P,Tamor L,Walmsley S A.Research on Writing:Principles and Methods.New York:Longman,1983:75-98.
An Empirical Study on the Raters’Use of CET-4 Essay Rating Scale
XU Ying
(School of Foreign Languages,South China University of Technology,Guangzhou 510641,China)
This paper studies how raters used CET-4 essay rating scale following a mixed-methods approach.Twenty-six CET-4 accredited raters were invited to score thirty CET-4 mock essays and then to write and rank three reasons for their ratings.It was found that,although raters were different as regards severity,the inter-rater reliability was high and nearly all raters were internally consistent.Besides,some raters reduced the rating scale to certain criterion.Finally,71.91%coded rating reasons could be grouped under the five text features delineated by CET-4 essay rating scale,which indicated that most raters’understanding and utilization of the rating scale were accurate.
CET-4 essay rating scale;mixed-methods approach;reasons for ratings
H319.3 < class="emphasis_bold">文獻(xiàn)標(biāo)識碼:A文章編號:
2095-2074(2014)02-0039-08
2013-12-27
課題項(xiàng)目:2013年廣東省高等教育教學(xué)改革項(xiàng)目(51)
徐鷹(1979-),男,江西南昌人,華南理工大學(xué)外國語學(xué)院講師,廣東外語外貿(mào)大學(xué)文科基地語言測試專業(yè)2011級博士研究生。