評分人培訓(xùn)的研究現(xiàn)狀及展望

2014-11-28 07:13:42徐鷹曾用強(qiáng)

中國考試 2014年2期

徐鷹曾用強(qiáng)

徐鷹曾用強(qiáng)

評分人培訓(xùn)是保證做事測試分?jǐn)?shù)信、效度的重要方法，一直是國際語言測試界關(guān)注的重點(diǎn)。本文首先從理論框架、培訓(xùn)方法和培訓(xùn)效果等方面對評分人培訓(xùn)研究的現(xiàn)狀進(jìn)行了回顧，然后指出了當(dāng)前研究中的兩個問題：培訓(xùn)過程及內(nèi)容不清楚，培訓(xùn)產(chǎn)生作用的機(jī)制不明確。最后，文章就下一步的研究進(jìn)行了展望，希望能引起我國語言測試工作者對評分人培訓(xùn)的重視。

做事測試；評分人培訓(xùn)；培訓(xùn)效果

1 引言

在語言測試“交際轉(zhuǎn)向”（McNamara，1996;Bachman，2000）的大背景下，做事測試日益受到人們的重視。然而，由于做事測試的評分涉及評分人的主觀判斷，容易產(chǎn)生各種類型的評分人差異（如嚴(yán)厲度、集中趨勢、光環(huán)效應(yīng)等），因此人們常采用評分人培訓(xùn)對評分人效應(yīng)進(jìn)行控制，以保證考試分?jǐn)?shù)的信、效度。盡管測試界普遍認(rèn)為應(yīng)該重視評分人培訓(xùn)研究（Shohamy et al.，1992；Alderson et al.，1995;Bachman 和 Palmer，1996；McNamara，1996；Weir，2005），然而迄今為止對評分人培訓(xùn)的系統(tǒng)研究并不多。正如Weigle（1998）所說，關(guān)于評分人培訓(xùn)的很多問題還不夠清楚，例如培訓(xùn)中到底發(fā)生了什么？培訓(xùn)是如何產(chǎn)生作用的？這些問題都值得深入探討。因此，本文將對評分人培訓(xùn)的理念、方法和效果進(jìn)行梳理，分析當(dāng)前研究中存在的不足，并對下一步的研究方向進(jìn)行展望，以期引起國內(nèi)測試研究者對評分人培訓(xùn)的關(guān)注。

2 不同理論視閾下的評分人培訓(xùn)

Knoch（2009a：19）對其參加DELNA 考試評分人培訓(xùn)的經(jīng)歷進(jìn)行了簡要描述。由于該考試采用的分析性評分標(biāo)準(zhǔn)中包含不少模糊描述語，如文體風(fēng)格要求“a student uses cohesive devices appropri?ately”，因此評分人普遍感到無從下手，只能依賴個人的整體印象。而當(dāng)評分人在一起相互討論范文分?jǐn)?shù)的時候，盡管不少評分人（甚至包括培訓(xùn)負(fù)責(zé)教師）都對范文分?jǐn)?shù)存在異議，但由于缺少分?jǐn)?shù)解釋，只能無奈地接受。Knoch的經(jīng)歷反映了當(dāng)前評分人培訓(xùn)所面臨的問題，其根本原因在于不同理論框架對評分人培訓(xùn)的認(rèn)識不同。

2.1 心理測量學(xué)視閾下的評分人培訓(xùn)

語言測試研究傳統(tǒng)是實(shí)證主義研究范式，采用心理測量學(xué)的方法（何蓮珍、李航，2011）。評分人培訓(xùn)的傳統(tǒng)思路遵循經(jīng)典測試?yán)碚?，認(rèn)為評分人的給分差異是一種可以消除的測量誤差。培訓(xùn)的作用在于最大化評分人間信度，從而盡可能消除評分人之間的差異。這種理念受到不少測試專家的批評（如 Huot，1990；Shohamy，1995；Hamp-Lyons，2007），他們認(rèn)為評分人的個體差異是客觀事實(shí)，一味追求分?jǐn)?shù)一致性終將危害考試效度，其結(jié)果必然促使評分人傾向于關(guān)注考生表現(xiàn)的表層特征（如書寫、卷面等）。這種情況類似于經(jīng)典測試?yán)碚撝械牡窒Ｕ摚↙inacre，1996）。

隨著以Rasch模型為代表的項(xiàng)目反應(yīng)理論的崛起（McNamara和Knoch，2012），人們對評分人培訓(xùn)的認(rèn)識也變得更為深刻。McNamara（1996：127）認(rèn)為培訓(xùn)消除評分人差異既不可行，也不可取。培訓(xùn)的真正目的在于增強(qiáng)評分人的內(nèi)在一致性從而能對評分人行為進(jìn)行統(tǒng)計(jì)建模。不同評分人具有穩(wěn)定特征的差異是一種生活事實(shí)，這種差異可以通過某種方式進(jìn)行分?jǐn)?shù)調(diào)整。同時，McNamara也對培訓(xùn)提出了七個研究問題：（1）在哪些方面評分人存在差異？（2）能否確定不同評分人類型？（3）培訓(xùn)在多大程度上可以影響不同類型評分人？（4）多大培訓(xùn)量才合適？（5）評分人特征是否隨時間變化？（6）如果培訓(xùn)能改變評分人特征的話，那么這種效果能維持多久？（7）多久培訓(xùn)人需要重新接受培訓(xùn)？

2.2 解釋學(xué)視閾下的評分人培訓(xùn)

Moss（1994）認(rèn)為我們可以從解釋學(xué)和心理測量學(xué)雙重路徑對考生表現(xiàn)進(jìn)行辯證分析。解釋學(xué)對人類行為持整體性觀點(diǎn)，從局部入手來理解全局，通過不斷對新證據(jù)的驗(yàn)證（解釋循環(huán)）達(dá)到對整體的連貫解讀。心理測量學(xué)則關(guān)注分?jǐn)?shù)的準(zhǔn)確性（信度），對分?jǐn)?shù)所表征的意義（效度）相對不那么關(guān)心。而分?jǐn)?shù)的效度恰恰是解釋學(xué)的研究核心，因此兩者可以有機(jī)結(jié)合從而提高培訓(xùn)的質(zhì)量。Huot（1993：211）對傳統(tǒng)培訓(xùn)過分注重提高評分人間信度的做法提出了批評，“...rater training...often force raters to ignore their own experiences and expertise when interacting with and judging student writing,thus sacrificing a‘true reading’of a text for a‘reliable’one”。McNamara（1996：127）從解釋學(xué)的角度引用日本電影《羅生門》的情節(jié)也對此進(jìn)行了批駁：四個不同的目擊者對同一事件的描述盡管各不相同，但都貌似真實(shí)。人類行為中充斥了大量這種場景：不存在絕對正確的判斷。因此，人們在判斷考生能力時必須考慮不同評分人的共性和差異。因此，評分人培訓(xùn)不僅應(yīng)關(guān)注以分?jǐn)?shù)為代表的評分結(jié)果，也應(yīng)關(guān)注分?jǐn)?shù)所代表的意義和評分人的給分過程。

3 評分人培訓(xùn)的基本內(nèi)容

Weir（2005：190）認(rèn)為，培訓(xùn)是一個旨在訓(xùn)練評分人前后一致地使用評分標(biāo)準(zhǔn)的系統(tǒng)過程，包括對培訓(xùn)環(huán)境、培訓(xùn)類型、培訓(xùn)監(jiān)控、分?jǐn)?shù)監(jiān)控以及評分反饋等各種因素的考慮。

3.1 培訓(xùn)目的

人們普遍認(rèn)為評分人培訓(xùn)的目的在于幫助評分人熟悉測試內(nèi)容并掌握評分標(biāo)準(zhǔn)。通過培訓(xùn)，評分人能夠?qū)λ鶞y量的構(gòu)念、考生行為的不同等級、各等級所對應(yīng)的評分標(biāo)準(zhǔn)和描述語、評分標(biāo)準(zhǔn)種類以及任務(wù)難度等達(dá)成共識，但實(shí)際上評分人往往在嚴(yán)格培訓(xùn)之后還存在差異（Elbow和Yancey，1994;Lumle 和 McNamara，1995；Kondo-Brown，2002;O’Sullivan 和Rignall，2007）。Lumley（2005：63）明確指出，評分的根本矛盾在于不同人在不同語境下寫的不同文本要用同一個標(biāo)準(zhǔn)化的量表來評價(jià)，因此只有通過培訓(xùn)才可以建構(gòu)評分共同體，實(shí)現(xiàn)不同評分人對文本的共同解讀。從社會認(rèn)知視角看，培訓(xùn)旨在提高評分人的評分技能（評分人在一段時間內(nèi)保持高水平評分質(zhì)量的能力）。培訓(xùn)屬于影響評分過程的外部環(huán)境因素，能夠影響到評分人對文本意象的評估。培訓(xùn)的核心目標(biāo)應(yīng)該要強(qiáng)化評分人作為評分社區(qū)成員的集體意識，并促使評分人將自己的工作經(jīng)驗(yàn)、培訓(xùn)經(jīng)歷同評分行為真正融合。

3.2 培訓(xùn)方法

3.2.1評分人培訓(xùn)的傳統(tǒng)做法

Bachman和Palmer（1996：222）詳細(xì)描述了傳統(tǒng)培訓(xùn)的六步驟：（1）評分人共同閱讀并討論評分標(biāo)準(zhǔn)；（2）評分人共同研究事先由專家評閱的考生表現(xiàn)樣本，并討論專家分?jǐn)?shù)；（3）評分人對另外一組樣本評分，并討論各自給分同專家給分的區(qū)別；（4）評分人繼續(xù)對新的一組樣本評分并討論；（5）每位評分人獨(dú)立對同一組樣本評分，檢查給分一致性和時間；（6）選拔評分可靠且高效的評分人。在此基礎(chǔ)上，Weigle（2002：130）和 Luoma（2004：177）分別對寫作和口語考試評分培訓(xùn)的內(nèi)容和方法進(jìn)行了詳細(xì)描述。此外，Lumley（2002）認(rèn)為，培訓(xùn)不是一勞永逸的。在每一次評分周期之前，必須對評分人進(jìn)行重新培訓(xùn)。

新技術(shù)的廣泛使用對評分人培訓(xùn)的內(nèi)容和方法帶來了巨大改變，其中最突出的是計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和MFRM統(tǒng)計(jì)方法。

3.2.2基于計(jì)算機(jī)網(wǎng)絡(luò)的評分人培訓(xùn)

隨著計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)不斷成熟，傳統(tǒng)紙筆形式的評分人培訓(xùn)也逐漸過渡為基于網(wǎng)絡(luò)的評分人培訓(xùn)。在線評分人培訓(xùn)具有以下顯著優(yōu)點(diǎn)：一是培訓(xùn)材料獲取靈活方便，二是評分人可自主監(jiān)控其評分表現(xiàn)并隨時調(diào)整。以Elder和Knoch為代表的澳大利亞和新西蘭的測試學(xué)者們對DELNA考試的評分人在線培訓(xùn)方法進(jìn)行了深入研究。圖1簡單介紹了DELNA考試在線評分人培訓(xùn)系統(tǒng)（Elder et al.，2007：44）。評分培訓(xùn)采用附有給分評語的25篇標(biāo)準(zhǔn)范文，培訓(xùn)系統(tǒng)完全模擬面對面培訓(xùn)情景。首先，評分人輸入賬號和密碼登入系統(tǒng)，系統(tǒng)主頁指向四種不同的學(xué)術(shù)英語寫作提示的pdf文件。然后，評分人選擇某個寫作提示，系統(tǒng)相應(yīng)出現(xiàn)評分表、評分標(biāo)準(zhǔn)以及評分人培訓(xùn)指令。接著，評分人依次對隨機(jī)出現(xiàn)的25篇作文給分。在每篇作文給完分后，系統(tǒng)將評分人給分同標(biāo)準(zhǔn)分對比，同時將結(jié)果顯示在給分界面底部。評分人可以看到自己給分和標(biāo)準(zhǔn)分的差異。最后，評分人可以對給分差異在系統(tǒng)上寫下評語，也可以閱讀專家對標(biāo)準(zhǔn)分的給分評語。

廣西與越南陸海相通，居于中國—東盟的地理中心，在我國面向東盟的經(jīng)貿(mào)合作格局中享有極為明顯的區(qū)位優(yōu)勢與非常重要的戰(zhàn)略意義。與廣西一河之隔的越南則是東盟經(jīng)濟(jì)發(fā)展?jié)摿薮蟮闹匾蓡T國，極有可能成為21世紀(jì)全球新的制造中心。根據(jù)商務(wù)部的相關(guān)統(tǒng)計(jì)，廣西檢驗(yàn)檢疫局簽發(fā)往越南的中國—東盟自貿(mào)區(qū)優(yōu)惠原產(chǎn)地證書在全國檢驗(yàn)檢疫系統(tǒng)中居首位。

圖1 DELNA考試在線評分人培訓(xùn)系統(tǒng)

Elder et al.（2007）對評分人對在線培訓(xùn)方法的反應(yīng)進(jìn)行了研究，前、后測的MFRM結(jié)果表明評分人評分信度、內(nèi)部一致性略有提高，偏誤數(shù)量略有減少，問卷結(jié)果顯示大部分評分人對這種培訓(xùn)方法持肯定態(tài)度。Knoch et al.（2007）從嚴(yán)厲度、內(nèi)在一致性、集中趨勢、光環(huán)效應(yīng)以及顯著偏誤等方面詳細(xì)對比了傳統(tǒng)面對面培訓(xùn)和在線培訓(xùn)的效果，結(jié)果顯示兩種方法都能有效降低評分人效應(yīng)，面對面培訓(xùn)對減少嚴(yán)厲度差異更有效，而在線培訓(xùn)對減少光環(huán)效應(yīng)更有效；由于面對面培訓(xùn)結(jié)合了個性化反饋，對評分人減少各種偏差更有效。此外，問卷和訪談結(jié)果發(fā)現(xiàn)培訓(xùn)效果同評分人對培訓(xùn)方式的態(tài)度存在一定程度相關(guān)。

3.2.3基于MFRM分析的個性化反饋信息

個性化反饋是培訓(xùn)中常用的一種手段，其目的在于幫助評分人診斷自己的評分行為，從而提高評分人的準(zhǔn)確性。由于MFRM能夠從嚴(yán)厲度、一致性、偏差等多角度對評分人個體的評分行為進(jìn)行參數(shù)估算，因此在語言測試研究中得以廣泛使用，MFRM分析結(jié)果也常作為反饋信息提供給評分人。針對以MFRM結(jié)果為反饋信息的實(shí)證研究主要包括以下幾項(xiàng)。

Wigglesworth（1993）對澳大利亞的ACCESS 考試的口語評分人提供了MFRM偏差分析結(jié)果，結(jié)果發(fā)現(xiàn)評分人能有效吸收反饋信息，但是由于個性化反饋和培訓(xùn)同時進(jìn)行，因此難以確定評分人評分質(zhì)量提高的原因。Lunt et al.（1994）復(fù)制了 Wiggles?worth的研究并增加了一個對照組，結(jié)果發(fā)現(xiàn)實(shí)驗(yàn)組的給分偏差略好于對照組。Hoskens和Wilson（2001）對美國GSE考試的作文評分人提供基于MFRM結(jié)果的反饋，結(jié)果發(fā)現(xiàn)評分人實(shí)驗(yàn)組和對照組在評分質(zhì)量上沒有明顯差異。Elder et al.（2005）的研究發(fā)現(xiàn)對反饋信息（包括嚴(yán)厲度、一致性和偏差）持肯定態(tài)度的評分人更容易在評分過程中吸收反饋的內(nèi)容。O’Sullivan 和 Rignall（2007）在對IELTS作文評分人培訓(xùn)時提供了MFRM偏差分析結(jié)果，但是沒有發(fā)現(xiàn)實(shí)驗(yàn)組評分人的差異有顯著降低，盡管這些評分人對反饋持肯定態(tài)度。因此，他們認(rèn)為一次性反饋信息作用不明顯，今后的研究需要在一段時間內(nèi)研究系統(tǒng)性提供反饋信息的作用。Knoch（2011）對OET考試的19位口語和寫作評分人提供了基于MFRM結(jié)果的反饋，發(fā)現(xiàn)提供反饋信息不會對評分人的評分質(zhì)量產(chǎn)生顯著差異，且口語評分人和寫作評分人在吸收反饋內(nèi)容上沒有顯著差異。

以上實(shí)證研究對個性化反饋效果得出了不一致的結(jié)論，其原因可能在于以下幾個方面：首先，研究方法上大都沒有采用嚴(yán)格的實(shí)驗(yàn)控制，且大部分研究只提供一次性反饋，很難觀察到評分人的變化。由于評分人內(nèi)化反饋信息是一個反復(fù)嘗試的過程，因而一次性反饋?zhàn)饔糜邢?。其次，反饋?nèi)容局限于作為評分終端產(chǎn)品的分?jǐn)?shù)，而對評分人的認(rèn)知過程沒有研究，沒有像DELNA在線培訓(xùn)系統(tǒng)一樣給出標(biāo)準(zhǔn)分?jǐn)?shù)的理據(jù)，從而影響了反饋效果。

3.3 培訓(xùn)效果

語言測試界對評分人培訓(xùn)的效果持有兩個基本觀點(diǎn)。

第一，培訓(xùn)具有一定的效果，其作用在于調(diào)和由于評分人背景產(chǎn)生的差異，并最終調(diào)整評分人期望，從而減少乃至消除評分人差異。如果沒有培訓(xùn)，評分信度和效度將無法得到保證。不少實(shí)證研究（Sweedler-Brown，1993；Song和 Caruso，1996）都發(fā)現(xiàn)培訓(xùn)過的二語寫作教師和英語專業(yè)教師在作文評分上存在差異，他們對內(nèi)容、修辭特征和語言等維度的重視程度不同。Weigle（1994,1998）對培訓(xùn)效果進(jìn)行了系統(tǒng)研究，發(fā)現(xiàn)培訓(xùn)能使評分人對評分標(biāo)準(zhǔn)的理解更清晰、能修正評分人期望、能幫助評分人給出可預(yù)測的分?jǐn)?shù)。Weigle（1999）用定量定性結(jié)合的方法研究了培訓(xùn)對評分人和考題交互的效果，發(fā)現(xiàn)培訓(xùn)能消除新手和老手在不同考題上的嚴(yán)厲度差異。McNamara（1996）對幾項(xiàng)關(guān)于培訓(xùn)效果的實(shí)證研究（Shohamy et al.，1992；McIntyre，1993；Weigle，1994；Lumley和McNamara，1995）進(jìn)行了歸納，認(rèn)為培訓(xùn)能提高評分人自我一致性，減少隨機(jī)誤差；其次，培訓(xùn)無法消除評分人的嚴(yán)厲度差異，因此，有必要對不同嚴(yán)厲度的評分人進(jìn)行分?jǐn)?shù)調(diào)整，常用的手段包括采用雙人評分以及用MFRM進(jìn)行評分人分?jǐn)?shù)調(diào)整等。同時，由于存在評分人特征的時間漂移現(xiàn)象（Congdon和McQueen，2000），因此有必要定期培訓(xùn)并標(biāo)定評分人特征。

4 當(dāng)前研究的不足

上述分析表明目前評分人培訓(xùn)研究重點(diǎn)在于確定培訓(xùn)效果，對下面兩個問題認(rèn)識不夠。首先，培訓(xùn)過程及內(nèi)容不清楚。眾多文獻(xiàn)對培訓(xùn)過程的介紹籠統(tǒng)且模糊，很少有文獻(xiàn)公開描述具體某個考試評分培訓(xùn)的過程。人們仿佛認(rèn)為培訓(xùn)的流程是一種不言自明的事實(shí)。培訓(xùn)的各方面交代不清，如培訓(xùn)人（誰來組織培訓(xùn)？）、培訓(xùn)內(nèi)容（培訓(xùn)內(nèi)容是什么？評分策略要不要培訓(xùn)？）、培訓(xùn)方法（有沒有安排評分人討論？有沒有提供反饋？不同方法產(chǎn)生的效果是否不同？）和培訓(xùn)時間（一次培訓(xùn)還是反復(fù)培訓(xùn)？）等問題。這些問題是對McNamara（1996）提出的七個培訓(xùn)問題的進(jìn)一步思考，需要基于評分人行為研究的成果才能回答。

其次，不同培訓(xùn)手段產(chǎn)生作用的機(jī)制仍不明確。眾多研究都關(guān)注培訓(xùn)能否提高評分質(zhì)量以及評分產(chǎn)生什么效果，但是很少有研究探討產(chǎn)生這種效果的機(jī)制和原因。這個現(xiàn)象體現(xiàn)了大部分文獻(xiàn)只報(bào)告培訓(xùn)結(jié)果、忽略培訓(xùn)過程的特點(diǎn)，到目前為止只有Weigle（1994）利用有聲思維對評分人的思維過程變化進(jìn)行了研究。以培訓(xùn)常用手段之一的反饋為例，當(dāng)前研究主要討論不同方式和內(nèi)容的反饋是否能有效提高評分質(zhì)量。然而，評分人如何理解、內(nèi)化和使用不同形式的反饋內(nèi)容的研究仍然欠缺。在反饋信息內(nèi)容上，絕大多數(shù)現(xiàn)有研究都采用MFRM統(tǒng)計(jì)分析結(jié)果（如嚴(yán)厲度、一致性和偏差）。鑒于MFRM軟件的專業(yè)性，評分人如何處理這種反饋信息值得進(jìn)一步探討。結(jié)合現(xiàn)有的評分人研究的基礎(chǔ)，我們可以提出如下問題：不同類型評分人在內(nèi)化基于MFRM反饋信息上是否存在差異？這種差異是否又會影響培訓(xùn)效果？除了常用的MFRM結(jié)果，反饋內(nèi)容還可以包括哪些信息？不同評分人對不同反饋信息處理上是否存在差異？

5 未來研究方向

通過以上對培訓(xùn)研究現(xiàn)狀的分析，我們認(rèn)為下一步的研究應(yīng)注意以下四個方面的內(nèi)容：

（1）評分人培訓(xùn)研究應(yīng)該以評分人行為研究為基礎(chǔ)，強(qiáng)調(diào)心理測量學(xué)和解釋學(xué)視角的對立和統(tǒng)一。傳統(tǒng)培訓(xùn)理念以心理測量學(xué)為基礎(chǔ)，認(rèn)為評分人差異本質(zhì)是一個信度問題，評分人給分同標(biāo)準(zhǔn)分的差異說明評分人沒有掌握好評分標(biāo)準(zhǔn)。而解釋學(xué)則認(rèn)為評分人差異是一個效度問題，評分人差異是對所測構(gòu)念深刻認(rèn)識的必備條件。從本質(zhì)上而言，評分不僅是一個信度問題，也是一個效度問題（Bejar，2012；Crisp，2012；Myford，2012），涉及評分人對所測構(gòu)念的理解是否一致。要保證考試分?jǐn)?shù)的信、效度，培訓(xùn)的指導(dǎo)原則就必然要綜合兩種理論視角。理論框架的變化也就決定了培訓(xùn)重點(diǎn)應(yīng)從只關(guān)注分?jǐn)?shù)轉(zhuǎn)變?yōu)榉謹(jǐn)?shù)和評分過程并重，尤其應(yīng)關(guān)注評分人行為的變化，重點(diǎn)應(yīng)討論通過培訓(xùn)新手是否能夠掌握老手所常用的評分策略（Cum?ming et al.，2002）。

（2）在研究方法上應(yīng)該采用定性和定量結(jié)合的混合方法，強(qiáng)調(diào)不同方法的互補(bǔ)，提高研究的信度和效度。在定量分析上，由于MFRM能夠?qū)⒍鄠€面（如考生、評分人、任務(wù)、評分標(biāo)準(zhǔn)）在同一洛基量尺上進(jìn)行分析，已經(jīng)成為研究評分人行為的主流，其中偏頗分析（bias analysis）功能在評分人培訓(xùn)得到了廣泛運(yùn)用。在定性分析上，由于在培訓(xùn)中對評分人決策分析必然要理解評分人的思維過程，應(yīng)采用有聲思維（Ericsson和Simon，1984）為代表的質(zhì)性研究方法。盡管有聲思維面臨真實(shí)性（veridicality）和反應(yīng)性（reactivity）兩方面的批評（Barkaoui，2011），但語言測試界主流觀點(diǎn)還是認(rèn)為有聲思維數(shù)據(jù)是可信和有效的，其中Wolfe（1997）觀點(diǎn)最為激進(jìn)，認(rèn)為有聲思維數(shù)據(jù)能表征實(shí)際評分過程，可以考慮作為培訓(xùn)手段和選拔評分人的標(biāo)準(zhǔn)。此外，其他定性分析方法也應(yīng)加以充分利用，如反思性報(bào)告和小組訪談（Milanovic et al.，1996）、概念圖法（concept mapping）（Papajohn，2002）、write aloud（Baker，2012）以及受激回憶（Gass和Mackey，2000）等。

（3）培訓(xùn)內(nèi)容應(yīng)體現(xiàn)個體差異，注意行為驅(qū)動（自下而上）培訓(xùn)模式和圖式驅(qū)動（自上而下）培訓(xùn)模式（Eckes，2008）的差別，對不同考試、不同評分標(biāo)準(zhǔn)以及不同類型的評分人應(yīng)采用個性化培訓(xùn)模式。大量實(shí)證研究發(fā)現(xiàn)評分人的評分風(fēng)格和決策類型具有多樣化特征，但是目前各類考試的培訓(xùn)基本上采用統(tǒng)一的模式，沒有照顧不同類型評分人的需求，因此有必要研究多大程度上培訓(xùn)對不同類型評分人產(chǎn)生了影響，以及產(chǎn)生這種影響的原因。此外，不同類型評分標(biāo)準(zhǔn)對于培訓(xùn)效果的影響值得深入研究。評分標(biāo)準(zhǔn)本身就能對評分人行為進(jìn)行標(biāo)準(zhǔn)化（Shaw和Weir，2007），是評分的必要組成，不同類型的評分標(biāo)準(zhǔn)對評分人培訓(xùn)的效果也必然不同。Weigle（2002）、Weir（2005）明確提出分析性量表比整體性量表更有助于提高培訓(xùn)效果。而Knoch（2009b）則認(rèn)為，基于實(shí)驗(yàn)數(shù)據(jù)開發(fā)的評分量表比基于直覺式開發(fā)的量表更有效，在培訓(xùn)中可以考慮采用基于實(shí)驗(yàn)數(shù)據(jù)開發(fā)的評分量表。這些論斷仍需實(shí)證研究加以驗(yàn)證。

（4）鑒于計(jì)算機(jī)輔助評卷已經(jīng)成為不少大規(guī)模高風(fēng)險(xiǎn)考試（如高考、大學(xué)英語四、六級考試、英語專業(yè)四、八級考試等）的主要閱卷方式，有必要深入研究網(wǎng)閱環(huán)境下的評分人培訓(xùn)和傳統(tǒng)紙筆培訓(xùn)模式的異同。除上文介紹的DELNA考試在線評分人培訓(xùn)系統(tǒng)外，國外兩大測試機(jī)構(gòu)已經(jīng)推出了帶有評分人培訓(xùn)功能的網(wǎng)上評閱系統(tǒng)：如ETS的OSN系統(tǒng)（在線評分網(wǎng)絡(luò)）和UCLES的ESM系統(tǒng)（電子文本評分系統(tǒng)）。評閱方式的改變必將為評分人培訓(xùn)帶來新的研究話題，因此如何結(jié)合大規(guī)模評分?jǐn)?shù)據(jù)改進(jìn)評分人培訓(xùn)效果、建立有效的評分反饋機(jī)制值得深入探討。

[1]Alderson,C.,Clapham,C.&Wall,D.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.

[2]Bachman,L.F.Modern language testing at the turn of the century:Assuring that what we count counts[J].Language testing,2000,17(1):1-42.

[3]Bachman,L.F.&A.S.Palmer.Language Testing in Practice[M].Oxford University Press,1996.

[4]Baker,B.A.Individual differences in rater decision-making style:An exploratory mixed-methods study[J].Language Assessment Quarterly,2012,9:225-248.

[5]Barkaoui,K.Think-aloud protocols in research on essay rating:An empirical study of their veridicality and reactivity[J].Language Testing,2011,28(1):51-75.

[6]Bejar,I.I.Rater cognition:Implications for validity[J].Educational Measurement:Issues and Practice,2012,31(3):2-9.

[7]Crisp,V.An investigation of rater cognition in the assessment of projects[J].Educational Measurement:Issues and Practice,2012,31(3):10-20.

[8]Congdon,P.J.&J.McQueen.The stability of rater severity in Large-scale assessment programs[J].Journal of Educational Mea?surement,2000,37(2):163-178.

[9]Cumming,A.,R.Kantor and D.E.Powers.Decision making while rating ESL/EFL writing tasks:A descriptive framework[J].The Modern Language Journal,2002,86(1):67-96.

[10]D?rnyei,Z.Individual differences in second language acquisition[J].Aila Review,2006,19(1):42-68.

[11]Eckes,T.Rater types in writing performance assessments:A clas?sification approach to rater variability[J].Language Testing,2008,25(2):155-185.

[12]Eckes,T.Operational rater types in writing assessment:Linking rater cognition to rater behavior[J].Language Assessment Quarter?ly,2012,9(3):270-292.

[13]Elbow,P.&K.B.Yancey.On the nature of holistic scoring:An in?quiry composed on email[J].Assessing Writing,1994,1(1):91-107.

[14]Elder,C.,U.Knoch,G.Barkhuizen&J.Von Randow.Individual feedback to enhance ratertraining:Does it work?[J].Language As?sessment Quarterly,2005,2(3):175-196.

[15]Elder,C.,G.Barkhuizen,U.Knoch&J.von Randow.Evaluating rater responses to an online training program for L2 writing assess?ment[J].Language Testing,2007,24(1):37-64.

[16]Ericsson,K.A.&H.A.Simon.Protocol Analysis[M].MIT press,1984.

[17]Gass,S.M.&A.Mackey.Stimulated Recall Methodology in Sec?ond Language Research[M].Routledge,2000.

[18]Hamp-Lyons,L.Worrying about rating[J].Assessing Writing,2007,12(1):1-9.

[19]Hoskens,M.&M.Wilson.Real-Time feedback on rater drift in Constructed-Response items:Anexample from the Golden State Examination[J].Journal of Educational Measurement,2001,38(2):121-145.

[20]Huot,B.The literature of direct writing assessment:Major con?cerns and prevailing trends[J].Review of Educational Research,1990,60(2):237-263.

[21]Huot,B.The influence of holistic scoring procedures on reading and rating student essays[A].In M.M.Williamson&B.A.Huot(eds).Validating Holistic Scoring for Writing Assessment:Theoreti?cal and Empirical Foundations[C].Cresskill,NJ:Hampton Press,Inc.,1993.

[22]Knoch,U.Diagnostic Writing Assessment:The Development and Validation of a Rating Scale[M].Peter Lang Pub Incorporated,2009a.

[23]Knoch,U.Diagnostic assessment of writing:A comparison of two rating scales[J].Language Testing,2009b,26(2):275-304.

[24]Knoch,U.Investigating the effectiveness of individualized feed?back to rating behavior：A longitudinal study[J].Language Test?ing,2011,28(2):179-200.

[25]Knoch,U.,J.Read&J.von Randow.Re-training writing raters online:How does it compare with face-to-face training?[J].As?sessing Writing,2007,12(1):26-43.

[26]Kondo-Brown,K.A FACETS analysis of rater bias in measuring Japanese second language writing performance[J].Language Test?ing,2002,19(1):3-31.

[27]Linacre,J.M.True-score reliability or Rasch statistical validity[J].Rasch Measurement Transactions,1996,9(4):455.

[28]Lumley,T.Assessment criteria in a large-scale writing test:What do they really mean to the raters?[J].Language Testing,2002,19(3):246-276.

[29]Lumley,T.Assessing Second Language Writing[M].Peter Lang,2005.

[30]Lumley,T.&T.F.McNamara.Rater characteristics and rater bias:Implications for training[J].Language Testing,1995,12(1):54-71.

[31]Luoma,S.Assessing Speaking[M].Ernst Klett Sprachen,2004.

[32]Lunt,H.,Morton,J.&Wigglesworth,G.Rater behaviour in perfor?mance testing:Evaluating the effect of bias feedback[P].Paper presented at 19th Annual Congress of the Applied Linguistics As?sociation of Australia,Melbourne,1994.

[33]McIntyre,P.The Importance and Effectiveness of Moderation Training on the Reliability of Teacher Assessments of ESL Writ?ing Samples[D].Unpublished MA thesis,University of Mel?bourne,1993.

[34]McNamara,T.F.Measuring Second Language Performance[M].Longman London,1996.

[35]McNamara,T.F.&U.Knoch.The Rasch wars:The emergence of Rasch measurement in language testing[J].Language Testing,2012,29(4):555-576.

[36]Milanovic,M.,N.Saville&S.Shuhong.A study of the decisionmaking behaviour of composition markers[A].In Milanovic,M.&Saville,N.(eds).Performance Testing,Cognition and Assessment[C].Cambridge:UCLES/Cambridge University Press,1996.

[37]Moss,P.A.Can there be validity without reliability?[J].Educa?tional researcher,1994,1(1):109-128.

[38]Myford,C.M.Rater cognition research:Some possible directions for the future[J].Educational Measurement:Issues and Practice,2012,31(3):48-49.

[39]O'Sullivan,B.&M.Rignall.Assessing the value of bias analysis feedback to raters for the IELTS Writing Module[A].In L.Taylor&P.Falvey(eds).IELTS Collected Papers:Research in Speaking and Writing Assessment[C].Cambridge:Cambridge University Press,2007.

[40]Papajohn,D.Concept mapping for rater training[J].TESOL Quar?terly,2002,36(2):219-233.

[41]Sakyi,A.A.Validation of holistic scoring for ESL writing assess?ment:How raters evaluate composition[A].In A.J.Kunnan(ed.).Fairness and Validation in Language Assessment:Selected Papers from the 19th Language Testing Research Colloquium,Orlando,Florida[C].Cambridge:Cambridge University Press,2000.

[42]Shaw,S.D.&C.J.Weir.Examining Writing:Research and Prac?tice in Assessing Second Language Writing[M].Cambridge Uni?versity Press,2007.

[43]Shohamy,E.Performance assessment in language testing[J].An?nual review of applied linguistics,1995,15:188-211.

[44]Shohamy,E.,C.M.Gordon and R.Kraemer.The effect of raters'background and training on the reliability of direct writing tests[J].The Modern Language Journal,1992,76(1):27-33.

[45]Smith,D.Rater judgments in the direct assessment of competen?cy-based second language writing ability[J].Studies in immigrant English language assessment,2000,1:159-189.

[46]Song,B.&I.Caruso.Do English and ESL faculty differ in evaluat?ing the essays of native English-speaking and ESL students?[J].Journal of Second Language Writing,1996,5(2):163-182.

[47]Sweedler-Brown,C.O.ESL essay evaluation:The influence of sen?tence-level and rhetorical features[J].Journal of Second Lan?guage Writing,1993,2(1):3-17.

[48]Vaughan,C.Holistic assessment:What goes on in the rater's mind[A].In Liz Hamp-Lyons(ed.).Assessing Second Language Writing in Academic Contexts[C].Ablex Publishing Corporation,1991.

[49]Weigle,S.C.Effects of training on raters of ESL compositions[J].Language Testing,1994,11(2):197-223.

[50]Weigle,S.C.Using FACETS to model rater training effects[J].Language Testing,1998,15(2):263-287.

[51]Weigle,S.C.Investigating rater/prompt interactions in writing as?sessment:Quantitative and qualitative approaches[J].Assessing Writing,1999,6(2):145-178.

[52]Weigle,S.C.Assessing Writing[M].Ernst Klett Sprachen,2002.

[53]Weir,C.J.Language Testing and Validation[M].Palgrave Mac?millan Houndmills,Basingstoke,2005.

[54]Wigglesworth,G.Exploring bias analysis as a tool for improving rater consistency in assessing oral interaction[J].Language Test?ing,1993,10(3):305-319.

[55]Wolfe,E.W.The relationship between essay reading style and scoring proficiency in a psychometric scoring system[J].Assess?ing Writing,1997,4(1):83-106.

[56]何蓮珍，李航.語言測試的主要研究范式及其發(fā)展趨勢[J].浙江大學(xué)學(xué)報(bào)(人文社會科學(xué)版),2011(10):31-39.

Rater Training in Language Assessment:Present and Future

XU Ying and ZENG Yongqiang

Rater training is generally viewed as a crucial method to ensure reliability and validity of the given score in the performance assessment,which has attracted public attention from a number of researchers in the international language testing circle.This article first reviews rater training studies in term of theoretical framework,training methods and training effects.Then it points out two under-researched issues:the vagueness of content and procedure of rater training,and the unknown nature of rater training mechanism.Finally,suggestions for future research are discussed.It is hoped that rater training will receive more attention from researchers at home.

Performance Assessment;Rater Training;Training Effects

G405

1005-8427(2014)02-0010-9

徐鷹，男，華南理工大學(xué)外國語學(xué)院，講師，博士（廣州 510641）

曾用強(qiáng)，男，廣東外語藝術(shù)職業(yè)學(xué)院，院長，博士，教授（廣州 510641）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

評分人培訓(xùn)的研究現(xiàn)狀及展望

1 引言

2 不同理論視閾下的評分人培訓(xùn)

2.1 心理測量學(xué)視閾下的評分人培訓(xùn)

2.2 解釋學(xué)視閾下的評分人培訓(xùn)

3 評分人培訓(xùn)的基本內(nèi)容

3.1 培訓(xùn)目的

3.2 培訓(xùn)方法

3.2.1評分人培訓(xùn)的傳統(tǒng)做法

3.2.2基于計(jì)算機(jī)網(wǎng)絡(luò)的評分人培訓(xùn)

3.2.3基于MFRM分析的個性化反饋信息

3.3 培訓(xùn)效果

4 當(dāng)前研究的不足

5 未來研究方向