英語寫作評分標準模型的建構(gòu)及其效度研究

2018-11-07 12:13:26吳雪峰柳燁琛

外國語文 2018年5期

吳雪峰柳燁琛殷緣

(南京林業(yè)大學外國語學院，江蘇南京 210037)

0 引言

英語寫作測試包括“獨立型寫作”(independent writing)與“綜合型寫作”(integrative writing)兩種類型。獨立型寫作指考生不依賴其他語言技能(如閱讀)，就給定的話題或圖表等進行寫作。綜合型寫作則要求考生運用其他語言技能(一般為閱讀和聽力)完成寫作任務(wù)，包含讀寫結(jié)合與聽讀寫結(jié)合兩種形式，前者在各類英語考試中的使用頻率遠高于后者。相比獨立型寫作而言，讀寫結(jié)合型寫作更具測試真實性，應(yīng)用更加普遍(Shin et al., 2015)。兩種類型的寫作測試均屬“做事型”測試，具有極強的主觀性，需開發(fā)科學合理、方便操作的評分標準以確保評分質(zhì)量和信度(Becker, 2016)。然而一直以來，在評分標準的開發(fā)方面，國內(nèi)外各類英語考試大多各自為政，評分標準的質(zhì)量參差不齊。本文在回顧、分析和總結(jié)國內(nèi)外主要寫作測試評分標準的基礎(chǔ)上嘗試構(gòu)建“英語寫作測試評分模型”，并以“概要寫作”為例，依據(jù)該模型設(shè)計相應(yīng)的評分標準并通過多層面Rasch模型驗證該評分標準及評分模型的效度，以期為各類英語寫作評分標準的研制提供可參考的操作性框架。

1 英語寫作評分標準概覽

1.1 獨立型寫作評分標準概覽

國內(nèi)方面，高考英語、四、六級(CET-4/CEF6)、研究生入學英語考試(以下簡稱“考研英語”)及全國公共英語等級考試(PETS)等均包含獨立型寫作測試。下面以考研英語和PETS-5考試中的獨立型寫作測試為例，簡要分析其評分標準。限于篇幅，本文在概述各評分標準時僅以評分標準中最高檔的描述語為例。

由表1可知，考研英語寫作評分標準可分為個5維度：寫作內(nèi)容(描述語①)、銜接連貫(描述語④)、語言措辭(描述語②③)、寫作規(guī)范(描述語⑤)，交際效果(描述語⑥)。PETS-5的評分標準則亦分為5個維度：寫作內(nèi)容(描述語①②)、語言措辭(描述語③⑤)、銜接連貫(描述語④)、寫作規(guī)范(描述語⑥)、交際效果(描述語⑦)。PETS-5與考研英語的評分維度整體上完全一致，但在內(nèi)容維度上對寫作的開頭和結(jié)尾提出了具體要求。

表1 考研英語及PETS-5獨立型寫作測試評分標準

國外方面，雅思、托福、劍橋英語考試(Cambridge English，以下簡稱CE)等均包含獨立型寫作測試。下面以雅思和CE-Proficiency為例，簡要分析其獨立型寫作測試的評分標準。

表2 雅思、CE-Proficiency考試獨立型寫作測試評分標準

由表2可知，雅思獨立型寫作評分標準包括四個維度，其中維度C、D是對詞和語法層面的要求，均屬“語言”維度。維度A、B分別側(cè)重寫作內(nèi)容的完整和豐富、句際段際的銜接和連貫。CE-Proficiency的評分標準也分為四個維度，除了與雅思相仿的寫作內(nèi)容、文章結(jié)構(gòu)及語言措辭等維度外，該標準還單獨設(shè)置了“交際效果“維度，強調(diào)寫作內(nèi)容對讀者的影響力和說服力。

綜上所述，寫作內(nèi)容、篇章結(jié)構(gòu)及語言措辭已成為各類獨立型寫作測試評分標準的“常規(guī)”維度。PETS-5及考研英語評分標準均含有對寫作交際效果維度的考查，但其描述語似乎過于抽象和籠統(tǒng)，僅強調(diào)“對目標讀者產(chǎn)生預(yù)期效果”，評分員在評分過程中對此恐難準確解讀。CE-Proficiency的評分標準中亦包含該維度，但其描述語相對更為詳細具體，強調(diào)考生應(yīng)能有效闡釋寫作內(nèi)容中復(fù)雜的觀點，增強寫作內(nèi)容的說服力，使評分員在評分時在該維度上“有法可依”。此外，PETS-5及考研英語評分標準還在寫作格式和語域的恰當使用方面提出了明確要求，而上述兩項國外考試的評分標準均無此要求。

1.2 綜合型寫作評分標準概覽

多語言技能融合的綜合型測試任務(wù)已成為21世紀語言測試的顯著特征之一(金艷等，2013)。目前綜合型寫作測試主要包括如下兩種類別：(1)寫概要,包括“只寫概要”(如上海英語高考)和“寫概要+議論”(如TEM-8、CE-Proficiency)；(2)讀后續(xù)寫(如浙江英語高考)。我們對上述綜合型寫作測試各舉一例簡要介紹和分析其評分標準。

2016年新版TEM-8寫作測試評分標準由三個維度組成，詳見表3。

表3 2016版TEM-8寫作測試評分標準

由表3可知，TEM-8寫作評分標準既包含直接針對“概要”和“議論”的不同寫作要求，又包括同時適用于上述兩個板塊的“共同要求”。對于寫概要環(huán)節(jié)，評分標準聚焦“內(nèi)容闡述”維度，強調(diào)考生文本在主題、中心內(nèi)容及要點覆蓋方面與源材料的吻合度；而“篇章組織”和“語言運用”兩個維度的要求同時針對“概要”和“議論”兩個寫作任務(wù)。

讀后續(xù)寫是將材料的結(jié)尾抹去，讓學生閱讀截留部分，再續(xù)寫和補全內(nèi)容。該題型將語言的模仿與內(nèi)容的創(chuàng)新有機結(jié)合起來，是促學外語最有效的方法之一(王初明, 2015)，2016年首次被納入浙江英語高考。該題型評分原則包含如下幾點：(1) 與所給短文及段落開頭語的銜接程度；(2) 內(nèi)容的豐富性和對所標出關(guān)詞語的應(yīng)用情況；(3) 應(yīng)用語法結(jié)構(gòu)和詞匯的豐富性和準確性；(4) 上下文的連貫性；(5) 拼寫與標點符號的準確性；(6) 書寫是否整潔。讀后續(xù)寫的評分首要關(guān)注學生文本與所讀文本在情節(jié)發(fā)展或內(nèi)部邏輯等層面的銜接程度(教育部考試中心，2015)。此外，評分標準也在傳統(tǒng)的寫作內(nèi)容(第2點)、語言措辭(第3點)、銜接連貫(第4點)、寫作規(guī)范(第5、6點)等方面提出了明確的要求。

由此可見，綜合型寫作測試通過將閱讀與寫作有機結(jié)合的方式測試考生的英語寫作能力，這一特征決定了綜合型寫作測試的評分標準既要突出與自身題型匹配的獨特評分維度，又要包含與獨立型寫作測試相似的“通用型”評分維度，從而構(gòu)成對考生文本進行科學、客觀衡量的全方位、立體化的評分依據(jù)。

2 英語寫作測試評分模型的構(gòu)建

目前，國內(nèi)外英語考試種類繁多，評分標準的制定方法也不盡相同，有的考試借鑒甚至照搬其他考試的寫作評分標準(Perlman, 2013)。鑒于此，本文在梳理和分析各類英語寫作評分標準的基礎(chǔ)上，將“獨立型寫作”與“綜合型寫作”有機結(jié)合，嘗試構(gòu)建了英語寫作測試評分模型(以下簡稱“模型”，如圖1所示，見下頁)，以期對今后寫作評分標準的制定提供可參考的操作性框架。

由圖1可知，模型由兩個版塊組成，分別對應(yīng)獨立型和綜合型寫作測試。綜合型寫作測試評分標準囊括了獨立型寫作評分標準，并提出針對綜合型寫作測試的“特殊”要求。獨立型寫作測試評分標準可分為五個維度，其中寫作內(nèi)容、篇章結(jié)構(gòu)、語言表達為構(gòu)建評分標準時的必選維度，是各類寫作測試評分標準均應(yīng)包含的一般性維度；就“寫作內(nèi)容”維度而言，其具體的能力要求因?qū)懽黧w裁的變化而變化，如議論文強調(diào)論點鮮明，論據(jù)充分，論述有說服力；記敘文則要求考生敘述生動，情節(jié)完整等。“篇章結(jié)構(gòu)”維度考查文章是否脈絡(luò)清晰，段落劃分是否合理，是否前后連貫，銜接自然?！罢Z言表達”維度則在準確度和復(fù)雜度兩個方面要求考生準確運用多樣化的詞匯、句型及語法組構(gòu)知識。“交際效果”和“寫作規(guī)范”為備選維度，可根據(jù)不同寫作形式靈活選用。前者側(cè)重寫作文本對讀者的感染力和說服力，可選用在演說稿、公開信等類型的寫作評分標準中；后者聚焦格式、語域等方面，亦可供編制各類寫作測試評分標準時靈活抽取使用。備選維度納入該模型可使評分標準的制定過程更具動態(tài)性、靈活性，考試開發(fā)者可根據(jù)不同寫作任務(wù)在必選和備選維度中靈活搭配使用。

圖1 英語寫作測試評分模型

對綜合型寫作測試進行評分時，除了考慮獨立型寫作測試的五個維度(3個必選+2個備選)之外，還應(yīng)重點突出以下兩個方面：一是對源材料理解的準確度，判斷考生是否正確解讀給定的閱讀材料，可在“寫作內(nèi)容”維度提出具體要求；二是考查寫作文本與源材料之間的關(guān)系，關(guān)注如下三個方面：要點覆蓋完整度、直接引用源文程度(即是否照抄源文語言)、與源材料的銜接程度(如讀后續(xù)寫)。上述三個方面可分別呈現(xiàn)在“寫作內(nèi)容”“語言表達”及“篇章結(jié)構(gòu)”三個維度。

3 英語寫作評分標準模型的應(yīng)用

依據(jù)上述模型我們設(shè)計了概要寫作評分標準(以下簡稱“標準”)，將其試用于實際評分中，為驗證其效度，我們利用FACETS軟件(3.58.0版)進行多層面Rasch模型(Many-facet Rasch Model，簡稱MFRM)分析。上海某高校英語專業(yè)本科二年級在校生(n=25) 在30分鐘內(nèi)針對一篇約450詞的短文撰寫概要，寫作篇幅要求為100詞左右。評分員共計六人(R1-R6)，均為該校英語語言文學專業(yè)在讀博士生，男性、女性評分員均為三人，平均年齡30.6歲，副教授四人，講師兩人。

3.1 概要寫作評分標準的設(shè)計

概要寫作是在閱讀基礎(chǔ)上考核寫作能力的特殊寫作任務(wù)(吳雪峰，2018)，屬于典型的綜合型寫作測試。根據(jù)圖1中的模型，其評分標準首先應(yīng)關(guān)注獨立型寫作測試的評分維度，寫作內(nèi)容、篇章結(jié)構(gòu)和語言表達是“必選”維度。對于備選維度，鑒于概要寫作僅考查考生對源文的提煉和概括能力，并不具有典型的交際功能，因此交際效果維度可不予采用，也不必關(guān)注“寫作規(guī)范”維度的格式、語域等方面。受試考生采用計算機打印稿提交概要寫作，亦無須考量卷面書寫整潔度。但概要寫作要求考生用規(guī)定的篇幅簡明扼要地闡述源文的主要信息(Sun et al., 2016)?；谶@一構(gòu)念，“寫作規(guī)范”維度中的“寫作篇幅”應(yīng)當納入標準。但考慮到“寫作規(guī)范”中的其他三個方面無需體現(xiàn)在標準中，因此該維度顯得過于單薄，無法與其他維度構(gòu)成平行關(guān)系，故本標準擬規(guī)定在各維度評分結(jié)束后，對未滿足篇幅要求的概要寫作文本酌情扣分。

考慮到概要寫作屬綜合型寫作測試，我們根據(jù)模型在寫作內(nèi)容維度增加了突出概要寫作測試構(gòu)念的描述語，將要點覆蓋完整度及是否直接抄襲源文分別有機融入“寫作內(nèi)容”和“語言表達”兩個維度，起草了概要寫作評分標準初稿。大多數(shù)研究表明分項式評分更適合外語寫作測試(Knoch, 2011; 孫海洋等, 2013; Weigle, 2002),因此本研究亦開發(fā)分項式評分標準，初定滿分為10分，由三個維度組成，各維度均包含三個檔次。概要寫作中的關(guān)鍵技能是從源文中識別和提取重要信息(Kim,2001)，因此“寫作內(nèi)容”維度應(yīng)占據(jù)較大的分值。本研究受試均為EFL學習者，語言表達應(yīng)是與寫作內(nèi)容并駕齊驅(qū)的重要維度；相對而言，篇章結(jié)構(gòu)只能視作次要維度。鑒于此，各維度分值分配方案如下：寫作內(nèi)容與語言表達各4分，篇章結(jié)構(gòu)2分，最終定稿的評分標準見表4。上海英語高考從2017年起增設(shè)概要寫作題型，其評分標準也是迄今高風險英語考試中比較正式的概要寫作評分標準(上海市教育考試院，2017)。與之相比，本研究根據(jù)模型所編制的評分標準同為分項式，但在維度劃分及描述語措辭等方面更加全面和完整，體現(xiàn)了針對大學生受眾群體的更高的寫作要求。

表4 概要寫作評分標準

3.2 效度驗證

MFRM是寫作評分標準效度驗證的重要方法(陳建林, 2016)，可將各層面(即考生、評分者、評分標準等)在共同的logit標尺上進行度量，并計算每個度量值的估算誤差、對模型的擬合程度以及各層面之間可能的交互作用(何蓮珍等，2008)。本文據(jù)此檢驗依據(jù)模型設(shè)計的概要寫作評分標準的效度，聚焦如下兩個方面：(1)評分標準的難度和分值使用；(2)評分員與評分標準之間的偏性交互作用。

3.2.1 總體分析

圖2是各層面的總體分布情況。最左邊一列(Measr)是logit量尺。第2列(raters)表示評分員評分的松嚴度，越往上評分員對應(yīng)的logit值越大，表明其評分越嚴格；反之則評分越寬松。第3列(examinees)表示考生概要寫作的能力，越往上考生的logit值越大，表明其寫作能力越強；反之則越弱。第4列(criteria)表示評分標準三個維度的難度，越往上表明該維度難度越大，考生越不易得高分；反之則難度越低。最后三列(S1、S2、S3)顯示三個維度分值的使用情況。我們可以得到如下幾點結(jié)論：

(1)評分員松嚴度基本呈正態(tài)分布，1號評分員最為嚴格(0.49 logit)，6號評分員給分最松(-0.6 logit)，兩者相差1.09 logits。所有評分員的洛基值分布在±1.0 logit之間，評分員之間一致性較高。

(2)受試層面，考生概要寫作能力基本呈正態(tài)分布，全體考生能力分布全距為5.22 logits(-1.35-3.87)，說明評分標準能較好區(qū)分受試的概要寫作能力。此外，評分員嚴厲度分值全距(1.09 logits)不到考生能力值全距的1/4，表明評分員之間的嚴厲度差異總體不會對考生的成績產(chǎn)生決定性的影響(Myford et al., 2000)

(3)評分維度層面，語言措辭和文章結(jié)構(gòu)兩個維度最難，在這兩個維度上考生較難獲得高分；相對而言，考生在寫作內(nèi)容維度最易獲得高分。

圖2 總層面圖

評分員具有較好的內(nèi)部一致性，原因可能在于所有評分員都是在讀博士研究生，其就讀高校、所在年級和專業(yè)全部一致，對評分標準的理解和把握大致相似，且都在評分前接受了統(tǒng)一培訓(xùn)。但評分員的評分嚴厲度仍有一定差異，這與大部分研究成果(Eckes, 2005; 劉建達, 2010)相似。作為純主觀測試的評分，寫作測試的評分員嚴厲度差異似乎不可避免。語言表達和篇章結(jié)構(gòu)兩個維度難度較大，說明受傳統(tǒng)英語學習和測評習慣的影響，評分員對語言層面的錯誤及文章的內(nèi)部結(jié)構(gòu)非常敏感。概要寫作題型要求考生將大量信息濃縮歸納成數(shù)個最重要的信息點，考生在寫作內(nèi)容方面很大程度上受限于源文的內(nèi)容，一般不會輕易跑題或偏題。此外，本研究中考生為重點高校英語專業(yè)本科生，均能在準確解讀源文的基礎(chǔ)上用自己的話來表達源文的主要內(nèi)容，因此考生在“寫作內(nèi)容”維度上的得分相較其他兩個維度更高。

3.2.2 評分標準層面分析

為進一步驗證評分標準的效度，我們對評分標準及其各維度的數(shù)據(jù)進行了分析。

表5顯示，三個維度分割系數(shù)為5.26，分割信度0.97，卡方值121.5(df=2)，p值為0，說明三個維度的難度存在顯著差異。三個維度的加權(quán)均方擬合統(tǒng)計量(Infit MnSq)均在0.5～1.5的可接受范圍之內(nèi)(Lumley, 2005)，| Z |均小于2，因此不存在過度擬合或非擬合的評分維度，模型擬合較為理想，評分員在這三個維度沒有過多使用某一或某些分數(shù)段(張文星等, 2015)。

表5 評分標準各維度Rasch分析結(jié)果

Separation: 5.26; Reliability: 0.97; Fixed chi-square: 121.5;d.f.: 2; significance: 0.00

FACETS還提供了評分標準三個維度的統(tǒng)計結(jié)果。表6是寫作內(nèi)容維度的統(tǒng)計結(jié)果。

表6 寫作內(nèi)容維度Rasch分析結(jié)果

由表6可知，寫作內(nèi)容維度的2～3分使用頻率最低(9%)，4～7分的使用相對比較均勻，各分值及其所占百分比依次為：4分(23%)、5分(22%)、6分(32%)、7分(17%)，評分不存在顯著的趨中現(xiàn)象。此外，未加權(quán)均方擬合度(Outfit MnSq)可用來判斷評分員是否隨意使用某分值，如Outfit MnSq值大于1.5，則表明評分員非正常地使用了某分數(shù)段(李清華，2010)。表6顯示在2～7各分數(shù)段上均無非擬合項目，評分員未隨意使用任何分數(shù)段。一般來說，分值的Outfit Mnsq>2.0，說明得到該分值的考生其預(yù)測分數(shù)和實際分數(shù)有較大的差距，即該分數(shù)不能準確反映考生水平(Linacre, 1999)。表6中各分數(shù)段Outfit MnSq值均在2以下，這表明評分標準中寫作內(nèi)容維度的各分值均能很好地反映考生在該維度上的實際水平。

其次，在篇章結(jié)構(gòu)維度上，表7顯示：1分、4分的使用頻率最低(5%)，2-3分的使用相對比較均勻，分別為2分(52%)、3分(44%)，不存在顯著的趨中現(xiàn)象。此外，從Outfit MnSq值來看，各分值均無非擬合項目，評分員未隨意使用任何分數(shù)段；各分值能較好地體現(xiàn)考生在該維度上的實際寫作水平。

表7 篇章結(jié)構(gòu)維度Rasch分析結(jié)果

最后，在語言表達維度上，表8顯示：2～3分及八分的使用頻率最低(8%)，4～7分的使用相對均衡，各分值及其所占百分比依次為：4分(17%)、5分(21%)、6分(45%)7分(10%)，不存在顯著的趨中現(xiàn)象。但從Outfit MnSq值看，3分段(即原標準中的1.5分)存在非擬合現(xiàn)象(Outfit MnSq>1.5)可能存在評分員對該分數(shù)段隨意使用的現(xiàn)象，需對分數(shù)段的設(shè)置做進一步的調(diào)整。

表8 語言措辭維度Rasch分析結(jié)果

綜上，標準的三個維度在難度上存在顯著性差異，數(shù)據(jù)與模型擬合較好。在寫作內(nèi)容與篇章結(jié)構(gòu)兩個維度上各分數(shù)段數(shù)據(jù)擬合較好，但語言表達維度的1.5分存在非擬合現(xiàn)象，與模型預(yù)測差異太大，說明評分員對該分數(shù)段的使用比較隨意?？赡苁且驗樵跇藴手?，一、二檔的分值分別為0～1與2～3，1.5分在標準中未能明確予以標出。因此，評分員在評分時對1.5分這一分值可能無法準確把握和使用，需重新劃分檔次并對該分數(shù)段做適當調(diào)整。

3.2.3 評分員與評分標準的偏性交互作用分析

在FACETS中，偏差分析可以幫助我們判斷各個層面之間的交互作用，考察一個層面對另一個層面的影響是否具有統(tǒng)計意義，亦可作為評分標準效度驗證的重要方法(Linacre, 2005)。在Rasch模型中，如果某個交互作用的Z值大于2，則評分員對該維度的評分比對其他維度更為嚴厲；如果Z值小于-2，則說明此評分員在該維度評分更為寬松(劉建達，2010)。評分員與評分標準各維度的偏差項目(empirically biased terms)共18個，表9顯示具有顯著意義的偏性交互作用共三次，約占16%(其中過于嚴厲一次、過于寬松兩次)。2號評分員在語言表達維度上評分過嚴(Z=2.55>2)，而在寫作內(nèi)容維度上評分過松(Z=-2.40<-2)；1號評分員則在篇章結(jié)構(gòu)維度上評分過于寬松(Z=-2.44<-2)?？赡艿脑蛟谟谏鲜鰝€別評分員對評分標準的理解和把握還有所欠缺，需要接受進一步培訓(xùn)，或是評分標準自身在文字表述和內(nèi)部邏輯上存在一些問題，這一點有待通過對評分員采取有聲思維(Think-aloud protocol)或深度訪談的方式進一步加以探究。

表9 具有顯著意義的評分員×評分維度偏性交互作用

Fixed chi-square:40.7;d.f.:18; significance: 0.00

3.3 數(shù)據(jù)分析

MFRM的數(shù)據(jù)分析表明：概要寫作評分標準中，各評分維度的難度存在顯著性差異。FACETS提供的總層面圖及各維度分值使用情況表明：評分標準能夠區(qū)分受試不同的概要寫作水平，具有較好的區(qū)分度。盡管各維度分數(shù)段的使用整體分布不夠平衡，但也未顯示出明顯的評分集中趨勢。此外，評分維度總體分析(表5)及寫作內(nèi)容、篇章結(jié)構(gòu)(表6～7)兩個維度不存在非擬合或過度擬合的情況，但在“語言表達”維度上，3分(原1.5分)的使用存在非擬合現(xiàn)象。在Rasch模型分析中，效度的意義是如果非擬合的情況較少，則有證據(jù)說明該評分標準的效度較高(Wright et al., 1982)，因此總體而言該評分標準具有較好的效度，和一定的推廣價值。但在三個評分維度上評分員與評分標準間均產(chǎn)生了顯著的偏性交互作用，部分評分員對評分標準的理解和把握還有待提高。評分過程是評分員將自己對文本的感知與外在的、概括的評分標準之間達成一致的過程(Lumley, 2005)。為使評分員的主觀理解與統(tǒng)一、客觀的評分標準盡可能地形成吻合，有必要在現(xiàn)有基礎(chǔ)上加強評分員培訓(xùn)，在正式評分前幫助評分員全面理解和消化評分標準。另外，鑒于“語言表達”維度的個別分值使用存在非擬合現(xiàn)象，且“語言措辭”與“寫作內(nèi)容”所占分值完全相同，可在現(xiàn)有基礎(chǔ)上給這兩個維度增加兩個評分檔次，使新標準共由五個檔次組成?！捌陆Y(jié)構(gòu)”維度分值僅為兩分，且Rasch模型分析數(shù)據(jù)顯示該維度各分值使用擬合度很好，因此該維度的檔次和分值分配維持原樣。

原標準中的三個檔次成為新標準中的一、三、五檔，增加的檔次為二檔和四檔，從而將原標準中的分數(shù)段化整為零，對0.5、1.5等非整數(shù)的分數(shù)段的定位和使用予以明確化(圖3)，并對新增加的檔次設(shè)計體現(xiàn)明顯層級差異的描述語，進一步打磨和潤色描述語，以期幫助評分員更加科學合理地使用各分數(shù)段，盡量減少評分中隨意使用某分數(shù)段的非擬合現(xiàn)象，從而進一步提高評分標準的效度。

圖3寫作內(nèi)容、語言措辭維度原標準與新標準分檔情況對照

4 結(jié)語

在語言測試中，制定或者選擇什么樣的評分標準對于由評分員判定結(jié)果的行為測試十分重要(陳建林，2016)，直接關(guān)系到評分質(zhì)量的高低與考試的公平性。在回顧和總結(jié)國內(nèi)外獨立型、綜合型寫作測試的評分標準的基礎(chǔ)上，我們構(gòu)建了寫作能力測試評分模型，并依據(jù)該模型設(shè)計了概要寫作題型的評分標準?；贛FRM的證據(jù)表明評分標準總體而言具有較好的效度，一定程度上可以說明寫作能力測試評分模型是合理、可行的。盡管如此，在設(shè)計和研制英語寫作測試評分標準的過程中，該模型也絕非是唯一的參考，還應(yīng)與其他各種權(quán)威的評分標準研制框架結(jié)合起來(Dawson, 2017)，從而使寫作測試評分標準研制工作有章可循、有法可依。此外，效度驗證是一個持續(xù)性過程，本研究受試規(guī)模較小，僅局限在評分標準及評分員與評分標準的偏性交互作用兩個層面，且只研究了“概要寫作”這一種題型的評分標準。今后還需將評分模型運用到其他寫作題型，在分析中增加受試層面、評分員層面、評分員與受試的偏性交互作用等數(shù)據(jù)，并通過有聲思維、訪談等質(zhì)性手段深入探究評分員的心理活動，以期收集更為全面的數(shù)據(jù)來驗證評分模型的效度。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看