高考英語科寫作新題型的概化理論研究

2018-05-30 08:18:31陳康

中國考試 2018年3期

陳康

（教育部考試中心，北京 100084）

2014年9月，國務(wù)院發(fā)布《關(guān)于深化考試招生制度改革的實施意見》（以下簡稱《實施意見》），啟動了我國自恢復高考以來最為全面和系統(tǒng)的考試招生制度改革?！秾嵤┮庖姟诽岢觯罨呖伎荚噧?nèi)容改革，依據(jù)高校人才選拔要求和國家課程標準，科學設(shè)計命題內(nèi)容，增強基礎(chǔ)性、綜合性，著重考查學生獨立思考和運用所學知識分析問題、解決問題的能力。英語作為全國統(tǒng)考科目之一，內(nèi)容改革勢在必行。

寫作是英語語言運用能力的重要表現(xiàn)形式，高考英語試卷自20世紀80年代以來一直包含寫作，并由短文改錯和書面表達2種題型組成。2015年，教育部考試中心發(fā)布了供高考綜合改革試驗省份使用的英語科考試說明，在寫作部分，以讀寫結(jié)合的新題型取代短文改錯題，增加了直接型寫作任務(wù)的比重，強調(diào)讀與寫的綜合考查[1]。

對大規(guī)?？荚嚩?，測試的信度非常重要。高考英語試卷結(jié)構(gòu)重新設(shè)計后，寫作題包括2節(jié)，第1節(jié)是應(yīng)用文寫作，要求考生根據(jù)給定的任務(wù)情境和要求寫1篇短文；第2節(jié)是讀寫結(jié)合題型，要求考生在閱讀1篇文章的基礎(chǔ)上按題目要求續(xù)寫或完成1篇內(nèi)容概要。寫作題均需人工評閱。改革后寫作題的測量誤差怎樣？如何保證評分信度？這些都是測試設(shè)計者需要研究和解決的問題。本研究針對高考英語科寫作新題型，組織實施模擬測試并應(yīng)用概化理論（generalizability theory）模型對測試結(jié)果進行分析，探究測量誤差的來源，驗證高考英語科寫作新題型在測試信度上的表現(xiàn)。

1 理論基礎(chǔ)

概化理論是一種用來具體分析測試分數(shù)中不同來源變異的測量模型。經(jīng)典測量理論假設(shè)觀察分數(shù)由真分數(shù)和隨機誤差構(gòu)成。隨機誤差不可再分解，因此，無法提供誤差來源的具體信息以及有效控制誤差的方法。而概化理論則能提供許多途徑分析不同測試情境和測量側(cè)面產(chǎn)生的測量誤差。應(yīng)用概化理論研究問題包括2個步驟：概化研究（generalizability study，簡稱G研究）和決策研究（decision study，簡稱D研究）[2]。G研究的主要內(nèi)容是在明確測量側(cè)面和觀測全域后，依照測量設(shè)計和測量模式收集樣本資料，進而估計各種因素（測量目標以及其他測量側(cè)面）的效應(yīng)及因素之間的交互效應(yīng)，分析測量誤差來源。D研究的主要內(nèi)容是以概化研究的結(jié)果為基礎(chǔ)計算概括全域上的概化系數(shù)（G系數(shù)）和依存性系數(shù)（Φ系數(shù)），并通過調(diào)整測量設(shè)計中的各種因素探索控制測量誤差的方法。此外，研究人員還可以根據(jù)需要確定不同的概括全域，進行多個D研究后觀察各概括全域上的G系數(shù)和Φ系數(shù)，進而確定所對應(yīng)測驗設(shè)計的效果，為設(shè)計者決策提供參考。

概化理論在語言測試理論研究，尤其是測試效度研究中得到了進一步發(fā)展和深化。Messick認為概化力是構(gòu)念效度的一個側(cè)面，可以從信度和遷移2個角度來理解[3]。概化力作為信度，是指考生表現(xiàn)在不同測試任務(wù)、情境和評分者之間的一致性；概化力作為遷移，是指根據(jù)考生在測試任務(wù)中的表現(xiàn)可以推測出其能夠完成的真實語言交際任務(wù)的范圍，因此它既依賴于概化理論，也離不開構(gòu)念理論的支撐。Bachman和Palmer將概化力定義為一個特定語言測試任務(wù)與目標語言使用任務(wù)在任務(wù)特點上的一致性程度[4]。這種一致性程度越高，說明測試任務(wù)的概化力越強，即基于考生在測試中的表現(xiàn)得到的分數(shù)解釋力越強。

在英語寫作測試中，除學生的語言運用能力外，還可能有很多其他因素會引起分數(shù)變異，比如寫作任務(wù)要求、評分者、評分標準等。對寫作測試進行概化理論研究有助于分析這些不同側(cè)面對分數(shù)變異的影響，進而檢驗測試設(shè)計的效果，明確誤差來源并采取有效措施控制誤差，提高測試信度。

2 研究方法

2.1 參加人員

研究者在我國中部某省的一所普通高中擬隨機抽選600名高三學生參加測試，并從該校聘請了4位有豐富教學經(jīng)驗和一定大規(guī)?？荚噷懽黝}目評分經(jīng)驗的高三年級英語教師作為評分者。參加測試的學生和評分者普遍表示對應(yīng)用文寫作題型十分熟悉，但是對讀寫結(jié)合題型相對陌生。因此，研究者向他們詳細介紹了讀后續(xù)寫和概要寫作2種題型的要求和評分標準。

2.2 測量工具

高考英語科寫作的第2節(jié)讀寫結(jié)合新題型包括讀后續(xù)寫和概要寫作2種形式，它們在不同考次不定期交替使用。為了將考試中可能出現(xiàn)的2種不同情況都納入研究范圍，研究者準備了2套試卷，分別為測試1和測試2。測試1包括一個應(yīng)用文寫作任務(wù)和一個讀后續(xù)寫任務(wù)，測試2包括一個應(yīng)用文寫作任務(wù)和一個概要寫作任務(wù)。2套試卷均經(jīng)過命題專家審查和校對，符合高考英語試題質(zhì)量標準。

2.3 數(shù)據(jù)收集

測試1和測試2同時進行，實際有575名學生參加測試，281名學生參加了測試1，294名學生參加了測試2。測試結(jié)束后，4位評分者分為2組，其中2位負責評閱測試1，另外2位負責評閱測試2。評分采用雙評制，每位評分者對所負責的所有學生作答獨立進行評分，不與其他人討論。針對測試中的應(yīng)用文寫作和讀寫結(jié)合題目，評分者均按照高考英語科寫作部分評分標準中的5個檔次進行整體評分，評分結(jié)束后研究者核查了學生名單和分數(shù)，確保無誤。

2.4 數(shù)據(jù)分析

為了分析測試1和測試2中題目和評分者對測試信度的影響，研究者采用p×i×r兩面交叉設(shè)計分別對2個測試的評分結(jié)果做G研究。其中，p代表學生的英語寫作能力；i代表題目側(cè)面，有2個水平；r代表評分者側(cè)面，同樣有2個水平。題目側(cè)面和評分者側(cè)面均為隨機，使用GENOVA軟件進行數(shù)據(jù)處理。

3 結(jié)果與討論

3.1 G研究

本研究針對測試1和測試2的結(jié)果分別做了G研究，通過p×i×r交叉設(shè)計可以得到p、r、i3種主效應(yīng)以及pr、pi、ri、pri4種交互效應(yīng)，結(jié)果見表1和表2。

表1 測試1各效應(yīng)的方差成分估計值及標準誤

表2 測試2各效應(yīng)的方差成分估計值及標準誤

在測試1和測試2各效應(yīng)的方差分量中，最大的均為考生方差分量，即真分數(shù)方差分量（分別占各自方差分量總和的44.0%和39.6%），這表明2套試卷對考查目標的測量都比較準確，測試成績的總變異主要來自于考生英語寫作能力的差異。

方差分量位居第二的均為考生與評分者交互效應(yīng)的方差分量（分別占各自方差分量總和的20.3%和24.9%），位居第三的為考生、評分者與題目三者間交互效應(yīng)的方差分量（分別占各自方差分量總和的16.8%和18.7%），評分者主效應(yīng)的方差分量排在第四位（分別占各自方差分量總和的9.5%和13.0%），而評分者與試題交互效應(yīng)的方差分量很?。ň謩e占各自方差分量總和的0.1%）。這說明評分者誤差存在，并且主要表現(xiàn)在某些評分者在一些學生作答的評分尺度上缺乏一致性。

在測試1和測試2各效應(yīng)的方差分量中，試題主效應(yīng)的方差分量均比較小（分別占各自方差分量總和的2.0%和0.1%），說明使用不同試題考查學生寫作能力不會有很大差別，試題設(shè)計較科學合理。試題與評分者交互效應(yīng)的方差分量非常小，而試題與學生交互效應(yīng)的方差分量相對較大（分別占各自方差分量總和的7.3%和3.6%），說明評分者在不同題目之間的評分一致性很高，而考生在不同題目上的表現(xiàn)差異較大，這可能是學生對新題型不熟悉的緣故。

3.2 D研究

在對測試1和測試2的結(jié)果G研究的基礎(chǔ)上，又進行了D研究，采用P×I×R交叉設(shè)計，并假定題目全域和評分者全域都是無限的，可以通過調(diào)整題目面和評分者面水平數(shù)來觀察G系數(shù)和Φ系數(shù)的變化。

3.2.1 G系數(shù)

概化理論中的G系數(shù)是測量目標的有效變異占有效變異與相對誤差變異之和的比值，也可以理解為全域分數(shù)變異與觀測分數(shù)期望值之比。圖1和圖2分別顯示的是在測試1和測試2中將題目數(shù)量和評分者數(shù)量由1個增加到4個時G系數(shù)的變化情況。當評分者數(shù)量固定，題目數(shù)量由1個增加到2個時，G系數(shù)的提高幅度最大（測試1約0.10，測試2約0.06），之后繼續(xù)增加題目數(shù)量，G系數(shù)變化不大。當題目數(shù)量固定時，評分者數(shù)量由1個增加到2個時，G系數(shù)的提高幅度最大（測試1約0.13，測試2約0.15），之后繼續(xù)增加評分者數(shù)量，G系數(shù)變化不大。對于提高G系數(shù)而言，增加評分者數(shù)量的效果優(yōu)于增加題目數(shù)量效果。測試1和測試2中均有2道寫作題和2位評分者，其G系數(shù)均在0.7左右，說明2個測試的信度較高。

圖1 測試1題目面和評分者面數(shù)量變化時G系數(shù)的變化

圖2 測試2題目面和評分者面數(shù)量變化時G系數(shù)的變化

3.2.2 Φ系數(shù)

概化理論中的Φ系數(shù)是測量目標自身的分數(shù)變異在全體分數(shù)變異中所占的比率。圖3和圖4分別顯示的是在測試1和測試2中將題目數(shù)量和評分者數(shù)量由1個增加到4個時Φ系數(shù)的變化情況。當評分者數(shù)量固定，題目數(shù)量由1個增加到2個時，Φ系數(shù)的提高幅度最大（測試1約0.08，測試2約0.05），之后繼續(xù)增加題目數(shù)量，Φ系數(shù)變化不大。當題目數(shù)量固定時，評分者數(shù)量由1個增加到2個時，Φ系數(shù)的提高幅度最大（測試1約0.14，測試2約0.16），之后繼續(xù)增加評分者數(shù)量，Φ系數(shù)變化不大。對于提高Φ系數(shù)而言，增加評分者數(shù)量的效果優(yōu)于增加題目數(shù)量效果。測試1和測試2中均有2道寫作題和2位評分者，其Φ系數(shù)均在0.6～0.7之間，說明2個測試中評分者一致性程度較高。

圖3 測試1題目面和評分者面數(shù)量變化時Φ系數(shù)的變化

圖4 測試2題目面和評分者面數(shù)量變化時Φ系數(shù)的變化

3.3 研究局限

本研究存在以下不足：第一，采用模擬測試的方法獲取數(shù)據(jù)，學生的作答動機和評分者的評分狀態(tài)與正式高考存在差別，若能以正式高考的數(shù)據(jù)進行分析，則結(jié)論會更具說服力。第二，雖然向參加測試的學生和負責評分的教師詳細地介紹了讀寫結(jié)合的新題型，但是學生缺乏充分訓練，評分者對評分標準不熟悉等因素依然對測試和評分結(jié)果有一定影響。

4 總結(jié)與啟示

通過對高考英語科寫作2種新題型同時進行模擬測試并對測試結(jié)果進行概化理論分析可以得出：第一，高考英語科寫作題目方面的誤差較小。此外，高考英語科寫作題直接型寫作任務(wù)由1個增加到2個，在一定程度上提高了該題的測試信度。第二，影響高考英語科寫作題評分的主要因素是評分者，采用雙評制有助于測試信度保持在比較理想的水平。

上述結(jié)論也對高考英語科寫作題的命題工作具有一定的啟示：第一，對于新設(shè)計的題型，需要持續(xù)跟蹤研究評分情況和反撥效應(yīng)，收集各方面的意見和建議，為繼續(xù)完善做好準備。第二，需要聚焦評分者層面，加強評分標準與評分質(zhì)量控制研究，進一步提高寫作題評分信度。

[1]教育部考試中心.普通高等學校招生全國統(tǒng)一考試英語科考試說明（高考綜合改革試驗省份使用）（第一版）[M].北京:高等教育出版社,2015.

[2]楊志明,張雷.測評的概化理論及其應(yīng)用[M].北京:教育科學出版社,2003.

[3]MESSICK S.Validity and washback in language testing[J].Language Testing,1996,13（3）:241-256.

[4]BACHMAN L,PALMER A.Language assessment in practice[M].Oxford:Oxford University Press,2010.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看