陳康
(教育部考試中心,北京 100084)
2014年9月,國務(wù)院發(fā)布《關(guān)于深化考試招生制度改革的實施意見》(以下簡稱《實施意見》),啟動了我國自恢復高考以來最為全面和系統(tǒng)的考試招生制度改革?!秾嵤┮庖姟诽岢觯罨呖伎荚噧?nèi)容改革,依據(jù)高校人才選拔要求和國家課程標準,科學設(shè)計命題內(nèi)容,增強基礎(chǔ)性、綜合性,著重考查學生獨立思考和運用所學知識分析問題、解決問題的能力。英語作為全國統(tǒng)考科目之一,內(nèi)容改革勢在必行。
寫作是英語語言運用能力的重要表現(xiàn)形式,高考英語試卷自20世紀80年代以來一直包含寫作,并由短文改錯和書面表達2種題型組成。2015年,教育部考試中心發(fā)布了供高考綜合改革試驗省份使用的英語科考試說明,在寫作部分,以讀寫結(jié)合的新題型取代短文改錯題,增加了直接型寫作任務(wù)的比重,強調(diào)讀與寫的綜合考查[1]。
對大規(guī)??荚嚩?,測試的信度非常重要。高考英語試卷結(jié)構(gòu)重新設(shè)計后,寫作題包括2節(jié),第1節(jié)是應(yīng)用文寫作,要求考生根據(jù)給定的任務(wù)情境和要求寫1篇短文;第2節(jié)是讀寫結(jié)合題型,要求考生在閱讀1篇文章的基礎(chǔ)上按題目要求續(xù)寫或完成1篇內(nèi)容概要。寫作題均需人工評閱。改革后寫作題的測量誤差怎樣?如何保證評分信度?這些都是測試設(shè)計者需要研究和解決的問題。本研究針對高考英語科寫作新題型,組織實施模擬測試并應(yīng)用概化理論(generalizability theory)模型對測試結(jié)果進行分析,探究測量誤差的來源,驗證高考英語科寫作新題型在測試信度上的表現(xiàn)。
概化理論是一種用來具體分析測試分數(shù)中不同來源變異的測量模型。經(jīng)典測量理論假設(shè)觀察分數(shù)由真分數(shù)和隨機誤差構(gòu)成。隨機誤差不可再分解,因此,無法提供誤差來源的具體信息以及有效控制誤差的方法。而概化理論則能提供許多途徑分析不同測試情境和測量側(cè)面產(chǎn)生的測量誤差。應(yīng)用概化理論研究問題包括2個步驟:概化研究(generalizability study,簡稱G研究)和決策研究(decision study,簡稱D研究)[2]。G研究的主要內(nèi)容是在明確測量側(cè)面和觀測全域后,依照測量設(shè)計和測量模式收集樣本資料,進而估計各種因素(測量目標以及其他測量側(cè)面)的效應(yīng)及因素之間的交互效應(yīng),分析測量誤差來源。D研究的主要內(nèi)容是以概化研究的結(jié)果為基礎(chǔ)計算概括全域上的概化系數(shù)(G系數(shù))和依存性系數(shù)(Φ系數(shù)),并通過調(diào)整測量設(shè)計中的各種因素探索控制測量誤差的方法。此外,研究人員還可以根據(jù)需要確定不同的概括全域,進行多個D研究后觀察各概括全域上的G系數(shù)和Φ系數(shù),進而確定所對應(yīng)測驗設(shè)計的效果,為設(shè)計者決策提供參考。
概化理論在語言測試理論研究,尤其是測試效度研究中得到了進一步發(fā)展和深化。Messick認為概化力是構(gòu)念效度的一個側(cè)面,可以從信度和遷移2個角度來理解[3]。概化力作為信度,是指考生表現(xiàn)在不同測試任務(wù)、情境和評分者之間的一致性;概化力作為遷移,是指根據(jù)考生在測試任務(wù)中的表現(xiàn)可以推測出其能夠完成的真實語言交際任務(wù)的范圍,因此它既依賴于概化理論,也離不開構(gòu)念理論的支撐。Bachman和Palmer將概化力定義為一個特定語言測試任務(wù)與目標語言使用任務(wù)在任務(wù)特點上的一致性程度[4]。這種一致性程度越高,說明測試任務(wù)的概化力越強,即基于考生在測試中的表現(xiàn)得到的分數(shù)解釋力越強。
在英語寫作測試中,除學生的語言運用能力外,還可能有很多其他因素會引起分數(shù)變異,比如寫作任務(wù)要求、評分者、評分標準等。對寫作測試進行概化理論研究有助于分析這些不同側(cè)面對分數(shù)變異的影響,進而檢驗測試設(shè)計的效果,明確誤差來源并采取有效措施控制誤差,提高測試信度。
研究者在我國中部某省的一所普通高中擬隨機抽選600名高三學生參加測試,并從該校聘請了4位有豐富教學經(jīng)驗和一定大規(guī)??荚噷懽黝}目評分經(jīng)驗的高三年級英語教師作為評分者。參加測試的學生和評分者普遍表示對應(yīng)用文寫作題型十分熟悉,但是對讀寫結(jié)合題型相對陌生。因此,研究者向他們詳細介紹了讀后續(xù)寫和概要寫作2種題型的要求和評分標準。
高考英語科寫作的第2節(jié)讀寫結(jié)合新題型包括讀后續(xù)寫和概要寫作2種形式,它們在不同考次不定期交替使用。為了將考試中可能出現(xiàn)的2種不同情況都納入研究范圍,研究者準備了2套試卷,分別為測試1和測試2。測試1包括一個應(yīng)用文寫作任務(wù)和一個讀后續(xù)寫任務(wù),測試2包括一個應(yīng)用文寫作任務(wù)和一個概要寫作任務(wù)。2套試卷均經(jīng)過命題專家審查和校對,符合高考英語試題質(zhì)量標準。
測試1和測試2同時進行,實際有575名學生參加測試,281名學生參加了測試1,294名學生參加了測試2。測試結(jié)束后,4位評分者分為2組,其中2位負責評閱測試1,另外2位負責評閱測試2。評分采用雙評制,每位評分者對所負責的所有學生作答獨立進行評分,不與其他人討論。針對測試中的應(yīng)用文寫作和讀寫結(jié)合題目,評分者均按照高考英語科寫作部分評分標準中的5個檔次進行整體評分,評分結(jié)束后研究者核查了學生名單和分數(shù),確保無誤。
為了分析測試1和測試2中題目和評分者對測試信度的影響,研究者采用p×i×r兩面交叉設(shè)計分別對2個測試的評分結(jié)果做G研究。其中,p代表學生的英語寫作能力;i代表題目側(cè)面,有2個水平;r代表評分者側(cè)面,同樣有2個水平。題目側(cè)面和評分者側(cè)面均為隨機,使用GENOVA軟件進行數(shù)據(jù)處理。
本研究針對測試1和測試2的結(jié)果分別做了G研究,通過p×i×r交叉設(shè)計可以得到p、r、i3種主效應(yīng)以及pr、pi、ri、pri4種交互效應(yīng),結(jié)果見表1和表2。
表1 測試1各效應(yīng)的方差成分估計值及標準誤
表2 測試2各效應(yīng)的方差成分估計值及標準誤
在測試1和測試2各效應(yīng)的方差分量中,最大的均為考生方差分量,即真分數(shù)方差分量(分別占各自方差分量總和的44.0%和39.6%),這表明2套試卷對考查目標的測量都比較準確,測試成績的總變異主要來自于考生英語寫作能力的差異。
方差分量位居第二的均為考生與評分者交互效應(yīng)的方差分量(分別占各自方差分量總和的20.3%和24.9%),位居第三的為考生、評分者與題目三者間交互效應(yīng)的方差分量(分別占各自方差分量總和的16.8%和18.7%),評分者主效應(yīng)的方差分量排在第四位(分別占各自方差分量總和的9.5%和13.0%),而評分者與試題交互效應(yīng)的方差分量很?。ň謩e占各自方差分量總和的0.1%)。這說明評分者誤差存在,并且主要表現(xiàn)在某些評分者在一些學生作答的評分尺度上缺乏一致性。
在測試1和測試2各效應(yīng)的方差分量中,試題主效應(yīng)的方差分量均比較小(分別占各自方差分量總和的2.0%和0.1%),說明使用不同試題考查學生寫作能力不會有很大差別,試題設(shè)計較科學合理。試題與評分者交互效應(yīng)的方差分量非常小,而試題與學生交互效應(yīng)的方差分量相對較大(分別占各自方差分量總和的7.3%和3.6%),說明評分者在不同題目之間的評分一致性很高,而考生在不同題目上的表現(xiàn)差異較大,這可能是學生對新題型不熟悉的緣故。
在對測試1和測試2的結(jié)果G研究的基礎(chǔ)上,又進行了D研究,采用P×I×R交叉設(shè)計,并假定題目全域和評分者全域都是無限的,可以通過調(diào)整題目面和評分者面水平數(shù)來觀察G系數(shù)和Φ系數(shù)的變化。
概化理論中的G系數(shù)是測量目標的有效變異占有效變異與相對誤差變異之和的比值,也可以理解為全域分數(shù)變異與觀測分數(shù)期望值之比。圖1和圖2分別顯示的是在測試1和測試2中將題目數(shù)量和評分者數(shù)量由1個增加到4個時G系數(shù)的變化情況。當評分者數(shù)量固定,題目數(shù)量由1個增加到2個時,G系數(shù)的提高幅度最大(測試1約0.10,測試2約0.06),之后繼續(xù)增加題目數(shù)量,G系數(shù)變化不大。當題目數(shù)量固定時,評分者數(shù)量由1個增加到2個時,G系數(shù)的提高幅度最大(測試1約0.13,測試2約0.15),之后繼續(xù)增加評分者數(shù)量,G系數(shù)變化不大。對于提高G系數(shù)而言,增加評分者數(shù)量的效果優(yōu)于增加題目數(shù)量效果。測試1和測試2中均有2道寫作題和2位評分者,其G系數(shù)均在0.7左右,說明2個測試的信度較高。
圖1 測試1題目面和評分者面數(shù)量變化時G系數(shù)的變化
圖2 測試2題目面和評分者面數(shù)量變化時G系數(shù)的變化
概化理論中的Φ系數(shù)是測量目標自身的分數(shù)變異在全體分數(shù)變異中所占的比率。圖3和圖4分別顯示的是在測試1和測試2中將題目數(shù)量和評分者數(shù)量由1個增加到4個時Φ系數(shù)的變化情況。當評分者數(shù)量固定,題目數(shù)量由1個增加到2個時,Φ系數(shù)的提高幅度最大(測試1約0.08,測試2約0.05),之后繼續(xù)增加題目數(shù)量,Φ系數(shù)變化不大。當題目數(shù)量固定時,評分者數(shù)量由1個增加到2個時,Φ系數(shù)的提高幅度最大(測試1約0.14,測試2約0.16),之后繼續(xù)增加評分者數(shù)量,Φ系數(shù)變化不大。對于提高Φ系數(shù)而言,增加評分者數(shù)量的效果優(yōu)于增加題目數(shù)量效果。測試1和測試2中均有2道寫作題和2位評分者,其Φ系數(shù)均在0.6~0.7之間,說明2個測試中評分者一致性程度較高。
圖3 測試1題目面和評分者面數(shù)量變化時Φ系數(shù)的變化
圖4 測試2題目面和評分者面數(shù)量變化時Φ系數(shù)的變化
本研究存在以下不足:第一,采用模擬測試的方法獲取數(shù)據(jù),學生的作答動機和評分者的評分狀態(tài)與正式高考存在差別,若能以正式高考的數(shù)據(jù)進行分析,則結(jié)論會更具說服力。第二,雖然向參加測試的學生和負責評分的教師詳細地介紹了讀寫結(jié)合的新題型,但是學生缺乏充分訓練,評分者對評分標準不熟悉等因素依然對測試和評分結(jié)果有一定影響。
通過對高考英語科寫作2種新題型同時進行模擬測試并對測試結(jié)果進行概化理論分析可以得出:第一,高考英語科寫作題目方面的誤差較小。此外,高考英語科寫作題直接型寫作任務(wù)由1個增加到2個,在一定程度上提高了該題的測試信度。第二,影響高考英語科寫作題評分的主要因素是評分者,采用雙評制有助于測試信度保持在比較理想的水平。
上述結(jié)論也對高考英語科寫作題的命題工作具有一定的啟示:第一,對于新設(shè)計的題型,需要持續(xù)跟蹤研究評分情況和反撥效應(yīng),收集各方面的意見和建議,為繼續(xù)完善做好準備。第二,需要聚焦評分者層面,加強評分標準與評分質(zhì)量控制研究,進一步提高寫作題評分信度。
[1]教育部考試中心.普通高等學校招生全國統(tǒng)一考試英語科考試說明(高考綜合改革試驗省份使用)(第一版)[M].北京:高等教育出版社,2015.
[2]楊志明,張雷.測評的概化理論及其應(yīng)用[M].北京:教育科學出版社,2003.
[3]MESSICK S.Validity and washback in language testing[J].Language Testing,1996,13(3):241-256.
[4]BACHMAN L,PALMER A.Language assessment in practice[M].Oxford:Oxford University Press,2010.