關(guān)丹丹
高考作文改革與評(píng)分誤差控制:基于測(cè)量學(xué)的視角
關(guān)丹丹
從測(cè)量學(xué)角度來(lái)看,高考作文因其評(píng)分主觀性強(qiáng)影響了對(duì)考生寫作能力甚至是語(yǔ)文能力的測(cè)量。如何改革作文才能進(jìn)一步減小評(píng)分誤差、提高考試的公平性,是落實(shí)此次考試招生制度改革的一項(xiàng)具體任務(wù)。研究一表明,與西方采用的小評(píng)分量表相比,我國(guó)高考采用的60分制大評(píng)分量表評(píng)分趨中效應(yīng)更為嚴(yán)重,評(píng)分標(biāo)準(zhǔn)更為寬松,不同評(píng)分者對(duì)評(píng)分標(biāo)準(zhǔn)的掌握一致性較差,據(jù)此建議改革高考作文評(píng)分量表的設(shè)計(jì),將目前的大評(píng)分量表改為小評(píng)分量表,成績(jī)單獨(dú)報(bào)告。研究二表明,增加作文任務(wù)數(shù)量有助于明顯提高評(píng)分信度,據(jù)此建議將高考作文由一個(gè)大作文變?yōu)橐淮笠恍蓚€(gè)作文。
考試招生制度改革;作文改革;評(píng)分量表;評(píng)分誤差
2014年9 月,國(guó)務(wù)院發(fā)布了《關(guān)于深化考試招生制度改革的實(shí)施意見》,對(duì)高考考試內(nèi)容與形式改革提出了明確的要求,其中關(guān)于“改進(jìn)評(píng)分方法,加強(qiáng)評(píng)卷管理”的具體要求,其終極目標(biāo)指向就是要減少評(píng)分誤差,確??荚囋u(píng)分的公平公正。作文評(píng)分質(zhì)量一直是心理與教育測(cè)量領(lǐng)域研究重點(diǎn)關(guān)注的問(wèn)題之一。國(guó)內(nèi)外許多研究證實(shí),作文評(píng)分中存在很大誤差,因此作文評(píng)分中的誤差控制一直是考試研究中的一個(gè)重點(diǎn)。從測(cè)量學(xué)的角度來(lái)講,作文最致命的弱點(diǎn)在于信度,因其評(píng)分無(wú)法客觀,信度難以保證,更無(wú)從談及效度。
影響作文評(píng)分的主要因素有三個(gè)層面:考生層面、作文層面和評(píng)分者層面。就考生層面而言,主要是考生的寫作能力,這也是測(cè)量的目標(biāo),但顯然考生的書法質(zhì)量會(huì)帶來(lái)評(píng)分誤差;就評(píng)分者層面而言,造成評(píng)分誤差的原因多種多樣,評(píng)分者對(duì)標(biāo)準(zhǔn)的掌握、評(píng)分的寬嚴(yán)程度,評(píng)分者的個(gè)人喜好、疲勞程度,以及在評(píng)分過(guò)程中的猶豫等個(gè)體差異都會(huì)損害評(píng)分信度[1]。就作文層面而言,作文任務(wù)類型會(huì)同時(shí)影響考生的作答和評(píng)分者的評(píng)分,作文任務(wù)難度和評(píng)分標(biāo)準(zhǔn)等也會(huì)引起評(píng)分員評(píng)分的差異。
近些年,網(wǎng)上(無(wú)紙化)閱卷技術(shù)為作文評(píng)分過(guò)程帶來(lái)了巨大的便捷,考生的作文圖像通常要經(jīng)過(guò)兩名評(píng)分者“背對(duì)背”評(píng)閱,有的甚至要經(jīng)過(guò)三評(píng)、四評(píng),最終得出一個(gè)合理的分值。雖然網(wǎng)上閱卷系統(tǒng)通過(guò)閾值設(shè)置和誤差監(jiān)控等對(duì)評(píng)分者評(píng)卷過(guò)程和質(zhì)量進(jìn)行了一系列控制,但對(duì)評(píng)分一致性的過(guò)分關(guān)注造成了習(xí)得性的“越保守,越安全”的趨中評(píng)分現(xiàn)象[2]。其中語(yǔ)文作文評(píng)分最為明顯,以某年高考語(yǔ)文、英語(yǔ)的作文得分為例,總體來(lái)看,語(yǔ)文作文的平均分較高,但標(biāo)準(zhǔn)差過(guò)小,這就表示考生的得分集中在中等偏上的高分區(qū),且評(píng)分出現(xiàn)了比較明顯的趨中效應(yīng),因此對(duì)考生的中文寫作能力沒有很好地區(qū)分開;相比較而言,從英語(yǔ)作文得分的統(tǒng)計(jì)指標(biāo)來(lái)看,對(duì)考生英語(yǔ)寫作能力的區(qū)分比較好(見表1)。
從測(cè)量學(xué)角度,高考作文如何改革才能提高作文評(píng)分的信度呢?從前面提到的影響作文評(píng)分的三個(gè)層面的因素來(lái)看,考生因素可以暫不考慮;因網(wǎng)上閱卷系統(tǒng)已有比較成熟的質(zhì)量評(píng)價(jià)體系,評(píng)分者因素只能是“加強(qiáng)評(píng)卷管理”;作文因素,或者說(shuō)作文設(shè)計(jì)本身如何改革,也許更值得考試工作者研究和思考。
從測(cè)量學(xué)技術(shù)手段分析,關(guān)于作文評(píng)分誤差的早期研究多采用經(jīng)典測(cè)量理論(CTT),主要關(guān)注評(píng)分主體即評(píng)分者的一致性。隨著研究者對(duì)評(píng)分誤差來(lái)源的深入認(rèn)識(shí),以及測(cè)量理論和計(jì)算機(jī)技術(shù)的發(fā)展,近些年,開始越來(lái)越多地關(guān)注評(píng)分標(biāo)準(zhǔn)的科學(xué)性、評(píng)分者的數(shù)量、試題的形式,以及上述因素的交互作用等對(duì)評(píng)分誤差的影響。這些誤差來(lái)源使用傳統(tǒng)的經(jīng)典測(cè)量理論無(wú)法有效評(píng)估,概化理論(GT)和多面Rasch測(cè)量模型(MFRM)則在不同程度上解決了此類問(wèn)題,成為當(dāng)前探討作文評(píng)分誤差的主要手段[3][4][5]。
本文聚焦作文本身的改革,探討作文評(píng)分量表的設(shè)計(jì)以及作文任務(wù)的數(shù)量對(duì)評(píng)分信度的影響。研究者分別采用多面Rasch模型和概化理論模型,試圖從現(xiàn)代測(cè)量學(xué)的視角為減少作文評(píng)分誤差提供一個(gè)可能的改革思路。
2.1 研究背景
目前國(guó)內(nèi)外涉及作文的大規(guī)??荚囍?,只有我國(guó)作文部分的分值較大(大評(píng)分量表),不論是漢語(yǔ)作文,還是外語(yǔ)作文,且作文成績(jī)計(jì)入總分;而美國(guó)、英國(guó)、德國(guó)、澳大利亞等國(guó)的考試項(xiàng)目作文部分的分值均小于10分(本文稱為小評(píng)分量表),且報(bào)告分?jǐn)?shù)獨(dú)立于總分(見表2)。
表2 國(guó)內(nèi)外大規(guī)模考試作文部分評(píng)分分值比較
國(guó)外考試為何都選擇小評(píng)分量表?在對(duì)比國(guó)內(nèi)外考試作文評(píng)分量表時(shí),我們最關(guān)心的是評(píng)分量表的大小是否影響評(píng)分效果?具體來(lái)說(shuō),同一組評(píng)分者如果采用兩種評(píng)分量表評(píng)價(jià)同一組考生的作文,我們會(huì)問(wèn):(1)評(píng)分的趨中效應(yīng)是否存在差別;(2)對(duì)評(píng)分標(biāo)準(zhǔn)的掌握是否存在差別;(3)評(píng)分的穩(wěn)定性是否存在差別。
表1 我國(guó)高考語(yǔ)文和英語(yǔ)作文部分得分的描述統(tǒng)計(jì)
2.2 研究設(shè)計(jì)與研究方法
6位評(píng)分者先后分別采用大評(píng)分量表(0~60/0~40)和小評(píng)分量表(0~6),分別對(duì)某次考試中113名考生(每名考生完成兩篇作文)的226篇作文進(jìn)行評(píng)分。研究者采用多面Rasch模型,使用FACETS軟件對(duì)數(shù)據(jù)進(jìn)行了分析。
2.3 研究結(jié)果
研究發(fā)現(xiàn):
(1)大評(píng)分量表趨中評(píng)分現(xiàn)象嚴(yán)重,不能很好地區(qū)分考生的寫作能力(見圖1、圖2);而且,大評(píng)分量表中,評(píng)分者使用的有效分?jǐn)?shù)范圍沒有涵蓋理論值,作文的滿分值越大,評(píng)分者使用的有效分?jǐn)?shù)的比率越低,60分制中,有40%的分?jǐn)?shù)值沒有被使用。
(2)大評(píng)分量表下評(píng)分者對(duì)考生作文的評(píng)分標(biāo)準(zhǔn)更為寬松,評(píng)分比率排名前三的等級(jí)集中在高分區(qū),即對(duì)考生能力普遍高估(見表3)。
(3)大評(píng)分量表下,不同評(píng)分者之間對(duì)評(píng)分標(biāo)準(zhǔn)的把握不一致,差異顯著(Separation=3.37,Chisquare=63.3,p<0.05);小評(píng)分量表下,評(píng)分者寬嚴(yán)標(biāo)準(zhǔn)上差異不顯著(Separation=0.83,Chi-square=8.5,p>0.05)。
(4)大小兩種評(píng)分量表下,評(píng)分者自身一致性均較好(內(nèi)擬合度均方和外擬合度均方均在可接受范圍0.7~1.3內(nèi))。
總的來(lái)看,與小評(píng)分量表相比,大評(píng)分量表雖然分?jǐn)?shù)點(diǎn)較多,但并沒有能很好地區(qū)分考生,反而因“趨中”帶來(lái)了更大的誤差,使考試評(píng)分的準(zhǔn)確性和公平性受到威脅。因此,評(píng)分量表的設(shè)計(jì)對(duì)作文評(píng)分效果有很大的影響,應(yīng)該引起考試設(shè)計(jì)者的關(guān)注[6]。
圖1 40/60分制評(píng)分的層面圖
圖2 6分制評(píng)分的層面圖
表3 兩種評(píng)分量表下評(píng)分等級(jí)的比較
3.1 研究背景
GRE、IELTS等國(guó)際知名考試的作文部分一般都包含兩個(gè)寫作任務(wù),北京2014年也將高考語(yǔ)文作文部分由一篇大作文變?yōu)橐淮笠恍善魑摹目荚嚦闃拥慕嵌葋?lái)講,增加作文任務(wù)的數(shù)量,顯然有助于考查考生的寫作能力。那么從心理測(cè)量學(xué)角度,增加作文任務(wù)的數(shù)量會(huì)在多大程度上提高評(píng)分信度,作文任務(wù)數(shù)量增加至幾篇最為合適呢?
3.2 研究設(shè)計(jì)與研究方法
3位具有一定閱卷經(jīng)驗(yàn)的評(píng)分者對(duì)某次考試113名考生的作文進(jìn)行評(píng)分,每位考生有兩個(gè)寫作任務(wù):作文1要求考生分析所給篇章段落存在的缺陷與漏洞,并評(píng)述論證的有效性;作文2為一篇論說(shuō)文。根據(jù)研究一的結(jié)果,兩篇作文均采用6分量表進(jìn)行評(píng)分。研究者采用概化理論模型,使用GENOVA軟件研究了作文與評(píng)分者數(shù)量變化對(duì)評(píng)分信度的影響。
3.3 研究結(jié)果
研究發(fā)現(xiàn):
(1)在概化研究中,題目水平為2,評(píng)分者水平為3,此時(shí)概化系數(shù)為0.823,評(píng)分信度比較高。
(2)當(dāng)決策研究采用P×I×R交叉設(shè)計(jì),并假定評(píng)分者全域和題目全域都是無(wú)限的(兩面隨機(jī)),可以通過(guò)改變?cè)u(píng)分者面和題目面的水平數(shù)來(lái)看概化系數(shù)的變化(見圖3)。
圖3 概化系數(shù)隨評(píng)分者面和題目面水平數(shù)的變化圖
增加評(píng)分者的數(shù)量和作文任務(wù)的數(shù)量均能直接提高作文評(píng)分的準(zhǔn)確性,且回報(bào)都遵循邊際遞減原則。具體為:在評(píng)分者人數(shù)不變的情況下,作文任務(wù)的數(shù)量由1題增加至2題,概化系數(shù)的增幅最大;在作文任務(wù)不變的情況下,評(píng)分者人數(shù)由1人(單評(píng))增加至2人(雙評(píng)),概化系數(shù)增幅最大。作文任務(wù)為2題,評(píng)分者采用雙評(píng),概化系數(shù)接近0.76,已比較理想??偟膩?lái)看,考慮到我國(guó)大規(guī)??荚囍饔^題閱卷操作已經(jīng)實(shí)現(xiàn)雙評(píng)的前提,增加作文任務(wù)數(shù)量對(duì)作文評(píng)分效果有直接影響,應(yīng)該引起考試設(shè)計(jì)者的關(guān)注[7]。
根據(jù)以上兩項(xiàng)研究的結(jié)果,提出政策建議如下:
(1)考試設(shè)計(jì)者可以從作文的評(píng)分量表設(shè)計(jì)上減少評(píng)分誤差,提高評(píng)分信度。具體為借鑒西方考試機(jī)構(gòu)做法,將高考作文部分由大評(píng)分量表改為小評(píng)分量表,并單獨(dú)報(bào)告作文成績(jī)。值得注意的是,操作上,高校招生也要相應(yīng)地改變以考試總分作為錄取唯一依據(jù)的傳統(tǒng)做法。
(2)考試設(shè)計(jì)者可以從增加作文任務(wù)的數(shù)量上減少評(píng)分誤差,提高評(píng)分信度。具體為將高考作文部分由一篇寫作任務(wù)增加至兩篇寫作任務(wù)。值得注意的是,操作上,作文任務(wù)數(shù)量的增加要同時(shí)考慮到任務(wù)難度和考試時(shí)間的相應(yīng)變化,以及考后閱卷工作量的增加等。
作文作為考查語(yǔ)言表達(dá)能力的重要手段,在我國(guó)許多大規(guī)模教育考試中占據(jù)重要地位??刂谱魑脑u(píng)分誤差,提高評(píng)分質(zhì)量,是確??荚嚬焦闹匾U?。
作文評(píng)分誤差的控制是個(gè)世界性的難題,完全避免作文評(píng)分誤差是不可能的,但是我們可以無(wú)限地減小和控制作文評(píng)分的誤差。
[1]Lane,S.,&Stone,C.A.Performance assessment[M]//R.L.Bren?nan.Educational measurement.Washington,DC:American Council on Education,2006:387-431.
[2]王博,等.主觀評(píng)分保守現(xiàn)象的形成機(jī)制與控制研究[J].心理學(xué)探新,2012(5):429-438.
[3]Engelhard,G.J.The measurement of writing ability with a manyfacet Rasch Model[J].Applied Measurement in Education,1992(5):171-191.
[4]劉遠(yuǎn)我,張厚粲.概化理論在作文評(píng)分中的應(yīng)用研究[J].心理學(xué)報(bào),1998(2):211-218.
[5]劉紅云,陳閱,駱?lè)?學(xué)業(yè)水平測(cè)試中作文評(píng)分誤差的多面Rasch分析[J].心理科學(xué),2010(4):925-927.
[6]關(guān)丹丹,等.兩種評(píng)分量表的評(píng)分效應(yīng)比較研究[J].教育研究與實(shí)驗(yàn),2011(4):92-96.
[7]關(guān)丹丹.研究生入學(xué)考試寫作評(píng)分的概化理論研究與多面Rasch分析[J].心理學(xué)探新,2014(5):437-440.
College Entrance Essay Reform and Scoring Error Control: From the Perspective of Psychometrics
GUAN Dandan
From the perspective of psychometrics,college entrance essay scoring is so subjective that much impact on measure of writing ability,as well as measure of the candidates’language ability.In order to further reduce the scoring error and improve the fairness of the examination,essay reform is to implement a specific task in the system reform of the Entrance Examination and Enrollment.The first study shows that,compared with small scoring scale in western countries,large scale such as using 60-point rating in China turns out to be more serious effect of tending toward the middle,scoring criterion is more relaxed,and different raters show poor consistency on scoring. So the first suggestion about essay reform is that scoring scale should be designed to be smaller than present large scale,and report the essay scores independently.The second study shows that increasing the number of writing tasks will improve the reliability of scoring.So it is proposed to design two writing tasks instead only one in college entrance essay.
Examination and Enrollment System Reform;Essay Reform;Scoring Scale;Scoring Error
G405
A
1005-8427(2016)05-0012-5
關(guān)丹丹,女,教育部考試中心,副研究員,博士(北京 100084)