范 鵬
(天津市教育招生考試院,天津 300387)
大規(guī)模考試網(wǎng)上評卷中趨中評分的成因探析
范 鵬
(天津市教育招生考試院,天津 300387)
趨中評分是一種不明顯的評分誤差,在主觀題評卷中普遍存在,在施行網(wǎng)上評卷后,這種趨勢更加明顯,找到趨中評分的成因是解決主觀題評卷中人為誤差的關(guān)鍵。本文分析了趨中評分的幾點成因并提出了解決思路。
趨中評分;網(wǎng)上評卷;誤差
考試作為選拔和評價的重要手段,已經(jīng)有上千年的歷史。作為考試結(jié)果量化的手段,評卷成了重中之重。而只要有評卷就會有誤差的存在。在多年來的紙筆評卷模式中,盡管人們使用了眾多手段來規(guī)避,但評卷誤差依然存在。一般來說,評卷誤差多出現(xiàn)在主觀性較強的題目中,是指評卷教師由于掌握評分標(biāo)準(zhǔn)的不同而產(chǎn)生的差異,這種差異既有與自身前后評卷的不一致,也有與其他評卷教師的不一致。這種差異導(dǎo)致了考生答題的結(jié)果與其應(yīng)得的真實分?jǐn)?shù)有差距,也就是說評卷的結(jié)果沒有完全真實的反應(yīng)考生的真實水平。
在主觀題評卷中,經(jīng)常會發(fā)現(xiàn)這樣一種趨勢,就是分?jǐn)?shù)的分布往往會呈現(xiàn)出趨于集中的表現(xiàn)形式。隨著網(wǎng)絡(luò)技術(shù)和快速成像掃描技術(shù)的發(fā)展,越來越多的考試都開始采用網(wǎng)上評卷的方式。網(wǎng)上評卷較之傳統(tǒng)的紙筆評卷有節(jié)省人力物力、評卷效率高、評卷質(zhì)量好以及便于統(tǒng)計分析等優(yōu)勢。在一些大規(guī)模考試中,如高考、中考、大學(xué)英語四六級考試等,網(wǎng)上評卷這種形式已經(jīng)占據(jù)了主導(dǎo)地位。在施行網(wǎng)上評卷后,統(tǒng)計分析更加便利,我們發(fā)現(xiàn)這種情況并沒有因為評卷模式的改變而發(fā)生改變,相反有愈演愈烈的趨勢。
這種趨勢我們稱之為趨中評分,就是評出的分?jǐn)?shù)高度集中在中部偏上的狹小區(qū)間內(nèi),在這個區(qū)間內(nèi),評分?jǐn)[動幅度過小,這是一種評卷員評分的集體性誤差。趨中評分在主觀題評卷中普通存在,用比較通俗的話來說就是“打中間分”。個體評卷教師習(xí)慣在平均分、基準(zhǔn)分上下給分,既不給太高的分,也不給低分。這樣做不能客觀的反應(yīng)出學(xué)生的真實水平,“打中間分”是產(chǎn)生評分誤差的重要原因之一。以高考作文評卷為例,高考評卷是一種典型的大規(guī)??荚嚨闹饔^題評卷,作文成績作為一個分值較大、獨立性較強的主觀題,其成績應(yīng)符合正態(tài)分布的要求。但實際工作中我們發(fā)現(xiàn),二類文和三類文的數(shù)量占了總數(shù)的80%以上,比正常情況超出了十幾個百分點。這就說明,高考作文閱卷存在趨中評分現(xiàn)象。人們經(jīng)常說,高考作文拉不開分?jǐn)?shù),就是這種現(xiàn)象的體現(xiàn)。
經(jīng)過研究,我們認為是由以下幾個方面的原因造成的。
一般來說,大規(guī)??荚嚨脑u卷多采用集中評卷的方式。一方面為了評卷過程保密,另一方面也為了更好的控制評卷進度,提高效率。從管理的角度來說是好事,但有限的時間內(nèi)完成大量工作,每個評卷教師工作強度都很高,工作壓力很大。再加之管理者的工作態(tài)度,對評卷教師的管理和約束,評卷教師的疲勞、精力分配等因素,一定程度上造成了評卷教師不自覺的忽略了評分的控制要求,導(dǎo)致出現(xiàn)趨中評分。一些老評卷教師對于評卷流程更加熟悉,到了評卷中后期,精神疲勞,責(zé)任心下降,比新評卷教師更容易產(chǎn)生趨中評分。
目前施行的網(wǎng)上閱卷模式,大多使用多評/仲裁的體系,這種體系主要的缺陷體現(xiàn)在以下兩點。
(1)專家組作用發(fā)揮有限
專家組的評分具有一定的權(quán)威性,可以指導(dǎo)普通評卷教師的評卷,對整體閱卷水平具有控制作用,能夠避免出現(xiàn)整體偏差,意義十分重大。但就目前評卷實際來看,專家組的作用除正式評卷開始前對試評卷進行研究制定評分細則外,多數(shù)為處理一些異常試卷,如0分卷、滿分卷、多評差異較大的試卷等,以及一些日常監(jiān)控和管理工作。目前專家組更多的是通過抽樣的方式來對個別評卷教師進行管理,無法對整體評卷控制發(fā)揮作用,導(dǎo)致趨中評分的評分隨著評卷工作每日推進逐漸增多。
(2)多評機制的缺陷
現(xiàn)在的主觀題評卷多采取三評的評卷方式,如果打分與其他兩個評卷教師的評分差距過大,會使自己所評的試卷成為無效卷。在網(wǎng)上評卷中,考評評卷教師的主要指標(biāo)就是評卷量和有效卷率。而無效卷數(shù)量被認為是衡量一個評卷教師評分水平的一個重要指標(biāo),無效卷數(shù)量多被認為是評分標(biāo)準(zhǔn)沒有掌握好,評分水平低。于是,在既要保質(zhì)又要保量這個大前提下,打中間分則能做到在保證評卷速度的前提下,還不會出現(xiàn)無效卷,不會增加整個組的三評率,進而增加工作量。基于以上兩個原因,原來不想打中間分的評卷教師也會被迫去打中間分。例如當(dāng)雙評差值設(shè)置為7分的時候,若一個評卷教師打了60分,而第二個評卷教師打了46分,第三個評卷教師打了48分,那么按照現(xiàn)行的評分規(guī)則,第一個評分成為無效分,該題的最后得分是取46分和48分的平均值47分;而如果第一個評卷教師打49分,第二個和第三個評卷教師仍然打46分和48分,那么該題的最后得分應(yīng)是49分和48分的平均值48.5分,比打60分時所得的47分多出1.5分。想打高分,最后卻得了低分;而想打低分,最后卻得了高分。為了使自己的意見得到一定程度的認可,也給考生一個相對公正的評價,敢打高分或低分的評卷教師在其他人開始打中間分時,也不得不放棄了自己的判斷,改打中間分。
評卷教師的個人素質(zhì)包括責(zé)任心和個人習(xí)慣兩個方面。
評卷是由評卷教師來完成的,是一項對人員素質(zhì)要求很強的工作。不僅要求評卷教師具有較高的專業(yè)素質(zhì),也要求其有較好的工作態(tài)度。首先就是要端正態(tài)度,樹立很強的責(zé)任心,否則會出現(xiàn)嚴(yán)重的評分誤差。一旦工作態(tài)度出現(xiàn)問題,隨意打分,評分結(jié)果必然受到影響。
這些年社會上也有一些關(guān)于高考、中考評卷的報道,其中比較尖銳的就是關(guān)于評卷教師的給分速度,批評一些評卷教師評卷過快,評閱作文題目時90秒評一篇,引起社會一片指責(zé)。其實,一些大規(guī)模考試的評卷過程中,類似現(xiàn)象屢見不鮮,也確實存在部分評卷教師閱讀不夠仔細,草草打分,遮蓋了考生的“閃光點”或因考生卷面整潔、字跡工整就給了高分,還有的是為了完成任務(wù),盲目提高評卷速度,保險起見就開始打中間分。做一個好的評卷教師,既要正確理解評分標(biāo)準(zhǔn),又要把握好評分尺度?,F(xiàn)在大多主觀題評分都是用評分量表,如果對量表的理解有偏差,不能把握好不同分級之間的差異,也容易造成趨中評分。
就大規(guī)??荚嚨拈喚韥碚f,為了減少趨中評分的評分誤差,不僅要改變、端正個別評卷員的態(tài)度和責(zé)任心,還要提高整個評卷員群體的業(yè)務(wù)水平,避免出現(xiàn)趨中評分。
此外,評卷教師的個人習(xí)慣也會導(dǎo)致趨中評分的增高。在日常的考試測試中,教師在評卷時一般不習(xí)慣打不及格分,而是大多在百分制的70分左右,這是有一定的合理性的。而到了大規(guī)模的考試評卷過程中,還是以作文為例,滿分60分,大多數(shù)老師都是一線的高中教師,這種習(xí)慣已經(jīng)形成了強大的心里干擾因素,他們習(xí)慣性的就會打42分(70%)左右,這也無形中增加了趨中評分出現(xiàn)的幾率。
仍以大規(guī)??荚嚨淖魑臑槔鼛啄晁褂玫脑u分標(biāo)準(zhǔn)都是描述式評定標(biāo)準(zhǔn)量表。這種量表是把學(xué)生的作文與規(guī)定的評分標(biāo)準(zhǔn)相對照,從而評定學(xué)生的成績,作用相當(dāng)有限,并有以下缺點。
(1)評分標(biāo)準(zhǔn)比較抽象
評分的細目分項越多,越不利于評卷員掌握,出錯的可能性越大;評分項目多,在分項評分時,會降低評分速度;評分項目少,則其概括性越強,抽象性也就越強。評卷員對評分標(biāo)準(zhǔn)中同一等級內(nèi)容與標(biāo)準(zhǔn)的理解肯定有所不同,在不能平衡時,就會選擇打中間分來保持評分的穩(wěn)定性。
(2)評分標(biāo)準(zhǔn)自身缺陷
評分標(biāo)準(zhǔn)中的寫作測評因素基本上包含和體現(xiàn)了寫作能力因素,體現(xiàn)著人們對不同類型、不同階段寫作側(cè)重點的認識。參照量表的要求,找到水平近似的樣篇,上下略作浮動來評定考生的成績,這樣的評分本身就存在一定的模糊性,考生的答題與量表的樣本之間難以十分精確的比較。此外,對于描述量表的語言理解因人而異,在不同的評卷教師頭腦中的印象不盡相同,也會造成一定的模糊和偏差。再者,評卷教師對于量表的記憶是流動的,隨著時間的流逝,標(biāo)準(zhǔn)也可能有細微的偏差。
根據(jù)以上分析,我們針對性的提出一些解決思路。
產(chǎn)生趨中評分的一個重要原因就是專家組作用的缺失。因此,在正式評卷開始前,專家組先對預(yù)先按照一定規(guī)則抽樣的部分試卷進行試評討論。由這些經(jīng)驗豐富的命題和評卷專家挑選出的能夠代表每個分?jǐn)?shù)等級的典型試卷。每天的評卷過程中,通過評卷系統(tǒng)將這些試卷隨機分發(fā)給普通評卷教師,針對返回的評分?jǐn)?shù)據(jù)與專家評分進行對比,進而判定評卷員是否存在趨中評分。這種方法簡單、直觀,但由于不是全程的、實時的整體檢查,因此可能會出現(xiàn)漏判的情況。因此,可以引入專家評分曲線。讓專家組每天也進行一定數(shù)量常規(guī)評卷,根據(jù)評卷結(jié)果和專家卷的結(jié)果生成專家曲線,監(jiān)控評卷員個體、組、全體與該曲線的趨勢的差別,一旦發(fā)現(xiàn)問題,及時糾正。
培訓(xùn)和試評對于評卷工作至關(guān)重要,專家組應(yīng)該在這個階段對評卷教師做足夠的指導(dǎo)和提醒。主要包括評分細則的理解、試題的學(xué)習(xí)以及評卷操作等,為正式評卷做充分的準(zhǔn)備。在培訓(xùn)和試評階段,要為評卷教師詳細說明不同分?jǐn)?shù)等級之間的區(qū)別,挑選不同類型的具有代表性的專家卷供評分教師仔細研究、反復(fù)揣摩,體會評分量表和評分標(biāo)準(zhǔn),尤其是高分段、中間分?jǐn)?shù)段和低分段的差異。專家組可以拿出一部分專家卷來讓評分員試打分,只有與專家評分差值較小的評分員才能通過試評。這樣既可以知道評卷教師是否理解了試題、是否準(zhǔn)確的把握了評分標(biāo)準(zhǔn),也能提前了解到哪些評卷教師對標(biāo)準(zhǔn)掌握有差異,進而繼續(xù)關(guān)注指導(dǎo)。如果有評卷教師始終不能通過試評,專家組應(yīng)對其進行調(diào)整,以免后期正式評卷產(chǎn)生不良后果。
在正式評卷開始前,對主觀性較強的題目設(shè)置“最低瀏覽時間”,如規(guī)定每篇作文的評卷時間不得低于120秒,以此來限制那些不認真閱讀,草率打分的評卷教師,從而提升閱卷質(zhì)量。此外,專家組可以采用定時抽檢結(jié)合和個人復(fù)評相結(jié)合的方法進行監(jiān)控,收集分析評卷教師的評分與自身、與專家卷之間的差異,差異過大時,說明該評卷教師評分波動過大,需要及時停止評卷并進行糾正。由于趨中評分多出現(xiàn)在評卷的后半程,因此對評卷中后期應(yīng)重點監(jiān)控。
改變以往過多關(guān)注無效卷的方式,更多的監(jiān)控評卷教師評分與專家卷之間的差異。優(yōu)化薪酬方式,按數(shù)量計酬確實有利于提高評卷員的積極性,提高評卷效率,但也更容易滋生趨中評分。
主觀性試題的趨中評分由來已久,在紙筆評卷中已初現(xiàn)端倪,施行網(wǎng)上評卷后,尤其在大規(guī)模的考試評卷中,這種現(xiàn)象愈發(fā)顯著。是得益于統(tǒng)計測量手段的進步,這種現(xiàn)象更加直觀了?還是網(wǎng)上評卷的模式更刺激和助長的它的發(fā)展?這其中的關(guān)鍵還是在于參與評卷的人。不論是專家還是普通評卷教師,都是參與的個體。 強化專家組的作用,增強對評卷教師的培訓(xùn),規(guī)范評卷教師的行為,每個個體做好自己的本職工作,才能逐漸減少和規(guī)避趨中評分這個整體、系統(tǒng)的誤差。
[1]陳志國,芮南.高考作文網(wǎng)上閱卷雙評過程中的質(zhì)量監(jiān)控[J].中學(xué)語文教學(xué),2009(6).
[2]趙海燕,芮南.雙評作文題網(wǎng)上閱卷評卷教師評卷水平評價維度的確定[J].中國考試,2009(2).
[3]張昌應(yīng).高考網(wǎng)上評卷誤差控制的方法與實施[J].高教探索,2003(3).
[4]高丙成,秦旭芳.成人高考網(wǎng)上閱卷的評分者差異研究[J].烏魯木齊職業(yè)大學(xué)學(xué)報,2007(4).
[5]婁慶華.高考作文評分“趨中傾向”探因[J].教學(xué)與管理,2008(3).
(責(zé)任編輯:姚歆燁)
Analysis of Reasons for Centralized Rating in Net-based Scoring of Large-scale Examination
FAN Peng
(Tianjin Municipal Educational Admission and Examination Authority,Tianjin 300387,China)
Centralized rating does not lead to obvious errors,which exists widely in subjective question scoring.In the implementation of net-based scoring,this trend is more obvious.Finding the reasons for centralized rating is the key to solve the problems in subjective question scoring.This paper analyzed the reason for central rating,and put forward some solutions.
Centralized rating;net-based scoring;error
G647
范鵬(1982—),男,助理研究員,研究方向:教育管理。