高考試題難度預(yù)估的校準與改進研究

2020-01-15 05:40:10任子朝

數(shù)學(xué)教育學(xué)報 2019年6期

任子朝，佟威，趙軒

任子朝，佟威，趙軒

（教育部考試中心，北京 100084）

在對2017年高考試題難度預(yù)估結(jié)果分析的基礎(chǔ)上，對2018年試題難度預(yù)估結(jié)果進行了更加深入的分析．在2018年預(yù)估以前，向命題人員詳細講解2017年試題難度預(yù)估分析的結(jié)果，將教師的預(yù)估結(jié)果和實考數(shù)據(jù)進行對比，結(jié)合試題，分析產(chǎn)生誤差的原因，并對每個人進行了針對性的預(yù)估注意事項提示．2018年實考后，將命題人員預(yù)估數(shù)據(jù)與實測數(shù)據(jù)進行比較，結(jié)果發(fā)現(xiàn)，命題人員預(yù)估的誤差值有所降低，預(yù)估的精度顯著提高，命題組集體的平均預(yù)估值優(yōu)于個人預(yù)估值．因此，為提高試題難度預(yù)估的精度，要加強對命題人員的培訓(xùn)、反饋，對每個人給予有針對性的指導(dǎo)，對于高考出現(xiàn)的新題型要慎重評估，集體討論，得出結(jié)論．同時要加強對中學(xué)教學(xué)情況和學(xué)生學(xué)習(xí)情況的調(diào)研，了解學(xué)生的真實水平、作答特點、作答習(xí)慣以及熟悉的試題類型．

高考；預(yù)估難度；實測難度；統(tǒng)計分析

1 問題提出

在“高考試題難度預(yù)估研究”[1]的文章中，研究者以2017年高考數(shù)學(xué)試題難度預(yù)估數(shù)據(jù)和實考的統(tǒng)計數(shù)據(jù)為基礎(chǔ)，討論了高考試題難度預(yù)估的策略、對預(yù)估數(shù)據(jù)進行統(tǒng)計分析的方法及對預(yù)估值的合理利用．2018年研究者繼續(xù)進行高考試題難度預(yù)估的研究工作，以期總結(jié)更精確的難度預(yù)估方法，得到更準確的預(yù)估結(jié)論．

2018年高考命題前，研究者向命題人員分析了2017年試題難度預(yù)估的結(jié)果，將教師的預(yù)估結(jié)果和實考數(shù)據(jù)進行對比，結(jié)合試題，分析產(chǎn)生誤差的原因．將命題人員分為難度預(yù)估偏高、比較準確和預(yù)估數(shù)值不夠穩(wěn)定3組，并對每個人進行了有針對性的預(yù)估注意事項提示．考后應(yīng)用上文中的方法，對照2018年實測統(tǒng)計結(jié)果，對命題人員的試題難度預(yù)估數(shù)據(jù)進行了統(tǒng)計分析．將兩年的預(yù)估結(jié)果進行對比分析，得到一些有意義的結(jié)論和啟示．

2 數(shù)據(jù)分析

2018年全國高考數(shù)學(xué)科使用3個卷種，即全國高考Ⅰ、Ⅱ、Ⅲ卷，因為數(shù)學(xué)科又分為文科試卷和理科試卷，所以一共有6份試卷．命題教師進行難度預(yù)估時，是針對使用該卷的省份的全體考生的平均水平預(yù)估該卷各個試題的實測難度，評估時一方面需要考慮試題本身的難度，另一方面需要考慮考生的水平．例如對Ⅰ卷文科試卷，需要考慮的是使用該卷的湖北、湖南、江西、安徽等省份考生的水平較高，另一方面就是文科考生的平均水平又低于理科考生，命題教師需要綜合各種考量，給出對每個試題的難度預(yù)估值．每個教師都對6套試卷的138個試題進行了難度預(yù)估．

難度預(yù)估研究的設(shè)計方案和統(tǒng)計方法與文[1]相同，教師給出每個試題的難度預(yù)估值后，一是把所有教師在每個試題的預(yù)估值進行平均，得出該題全體教師預(yù)估的平均難度；二是把每個教師在一份試卷預(yù)估的每個試題難度按分值進行加權(quán)平均，得出該教師對該份試卷的預(yù)估難度．因保密原因，隱去每個教師的姓名，只以編號代替．這里增加了對教師的個體分析、對預(yù)估偏差較大試題的分析．兩年的預(yù)估結(jié)果對比表明，教師的預(yù)估精度有所提高．

2.1 預(yù)估精度有所改進

在2017年的6套全國卷中，13位教師預(yù)估偏高的試題總計有1?008個，偏低的有786個，偏高與偏低試題數(shù)量的比值為1:0.78．從圖1可以看出，2018年14位教師預(yù)估偏高的試題總計有909個，偏低有1?023個，偏高與偏低試題數(shù)量的比值為1:1.13．估值偏高與偏低的試題數(shù)量比值更加接近1:1，與2017年的預(yù)估結(jié)果相比，總體預(yù)估值偏高的現(xiàn)象有所改善．

注：圖中正值表示專家預(yù)估值大于或等于實測值（通過率）的個數(shù)，負值表示專家預(yù)估值小于實測值（通過率）的個數(shù)．

圖2中柱體表示命題專家平均每道試題預(yù)估得分率大于實測得分率的值．由于是計算誤差值的代數(shù)和，所以存在誤差值正負相抵的情況．

2017年專家估計與實測難度平均誤差最高為0.056，最低為0.002，而且全部偏高．2018年專家預(yù)估與實測難度平均誤差最高為0.03，最低為-0.04，見圖2．教師預(yù)估數(shù)值有高有低，偏高與偏低的教師數(shù)量持平，說明教師的預(yù)估分布更加全面，有高有低的結(jié)果使全體教師平均后的評估結(jié)果更準確，更接近實測數(shù)值．

圖2 2018年專家預(yù)估與實測難度平均差異對比

再從教師預(yù)估與實測難度平均絕對值進行分析，2017年的最大值和最小值分別為0.142和0.115，2018年的最大值和最小值分別為0.133和0.095，見圖3，說明評估的絕對精度有所提高．

圖3 2018年專家預(yù)估與實測難度平均絕對差對比

圖3中柱體表示命題專家每道試題預(yù)估得分率與實測得分率之差的絕對值的平均數(shù)．由于是計算誤差值的絕對值的和，所以不存在誤差值正負相抵的情況．絕對值差可以用來量化描述命題專家預(yù)估得分率與實測得分率的接近程度，即預(yù)估的穩(wěn)定程度．

從表1每個命題教師預(yù)估值與實測值的相關(guān)性分析可以得出兩個結(jié)論．一是全體教師在每題的預(yù)估值的平均值與實測數(shù)據(jù)的相關(guān)系數(shù)高于每個教師的相關(guān)系數(shù)，說明集中群體的智慧評估的效果更好．比較2017年和2018年兩年的統(tǒng)計數(shù)據(jù)，回歸系數(shù)由1.144?7降低到1.070?3，更接近于1；截距由-0.106?1縮小到-0.037?4，相關(guān)系數(shù)由0.864提高到0.870?8，說明命題人員的評估值與實測值更加接近，預(yù)估結(jié)果有所改進．

2017年的2=0.745?9，從圖4可以看出，2018年的2=0.758?3，數(shù)值有所提高，說明預(yù)估的解釋度有所提高．

2017年命題人員對6套試卷難度的預(yù)估全部偏高，從0.01到0.06．從表2可以看出，2018年試卷的評估值有高有低，分布全面．

表1 2018年每個命題教師預(yù)估值與實測值的相關(guān)性分析

圖4 2018年教師預(yù)估平均值與實測難度散點圖

表2 教師整卷難度預(yù)估均值與整卷實測難度對比

圖5把6套試卷的所有題目進行編號并按照實測值從低到高排列；將每道試題對應(yīng)的教師平均預(yù)估難度畫成曲線圖．從宏觀來看，預(yù)估難度圍繞實測難度上下波動，雖然個別試題偏差較大，但總體走向一致，說明命題教師對試題的難易認知清晰，能夠總體把握．從微觀來看，在曲線的前半段，預(yù)估值比實測值偏高，在曲線的后半段，預(yù)估值偏低．教師對實測中較難試題的難度預(yù)估值偏容易，對實測中比較容易試題的難度預(yù)估值偏難，難度適中的試題難度估計較為準確．說明教師在進行難度估計時，具有趨中的心態(tài)，對較難或較易的試題不敢給出更低或更高的數(shù)值，對太易或太難的題出于對試題質(zhì)量評價的擔(dān)心，不會給出得分過高或過低的評價．對閱卷環(huán)節(jié)的具體評分標準不甚了解，對評分過程對試題難度的影響還缺乏實證的資料和研究，例如有兩個省份，全卷平均分相差20分左右，但最后一個大題的得分率相差無幾，即兩省的平均水平存在差距，但高水平的考生差距很?。畬υu卷教師評分質(zhì)量控制的一些要求，如分數(shù)分布、分數(shù)方差等，也可能造成評分趨中的情況．這一點與2017年相似，沒有大的改觀．

圖5 2018年教師平均預(yù)估難度與實測難度關(guān)系

2.2 典型試題預(yù)估結(jié)果分析

從圖5中可以看出，個別試題預(yù)估難度與實測難度差異較大，誤差分為偏高和偏低兩種情況．將2017年和2018年試題難度預(yù)估與實測難度差距較大的試題列成表3和表4．每年分別選取了預(yù)估偏高和偏低偏差最大的兩個題，表中差距的正值表示預(yù)估難度值高于實測難度值，負值表示預(yù)估難度值低于實測難度值．

表3 2017年試題難度預(yù)估與實測難度差距較大的試題

表4 2018年試題難度預(yù)估與實測難度差距較大的試題

通過對表3、表4的分析可以看到，難度預(yù)估差異較大試題的特點是：預(yù)估平均值偏高的試題都是題型比較新穎的試題，考生不熟悉題目的表述、解題的方法和答題的要求．預(yù)估平均值偏低的試題都是比較常規(guī)的試題，包括思考的深度要求不高，思維量不大，以常規(guī)計算為主的試題．下面以Ⅱ卷理科第2題和Ⅲ卷理科第18題為例進行分析．

例1（2018年Ⅱ卷理科第2題）

A．9 B．8 C．5 D．4

該題主要考查集合的概念和集合的表示方法，考查對圓的方程及其幾何意義的理解．要求考生找出圖中圓內(nèi)格點的數(shù)量[2]．教師預(yù)估的平均值為0.862?1，實測值為0.472．

閱卷了解到的情況表明，考生對二元數(shù)組表示的集合元素理解有誤，認為是兩個元素．其次從表5可以看出，選項C和D的干擾性最大，選擇的考生都達到20%左右，說明考生對格點的概念還沒有完全理解和掌握，只認為坐標軸上的點才是滿足條件的點，而(-1, 1)，(1, 1)，(0, 0)，(-1, -1)，(1, -1)等也是不等式的解．

表5 選項統(tǒng)計

例2（2018年Ⅲ卷理科第18題）

某工廠為提高生產(chǎn)效率，開展技術(shù)創(chuàng)新活動，提出了完成某項生產(chǎn)任務(wù)的兩種新的生產(chǎn)方式．為比較兩種生產(chǎn)方式的效率，選取40名工人，將他們隨機分成兩組，每組20人．第一組工人用第一種生產(chǎn)方式，第二組工人用第二種生產(chǎn)方式．根據(jù)工人完成生產(chǎn)任務(wù)的工作時間（單位：min）繪制了如下莖葉圖：

（1）根據(jù)莖葉圖判斷哪種生產(chǎn)方式的效率更高？并說明理由；

（2）求40名工人完成生產(chǎn)任務(wù)所需時間的中位數(shù)，并將完成生產(chǎn)任務(wù)所需時間超過和不超過的工人數(shù)填入下面的列聯(lián)表；

超過m不超過m 第一種生產(chǎn)方式第二種生產(chǎn)方式

（3）根據(jù)（2）中的列聯(lián)表，能否有99%的把握認為兩種生產(chǎn)方式的效率有差異？

該題考查考生對莖葉圖和獨立性檢驗原理的理解與應(yīng)用能力以及數(shù)據(jù)分析處理能力．教師預(yù)估的平均值為0.506?8，實測值為0.744．

該題第一問是開放性問題，參考答案給出了4個理由，考生只要答出其中的一個就可以得分．第二問是求出40名工作完成生產(chǎn)認為所需時間的中位數(shù)，并填寫列聯(lián)表．第三問是分析兩種生產(chǎn)方式是否有差異[2]．總體來說該題給出的條件具體、明確，設(shè)問直接，只需要按照公式進行計算，不需要進行更加深入的思考．所以該題得10分的考生達到12%，得滿分12分的考生達到28.8%．教師在評估的時候認為該題敘述較長，其中的數(shù)值較多，第三步還要進行一些計算，所以將該題評估為中等難度．從圖6可以看出，數(shù)學(xué)試卷總分在40分左右的考生，其在該題的得分率達到0.5以上．

圖6 2018年III卷理科第18題難度分布

該題預(yù)估偏低還有一個原因，就是自從新課標中統(tǒng)計與概率內(nèi)容增加后，由于是新增加的內(nèi)容，教師缺乏教學(xué)經(jīng)驗，相關(guān)的教學(xué)參考資料也不夠充分，所以考試的結(jié)果一直不很理想，歷年的統(tǒng)計與概率試題得分都偏低．受此影響，2018年命題教師對該題的預(yù)估值偏低．經(jīng)過十多年的教學(xué)實踐，教師積累了較多的教學(xué)經(jīng)驗，教學(xué)參考資料也在逐步豐富，所以教學(xué)效果有所改善，試題的得分率有所提高．

2.3 典型教師預(yù)估結(jié)果分析

比較兩年的預(yù)估結(jié)果，T3（T12[1]）（表示T3是文[1]中的T12教師，下同）老師是典型的兩年預(yù)估都偏高的教師，T12（T6[1]）和T7（T11[1]）兩位老師是先高后低的情況，T2（T2[1]）、T11（T3[1]）和T10（T10[1]）3位教師預(yù)測準確度兩年很高，兩年預(yù)估都偏低的老師不存在．

因為沒有兩年都估計偏低的教師，因此將教師分為難度預(yù)估偏高、比較準確和預(yù)估值不夠穩(wěn)定3組進行深入分析．可以發(fā)現(xiàn)重點高校的教師或科研水平比較高的教師一般預(yù)估值都高于實測值，原因應(yīng)該是其所教授的學(xué)生水平比較高或自己的思路比較靈活，這部分教師以自己的學(xué)生做參照或者以自己的水平做參照，認為一般的試題甚至較難的試題學(xué)生都應(yīng)該會做，所以預(yù)估結(jié)果偏高．一般高校的教師或主要從事教學(xué)工作的教師預(yù)估比較準確，因為他們所教的學(xué)生接近全國的平均水平，以這些學(xué)生為基準，預(yù)估的結(jié)果比較準確．預(yù)估值不夠穩(wěn)定的教師一般是參加高考命題時間較短的教師，他們對學(xué)生的水平還沒有形成比較清晰、穩(wěn)定的認識，沒有參照和依據(jù)的標準，所以一般預(yù)估的值比較低，而且估計的不夠準確、不夠穩(wěn)定．

3 思考與討論

（1）每年在難度預(yù)估以前，要將前一年教師預(yù)估結(jié)果與實測數(shù)據(jù)進行對比分析，并且根據(jù)每個人的不同的預(yù)估模式，進行有針對性地分析和提示，提出改進建議．這樣可以增強教師對學(xué)生的水平、作答習(xí)慣和所熟悉的題型的認識，進行主動的自我調(diào)控，有助于提高預(yù)估的準確性．

（2）多年參加命題工作的教師預(yù)估的難度比較準確，說明命題經(jīng)驗在預(yù)估難度時發(fā)揮了重要的作用．為使這些經(jīng)驗?zāi)軌騻鞒?，在整個命題組發(fā)揮作用，在每年的命題前布置命題任務(wù)和命題要求時，可以邀請這些教師介紹和交流自己的經(jīng)驗，互相借鑒，形成規(guī)律性的認識．

（3）要進一步加強對新教師的培訓(xùn)，不但是命題工作經(jīng)驗，而且包括難度預(yù)估的經(jīng)驗傳授，這將有助于提高新教師對試題難度預(yù)估的精度．

（4）一些新題型學(xué)生不夠熟悉，所以作答分數(shù)都低于預(yù)估分數(shù)．因此對高考命題時出現(xiàn)的新題型首先要加強試測，取得第一手資料，根據(jù)試測結(jié)果對全體考生進行數(shù)據(jù)模擬分析，得出新題型對難度的影響．在實際考試中使用新題型時，要加強研究，反復(fù)探討，根據(jù)試測的數(shù)據(jù)和模擬結(jié)果，集體預(yù)估校準，以便得到比較準確的估計．

（5）努力克服預(yù)估過程的趨中現(xiàn)象．在向教師分析前一年的預(yù)估結(jié)果時，要特別指出對難題預(yù)估偏高、對易題預(yù)估偏低的現(xiàn)象，要指導(dǎo)教師，對照往年的難題和易題，摒除趨中心理，真實預(yù)估難題和易題的作答難度，給出合理的估計．

（6）教師預(yù)估后的命題組集體平均值優(yōu)于個人的預(yù)估值，因此在每次預(yù)估以后，將命題組的集體預(yù)估值進行平均后反饋給教師，要求教師據(jù)此再進行預(yù)估，這樣第二次的預(yù)估值將更為準確．

（7）加強對中學(xué)教學(xué)情況和學(xué)生學(xué)習(xí)情況的調(diào)研，了解學(xué)生的真實水平、作答特點和作答習(xí)慣以及熟悉的題型．這樣能更好地預(yù)估試題難度，進而有針對性地調(diào)控試題難度，達到試題水平和考生水平的恰當契合．

（8）加強對于實測數(shù)據(jù)的統(tǒng)計分析與研究．實測難度受到題目難度、題型、考生群體水平、閱卷情況等多因素影響，可利用經(jīng)典測量理論、多元概化理論等測量方式，進一步研究難度與各個影響因素間的相互關(guān)系，并將研究結(jié)果反饋于教師，使其在預(yù)估難度的過程中發(fā)揮校正作用．

（9）對于各類題型的考生分數(shù)分布進行深度挖掘，總結(jié)閱卷教師在不同題型、不同難度試題上的評分方式與習(xí)慣．并針對具體情況在難度預(yù)估的過程中對結(jié)果進行修正與微調(diào)．

[1] 任子朝，佟威，趙軒，等．高考試題難度預(yù)估研究[J]．數(shù)學(xué)教育學(xué)報，2018，27（5）：13-16．

[2] 教育部考試中心．高考理科試題分析（語文、數(shù)學(xué)、英語分冊）2019年版[M]．北京：高等教育出版社，2018：164-165，232-235．

Research on Calibration and Improvement of Difficulty Estimate of College Entrance Examination Questions

REN Zi-zhao, TONG Wei, ZHAO Xuan

(National Education Examinations Authority, Beijing 100084, China)

Based on the analysis of the difficulty estimate results of the 2017 College Entrance Examination, this paper makes a more in-depth analysis of the difficulty estimate results of the 2018 College Entrance Examination. Before the prediction of 2018, explain the results of the difficulty estamate and analysis of 2017 test questions to the examiners in detail. Compare the predicted results of teachers with the actual test data. Combine the test questions, analyze the reasons for the errors, and give some suggestions for each person. After the actual test in 2018, we compare the predicted data with the measured data. The results show that the errors of the predicted data of the examiners are reduced, the accuracy of the predicted data is improved significantly, and the average predicted value of the examiner group is better than that of the individual. Therefore, in order to improve the accuracy of the difficulty prediction of the test questions, we should strengthen the training and feedback of the examiners, give targeted guidance to everyone, and carefully evaluate the new types of questions in the college entrance examination, discuss them collectively and draw conclusions. At the same time, we should strengthen the investigation of middle school teaching and students’ learning to understand the students' real level, answering characteristics, answering habits and familiar test types.

college entrance examination; estimated difficulty; measured difficulty; statistical analysis

2019-10-10

國家教育考試科研規(guī)劃2017年度課題——新高考不分文理科后的數(shù)學(xué)命題研究（GJK2017005）

任子朝（1961—），男，北京人，研究員，主要從事數(shù)學(xué)教育、教育測量研究．

G632.479

1004-9894（2019）06-0001-04

任子朝，佟威，趙軒．高考試題難度預(yù)估的校準與改進研究[J]．數(shù)學(xué)教育學(xué)報，2019，28（6）：1-4．

[責(zé)任編校：周學(xué)智、張楠]