吳小平
一份較為重要的數(shù)學(xué)試卷(如:學(xué)期考試或?qū)W年考試,最后上升至中考或高考)一定會(huì)有相應(yīng)的評定參考指標(biāo)來進(jìn)行評價(jià);既有定量分析方法,也會(huì)有定性分析方法,用來衡量或矯正試卷命制的達(dá)成程度,既符合國家課程改革的理念與數(shù)學(xué)學(xué)科的思想方法,又適合本次考試的任務(wù)目標(biāo)(學(xué)業(yè)的水平性考試或?qū)W業(yè)的選拔性考試)。
常用的教育測量學(xué)將對試卷進(jìn)行定量的四個(gè)維度的統(tǒng)計(jì)、分析;試卷分析的四個(gè)度:難度、區(qū)分度、信度、效度。
一、難度
難度是指試卷中試題的難易程度,它是衡量試卷質(zhì)量的一個(gè)重要指標(biāo)參數(shù),一般的把它和區(qū)分度的共同影響度,確定著試卷的鑒別功能。一般認(rèn)為,此類升學(xué)性考試的每一個(gè)試題的難度指數(shù)在0.3-0.85之間比較合適,高于0.85和低于0.3的試題不能太多。整份試卷的平均難度最好在0.50~0.65之間,本省中考數(shù)學(xué)試卷難度系數(shù)約為0.60,高考數(shù)學(xué)試卷難度指數(shù)約為0.50。
1.難度的通常定義
在樣本容量n有一定大的前提下,難度系數(shù) ,x為某題得分的平均分?jǐn)?shù),w為該題的滿分;這種定義法,難度值小時(shí)表明試題難,難度值大時(shí)表明試題容易;最小值為0,最大值為1,0≤P ≤1。
2.難度系數(shù)的計(jì)算
為了簡約的統(tǒng)計(jì),通常無論是主觀性試題、還是客觀性試題的難度,其難度系數(shù)均以公式 為準(zhǔn),x為某題得分的平均分?jǐn)?shù),w為該題的滿分;因而整張?jiān)嚲淼碾y度系數(shù)也以公式 為準(zhǔn),x為統(tǒng)計(jì)容量n(位)考生得分的平均分?jǐn)?shù),w為該試卷的滿分值。
3.一般升學(xué)性考試試題難度系數(shù)與難度評價(jià)
二、區(qū)分度
區(qū)分度是區(qū)分應(yīng)試者能力水平高低的指標(biāo)。試題區(qū)分度高,可以拉開不同水平應(yīng)試者分?jǐn)?shù)的距離,使高水平者得高分,低水平者得低分,而區(qū)分度低則反映不出不同應(yīng)試者的水平差異。
試題的區(qū)分度與試題的難度直接相關(guān),通常來說,中等難度的試題區(qū)分度較高,容易題或過難試題的區(qū)分度就要低一些。另外,試題的區(qū)分度也與應(yīng)試者的水平分化密切相關(guān),一般的試題難度只有等于或略低于應(yīng)試者的實(shí)際能力,其區(qū)分性能才能充分顯現(xiàn)出來。
1.區(qū)分度的計(jì)算方法:
通常的基本公式: (D代表區(qū)分度系數(shù), 代表高分組(設(shè)統(tǒng)計(jì)對象得分較高的前27%名次考生為高分組)得分的均分值, 代表低分組(設(shè)統(tǒng)計(jì)對象得分較低的后27%名次考生為低分組)得分的均分值, 代表該題的滿分值。一般認(rèn)為:某一道試題的區(qū)分度系數(shù)高于0.4,試題的區(qū)分度較好;若試題的區(qū)分度系數(shù)低于0.2,則試題難以被接受。
2.區(qū)分度系數(shù)與試題的區(qū)分度評價(jià)
三、信度
信度是指測得結(jié)果的一致性或穩(wěn)定性,穩(wěn)定性越大,意味著測評結(jié)果越可靠。相反,如果用某套試題對于同一應(yīng)試者先后進(jìn)行兩次測試,結(jié)果第一次得80分,第二次得50分,結(jié)果的可靠性就值得懷疑了。
信度通常以兩次測評結(jié)果的相關(guān)系數(shù)來表示。相關(guān)系數(shù)為1,表明測評工具如試卷完全可靠;相關(guān)系數(shù)為0,則表明該試卷完全不可靠。一般來說,要求信度在0.7以上。
1.評價(jià)信度的方法:
(1)重測法,(2)復(fù)本法—副題,(3)折半法,或者說:用再測信度、復(fù)本信度和內(nèi)部一致信度三種方法來進(jìn)行評估。
再測信度是指將同一試卷在相同的條件下對同一組考生先后實(shí)施兩次,兩次測評結(jié)果的相關(guān)系數(shù)。
復(fù)本信度是指用兩份或幾份在構(gòu)想、內(nèi)容、難度、題型和題量等方面都平行的試卷進(jìn)行測試,測評結(jié)果之間的相關(guān)系數(shù)。
內(nèi)部一致信度是指試卷內(nèi)部各題之間的一致性,通常是將試卷一分為二,然后計(jì)算一半試卷與另一半試卷之間的相關(guān)系數(shù)。
2.對試卷的信度評價(jià)
參照《全國中考數(shù)學(xué)考試評價(jià)指標(biāo)量表(2007年修訂版)》,對試卷的信度評價(jià)可歸結(jié)以下四方面:①、試卷所規(guī)定的系統(tǒng)誤差小,公平性能夠?qū)崿F(xiàn);②、試卷所賦予的評分標(biāo)準(zhǔn),準(zhǔn)確無理解歧義;③、試卷的陳述準(zhǔn)確無歧義;④、試卷呈現(xiàn)規(guī)范不會(huì)導(dǎo)致考生產(chǎn)生理解歧義。其操作性能好,較好處理。
四、效度
效度是一個(gè)測試能夠測試出它所要測試的東西的程度,即測試結(jié)果與測試目標(biāo)的符合程度。
任何測試工具,無論其它方面有多好,若效度太低,測試的結(jié)果不是它要測試的東西(如用英語試卷測試學(xué)生的數(shù)學(xué)思維能力,或者數(shù)學(xué)試卷測試諸如英語翻譯、理解能力等偏頗內(nèi)容),那么,對目前所要測試的東西,這個(gè)測試將是無價(jià)值的。
由于心理現(xiàn)象本身的特點(diǎn),測評的效度尤為重要。心理屬于精神方面的東西,目前人們還無法直接觀察它,只能通過一個(gè)人的行為模式或者對測試題目的反應(yīng),來推論其心理特質(zhì)。如智力水于主要是借助于個(gè)體對一些問題的反應(yīng)及正誤等結(jié)果來推斷的。
1.效度是一個(gè)相對概念。效度是一個(gè)相對概念,即效度只有高低之分,沒有全部有效和全部無效之分。效度從種類上可分為卷面效度、內(nèi)容效度、構(gòu)想效度、預(yù)測效度和共時(shí)效度。
2.對試卷的效度評價(jià)。參照《全國中考數(shù)學(xué)考試評價(jià)指標(biāo)量表(2007年修訂版)》,對試卷的效度評價(jià)可歸結(jié)以下六方面:①、體現(xiàn)數(shù)學(xué)課程標(biāo)準(zhǔn)所規(guī)定的學(xué)習(xí)要求(包含內(nèi)容、結(jié)構(gòu)覆蓋率以及難度不超標(biāo));②、有利于考生展示在數(shù)學(xué)課程學(xué)習(xí)中取得的成就(整卷試題設(shè)計(jì)有利于學(xué)生展示、整卷的字圖式表述有利于考生的發(fā)揮、試題的背景公平、試題的閱讀量適合);③、試題的科學(xué)性;④、試卷評分標(biāo)準(zhǔn)的合理性;⑤、題型運(yùn)用的合理性;⑥、分?jǐn)?shù)與能力一致性的程度。
試卷的信度與效度的評價(jià)可操作性較難,不易被中學(xué)所量化測評。另外一份試卷質(zhì)量的分析常常通過兩個(gè)層面來進(jìn)行,試卷分析與試題分析。
對于已經(jīng)考過的試卷進(jìn)行科學(xué)評價(jià),對以后的命題將會(huì)起到非常重要的參考作用。一般的評價(jià)分析往往基于考試后對考試結(jié)果進(jìn)行分析。但是,如果能在考試后結(jié)合答卷情況來對試卷進(jìn)行科學(xué)地分析,發(fā)現(xiàn)和進(jìn)一步體會(huì)預(yù)設(shè)的亮點(diǎn),反思試卷中的瑕疵或不足,對于試卷命制今后的完善、完美更是有非常意義的價(jià)值。因此,如何建立對試卷的定量分析模型、質(zhì)性評價(jià)分析方法,包括預(yù)測考試的成績分布情況、考試的有效性和穩(wěn)定性等,就是一項(xiàng)很有意義的工作。