胡恒瀟,董航遠(yuǎn)
(西安思源學(xué)院教育學(xué)院,陜西 西安 710038)
教育測(cè)量與評(píng)價(jià)是提升教育質(zhì)量的有效手段。隨著社會(huì)對(duì)教育質(zhì)量的關(guān)注度越來(lái)越高,教育質(zhì)量的評(píng)價(jià)方法也變得多樣化。根據(jù)《國(guó)家中期教育改革和規(guī)劃綱要2010-2020年》,不僅要改善教育課程的質(zhì)量,還要強(qiáng)調(diào)教育課程測(cè)量和評(píng)價(jià)的效果方法。學(xué)業(yè)成就測(cè)試是檢查教學(xué)質(zhì)量的主要手段,不僅可以鞏固課堂所教授的內(nèi)容,檢驗(yàn)教學(xué)是否有效,促進(jìn)教師改進(jìn)教學(xué)方法,提升教學(xué)質(zhì)量。同時(shí),為以后考試題目的修改與篩選和試題庫(kù)的建立提供基礎(chǔ)。目前,教育測(cè)量理論中常用的理論有經(jīng)典測(cè)量理論(Classical Test Theory)和項(xiàng)目反應(yīng)理論(Item Response Theory)。
經(jīng)典測(cè)量理論(Classical Test Theory, CTT)始于19世紀(jì)末,于20世紀(jì)30年代形成較為完整的體系。由于其模型簡(jiǎn)單,容易操作,至今為止在測(cè)量領(lǐng)域被廣泛應(yīng)用。在經(jīng)典測(cè)量理論中,觀察分?jǐn)?shù)假設(shè)為真分?jǐn)?shù)和誤差分?jǐn)?shù),其模型如下所示:
X=T+E
X:觀察分?jǐn)?shù)
T:真分?jǐn)?shù)
E:誤差
第一,如果某被試者的分?jǐn)?shù)是90分,與其說(shuō)該分?jǐn)?shù)是學(xué)生的真正能力,不如說(shuō)是被觀察到的,即被測(cè)量的分?jǐn)?shù)。該被測(cè)量的分?jǐn)?shù)是指,未知的真正能力分?jǐn)?shù)和測(cè)試過(guò)程中可能出現(xiàn)的誤差分?jǐn)?shù)構(gòu)成
第三,觀察分?jǐn)?shù)是真分?jǐn)?shù)和誤差分?jǐn)?shù)之和。
難度是題目的難易程度,也稱難度系數(shù)(P),指在全體測(cè)試者中回答正確的測(cè)試者比率,即正確答案的概率。一般情況下,同樣的試題,大部分測(cè)試者都能答對(duì),此試題的難度較小。難度系數(shù)越大,就意味試題越簡(jiǎn)單。在計(jì)算試題的難度,應(yīng)分為客觀題難度的計(jì)算和主觀題難度的計(jì)算。具體公式如下所示:
P:難度
N:總被試數(shù)
R:答對(duì)人數(shù)
在計(jì)算完每道題的難度后,可以通過(guò)對(duì)每部分題目的難度加權(quán)平均得出整套題的難度系數(shù)。確定了難度系數(shù)后,需要考慮測(cè)試的目的,如果是選拔性考試,難度系數(shù)值可較小,如果是學(xué)業(yè)測(cè)試,難度系數(shù)可較大。目前沒(méi)有絕對(duì)的難度評(píng)價(jià)標(biāo)準(zhǔn),各學(xué)者都有提出各自的評(píng)價(jià)標(biāo)準(zhǔn)。本研究使用了Cangelosi(1990)提出的題目難度評(píng)價(jià)標(biāo)準(zhǔn),難度系數(shù)為0.25以下,題目困難;0.25-0.75,難度適中;0.75以上,題目簡(jiǎn)單。
區(qū)分度是指具體試題把不同水平的人區(qū)分開的程度,即題目的鑒別力。如,能力高的學(xué)生在各題中答對(duì)正確答案的比率要比能力低的學(xué)生答對(duì)正確答案的比率高。如果差異較少或沒(méi)有差異,那么這道題目的區(qū)分度較低或沒(méi)有區(qū)分度。區(qū)分度越高,越能區(qū)分出不同水平的學(xué)生,此題的價(jià)值也就越大。根據(jù)測(cè)驗(yàn)及題目的計(jì)分方式不同,一般情況下可以用下列公式來(lái)求得:一是點(diǎn)雙列相關(guān)系數(shù)法,求考生總分與答對(duì)率之間的相關(guān)性。該方法適用于正確答案為1,錯(cuò)誤答案為0,且考試總分為連續(xù)變量(如100分制的考試,89、91、98為連續(xù)變量)的情況。二是雙列相關(guān)系數(shù)法。雙列相關(guān)系數(shù)值反映了考生總分與答對(duì)率之間的相關(guān)性。雙柱相關(guān)系數(shù)比判別指數(shù)更準(zhǔn)確,所以在大規(guī)??荚囍?,一般用它來(lái)表現(xiàn)試題的判別性。測(cè)量學(xué)家Ebel(1965)提出了題目難度評(píng)價(jià)標(biāo)準(zhǔn),區(qū)分度值在0.4以上,區(qū)分度優(yōu)良;0.3-0.39,區(qū)分度合格;0.2-0.29區(qū)分度較低,需修改;0.19以下,沒(méi)有區(qū)分度要淘汰。
項(xiàng)目反應(yīng)理論,IRT)是教育測(cè)量領(lǐng)域的另一個(gè)代表性理論。它由瑟斯頓(1925)提出,由洛德和伯恩鮑姆發(fā)展而來(lái),洛德和諾維克(1968)的經(jīng)典教科書被認(rèn)為是心理測(cè)量方法的里程碑。項(xiàng)目反應(yīng)理論以數(shù)理統(tǒng)計(jì)理論為基礎(chǔ),采用非線性概率形式構(gòu)建反應(yīng)的概率模型。在此前提下,根據(jù)不同能力水平考生可能和實(shí)際的正確答案,構(gòu)建相應(yīng)的數(shù)學(xué)模型,運(yùn)用統(tǒng)計(jì)技術(shù)控制實(shí)驗(yàn)誤差。從試題入手,將試題對(duì)測(cè)量的影響參數(shù)化,從而準(zhǔn)確估計(jì)被試的能力。
項(xiàng)目反應(yīng)理論是建立在強(qiáng)假設(shè)的基礎(chǔ)之上。首先是能力單維性假設(shè)(unidimensionality)。所謂能力單維性假設(shè)是指,在測(cè)量試題時(shí)所有試題測(cè)量的必須是被試的同一種能力。同時(shí)需要滿足局部獨(dú)立性假設(shè)(local independence)。局部獨(dú)立性假設(shè)是指試題之間對(duì)被試的影響相互獨(dú)立互不干擾,被試之間的答對(duì)率也是相互獨(dú)立互不干擾。
項(xiàng)目特征曲線是用來(lái)衡量被試對(duì)某個(gè)項(xiàng)目能夠做出正確反應(yīng)的概率的曲線。影響項(xiàng)目特征曲線的因素不僅包括項(xiàng)目的參數(shù),還包括被試的潛在特征。項(xiàng)目特征曲線的X軸代表被試的能力水平,Y軸是答對(duì)答案的概率,被試的水平與題目本身擬合得較好的項(xiàng)目特征曲線的形狀為S型。
項(xiàng)目反應(yīng)理論有多種數(shù)學(xué)最廣泛的一個(gè)模型,因參數(shù)的不同可以分為單參數(shù)Logistic模型(又稱Rasch模型)、雙參數(shù)Logistic模型和三參數(shù)Logistic模型。三參數(shù)Logistic模型主要由難度、區(qū)分度、猜測(cè)度構(gòu)成其項(xiàng)模型,通常通過(guò)這些模型對(duì)項(xiàng)目的特征進(jìn)行描述。Logistic是使用目特征曲線。如圖1所示:a:區(qū)分度;b:難度;c:猜測(cè)度;θ:能力。
區(qū)分度:如圖1所示,拐點(diǎn)處的斜率a,代表測(cè)驗(yàn)項(xiàng)目的區(qū)分度,其值越大,說(shuō)明區(qū)分度越高。韓國(guó)教授(2009)提出了題目區(qū)分度評(píng)價(jià)標(biāo)準(zhǔn),在logistics模型中,區(qū)分度為0.00-0.34,無(wú)區(qū)分度;0.35-0.54,區(qū)分度低;0.65-1.34,區(qū)分度適中;1.35-1.69,區(qū)分度高;1.70以上,區(qū)分度非常高;+∞區(qū)分度完美。
難度:如圖1所示,拐點(diǎn)處所對(duì)應(yīng)的θ(拐點(diǎn)在橫軸的投影)代表測(cè)驗(yàn)項(xiàng)目的難度b,其值越大,說(shuō)明難度越大。韓國(guó)教授(2009)提出了題目難度評(píng)價(jià)標(biāo)準(zhǔn),難度系數(shù)在-0.2以下,非常簡(jiǎn)單;-0.2--0.5,簡(jiǎn)單;-0.5-0.5,難度適中;0.5-2.0,題目困難;2.0以上,題目非常困難。
猜測(cè)度:圖中特征曲線的截距c,表示項(xiàng)目的猜測(cè)指數(shù)。題目的推測(cè)指數(shù)是指,完全不具備能力的被試答對(duì)題目的概率。題目的推測(cè)指數(shù)越高,代表題目質(zhì)量不佳,區(qū)分度越低。
經(jīng)典測(cè)量理論CTT 項(xiàng)目反應(yīng)理論IRT模型 線性 非線性與樣本關(guān)系 項(xiàng)目參數(shù)依賴于樣本 項(xiàng)目參數(shù)獨(dú)立于樣本樣本大小 200-500 根據(jù)模型而變化,一般500以上能力指標(biāo) 總分 能力參數(shù)測(cè)量精度 信度估計(jì) 能力參數(shù)難度 答對(duì)人數(shù)/總?cè)藬?shù) 項(xiàng)目特征曲線(ICC)中0.5對(duì)應(yīng)的能力區(qū)分度 總分與項(xiàng)目分?jǐn)?shù)的相關(guān)關(guān)系 項(xiàng)目特征曲線(ICC)中項(xiàng)目難度的斜率
經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論是教育測(cè)量理論中的兩個(gè)重要理論。經(jīng)典測(cè)量理論的模型簡(jiǎn)單,容易操作,對(duì)于小規(guī)模的測(cè)試,利用經(jīng)典測(cè)量理論進(jìn)行教育測(cè)量是十分實(shí)用的。作為一種傳統(tǒng)方法,它已經(jīng)發(fā)展得比較完善,但仍有一些局限性:如采用的質(zhì)量指標(biāo)嚴(yán)重依賴樣本;信度估計(jì)精度不高;參數(shù)指標(biāo)之間配套性較差。項(xiàng)目反應(yīng)理論克服了經(jīng)典測(cè)量理論在教育測(cè)量技術(shù)上的困境,將被試特質(zhì)與其在項(xiàng)目上的反應(yīng)聯(lián)系起來(lái),具有項(xiàng)目參數(shù)獨(dú)立于樣本;被試與試題在同一量表之中;通過(guò)信息函數(shù)估計(jì)測(cè)量誤差等優(yōu)勢(shì),但由于測(cè)試條件要求嚴(yán)格,樣本數(shù)量過(guò)大,被試范圍要廣,操作復(fù)雜等局限,因此,兩種測(cè)量理論各有利弊,隨著教育測(cè)量理論的發(fā)展,這兩種理論也將不斷得到完善。在不同的評(píng)價(jià)目的、評(píng)價(jià)對(duì)象、評(píng)價(jià)條件下,選擇適當(dāng)?shù)慕逃郎y(cè)量理論,以獲得更加有效全面的信息,促進(jìn)教育質(zhì)量的提升。