經(jīng)典測(cè)量理論與項(xiàng)目反應(yīng)理論的對(duì)比研究

2021-03-26 06:50:46胡恒瀟董航遠(yuǎn)

科技經(jīng)濟(jì)導(dǎo)刊 2021年6期

胡恒瀟，董航遠(yuǎn)

（西安思源學(xué)院教育學(xué)院，陜西西安 710038）

1.引言

教育測(cè)量與評(píng)價(jià)是提升教育質(zhì)量的有效手段。隨著社會(huì)對(duì)教育質(zhì)量的關(guān)注度越來(lái)越高，教育質(zhì)量的評(píng)價(jià)方法也變得多樣化。根據(jù)《國(guó)家中期教育改革和規(guī)劃綱要2010-2020年》，不僅要改善教育課程的質(zhì)量，還要強(qiáng)調(diào)教育課程測(cè)量和評(píng)價(jià)的效果方法。學(xué)業(yè)成就測(cè)試是檢查教學(xué)質(zhì)量的主要手段，不僅可以鞏固課堂所教授的內(nèi)容，檢驗(yàn)教學(xué)是否有效，促進(jìn)教師改進(jìn)教學(xué)方法，提升教學(xué)質(zhì)量。同時(shí)，為以后考試題目的修改與篩選和試題庫(kù)的建立提供基礎(chǔ)。目前，教育測(cè)量理論中常用的理論有經(jīng)典測(cè)量理論（Classical Test Theory）和項(xiàng)目反應(yīng)理論（Item Response Theory）。

2.經(jīng)典測(cè)量理論(Classical Test Theory,CTT)

經(jīng)典測(cè)量理論(Classical Test Theory， CTT)始于19世紀(jì)末，于20世紀(jì)30年代形成較為完整的體系。由于其模型簡(jiǎn)單，容易操作，至今為止在測(cè)量領(lǐng)域被廣泛應(yīng)用。在經(jīng)典測(cè)量理論中，觀察分?jǐn)?shù)假設(shè)為真分?jǐn)?shù)和誤差分?jǐn)?shù)，其模型如下所示：

X=T+E

X：觀察分?jǐn)?shù)

T：真分?jǐn)?shù)

E：誤差

2.1 基本假設(shè)

第一，如果某被試者的分?jǐn)?shù)是90分，與其說(shuō)該分?jǐn)?shù)是學(xué)生的真正能力，不如說(shuō)是被觀察到的，即被測(cè)量的分?jǐn)?shù)。該被測(cè)量的分?jǐn)?shù)是指，未知的真正能力分?jǐn)?shù)和測(cè)試過(guò)程中可能出現(xiàn)的誤差分?jǐn)?shù)構(gòu)成

第三，觀察分?jǐn)?shù)是真分?jǐn)?shù)和誤差分?jǐn)?shù)之和。

2.2 難度(Item Difficulty)

難度是題目的難易程度，也稱難度系數(shù)（P），指在全體測(cè)試者中回答正確的測(cè)試者比率，即正確答案的概率。一般情況下，同樣的試題，大部分測(cè)試者都能答對(duì)，此試題的難度較小。難度系數(shù)越大，就意味試題越簡(jiǎn)單。在計(jì)算試題的難度，應(yīng)分為客觀題難度的計(jì)算和主觀題難度的計(jì)算。具體公式如下所示：

P：難度

N：總被試數(shù)

R：答對(duì)人數(shù)

在計(jì)算完每道題的難度后，可以通過(guò)對(duì)每部分題目的難度加權(quán)平均得出整套題的難度系數(shù)。確定了難度系數(shù)后，需要考慮測(cè)試的目的，如果是選拔性考試，難度系數(shù)值可較小，如果是學(xué)業(yè)測(cè)試，難度系數(shù)可較大。目前沒(méi)有絕對(duì)的難度評(píng)價(jià)標(biāo)準(zhǔn)，各學(xué)者都有提出各自的評(píng)價(jià)標(biāo)準(zhǔn)。本研究使用了Cangelosi（1990）提出的題目難度評(píng)價(jià)標(biāo)準(zhǔn)，難度系數(shù)為0.25以下，題目困難；0.25-0.75，難度適中；0.75以上，題目簡(jiǎn)單。

2.3 區(qū)分度

區(qū)分度是指具體試題把不同水平的人區(qū)分開的程度，即題目的鑒別力。如，能力高的學(xué)生在各題中答對(duì)正確答案的比率要比能力低的學(xué)生答對(duì)正確答案的比率高。如果差異較少或沒(méi)有差異，那么這道題目的區(qū)分度較低或沒(méi)有區(qū)分度。區(qū)分度越高，越能區(qū)分出不同水平的學(xué)生，此題的價(jià)值也就越大。根據(jù)測(cè)驗(yàn)及題目的計(jì)分方式不同，一般情況下可以用下列公式來(lái)求得：一是點(diǎn)雙列相關(guān)系數(shù)法，求考生總分與答對(duì)率之間的相關(guān)性。該方法適用于正確答案為1，錯(cuò)誤答案為0，且考試總分為連續(xù)變量（如100分制的考試，89、91、98為連續(xù)變量）的情況。二是雙列相關(guān)系數(shù)法。雙列相關(guān)系數(shù)值反映了考生總分與答對(duì)率之間的相關(guān)性。雙柱相關(guān)系數(shù)比判別指數(shù)更準(zhǔn)確，所以在大規(guī)?？荚囍?，一般用它來(lái)表現(xiàn)試題的判別性。測(cè)量學(xué)家Ebel（1965）提出了題目難度評(píng)價(jià)標(biāo)準(zhǔn)，區(qū)分度值在0.4以上，區(qū)分度優(yōu)良；0.3-0.39，區(qū)分度合格；0.2-0.29區(qū)分度較低，需修改；0.19以下，沒(méi)有區(qū)分度要淘汰。

3.項(xiàng)目反應(yīng)理論（Item Response Theory,IRT）

項(xiàng)目反應(yīng)理論，IRT)是教育測(cè)量領(lǐng)域的另一個(gè)代表性理論。它由瑟斯頓(1925)提出，由洛德和伯恩鮑姆發(fā)展而來(lái)，洛德和諾維克(1968)的經(jīng)典教科書被認(rèn)為是心理測(cè)量方法的里程碑。項(xiàng)目反應(yīng)理論以數(shù)理統(tǒng)計(jì)理論為基礎(chǔ)，采用非線性概率形式構(gòu)建反應(yīng)的概率模型。在此前提下，根據(jù)不同能力水平考生可能和實(shí)際的正確答案，構(gòu)建相應(yīng)的數(shù)學(xué)模型，運(yùn)用統(tǒng)計(jì)技術(shù)控制實(shí)驗(yàn)誤差。從試題入手，將試題對(duì)測(cè)量的影響參數(shù)化，從而準(zhǔn)確估計(jì)被試的能力。

3.1 基本假設(shè)

項(xiàng)目反應(yīng)理論是建立在強(qiáng)假設(shè)的基礎(chǔ)之上。首先是能力單維性假設(shè)（unidimensionality）。所謂能力單維性假設(shè)是指，在測(cè)量試題時(shí)所有試題測(cè)量的必須是被試的同一種能力。同時(shí)需要滿足局部獨(dú)立性假設(shè)（local independence）。局部獨(dú)立性假設(shè)是指試題之間對(duì)被試的影響相互獨(dú)立互不干擾，被試之間的答對(duì)率也是相互獨(dú)立互不干擾。

3.2 項(xiàng)目特征曲線(Item Characteristic Curve: ICC)

項(xiàng)目特征曲線是用來(lái)衡量被試對(duì)某個(gè)項(xiàng)目能夠做出正確反應(yīng)的概率的曲線。影響項(xiàng)目特征曲線的因素不僅包括項(xiàng)目的參數(shù)，還包括被試的潛在特征。項(xiàng)目特征曲線的X軸代表被試的能力水平，Y軸是答對(duì)答案的概率，被試的水平與題目本身擬合得較好的項(xiàng)目特征曲線的形狀為S型。

項(xiàng)目反應(yīng)理論有多種數(shù)學(xué)最廣泛的一個(gè)模型，因參數(shù)的不同可以分為單參數(shù)Logistic模型（又稱Rasch模型）、雙參數(shù)Logistic模型和三參數(shù)Logistic模型。三參數(shù)Logistic模型主要由難度、區(qū)分度、猜測(cè)度構(gòu)成其項(xiàng)模型，通常通過(guò)這些模型對(duì)項(xiàng)目的特征進(jìn)行描述。Logistic是使用目特征曲線。如圖1所示：a：區(qū)分度；b：難度；c：猜測(cè)度；θ：能力。

3.3 難度、區(qū)分度、猜測(cè)度

區(qū)分度：如圖1所示，拐點(diǎn)處的斜率a，代表測(cè)驗(yàn)項(xiàng)目的區(qū)分度，其值越大，說(shuō)明區(qū)分度越高。韓國(guó)教授(2009)提出了題目區(qū)分度評(píng)價(jià)標(biāo)準(zhǔn)，在logistics模型中，區(qū)分度為0.00-0.34，無(wú)區(qū)分度；0.35-0.54，區(qū)分度低；0.65-1.34，區(qū)分度適中；1.35-1.69，區(qū)分度高；1.70以上，區(qū)分度非常高；+∞區(qū)分度完美。

難度：如圖1所示，拐點(diǎn)處所對(duì)應(yīng)的θ(拐點(diǎn)在橫軸的投影)代表測(cè)驗(yàn)項(xiàng)目的難度b，其值越大，說(shuō)明難度越大。韓國(guó)教授(2009)提出了題目難度評(píng)價(jià)標(biāo)準(zhǔn)，難度系數(shù)在-0.2以下，非常簡(jiǎn)單；-0.2--0.5，簡(jiǎn)單；-0.5-0.5，難度適中；0.5-2.0，題目困難；2.0以上，題目非常困難。

猜測(cè)度：圖中特征曲線的截距c，表示項(xiàng)目的猜測(cè)指數(shù)。題目的推測(cè)指數(shù)是指，完全不具備能力的被試答對(duì)題目的概率。題目的推測(cè)指數(shù)越高，代表題目質(zhì)量不佳，區(qū)分度越低。

4.經(jīng)典測(cè)量理論與項(xiàng)目反應(yīng)理論的對(duì)比

經(jīng)典測(cè)量理論CTT 項(xiàng)目反應(yīng)理論IRT模型線性非線性與樣本關(guān)系項(xiàng)目參數(shù)依賴于樣本項(xiàng)目參數(shù)獨(dú)立于樣本樣本大小 200-500 根據(jù)模型而變化，一般500以上能力指標(biāo) 總分能力參數(shù)測(cè)量精度信度估計(jì) 能力參數(shù)難度答對(duì)人數(shù)/總?cè)藬?shù) 項(xiàng)目特征曲線（ICC）中0.5對(duì)應(yīng)的能力區(qū)分度總分與項(xiàng)目分?jǐn)?shù)的相關(guān)關(guān)系項(xiàng)目特征曲線（ICC）中項(xiàng)目難度的斜率

經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論是教育測(cè)量理論中的兩個(gè)重要理論。經(jīng)典測(cè)量理論的模型簡(jiǎn)單，容易操作，對(duì)于小規(guī)模的測(cè)試，利用經(jīng)典測(cè)量理論進(jìn)行教育測(cè)量是十分實(shí)用的。作為一種傳統(tǒng)方法，它已經(jīng)發(fā)展得比較完善，但仍有一些局限性：如采用的質(zhì)量指標(biāo)嚴(yán)重依賴樣本；信度估計(jì)精度不高；參數(shù)指標(biāo)之間配套性較差。項(xiàng)目反應(yīng)理論克服了經(jīng)典測(cè)量理論在教育測(cè)量技術(shù)上的困境，將被試特質(zhì)與其在項(xiàng)目上的反應(yīng)聯(lián)系起來(lái)，具有項(xiàng)目參數(shù)獨(dú)立于樣本；被試與試題在同一量表之中；通過(guò)信息函數(shù)估計(jì)測(cè)量誤差等優(yōu)勢(shì)，但由于測(cè)試條件要求嚴(yán)格，樣本數(shù)量過(guò)大，被試范圍要廣，操作復(fù)雜等局限，因此，兩種測(cè)量理論各有利弊，隨著教育測(cè)量理論的發(fā)展，這兩種理論也將不斷得到完善。在不同的評(píng)價(jià)目的、評(píng)價(jià)對(duì)象、評(píng)價(jià)條件下，選擇適當(dāng)?shù)慕逃郎y(cè)量理論，以獲得更加有效全面的信息，促進(jìn)教育質(zhì)量的提升。